四国军中的纳什均衡
(弹子兵法QQ1076283235)
一.什么是纳什均衡
纳什均衡(Nash equilibrium),又称为非合作博弈均衡。由约翰·纳什((John Nash,1928.6.13—20150.5.23)在普林斯顿大学攻读博士学位时首先用严密的数学语言和简明的文字准确地定义了该平衡,故以其名字命名。简单地说就是,局中人单独改变策略不会得到更多收益的对局的策略组合,称为纳什均衡。
二.四国军棋中的纳什均衡
敌方固守下的协同作战博弈模型:在某盘对局中,假设A方对B方棋风较了解,即A方与B方战斗略有优势,同时C方对D方棋风较了解;但A方对D方、C方对B棋风不了解。当BD方死守时,①如果AC各自为战,A进攻B、同时C进攻D,由于进攻方消耗略大,因而尽管有棋风了解的优势,仍只能战平,A和C的收益为(0,0);②若A进攻D、同时C进攻B,由于棋风不了解,A和C主动进攻没有优势,反倒吃亏,其收益为(-1,-1);③如若采取协同进攻的方式,A和C同时进攻B,由于配合优势,收益变高,且A由于了解B的棋风,因而收益略高,收益为(3,1);④如若采取协同进攻的方式,A和C同时进攻D,由于配合优势,收益变高,且C由于了解D的棋风,因而收益略高,收益为(1,3)。
根据以上分析,我们得到表4-1的博弈矩阵。
表4-1 敌方固守下的协同作战
|
C方 |
||
进攻B方 |
进攻D方 |
||
A方 |
进攻B方 |
3,1 |
0,0 |
进攻D方 |
-1,-1 |
1,3 |
现在我们来用博弈矩阵来分析一下。在这个博弈中,A方没有严格优势策略,即“A方进攻B方”的策略并不严格优于“A方进攻D方”。因为,当“A方进攻B方”时,如果C方选择“进攻B方”收益为3,的确高于“A方进攻D方”所得的收益-1;但若此时C方选择不是“进攻B方”,而选择“进攻D方”,则A方收益变为0,而在此情况下,A方选择“进攻D方”收益为1,高于0。也就是说,当A方选择“进攻B方”,由于C方有两种选择,一种对A方有利,一种对A方不利,从而导致A方的选择不具有绝对的优势,因而A方没有严格优势策略。同理,C方亦也没有严格优势策略。在该博弈中,A方和C方也没有整体的劣势策略,因而不能采用以前的劣势策略消去法求解。
那么在这种博弈中,能否找到一种分析的方法,解决这个博弈的选择问题呢?
没有绝对的优势策略,我们就考虑相对的优势策略的组合。在该博弈中,A方和C方同时进攻B方,或者双方同时进攻D方,都是不错的策略组合。为什么说呢?因为一旦双方处于这两种组合中的任何一种,A方和C方都将不想单独改变策略。单独改变策略收益不能增加,反而减少。例如,若“A方和C方同时进攻B方”,此情况一旦发生,A方如果单独改变策略,转而进入D方,策略就变成“A方进攻B方,C方进攻D方”,此时,A方的收益由原来的3变为-1,收益减少,作为理性人的A方,是不会愿意的。同理,若B方如果单独改变策略,转而进攻D方,则其收益由1变为0,也非其所愿。可见,一旦处于“双方同时进攻B方”或“双方同时进攻D方”中的一种,双方都没有单独改变策略选择的动机,因而这两种策略组合都是稳定的,是一种平衡状态,这种平衡称之为“纳什均衡”。
三.纳什均衡的求解
3.1 划线法
略。
3.2 箭头法
略。
四. 多重纳什均衡及其甄别
4.1 效率优势标准
在“敌方固守下的协同作战”博弈模型中,如果我们加入一个假设: “A方的能力高于C方、B方的能力高于D”。我们再来分析这种“双方各有一家强一家弱”的对局收益。①若“A方和C方同时进攻B”,由于双方都对敌人较了解,加之配合优势,其收益为(3,1)。②当“A方进攻B方,C方进攻D方”时,尽管双方对敌人了解,但由于进攻一方损失会大于固守的一方,抵消了其信息的优势,A方和C方的收益分别(0,0)。③如果“A方进攻D方,C方进攻A”,此时尽管A方能力大于D方较多,但由于A方对D方不了解,因而收益打折扣,仅为2;同时,由于C方的能力低于A,且对A方不了解,明显处于劣势,其收益为-3。④假如“A方和C方同时进攻D”,A方能力虽优于D方,但了解不深,能力打折扣,C方了解D方,具有信息优势,因而双方收益为(2,1)。于是我们得到图4-2的收益矩阵。
图4-2 非相同能力下的“敌方固守下的协同作战”博弈矩阵
|
C方 |
||
进攻B方 |
进攻D方 |
||
A方 |
进攻B方 |
3,1 |
0,0 |
进攻D方 |
2,-3 |
2,1 |
我们采用划线法不难得到该博弈的纳什均衡,分别为:“A方和C方同时进攻B方”和“A方和C方同时进攻D方”。
由4-2博弈矩阵,我们知道,在该博弈中,存在着两个纳什均衡,即“A方和C方同时进攻B方”和“A方和C方同时进攻D方”。在这两种情况下,A和C均无改变策略的动机,因为这将得不偿失。这就带来一个问题,这两个平衡中,哪个平衡更符合现实,更易发生呢?
我们比较这两个策略就能发现:当采取“A方和C方同时进攻B方”时,两者的得益分别为3和1,两者的总收益为4;而采取“A方和C方同时进攻D方”时,两者的得益分别为2和1,总收益为3。根据理性人假设,A方和C方完全能够得到这样分析,即如果双方都选择“A方和C方同时进攻B方”,总体收益高于选择“A方和C方同时进攻D方”时的收益。因此,作为理性人,最终将采“A方和C方同时进攻D方”的策略。
翰约·哈萨尼(John C Harsanyi,1920 -2000)和莱茵哈德·泽尔腾(Reinhard Selten)认为,这种按支付大小遴选出来的纳什均衡,比其它纳什均衡具有更高效率,因而更稳定。并将这种评价方式称为“帕累托优势标准”。为什么叫“帕累托”优势呢?原来帕累托(Vilfredo Pareto,1948-1923)一个著名的意大利经济学家,提出了帕累托标准:在某种既定的资源配置状态,任何改变都不可能使至少一个人的状况变好,而又不使任何人的状况变坏。从博弈论的角度并结合图4-2讲,就是A方和B方的任何改变都不可能使A方或C方至少一个人的状况变好,且又不使另一方的状况变坏。当“A方和C方同时进攻D方”时,收益为(2,1),此时若A方和B方“同时改变”,变成“A方和C方同时进攻D方”,则A方的收益由2变为3。因此,“A方和C方同时进攻D方”就不具有帕累托优势,尚有改进的余地,属于“帕累托改进”。而“A方和C方同时进攻B方”,如果进行改变,则收益均不能增高,因而具有帕累托优势,实现了帕累托效率。
为什么既然同是纳什均衡,其中一个博弈从某种角度上看似乎更有优势呢?其根据的原因在于纳什均衡的定义,因为在纳什均衡的定义中强调的是:“双方都不想单独改变策略”,其中的“单独”就是原因所在。而帕累托效率的产生,是由于“双方同时改变策略”的结果。因而就使其中一个均衡在这种标准的情况下,似乎“优于”另一个均衡,更易出现。
4.2 风险优势标准
我们假设盘面局势如下:B方和D方均无司令,且各只有一个炸弹,B方兵力略优于D方,地雷无法障碍(敌人有充足的工兵);A方和C方兵力不占绝对优势,但均有司令,且均知道知道D方炸弹的位置,而双方都不知道B方炸弹的位置。①如果“A方和C方同时采用司令进攻B方”,有经验的棋友都知道,此时只需要双令子就可以立即攻下B方,所以我们将这个“A方和C方同时进攻B方”写成了“A方和C方同时采用司令进攻B方”,这样可以余下更多子粒,剩余的兵力优势明显。此时A方和C方完全可以因为子粒优势和配合优势灭掉D方,支付为(8,8)。②假若采取“A方进攻B方,C方进攻D方”,由于A方无法确知B方炸弹位置,司令难以最大程度发挥作用,兵力又不占优势,支付为0;当C方进攻D方时,由于C方知道D方最后一个炸弹的确切位置,因此司令可以有的放矢,蚕食D方,最后点杀D方,支付为7。③当A方进攻D方、C方进攻B方时,收益为(7,0)。④当“A方和C方同时采用司令进攻B方”时,能轻易攻下D方,,但余下兵力优势相对(双司令同时攻击B方)稍弱。此时A方和C方仍然完全可以因为子粒优势和配合优势灭掉D方,支付为(6,6)
根据以上分析,我们得到表4-3的博弈矩阵。
表4-3 敌方固守下的协同作战
|
C方 |
||
进攻B方 |
进攻D方 |
||
A方 |
进攻B方 |
8,8 |
0,7 |
进攻D方 |
7,0 |
6,6 |
根据前面的纳什均衡的求解,我们不难知道该博弈的两个纳什均衡为:“双方同时进攻B”和“双方同时进攻D”。根据前面的帕累托优势,我们认为,理性的A方和C方会更易得到“双方同时进攻B”这种结果。
但如果我们换一种思维方式,就会有不同的结果。对于A方来讲,如果进攻D方,保底可以获得6的支付,甚至可以得到7的支付(当C方选择进攻D方时)。但若进攻B,如果C方进攻D方,自己的收益将会只有0,根本得不到自己8的期望。因此,如果A方为“风险厌恶型”,他选择“进攻D方”的机率较大。由A方和C方的博弈收益是对称的,因此,同样的道理,若C方为“风险厌恶型”,他选择“进攻D方”的几率较大。正是由于A方和C方比较保守,为保险起见,最终得到的博弈结果是“双方同时进攻D”,收益为(6,6),而偏离我们前面讨论的“帕累托优势”。这里的“风险厌恶型”,是指的博弈方的一种习惯或者偏好,即博弈方存在性格方面的特点,下棋不喜欢冒险,这样的棋手在实战中也颇为常见。
这种“风险厌恶型”也可以用另一种方式来描述。假如A方认为,C方“进攻B方和进攻D方的概率都为50%”,则A方采取“进攻B方”策略的预期支付为:8×50%+0×50%=4;则A方采取“进攻D方”策略的预期支付为:7×50%+6×50%=6.5。由于6.5>4,因此,有理由相信,A方更易于采取“进攻D方”的策略。同理,C方亦更易于采取“进攻D方”的策略。因而,该博弈在实战中,更易出现“双方用司令进攻D方”的结果。当然,读者也许会说,概率各为50%并不科学,因为A方和C方完全有理由以更高概率选择“进攻D方”,因为D方炸弹位置明确啊!其实,以更高的概率选择“进攻D方”来计算,可以得到同样的结论。这种引入概率来进行风险比较的方法,称之为“期望赢利比较法”。
有部分经济学家采用“偏离损失比较法”来避免人为确定概率的缺点。我们仍以该博弈来解释这种方法。在该博弈中,我们首先把矩阵中的四个博弈策略组合由左到右、由上到下分别记为甲、乙、丙和丁。即“A方和C方同时进攻B方”为甲,“A方进攻B方、C方进攻B方”为乙,依此类推。①如果A方偏离左上角(“A方和C方同时进攻B方”的策略,即在“C方进攻B方”的情况下,改变策略去“进攻D方”,将使其支付由8变为7,损失了1的收益,记为“A方的离甲损失为1”。②若A方偏离右下角(“A方和B方同时进攻D方”的策略,即在“C方进攻D方”的情况下,改变策略去“进攻B方”,将使其支付由6变为0,损失了6的收益,记为“A方的离丁损失为6”③同理,假如C方偏离左上角(“A方和C方同时进攻B方”的策略,即在“A方进攻B方”的情况下,改变策略去“进攻D方”,将使其支付由8变为7,损失了1的收益,记为“C方的离甲损失为1”。④假若C方偏离丁的策略,在“A方进攻D方”的情况下,改变策略去“进攻B方”,则其支付由6变为0,损失了6的收益,记为“C方的离丁损失为6”。
A方的离甲损失×C方的离甲损失=1×1=1;
A方的离丁损失×C方的离丁损失=6×6=36。
比较两者:A方的离甲损失×C方的离甲损失< A方的离丁损失×C方的离丁损失。从而认为均衡甲比均衡丁具有风险优势。这就是“偏离损失比较法”。
笔者依4-3的矩阵杜撰出4-4的矩阵。
表4-4 实战中的某种博弈
|
C方 |
||
进攻B方 |
进攻D方 |
||
A方 |
进攻B方 |
100,0 |
200,0 |
进攻D方 |
198,0 |
198,0 |
根据博弈,不难分析出,丙对于乙的均衡具有风险优势。
在这种情况下,我们再按“偏离损失比较法”来进行计算:
A方的离乙损失×C方的离乙损失=2×0=0;
A方的离丙损失×C方的离丙损失=98×0=0。
此时:A方的离乙损失×C方的离乙损失= A方的离丙损失×C方的离丙损失=0,不满足“偏离损失比较法”的要求。此时该方法就失效了。故有人规定,在这种情况下,即当规定:当“C方的离乙损失= C方的离丙损失=0时”,按照“A方的离乙损失<
A方的离丙损失”,即判定丙策略具有风险优势。
在这里,弹子还有一个疑问,在“偏离损失比较法”,判定时为什么采用乘法呢?没有具体的意义。但是,如果我们可以考虑采用“加法”来作为判断的依据。比如在表4-3中:
“A方的离乙损失”+“C方的离乙损失”=1+1=2;
“A方的离丁损失”+“C方的离丁损失”=6+6=12。
由于“A方的离乙损失+C方的离乙损失”<“A方的离丁损失+C方的离丁损失”,因此后者才是风险优势。
该判据可以解释为,当两者发生共同偏离时,成本高于未偏离,即背离该均衡将会产生更多的损失,因而该均衡具有更高的抗风险优势。采用“加法”可以轻易解决“表4-4”风险优势策略的判定问题,从而避免乘法中出现的相等的情况。
(弹子窃喜,咦,咱们也可以改写博弈论的?下面我继续改写!)
帕累托标准VS风险优势标准
从“帕累托优势标准”到“风险优势标准”,我们掌握了当博弈中出现多个纳什均衡(多重均衡)时,如何进行筛选的问题。其基本的思路,就是“找一个可以证明其具有比另一个均衡更稳定更易出现的理由。”前者运用的是“博弈双方利益的总和”优势,后者运用的是“博弈双方共同偏离时的成本代价”优势。
由表4-3分析我们能够得到,存在甲和丁两个纳什均衡。当采用帕累托标准时,由于双方容易采取的均衡是
“同时进攻B方”,收益为(8,8),双方总收益为16。而采用风险优势标准,其收益为(6,6),偏离总代价为12(按弹子的计算方法)。
既然两种都有可能,各说各有理,那么新的问题又来了,在实战中哪个均衡更易出现呢?
关于两者哪个更佳的问题,范丹墨(E. van Damme)和维布尔(J.W.Weibull)认为,理论给帕累托优势以优先权,而风险优势只有当局中人面临不知道选择哪个均衡时才重要。因为,理性人的假设认为,博弈方都是“完全理性的”,A方和C方对博弈很了解,都能够很容易地推知,“同时进攻B方”会产生更多收益,因此双方都会选择进攻B方。也就是说,只要甲均衡比丁均衡总收益更多,双方就会选择进攻A方。然而,在现实棋局中,这似乎与我们的经验相左。因为,普通棋手可能缺乏足够的理性(彻底理性),可能会一时范糊涂而并不能选择“同时进攻B方”的策略。又或者两位棋风保守的友军棋手,就可能由于“风险厌恶”而选择“同时进攻D方”,得到均衡丁。
弹子认为,经济学家们的是否忘记了考虑另一个问题。即,如果处于丁博弈(6,6),作为一个理性的人,有多大的动机(驱动力)促使双方背离从而导致(8,8)呢?我们通过风险优势分析知道,从丁博弈(6,6)偏离,“A方的离丁损失”的损失为6,“C方的离丁损失”为6,共同偏离其总损失为12。如果能够偏离到甲博弈(8,8),A方的趋甲收益为8-6=2,C方的趋甲收益为2,总的趋甲收益为2+2=4。我们再来比较,从丁博弈偏离至甲博弈,总损失为12,总收益为4。因此,弹子认为,此时风险过大,A方和C方没有足够的动机。通过这种分析,我们可以假设,当偏离动机(收益)足够大的时候,即使作为一个理性的人,是否会产生偏离的冲动呢?
表4-5 偏离驱动足够大
|
C方 |
||
进攻B方 |
进攻D方 |
||
A方 |
进攻B方 |
100000,100000 |
0,7 |
进攻D方 |
7,0 |
6,6 |
在表4-5的博弈中,如果A方求稳,选择“进攻D方”,只能得到6或者最多7的收益;而如果A方选择“进攻B方”,虽然可能一无所得,但是一旦得到,就是成千上万倍的收益。因而,在这种情况下,A方完全有充足的偏离丁博弈(6,6)的动机。同理C方亦会有同样的冲动。也就是说,你不发生偏离,只是因为筹码不足够大,而不是不够理性。产生偏离的原因并非只是由于帕累托,而更取决于偏离驱动力(收益)。这就告诉我们,只要博弈方不是完完全全的理性,这种诱惑就可能使博弈方生偏离。
这种现象在下棋中常常发生,一方当令子杀到敌方立角,虽然不知道旗底是否是雷,但一般棋手常常会有下杀的冲动。因为,如果下杀成功,就可以获得足够的利益。因此,搏旗在四国军棋实战中屡见不鲜,即使是比较理性的高后,由于诱惑足够大,仍然会搏旗,这就是根本的原因。在现实生活中,不法分子常常利用口头承诺等高利益作为诱饵,勾引理性不彻底的人上当受骗。由于普通人都是理性不彻底的,因此,他们可以通过提高诱饵来达到突破受骗人的理性平衡点,从而达到目的。一个人的理性程度越底,诱饵越大,越容易上当受骗。
弹子认为,只有当“偏离损失”≥“趋向收益”,博弈才是稳定的。
表4-6 偏离损失与趋向收益相等
|
C方 |
||
进攻B方 |
进攻D方 |
||
A方 |
进攻B方 |
8,8 |
6,7 |
进攻D方 |
7,6 |
7,7 |
双方的偏离丁博弈的损失=1+1=2。
同时:
双方的趋甲收益=1+1=2。
此时,甲博弈相对于帕累托是稳定的,乙博弈相对于风险优势是稳定的。
实际上,我们可以将理性程度用概率来表示,当其“预期偏离损失”≥“预期趋向收益”,时,博弈稳定。
表4-7 有限理性下的偏离损失与趋向收益
|
C方 |
||
进攻B方(q) |
进攻D方(1-q) |
||
A方 |
进攻B方(p) |
8,8 |
0,7 |
进攻D方(1-p) |
7,0 |
6,6 |
A方在有限理性下的离丁损失: 6×(1-p)-p×0
B方在有限理性下的离丁损失:6×(1-q)- q×0
双方在有限理性下的离丁损失=12-6p-6q
A方在有限理性下的趋甲收益:8×p-6×(1-p)
B方在有限理性下的趋甲收益:8×q-6×(1-q)
双方在有限理性下的趋甲收益:14p-14q-12
令:12-6p-6q =14p-14q-12
当不为彻底理性时,p和q均不为0,因此,
我们先将q作为已知数对p求导得
通过“偏离损失”与“趋向收益”,我们找到了帕累托与风险优势之间的平衡,从而较好地解决了两个平衡之间哪个更优的问题。
4.3.聚点均衡
略。
4.4 相关均衡
略。
4.4 抗共谋均衡