如何解释纳什均衡不一定是逆向归纳策略
一人背叛一人合作:背叛者获得5分(背叛诱惑),合作者获得0分(骗付款)。
两人合作:各3分(合作奖励)。
两人都背叛了:各得1分(背叛惩罚)。
使用付款矩阵表显示付款,如下所示(两个参与者分别用红色和蓝色表示):
囚徒困境一般形式下支付矩阵的合作背叛
合作3,3 0,5
背叛5,0 1,1
符号“T,R,P,S”表示合作和背叛。
合作R、R、S、T
背叛T,S,P,P
用“输赢”一词表达合作与背叛
合作赢-赢大亏-赢大。
背叛胜利-大负负负
从简单游戏获得的积分可以得出一些一般性的结论。
t,r,p,s符号表
英汉符号分数的解释(非术语)
诱惑背叛了诱惑,背叛了成功。
R 3奖励合作奖励* * *合作收入
P 1惩罚背叛惩罚* * *同背叛所得。
S 0冤大头被骗要为自己一个人被背叛买单。
如果T(诱惑)=背叛诱惑,R(奖励)=合作奖励,P(惩罚)=背叛惩罚,S(冤大头)=被骗付款,就个人选择得分而言,可以得到以下不等式。
T & gtR & gtP & gtS
(解决方案:从5 & gt3 & gt1 & gt;0以获得上面的不等式)
就总分而言,会得到以下不等式。
2R & gtT+S或2R & gt2P
(溶液:2×3 >;5+0或2×3 >;2x 1;两个人合作得6分,和背叛对方的人比得2分,和单独背叛的人比得5分。很明显,合作比背叛得分高。合作是群体中的主导策略。)
重复博弈或者重复囚徒困境会让参与者注意到T & gtR & gtP & gts改为关注2R & gtT+S .也就是说,它会让参与者摆脱困境。以上理论是道格拉斯?霍夫施塔特创造了它。
一个著名的例子是塔克给出的“囚徒困境”的博弈模型。这个模型以一种特殊的方式告诉我们一个警察和一个小偷的故事。假设甲、乙两个小偷共同作案,私自入室,被警察抓住。警察把这两个人放在两个不同的房间里审讯。对于每个嫌疑人,警方给出的政策是:如果两个嫌疑人都坦白自己的罪行,交出赃物,证据确凿,两人都被定罪,各判8年;如果只有一个嫌疑人坦白,另一个否认,那么妨碍公务罪(因为有证据表明他有罪)会再罚两年,坦白者会被立即释放。如果两人都否认,警方因证据不足不能判他们盗窃罪,但可以以非法侵入罪各判1年有期徒刑。表2.2显示了这个博弈的收益矩阵。
表2.2囚徒困境博弈【囚徒困境】
A╲B坦率地否认了这一点。
表白-8,-8 0,-10
拒绝-10,0 -1,-1
价格战游戏
现在我们经常会遇到各种各样的家电价格战,比如彩电战、冰箱战、空调战、微波炉战...这些战争的受益者首先是消费者。每次看到家电价格战,老百姓都会“没什么好偷的。”这里可以说明,厂商价格战的结局也是一个“纳什均衡”,价格战的结果是谁都没钱赚。因为博弈双方的利润正好为零。竞争的结果是稳定的,也就是一个“纳什均衡”。这个结果可能对消费者有利,但对厂商来说是灾难性的。所以,价格战对厂商来说意味着自杀。从这个案例中,我们可以引出两个问题。首先,竞争性降价或“纳什均衡”的结果可能导致有效率的零利润结果。第二,如果不采取价格战,作为敌对博弈会有什么结果?每个企业都会考虑采取正常价格策略或高价策略,形成垄断价格,尽力获取垄断利润。如果能形成垄断,博弈双方的利润最大。这种情况就是垄断所为,通常会抬高价格。另一个极端,如果厂商使用正常价格,双方都能获利。从这一点出发,我们得出另一条基本规则:“在假设你的对手会以其最大利益行事的基础上构建你自己的战略。”事实上,完全竞争的均衡就是纳什均衡或非合作博弈均衡。在这种状态下,每个制造商或消费者都根据其他人设定的所有价格做出决策。在这个均衡中,每个企业都应该使其利润最大化,消费者也应该使其效用最大化,导致零利润,即价格等于边际成本。在完全竞争的情况下,非合作行为导致社会所期望的经济效率状态。如果制造商采取合作行动,并决定转向垄断价格,社会的经济效率将被摧毁。这就是为什么WTO和各国政府加强反垄断具有重要意义。
污染游戏
如果市场经济有污染,但政府不治理环境,为了利润最大化,企业宁愿牺牲环境,也绝不会主动增加环保设备投资。根据看不见的手原理,所有企业都会从自利目的出发,采取忽视环境的策略,从而进入“纳什均衡”状态。如果一个企业出于利他目的投资污染治理,而其他企业仍然忽视环境污染,那么这个企业的生产成本就会增加,价格就会提高,其产品就没有竞争力,甚至企业就会破产。这是“看不见的手的有效而完全的竞争机制”失效的一个例子。直到90年代中期,中国乡镇企业的盲目发展造成了严重的污染。只有政府加强污染控制,企业才会采取低污染的策略组合。在这种情况下,企业会获得和高污染一样的利润,但环境会更好。
贸易战游戏
贸易战对于刚刚加入世贸组织的中国尤为重要。任何国家在国际贸易中都面临着维护贸易自由和实施贸易保护主义的两难选择。贸易自由和壁垒问题也是一个“纳什均衡”,是贸易双方非合作博弈的策略,结果双方都因贸易战受损。如果X国试图对Y国进行进口贸易限制,比如提高关税,那么Y国肯定会反击,提高关税,结果谁也没有受益。另一方面,如果X和Y能够达成一个合作的平衡,即从互惠互利的原则出发,双方都将减少关税限制,结果是每个人都将从贸易自由中获得最大的利益,全球贸易的总收入也将增加。
博弈论-这是一个热门的概念。它不仅存在于数学的运筹学中,在经济学中也占据着越来越重要的地位(诺贝尔经济学奖近年来频频颁给博弈论研究者),但如果你认为博弈论的应用领域仅限于此,那你就大错特错了。事实上,博弈论甚至在我们的工作和生活中无处不在!工作中,你在和上级、下级博弈,也会和其他相关部门博弈;而做生意,你就是在和你的客户和竞争对手玩游戏。生活中,游戏依然无处不在。博弈论代表了一种全新的分析方法和理念。
诺贝尔经济学奖得主包括?萨缪尔森说:
想成为现代社会有价值的人,就要对博弈论有个大概的了解。
也可以说,要想赢得生意,就要学习博弈论;如果你想赢得人生,你也必须学习博弈论。
企业游戏
博弈论是分析寡头企业市场行为的有力工具。博弈论研究的是经济活动中聪明而理性的主体,他们的行为相互作用时的决策以及这种决策的均衡。
人质困境
卑微的游戏。抢到第一只鸟,人质联盟就能制服歹徒,但谁愿意出头?这就给了无数劫持者可乘之机,类似于秦的远攻分而治之的策略,最终获得彻底胜利。人质当然可以有对策,但难度极大。人质可以选择沉默,这样他有一定的生存时间;或者联合劫持者对付人质,胜负还是看劫持者,万一他把桥烧了怎么办;同时反抗,集体会得到左右策略,但需要壮士断腕的勇气,可能会有人受伤。这是一场力量与勇气的较量,力量暂时占了上风。
酒吧游戏
如果每个人都是理性的,那么每天到酒吧的人数就几乎刚刚好,但不是圣人的人往往理性有限。第一次来酒吧的人很多,所以大部分人都觉得酒吧太挤太挤。做第二个决定的时候,参考上一个而不是去酒吧。几个去酒吧的人第二天发现酒吧人少了,感觉很爽。他们会继续第三次回来,带回许多人...循环开始了。一方面,酒吧游戏表明,现实的游戏参与者是极其有限和理性的,他们的理性只是短暂的延迟。历史数据只对计算机有用,对人不一定有用。
另一方面,酒吧游戏指出,赢家永远只是少数。虽然有调吧的可能,比如时不时发消息提醒,但是成本大概太高了。在其他场合,少数人甚至可能设置各种障碍,阻止后来者崛起。换句话说,我们的世界仍然被少数人操纵。但是,最后,世界不是一个模式,少数民族的道路还是有迹可循的。老练的将军们还是会在八卦迷宫里找到唯一的出路。如果你愿意,你必须是一个更有经验的将军。
枪手游戏
国王的悲哀。三个人对枪都是自定的,A、B、C的枪法都是递减的。最终无奈又神奇的结局,不会取决于同时拍摄还是先后拍摄。最好的枪手倒下的概率会最高。然而,最差的枪手有最大的生存希望。因为没有人会把威胁最小的枪手列为头号明确目标。在这里,弱者会赢。以弱胜强绝不是神话。
国王的命运真的如此不堪吗?哦,说再见吧,忘了每个理论模型都有前提。如果你打破其中任何一个,国王还是会回来的。这就是先发优势。假设这是一场类似CS的比赛,优秀的炮手击倒二号炮手,立刻获得奖励:盾牌。那么三号枪手就会陷入绝境。但是,无论如何,这种游戏模式给了弱势群体一个希望。机会总是存在的。
猎鹿模型
两个猎人合作猎鹿会比单独猎兔收获大得多,战略联盟就此开始。这可能是一件好事,但这取决于鹿这种公共资源的分配。如果分配得当,整体效率会提高。如果一方占优,另一方吃亏,那么帕累托改进无法进行,合作最终可能破裂。
另一个问题,更大的问题。合作的示范会让更多的猎人加入,猎鹿的数量会大大增加,人类的利益短期内会呈几何级数增长。但最后确实是生态失衡,鹿群灭绝了。在短暂的繁荣之后,猎人们会再次回到最初的猎兔生活。虽然为了避免这种悲剧,人类还有最后的希望:科斯定理,制度经济学的法宝,用产权的归属来解决外部经济问题。但由于谈判的成本和可行性,人类社会的悲剧还会继续上演。
凯多罗
令人沮丧的游戏结局。一个警察和一个小偷各自只有一次机会去巡逻或偷窃a地或b地。A地的价值大于B地,所以警察为了保护A地,应该一直保护A地。博弈论认为当然不是,警察的合理策略应该是倾向于有一定概率的随机巡逻。这个概率是:p =的值/ab的总值。只有在这种情况下,小偷最大的成功几率才能降到最低。但不幸的是,小偷此时寻求的是最大化最小的成功几率。换句话说,警察的最佳策略会改进小偷的最差策略!这是冯?诺依曼的“最小最大定律”。
我们必须再次感谢这个不完美的世界,因为在现实中,类似的现象仍然可以试图找到对手致命的常规动作(当然,我们必须考虑对方是否是一个更老练的猎人,故意放出诱饵)。而保持自己行动的无序性则可能成为欺骗策略的武器,这就像张三丰说的:有招必有胜。
小鸡游戏
两只斗鸡在打架的时候,选择进还是退是个难题,因为纳什均衡已经给出了胜负的最优策略。很多较量中,孤注一掷会得不偿失,因为很可能会给第三者可乘之机。因此,战场上已经存在的两股强大力量很可能会有意识地遵循纳什均衡,一方进攻,另一方暂时撤退。虽然一方可能暂时受损,但总比两败俱伤好得多。但为了维持这种局面,必须保证下一次较早受损的一方发动攻势时,另一方也会撤退。所以这样的攻击行为开始变得“仪式化”,没有人真正流血。这只是两个巨头玩的游戏。目的是警告后来者,要想进来就得跟我们玩,但是你能承担得起吗?这就是为什么百事可乐的广告,即使暗示挑衅,最多也只是达到“敢做中国红”的地步。
和谐谬误
欧洲政府斥巨资购买协和式飞机后,终于无法自拔。哪怕前景黯淡,我也会一脸的扔过去,走投无路也要放弃。这个时候投资的成本就全白费了。如果,当你发现无法继续的时候,你敢于放手,损失会小很多。但是他们会吗,他们能吗?壮士断腕是何等的豪迈,却又是何等的艰难!
沉没成本很可能会延续人们无所畏惧的坚持。已经沉没的人应该已经放弃了,可惜大部分都有赌徒般的心理,相信阿基米德的杠杆终将启动。可惜他们还没爬到足以撬动杠杆的支点就窒息了。
协和谬误其实是给人一个半途而废的理由。会有人担心它的起源会影响一些应该坚持的目标吗?确实有可能,但是我们要相信,人们是足够理性的,能够比较沉没成本、机会成本和未来收益之间的关系。看清楚了,一定会走出协和谬误。
蜈蚣游戏
一个反反复复的游戏。蜈蚣游戏的机制是用最终结果回归到开始。这是一个明智的策略,因果报应,把握住因果报应,自有好结果。它的另一个好处就是让未来的规划变得清晰,让你不再彷徨。不幸的是,很多时候,我们看不透谜题的眼睛。我们的黑眼睛只习惯夜晚。
蜈蚣博弈还有一个致命的悖论,依然是个人利益和集体利益的冲突,因为最后的背叛永远优于合作。可悲的是,这种背叛将是由于人类的原因,跨越只是参观,回到原来的地方:人们将从一开始就拒绝合作。让我们感谢这个不完美的世界。事实上,人们很少这样做。当然最后合作的很少,也就是说后推法只是在中间阶段突然生效,但是中间步骤在哪里谁也无法预测。在那里,我们只寄希望于信任、道德、良心等等。
分享蛋糕游戏
两个孩子怎么分蛋糕?经典故事,经典答案:一分一选。在现实中,权利的合理分配将有效地促进公平和效率。经营权和所有权的分离确实让经济更有活力。但是,蛋糕分享的高级模式强调讨价还价的策略。蛋糕的分享不是一次性的,而是多轮的,而且有成本:蛋糕在融化。
时间尺度的增加会使分布复杂化。如果双方不能及时达成交易,不仅集体收入减少,个人收入也会减少。在这种情况下,用时间来权衡代价和威胁与承诺,将对一方极为有利。客户可能迫于形势,必须尽快结束谈判。这时候卖家不着急,故意拖延,客户就要在价格上妥协。
当然,客户端也有策略。它的策略是货比三家,要求承诺或威胁。这个前提就是买方市场的存在。顾客也要保护自己的议价能力,即顾客有投诉商家的权利。
鹰鸽游戏
很多人把这个游戏等同于吃鸡游戏。但是斗鸡是两个好斗的个体,而鹰鸽是两个不同群体之间的博弈,一个是和平,一个是好斗。在一片只有鸽子的玉米地里,突然加入的鹰会受益匪浅,吸引同伴加入。但结果并不是老鹰把鸽子赶出玉米地,而是有一定的比例存在,因为鹰群增加一只老鹰的边际收益趋于零(鹰群内斗),均衡就会到来。
于是,ESS进化的稳定策略就出现了,也就是说,一旦均衡形成,偏离的运动就会受到自然选择的打击。也就是说,老鹰满员后,试图加入的老鹰会被老鹰排挤。
进化稳定和平衡的最大好处是保持稳定。但问题是要形成很强的路径依赖,即赢家不一定是最好的。因为最优秀的都会被打成出头鸟,这是个人的失败,是群体的胜利,是集体的停滞。
肮脏的脸游戏
顿悟游戏。房间里三个人,没有说话。美女进来说,你们至少有一个人脸很脏。三个人围着,没反应。美女又说:你知道吗?他们三个又看了一遍,恍然大悟,脸都红了。为什么?因为美女的胡说八道,三个人都知道了脏脸的存在,想必也知道对方也知道了脏脸的存在(因为另外两张脸没有红,说明看到了脏脸),知道对方知道自己想到了上一步...循环开始了,知识开始同化,真相出来了:三个人都是一脸的脏,都脸红了。
这就是有知识的* * *的作用,作用有点可怕和强大。几乎是无腿的把戏,杀人不流血。在桌上游戏之前,私下的计算已经杀死了对手。但是,很有可能对方也预料到了这一点,早就想到了,同时也杀了。最后形成了双死局面。
当然,虽然现实中也有类似的现象,但知识更大的作用是降低交易成本。因为有些规则是众所周知的,双方只要按照规则行事就行了。
信息均衡
显然,信息在游戏中的作用非常重要。把博弈论还原到现实,人不再是完全理性的,信息是不对称的,博弈需要努力抢占信息高地。
信息不对称是一大障碍。信息的不对称会造成“逆向选择”和“道德风险”,前者是事前的,后者是事后的。信息不对称短期内会让一方受益,但最终会毁掉整个市场。所以有两种解决方案。
信息传递
一种传达你正面信息的策略,即吸引顾客到你的柜台。其要点是保持有效性和降低成本。
信息筛选
诱导对手私下透露自己掌握的真实信息。就是给顾客一个放大镜,保证顾客不会去其他柜台。这种策略显然更有效,但也更有风险:如果客户用放大镜看到他们的缺陷怎么办?