举例说明生活中的囚徒困境。

在博弈论中,占优战略均衡的一个著名例子是塔克给出的“囚徒困境”博弈模型。这个模型以一种特殊的方式告诉我们一个警察和一个小偷的故事。假设甲、乙两个小偷共同作案,私自入室,被警察抓住。警察把这两个人放在两个不同的房间里审讯。对于每一个嫌疑人,警方给出的政策是,如果一个嫌疑人交代了自己的罪行,交出了赃物,证据确凿,两人都定罪。如果另一名嫌疑人也供认不讳,他们各被判处8年徒刑;如果另一个犯罪嫌疑人在没有坦白的情况下否认,会以妨碍公务罪(因为有证据证明他有罪)再判两年有期徒刑,坦白者减刑八年后立即释放。如果两人都否认,警方因证据不足不能判他们盗窃罪,但可以以非法侵入罪各判1年有期徒刑。表2.2显示了这个博弈的收益矩阵。

表2.2囚徒困境博弈【囚徒困境】

——————————————————————————

┃·┃·┃

————————┃————————┃————————┃

坦白,否认

————————┃————————┃————————┃

告白┃–8,–8┃0,–10┃

————————┃————————┃————————┃

一个否定┃–10,0 ┃–1,–1┃

————————┃————————┃————————┃

让我们看看这个博弈的可预测均衡是什么。对于A来说,他虽然不知道B选择什么,但是他知道不管B选择什么,选择“表白”永远是对他最好的。很明显,根据对称性,B也会选择“表白”。结果两人都被判有期徒刑8年。但如果都选择“否认”,每人只判1年。在表2.2的四个行动选择组合中,(拒绝,否认)是帕累托最优的,因为任何偏离这个行动选择组合的其他行动选择组合至少会使一个人的处境更糟。不难看出,“坦白”是任何犯罪嫌疑人的优势策略,而(坦白,认罪)是一个优势战略均衡。

要理解纳什的贡献,首先要知道什么是非合作博弈问题。目前几乎所有的博弈论教材都会讲到“囚徒困境”的例子,每本书里的例子都差不多。

博弈论毕竟是数学,或者说,是运筹学的一个分支。谈论经典和学说,自然少不了数学语言,在外行人看来不过是一大堆数学公式。好在博弈论关注的是日常经济生活,不能不吃烟花。这个理论其实是从象棋、扑克、战争等带有竞争、对抗、决策性质的问题中借用来的术语。听起来有点玄乎,但实际上有着重要的现实意义。博弈论大师看经济社会问题就像下棋一样,往往在博弈中有深刻的道理。所以,从日常生活中的琐事入手,以身边的故事为例进行讲解,并不枯燥。一天,一个富人在家里被杀,他的财产被盗。在这起案件的调查过程中,警方抓获了两名犯罪嫌疑人斯卡菲和纳库尔斯,并从他们的住处找到了被害人家中的失物。但他们否认自己杀了人,辩称是先杀了有钱人,然后他们只是偷了东西。于是民警将两人隔离,分别放在不同的房间审讯。地方检察官会和每个人单独谈话。检察官说,“因为你的盗窃行为有确凿的证据,所以可以判你一年监禁。但是我可以和你做个交易。如果你单独承认谋杀,我只会判你三个月监禁,但你的同伙会判十年监禁。如果你拒绝坦白,被伴侣举报,你会被判十年有期徒刑,他只会被判三个月有期徒刑。但是,如果你们都坦白,那么你们都将被判处五年监禁。”Scalfi和Nacoors应该怎么做?他们面临着一个两难的境地——坦白还是否认。很明显,最好的策略是双方都否认,结果大家都只判一年。但由于两人处于隔离状态,无法表白。所以,根据亚当·斯密的理论,每个人都是从利己的目的出发,他们选择忏悔是最好的策略。因为坦白可以预期得到短暂的监禁——三个月,但前提是伴侣否认,这显然比10年监禁要好。这种策略是损人利己的。不仅如此,表白还有更多好处。如果对方坦白否认,就要坐牢10年。太不划算了!所以,在这种情况下,还是应该选择坦白。就算两个人同时坦白,最多也只判五年,总比判10年强。所以两者合理的选择是坦白,原本对双方都有利的策略(否认)和结局(判1年有期徒刑)都不会出现。这样两个人都选择了弗兰克策略而被判五年的结果叫做“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时,并不存在“共谋”(勾结),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。换句话说,这个策略组合是由所有参与者(也称为当事人和参与者)的最佳策略组合组成的。没有人会为了给自己争取更大的利益而主动改变策略。“囚徒困境”具有广泛而深刻的意义。个人理性和集体理性的冲突,每个人对自身利益的追求,导致一个“纳什均衡”,这也是一个对所有人都不利的结局。两人都是在坦白否认的策略中先想到自己,所以必然要服长刑期。只有都先想到对方,或者互相勾结(勾结),才能得到最短监禁的结果。纳什均衡首先挑战亚当·斯密的“看不见的手”原理。根据斯密的理论,在市场经济中,每个人都是从利己的目的出发,最终整个社会达到利他的效果。让我们回顾一下这位经济圣人在《国富论》中的名言:“通过追求(个人)私利,他常常比他实际想做的更有效地促进社会利益。”从“纳什均衡”引出一个“看不见的手”原理的悖论:从利己出发,结果不是利己,既不是利己,也不是利己。这是两个囚犯的命运。从这个意义上说,纳什均衡提出的悖论实际上动摇了西方经济学的基石。所以,从纳什均衡中,我们也可以悟出一个道理:合作是有利的“利己策略”。但它必须符合以下黄金律:你希望别人如何对待你,你就如何对待别人,但前提是别人也这样做。那就是中国人说的,“己所不欲,勿施于人”。但前提是你不要对我做你不想让我做的事。其次,“纳什均衡”是非合作博弈均衡。现实中,非合作情况比合作情况更普遍。因此,“纳什均衡”是冯·诺依曼和摩根·斯特恩合作博弈论的重大发展,甚至可以说是一场革命。

从纳什均衡的普遍意义上,我们可以深刻理解经济、社会、政治、国防、管理和日常生活中常见的博弈现象。我们会举很多类似于“囚徒困境”的例子。比如价格战,军事竞争,污染等等。一般的博弈问题由三个要素组成:玩家,也称当事人、参与者、策略等的集合。每个玩家的策略和收益。其中,所谓赢,是指如果选择特定的战略关系,每个博弈中的人得到的效用。所有的游戏问题都会遇到这三个要素。

价格战游戏:

现在我们经常会遇到各种各样的家电价格战,比如彩电战、冰箱战、空调战、微波炉战...这些战争的受益者首先是消费者。每次看到家电价格战,老百姓都会“没什么好偷的。”这里可以说明,厂商价格战的结局也是一个“纳什均衡”,价格战的结果是谁都没钱赚。因为博弈双方的利润正好为零。竞争的结果是稳定的,也就是一个“纳什均衡”。这个结果可能对消费者有利,但对厂商来说是灾难性的。所以,价格战对厂商来说意味着自杀。从这个案例中,我们可以引出两个问题。首先,竞争性降价或“纳什均衡”的结果可能导致有效率的零利润结果。第二,如果不采取价格战,作为敌对博弈会有什么结果?每个企业都会考虑采取正常价格策略或高价策略,形成垄断价格,尽力获取垄断利润。如果能形成垄断,博弈双方的利润最大。这种情况就是垄断所为,通常会抬高价格。另一个极端,如果厂商使用正常价格,双方都能获利。从这一点出发,我们得出另一条基本规则:“在假设你的对手会以其最大利益行事的基础上构建你自己的战略。”事实上,完全竞争的均衡就是纳什均衡或非合作博弈均衡。在这种状态下,每个制造商或消费者都根据其他人设定的所有价格做出决策。在这个均衡中,每个企业都应该使其利润最大化,消费者也应该使其效用最大化,导致零利润,即价格等于边际成本。在完全竞争的情况下,非合作行为导致社会所期望的经济效率状态。如果制造商采取合作行动,并决定转向垄断价格,社会的经济效率将被摧毁。这就是为什么WTO和各国政府加强反垄断具有重要意义。