囚徒困境

  • 格式:docx
  • 大小:25.17 KB
  • 文档页数:6

下载文档原格式

  / 11
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。(单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样)

1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

•若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

•若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

•若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:

甲沉默(合作)甲认罪(背叛)

乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年

乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年

如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

囚徒甲和乙该怎么办呢?他们作为本博弈中的两个博弈方,他们都有两个选择——坦白或抵赖。很显然,最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,根据个体理性原则,两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说,囚徒乙有坦白和抵赖的两种可能的选择,如果囚徒乙选的是抵赖,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益为-1,坦白的得益为-1/2;,如果囚徒乙选的是坦白,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益-10,坦白的得益为-5。因此,在本博弈中,无论囚徒乙选择何种策略,囚徒甲选择坦白给自己带来的收益是最大的;同样的,囚徒乙和囚徒甲的情况一样,因此囚徒乙的选择和囚徒甲一样。因此,该博弈的最终结果是博弈双方同选择坦白策略,同时获益-5,都判五年刑。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,

纳什均衡趋向于帕累托最优。

现实的例子

上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子:

一名经理,数名员工; 前提,经理比较苛刻;

如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作

如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作

如果所有人都不听从经理吩咐,则经理下岗

但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作

房地产市场的例子:不可重复的出卖

著名作家三盅在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境”》。记述了2008年房地产领域的囚徒困境。在所有市场博弈模型中,“囚徒困境”是最为接近心理学的一个,也是最能揭示善恶的一个,更是最能体现集体智慧的一个,选择背叛还是合作,始终是它不变的主题……我们把眼光聚焦到当前的房地产市场中来吧,一个不小的“囚徒困境”已经展现在我们眼前,首先放弃帕累托最优解决方案的是万科,可想而知,在当前的市场环境下,它预期到的博弈的纳什均衡,显然是未来困境下的房地产商之间的普遍相互背叛,也就是说,万科在这场“囚徒困境”中,之所以选择首先动手,出卖所有除它之外的房地产商,是因为它预计在这种困境中,如果不尽早出卖所有同伴,自己将面临被出卖的结局,毕竟,这是一个非零和博弈游戏,出卖行为是可以换取非常大的利益的……在这里,我为何要刻薄地使用“出卖”二字?我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解,我曾经因为“房地产行业是否存在暴利”及“房地产开发成本是否应该公开”的问题在第一财经频道与反方争得面红耳赤,我从来就认定房地产开发企业存在着的暴利现象,而当时几乎所有的开发商都是众口一辞地否认暴利的存在,更有甚者,潘先生羞答答地把成本比喻为自家老婆的奶子,充分论证了成本不可示人是理所当然的,当然,其中也有万科的声音……如今的万科,则践踏了自己曾经参与的“同盟”,跳出来用实际行动来证明了暴利的存在,它不仅想证明自己存在暴利,也试图揭发所有同伴的暴利,所以,我说他的行为是“出卖”……通过出卖同伴,万科真的能够获得个体的最大利益吗?理论上说它能够获得,但在实践中,也许它最终是打错了算盘,因为在所有的实践中,“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果,所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的,而且这种博弈是不可被重复的,而当前的市场环境已经被不止一次重演过了(海南、05全国、08深圳),这种重复博弈最终将令所有参与者脱离困境,“囚徒困境”至此被彻底打破……另外,最关键的一条是,在这场博弈中,政府也参与其中了,他直接参与的环节在于源头,即土地的供应(租借),这将加速打破“囚徒困境”,因为与所有参与博弈者有着本质不同的是,政府是整个游戏的设计者,是囚禁规则的设计者,也是盖牢房、拆牢房的人,你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”,再回头看万科,在所有被他出卖的所谓同伴中,正有政府的身影……我这么说也许是不严谨的,毕竟这不是一个理想状态下的“囚徒困境”,囚徒之间并没有相互隔绝,信息最起码在业内并非极度不对称,万科是否背负着某种使命,至