博弈论囚徒困境

  • 格式:doc
  • 大小:145.00 KB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

博弈论囚徒困境

博弈论囚徒困境

2.他们可以采取的行动 (actions)

或策略(strategies)

博弈(game)的要素

1.参与人或者局中人 (players )

3.局中人可能得到的赢利(payoffs)。

每个局中人的目标:最大化其赢利

每个人的赢利不仅取决于自己如何

“出招”,也取决于别人如何“出招”。

博弈无处不在

公路塞车,大家都遵守交规,一个人违规进入自行车道,得便宜,但如果每人都这样,则人人都吃亏。

如每个人都守规矩,则一个不守规矩的就会获得好处,每个人都不守规矩,则人人都失利。

囚徒困境的提出

囚徒困境是博弈论中的一种矛盾,反映个人最佳选择并非团体最佳

选择。现实中的市场竞争、政治角逐、情场争锋等方面会频繁出现这样的情况。1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关悖论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

合作(不坦白)?背叛(坦白)?

囚徒困境模型

警方逮捕甲、乙两名嫌疑犯,但没有足够证

据指控二人入罪。于是警方分开囚禁嫌疑犯,

分别和二人见面,并向双方提供以下相同的选

择:若一人认罪并作证检控对方(相关术语称

“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。若二人都互相检举(互相“背叛”),则二人同样判监2年。

-2,-2

0,-10

背叛

-10, 0

-0.5,-0.5

合作

背叛

合作

囚徒乙

囚徒甲

囚徒困境赢利表(Payoff Table)

囚徒困境解说

如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

囚徒困境解说

囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

囚徒困境解说

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利

益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低,这里存在着矛盾。

纳什均衡通俗解释

我国研究纳什均衡的专家谢识予博士在《纳什均衡论》中用通俗的话表达纳什均衡含义:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你的最好的策略。这就是说:双方在对方的策略给定的策略下不愿意调整自己的策略。这里的策略包括混合策略。

在对方策略确定的情况下,每个参与者的策略都是最好的,此时没有人愿意先改变自己的策略。

囚徒困境的内在根源

是在个体之间存在行为和利益相互制约的博弈结构中,以个体理性和个体选择为基础的分散决策方式,无法有效地协调各方面的利益,并实现整体、个体利益共同的最优。简单地说,“囚徒的困境”问题都是个体理性和集体理性的矛盾引起的。

囚徒困境的启示

“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到

最短时间的监禁的结果。

“纳什均衡”对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。《国富论》中有这样一句名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益”。从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。

从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金定律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。

囚徒困境的现实意义就是个人理性导致集体非理性。

在囚徒博弈的模型中,只存在一个纳什均

衡,即:在参与者理性的情况下,坦白为最优策

略。这同时导致了集体利益的最小化。

事实上,在囚徒困境中的最佳策略取决于对

方采用的策略,特别是取决于这个策略为双方

合作留出多大的余地。而这个原则的基础是:以

后对于现在的权重足够大,即:未来是重要的。

囚徒困境的现实意义

简单的说,就是如果你认为以后大家