经典的囚徒困境

格式：doc
大小：146.00 KB
文档页数：20

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

经典的囚徒困境

1950年，由就職於兰德公司的梅里尔·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式阐述，並命名为「囚徒困境」。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯，分别和二人见面，并向雙方提供以下相同的选择：

∙若一人認罪並作证检控對方（相關術語稱「背叛」對方），而對方保持沉默，此人将即時獲释，沉默者将判監10年。

∙若二人都保持沉默（相關術語稱互相「合作」），则二人同樣判监半年。

∙若二人都互相检举（互相「背叛」），則二人同樣判監2年。用表格概述如下：

解說

如同博弈論的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，

此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方选择；而即使他们能交谈，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇：

∙若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。

∙若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。

二人面對的情況一樣，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此，这場博弈中唯一可能达到的纳什均衡，就是雙方参与者都背叛對方，結果二人同樣服刑2年。

这場博弈的纳什均衡，顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，兩人都只會被判刑半年，总体利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛，结果二人判监均比合作為

高，總體利益較合作為低。这就是“困境”所在。例子華麗地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

固定局數的囚徒困境

試想像囚徒困境的情況進行十次。

我們可以合理地設想，如果囚徒第一次被對方指控，第二次這個囚徒也會指控對方。相反，如果第一次別人保持沉默，建立了互信的關係，你也會保持沉默，達致帕累托最优。

當然，兩個囚徒都會有相似的想法，在第一局保持沉默，以期望建立互信關係，所以雙方都會保持沉默。第二局時，雙方亦應有相似的想法，繼續保持沉默，以期繼續在互信的情況下進行第三局，以致餘下的八局。這種想法合理嗎？

在第十局時，互信的關係明顯是没有意義的，因為十局已經完結，囚徒没有必要為維持互信的關係而沉默(没有第十一局)，所以第十局囚徒一定會背叛對方的，理由和只有一局囚徒困境一樣。

問題是，既然大家都知道在第十局，無論如何對方都會背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好關係)的原因是為了希望下一局別人保持沉默。所以第九局雙方都一定會背叛對方的。

下一個問題是，雙方都有相同的想法，明知第九局對方會背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此類推，纳什

均衡是十局都會互相背叛，建立互信關係是没有可能的。

只有在囚徒困境的局數大家都不肯定的情況下，上述的推論才不會發生，才會出現互相保持沉默的現象。

一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用這種博弈的一般形式分析各种论题。以下是實現一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了參與者知道對方選擇的可能性1。然后，庄家翻开兩個参与者卡片，根據以下規則支付利益：

∙一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

∙二人都合作：各得3分（合作报酬）。

∙二人都背叛：各得1分（背叛惩罚）。

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表

符号分数英文中文（非术语）解释

T 5 Temptation 背叛诱惑单独背叛成功所得。

R 3 Reward 合作报酬共同合作所得

P 1 Punishment 背叛惩罚共同背叛所得

S 0 Suckers 受骗支付被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：从5>3>1>0获得以上不等式）

备。似乎自相矛盾的是，雖然增加軍備會是兩國的「理性」行為，但结果卻顯得「非理性」（例如會对经济造成都有损坏等）。这可視作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战

两个国家，在关税上可以有以两个选择:

当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。

经典的囚徒困境

相关主题

文档推荐

最新文档