博弈论“囚徒困境”的四种形式

格式：doc
大小：60.50 KB
文档页数：6

下载文档原格式

/ 6

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2囚徒1（表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

博弈论囚徒困境的四种形式 PDF

�p� 1 徒囚性理非
�所表下如衡均 seyaB 练精的弈博复重次三�赖抵择选段阶二第 2 徙囚�下件条的 2�l≥P 定给在以所�弈博段阶两的示所 4 表是段阶的后随即�段阶三第和二第入进弈博么那�形情的”赖抵“择选都方双看先。)白坦择选 2 徒囚� ”赖抵“择选 l 徒因(能可的作合不有也�)”赖抵“选都方双(能可的作合有段阶一第�言而 2 和 1 徒囚的性理就。)白坦�白坦�赖抵(是略策段阶三的 1 徒的性理以所�利有为更将这疑无�付支的 0 得获段阶二第�付支的) 1- (得获段阶一第在能可么那 �赖抵择选�况情实真的己自藏隐果如反相�付支的)3-(得获能只大最段阶二第在 1 徒囚的性理�白坦择选段阶二第在 2 徒因是于�方弈博的性理是已自示显 2 徒囚向疑无但�罚惩于免能可白坦择选段阶一第 1 徒囚管尽 �作合行进赖抵择选会将段阶一第在 1 徒囚性理明说要面下。白坦择选会仍故�择选的段阶一下在 2 徒囚变改会不择选的段阶本在己自�的性理是 2 徒囚道知 l 徒囚的性理于由�段阶二第在�白坦择选会机作合的续后有没为因会 2 徒囚和 1 徒囚的性理段阶三第在。况情的次三复重弈膊本基虑考步一进� 下件条的 2�1≥ P � ”赖抵“=X 择选会将 2 徒囚�2�1≥P 即 �6-p3≥8-p7 果如。6-p3=])3-(+)3-([) p-1( +])3-( +0[p �是付支望期的时此 2 徒囚 �时 ”白坦“ =X 当 ;8-p7 = ]) 3- ( + ) 5- ( [ ) p-1( +]0 +) 1- ([p�是付支望期的 2 徒囚�时”赖抵“=X 当 �4 表� 白坦白坦 2=t X X 白坦赖抵 1=t �p-1� 1 徒囚性理 2 徒囚

聊聊四种经典的博弈论模型

聊聊四种经典的博弈论模型展开全文1、囚徒困境：为什么两个犯人都选择坐牢官差破获了一宗盗窃案，抓住了两名犯罪嫌疑人。

但在审讯过程中，被关在一处的二人始终矢口否认盗窃罪名，说东西不是我们偷的。

为了避免两人达成默契，结成攻守同盟，官差决定对他们进行单独审讯。

官差表示，如果两人中有一人坦白认罪，则可立即释放，另一个不认罪的人判5年徒刑；如果两人都坦白罪刑，则他们将各判2年徒刑。

但还有一种情况，那就是两个人都拒绝坦白，由于缺乏证据，他们只会以扰乱公共场合为名判处3个月拘役。

这就是两名罪犯面临的困境中，他们会做出怎样的选择呢？首先，他们互相之间都不清楚对方是否会坦白，其次，二人都希望将自己的刑期缩至最短。

如此考虑，最终，两名犯人都会选择坦白交代。

上面的案例就是博弈论所说的“囚徒困境”。

犯人们如果彼此合作，可为集体带来最佳利益（刑期最短）；但当二人面对同样的情况且不知道对方如何选择时，在理性思考后，双方都会得出相同的结论（坦白交代），以便达到个人利益的最大化。

囚徒困境是博弈论的“非零和博弈”中具代表性的例子，反映的是个人的最佳选择并非是团体的最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

2、智猪博弈：赢的总是小猪猪圈里有大小两头猪，它们在同一个食槽里进食。

为了保持饲料的新鲜，在远离猪食槽的另一边有一个踏板，大猪或小猪跑过去，每按动一次踏板，投食口就会掉落10个单位的食物。

于是，在大猪和小猪每次进食前，就会形成这样一种局面:如果小猪跑去按踏板，大猪守在食槽边，则大猪小猪吃到的食物比是9:1；反之，如果大猪去按而小猪守在食槽边，则吃食比例是6:4。

如果二猪同时到食槽边，则吃食比是7:3。

这样一来，从纯收益的角度考虑，小猪就更愿意选择在食槽边等待食物落出，因为“等待优于行动”，而大猪只能被迫奔忙在踏板和食槽之间。

上述“智猪博弈”的案例是经济学家的假设论证模型，这个博弈的结果，用经济学视角看待，可以解释为：谁占有更多资源，谁就必须承担更多义务。

囚徒困境的博弈论表述

囚徒困境的博弈论表述囚徒困境是博弈论中的经典问题之一，涉及到两位囚犯的选择，他们会面临到合作与背叛的选择，其结果会影响到他们之间的关系和各自的命运。

以下是囚徒困境的博弈论表述。

第一步，两位囚犯被抓并被关在了不同的牢房里，他们之间无法交流。

警察可以与每个囚犯进行单独的问讯，但对双方的答案会有所保密。

第二步，警察告诉囚犯们，如果他们两个都不承认犯罪，那么他们都会被判入狱1年。

但是，如果其中一个人承认犯罪而另一个人不承认，那么承认犯罪的囚犯将被判入狱3年，而不承认犯罪的囚犯将被判入狱10年。

如果两个人都承认犯罪，那么他们都将被判入狱5年。

第三步，两位囚犯需要作出自己的选择。

如果他们合作并且不承认犯罪，那么他们都可以被判入狱1年，这是对双方最好的结果。

但是，如果其中一个囚犯选择背叛另一个人，并承认犯罪，那么他将被判入狱3年，而另一名囚犯将被判入狱10年。

如果两个人都背叛，那么他们都将被判入狱5年，这是对双方最糟糕的结果。

在这种情况下，每一个囚犯都会寻求自己的最大利益，因为他们之前无法沟通，不可能达成共同合作的结果，因此囚徒困境是一种不稳定的策略。

当他们都选择自我保护而摆脱责任，结果却不如合作的结果好时，则产生了“囚徒困境”。

这个问题反映了在面临群体行动问题时，个体的行动往往与合作的利益是相反的。

因此，在实际生活中，面对这种情况，往往需要我们平衡自我利益与合作利益之间的权衡，才能取得更好的结果。

总之，囚徒困境通过一个简单的例子，提示了现实生活中相当普遍的博弈问题，一定程度上也预示了独裁和相互协作的不同结局。

在此基础上，对于此类博弈问题，我们需要不断探讨和学习，才有可能取得最佳的结果。

囚徒困境

一、囚徒困境（prisoner's dilemma ）1、囚徒困境简介囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克（Albert tucker）1950年提出来的。

他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。

故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8 年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

2、经典的囚徒困境1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境”博弈论中有一个经典案例--“囚徒困境”。

两个共谋犯罪的人被关入监狱，不能互相沟通情况。

如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年;若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年;若互相揭发，则因证据确实，二者都判刑八年。

由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。

囚犯可以做出如下选择：1、供出他的同伙(即与警察合作，从而背叛他的同伙)，2、保持沉默(也就是与他的同伙合作，而不是与警察合作)。

这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。

但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。

而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。

当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。

这种想法的诱惑力实在太大了。

但他也意识到，他的同伙也不是傻子，也会这样来设想他。

所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。

所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

囚徒困境模型的几个现实例子囚徒困境的例子在现实生活中很多。

囚徒困境与博弈论

囚徒困境与博弈论囚徒困境与博弈论博弈论（也叫对策论）是一门很深的学问，在学校里至少要讲一个学期，甚至还有专门的博士课程。

但在这里不可能讲这么多，只能把它的基本概念、研究方法和一般规律做一个简单的概括。

从囚犯难题说起我们先从一个常见的案例说起。

这个故事是这样的：有一个富人在家中被谋杀，他的财产被盗。

警方在侦讯过程中抓到两名嫌疑犯：甲和乙，并在他们家中搜出了被盗的财物。

但甲、乙都否认杀人，声称他们进入被害人家中时那个人已经死去。

所以警方肯定他们至少犯下了盗窃罪，但对他们是否杀死了被害人并没有把握。

于是警方在把他们隔离的情况下分别对他们表示：因为偷东西已经有确凿证据，这将被判刑2年；如果拒不承认杀人而被另一方检举，将被判刑20年，而检举的一方可以受奖无罪释放；如果双方都坦白杀人，将各被判刑 10年。

这样，甲乙可能面临的判决如下：通过分析可以看出，最后的结果是甲乙都会承认杀人。

因为对本人来说，不管对方承认不承认，自己承认总比不承认好。

如果对方不承认，自己承认相比不承认等于从判刑2年改为无罪释放；如果对方承认，自己承认相比不承认相当于从判刑20年减到了10年。

这样，对甲乙双方来说，最佳的选择都是承认杀人。

这个结果与他们是否真的杀了人无关，即使他们没有杀人，也会承认杀人。

由于特定的选择条件，本来对双方最有利的结局（都不承认杀人，各被判刑2年）不会出现，出现的是对双方都不利的结果，这就是所谓的“囚犯困境”。

我们想想看，“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪行”，原因就在于此。

“囚徒困境”具有非常深刻的含义，它说明了为什么短视地追求自己利益将导致对大家都不利的结局。

现实中类似的例子还很多，比如为了图一时的方便，大家都不按交通规则行事，结果导致交通瘫痪；再比如前些年很多单位拿国家的钱争相发奖金，结果导致了全社会的通货膨胀。

不同的是，在囚徒困境模型里只涉及两个人，如果这种情况重复出现，两个人很容易从失败中吸取教训，从选择承认杀人改为不承认，这样，处境就可以改善。

博弈论“囚徒困境”的四种形式

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

“囚徒困境”博弈的理论模型及现实思考

“囚徒困境”博弈的理论模型及现实思考（安徽大学经济学院,安徽合肥230601）从剖析“囚徒困境”博弈的4个基本理论模型入手，深入研究导致“囚徒”陷入困境的原因，再结合现实生活的实际，给出了解决“囚徒困境”问题的有效办法。

标签：“囚徒困境”博弈;理论模型;现实思考1 引言囚徒困境是博弈论中非零和博弈的经典范例，它最早是由Tucker于1950年提出。

它是建立在具有个人理性的理性人的基础上的，反映了个人最佳选择而非团体最佳选择。

虽然囚徒困境本身只具有模型性质，但是现实生活中类似囚徒困境的例子却屡见不鲜。

“人不为己,天诛地灭”这句古话虽然过于极端,但揭露了人性中的理性自利一面。

在很多时候,个体理性带来的却很可能是集体的不理性,如果每个人都仅按照自利的原则行事,其结果往往是所有人都遭受损失。

博弈论中的“囚徒困境”,正是对这一现象的真实写照。

可谓“你我谁不是囚徒,天下何处无困境”。

随着经济社会的不断发展，构建和谐社会成为我国社会发展的首要目标。

面对这些生活中普遍存在的“囚徒困境”问题，需要我们深入研究囚徒困境博弈的经典理论模型，结合我国现实，找到一条能够真正帮助我们走出困境的道路。

2 囚徒困境博弈的理论模型囚徒困境博弈模型随着博弈论的深入发展，具有很多不同的形式，通常分为：完全信息的静态博弈、完全信息的动态博弈、不完全信息的静态博弈和不完全信息的动态博弈。

在讨论囚徒困境博弈的各种理论模型之前，先让我们看看它的基本模型的内容：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”。

如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1年徒刑。

囚徒困境

囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

(单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样)1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。

经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：•若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

•若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

•若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：甲沉默（合作）甲认罪（背叛）乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势策略”，理性的参与者绝不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒甲和乙该怎么办呢？他们作为本博弈中的两个博弈方，他们都有两个选择——坦白或抵赖。

很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。

但是由于两人处于隔离的情况下无法串供。

所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。

囚徒困境的破解方法

囚徒困境的破解方法
囚徒困境是博弈论中的经典问题，涉及到两名囚徒在独立的审判中如何作出合作与背叛的决策。

在囚徒困境中，每个囚徒都面临着合作与背叛之间的抉择，而最优的结果是两人都合作。

然而，由于缺乏信任和可能的坦白窃取，各方往往会选择背叛，导致最不理想的结果。

为了破解囚徒困境，有几种策略和方法可以被采用：
1. 进行重复博弈：在重复进行博弈的情况下，囚徒有机会观察和记住对方的行为。

这使得合作成为可能，因为囚徒们知道背叛可能会导致连续的背叛，从而带来更坏的结果。

这种重复博弈策略也被称为“赌咒策略”，因为它基于对对方决策的观察和回应。

2. 使用策略性沟通：囚徒可以通过策略性的沟通来建立信任和合作，从而避免陷入困境。

例如，囚徒可以告诉对方他们打算合作，并建议对方也选择合作来达到双方的最佳利益。

这种沟通可以增加囚徒之间的合作概率。

3. 设定奖惩机制：引入奖励和惩罚机制可以激励囚徒选择合作。

例如，如果两个囚徒都选择合作，他们可以获得共同的奖励。

另一方面，如果一个囚徒选择背叛而另一个囚徒选择合作，背叛的囚徒将受到严厉的惩罚。

这样的奖惩机制可以鼓励囚徒们选择合作而不是背叛。

4. 采用心理战略：通过使用心理战略，囚徒可以影响对方的选
择。

例如，他们可以表现出决心和信心，让对方相信他们会选择背叛。

这样一来，对方可能会害怕风险而选择合作，以避免被背叛。

总的来说，囚徒困境的破解方法通常基于建立信任、引入奖惩机制以及采用心理战略等策略，目的是为了激励各方选择合作，从而达到最有利的结果。

总结囚徒困境

总结囚徒困境什么是囚徒困境？囚徒困境（Prisoner’s Dilemma）是博弈论中的一个经典问题。

它描述了两个囚犯被困在同一个牢房，被指控共同犯下了一起罪行。

检察官分别与两名囚犯进行单独的审讯，并给出以下两个选择：1.合作：囚犯们不相互揭发，共同保持沉默。

2.背叛：囚犯们可以选择揭发对方，以换取自己的自由。

囚犯们无法沟通，也不知道对方选择了什么。

如果两人都选择合作，则每个人都会被判轻刑。

但如果其中一人选择背叛而另一人选择合作，则背叛者将会被判轻刑，而合作者将面临重刑。

如果两人都选择背叛，则每个人都会被判处较重的刑罚。

囚徒困境的特征囚徒困境有以下几个特征：1.互动性：囚犯的选择会相互影响，彼此的行为会对对方产生影响。

2.博弈论性质：囚徒困境可以用博弈论的方式进行分析，确定最佳策略。

3.利益最大化：每个囚犯都希望通过选择能够获得最大利益。

4.缺乏合作：由于囚犯无法沟通且不能相信对方，他们往往倾向于选择背叛。

囚徒困境的应用囚徒困境不仅仅是一个理论问题，它在现实生活中也有广泛的应用。

1.经济学：囚徒困境可以用来分析市场竞争中的合作与背叛的策略。

企业在价格战中的选择、合作与联盟等都与囚徒困境有关。

2.政治学：囚徒困境可以解释国际关系中的合作与冲突。

国家间的合作与背叛，如军备竞赛和防务合作等，都可以用囚徒困境来解释。

3.社会学：囚徒困境可以研究社会交往中的合作与背叛。

合作与背叛的选择在社会伦理、互助关系、信任建立等领域都有重要意义。

4.生态学：囚徒困境可以分析生态系统中的合作与竞争。

例如，在资源有限的情况下，个体的自利选择往往导致整体利益的损失。

解决囚徒困境的策略囚徒困境中，最理性的策略就是背叛对方，因为无论对方选择合作还是背叛，背叛者都能够获得更好的结果。

然而，背叛对方最终会导致双方都无法获得最优解。

为了克服囚徒困境，可以通过以下几种策略：1.长期合作：如果双方能够建立长期的合作关系，增加彼此之间的信任和依赖，就有可能避免囚徒困境的恶性循环。

囚徒困境的分类

囚徒困境的分类
囚徒困境是博弈论中一个经典的情境，涉及到两个合作伙伴在作出合作或背叛的决策时所面临的问题。

根据情境的不同，囚徒困境可以分为几种不同的分类：
1.标准囚徒困境（Classic Prisoner's Dilemma）：这是最常见的囚徒困境情境。

在这里，两名嫌疑犯被捕，检察官没有足够的证据判定他们有罪，但如果其中一人背叛另一人合作，他将受益。

如果两者都背叛，那么两者都会受到较长的刑期。

合作是理性的选择，但对于每个个体而言，个人利益可能会驱使他们背叛。

2.反复进行的囚徒困境（Iterated Prisoner's Dilemma）：这是一个对囚徒困境进行多次重复的版本。

在每一轮中，参与者可以基于对先前决策的经验来调整他们的策略。

这样的重复可以导致建立信任和合作的可能性。

3.广义囚徒困境（Generalized Prisoner's Dilemma）：这一形式考虑了多个参与者，并且每个参与者可以选择与其他参与者合作或背叛。

不同参与者之间的利益和关系复杂，可以通过不同策略的选择来影响整个博弈的结果。

4.演化博弈中的囚徒困境（Evolutionary Game Theory and Prisoner's Dilemma）：在生物学和社会科学中，囚徒困境也被用于解释合作行为是如何在进化过程中发展起来的。

在这个视角下，通过选择合作来最大程度保护自己的利益可能成为一种成功的进化策略。

这些分类展示了囚徒困境在不同背景和情境中的应用，以及对合作和背叛行为的不同解释。

博弈论经典例子(13)重复囚徒困境的游戏

重复囚徒困境的游戏其目的就是要研究在无限次数的对局游戏中人为什么要合作，人什么时候是合作的，什么时候又是不合作的，如何使别人与你合作。

一位美国科学院院士、著名的行为分析和国际关系专家罗伯符·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏，艾克斯罗德的游戏思路非常简单，任何想参加这个计算机竞赛的人都扮演“囚徒困境” 案例中一个囚犯的角色，他们把自己的策略编入到计算机程序中，然后他们的程序会被成双成对地融入到不同的组合，在分好组以后，参与者就开始玩“囚徒困境”的游戏。

在游戏中，有两个对策者，他们可以有两个选择：合作或背叛，每个人都必须在不知道对方选择的情况下，做出自己的选择。

艾克斯罗德邀请了来自经济界，心理学，补会学、政治学和数学领域的14位专家参与这一游戏，每个参加者每一步都要写出个体选择合作或不合作的程序，这个程序在作选择时可以利用对局的历史情况来分析，从而决定自己的策略。

游戏双方的选择，放在一起就产生了四种可能的结果，即：1. 合作．合作；2. 合作，背叛；3. 背叛，合作；4. 背叛，背叛；在这个游戏中，如果双方选择合作，双方都能得到较好的结果，即“对双方合作的奖励”为3分，如果一个合作而另一方背叛，那么，背叛者因为占了便宜，所以得到“对背叛投机”的5分，而合作者因为被对方占了便宜，只能得到0分。

如果双方都背叛，那么双方既没有得到利益，也没有失去什么，双方都得1分。

我们设想甲、乙两个程序在一起博弈，就出现这样的结果：甲：合作(3)乙：合作(3)甲：合作(0)乙：背叛(5)甲：背叛（5）乙：合作（0）甲：背叛（1）乙：背叛（1）就这种情形来看，对双方最好的结果是选择合作，总体得6分，如果一方选择合作，一方选不合作，总体得5分，如果两个人都不合作，总体得2分。

竞赛是循环进行的，即每一个参赛程序都与其他程序相遇。

按照事先约定的竞赛规则，每一个参赛程序还要与自己对局，以及和一个随机程序对局，所谓随机程序是以相等的概率50%随机选择合作或背叛；艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两对局，以找出什么样的策略得分最高。

打破囚徒困境的四种方法

打破囚徒困境的四种方法囚徒困境是博弈论中的一个经典问题，它描述了两个囚犯被捕后面临的选择。

如果两个囚犯都保持沉默，那么他们都只会被判处轻罪；如果其中一个人选择揭发另一个人，那么揭发者将被判处轻罪，而另一个人将被判处重罪；如果两个人都选择揭发对方，那么他们都将被判处重罪。

这个问题的解决方法可以启示我们在现实生活中如何打破困境，以下是四种方法：1. 合作合作是打破囚徒困境的最好方法。

如果两个囚犯都能够相互信任，相互合作，那么他们都可以避免被判处重罪。

在现实生活中，我们也可以通过合作来解决问题，例如在工作中与同事合作，共同完成任务，或者在家庭中与家人合作，共同分担家务。

2. 沟通沟通是打破囚徒困境的另一种方法。

如果两个囚犯能够进行有效的沟通，相互了解对方的想法和意愿，那么他们就可以更好地协调行动，避免被判处重罪。

在现实生活中，我们也可以通过沟通来解决问题，例如在工作中与同事沟通，了解对方的需求和意见，或者在家庭中与家人沟通，解决矛盾和分歧。

3. 妥协妥协是打破囚徒困境的第三种方法。

如果两个囚犯都能够妥协，相互让步，那么他们也可以避免被判处重罪。

在现实生活中，我们也可以通过妥协来解决问题，例如在工作中与同事妥协，达成共识，或者在家庭中与家人妥协，平衡各自的需求和利益。

4. 制度设计制度设计是打破囚徒困境的最后一种方法。

如果能够设计出一套公正、合理的制度，那么就可以避免囚徒困境的发生。

在现实生活中，我们也可以通过制度设计来解决问题，例如在公司中制定公正的考核制度，或者在社会中制定公正的法律和规章制度。

打破囚徒困境需要我们积极探索各种方法，寻找最适合的解决方案。

无论是合作、沟通、妥协还是制度设计，都可以帮助我们在现实生活中解决问题，实现共赢。

博弈论讲课囚徒困境

“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯（甲和乙）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判3年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判5年；如果都不坦白则因证据不足各判１年。

这就是二人博弈的支付矩阵也叫做双矩阵博弈三要素；1，谁参与这个博弈（甲乙）二人博弈局中人或参与人2可供参与人选择的行动或策略（坦白抵赖），3 博弈中各种对局下各参与人的盈利或得益（参与人的支付）支付不是付出而是得到（判刑年数）这种二人博弈是一种完全信息的静态博弈；博弈最基本的分类有两个一个是按照博弈各方是否同时决策分为静态博弈和动态博弈同时决策或者同时行动的博弈属于静态先后或序贯决策或行动的博弈属于动态即使决策或行动有先后但是只要参与者在决策时都还不知道对手的决策或行动是什么也算是静态博弈另一分类是按照大家是否清楚各种对局情况下每个参与人的得益分为完全信息博弈和不完全信息博弈两种分类组合起来一共就有四大类博弈-----下面就具体来讲一下这个囚徒困境博弈既然两个囚犯最好的结果是都不招供，两人都只被判1年，那么，两个囚犯都选择不招供就好然而，人算不如天算，“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果，即两个囚犯统统招供，结果都被判有期徒刑5年。

为什么最后甲乙都会坦白呢？我们从博弈论来分析一下；对一个博弈来说，游戏规则非常地重要，适宜的规则才能够达到目的。

在我们的日常生活中莫不如此，规则制订者往往利用条件制定出有利于自身的规章制度。

不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判一年，不坦白的话判五年，坦白还是比不坦白好。

结果，两个嫌疑犯都选择坦白。

即是说，不管甲坦白或抵赖，乙的最佳选择都是坦白。

反过来，同样地，不管乙是坦白还是抵赖，甲的最佳选择也是坦白。

博弈论——囚徒困境

博弈论——囚徒困境博弈论（经济学学科分支）博弈论又被称为对策论（Game Theory）既是现代数学的一个新分支，也是运筹学的一个重要学科。

博弈论主要研究公式化了的激励结构间的相互作用。

是研究具有斗争或竞争性质现象的数学理论和方法。

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

生物学家使用博弈理论来理解和预测进化论的某些结果。

博弈论已经成为经济学的标准分析工具之一。

在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

基本概念中包括局中人、行动、信息、策略、收益、均衡和结果等。

其中局中人、策略和收益是最基本要素。

局中人、行动和结果被统称为博弈规则。

别名：对策论、赛局理论所属学科：应用数学创始人：冯·诺依曼与奧斯卡·摩根斯特恩理论历史博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。

博弈论思想古已有之，中国古代的《孙子兵法》等著作就不仅是一部军事著作，而且算是最早的一部博弈论著作。

博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

近代对于博弈论的研究，开始于策梅洛（Zermelo），波莱尔（Borel）及冯·诺依曼（von Neumann）。

1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。

1944年，冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域，从而奠定了这一学科的基础和理论体系。

1950～1951年，约翰·福布斯·纳什（John Forbes Nash Jr）利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

博弈重复进行所耗时间会比较长，支付的时间价值必须考虑，记r为折现因子。

在有限博弈的情况下，可简化在r = l 的情况下讨论，并采用动态博弈的逆向归纳法进行研究：先分析t = T阶段两博弈方的选择，这仍然是一个基本的囚徒困境博弈，此时前一阶段的结果已成为事实，又无后续阶段，因此不难得出结论，这一阶段的结果是(坦白，坦白)，双方得益( -3 ，-3)。

现在回到t = T -1阶段，理性的博弈方对于后一阶段的结局非常清楚，其结果必然是(坦白，坦白)，因此不管现阶段的博弈结果是什么，双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3，此时的得益矩阵是：囚徒2囚徒1（表2）容易看出，坦白仍是两博弈方的严格优超策略，即(坦白，坦白) 是T - 1阶段的唯一的纯Nash均衡。

以此往上类推，每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白，所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。

再考虑“囚徒困境”博弈重复无数次。

因为无限博弈没有最终阶段，所以不能运用逆向归纳法求解。

考虑博弈双方都采用“冷酷战略”：( 1 ) 开始阶段选择抵赖；( 2 )选择抵赖直到有一方选择了坦白，为了报复对手的背叛，以后都选择坦白。

假定囚徒j 严格执行上述冷酷战略，考察囚徒i 的最优策略是否为冷酷战略：如果i 在博弈的某个阶段首先选择了坦白，他在该阶段得到0，而不是-1，但他的这次背叛会遭到囚徒j的永远惩罚，因此i 在随后每个阶段的支付都是-3 。

如果下列条件满足，给定j没有选择坦白，i将不会选择坦白：220+r(-3)+r(3)-1+r(-1)+r(-1)-+≤+……，即：31 11rr r -≤---解上述不等式得：r≥1／3 (这个条件容易满足)。

就是说，如果r ≥1／3，给定j 坚持冷酷战略并且j没有首先坦白，i不会选择首先坦白。

进一步假定j首先选择坦白，那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为？如果i 坚持冷酷战略，他随后每个阶段的支付是-3，但如果他选择其他战略，他在任何单一阶段的支付都不会大于-3，因此，无论r是多大，i都有积极性坚持冷酷战略。

在博弈重复无数次的情况下，只要r>1／3，子博弈精炼均衡是每个阶段博弈双方都采用抵赖进行合作。

三、不完全信息静态“囚徒困境”博弈由于现实生活中许多博弈并不满足完全信息的要求，比如买卖双方都对彼此的信息掌握不完全，买者不知卖者产品的质量到底如何，卖者也不知道买者愿意付出多高的价格等等，因此研究不完全信息下的博弈有着重要的理论和现实意义。

假定囚徒1有两种类型，理性的(或称为不合作的)和非理性的(有意愿合作的)，概率分别为1-p和P，又假定囚徒2只有一种类型——理性的。

假定理性的囚徒可以选择任意的策略，而非理性的囚徒1只有一种策略“针锋相对”，即开始阶段选择抵赖，随后的阶段以对方前一阶段的策略为自己现阶段的策略进行鼓恸或报复。

由于博弈只进行一个同合，博弈双方没有合作可能，于是理性的囚徒1的最优策略是“坦白”，理性的囚徒2也会选择“坦白”，因为对于一次博弈而言，不管囚徒l理性与否，坦白的策略总是对囚徒2最优的，构成不完全信息静态博弈的Bayes—Nash均衡。

我们还可以按如下方法证明：由于博弈只进行一个阶段，则非理性的因徙1选择抵赖，理性的囚徒1选择坦白，记囚徒2的选择为X，博弈路径如下所示：（表3）当X=“抵赖”时，囚徒2的期望支付是：4p-5；当X=坦白时，囚徒2的期望支付是3p-3。

无论p为何值，3p-3>4 p -5，故坦白是囚徒2的最优选择。

四、不完全信息动态“囚徒困境”博弈理论上在完全信息的情况下．T次重复的“囚徒困境”博弈在每阶段博弈都选择“坦白”是两个囚徒的最优战略，然而这一结果并没有在现实生活中发生，我们常常看到屡次作案的犯罪团伙总是般抵赖妄图逃脱法律的惩罚。

国外实验经济学家作试验也表明，在有限次重复博弈中合作行为也频繁出现，因此需要将不完全信息引入重复博弈。

首先讨论“囚徙困境”博弈只重复两次的情况。

在第二阶段，由于没有合作的空间，理性的因徒1和囚徒2都会选择坦白，而非理性的囚徒1根据“针锋相对”策略要选择囚徒2第一阶段的策略；在第一阶段，非理性的囚徒1选择抵赖，理性的囚徒1仍会选择坦白，因为它在该阶段的选择不会改变囚徒2在第二阶段选择坦白。

现在考虑囚徒2在第一阶段的选择(X) 如何影响非理性困徒1在第二阶段的选择，如下表所示：（表4）当X=“抵赖”时，囚徒2的期望支付是：p[( -1 )+ 0]+ (1-p ) [ ( -5 ) + ( -3 )] = 7p-8; 当X=“坦白”时，囚徒2此时的期望支付是：p[0+ (-3)]+ (1-p )[(-3)+(-3)]=3p-6。

如果7p-8≥3p-6，即P≥1／2，囚徒2 将会选择X=“抵赖”；P ≥1／2的条件下，进一步考虑基本膊弈重复三次的情况。

在第三阶段理性的囚徒1和囚徒2会因为没有后续的合作机会选择坦白；在第二阶段，由于理性的囚徒l知道囚徒2是理性的，自己在本阶段的选择不会改变囚徒2在下一阶段的选择，故仍会选择坦白。

下面要说明理性囚徒1在第一阶段将会选择抵赖进行合作：尽管囚徒1第一阶段选择坦白可能免于惩罚，但无疑向囚徒2显示自已是理性的博弈方，于是因徒2在第二阶段选择坦白，理性的囚徒1在第二阶段最大只能获得(-3)的支付；相反如果隐藏自己的真实情况，选择抵赖，那么可能在第一阶段获得( -1 )的支付，第二阶段获得0的支付，无疑这将更为有利，所以理性的徒1的三阶段策略是(抵赖，坦白，坦白)。

就理性的囚徒1和2而言，第一阶段有合作的可能(双方都选“抵赖”)，也有不合作的可能(因徒l选择“抵赖”，囚徒2选择坦白)。

先看双方都选择“抵赖”的情形，那么博弈进入第二和第三阶段，即随后的阶段是表4所示的两阶段博弈，所以在给定P≥l／2的条件下，囚徙2第二阶段选择抵赖，三次重复博弈的精练Bayes均衡如下表所：（表5）囚徒2选择(抵赖，抵赖，坦白)的期望支付为：(-1) +p[(-1)+0] + (1-p)[(-5)+(-3)]=7p-9。

再看双方不合作的情况，在不合作的情形下，囚徒2的策略有两种可能：(坦白，坦白，坦白)和(坦白，抵赖，坦白)。

①如果囚徒2选择（坦白，坦白，坦白)，博弈路径如下所：（表6）囚徒2的期望支付为：0+(-3) +(-3)=-6；②如果囚徒2选择（坦白，抵赖，坦白)，博弈路径如下所：（表7）囚徒2的期望支付为：0+(-5) +p(0)+ (1-p)(-3)=3p-8。

在P≥1／2的条件下7p-9≥-6，7p-9≥3p-8，因此(抵赖，抵赖，坦白)优于(坦白，坦白，坦白)和(坦白，抵赖，坦白)。

综合以上分析，只要囚徒1是非理性的慨率P≥1／2 ，表5所示的战略就是一个精炼Bayes均衡。

类似可以进一步证明，如果p≥1／2，对于T > 3，下列战略组合构成一个精炼Bayes均衡：理性囚徒1 在t = 1 至t =T-2阶段一直选择抵赖，在余下的两阶段选择坦白；囚徒2在t=l至t= T-l阶段选择抵赖，最后一阶段选择坦白。

我们清楚地看到，将不完全信息引入有限次“囚徒困境”复博能很好地解释现实的社会现象——为什么有那么多的囚徒宁愿选择抵赖而不是选择优超策略坦白。

至于“囚徒困境”的不完全信息下的无数重复博弈的情况，我们应该容易得出：在相当宽松的条件下，每阶段选择合作是精炼Bayes均衡。

五、“囚徒困境”实例（1）经济学例子：关税战两个国家，在关税上可以有以两个选择：提高关税，以保护自己的商品——背叛；与对方达成关税协定，降低关税以利各自商品流通——合作。

当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。

（重复博弈的结果是将发现共同合作利益最大）（2）商业例子：广告战两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告，收入增加很少但成本增加。

但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：互相达成协议，减少广告的开支——合作；增加广告开支，设法提升广告的质量，压倒对方——背叛。

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。

在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

参考文献[1] 《博弈论》（弗登博格，梯若尔著；姚洋校，黄涛等译），中国人民大学出版社（2010）[2] 《经济博弈论》（谢识予），复旦大学出版社（2010）[3] 《博弈与信息》（拉斯穆森著，韩松等译），中国人民大学出版社（2009）[4] 《经济学与博弈理论》（维加-雷东多著，毛亮等译），上海人民出版社（2006）。

博弈论“囚徒困境”的四种形式

合集下载

博弈论“囚徒困境”的四种形式

博弈论囚徒困境的四种形式 PDF

聊聊四种经典的博弈论模型

囚徒困境的博弈论表述

囚徒困境

博弈论中经典案例--“囚徒困境”

囚徒困境与博弈论

博弈论“囚徒困境”的四种形式

“囚徒困境”博弈的理论模型及现实思考

囚徒困境

囚徒困境的破解方法

总结囚徒困境

囚徒困境的分类

博弈论经典例子(13)重复囚徒困境的游戏

打破囚徒困境的四种方法

博弈论讲课囚徒困境

博弈论——囚徒困境

文档推荐

最新文档

博弈论“囚徒困境”的四种形式

合集下载

博弈论“囚徒困境”的四种形式

博弈论囚徒困境的四种形式 PDF

聊聊四种经典的博弈论模型

囚徒困境的博弈论表述

囚徒困境

博弈论中经典案例--“囚徒困境”

囚徒困境与博弈论

博弈论“囚徒困境”的四种形式

“囚徒困境”博弈的理论模型及现实思考

囚徒困境

囚徒困境的破解方法

总结囚徒困境

囚徒困境的分类

博弈论经典例子(13)重复囚徒困境的游戏

打破囚徒困境的四种方法

博弈论讲课 囚徒困境

博弈论——囚徒困境

文档推荐

最新文档

博弈论讲课囚徒困境