博弈论“囚徒困境”的四种形式

格式：doc
大小：75.00 KB
文档页数：6

下载文档原格式

/ 6

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2囚徒1（表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

博弈论囚徒困境的四种形式 PDF

�p� 1 徒囚性理非
�所表下如衡均 seyaB 练精的弈博复重次三�赖抵择选段阶二第 2 徙囚�下件条的 2�l≥P 定给在以所�弈博段阶两的示所 4 表是段阶的后随即�段阶三第和二第入进弈博么那�形情的”赖抵“择选都方双看先。)白坦择选 2 徒囚� ”赖抵“择选 l 徒因(能可的作合不有也�)”赖抵“选都方双(能可的作合有段阶一第�言而 2 和 1 徒囚的性理就。)白坦�白坦�赖抵(是略策段阶三的 1 徒的性理以所�利有为更将这疑无�付支的 0 得获段阶二第�付支的) 1- (得获段阶一第在能可么那 �赖抵择选�况情实真的己自藏隐果如反相�付支的)3-(得获能只大最段阶二第在 1 徒囚的性理�白坦择选段阶二第在 2 徒因是于�方弈博的性理是已自示显 2 徒囚向疑无但�罚惩于免能可白坦择选段阶一第 1 徒囚管尽 �作合行进赖抵择选会将段阶一第在 1 徒囚性理明说要面下。白坦择选会仍故�择选的段阶一下在 2 徒囚变改会不择选的段阶本在己自�的性理是 2 徒囚道知 l 徒囚的性理于由�段阶二第在�白坦择选会机作合的续后有没为因会 2 徒囚和 1 徒囚的性理段阶三第在。况情的次三复重弈膊本基虑考步一进� 下件条的 2�1≥ P � ”赖抵“=X 择选会将 2 徒囚�2�1≥P 即 �6-p3≥8-p7 果如。6-p3=])3-(+)3-([) p-1( +])3-( +0[p �是付支望期的时此 2 徒囚 �时 ”白坦“ =X 当 ;8-p7 = ]) 3- ( + ) 5- ( [ ) p-1( +]0 +) 1- ([p�是付支望期的 2 徒囚�时”赖抵“=X 当 �4 表� 白坦白坦 2=t X X 白坦赖抵 1=t �p-1� 1 徒囚性理 2 徒囚

博弈论

1.囚徒困境：假设警察局抓住了两个合伙犯罪的嫌疑犯，但获得的证据并不十分确切，对于两者的量刑就可能取决于两者对于犯罪事实的供认。

警察局将这两名嫌疑犯分别关押以防他们串供。

两名囚徒明白，如果他们都交代犯罪事实，则可能将各被判刑5年；如果他们都不交代，则有可能只会被以较轻的妨碍公务罪各判1年；如果一人交代，另一人不交代，交代者有可能会被立即释放，不交代者则将可能被重判8年。

（1）请写出这两名嫌疑犯博弈的支付矩阵；（2）假设这两名嫌疑犯都是极其精明的会打小算盘的自私自利不讲“江湖义气”的人，同时被分别审查不能够进行沟通。

请给出每个嫌疑犯的最佳策略；（3）假设允许这两名嫌疑犯在审讯室一起单独呆上10分钟，然后再决定是否坦白。

他们能否建立一个攻守同盟，从而双方都只被判一年？（4）若其中一名囚徒不知道对手是否理性，则他的最佳策略是什么？（5）说明这两个囚徒的困境在哪里？从“囚徒困境”博弈中你得到了什么启示？（6）利用“囚徒困境”博弈从下面两个现象：①恋人们在恋爱中海誓山盟，最终还是分手；②美苏两国经常会晤，甚至签订核不扩散条约，但军费一年高过一年。

（7）请试举一例“囚徒困境”博弈。

（8）请指出一种走出“囚徒困境”的方法。

2. 商家价格战出售同类产品的商家之间本来可以通过共同将价格维持在高位而获利，但实际上却是相互杀价，结果都赚不到钱。

请解释这个现象，并站在商家的立场上给出一些避免“价格大战”的方法。

3. 智猪博弈猪圈中有一头大猪和一头小猪，在猪圈的一端设有一个按钮，每按一下，位于猪圈另一端的食槽中就会有10单位的猪食进槽，但每按一下按钮会耗去相当于2单位猪食的成本。

如果大猪先到食槽，则大猪吃到9单位食物，小猪仅能吃到1单位食物；如果两猪同时到食槽，则大猪吃7单位，小猪吃3单位食物；如果小猪先到，大猪吃6单位而小猪吃4单位食物。

（1）给出这个博弈的支付矩阵；（2）找出这两头理性“智猪”的最佳策略；（3）该“智猪博弈”博弈给你的启发是什么？（4）有些广告具有“外部性”，如假设伊利宣传牛奶能强健国人的体质的广告就不仅仅增加了人们对伊利牛奶的需求，也增加了对其他品牌牛奶的需求。

聊聊四种经典的博弈论模型

聊聊四种经典的博弈论模型展开全文1、囚徒困境：为什么两个犯人都选择坐牢官差破获了一宗盗窃案，抓住了两名犯罪嫌疑人。

但在审讯过程中，被关在一处的二人始终矢口否认盗窃罪名，说东西不是我们偷的。

为了避免两人达成默契，结成攻守同盟，官差决定对他们进行单独审讯。

官差表示，如果两人中有一人坦白认罪，则可立即释放，另一个不认罪的人判5年徒刑；如果两人都坦白罪刑，则他们将各判2年徒刑。

但还有一种情况，那就是两个人都拒绝坦白，由于缺乏证据，他们只会以扰乱公共场合为名判处3个月拘役。

这就是两名罪犯面临的困境中，他们会做出怎样的选择呢？首先，他们互相之间都不清楚对方是否会坦白，其次，二人都希望将自己的刑期缩至最短。

如此考虑，最终，两名犯人都会选择坦白交代。

上面的案例就是博弈论所说的“囚徒困境”。

犯人们如果彼此合作，可为集体带来最佳利益（刑期最短）；但当二人面对同样的情况且不知道对方如何选择时，在理性思考后，双方都会得出相同的结论（坦白交代），以便达到个人利益的最大化。

囚徒困境是博弈论的“非零和博弈”中具代表性的例子，反映的是个人的最佳选择并非是团体的最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

2、智猪博弈：赢的总是小猪猪圈里有大小两头猪，它们在同一个食槽里进食。

为了保持饲料的新鲜，在远离猪食槽的另一边有一个踏板，大猪或小猪跑过去，每按动一次踏板，投食口就会掉落10个单位的食物。

于是，在大猪和小猪每次进食前，就会形成这样一种局面:如果小猪跑去按踏板，大猪守在食槽边，则大猪小猪吃到的食物比是9:1；反之，如果大猪去按而小猪守在食槽边，则吃食比例是6:4。

如果二猪同时到食槽边，则吃食比是7:3。

这样一来，从纯收益的角度考虑，小猪就更愿意选择在食槽边等待食物落出，因为“等待优于行动”，而大猪只能被迫奔忙在踏板和食槽之间。

上述“智猪博弈”的案例是经济学家的假设论证模型，这个博弈的结果，用经济学视角看待，可以解释为：谁占有更多资源，谁就必须承担更多义务。

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）0 囚徒困境：假定有两个犯罪嫌疑人共同作案。

警察抓住他们以后，分开拘押，并告诉他们：可以选择坦白，或是不坦白；如果一个人坦白，而另一个人不坦白，则坦白的一方会被立即释放，而不坦白的一方被判10年；如果两人都坦白，则会每人各判8年；如果两人都抵赖，因证据不足，则每人在关押1年后释放。

那么，这两个犯罪嫌疑人该如何选择呢？现在我们来看参与人甲和乙会如何决策。

我们假设参与人是理性的，都不想坐牢，能少坐牢尽量少坐牢。

我们先考虑甲的选择，他面对的问题是：如果乙坦白的话，自己坦白判8年，不坦白判10年，那么坦白比不坦白好；如果乙不坦白，自己坦白会被立即释放，不坦白则判1年，坦白还是比不坦白好。

因此，不论对方坦白不坦白，甲或乙自己的最优选择都是坦白。

占优均衡：一般来说，由于每个参与人的效用依赖于所有人的选择，因此每个人的最优选择（战略）也依赖于所有其他人的选择（战略）。

但由囚徒困境我们可以看出，一个人的最优选择并不依赖于他人的选择。

这样的最优战略，被称为“占优战略”。

由所有参与人的占优战略构成的战略组合被称为“占优均衡”。

占优战略均衡的出现只要求所有人都是理性的，但不要求每个参与人知道其他人是否理性。

囚徒困境博弈有占优均衡，所以其结果很容易预测。

“囚徒困境”表明个人理性与集体理性的冲突。

这样的例子有很多：寡头竞争，军备竞赛，团队生产中的劳动供给，公共产品的供给，等等。

许多的制度就是为了解决“囚徒困境”而存在的。

私人产品是志愿购买的，但公共产品可能需要强制购买；税收制度就是保证公共产品的生产，解决公共产品生产上的“囚徒困境”。

囚徒困境的一般表示：要使上述博弈成为一个囚徒困境需要满足这样一个条件：R>T>P>S。

解决囚徒困境的一种方式：用法律解决“囚徒困境”满足：X>R-T1 “智猪博弈”：设想猪圈里有两头猪，一头大猪和一头小猪。

囚徒困境的博弈论表述

囚徒困境的博弈论表述囚徒困境是博弈论中的经典问题之一，涉及到两位囚犯的选择，他们会面临到合作与背叛的选择，其结果会影响到他们之间的关系和各自的命运。

以下是囚徒困境的博弈论表述。

第一步，两位囚犯被抓并被关在了不同的牢房里，他们之间无法交流。

警察可以与每个囚犯进行单独的问讯，但对双方的答案会有所保密。

第二步，警察告诉囚犯们，如果他们两个都不承认犯罪，那么他们都会被判入狱1年。

但是，如果其中一个人承认犯罪而另一个人不承认，那么承认犯罪的囚犯将被判入狱3年，而不承认犯罪的囚犯将被判入狱10年。

如果两个人都承认犯罪，那么他们都将被判入狱5年。

第三步，两位囚犯需要作出自己的选择。

如果他们合作并且不承认犯罪，那么他们都可以被判入狱1年，这是对双方最好的结果。

但是，如果其中一个囚犯选择背叛另一个人，并承认犯罪，那么他将被判入狱3年，而另一名囚犯将被判入狱10年。

如果两个人都背叛，那么他们都将被判入狱5年，这是对双方最糟糕的结果。

在这种情况下，每一个囚犯都会寻求自己的最大利益，因为他们之前无法沟通，不可能达成共同合作的结果，因此囚徒困境是一种不稳定的策略。

当他们都选择自我保护而摆脱责任，结果却不如合作的结果好时，则产生了“囚徒困境”。

这个问题反映了在面临群体行动问题时，个体的行动往往与合作的利益是相反的。

因此，在实际生活中，面对这种情况，往往需要我们平衡自我利益与合作利益之间的权衡，才能取得更好的结果。

总之，囚徒困境通过一个简单的例子，提示了现实生活中相当普遍的博弈问题，一定程度上也预示了独裁和相互协作的不同结局。

在此基础上，对于此类博弈问题，我们需要不断探讨和学习，才有可能取得最佳的结果。

囚徒困境

一、囚徒困境（prisoner's dilemma ）1、囚徒困境简介囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克（Albert tucker）1950年提出来的。

他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。

故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8 年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

2、经典的囚徒困境1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。

博弈囚徒困境模型

“囚徒困境”在生活中的实例以及一个新的考虑班级：2012212102学号：**********姓名：***一、简述本学期我们学习了博弈论这门课程。

在这门课上，我们学习了相关的博弈论的概念和一些经典的博弈论模型，”囚徒困境”是最广为人知的一个博弈模型。

相应的，在我们的生活中也存在很多类似于”囚徒困境“的模型。

困境之所以被称之为困境是因为在这个模型中，人们根据利己原则所做的决策并没有使整体的决策达到最优。

然而，根据经济学的理论，当市场中每个人都做出自己的最优决策，整体将达到最优。

囚徒困境模型中的均衡并不满足这个条件，两者之间产生了矛盾。

在这里，我想介绍一个我的生活中存在的囚徒困境模型。

二、”谁去上选修课“模型我所要介绍的“囚徒困境”模型背景如下：假设我(M)跟我的室友(Q)在上学期都选择了量子力学这门选修课，假设期末的考试形式很简单，只要求期末写一篇论文。

另外平时有作业要写，作业内容页非常简单，只需上课的人将上课老师讲的题记下来回来抄一遍即可。

因此去不去上课对自己期末的成绩没有太大影响。

唯一的影响在于如果两个人都不去上课将不能获得有关期末考试的信息。

而如果有一个人去了，他将会把作业记下来并与另外一名同学共享。

而去上课将会花费两个小时的时间，并且在这两小时内只能听课而不能做其他的事。

因此可以假设浪费两个小时的效用为-2，但是获得作业信息的效用为1。

同时，如果只有一个人去上课，那么他将会因为另一名同学没有去上课就白白获得作业而感到不平衡，效用为-1。

如果没有人去上课的话，两个人都无法获得作业信息导致期末成绩的损失将使两人效用为-2。

如果两个人都去上课，那么都会因为有另一方的陪伴而感到时间上的损失不那么大，此时浪费两个小时的效用变为-1。

如果两个人都没去上课，会因为对方的陪同减少自己的心里负担，效用正向加1。

由此可得，博弈矩阵为：可知，均衡决策为两人都不去上课。

这是对于整体的最劣决策。

这是一个实际的例子，真实的来源于我的生活。

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境”博弈论中有一个经典案例--“囚徒困境”。

两个共谋犯罪的人被关入监狱，不能互相沟通情况。

如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年;若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年;若互相揭发，则因证据确实，二者都判刑八年。

由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。

囚犯可以做出如下选择：1、供出他的同伙(即与警察合作，从而背叛他的同伙)，2、保持沉默(也就是与他的同伙合作，而不是与警察合作)。

这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。

但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。

而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。

当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。

这种想法的诱惑力实在太大了。

但他也意识到，他的同伙也不是傻子，也会这样来设想他。

所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。

所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

囚徒困境模型的几个现实例子囚徒困境的例子在现实生活中很多。

“囚徒困境”博弈的理论模型及现实思考

“囚徒困境”博弈的理论模型及现实思考（安徽大学经济学院,安徽合肥230601）从剖析“囚徒困境”博弈的4个基本理论模型入手，深入研究导致“囚徒”陷入困境的原因，再结合现实生活的实际，给出了解决“囚徒困境”问题的有效办法。

标签：“囚徒困境”博弈;理论模型;现实思考1 引言囚徒困境是博弈论中非零和博弈的经典范例，它最早是由Tucker于1950年提出。

它是建立在具有个人理性的理性人的基础上的，反映了个人最佳选择而非团体最佳选择。

虽然囚徒困境本身只具有模型性质，但是现实生活中类似囚徒困境的例子却屡见不鲜。

“人不为己,天诛地灭”这句古话虽然过于极端,但揭露了人性中的理性自利一面。

在很多时候,个体理性带来的却很可能是集体的不理性,如果每个人都仅按照自利的原则行事,其结果往往是所有人都遭受损失。

博弈论中的“囚徒困境”,正是对这一现象的真实写照。

可谓“你我谁不是囚徒,天下何处无困境”。

随着经济社会的不断发展，构建和谐社会成为我国社会发展的首要目标。

面对这些生活中普遍存在的“囚徒困境”问题，需要我们深入研究囚徒困境博弈的经典理论模型，结合我国现实，找到一条能够真正帮助我们走出困境的道路。

2 囚徒困境博弈的理论模型囚徒困境博弈模型随着博弈论的深入发展，具有很多不同的形式，通常分为：完全信息的静态博弈、完全信息的动态博弈、不完全信息的静态博弈和不完全信息的动态博弈。

在讨论囚徒困境博弈的各种理论模型之前，先让我们看看它的基本模型的内容：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”。

如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1年徒刑。

囚徒困境的破解方法

囚徒困境的破解方法
囚徒困境是博弈论中的经典问题，涉及到两名囚徒在独立的审判中如何作出合作与背叛的决策。

在囚徒困境中，每个囚徒都面临着合作与背叛之间的抉择，而最优的结果是两人都合作。

然而，由于缺乏信任和可能的坦白窃取，各方往往会选择背叛，导致最不理想的结果。

为了破解囚徒困境，有几种策略和方法可以被采用：
1. 进行重复博弈：在重复进行博弈的情况下，囚徒有机会观察和记住对方的行为。

这使得合作成为可能，因为囚徒们知道背叛可能会导致连续的背叛，从而带来更坏的结果。

这种重复博弈策略也被称为“赌咒策略”，因为它基于对对方决策的观察和回应。

2. 使用策略性沟通：囚徒可以通过策略性的沟通来建立信任和合作，从而避免陷入困境。

例如，囚徒可以告诉对方他们打算合作，并建议对方也选择合作来达到双方的最佳利益。

这种沟通可以增加囚徒之间的合作概率。

3. 设定奖惩机制：引入奖励和惩罚机制可以激励囚徒选择合作。

例如，如果两个囚徒都选择合作，他们可以获得共同的奖励。

另一方面，如果一个囚徒选择背叛而另一个囚徒选择合作，背叛的囚徒将受到严厉的惩罚。

这样的奖惩机制可以鼓励囚徒们选择合作而不是背叛。

4. 采用心理战略：通过使用心理战略，囚徒可以影响对方的选
择。

例如，他们可以表现出决心和信心，让对方相信他们会选择背叛。

这样一来，对方可能会害怕风险而选择合作，以避免被背叛。

总的来说，囚徒困境的破解方法通常基于建立信任、引入奖惩机制以及采用心理战略等策略，目的是为了激励各方选择合作，从而达到最有利的结果。

总结囚徒困境

总结囚徒困境什么是囚徒困境？囚徒困境（Prisoner’s Dilemma）是博弈论中的一个经典问题。

它描述了两个囚犯被困在同一个牢房，被指控共同犯下了一起罪行。

检察官分别与两名囚犯进行单独的审讯，并给出以下两个选择：1.合作：囚犯们不相互揭发，共同保持沉默。

2.背叛：囚犯们可以选择揭发对方，以换取自己的自由。

囚犯们无法沟通，也不知道对方选择了什么。

如果两人都选择合作，则每个人都会被判轻刑。

但如果其中一人选择背叛而另一人选择合作，则背叛者将会被判轻刑，而合作者将面临重刑。

如果两人都选择背叛，则每个人都会被判处较重的刑罚。

囚徒困境的特征囚徒困境有以下几个特征：1.互动性：囚犯的选择会相互影响，彼此的行为会对对方产生影响。

2.博弈论性质：囚徒困境可以用博弈论的方式进行分析，确定最佳策略。

3.利益最大化：每个囚犯都希望通过选择能够获得最大利益。

4.缺乏合作：由于囚犯无法沟通且不能相信对方，他们往往倾向于选择背叛。

囚徒困境的应用囚徒困境不仅仅是一个理论问题，它在现实生活中也有广泛的应用。

1.经济学：囚徒困境可以用来分析市场竞争中的合作与背叛的策略。

企业在价格战中的选择、合作与联盟等都与囚徒困境有关。

2.政治学：囚徒困境可以解释国际关系中的合作与冲突。

国家间的合作与背叛，如军备竞赛和防务合作等，都可以用囚徒困境来解释。

3.社会学：囚徒困境可以研究社会交往中的合作与背叛。

合作与背叛的选择在社会伦理、互助关系、信任建立等领域都有重要意义。

4.生态学：囚徒困境可以分析生态系统中的合作与竞争。

例如，在资源有限的情况下，个体的自利选择往往导致整体利益的损失。

解决囚徒困境的策略囚徒困境中，最理性的策略就是背叛对方，因为无论对方选择合作还是背叛，背叛者都能够获得更好的结果。

然而，背叛对方最终会导致双方都无法获得最优解。

为了克服囚徒困境，可以通过以下几种策略：1.长期合作：如果双方能够建立长期的合作关系，增加彼此之间的信任和依赖，就有可能避免囚徒困境的恶性循环。

博弈论中社会困境的四种形式

博弈论中社会困境的四种形式最近在看凯文··凯利的《失控》，相信不少朋友都读过或听过这本大作，书中第5章第5节提到了博弈论衍生出的“社会困境”分为四种变体，分别是“草鸡博弈”、“猎鹿博弈”、“僵局”、“囚徒困境”，然而书中对“僵局”的解释语焉不详，给不少读者造成了疑惑，作者没有深厚的数学知识及博弈论相关的任何专业素养，于是以大家能看懂的方式为这四种模式做个简要分享。

1.什么是博弈论？博弈论，又称为对策论（Game Theory）、赛局理论等，既是现代数学的一个新分支，也是运筹学的一个重要学科。

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

换成大家容易理解的方式就是：我预测了你的动作；你预测了我对你的预测；我预测你预测到了我对你的预测；……然后这样不断重复，直至做出具体动作并得到博弈结果。

这本质上是一个二级混沌，一级混沌不会因为预测而改变，二次混沌则会随着预测而改变结果。

2.草鸡博弈(Chicken Game)：也叫斗鸡博弈、懦夫博弈、胆小鬼博弈，书中的原文是：“草鸡博弈”是供鲁莽的青少年玩的游戏。

两辆赛车朝悬崖边奔去；后摔出来的司机是赢家。

可谓短小精辟，另一方面也说明了我和很多读者的情况一样，有具体的案例更容易理解。

整体来说“草鸡博弈”是一个博胆行为，狭路相逢勇者胜，我也举个身边的例子，有个朋友说他前两天遇到一个逆行超车的还是左转来着，具体记不清了，总之我朋友是直行，对方理应让行，我朋友说他根本没松油门，反正有保险，最终对方先认怂了。

在这里我不是说我朋友的行为正确，而是阐述一个生活中的“草鸡博弈”案例，对方认为继续相向而行的成本太高而率先退出。

（草鸡博弈也叫斗鸡博弈）“草鸡博弈”的结局一定是两败俱伤或者一方败退，换位思考和协议补偿是解决“草鸡博弈”的方式，也就是我可以让步，但是你怎么补偿我？又或者是我想让你让步，我选择用什么来补偿你？古巴导弹危机是“草鸡博弈”在现实中的表现，大家可以想想还有哪些现实事件符合“草鸡博弈”理论。

囚徒困境的分类

囚徒困境的分类
囚徒困境是博弈论中一个经典的情境，涉及到两个合作伙伴在作出合作或背叛的决策时所面临的问题。

根据情境的不同，囚徒困境可以分为几种不同的分类：
1.标准囚徒困境（Classic Prisoner's Dilemma）：这是最常见的囚徒困境情境。

在这里，两名嫌疑犯被捕，检察官没有足够的证据判定他们有罪，但如果其中一人背叛另一人合作，他将受益。

如果两者都背叛，那么两者都会受到较长的刑期。

合作是理性的选择，但对于每个个体而言，个人利益可能会驱使他们背叛。

2.反复进行的囚徒困境（Iterated Prisoner's Dilemma）：这是一个对囚徒困境进行多次重复的版本。

在每一轮中，参与者可以基于对先前决策的经验来调整他们的策略。

这样的重复可以导致建立信任和合作的可能性。

3.广义囚徒困境（Generalized Prisoner's Dilemma）：这一形式考虑了多个参与者，并且每个参与者可以选择与其他参与者合作或背叛。

不同参与者之间的利益和关系复杂，可以通过不同策略的选择来影响整个博弈的结果。

4.演化博弈中的囚徒困境（Evolutionary Game Theory and Prisoner's Dilemma）：在生物学和社会科学中，囚徒困境也被用于解释合作行为是如何在进化过程中发展起来的。

在这个视角下，通过选择合作来最大程度保护自己的利益可能成为一种成功的进化策略。

这些分类展示了囚徒困境在不同背景和情境中的应用，以及对合作和背叛行为的不同解释。

囚徒困境(预备知识)

囚徒困境 ——博弈论概述 ——博弈论概述
两个共同作案的犯罪嫌疑人被捕，但警方缺乏证据需要犯罪嫌疑人招认。警方把他们关入不同的牢房，并对他们说明不同的行动所带来的后果。如果两人都采取沉默的抗拒态度，两人将均因轻度犯罪而入狱一个月；如果双方都坦白，根据案情都将被判入狱六个月；如果一个招认另一个拒不坦白，招认者因立功表现而立即释放，另一人将被判入狱九个月。
博弈论——是数学的一个分支博弈论——是数学的一个分支，不是经济学的是数学的一个分支，一个分支。一个分支。获得诺贝尔经济学奖的博弈论专家的论文都是发表在数学杂志上而不是在经济学杂志上。博弈论专家为什么会得到诺贝尔经济杂志上。学奖呢？学奖呢？ 1）博弈论在经济学中的应用最广泛、最成功，博弈论在经济学中的应用最广泛、最成功，博弈论的许多成果都借助于经济学来实验。博弈论的许多成果都借助于经济学来实验。经济学对博弈论的贡献越来越大，联系紧密。经济学对博弈论的贡献越来越大，联系紧密。特别是动态博弈分析和不完全信息博弈出现以后。经济学与博弈论的研究模式相同，经济学与博弈论的研究模式相同，都强调个体理性，就是给定约束条件下的效用最大化。理性，就是给定约束条件下的效用最大化。
推荐电影：推荐电影：美丽心灵
类似问题类似问题
□竞争销售：A、B两个公司以高、低两种价格销售竞争销售：A 同一种产品。 A的策略空间：低价、高价 B的策略空间：低价、高价解：策略组合[低价，低价] 解：策略组合[低价，低价] □美苏冷战：美国的策略空间：扩军、裁军苏联的策略空间：扩军、裁军解：策略组合[扩军，扩军] 解：策略组合Байду номын сангаас扩军，扩军] □田忌赛马
20122012-3-17
囚徒2

打破囚徒困境的四种方法

打破囚徒困境的四种方法囚徒困境是博弈论中的一个经典问题，它描述了两个囚犯被捕后面临的选择。

如果两个囚犯都保持沉默，那么他们都只会被判处轻罪；如果其中一个人选择揭发另一个人，那么揭发者将被判处轻罪，而另一个人将被判处重罪；如果两个人都选择揭发对方，那么他们都将被判处重罪。

这个问题的解决方法可以启示我们在现实生活中如何打破困境，以下是四种方法：1. 合作合作是打破囚徒困境的最好方法。

如果两个囚犯都能够相互信任，相互合作，那么他们都可以避免被判处重罪。

在现实生活中，我们也可以通过合作来解决问题，例如在工作中与同事合作，共同完成任务，或者在家庭中与家人合作，共同分担家务。

2. 沟通沟通是打破囚徒困境的另一种方法。

如果两个囚犯能够进行有效的沟通，相互了解对方的想法和意愿，那么他们就可以更好地协调行动，避免被判处重罪。

在现实生活中，我们也可以通过沟通来解决问题，例如在工作中与同事沟通，了解对方的需求和意见，或者在家庭中与家人沟通，解决矛盾和分歧。

3. 妥协妥协是打破囚徒困境的第三种方法。

如果两个囚犯都能够妥协，相互让步，那么他们也可以避免被判处重罪。

在现实生活中，我们也可以通过妥协来解决问题，例如在工作中与同事妥协，达成共识，或者在家庭中与家人妥协，平衡各自的需求和利益。

4. 制度设计制度设计是打破囚徒困境的最后一种方法。

如果能够设计出一套公正、合理的制度，那么就可以避免囚徒困境的发生。

在现实生活中，我们也可以通过制度设计来解决问题，例如在公司中制定公正的考核制度，或者在社会中制定公正的法律和规章制度。

打破囚徒困境需要我们积极探索各种方法，寻找最适合的解决方案。

无论是合作、沟通、妥协还是制度设计，都可以帮助我们在现实生活中解决问题，实现共赢。

博弈论讲课囚徒困境

“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯（甲和乙）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判3年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判5年；如果都不坦白则因证据不足各判１年。

这就是二人博弈的支付矩阵也叫做双矩阵博弈三要素；1，谁参与这个博弈（甲乙）二人博弈局中人或参与人2可供参与人选择的行动或策略（坦白抵赖），3 博弈中各种对局下各参与人的盈利或得益（参与人的支付）支付不是付出而是得到（判刑年数）这种二人博弈是一种完全信息的静态博弈；博弈最基本的分类有两个一个是按照博弈各方是否同时决策分为静态博弈和动态博弈同时决策或者同时行动的博弈属于静态先后或序贯决策或行动的博弈属于动态即使决策或行动有先后但是只要参与者在决策时都还不知道对手的决策或行动是什么也算是静态博弈另一分类是按照大家是否清楚各种对局情况下每个参与人的得益分为完全信息博弈和不完全信息博弈两种分类组合起来一共就有四大类博弈-----下面就具体来讲一下这个囚徒困境博弈既然两个囚犯最好的结果是都不招供，两人都只被判1年，那么，两个囚犯都选择不招供就好然而，人算不如天算，“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果，即两个囚犯统统招供，结果都被判有期徒刑5年。

为什么最后甲乙都会坦白呢？我们从博弈论来分析一下；对一个博弈来说，游戏规则非常地重要，适宜的规则才能够达到目的。

在我们的日常生活中莫不如此，规则制订者往往利用条件制定出有利于自身的规章制度。

不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判一年，不坦白的话判五年，坦白还是比不坦白好。

结果，两个嫌疑犯都选择坦白。

即是说，不管甲坦白或抵赖，乙的最佳选择都是坦白。

反过来，同样地，不管乙是坦白还是抵赖，甲的最佳选择也是坦白。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

博弈重复进行所耗时间会比较长，支付的时间价值必须考虑，记r为折现因子。

在有限博弈的情况下，可简化在r = l 的情况下讨论，并采用动态博弈的逆向归纳法进行研究：先分析t = T阶段两博弈方的选择，这仍然是一个基本的囚徒困境博弈，此时前一阶段的结果已成为事实，又无后续阶段，因此不难得出结论，这一阶段的结果是(坦白，坦白)，双方得益( -3 ，-3)。

现在回到t = T -1阶段，理性的博弈方对于后一阶段的结局非常清楚，其结果必然是(坦白，坦白)，因此不管现阶段的博弈结果是什么，双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3，此时的得益矩阵是：囚徒2囚徒1（表2）容易看出，坦白仍是两博弈方的严格优超策略，即(坦白，坦白) 是T - 1阶段的唯一的纯Nash均衡。

以此往上类推，每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白，所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。

再考虑“囚徒困境”博弈重复无数次。

因为无限博弈没有最终阶段，所以不能运用逆向归纳法求解。

考虑博弈双方都采用“冷酷战略”：( 1 ) 开始阶段选择抵赖；( 2 )选择抵赖直到有一方选择了坦白，为了报复对手的背叛，以后都选择坦白。

假定囚徒j 严格执行上述冷酷战略，考察囚徒i 的最优策略是否为冷酷战略：如果i 在博弈的某个阶段首先选择了坦白，他在该阶段得到0，而不是-1，但他的这次背叛会遭到囚徒j的永远惩罚，因此i 在随后每个阶段的支付都是-3 。

如果下列条件满足，给定j没有选择坦白，i将不会选择坦白：220+r(-3)+r(3)-1+r(-1)+r(-1)-+≤+……，即：31 11rr r -≤---解上述不等式得：r≥1／3 (这个条件容易满足)。

就是说，如果r ≥1／3，给定j 坚持冷酷战略并且j没有首先坦白，i不会选择首先坦白。

进一步假定j首先选择坦白，那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为？如果i 坚持冷酷战略，他随后每个阶段的支付是-3，但如果他选择其他战略，他在任何单一阶段的支付都不会大于-3，因此，无论r是多大，i都有积极性坚持冷酷战略。

在博弈重复无数次的情况下，只要r>1／3，子博弈精炼均衡是每个阶段博弈双方都采用抵赖进行合作。

三、不完全信息静态“囚徒困境”博弈由于现实生活中许多博弈并不满足完全信息的要求，比如买卖双方都对彼此的信息掌握不完全，买者不知卖者产品的质量到底如何，卖者也不知道买者愿意付出多高的价格等等，因此研究不完全信息下的博弈有着重要的理论和现实意义。

假定囚徒1有两种类型，理性的(或称为不合作的)和非理性的(有意愿合作的)，概率分别为1-p和P，又假定囚徒2只有一种类型——理性的。

假定理性的囚徒可以选择任意的策略，而非理性的囚徒1只有一种策略“针锋相对”，即开始阶段选择抵赖，随后的阶段以对方前一阶段的策略为自己现阶段的策略进行鼓恸或报复。

由于博弈只进行一个同合，博弈双方没有合作可能，于是理性的囚徒1的最优策略是“坦白”，理性的囚徒2也会选择“坦白”，因为对于一次博弈而言，不管囚徒l理性与否，坦白的策略总是对囚徒2最优的，构成不完全信息静态博弈的Bayes—Nash均衡。

我们还可以按如下方法证明：由于博弈只进行一个阶段，则非理性的因徙1选择抵赖，理性的囚徒1选择坦白，记囚徒2的选择为X，博弈路径如下所示：（表3）当X=“抵赖”时，囚徒2的期望支付是：4p-5；当X=坦白时，囚徒2的期望支付是3p-3。

无论p为何值，3p-3>4 p -5，故坦白是囚徒2的最优选择。

四、不完全信息动态“囚徒困境”博弈理论上在完全信息的情况下．T次重复的“囚徒困境”博弈在每阶段博弈都选择“坦白”是两个囚徒的最优战略，然而这一结果并没有在现实生活中发生，我们常常看到屡次作案的犯罪团伙总是般抵赖妄图逃脱法律的惩罚。

国外实验经济学家作试验也表明，在有限次重复博弈中合作行为也频繁出现，因此需要将不完全信息引入重复博弈。

首先讨论“囚徙困境”博弈只重复两次的情况。

在第二阶段，由于没有合作的空间，理性的因徒1和囚徒2都会选择坦白，而非理性的囚徒1根据“针锋相对”策略要选择囚徒2第一阶段的策略；在第一阶段，非理性的囚徒1选择抵赖，理性的囚徒1仍会选择坦白，因为它在该阶段的选择不会改变囚徒2在第二阶段选择坦白。

现在考虑囚徒2在第一阶段的选择(X) 如何影响非理性困徒1在第二阶段的选择，如下表所示：（表4）当X=“抵赖”时，囚徒2的期望支付是：p[( -1 )+ 0]+ (1-p ) [ ( -5 ) + ( -3 )] = 7p-8; 当X=“坦白”时，囚徒2此时的期望支付是：p[0+ (-3)]+ (1-p )[(-3)+(-3)]=3p-6。

如果7p-8≥3p-6，即P≥1／2，囚徒2 将会选择X=“抵赖”；P ≥1／2的条件下，进一步考虑基本膊弈重复三次的情况。

在第三阶段理性的囚徒1和囚徒2会因为没有后续的合作机会选择坦白；在第二阶段，由于理性的囚徒l知道囚徒2是理性的，自己在本阶段的选择不会改变囚徒2在下一阶段的选择，故仍会选择坦白。

下面要说明理性囚徒1在第一阶段将会选择抵赖进行合作：尽管囚徒1第一阶段选择坦白可能免于惩罚，但无疑向囚徒2显示自已是理性的博弈方，于是因徒2在第二阶段选择坦白，理性的囚徒1在第二阶段最大只能获得(-3)的支付；相反如果隐藏自己的真实情况，选择抵赖，那么可能在第一阶段获得( -1 )的支付，第二阶段获得0的支付，无疑这将更为有利，所以理性的徒1的三阶段策略是(抵赖，坦白，坦白)。

就理性的囚徒1和2而言，第一阶段有合作的可能(双方都选“抵赖”)，也有不合作的可能(因徒l选择“抵赖”，囚徒2选择坦白)。

先看双方都选择“抵赖”的情形，那么博弈进入第二和第三阶段，即随后的阶段是表4所示的两阶段博弈，所以在给定P≥l／2的条件下，囚徙2第二阶段选择抵赖，三次重复博弈的精练Bayes均衡如下表所：（表5）囚徒2选择(抵赖，抵赖，坦白)的期望支付为：(-1) +p[(-1)+0] + (1-p)[(-5)+(-3)]=7p-9。

再看双方不合作的情况，在不合作的情形下，囚徒2的策略有两种可能：(坦白，坦白，坦白)和(坦白，抵赖，坦白)。

①如果囚徒2选择（坦白，坦白，坦白)，博弈路径如下所：（表6）囚徒2的期望支付为：0+(-3) +(-3)=-6；②如果囚徒2选择（坦白，抵赖，坦白)，博弈路径如下所：（表7）囚徒2的期望支付为：0+(-5) +p(0)+ (1-p)(-3)=3p-8。

在P≥1／2的条件下7p-9≥-6，7p-9≥3p-8，因此(抵赖，抵赖，坦白)优于(坦白，坦白，坦白)和(坦白，抵赖，坦白)。

综合以上分析，只要囚徒1是非理性的慨率P≥1／2 ，表5所示的战略就是一个精炼Bayes均衡。

类似可以进一步证明，如果p≥1／2，对于T > 3，下列战略组合构成一个精炼Bayes均衡：理性囚徒1 在t = 1 至t =T-2阶段一直选择抵赖，在余下的两阶段选择坦白；囚徒2在t=l至t= T-l阶段选择抵赖，最后一阶段选择坦白。

我们清楚地看到，将不完全信息引入有限次“囚徒困境”复博能很好地解释现实的社会现象——为什么有那么多的囚徒宁愿选择抵赖而不是选择优超策略坦白。

至于“囚徒困境”的不完全信息下的无数重复博弈的情况，我们应该容易得出：在相当宽松的条件下，每阶段选择合作是精炼Bayes均衡。

五、“囚徒困境”实例（1）经济学例子：关税战两个国家，在关税上可以有以两个选择：提高关税，以保护自己的商品——背叛；与对方达成关税协定，降低关税以利各自商品流通——合作。

当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。

（重复博弈的结果是将发现共同合作利益最大）（2）商业例子：广告战两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告，收入增加很少但成本增加。

但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：互相达成协议，减少广告的开支——合作；增加广告开支，设法提升广告的质量，压倒对方——背叛。

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。

在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

参考文献[1] 《博弈论》（弗登博格，梯若尔著；姚洋校，黄涛等译），中国人民大学出版社（2010）[2] 《经济博弈论》（谢识予），复旦大学出版社（2010）[3] 《博弈与信息》（拉斯穆森著，韩松等译），中国人民大学出版社（2009）[4] 《经济学与博弈理论》（维加-雷东多著，毛亮等译），上海人民出版社（2006）。

博弈论“囚徒困境”的四种形式

合集下载

博弈论“囚徒困境”的四种形式

博弈论囚徒困境的四种形式 PDF

博弈论

聊聊四种经典的博弈论模型

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）

囚徒困境的博弈论表述

囚徒困境

博弈囚徒困境模型

博弈论中经典案例--“囚徒困境”

“囚徒困境”博弈的理论模型及现实思考

囚徒困境的破解方法

总结囚徒困境

博弈论中社会困境的四种形式

囚徒困境的分类

囚徒困境(预备知识)

打破囚徒困境的四种方法

博弈论讲课囚徒困境

文档推荐

最新文档

博弈论“囚徒困境”的四种形式

合集下载

博弈论“囚徒困境”的四种形式

博弈论囚徒困境的四种形式 PDF

博弈论

聊聊四种经典的博弈论模型

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）

囚徒困境的博弈论表述

囚徒困境

博弈囚徒困境模型

博弈论中经典案例--“囚徒困境”

“囚徒困境”博弈的理论模型及现实思考

囚徒困境的破解方法

总结囚徒困境

博弈论中社会困境的四种形式

囚徒困境的分类

囚徒困境(预备知识)

打破囚徒困境的四种方法

博弈论讲课 囚徒困境

文档推荐

最新文档

博弈论讲课囚徒困境