博弈论囚徒困境的四种形式 PDF

格式：pdf
大小：123.59 KB
文档页数：6

下载文档原格式

/ 6

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2囚徒1（表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

囚犯困境模型

囚徒困境（Prison Dilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

经典的囚徒困境1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。

经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：甲沉默（合作）甲认罪（背叛）乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

囚徒困境博弈论

囚徒困境博弈论话说啊，有这么一个经典的博弈论小故事，咱们老百姓听了都能琢磨出味儿来，那就是“囚徒困境”。

这故事啊，讲的不是什么高大上的科学实验，而是两个哥们儿，咱们就叫他们阿明和阿强吧，一不小心犯了事儿，被警察给逮住了。

警察把他们分开审问，想套出点啥来，这时候，阿明和阿强就面临了一个难题，咱们慢慢道来。

阿明和阿强被关在两个屋子里，谁也瞧不见谁，也听不见对方说啥。

警察跟他们说：“嘿，你俩要是都一口咬定自己没错儿，啥也不知道，那咱们也没辙，顶多给你们判个轻罪，坐几年牢就出去了。

但是呢，要是你们当中有一个人招了，另一个人还硬扛着，那招了的这位呢，就能立马放出去，啥事儿没有；硬扛的那位呢，可就得把牢底坐穿了。

”这一下，阿明和阿强心里就开始犯嘀咕了。

阿明想：“阿强这小子，平时看着挺讲义气，可到了这节骨眼儿上，谁知道他会不会为了自己出去，把我卖了？”阿强呢，心里也是七上八下的：“阿明这小子，聪明着呢，他肯定也在琢磨我怎么想。

万一我硬扛着，他招了，那我可就完蛋了。

”这就叫囚徒困境，为啥呢？因为两个人都陷入了一种“我斗不过你，你也斗不过我，但咱俩都不肯让步”的僵局。

你说阿明和阿强想不想合作？当然想啊！都想对方别招，自己也别招，这样都能少判几年。

可问题是，他们不敢信对方，因为只要有一方动了私心，另一方就得吃大亏。

这时候，阿明和阿强就开始在心里盘算开了。

阿明琢磨着：“要是阿强是个真汉子，咱俩一起扛，那几年后还能一起喝酒。

可万一他不是呢？我这辈子就毁了。

”阿强也是这么想：“阿明要是个靠得住的兄弟，咱俩一起出去，以后还能混。

但他要是把我卖了，我这辈子可就完了。

”最后，这俩哥们儿很可能都会选择招供，为啥？因为他们都觉得，与其冒着被对方出卖的风险，不如自己先下手为强，至少能保住一条命。

这样一来，两个人都招了，结果反倒是都不太好。

本来嘛，要是他们都能信任对方，一起扛下来，可能过几年就出来了，还能继续当兄弟。

可这一招供，好了，俩人都得在牢里多待几年，说不定出来以后，连朋友都没得做了。

囚徒困境与博弈论

囚徒困境与博弈论囚徒困境与博弈论博弈论（也叫对策论）是一门很深的学问，在学校里至少要讲一个学期，甚至还有专门的博士课程。

但在这里不可能讲这么多，只能把它的基本概念、研究方法和一般规律做一个简单的概括。

从囚犯难题说起我们先从一个常见的案例说起。

这个故事是这样的：有一个富人在家中被谋杀，他的财产被盗。

警方在侦讯过程中抓到两名嫌疑犯：甲和乙，并在他们家中搜出了被盗的财物。

但甲、乙都否认杀人，声称他们进入被害人家中时那个人已经死去。

所以警方肯定他们至少犯下了盗窃罪，但对他们是否杀死了被害人并没有把握。

于是警方在把他们隔离的情况下分别对他们表示：因为偷东西已经有确凿证据，这将被判刑2年；如果拒不承认杀人而被另一方检举，将被判刑20年，而检举的一方可以受奖无罪释放；如果双方都坦白杀人，将各被判刑 10年。

这样，甲乙可能面临的判决如下：通过分析可以看出，最后的结果是甲乙都会承认杀人。

因为对本人来说，不管对方承认不承认，自己承认总比不承认好。

如果对方不承认，自己承认相比不承认等于从判刑2年改为无罪释放；如果对方承认，自己承认相比不承认相当于从判刑20年减到了10年。

这样，对甲乙双方来说，最佳的选择都是承认杀人。

这个结果与他们是否真的杀了人无关，即使他们没有杀人，也会承认杀人。

由于特定的选择条件，本来对双方最有利的结局（都不承认杀人，各被判刑2年）不会出现，出现的是对双方都不利的结果，这就是所谓的“囚犯困境”。

我们想想看，“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪行”，原因就在于此。

“囚徒困境”具有非常深刻的含义，它说明了为什么短视地追求自己利益将导致对大家都不利的结局。

现实中类似的例子还很多，比如为了图一时的方便，大家都不按交通规则行事，结果导致交通瘫痪；再比如前些年很多单位拿国家的钱争相发奖金，结果导致了全社会的通货膨胀。

不同的是，在囚徒困境模型里只涉及两个人，如果这种情况重复出现，两个人很容易从失败中吸取教训，从选择承认杀人改为不承认，这样，处境就可以改善。

博弈论“囚徒困境”的四种形式

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

囚徒困境的破解方法

囚徒困境的破解方法
囚徒困境是博弈论中的经典问题，涉及到两名囚徒在独立的审判中如何作出合作与背叛的决策。

在囚徒困境中，每个囚徒都面临着合作与背叛之间的抉择，而最优的结果是两人都合作。

然而，由于缺乏信任和可能的坦白窃取，各方往往会选择背叛，导致最不理想的结果。

为了破解囚徒困境，有几种策略和方法可以被采用：
1. 进行重复博弈：在重复进行博弈的情况下，囚徒有机会观察和记住对方的行为。

这使得合作成为可能，因为囚徒们知道背叛可能会导致连续的背叛，从而带来更坏的结果。

这种重复博弈策略也被称为“赌咒策略”，因为它基于对对方决策的观察和回应。

2. 使用策略性沟通：囚徒可以通过策略性的沟通来建立信任和合作，从而避免陷入困境。

例如，囚徒可以告诉对方他们打算合作，并建议对方也选择合作来达到双方的最佳利益。

这种沟通可以增加囚徒之间的合作概率。

3. 设定奖惩机制：引入奖励和惩罚机制可以激励囚徒选择合作。

例如，如果两个囚徒都选择合作，他们可以获得共同的奖励。

另一方面，如果一个囚徒选择背叛而另一个囚徒选择合作，背叛的囚徒将受到严厉的惩罚。

这样的奖惩机制可以鼓励囚徒们选择合作而不是背叛。

4. 采用心理战略：通过使用心理战略，囚徒可以影响对方的选
择。

例如，他们可以表现出决心和信心，让对方相信他们会选择背叛。

这样一来，对方可能会害怕风险而选择合作，以避免被背叛。

总的来说，囚徒困境的破解方法通常基于建立信任、引入奖惩机制以及采用心理战略等策略，目的是为了激励各方选择合作，从而达到最有利的结果。

博弈论之囚徒困境

博弈论之囚徒困境展开全文商业社会犹如丛林，生存就是一场肉弱强食的战争。

强敌环伺、资源有限，而你，是带枪的猎手？还是待宰的猎物？忍耐就是毁灭，强攻只会负伤。

聪明的做法，就是通过降维打击的方式，去到一个由我们说了算的丛林！大家好，我是雷彬。

今天给大家聊聊囚徒困境。

1950年，美国数学家阿尔伯特·塔克，为了向一群心理学家们解释博弈论，编了一个叫“囚徒困境”的故事：两名囚徒A和B被隔离审讯。

如果两人彼此背叛，都坦白罪行，会都被判刑8年；但如果一人坦白，一人不坦白，坦白的人直接释放，不坦白的重判15年。

如果两人合作，都不坦白呢？会因为证据不足，都只判1年。

囚徒应该怎么做？显然，“都不坦白”是最优策略，两人判得最轻。

知道“纳什均衡”你就会明白，“都不坦白”是经不起考验的最优策略：我如果单方选择背叛，将立即获释，诱惑太大；而且就算我守口如瓶，万一他背叛了呢？我会被判15年，风险太高。

在利益驱使下，“都不坦白”不是稳定的纳什均衡。

“都坦白”呢？那两人都获刑8年。

这时，如果一名囚徒单方决定守口如瓶，他的8年刑期将立刻变为15年，而另一人则被释放。

这一点好处都没有，两名囚徒如果是理性的，都不会这么干。

“都坦白”，是囚徒困境中唯一稳定的“纳什均衡”。

“好的不均衡，坏的却稳定”的囚徒困境，成了博弈论中最经典的案例。

但是，我今天的目的不是讲故事，而是深刻理解“囚徒困境”的博弈论原理，并找到破解方法。

到底什么是囚徒困境？一个典型的囚徒困境，用数学的语言表述，其实就是满足两个条件的博弈：第一，背叛诱惑> 合作报酬。

在这里，合作报酬是判刑1年，背叛诱惑却是立即释放。

这将导致“都不坦白”不构成稳定的纳什均衡；第二，受骗支付> 背叛惩罚。

在这个案例中，背叛惩罚是判刑8年，受骗支付却是判刑15年。

这将导致“都坦白”成为稳定的纳什均衡。

这就是“囚徒困境”的数学原理。

就这么简单？就这么简单。

理解了这两点，破解方法也就显而易见了：让“合作报酬> 背叛诱惑”；让“背叛惩罚 > 受骗支付”。

总结囚徒困境

总结囚徒困境什么是囚徒困境？囚徒困境（Prisoner’s Dilemma）是博弈论中的一个经典问题。

它描述了两个囚犯被困在同一个牢房，被指控共同犯下了一起罪行。

检察官分别与两名囚犯进行单独的审讯，并给出以下两个选择：1.合作：囚犯们不相互揭发，共同保持沉默。

2.背叛：囚犯们可以选择揭发对方，以换取自己的自由。

囚犯们无法沟通，也不知道对方选择了什么。

如果两人都选择合作，则每个人都会被判轻刑。

但如果其中一人选择背叛而另一人选择合作，则背叛者将会被判轻刑，而合作者将面临重刑。

如果两人都选择背叛，则每个人都会被判处较重的刑罚。

囚徒困境的特征囚徒困境有以下几个特征：1.互动性：囚犯的选择会相互影响，彼此的行为会对对方产生影响。

2.博弈论性质：囚徒困境可以用博弈论的方式进行分析，确定最佳策略。

3.利益最大化：每个囚犯都希望通过选择能够获得最大利益。

4.缺乏合作：由于囚犯无法沟通且不能相信对方，他们往往倾向于选择背叛。

囚徒困境的应用囚徒困境不仅仅是一个理论问题，它在现实生活中也有广泛的应用。

1.经济学：囚徒困境可以用来分析市场竞争中的合作与背叛的策略。

企业在价格战中的选择、合作与联盟等都与囚徒困境有关。

2.政治学：囚徒困境可以解释国际关系中的合作与冲突。

国家间的合作与背叛，如军备竞赛和防务合作等，都可以用囚徒困境来解释。

3.社会学：囚徒困境可以研究社会交往中的合作与背叛。

合作与背叛的选择在社会伦理、互助关系、信任建立等领域都有重要意义。

4.生态学：囚徒困境可以分析生态系统中的合作与竞争。

例如，在资源有限的情况下，个体的自利选择往往导致整体利益的损失。

解决囚徒困境的策略囚徒困境中，最理性的策略就是背叛对方，因为无论对方选择合作还是背叛，背叛者都能够获得更好的结果。

然而，背叛对方最终会导致双方都无法获得最优解。

为了克服囚徒困境，可以通过以下几种策略：1.长期合作：如果双方能够建立长期的合作关系，增加彼此之间的信任和依赖，就有可能避免囚徒困境的恶性循环。

囚徒困境博弈举例

2. 例子
在经济生活中，有许多“智猪博弈”的例子。
例子6 股市博弈
在股票市场上，大户是大猪，他们要进行技术分析，收集信息、预测股价走势，但大量散户就是小猪。
他们不会花成本去进行技术分析，而是跟着大户的投资战略进行股票买卖，即所谓“散户跟大户”的现象。
例子7 为何股份公司中的大股东才有投票权？
在股份公司中，大股东是大猪，他们要收集信息监督经理，因而拥有决定经理任免的投票权，而小股东是小猪，不会直接花精力去监督经理，因而没有投票权。
例子8 为什么中小企业不会花钱去开发新产品？
在技术创新市场上，大企业是大猪，它们投入大量资金进行技术创新，开发新产品，而中小企业是小猪，不会进行大规模技术创新，而是等待大企业的新产品形成新的市场后生产模仿大企业的新产品的产品去销售。
WTO是一个自愿性申请加入的自由贸易联盟，即WTO成员国之间实现低关税或零关税的相互间自由贸易。为什么需要一个组织来协调国家之间的自由贸易呢？这是因为，如果没有一个协调组织，国与国之间的贸易就不会呈现低关税或零关税的自由贸易局面，因为这时国与国之间的贸易是一个“囚徒困境”。给定一个国家对另一个国家的货物实行低关税，另一个国家反过来对这个国家的货物实行高关税是占优于实行低关税的战略的。
一、囚徒困境博弈
表1 囚徒困境博弈
乙
坦白
不坦白
坦白甲
不坦白
-5,-5 -8,0
0,-8 -1,-1
甲和乙都不会选择劣战略“不招”，称为“剔除劣战略的占优战略均衡”。其中“坦白”是占优于 (优于)“不坦白”的占优战略。
我们可以利用这个道理来分析日常生活中的许多不合作现象。
2. 生活中的“囚徒困境”例子

第二课：囚徒困境资料.

“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”
这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。
甲会这样推理：假如乙不招，我只要一招供，马上可以获得自由，而不招却要坐牢1年，显然招比不招好；假如乙招了，我若不招，则要坐牢15年，招了只坐10年，显然还是以招认为好。无论乙招与不招，我的最佳选择都是招认。还是招了吧。
自然，乙也同样精明，也会如此推理。
囚徒困境——合作是可能的吗？
曾经有两个饥饿的人，他们从一位智者那里得到了一根鱼竿和一篓鲜鱼，得到那篓鲜鱼的人就在原地把鱼煮熟了一口气吃完，解决了饥饿问题，可是很快就又感到肚内空空，最终饿死在了空空的鱼篓旁。而另一个得到鱼竿的人则提着鱼竿向遥远的大海走去，当他终于来到了大海边的时候，他也用尽了自己的最后一点力气。
A降价而B维持，则A获利15，B损失5，整体获利10； A维持且B也维持，则A获利5，B获利10，整体获利15； A维持而B降价，则A损失10，B获利15，整体获利5； A降价且B也降价，则A损失5，B损失5，整体损失10。从A角度看，显然降价要比维持好，降价至少可以保证比B好，在概率均等的情况下，A 降价的收益为15×50％－5×50％＝5，维持的收益为5×50％－10×50％＝－2．5，为了自身利益的最大化，A就不可避免地选择了降价。从B角度看，效果也一样，降价同样比维持好，其降价收益为5，维持收益为2．5，它也同样会选择降价。在这轮博弈中，A、B都将降价作为策略，因此各损失5，整体损失10，整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象，各个局部都寻求利益的最大化，而整体利益却不是最优，甚至是最差。

博弈论中社会困境的四种形式

博弈论中社会困境的四种形式最近在看凯文··凯利的《失控》，相信不少朋友都读过或听过这本大作，书中第5章第5节提到了博弈论衍生出的“社会困境”分为四种变体，分别是“草鸡博弈”、“猎鹿博弈”、“僵局”、“囚徒困境”，然而书中对“僵局”的解释语焉不详，给不少读者造成了疑惑，作者没有深厚的数学知识及博弈论相关的任何专业素养，于是以大家能看懂的方式为这四种模式做个简要分享。

1.什么是博弈论？博弈论，又称为对策论（Game Theory）、赛局理论等，既是现代数学的一个新分支，也是运筹学的一个重要学科。

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

换成大家容易理解的方式就是：我预测了你的动作；你预测了我对你的预测；我预测你预测到了我对你的预测；……然后这样不断重复，直至做出具体动作并得到博弈结果。

这本质上是一个二级混沌，一级混沌不会因为预测而改变，二次混沌则会随着预测而改变结果。

2.草鸡博弈(Chicken Game)：也叫斗鸡博弈、懦夫博弈、胆小鬼博弈，书中的原文是：“草鸡博弈”是供鲁莽的青少年玩的游戏。

两辆赛车朝悬崖边奔去；后摔出来的司机是赢家。

可谓短小精辟，另一方面也说明了我和很多读者的情况一样，有具体的案例更容易理解。

整体来说“草鸡博弈”是一个博胆行为，狭路相逢勇者胜，我也举个身边的例子，有个朋友说他前两天遇到一个逆行超车的还是左转来着，具体记不清了，总之我朋友是直行，对方理应让行，我朋友说他根本没松油门，反正有保险，最终对方先认怂了。

在这里我不是说我朋友的行为正确，而是阐述一个生活中的“草鸡博弈”案例，对方认为继续相向而行的成本太高而率先退出。

（草鸡博弈也叫斗鸡博弈）“草鸡博弈”的结局一定是两败俱伤或者一方败退，换位思考和协议补偿是解决“草鸡博弈”的方式，也就是我可以让步，但是你怎么补偿我？又或者是我想让你让步，我选择用什么来补偿你？古巴导弹危机是“草鸡博弈”在现实中的表现，大家可以想想还有哪些现实事件符合“草鸡博弈”理论。

囚徒困境的分类

囚徒困境的分类
囚徒困境是博弈论中一个经典的情境，涉及到两个合作伙伴在作出合作或背叛的决策时所面临的问题。

根据情境的不同，囚徒困境可以分为几种不同的分类：
1.标准囚徒困境（Classic Prisoner's Dilemma）：这是最常见的囚徒困境情境。

在这里，两名嫌疑犯被捕，检察官没有足够的证据判定他们有罪，但如果其中一人背叛另一人合作，他将受益。

如果两者都背叛，那么两者都会受到较长的刑期。

合作是理性的选择，但对于每个个体而言，个人利益可能会驱使他们背叛。

2.反复进行的囚徒困境（Iterated Prisoner's Dilemma）：这是一个对囚徒困境进行多次重复的版本。

在每一轮中，参与者可以基于对先前决策的经验来调整他们的策略。

这样的重复可以导致建立信任和合作的可能性。

3.广义囚徒困境（Generalized Prisoner's Dilemma）：这一形式考虑了多个参与者，并且每个参与者可以选择与其他参与者合作或背叛。

不同参与者之间的利益和关系复杂，可以通过不同策略的选择来影响整个博弈的结果。

4.演化博弈中的囚徒困境（Evolutionary Game Theory and Prisoner's Dilemma）：在生物学和社会科学中，囚徒困境也被用于解释合作行为是如何在进化过程中发展起来的。

在这个视角下，通过选择合作来最大程度保护自己的利益可能成为一种成功的进化策略。

这些分类展示了囚徒困境在不同背景和情境中的应用，以及对合作和背叛行为的不同解释。

博弈论：囚徒困境、智猪博弈、拍卖陷阱

博弈论：囚徒困境、智猪博弈、拍卖陷阱囚徒困境博弈论中的一个著名例子，是“囚徒困境”博弈模型。

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。

警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。

如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

囚徒困境博弈A╲B坦白抵赖坦白8，8 0，10抵赖10，0 1，1对A来说，尽管他不知道B作何选择，但他知道无论B选择什么，他选择“坦白”总是最优的。

显然，根据对称性，B也会选择“坦白”，结果是两人都被判刑8年。

但是，倘若他们都选择“抵赖”，每人只被判刑1年。

在表中的四种选择中，（抵赖、抵赖）是最优的，但是，万一对方没抵赖呢，那么自己就要独自承担高昂的代价，自己的命运竟然是由对方决定的，谁也不愿意把自己的命运交给别人呢，于是，大家都会选择坦白。

生活中很多这样的例子：1、两家饭馆，在质量完全一样的情况下，降价的那个，会获得几乎全部的客源，这样看应该降价，可以一旦对方也降价，那么自己就要被迫降价了，这样利润就降低了，其实最好的结果，是双方都不降价，可是即便是达成协议了，难保对方不暗中偷偷的降价呀，所以，自己还是会降价的。

2、国家之间，如果一方军备扩充了，那么为了安全，自己方的军队也应该扩充，这样，就不能用更多的钱来发展经济了，但是如果自己不扩充，而对方打过来了，我们却无力抵抗，那就亏大发了，所以，明明知道双方都不建设军队是最好的，但是谁都不愿意把自己的命运交到别人手中，因此，自己还是会建设军队的。

3、在教学中，有的学生嘴硬的很，犯了错误不愿承认，还相互包庇，结起伙来跟老师为敌，这个时候，如果给他们来电“博弈论（囚徒困境）”，不愁他们不招供，这真是个百试百灵的方法。

打破囚徒困境的四种方法

打破囚徒困境的四种方法囚徒困境是博弈论中的一个经典问题，它描述了两个囚犯被捕后面临的选择。

如果两个囚犯都保持沉默，那么他们都只会被判处轻罪；如果其中一个人选择揭发另一个人，那么揭发者将被判处轻罪，而另一个人将被判处重罪；如果两个人都选择揭发对方，那么他们都将被判处重罪。

这个问题的解决方法可以启示我们在现实生活中如何打破困境，以下是四种方法：1. 合作合作是打破囚徒困境的最好方法。

如果两个囚犯都能够相互信任，相互合作，那么他们都可以避免被判处重罪。

在现实生活中，我们也可以通过合作来解决问题，例如在工作中与同事合作，共同完成任务，或者在家庭中与家人合作，共同分担家务。

2. 沟通沟通是打破囚徒困境的另一种方法。

如果两个囚犯能够进行有效的沟通，相互了解对方的想法和意愿，那么他们就可以更好地协调行动，避免被判处重罪。

在现实生活中，我们也可以通过沟通来解决问题，例如在工作中与同事沟通，了解对方的需求和意见，或者在家庭中与家人沟通，解决矛盾和分歧。

3. 妥协妥协是打破囚徒困境的第三种方法。

如果两个囚犯都能够妥协，相互让步，那么他们也可以避免被判处重罪。

在现实生活中，我们也可以通过妥协来解决问题，例如在工作中与同事妥协，达成共识，或者在家庭中与家人妥协，平衡各自的需求和利益。

4. 制度设计制度设计是打破囚徒困境的最后一种方法。

如果能够设计出一套公正、合理的制度，那么就可以避免囚徒困境的发生。

在现实生活中，我们也可以通过制度设计来解决问题，例如在公司中制定公正的考核制度，或者在社会中制定公正的法律和规章制度。

打破囚徒困境需要我们积极探索各种方法，寻找最适合的解决方案。

无论是合作、沟通、妥协还是制度设计，都可以帮助我们在现实生活中解决问题，实现共赢。

博弈论讲课囚徒困境

“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯（甲和乙）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判3年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判5年；如果都不坦白则因证据不足各判１年。

这就是二人博弈的支付矩阵也叫做双矩阵博弈三要素；1，谁参与这个博弈（甲乙）二人博弈局中人或参与人2可供参与人选择的行动或策略（坦白抵赖），3 博弈中各种对局下各参与人的盈利或得益（参与人的支付）支付不是付出而是得到（判刑年数）这种二人博弈是一种完全信息的静态博弈；博弈最基本的分类有两个一个是按照博弈各方是否同时决策分为静态博弈和动态博弈同时决策或者同时行动的博弈属于静态先后或序贯决策或行动的博弈属于动态即使决策或行动有先后但是只要参与者在决策时都还不知道对手的决策或行动是什么也算是静态博弈另一分类是按照大家是否清楚各种对局情况下每个参与人的得益分为完全信息博弈和不完全信息博弈两种分类组合起来一共就有四大类博弈-----下面就具体来讲一下这个囚徒困境博弈既然两个囚犯最好的结果是都不招供，两人都只被判1年，那么，两个囚犯都选择不招供就好然而，人算不如天算，“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果，即两个囚犯统统招供，结果都被判有期徒刑5年。

为什么最后甲乙都会坦白呢？我们从博弈论来分析一下；对一个博弈来说，游戏规则非常地重要，适宜的规则才能够达到目的。

在我们的日常生活中莫不如此，规则制订者往往利用条件制定出有利于自身的规章制度。

不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判一年，不坦白的话判五年，坦白还是比不坦白好。

结果，两个嫌疑犯都选择坦白。

即是说，不管甲坦白或抵赖，乙的最佳选择都是坦白。

反过来，同样地，不管乙是坦白还是抵赖，甲的最佳选择也是坦白。

囧途困境博弈论

囧途困境博弈论一、什么是囧途困境。

咱们先来说说这个囧途困境啊。

就好比你出门旅行，结果遇到各种倒霉事儿。

比如说，你坐的车半路上抛锚了，前不着村后不着店的，这时候你就陷入了一种困境。

或者是你去一个陌生的地方，发现自己迷路了，手机还没电了，周围也没有可以求助的人，那种感觉就像是被世界抛弃了一样。

这就是我们生活中的囧途困境啦。

在这种情况下呢，你就会面临很多选择。

比如说，你是在原地等待救援呢，还是自己想办法找路出去？这每一个选择都像是一场小小的博弈。

二、博弈论的简单解释。

那啥是博弈论呢？其实啊，博弈论就是研究在不同的情况下，人们如何做出决策的学问。

就像是两个人下棋，你走一步，我走一步，每一步都是在考虑对方会怎么做，然后自己再做出最优的选择。

在囧途困境里也是一样的。

比如说你和同行的伙伴一起遇到了麻烦，你们可能就会有不同的想法。

你想往左走，觉得那边可能有出路，但是你的伙伴觉得应该往右走。

这时候你们俩就处在一种博弈的状态。

你们都要考虑对方的想法，还要考虑实际的情况，像是哪边看起来更安全啊，哪边可能更容易找到人帮忙之类的。

三、囧途困境中的博弈实例。

我给你讲个故事吧。

有一次我和朋友去爬山，爬到一半的时候，发现我们迷路了。

我们面前有两条路，一条看起来比较平坦，但是感觉好像很少有人走的样子；另一条路呢，看起来有点崎岖，但是地上有一些脚印。

这时候我们就开始博弈了。

我就想啊，平坦的路虽然好走，但是如果没有人走过，说不定是个死胡同呢。

朋友就觉得，崎岖的路太难走了，万一那些脚印是很久之前的，我们不是白费劲了吗？我们俩就在那争论了好久。

最后呢，我们决定还是沿着有脚印的崎岖路走。

为啥呢？因为我们觉得就算难走，至少有脚印就说明有人走过，那找到出路的可能性就更大一些。

这个过程就是博弈啊。

我们要考虑自己的体力、对风险的承受能力，还要考虑对方的想法。

要是我们当时各走各的，说不定就更危险了呢。

四、如何在囧途困境中运用博弈论做出更好的决策。

当我们在囧途困境里的时候，要想运用博弈论做出好的决策，首先就得冷静下来。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

�p� 1 徒囚性理非
�所表下如衡均 seyaB 练精的弈博复重次三�赖抵择选段阶二第 2 徙囚�下件条的 2�l≥P 定给在以所�弈博段阶两的示所 4 表是段阶的后随即�段阶三第和二第入进弈博么那�形情的”赖抵“择选都方双看先。)白坦择选 2 徒囚� ”赖抵“择选 l 徒因(能可的作合不有也�)”赖抵“选都方双(能可的作合有段阶一第�言而 2 和 1 徒囚的性理就。)白坦�白坦�赖抵(是略策段阶三的 1 徒的性理以所�利有为更将这疑无�付支的 0 得获段阶二第�付支的) 1- (得获段阶一第在能可么那 �赖抵择选�况情实真的己自藏隐果如反相�付支的)3-(得获能只大最段阶二第在 1 徒囚的性理�白坦择选段阶二第在 2 徒因是于�方弈博的性理是已自示显 2 徒囚向疑无但�罚惩于免能可白坦择选段阶一第 1 徒囚管尽 �作合行进赖抵择选会将段阶一第在 1 徒囚性理明说要面下。白坦择选会仍故�择选的段阶一下在 2 徒囚变改会不择选的段阶本在己自�的性理是 2 徒囚道知 l 徒囚的性理于由�段阶二第在�白坦择选会机作合的续后有没为因会 2 徒囚和 1 徒囚的性理段阶三第在。况情的次三复重弈膊本基虑考步一进� 下件条的 2�1≥ P � ”赖抵“=X 择选会将 2 徒囚�2�1≥P 即 �6-p3≥8-p7 果如。6-p3=])3-(+)3-([) p-1( +])3-( +0[p �是付支望期的时此 2 徒囚 �时 ”白坦“ =X 当 ;8-p7 = ]) 3- ( + ) 5- ( [ ) p-1( +]0 +) 1- ([p�是付支望期的 2 徒囚�时”赖抵“=X 当 �4 表� 白坦白坦 2=t X X 白坦赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
�p� 1 入陷会都数多�的难困为较是议协作合成达司公的争竞相互二要�中实现在。境困徒囚入陷是就这�益收的司公二了害损加增的本成告广而�战告广入陷将司公二�时略策性配支为成叛背�作合法无�方对任信不司公二若。叛背——方对倒压�量质的告广升提法设�支开告广加增�作合——支开的告广少减�议协成达相互�择选二有以可司公二此。走夺方对被会又意生�量质告广高提不若但。加增本成但少很加增入收�告广的似类量质出发期时同者二若但。入收分部的方对取夺会则受接客顾被较告广的司公一即 �响影相互告广的司公二 �争竞相互司公个两战告广�子例业商�2� �大最益利作合同共现发将是果结的弈博复重�。定协税关成达新重又国二后然。�果结的叛背同共�害损成造也济经身本对�场市的方对了去失品商的国两�战税关了发引就这��叛背亦�应反样同出作会也国一另��叛背�税关高提自独�定协税关守遵不素因些某因国一当。作合——通流品商自各利以税关低降�定协税关成达方对与�叛背——品商的己自护保以�税关高提�择选个两以有以可上税关在�家国个两战税关�子例学济经�1�
�是阵矩益得的时此�3-上加各上础基的益得段阶本在是都益得终最的后以段阶本在方双�么什是果结弈博的段阶现管不此因�)白坦�白坦(是然必果结其 �楚清常非局结的段阶一后于对方弈博的性理�段阶 1- T = t 到回在现。)3-� 3- (益得方双 �)白坦�白坦(是果结的段阶一这 �论结出得难不此因�段阶续后无又�实事为成已果结的段阶一前时此�弈博境困徒囚的本基个一是然仍这�择选的方弈博两段阶 T = t 析分先 �究研行进法纳归向逆的弈博态动用采并 �论讨下况情的 l = r 在化简可�下况情的弈博限有在。子因现折为 r 记�虑考须必值价间时的付支�长较比会间时耗所行进复重弈博。数次复重的弈博本基记 T 以�弈博限有的”境困徒囚“察观先首。讨探行进弈博重多对例为型模”境困徒囚“的示所 1 表以续继面下。题问客头回的中业商如比�加累单简的弈博本基非并行进复重的弈博本基现发也们人且而。起彼伏此争战的间际国 �行进复重会卖买中活生常日 �讯审次多方警被会伙团罪犯如比 �行进复重会弈博本基于在义意的弈博复重究研
r �1 1 � � r �1 r3 � �即� … � ) 1 - ( r + ) 1 - ( r + 1 - � … � ) 3 � ( r + ) 3 - ( r + 0
2 2
�白坦择选会不将 i�白坦择选有没 j 定给 �足满件条列下果如。 3-是都付支的段阶个每后随在 i 此因�罚惩远永的 j 徒囚到遭会叛背次这的他但�1-是不而�0 到得段阶该在他�白坦了择选先首段阶个某的弈博在 i 果如�略战酷冷为否是略策优最的 i 徒囚察考�略战酷冷述上行执格严 j 徒囚定假。白坦择选都后以�叛背的手对复报了为�白坦了择选方一有到直赖抵择选) 2 (�赖抵择选段阶始开 ) 1 (� ”略战酷冷“用采都方双弈博虑考。解求法纳归向逆用运能不以所�段阶终最有没弈博限无为因。次数无复重弈博”境困徒囚“虑考再。白坦用采都方双段阶弈博个每是衡均 hsaN 炼精弈博子的弈博复重次 T 以所 �白坦用采方双弈博是都果结的弈博”境困徒囚“段阶每�推类上往此以。衡均 hsaN 纯的一唯的段阶 1 - T 是 )白坦�白坦(即�略策超优格严的方弈博两是仍白坦�出看易容 � 2 表� ) 4-� 4-( 白坦不 ) 3-�8- ( 2 徒囚白坦白坦不白坦 ) 8-� 3- ( )6-� 6- ( 1 徒囚
�示所下如径路弈博�X 为择选的 2 徒囚记�白坦择选 1 徒囚的性理 �赖抵择选 1 徙因的性理非则�段阶个一行进只弈博于由�明证法方下如按以可还们我。衡均 hsaN—seyaB 的弈博态静息信全完不成构�的优最 2 徒囚对是总略策的白坦 �否与性理 l 徒囚管不�言而弈博次一于对为因� ”白坦“择选会也 2 徒囚的性理� ”白坦“ 是略策优最的 1 徒囚的性理是于�能可作合有没方双弈博�合同个一行进只弈博于由。复报或恸鼓行进略策的段阶现己自为略策的段阶一前方对以段阶的后随�赖抵择选段阶始开即� ”对相锋针“略策种一有只 1 徒囚的性理非而�略策的意任择选以可徒囚的性理定假。的性理——型类种一有只 2 徒囚定假又�P 和 p-1 为别分率概�)的作合愿意有(的性理非和)的作合不为称或(的性理�型类种两有 1 徒囚定假。义意实现和论理的要重着有弈博的下息信全完不究研此因 �等等格价的高多出付意愿者买道知不也者卖�何如底到量质的品产者卖知不者买�全完不握掌息信的此彼对都方双卖买如比 �求要的息信全完足满不并弈博多许中活生实现于由
�p� 1 徒囚性理非
�所下如径路弈博�)白坦�白坦�白坦�择选 2 徒囚果如① 。)白坦�赖抵�白坦(和)白坦 �白坦�白坦(�能可种两有略策的 2 徒囚�下形情的作合不在�况情的作合不方双看再。9-p7=])3-(+)5-([)p-1( + ]0+)1-([p+ )1-(�为付支望期的)白坦�赖抵�赖抵(择选 2 徒囚 �5 表� 白坦白坦赖抵 3=t 赖抵白坦赖抵 2=t 赖抵赖抵赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
弈博” 境困徒囚“态动息信全完不、四
。择选优最的 2 徒囚是白坦故�5- p 4>3-p3�值何为 p 论无。3-p3 是付支望期的 2 徒囚�时白坦=X 当 �5-p4�是付支望期的 2 徒囚�时”赖抵“=X 当 �3 表 � X 白坦赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
�p� 1 徒囚性理非
-1-
对于由�出看易容。弈博态静息信全完的动行时同个一是便这�此彼悉熟犯罪个两定假 �1 表� ) 1-� 1- ( )5-�0 ( 白坦不 ) 0 �5 - ( 2 徒囚白坦白坦不白坦 )3-� 3- ( 1 徒囚
� )益得的 2 徒囚是字数个二第�益得的 1 徒囚是字数个一第的量向益得(下如益得的犯罪个两示表阵矩用。刑徒年 1 们他处判罪务公碍妨的轻较以能只方警则�罪认不拒都人两们他果如道知犯罪然当。禁监年 3 判各将们他则�罪认白坦时同个两果如�刑徒年 5 判重将则人一另而 �放释即立者白坦则 �罪认白坦人一有只中人两果如� ”严从拒抗 �宽从白坦“是策政的方警们他诉告并�供串们他止防以押关别分犯罪个两这将察警此为。立成名罪认确能就�罪犯认供人一有少至中人两这望希以所�行罪的们他证指据证的够足乏缺于由 �犯罪的罪犯伙合个两了住抓察警 �是型模本基的它。础基论理的论弈博作合非了定奠地分部弈博”境困徒囚“态静息信全完
弈博”境困徒囚“复重——弈博”境困徒囚“态动息信全完、二
。衡均 hsaN 的弈博是 )白坦�白坦(以所�略策优最的己自是都白坦�略策么什择选方对论无�言而徒囚个每于
-3-
�示所表下如�择选的段阶二第在 1 徒困性理非响影何如 )X(择选的段阶一第在 2 徒囚虑考在现。白坦择选段阶二第在 2 徒囚变改会不择选的段阶该在它为因�白坦择选会仍 1 徒囚的性理�赖抵择选 1 徒囚的性理非�段阶一第在�略策的段阶一第 2 徒囚择选要略策”对相锋针“据根 1 徒囚的性理非而�白坦择选会都 2 徒囚和 1 徒因的性理�间空的作合有没于由�段阶二第在。况情的次两复重只弈博”境困徙囚“论讨先首。弈博复重入引息信全完不将要需此因�现出繁频也为行作合中弈博复重次限有在 �明表也验试作家学济经验实外国。罚惩的律法脱逃图妄赖抵般是总伙团罪犯的案作次屡到看常常们我�生发中活生实现在有没并果结一这而然 �略战优最的徒囚个两是”白坦“择选都弈博段阶每在弈博”境困徒囚“的复重次 T �下况情的息信全完在上论理
例实”境困徒囚“ 、五
。衡均 seyaB 炼精是作合择选段阶每�下件条的松宽当相在�出得易容该应们我�况情的弈博复重数无的下息信全完不的”境困徒囚“于至。白坦略策超优择选是不而赖抵择选愿宁徒囚的多么那有么什为——象现会社的实现释解地好很能博复”境困徒囚“次限有入引息信全完不将�到看地楚清们我。白坦择选段阶一后最�赖抵择选段阶 l-T =t 至 l=t 在 2 徒囚 �白坦择选段阶两的下余在�赖抵择选直一段阶 2-T= t 至 1 = t 在 1 徒囚性理� 衡均 seyaB 炼精个一成构合组略战列下�3 > T 于对�2�1≥p 果如�明证步一进以可似类。衡均 seyaB 炼精个一是就略战的示所 5 表� 2�1≥P 率慨的性理非是 1 徒囚要只�析分上以合综。)白坦�赖抵�白坦(和)白坦 �白坦�白坦(于优)白坦�赖抵�赖抵(此因�8-p3≥9-p7�6-≥9-p7 下件条的 2�1≥P 在。8-p3=)3-()p-1( +)0(p+ )5-(+0�为付支望期的 2 徒囚 �7 表� 白坦白坦赖抵 3=t 赖抵白坦白坦 2=t 白坦赖抵赖抵 1=t �p-1� 1 徒囚性理 2 徒囚

博弈论囚徒困境的四种形式 PDF

合集下载

博弈论“囚徒困境”的四种形式

囚犯困境模型

囚徒困境博弈论

囚徒困境与博弈论

博弈论“囚徒困境”的四种形式

囚徒困境的破解方法

博弈论之囚徒困境

总结囚徒困境

囚徒困境博弈举例

第二课：囚徒困境资料.

博弈论中社会困境的四种形式

囚徒困境的分类

博弈论：囚徒困境、智猪博弈、拍卖陷阱

打破囚徒困境的四种方法

博弈论讲课囚徒困境

囧途困境博弈论

文档推荐

最新文档

博弈论囚徒困境的四种形式 PDF

合集下载

博弈论“囚徒困境”的四种形式

囚犯困境模型

囚徒困境 博弈论

囚徒困境与博弈论

博弈论“囚徒困境”的四种形式

囚徒困境的破解方法

博弈论之囚徒困境

总结囚徒困境

囚徒困境博弈举例

第二课：囚徒困境资料.

博弈论中社会困境的四种形式

囚徒困境的分类

博弈论：囚徒困境、智猪博弈、拍卖陷阱

打破囚徒困境的四种方法

博弈论讲课 囚徒困境

囧途困境博弈论

文档推荐

最新文档

囚徒困境博弈论

博弈论讲课囚徒困境