博弈论囚徒困境的四种形式 PDF
- 格式:pdf
- 大小:123.59 KB
- 文档页数:6
博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。
其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。
本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。
关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。
它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。
用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。
容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。
二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。
而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。
下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。
首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。
囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。
但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
经典的囚徒困境1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:甲沉默(合作)甲认罪(背叛)乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年解说如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。
囚徒困境博弈论话说啊,有这么一个经典的博弈论小故事,咱们老百姓听了都能琢磨出味儿来,那就是“囚徒困境”。
这故事啊,讲的不是什么高大上的科学实验,而是两个哥们儿,咱们就叫他们阿明和阿强吧,一不小心犯了事儿,被警察给逮住了。
警察把他们分开审问,想套出点啥来,这时候,阿明和阿强就面临了一个难题,咱们慢慢道来。
阿明和阿强被关在两个屋子里,谁也瞧不见谁,也听不见对方说啥。
警察跟他们说:“嘿,你俩要是都一口咬定自己没错儿,啥也不知道,那咱们也没辙,顶多给你们判个轻罪,坐几年牢就出去了。
但是呢,要是你们当中有一个人招了,另一个人还硬扛着,那招了的这位呢,就能立马放出去,啥事儿没有;硬扛的那位呢,可就得把牢底坐穿了。
”这一下,阿明和阿强心里就开始犯嘀咕了。
阿明想:“阿强这小子,平时看着挺讲义气,可到了这节骨眼儿上,谁知道他会不会为了自己出去,把我卖了?”阿强呢,心里也是七上八下的:“阿明这小子,聪明着呢,他肯定也在琢磨我怎么想。
万一我硬扛着,他招了,那我可就完蛋了。
”这就叫囚徒困境,为啥呢?因为两个人都陷入了一种“我斗不过你,你也斗不过我,但咱俩都不肯让步”的僵局。
你说阿明和阿强想不想合作?当然想啊!都想对方别招,自己也别招,这样都能少判几年。
可问题是,他们不敢信对方,因为只要有一方动了私心,另一方就得吃大亏。
这时候,阿明和阿强就开始在心里盘算开了。
阿明琢磨着:“要是阿强是个真汉子,咱俩一起扛,那几年后还能一起喝酒。
可万一他不是呢?我这辈子就毁了。
”阿强也是这么想:“阿明要是个靠得住的兄弟,咱俩一起出去,以后还能混。
但他要是把我卖了,我这辈子可就完了。
”最后,这俩哥们儿很可能都会选择招供,为啥?因为他们都觉得,与其冒着被对方出卖的风险,不如自己先下手为强,至少能保住一条命。
这样一来,两个人都招了,结果反倒是都不太好。
本来嘛,要是他们都能信任对方,一起扛下来,可能过几年就出来了,还能继续当兄弟。
可这一招供,好了,俩人都得在牢里多待几年,说不定出来以后,连朋友都没得做了。
囚徒困境与博弈论囚徒困境与博弈论博弈论(也叫对策论)是一门很深的学问,在学校里至少要讲一个学期,甚至还有专门的博士课程。
但在这里不可能讲这么多,只能把它的基本概念、研究方法和一般规律做一个简单的概括。
从囚犯难题说起我们先从一个常见的案例说起。
这个故事是这样的:有一个富人在家中被谋杀,他的财产被盗。
警方在侦讯过程中抓到两名嫌疑犯:甲和乙,并在他们家中搜出了被盗的财物。
但甲、乙都否认杀人,声称他们进入被害人家中时那个人已经死去。
所以警方肯定他们至少犯下了盗窃罪,但对他们是否杀死了被害人并没有把握。
于是警方在把他们隔离的情况下分别对他们表示:因为偷东西已经有确凿证据,这将被判刑2年;如果拒不承认杀人而被另一方检举,将被判刑20年,而检举的一方可以受奖无罪释放;如果双方都坦白杀人,将各被判刑 10年。
这样,甲乙可能面临的判决如下:通过分析可以看出,最后的结果是甲乙都会承认杀人。
因为对本人来说,不管对方承认不承认,自己承认总比不承认好。
如果对方不承认,自己承认相比不承认等于从判刑2年改为无罪释放;如果对方承认,自己承认相比不承认相当于从判刑20年减到了10年。
这样,对甲乙双方来说,最佳的选择都是承认杀人。
这个结果与他们是否真的杀了人无关,即使他们没有杀人,也会承认杀人。
由于特定的选择条件,本来对双方最有利的结局(都不承认杀人,各被判刑2年)不会出现,出现的是对双方都不利的结果,这就是所谓的“囚犯困境”。
我们想想看,“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪行”,原因就在于此。
“囚徒困境”具有非常深刻的含义,它说明了为什么短视地追求自己利益将导致对大家都不利的结局。
现实中类似的例子还很多,比如为了图一时的方便,大家都不按交通规则行事,结果导致交通瘫痪;再比如前些年很多单位拿国家的钱争相发奖金,结果导致了全社会的通货膨胀。
不同的是,在囚徒困境模型里只涉及两个人,如果这种情况重复出现,两个人很容易从失败中吸取教训,从选择承认杀人改为不承认,这样,处境就可以改善。
博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。
其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。
本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。
关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。
它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。
用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。
容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。
二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。
而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。
下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。
首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。
囚徒困境的破解方法
囚徒困境是博弈论中的经典问题,涉及到两名囚徒在独立的审判中如何作出合作与背叛的决策。
在囚徒困境中,每个囚徒都面临着合作与背叛之间的抉择,而最优的结果是两人都合作。
然而,由于缺乏信任和可能的坦白窃取,各方往往会选择背叛,导致最不理想的结果。
为了破解囚徒困境,有几种策略和方法可以被采用:
1. 进行重复博弈:在重复进行博弈的情况下,囚徒有机会观察和记住对方的行为。
这使得合作成为可能,因为囚徒们知道背叛可能会导致连续的背叛,从而带来更坏的结果。
这种重复博弈策略也被称为“赌咒策略”,因为它基于对对方决策的观察和回应。
2. 使用策略性沟通:囚徒可以通过策略性的沟通来建立信任和合作,从而避免陷入困境。
例如,囚徒可以告诉对方他们打算合作,并建议对方也选择合作来达到双方的最佳利益。
这种沟通可以增加囚徒之间的合作概率。
3. 设定奖惩机制:引入奖励和惩罚机制可以激励囚徒选择合作。
例如,如果两个囚徒都选择合作,他们可以获得共同的奖励。
另一方面,如果一个囚徒选择背叛而另一个囚徒选择合作,背叛的囚徒将受到严厉的惩罚。
这样的奖惩机制可以鼓励囚徒们选择合作而不是背叛。
4. 采用心理战略:通过使用心理战略,囚徒可以影响对方的选
择。
例如,他们可以表现出决心和信心,让对方相信他们会选择背叛。
这样一来,对方可能会害怕风险而选择合作,以避免被背叛。
总的来说,囚徒困境的破解方法通常基于建立信任、引入奖惩机制以及采用心理战略等策略,目的是为了激励各方选择合作,从而达到最有利的结果。
博弈论之囚徒困境展开全文商业社会犹如丛林,生存就是一场肉弱强食的战争。
强敌环伺、资源有限,而你,是带枪的猎手?还是待宰的猎物?忍耐就是毁灭,强攻只会负伤。
聪明的做法,就是通过降维打击的方式,去到一个由我们说了算的丛林!大家好,我是雷彬。
今天给大家聊聊囚徒困境。
1950年,美国数学家阿尔伯特·塔克,为了向一群心理学家们解释博弈论,编了一个叫“囚徒困境”的故事:两名囚徒A和B被隔离审讯。
如果两人彼此背叛,都坦白罪行,会都被判刑8年;但如果一人坦白,一人不坦白,坦白的人直接释放,不坦白的重判15年。
如果两人合作,都不坦白呢?会因为证据不足,都只判1年。
囚徒应该怎么做?显然,“都不坦白”是最优策略,两人判得最轻。
知道“纳什均衡”你就会明白,“都不坦白”是经不起考验的最优策略:我如果单方选择背叛,将立即获释,诱惑太大;而且就算我守口如瓶,万一他背叛了呢?我会被判15年,风险太高。
在利益驱使下,“都不坦白”不是稳定的纳什均衡。
“都坦白”呢?那两人都获刑8年。
这时,如果一名囚徒单方决定守口如瓶,他的8年刑期将立刻变为15年,而另一人则被释放。
这一点好处都没有,两名囚徒如果是理性的,都不会这么干。
“都坦白”,是囚徒困境中唯一稳定的“纳什均衡”。
“好的不均衡,坏的却稳定”的囚徒困境,成了博弈论中最经典的案例。
但是,我今天的目的不是讲故事,而是深刻理解“囚徒困境”的博弈论原理,并找到破解方法。
到底什么是囚徒困境?一个典型的囚徒困境,用数学的语言表述,其实就是满足两个条件的博弈:第一,背叛诱惑> 合作报酬。
在这里,合作报酬是判刑1年,背叛诱惑却是立即释放。
这将导致“都不坦白”不构成稳定的纳什均衡;第二,受骗支付> 背叛惩罚。
在这个案例中,背叛惩罚是判刑8年,受骗支付却是判刑15年。
这将导致“都坦白”成为稳定的纳什均衡。
这就是“囚徒困境”的数学原理。
就这么简单?就这么简单。
理解了这两点,破解方法也就显而易见了:让“合作报酬> 背叛诱惑”;让“背叛惩罚 > 受骗支付”。
总结囚徒困境什么是囚徒困境?囚徒困境(Prisoner’s Dilemma)是博弈论中的一个经典问题。
它描述了两个囚犯被困在同一个牢房,被指控共同犯下了一起罪行。
检察官分别与两名囚犯进行单独的审讯,并给出以下两个选择:1.合作:囚犯们不相互揭发,共同保持沉默。
2.背叛:囚犯们可以选择揭发对方,以换取自己的自由。
囚犯们无法沟通,也不知道对方选择了什么。
如果两人都选择合作,则每个人都会被判轻刑。
但如果其中一人选择背叛而另一人选择合作,则背叛者将会被判轻刑,而合作者将面临重刑。
如果两人都选择背叛,则每个人都会被判处较重的刑罚。
囚徒困境的特征囚徒困境有以下几个特征:1.互动性:囚犯的选择会相互影响,彼此的行为会对对方产生影响。
2.博弈论性质:囚徒困境可以用博弈论的方式进行分析,确定最佳策略。
3.利益最大化:每个囚犯都希望通过选择能够获得最大利益。
4.缺乏合作:由于囚犯无法沟通且不能相信对方,他们往往倾向于选择背叛。
囚徒困境的应用囚徒困境不仅仅是一个理论问题,它在现实生活中也有广泛的应用。
1.经济学:囚徒困境可以用来分析市场竞争中的合作与背叛的策略。
企业在价格战中的选择、合作与联盟等都与囚徒困境有关。
2.政治学:囚徒困境可以解释国际关系中的合作与冲突。
国家间的合作与背叛,如军备竞赛和防务合作等,都可以用囚徒困境来解释。
3.社会学:囚徒困境可以研究社会交往中的合作与背叛。
合作与背叛的选择在社会伦理、互助关系、信任建立等领域都有重要意义。
4.生态学:囚徒困境可以分析生态系统中的合作与竞争。
例如,在资源有限的情况下,个体的自利选择往往导致整体利益的损失。
解决囚徒困境的策略囚徒困境中,最理性的策略就是背叛对方,因为无论对方选择合作还是背叛,背叛者都能够获得更好的结果。
然而,背叛对方最终会导致双方都无法获得最优解。
为了克服囚徒困境,可以通过以下几种策略:1.长期合作:如果双方能够建立长期的合作关系,增加彼此之间的信任和依赖,就有可能避免囚徒困境的恶性循环。