囚徒困境论文
- 格式:docx
- 大小:20.73 KB
- 文档页数:2
浅析博弈中的囚徒困境班级:姓名:学号:摘要:囚徒困境是博弈论的非零和博弈中具代表性的例子,个人最佳选择并非团体最佳选择,个人理性有时会导致集体的非理性——机关算尽却因而作茧自缚,这就是囚徒困境所反映的问题。
一经典的囚徒困境“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
两个共谋犯罪的人被关入监狱,不能互相沟通情况。
如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人隐瞒,则揭发者因为立功而立即获释,隐瞒者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑三年。
从集体上看,他们应当互相合作,都隐瞒,这样总服刑时间最短(为2年)。
但他们会仔细考虑对方可能采取什么样的选择,并从自身利益出发做出选择。
他们会意识到,如果同伙隐瞒而自己背叛,就能使自身利益最大化(0年)。
但他也意识到,他的同伙也不傻,也会这样来设想,这样的话,他就更不可能让同伙得利(服刑0年)而自己受害(服刑5年)所以结论就是,唯一正确的选择就是背叛同伙,把一切都告诉警方,如果他的同伙保持隐瞒,那么他就会是那个获释出狱,服刑0年。
而如果他的同伙也向警方交代了,那么,他只需服刑3年而不是5年。
所以结果只能是两个囚犯都坐牢服刑3年,而不是都服刑1年。
所以对于他们个人来说都是理性的,然而对集体来说却是非理性的。
二重复多次如果囚徒困境的情况重复多次,会有什么新的变化?假设重复10次。
我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。
相反,如果第一次相反,如果第一次别人保持隐瞒,建立了互信的关系,你也会保持隐瞒,导致最优。
当然,两个囚徒都会有相似的想法,在第一局保持隐瞒,以期望建立互信关系,所以双方都会保持隐瞒。
“囚徒困境”引发的思考经济学理论论文囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。
一、基本模型囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们所犯的罪行。
如果其中至少有一人供认犯罪,就能确认罪名成立。
为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判8年徒刑;如果两人同时坦白认罪,则他们将被各判5年监禁。
如果分别用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则两囚徒的得益矩阵如下:囚徒2坦白不坦白囚徒1 坦白-5,-5 0,-8不坦白-8,0 -1,-1在上图中,“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。
其中矩阵中第一个数字代表决策结果后囚徒1的得益,第二个数字代表决策结果后囚徒2的得益。
博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判5年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。
[1]二、关于完全理性的思考囚徒困境博弈的一个假设是博弈方都是完全理性。
完全理性来源于经济学中的理性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错误”。
以个体利益最大为目标被称为“个体理性”,有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。
(一)囚徒困境理论在学习和生活中,我们会遇到诸多面临决策,进退两难的问题,那么如何决策呢?不同的策略带来不同的损益,有时当博弈双方都以自己的最大利益为策略博弈时,结果相反,时双方都陷入自己所要逃避的困境,这便是囚徒困境!囚徒困境经典案例①:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监1年。
若二人都互相检Array举(相关术语称互相“背叛”),则二人同样判监8年。
嫌疑人甲、乙双方均不知对方的策略,且都是自私利己之人。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。
就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。
试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。
背叛是两种策略之中的支配性策略。
因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
(二)生活中的囚徒困境博弈在现实生活中不出不在。
博弈双方大到国际贸易国与国之间的竞争,小到个人与个人之间的经济交易;动物之间同样也存在博弈,甚至植物在阳关下吸收养分也存在博弈。
有竞争就有博弈,有交易就有博弈,博弈渗透到生活中的每个角落。
参与博弈的双方或多方如何采取策略,保障自己最大的利益和最小的损失;往往利益最大的也是风险最大的,一旦失败,损失也是最大的,如何决策,这便使得博弈人陷入“囚徒困境”。
博弈的囚徒困境覆盖面极广,涉及军事决策,政治手段,企业经营,市场策略,生活理财等诸多方面。
囚徒困境
年级:初一字数:600字体裁:议论文
从前有两个囚犯一起做坏事,结果被警方捉了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伴,既与警察合作,从而背板他的同伴;或者保持沉默,也就是与他的同伴合作,而不是与警察合作。
两个囚犯都知道,如果他俩都都保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也明白这一点,所以他们就给了这两个囚犯一点刺激:如果他们中的一个人背叛,既告发他的同伴,那么他就可以无罪释放,同时还可以得到一笔奖金。
而他的同伴就会被按照最高的罪来判决,而且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。
当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背板?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。
但他们不得不仔细考虑对方可能采取什么选择。
A 犯不是个傻子,他马上意识到,他根本无法相信他的同伴不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。
这种想法的诱惑力实在太大了。
但他也意识到,他的同伴也不是傻子,也会这样来设想他。
所以A犯的结论是,唯一理性的选择就
是背叛同伴,把一切都告诉警方,因为如果他的同伴笨的只会保持沉默,那么他就会是那个带着奖金出狱的幸运者了。
而如果他的同伴也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。
所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
走出“囚徒困境”囚徒困境作为博弈论中的一个经典范例,其博弈理论逐渐被经济学、哲学、伦理学、管理学等诸多学科的研究所重视,辩证的看待这一研究现象,是促进人们深入研究相关社会现象的一种特殊的思维路劲和方法。
一、囚徒困境经典案例分析囚徒困境的内容是这样的:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。
博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判2年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。
“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。
但是这样的分析是基于单次博弈的基础之上,而在重复的囚徒困境中,博弈会被反复的进行,因而没个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
二、类似囚徒困境的经典案例分析在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。
浅析生活中的囚徒困境浅析生活中的囚徒困境电信学院15211082杨哲一.囚徒困境的基本概念“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
两个共谋犯罪的人被关入监狱,不能互相沟通情况。
如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。
由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。
最终导致纳什均衡仅落在非合作点上的博弈模型。
二.囚徒困境的意义囚徒困境指出市场是残酷的、无情的。
你不追求利润最大化,不追求效用最大化,你就难以存活下去。
同自然界“物竞天择”一样,从这个方面讲,人类社会似乎是一个“利”者生存的社会,没有利润,企业生存不了,工人存活不了。
所以,自利的原则还是存在的。
不可能使得最终所追求的利益最大化,但这并不是说人们不想最大化其利润,个体理性、个体利益最大,不一定能导致集体理性、集体利益最大,“囚徒困境”就是个人利益与集体利益相冲突的典型。
它揭示了非合作的自利行为可能导致两败俱伤的前景。
三.生活中囚徒困境博弈①公共设施修建的囚徒困境设想有两户相居为邻的农家(双方都是理性人),十分需要有一条好路从居住地通往公路。
修一条路的成本为4,每个农家从修好的好路上获得的好处为3。
如果两户居民共同出资联合修路,并平均分摊修路成本,则每户居民获得净的好处(支付)为3-4/2=1;当只有一户人家单独出资修路时,修路的居民获得的支付为3-4=-1(亏损),“搭便车”不出资但仍然可以使用修好的路的另一户人家获得支付3-0=3。
修路博弈的得利如下图所示:表1修路博弈我们看到,对甲和乙两家居民来说,“修路”都是劣战略,因而他们都不会出资修路。
“囚徒困境”问题探讨现实世界的资源是有限的,而人的需求和欲望却是无限的。
为了实现社会的福利最大化,就需要有效地配置各种经济资源。
然而,在传统“理性人”的假设下,自利人为了自身利益而展开争夺,最终形成的纳什均衡结果,往往陷入“囚徒困境”的无效率境地,造成资源的无效配置和浪费。
为此,试从合作博弈和交易费用的视角探讨帕累托改进的路径,寻找“囚徒困境”的破解方法,以图实现帕累托最优结果。
标签:囚徒困境;帕累托最优;合作博弈;交易费用1 引言传统经济学中,“理性人”假设是一切经济分析的基础,每个人都是聪明绝顶且自私自利,为实现自身效用最大而努力。
然而,最终的纳什均衡解却往往是无效率的,不仅没有实现自己的效用最大,也造成社会福利的损失,出现个体理性和集体理性之间冲突局面,既不是帕累托最优,甚至也不是希克斯-卡尔多有效的。
根据达尔文《物种起源》中的论点,可以假设:所有的生命个体在面临选择时,都是自私自利的,完全忽视其他个体的利益,没有悲悯之情。
但是,即便是这样的起点,也会有类似于兄弟姐妹的伙伴关系的出现,并且实现个体利益和集体利益的协调。
“囚徒困境”并非是不可破除的魔咒,只要找到合适的能够影响参与者收益和行为的有效机制,就能走出困境的阴霾,实现帕累托最优。
同时,应该认识到:囚徒困境中的参与者并非是“真正的理性人”,“囚徒困境”只是两个自私自利的人“聪明反被聪明误”的结局,不是真正的“聪明绝顶”的人所应该做出的决策。
如果是真正的“理性人”,他们就应该掌握博弈论的基本知识,能预计到自己的处境,最后两个囚徒都会毫无顾忌的选择抵赖,从而实现另一个均衡(并不坦白,不坦白)。
此外,如果博弈的参与者是利他人或为己利他,也可以有效突破困境。
2 “囚徒困境”模型“囚徒困境”是博弈论研究中虚构的一个经典案例,最早是在20世纪50年代,由美国Rand公司的Dresher和Flood采用。
在之后,鉴于“囚徒困境”模型在社会科学研究方面的作用,普林斯顿大学的教授Albert Tucker逐渐将它推广开来。
博弈论经典案例“囚徒困境”及其实证分析最近三四十年,经济学经历了一场“博弈论革命”,就是引入博弈论的概念和方法改造经济学的思维,推进经济学的研究。
诺贝尔经济学奖授予包括美国普林斯顿大学的纳什博士在内的3位博弈论专家,可以看作是一个标志,这自然也激发了人们了解博弈论的热情。
博弈论作为现代经济学的前沿领域,已成为占据主流的基本分析工具。
博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡,也就是说,当一个主体的选择受到其他主体选择的影响,而且反过来影响到其他主体选择时的决策问题和均衡问题。
一个完整的博弈应当包括五个方面的内容:第一,博弈的参加者,即博弈过程中独立决策、独立承担后果的个人和组织;第二,博弈信息,即博弈者所掌握的对选择策略有帮助的情报资料;第三,博弈方可选择的全部行为或策略的集合;第四,博弈的次序,即博弈参加者做出策略选择的先后;第五,博弈方的收益,即各博弈方做出决策选择后的所得和所失。
“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。
讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。
可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。
A和B均坦白是这个博弈的纳什均衡。
这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。
即是说,不管A坦白或抵赖,B的最佳选择都是坦白。
反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。
结果,两个人都选择了坦白,各判刑8年。
从“囚徒困境”角度分析全球变暖的气候问题
对于生活中的我们来说,在各种社会经济活动中,我们往往会根据事情的发展变化或者对手的行为来进行预测和判断,同时选择对自己有利的策略。
其实这就是我们通常意义上的博弈行为,在我们的实际中也是随处可见的。
学习了博弈论之后,在老师的讲解和游戏中,我也懂得了这并不是一门精密复杂和充满公式的纯数学学科,而是一门来源于人们生活实践,同时又是用于人们的生活实践的科学。
在接下来的篇幅中,我会介绍博弈论中最常用且最典型的囚徒困境模型,并由此来对生活中的一些现象进行解读。
其实,“囚徒困境”最早是在1950年由美国兰德公司提出的,虽然很简单易懂,但是却反映了博弈问题最基本的特征,而且这个模型很好的解释了生活中许多经济和社会现象,是非常有效的基本博弈模型。
该模型的基本内容如下:两个共谋犯罪的人被关入监狱,不能互相沟通。
如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱八年;若互相揭发,则因证据确实,二者都判刑八年。
由于囚徒为了自身利益的最大化,因此倾向于互相揭发,而不是同守沉默,其博弈矩阵如下:
这里可以看到,情境中的两个囚徒都选择了坦白这个看似并不是最合理的策略,但是从两个囚徒的角度来说,这对于他们来说却都是最明智的决定,因为他们都不知道对方的选择,不了解对方的心理,所以只能根据自身利益最大化来选择对于自己最适合的策略。
这也揭示一个关于个人理性的矛盾:从个人利益出发的行为,最终并不一定能给自己带来最大的利益,有时候甚至于适得其反。
其实这种例子在我们的生活中也是累见不鲜,比如我们学生的上课选座位问题。
对于我们大学生来说,每次上课或者听讲座的时候,你会发现超过90%的人在选择座位的时候总会选择一排中最靠边上的位置。
其原因莫过于以下:这个座位出去最方便,能给自己带来最大的便利。
我们来分析一下,假设每个人都考虑自己的利益最大化,那么第一个来的人首先就选择了最靠边上的位置,那么后续来的人则会依次选择次靠近边上的位置,而每来一个人,第一个人就需要起来一次,让他人进去。
同理,第二个人也需要起身让别人进去。
结果是最边上的起身的次数最多,次靠近边上的人起来的次数第二多。
同理,越往里面的位置起来的次数越少。
但是这对于后来的也是一种不方便,要进去的时候要穿过那么多人,劳师动众,很是麻烦。
这会让这个人下次来的时候会选最外面的位置,以便方便自己。
这样的恶性循环中,这样座位难的问题永远得不到解决,只会越来越严重。
还有我们生活中的商家大打价格战,居民安装防盗窗和公共资源难以保护等现象都是“囚徒困境”模型的具体体现。
环境问题中的温室效应现象现在是各个国家都很是关心的问题,毕竟这已经关系到了人类的生存与未来发展,接下来我会用“囚徒困境”模型来解释温室效应难题。
众所周知,一个国家的经济与社会的发展与能源的消耗是密不可分的,而且现在世界的主要能源是石油和天然气,而石油和天然气的使用会排放出大量的温室气体,而且许多国家没有掌握大量处理温室气体的先进技术,会直接排放到空气中。
而有的技术先进的国家为了节约成本,不使用处理技术,而为了眼前的利益直接排放温室气体。
我们可以做出如下的收益矩阵:假设发达国
家与发展中国家因为都要发展经济,消耗能源产生了大量的温室气体,而且都有处理温室气体的先进技术。
如果两者都直接不处理排放都空气中,会对本国环境造成破坏,所取得经济效益都记为1;而如果两者都进行处理的话,由于环境的改善与保护,所取得经济效应都为3;但是如果其中有一个国家排放,另一个国家处理,由于污染会扩散,付出成本处理温室气体的国家依然会收到环境破坏,其收益记为-1,而排放的国家由于能有更多的钱投入到经济发展中,会有更好的发展,其收益记为3。
我们可以看到起矩阵分析如下:
其实就地球类似公共草地,所有人都在想法设法占用这片土地,但是现在由于大家过度的使用与开发,导致了各种环境问题的发生,“温室效应”、“空气污染”等问题已经成为全球性问题。
在当前竞争激烈的国际背景下,发达国家为了保护自己的利益和国际中的地位,对于以后长远的利益不予考虑,不惜牺牲环境来获取眼前的最大利益。
同样的,发展中国家为了追赶发达国家,维持自己的生存,更是不惜一切代价来发展自己的经济和军事实力。
所以在这个“囚徒困境”作用下形成了一个恶性的竞争循环,大家都不注意环境的保护,而是把温室气体都排入到环境中,以实现自身利益的最大化,根本不从整体的角度来考虑问题。
但实际上这种情况的出现缺损害了我们生活的大自然,破坏了我们人类共同生活的家园。
那我么难道就没有办法去解决这个问题吗?
我们可以看到我们需要某些东西来打破这个恶性的竞争机制,然而依靠单个国家和团体无法解决整体性问题。
囚徒困境从理论上也说明环境保护必须通过齐心协力来完成,单单依靠国家自律难以实行。
所以需要大家共同的合作,达成共识,制定法律和条约,利用法律的强制性来约束各国,将大家的力量凝聚到一起,来保护我们的地球。
显然,作为强力组织的国际组织正适合承担这一角色。
比如我们所熟知的1997年12月,《联合国气候变化框架公约》第3次缔约方大会在日本京都召开。
149个国家和地区的代表通过了旨在限制发达国家温室气体排放量以抑制全球变暖的《京都议定书》,核心内容是减少二氧化碳等6种温室气体的排放量。
到2010年,所有发达国家,要比1990年减少5.2%。
而且哥本哈根世界气候大会全第15次缔约方会议暨《京都议定书》第5次缔约方会议,于2009年12月7-18日在丹麦首都哥本哈根召开。
来自192个国家的谈判代表召开峰会,商讨《京都议定书》一期承诺到期后的后续方案,即2012年至2020年的全球减排协议。
这些都给我们的温室效应的控制带来了巨大的作用。
所以在解决这些问题时,需要的不仅仅是合作,更需要制度和法律的强制和约束作用来推动。
另外就是世界各国都需要对人民普及保护环境的基本意识观念,让人们都有这样的行为意识,这需要从教育抓起。
总而言之,像温室效应这种环境博弈中,所有地球人都是参与者,我们对环境有着共同的责任,为此我们必须针对现实,全局为重,以公正,公平,公开的有效程序和机制记性国际合作,做到鱼和熊掌兼得,走出困境,迎接未来。
参考文献和资料来源:《经济博弈论》——谢识予复旦大学出版社
百度百科,新浪新闻
《博弈论与信息经济学》——张维迎上海人民出版社。