博弈论“囚徒困境”的四种形式
- 格式:doc
- 大小:75.00 KB
- 文档页数:6
博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。
其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。
本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。
关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。
它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。
用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。
容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。
二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。
而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。
下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。
首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。
1.囚徒困境:假设警察局抓住了两个合伙犯罪的嫌疑犯,但获得的证据并不十分确切,对于两者的量刑就可能取决于两者对于犯罪事实的供认。
警察局将这两名嫌疑犯分别关押以防他们串供。
两名囚徒明白,如果他们都交代犯罪事实,则可能将各被判刑5年;如果他们都不交代,则有可能只会被以较轻的妨碍公务罪各判1年;如果一人交代,另一人不交代,交代者有可能会被立即释放,不交代者则将可能被重判8年。
(1)请写出这两名嫌疑犯博弈的支付矩阵;(2)假设这两名嫌疑犯都是极其精明的会打小算盘的自私自利不讲“江湖义气”的人,同时被分别审查不能够进行沟通。
请给出每个嫌疑犯的最佳策略;(3)假设允许这两名嫌疑犯在审讯室一起单独呆上10分钟,然后再决定是否坦白。
他们能否建立一个攻守同盟,从而双方都只被判一年?(4)若其中一名囚徒不知道对手是否理性,则他的最佳策略是什么?(5)说明这两个囚徒的困境在哪里?从“囚徒困境”博弈中你得到了什么启示?(6)利用“囚徒困境”博弈从下面两个现象:①恋人们在恋爱中海誓山盟,最终还是分手;②美苏两国经常会晤,甚至签订核不扩散条约,但军费一年高过一年。
(7)请试举一例“囚徒困境”博弈。
(8)请指出一种走出“囚徒困境”的方法。
2. 商家价格战出售同类产品的商家之间本来可以通过共同将价格维持在高位而获利,但实际上却是相互杀价,结果都赚不到钱。
请解释这个现象,并站在商家的立场上给出一些避免“价格大战”的方法。
3. 智猪博弈猪圈中有一头大猪和一头小猪,在猪圈的一端设有一个按钮,每按一下,位于猪圈另一端的食槽中就会有10单位的猪食进槽,但每按一下按钮会耗去相当于2单位猪食的成本。
如果大猪先到食槽,则大猪吃到9单位食物,小猪仅能吃到1单位食物;如果两猪同时到食槽,则大猪吃7单位,小猪吃3单位食物;如果小猪先到,大猪吃6单位而小猪吃4单位食物。
(1)给出这个博弈的支付矩阵;(2)找出这两头理性“智猪”的最佳策略;(3)该“智猪博弈”博弈给你的启发是什么?(4)有些广告具有“外部性”,如假设伊利宣传牛奶能强健国人的体质的广告就不仅仅增加了人们对伊利牛奶的需求,也增加了对其他品牌牛奶的需求。
聊聊四种经典的博弈论模型展开全文1、囚徒困境:为什么两个犯人都选择坐牢官差破获了一宗盗窃案,抓住了两名犯罪嫌疑人。
但在审讯过程中,被关在一处的二人始终矢口否认盗窃罪名,说东西不是我们偷的。
为了避免两人达成默契,结成攻守同盟,官差决定对他们进行单独审讯。
官差表示,如果两人中有一人坦白认罪,则可立即释放,另一个不认罪的人判5年徒刑;如果两人都坦白罪刑,则他们将各判2年徒刑。
但还有一种情况,那就是两个人都拒绝坦白,由于缺乏证据,他们只会以扰乱公共场合为名判处3个月拘役。
这就是两名罪犯面临的困境中,他们会做出怎样的选择呢?首先,他们互相之间都不清楚对方是否会坦白,其次,二人都希望将自己的刑期缩至最短。
如此考虑,最终,两名犯人都会选择坦白交代。
上面的案例就是博弈论所说的“囚徒困境”。
犯人们如果彼此合作,可为集体带来最佳利益(刑期最短);但当二人面对同样的情况且不知道对方如何选择时,在理性思考后,双方都会得出相同的结论(坦白交代),以便达到个人利益的最大化。
囚徒困境是博弈论的“非零和博弈”中具代表性的例子,反映的是个人的最佳选择并非是团体的最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
2、智猪博弈:赢的总是小猪猪圈里有大小两头猪,它们在同一个食槽里进食。
为了保持饲料的新鲜,在远离猪食槽的另一边有一个踏板,大猪或小猪跑过去,每按动一次踏板,投食口就会掉落10个单位的食物。
于是,在大猪和小猪每次进食前,就会形成这样一种局面:如果小猪跑去按踏板,大猪守在食槽边,则大猪小猪吃到的食物比是9:1;反之,如果大猪去按而小猪守在食槽边,则吃食比例是6:4。
如果二猪同时到食槽边,则吃食比是7:3。
这样一来,从纯收益的角度考虑,小猪就更愿意选择在食槽边等待食物落出,因为“等待优于行动”,而大猪只能被迫奔忙在踏板和食槽之间。
上述“智猪博弈”的案例是经济学家的假设论证模型,这个博弈的结果,用经济学视角看待,可以解释为:谁占有更多资源,谁就必须承担更多义务。
囚徒困境、智猪博弈、纳什均衡与一致预期(博弈论入门学习笔记二)0 囚徒困境:假定有两个犯罪嫌疑人共同作案。
警察抓住他们以后,分开拘押,并告诉他们:可以选择坦白,或是不坦白;如果一个人坦白,而另一个人不坦白,则坦白的一方会被立即释放,而不坦白的一方被判10年;如果两人都坦白,则会每人各判8年;如果两人都抵赖,因证据不足,则每人在关押1年后释放。
那么,这两个犯罪嫌疑人该如何选择呢?现在我们来看参与人甲和乙会如何决策。
我们假设参与人是理性的,都不想坐牢,能少坐牢尽量少坐牢。
我们先考虑甲的选择,他面对的问题是:如果乙坦白的话,自己坦白判8年,不坦白判10年,那么坦白比不坦白好;如果乙不坦白,自己坦白会被立即释放,不坦白则判1年,坦白还是比不坦白好。
因此,不论对方坦白不坦白,甲或乙自己的最优选择都是坦白。
占优均衡:一般来说,由于每个参与人的效用依赖于所有人的选择,因此每个人的最优选择(战略)也依赖于所有其他人的选择(战略)。
但由囚徒困境我们可以看出,一个人的最优选择并不依赖于他人的选择。
这样的最优战略,被称为“占优战略”。
由所有参与人的占优战略构成的战略组合被称为“占优均衡”。
占优战略均衡的出现只要求所有人都是理性的,但不要求每个参与人知道其他人是否理性。
囚徒困境博弈有占优均衡,所以其结果很容易预测。
“囚徒困境”表明个人理性与集体理性的冲突。
这样的例子有很多:寡头竞争,军备竞赛,团队生产中的劳动供给,公共产品的供给,等等。
许多的制度就是为了解决“囚徒困境”而存在的。
私人产品是志愿购买的,但公共产品可能需要强制购买;税收制度就是保证公共产品的生产,解决公共产品生产上的“囚徒困境”。
囚徒困境的一般表示:要使上述博弈成为一个囚徒困境需要满足这样一个条件:R>T>P>S。
解决囚徒困境的一种方式:用法律解决“囚徒困境”满足:X>R-T1 “智猪博弈”:设想猪圈里有两头猪,一头大猪和一头小猪。
囚徒困境的博弈论表述囚徒困境是博弈论中的经典问题之一,涉及到两位囚犯的选择,他们会面临到合作与背叛的选择,其结果会影响到他们之间的关系和各自的命运。
以下是囚徒困境的博弈论表述。
第一步,两位囚犯被抓并被关在了不同的牢房里,他们之间无法交流。
警察可以与每个囚犯进行单独的问讯,但对双方的答案会有所保密。
第二步,警察告诉囚犯们,如果他们两个都不承认犯罪,那么他们都会被判入狱1年。
但是,如果其中一个人承认犯罪而另一个人不承认,那么承认犯罪的囚犯将被判入狱3年,而不承认犯罪的囚犯将被判入狱10年。
如果两个人都承认犯罪,那么他们都将被判入狱5年。
第三步,两位囚犯需要作出自己的选择。
如果他们合作并且不承认犯罪,那么他们都可以被判入狱1年,这是对双方最好的结果。
但是,如果其中一个囚犯选择背叛另一个人,并承认犯罪,那么他将被判入狱3年,而另一名囚犯将被判入狱10年。
如果两个人都背叛,那么他们都将被判入狱5年,这是对双方最糟糕的结果。
在这种情况下,每一个囚犯都会寻求自己的最大利益,因为他们之前无法沟通,不可能达成共同合作的结果,因此囚徒困境是一种不稳定的策略。
当他们都选择自我保护而摆脱责任,结果却不如合作的结果好时,则产生了“囚徒困境”。
这个问题反映了在面临群体行动问题时,个体的行动往往与合作的利益是相反的。
因此,在实际生活中,面对这种情况,往往需要我们平衡自我利益与合作利益之间的权衡,才能取得更好的结果。
总之,囚徒困境通过一个简单的例子,提示了现实生活中相当普遍的博弈问题,一定程度上也预示了独裁和相互协作的不同结局。
在此基础上,对于此类博弈问题,我们需要不断探讨和学习,才有可能取得最佳的结果。
一、囚徒困境(prisoner's dilemma )1、囚徒困境简介囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。
他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。
故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。
但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
2、经典的囚徒困境1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
“囚徒困境”在生活中的实例以及一个新的考虑班级:2012212102学号:**********姓名:***一、简述本学期我们学习了博弈论这门课程。
在这门课上,我们学习了相关的博弈论的概念和一些经典的博弈论模型,”囚徒困境”是最广为人知的一个博弈模型。
相应的,在我们的生活中也存在很多类似于”囚徒困境“的模型。
困境之所以被称之为困境是因为在这个模型中,人们根据利己原则所做的决策并没有使整体的决策达到最优。
然而,根据经济学的理论,当市场中每个人都做出自己的最优决策,整体将达到最优。
囚徒困境模型中的均衡并不满足这个条件,两者之间产生了矛盾。
在这里,我想介绍一个我的生活中存在的囚徒困境模型。
二、”谁去上选修课“模型我所要介绍的“囚徒困境”模型背景如下:假设我(M)跟我的室友(Q)在上学期都选择了量子力学这门选修课,假设期末的考试形式很简单,只要求期末写一篇论文。
另外平时有作业要写,作业内容页非常简单,只需上课的人将上课老师讲的题记下来回来抄一遍即可。
因此去不去上课对自己期末的成绩没有太大影响。
唯一的影响在于如果两个人都不去上课将不能获得有关期末考试的信息。
而如果有一个人去了,他将会把作业记下来并与另外一名同学共享。
而去上课将会花费两个小时的时间,并且在这两小时内只能听课而不能做其他的事。
因此可以假设浪费两个小时的效用为-2,但是获得作业信息的效用为1。
同时,如果只有一个人去上课,那么他将会因为另一名同学没有去上课就白白获得作业而感到不平衡,效用为-1。
如果没有人去上课的话,两个人都无法获得作业信息导致期末成绩的损失将使两人效用为-2。
如果两个人都去上课,那么都会因为有另一方的陪伴而感到时间上的损失不那么大,此时浪费两个小时的效用变为-1。
如果两个人都没去上课,会因为对方的陪同减少自己的心里负担,效用正向加1。
由此可得,博弈矩阵为:可知,均衡决策为两人都不去上课。
这是对于整体的最劣决策。
这是一个实际的例子,真实的来源于我的生活。
博弈论中经典案例--“囚徒困境”博弈论中有一个经典案例--“囚徒困境”。
两个共谋犯罪的人被关入监狱,不能互相沟通情况。
如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。
由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。
囚犯可以做出如下选择:1、供出他的同伙(即与警察合作,从而背叛他的同伙),2、保持沉默(也就是与他的同伙合作,而不是与警察合作)。
这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。
而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。
当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。
但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。
这种想法的诱惑力实在太大了。
但他也意识到,他的同伙也不是傻子,也会这样来设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。
而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。
所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
囚徒困境模型的几个现实例子囚徒困境的例子在现实生活中很多。
“囚徒困境”博弈的理论模型及现实思考(安徽大学经济学院,安徽合肥230601)从剖析“囚徒困境”博弈的4个基本理论模型入手,深入研究导致“囚徒”陷入困境的原因,再结合现实生活的实际,给出了解决“囚徒困境”问题的有效办法。
标签:“囚徒困境”博弈;理论模型;现实思考1 引言囚徒困境是博弈论中非零和博弈的经典范例,它最早是由Tucker于1950年提出。
它是建立在具有个人理性的理性人的基础上的,反映了个人最佳选择而非团体最佳选择。
虽然囚徒困境本身只具有模型性质,但是现实生活中类似囚徒困境的例子却屡见不鲜。
“人不为己,天诛地灭”这句古话虽然过于极端,但揭露了人性中的理性自利一面。
在很多时候,个体理性带来的却很可能是集体的不理性,如果每个人都仅按照自利的原则行事,其结果往往是所有人都遭受损失。
博弈论中的“囚徒困境”,正是对这一现象的真实写照。
可谓“你我谁不是囚徒,天下何处无困境”。
随着经济社会的不断发展,构建和谐社会成为我国社会发展的首要目标。
面对这些生活中普遍存在的“囚徒困境”问题,需要我们深入研究囚徒困境博弈的经典理论模型,结合我国现实,找到一条能够真正帮助我们走出困境的道路。
2 囚徒困境博弈的理论模型囚徒困境博弈模型随着博弈论的深入发展,具有很多不同的形式,通常分为:完全信息的静态博弈、完全信息的动态博弈、不完全信息的静态博弈和不完全信息的动态博弈。
在讨论囚徒困境博弈的各种理论模型之前,先让我们看看它的基本模型的内容:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”。
如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1年徒刑。
博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。
其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。
本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。
关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。
它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。
用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。
容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。
二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。
而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。
下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。
首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。
博弈重复进行所耗时间会比较长,支付的时间价值必须考虑,记r为折现因子。
在有限博弈的情况下,可简化在r = l 的情况下讨论,并采用动态博弈的逆向归纳法进行研究:先分析t = T阶段两博弈方的选择,这仍然是一个基本的囚徒困境博弈,此时前一阶段的结果已成为事实,又无后续阶段,因此不难得出结论,这一阶段的结果是(坦白,坦白),双方得益( -3 ,-3)。
现在回到t = T -1阶段,理性的博弈方对于后一阶段的结局非常清楚,其结果必然是(坦白,坦白),因此不管现阶段的博弈结果是什么,双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3,此时的得益矩阵是:囚徒2囚徒1(表2)容易看出,坦白仍是两博弈方的严格优超策略,即(坦白,坦白) 是T - 1阶段的唯一的纯Nash均衡。
以此往上类推,每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白,所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。
再考虑“囚徒困境”博弈重复无数次。
因为无限博弈没有最终阶段,所以不能运用逆向归纳法求解。
考虑博弈双方都采用“冷酷战略”:( 1 ) 开始阶段选择抵赖;( 2 )选择抵赖直到有一方选择了坦白,为了报复对手的背叛,以后都选择坦白。
假定囚徒j 严格执行上述冷酷战略,考察囚徒i 的最优策略是否为冷酷战略:如果i 在博弈的某个阶段首先选择了坦白,他在该阶段得到0,而不是-1,但他的这次背叛会遭到囚徒j的永远惩罚,因此i 在随后每个阶段的支付都是-3 。
如果下列条件满足,给定j没有选择坦白,i将不会选择坦白:220+r(-3)+r(3)-1+r(-1)+r(-1)-+≤+……,即:31 11rr r -≤---解上述不等式得:r≥1/3 (这个条件容易满足)。
就是说,如果r ≥1/3,给定j 坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。
进一步假定j首先选择坦白,那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为?如果i 坚持冷酷战略,他随后每个阶段的支付是-3,但如果他选择其他战略,他在任何单一阶段的支付都不会大于-3,因此,无论r是多大,i都有积极性坚持冷酷战略。
在博弈重复无数次的情况下,只要r>1/3,子博弈精炼均衡是每个阶段博弈双方都采用抵赖进行合作。
三、不完全信息静态“囚徒困境”博弈由于现实生活中许多博弈并不满足完全信息的要求,比如买卖双方都对彼此的信息掌握不完全,买者不知卖者产品的质量到底如何,卖者也不知道买者愿意付出多高的价格等等,因此研究不完全信息下的博弈有着重要的理论和现实意义。
假定囚徒1有两种类型,理性的(或称为不合作的)和非理性的(有意愿合作的),概率分别为1-p和P,又假定囚徒2只有一种类型——理性的。
假定理性的囚徒可以选择任意的策略,而非理性的囚徒1只有一种策略“针锋相对”,即开始阶段选择抵赖,随后的阶段以对方前一阶段的策略为自己现阶段的策略进行鼓恸或报复。
由于博弈只进行一个同合,博弈双方没有合作可能,于是理性的囚徒1的最优策略是“坦白”,理性的囚徒2也会选择“坦白”,因为对于一次博弈而言,不管囚徒l理性与否,坦白的策略总是对囚徒2最优的,构成不完全信息静态博弈的Bayes—Nash均衡。
我们还可以按如下方法证明:由于博弈只进行一个阶段,则非理性的因徙1选择抵赖,理性的囚徒1选择坦白,记囚徒2的选择为X,博弈路径如下所示:(表3)当X=“抵赖”时,囚徒2的期望支付是:4p-5;当X=坦白时,囚徒2的期望支付是3p-3。
无论p为何值,3p-3>4 p -5,故坦白是囚徒2的最优选择。
四、不完全信息动态“囚徒困境”博弈理论上在完全信息的情况下.T次重复的“囚徒困境”博弈在每阶段博弈都选择“坦白”是两个囚徒的最优战略,然而这一结果并没有在现实生活中发生,我们常常看到屡次作案的犯罪团伙总是般抵赖妄图逃脱法律的惩罚。
国外实验经济学家作试验也表明,在有限次重复博弈中合作行为也频繁出现,因此需要将不完全信息引入重复博弈。
首先讨论“囚徙困境”博弈只重复两次的情况。
在第二阶段,由于没有合作的空间,理性的因徒1和囚徒2都会选择坦白,而非理性的囚徒1根据“针锋相对”策略要选择囚徒2第一阶段的策略;在第一阶段,非理性的囚徒1选择抵赖,理性的囚徒1仍会选择坦白,因为它在该阶段的选择不会改变囚徒2在第二阶段选择坦白。
现在考虑囚徒2在第一阶段的选择(X) 如何影响非理性困徒1在第二阶段的选择,如下表所示:(表4)当X=“抵赖”时,囚徒2的期望支付是:p[( -1 )+ 0]+ (1-p ) [ ( -5 ) + ( -3 )] = 7p-8; 当X=“坦白”时,囚徒2此时的期望支付是:p[0+ (-3)]+ (1-p )[(-3)+(-3)]=3p-6。
如果7p-8≥3p-6,即P≥1/2,囚徒2 将会选择X=“抵赖”;P ≥1/2的条件下,进一步考虑基本膊弈重复三次的情况。
在第三阶段理性的囚徒1和囚徒2会因为没有后续的合作机会选择坦白;在第二阶段,由于理性的囚徒l知道囚徒2是理性的,自己在本阶段的选择不会改变囚徒2在下一阶段的选择,故仍会选择坦白。
下面要说明理性囚徒1在第一阶段将会选择抵赖进行合作:尽管囚徒1第一阶段选择坦白可能免于惩罚,但无疑向囚徒2显示自已是理性的博弈方,于是因徒2在第二阶段选择坦白,理性的囚徒1在第二阶段最大只能获得(-3)的支付;相反如果隐藏自己的真实情况,选择抵赖,那么可能在第一阶段获得( -1 )的支付,第二阶段获得0的支付,无疑这将更为有利,所以理性的徒1的三阶段策略是(抵赖,坦白,坦白)。
就理性的囚徒1和2而言,第一阶段有合作的可能(双方都选“抵赖”),也有不合作的可能(因徒l选择“抵赖”,囚徒2选择坦白)。
先看双方都选择“抵赖”的情形,那么博弈进入第二和第三阶段,即随后的阶段是表4所示的两阶段博弈,所以在给定P≥l/2的条件下,囚徙2第二阶段选择抵赖,三次重复博弈的精练Bayes均衡如下表所:(表5)囚徒2选择(抵赖,抵赖,坦白)的期望支付为:(-1) +p[(-1)+0] + (1-p)[(-5)+(-3)]=7p-9。
再看双方不合作的情况,在不合作的情形下,囚徒2的策略有两种可能:(坦白,坦白,坦白)和(坦白,抵赖,坦白)。
①如果囚徒2选择(坦白,坦白,坦白),博弈路径如下所:(表6)囚徒2的期望支付为:0+(-3) +(-3)=-6;②如果囚徒2选择(坦白,抵赖,坦白),博弈路径如下所:(表7)囚徒2的期望支付为:0+(-5) +p(0)+ (1-p)(-3)=3p-8。
在P≥1/2的条件下7p-9≥-6,7p-9≥3p-8,因此(抵赖,抵赖,坦白)优于(坦白,坦白,坦白)和(坦白,抵赖,坦白)。
综合以上分析,只要囚徒1是非理性的慨率P≥1/2 ,表5所示的战略就是一个精炼Bayes均衡。
类似可以进一步证明,如果p≥1/2,对于T > 3,下列战略组合构成一个精炼Bayes均衡:理性囚徒1 在t = 1 至t =T-2阶段一直选择抵赖,在余下的两阶段选择坦白;囚徒2在t=l至t= T-l阶段选择抵赖,最后一阶段选择坦白。
我们清楚地看到,将不完全信息引入有限次“囚徒困境”复博能很好地解释现实的社会现象——为什么有那么多的囚徒宁愿选择抵赖而不是选择优超策略坦白。
至于“囚徒困境”的不完全信息下的无数重复博弈的情况,我们应该容易得出:在相当宽松的条件下,每阶段选择合作是精炼Bayes均衡。
五、“囚徒困境”实例(1)经济学例子:关税战两个国家,在关税上可以有以两个选择:提高关税,以保护自己的商品——背叛;与对方达成关税协定,降低关税以利各自商品流通——合作。
当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。
然后二国又重新达成关税协定。
(重复博弈的结果是将发现共同合作利益最大)(2)商业例子:广告战两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。
但若二者同时期发出质量类似的广告,收入增加很少但成本增加。
但若不提高广告质量,生意又会被对方夺走。
此二公司可以有二选择:互相达成协议,减少广告的开支——合作;增加广告开支,设法提升广告的质量,压倒对方——背叛。
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。
在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
参考文献[1] 《博弈论》(弗登博格,梯若尔著;姚洋校,黄涛等译),中国人民大学出版社(2010)[2] 《经济博弈论》(谢识予),复旦大学出版社(2010)[3] 《博弈与信息》(拉斯穆森著,韩松等译),中国人民大学出版社(2009)[4] 《经济学与博弈理论》(维加-雷东多著,毛亮等译),上海人民出版社(2006)。