第2章 纳什均衡与囚徒困境博弈
- 格式:pdf
- 大小:124.48 KB
- 文档页数:7
囚徒困境和纳什均衡当对手知道了你的决定之后,就能做出对自己最有利的决定------普林斯顿大学数学家约翰·纳什囚徒困境著名的“囚徒困境”,是纳什均衡理论的经典案例。
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供一下相同的选择:若有一人认罪并作证检控对方(背叛对方)而对方保持沉默,此人将立即获释,沉默者将判监禁十年。
若两人都保持沉默(互相合作)则两人同时被判监禁半年。
若两人都互相检举(互相背叛)则两人同时监禁两年。
如同博弈论的其他论证,囚徒困境假设每个囚徒都是利己的,激斗寻求自己的最大利益。
囚徒到底应该选择哪一项策略,才能将自己的刑期缩至最短?两名囚徒由于相互隔离监禁,并不知道对方的选择。
试想困境中两名理性的囚徒会如何选择:若对方沉默,背叛会让我获释,所以对方会选择背叛。
若对方背叛我,我也要指控对方才能得到较低的刑期,所以也是这样会选择背叛。
二人面对的情况一样,所以二人的理想思考会得到相同的答案----选择背叛。
背叛是两种策略之间的支配性策略。
因此这场博弈中唯一可能达到的纳什均衡就是两人选择同时背叛对方,结果两人同时服刑两年。
这场博弈的纳什均衡,显然不是最优的解决方案。
如果两人都选择沉默,两人都只会被判刑半年。
但根据以上假设,两人均为理性的个人,均衡状况回事两个囚徒都选择背叛。
这就是“困境”所在。
寻找“纳什均衡点”在现实生活中,纳什均衡理论影响着人们的行为。
比如,在有些国家,报亭既无管理人员也不上锁,买报纸的人在自行放下前后拿走报纸。
当然某些人可能取走报纸却不付钱(背叛)但由于大家意识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。
在商业活动中,也会出现各种各样的囚徒困境的例子。
两个公司相互竞争,他们的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。
但若二者同时期发出质量类似的广告,收入增加很少但成本增加。
囚徒困境与纳什均衡的关系这两个概念都是博弈论中的概念,那什么是博弈论呢,博弈论是研究竞争现象的一种理论方法。
既然是理论方法就会有许多假设的前提,但在现实情况下,这些前提很可能不会同时存在。
所以所有理论方法,只是有助于你分析并理解现实世界,它只是一种方法,或者是一种思维工具而已,切不可生搬硬套。
博弈论在经济学、生物学、物理学、社会学、政治学中都有应用,所以博弈论是一种十分有用的分析框架。
先介绍一下囚徒困境,然后在囚徒困境中找到纳什均衡的局面,最后进行一下总结。
1.囚徒困境1.1两个犯罪嫌疑人都被抓了起来,并且这两个人都是理性、自利的,并且不能相互交流。
都被告知如下规则。
在这种情况下,两个人会做什么选择?答案是两个人都会选择背叛对方。
分析如下:甲想:如果乙沉默,我背叛的话,就会立即获释。
如果乙背叛,我沉默的话,就会判刑十年。
所以甲会选择背叛。
同理乙也会选择背叛。
最终两人都会服刑5年。
其实有一个最优解就是:甲乙都选择沉默。
这就是“困境”所在:个人的最优解,并不是全局的最优解。
1.2知道次数的囚徒困境。
比如限制十次经过上次的教训,甲知道了沉默是全局的最优解,但是最后一次,甲背叛,乙沉默的话,甲会立马获释。
所以前九次甲都会选择沉默,已获得对方的信任,最后一次会选择背叛。
同理乙也会这么想。
当双方都知道对方在最后一局选择背叛,那么会有人在第九局选择背叛,依次类推。
第一局双方都会选择背叛。
1.3不知道次数的囚徒困境经过多次博弈,背叛会受到惩罚,双方趋向于选择合作。
2.纳什均衡在博弈中会存在一个均衡,任何一方都不愿改变策略,因为这种状况下改变策略会不利于自己。
囚徒困境下的纳什均衡是:双方都背叛。
可以用排除法找到答案,如果两人都沉默的话,只要任何一方背叛,会立马获释。
这种双方都沉默的局面并不稳定。
如果一方沉默,另一方背叛的话。
没有人傻到自己沉默,所以这种情况也是不稳定的。
3.总结3.1局部最优解不是全局最优解。
3.2个人的理性选择,会造成全局的非理性。
“纳什均衡”悲喜剧i一、“囚徒困境”与“纳什均衡”一次博弈最终总会形成一个结果,好比讨价还价,这就是博弈均衡。
“纳什均衡”是一种最常见的、也是最重要的博弈均衡。
它是美国天才数学家纳什在1950年正在攻读博士学位时提出来的,论文题为《n人博弈的均衡问题》。
纳什巧妙运用数学技巧,证明了如下定理:对一任何一个n人参与的非合作博弈(零和或非零和),如果每个参与者的策略是有限的,那么一定存在至少一个纳什均衡解集。
该论文只有短短一页纸,但却成了博弈论的经典文献,并使他获得了诺贝尔经济学奖。
“纳什均衡”的经典案例是“囚徒困境”:两个作案嫌疑人分别关在两间牢房,警察告知,如果两人都招供,则各坐牢3年;如果两人都不招供,则放出;如果一人招供而另一人不招供,则招供的坐牢3年,不招供的坐牢10年。
局外人看来,最好两人都不招供。
但从每个人来看,招与不招的代价分别为{3;3}与{0;10},还是招供为好。
但从纳什均衡却得出一个悖论:单个人的最优选择却没有导致全局最佳的结果。
现实中的例子很多,如价格战的结果是两败俱伤。
“纳什均衡”证明了一个道理:非合作博弈的情况下困境无法解脱。
二、自私的“纳什均衡”假定参与者都是自私的,“纳什均衡”的实例是很多的。
比如:一个大笼子里关着许多猴子,主人每天抓一只猴子杀掉。
所有的猴子都不敢反抗,怕单独反抗会被主人先杀掉,结果所有的猴子都被杀了。
如果所有的猴子群起反抗,有可能都逃脱逃掉。
人类在这方面的例子也很多。
在波士顿树立的二战犹太人蒙难纪念碑上,德国神父马丁留下了一段发人深省的铭文:“起初他们追杀共产主义者,我不是共产主义者,我不说话;接着他们追杀犹太人,我不是犹太人,我不说话;后来他们追杀工会成员,我不是工会成员,我不说话;此后他们追杀天主教徒,我是新教教徒,我不说话;最后他们奔我而来,再也没有人站起来为我说话了。
在现实中,公共汽车的小偷偷东西,别人袖手旁观;有人挥霍公家的东西,没人制止;在公地上放羊,每人都想多养,等等。
纳什均衡纳什均衡,Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名,是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。
首先我们先简单看一下纳什均衡的经济学含义:所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。
换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
纳什均衡(Nash equilibrium),无一参与者可以通过独自行动而增加收益的策略组合。
纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。
纳什均衡可以分成两类:"纯战略纳什均衡"和"混合战略纳什均衡"。
纯战略是提供给玩家要如何进行赛局的一个完整的定义。
特别地是,纯战略决定在任何一种情况下要做的移动。
战略集合是由玩家能够施行的纯战略所组成的集合。
混合战略是对每个纯战略分配一个机率而形成的战略。
混合战略允许玩家随机选择一个纯战略。
混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。
因为机率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。
案例:智猪博弈、囚徒困境、普通范式博弈(公司合作背叛)、饿狮博弈、硬币正反。
这里有一个理想化假设,那就是假设双方都知道博弈次数是无限的话,也就是说双方的商业往来是无止尽的,那么二者的策略都将持续选择合作,最终的博弈收益将定格在(3,3),这就是一个纳什均衡。
既然博弈次数是无限的,那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益,而招致对方在下一轮博弈中的报复(这种报复在博弈论里称作“以牙还牙”策略)。
还有另一种假设情况是,假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失,于是双方都重新采取了背叛的策略选择,最后的博弈结果又回到了(-1,-1),这就形成了第二个纳什均衡。
努⼒⼯作游⼿好闲努⼒⼯作2,23,0游⼿好闲0,31,1《博弈⼊门》第⼆章:纳什均衡:理论1 策略型博弈策略型博弈是决策者之间相互作⽤的模型。
正是因为相互作⽤,我们称决策者为局中⼈。
每个局中⼈有⼀个可选⾏动的集合。
模型中的每个局中⼈受到所有局中⼈⾏动的影响,⽽不仅是受到她⾃⼰⾏动的影响,从⽽获得局中⼈之间的相互作⽤。
尤其是,每个局中⼈对于⾏动剖⾯⼀-所有局中⼈⾏动的列表(参见17.4节中关于剖⾯的讨论)---都有⾃⼰的偏好。
定义2.1(具有序数偏好的策略型博弈)(具有序数偏好的)策略型博弈由如下要素组成:局中⼈集合对于每个局中⼈,有⼀个⾏动集合对于每⼀个局中⼈,有关于⾏动剖⾯集合的偏好2.2 囚徒困境2.2.1 合作项⽬你和朋友合作-⼀个项⽬。
你们每个⼈可以要么努⼒⼯作要么游⼿好闲。
如果你的朋友努⼒⼯作,⽽你乐意游⼿好闲(如果你也努⼒⼯作的话,项⽬的结局将会好--些,可是其价值的增量对你来讲不值得付出额外的努⼒)。
你喜欢你们俩都努⼒⼯作的结局甚于你们俩都游⼿好闲(在这种情况下,什么都没有完成),对于你,最差的结局是你⼯作很努⼒⽽你的朋友却游⼿好闲(你痛恨被“剥削")。
如果你的朋友有相同的偏好,那么模拟你所⾯对情形的博弈将在图2.2中给出,如你所看到,这个博弈与“囚徒困境”的不同仅在于⾏动的名称。
我们并没有断⾔,两个⼈从事⼀个合作项⽬的情况必定具有“囚徒困境”的结构,只有当局中⼈的偏好与“囚徒困境”中⼀样时才是!例如,如果在其他⼈努⼒⼯作时每个⼈都喜欢努⼒⼯作甚于游⼿好闲,那么“囚徒困境”就不模拟这种情况:局中⼈的偏好与图2.2中给出的偏好不同。
2.2.2 双寡头垄断左图的博弈与“囚徒困境”的不同之处不仅在于局中⼈⾏动的名称,还在于其中两个局中⼈的偏好上有所不同。
右图的博弈与“囚徒困境”的不同之处仅在于局中⼈⾏动的名称。
随机坚持随机1/2(H+L),1/2(H+L)L,H坚持H,L S,SS>L2.4例证:匹配硬币(⽆冲突博弈)我们研究的求解理论有两个部分。
纳什均衡——⾮合作博弈,囚徒困境1、⾮合作博弈是指在策略环境下,⾮合作的框架把所有的⼈的⾏动都当成是个别⾏动。
它主要强调⼀个⼈进⾏⾃主的决策,⽽与这个策略环境中其他⼈⽆关。
博弈并⾮只包含了冲突的元素,往往在很多情况下,既包含了冲突元素,也包含了合作元素。
即冲突和合作是重叠的。
===》求个⼈利益最⼤化2、合作博弈是指⼀些参与者以同盟、合作的⽅式进⾏的博弈,博弈活动就是不同集团之间的对抗。
在合作博弈中,参与者未必会做出合作⾏为,然⽽会有⼀个来⾃外部的机构惩罚⾮合作者。
合作博弈亦称为正和博弈,是指博弈双⽅的利益都有所增加,或者⾄少是⼀⽅的利益增加,⽽另⼀⽅的利益不受损害,因⽽整个社会的利益有所增加的。
===》求集体利益最⼤化囚徒困境终于被破解了!⼩伙1句狠话轻松破解难题,豪取50万英镑==》本质上的解法是在将⾮合作博弈变成合作博弈发布时间: 05-1122:12教育领域创作者囚徒困境,据说是博弈论中最棘⼿的难题,⽆⼈可破!不过,这个世纪难题却被⼀个年轻的英国街头混混⽤1句话给轻松破解了,并且豪取50万英镑。
01、什么是囚徒困境?囚徒困境,是1950年美国兰德公司提出来的,并以故事的形式进⾏阐述:两⼈因合伙盗窃杀⼈被逮捕,警⽅将他们两⼈分开进⾏审讯,并给了他们3个选择:1、如果两个⼈都抵赖,各判刑1年;2、如果两个⼈都坦⽩,各判刑8年;3、如果其中⼀⼈坦⽩,坦⽩者会被释放,抵赖者则会判刑10年。
很明显,两个囚徒都⾯临着两种选择:坦⽩或者抵赖。
由于两⼈处于隔离状态,并不知道同伙会如何选择,那么,他们就只能基于⼈性的⾃私,⽽去断定同伙肯定会去对其来说最有利的⽅式:坦⽩!既然同伙坦⽩了,那么⾃⼰抵赖就会被判10年,太亏了。
于是,他⾃⼰也会选择坦⽩——最坏也是8年,如果运⽓好,还可能直接释放。
这样⼀来,每个⼈都这样猜想对⽅,那么他们最终的结果就是都坦⽩,同时被判刑8年。
02、英国⼩伙破解囚徒困境的神操作!囚徒困境充分利⽤了⼈性的⾃私,基本⽆法破解。