蜈蚣博弈
- 格式:doc
- 大小:23.00 KB
- 文档页数:2
科技资讯2017 NO.18SCIENCE & TECHNOLOGY INFORMATION学 术 论 坛214科技资讯 SCIENCE & TECHNOLOGY INFORMATION蜈蚣博弈于1981年由Rosenthal提出。
博弈中有两个参与人,策略包括“合作”与“终止”。
博弈双方分先手与后手,轮流进行决策,当一方选择“终止”时,博弈即停止,否则双方将持续合作直到最终环节。
博弈的总收益会随着过程的持续而不断增大,但是每一参与者在自己本回合选择“终止”时的自身收益,要小于对方在下一回合选择“终止”时自己的收益。
根据持续的回合数,蜈蚣博弈可以被分为短期蜈蚣博弈、长期蜈蚣博弈和无限期蜈蚣博弈。
在“蜈蚣博弈”出现之前,逆向归纳法一直是博弈论中的一个重要分析方法。
逆向归纳法有两个基本假设:一是理性人假设,博弈的参与者都是理性的,会做出使自己收益最大的决策;二是共同知识,博弈方对其他人行为的判断都是正确的,并且相互知道其他人了解自己的判断。
“蜈蚣博弈悖论”是关于逆向归纳法的一个重要悖论。
根据逆向归纳法的推理,由于双方在每个环节都会选择让自己利益最大化的选择,最终导致先手方拒绝合作,但这与实际中的选择明显不符。
1 文献综述理论探究方面,孙洪罡等[1]基于风险偏好分析参与者的支付满意率。
潘天群[2]在逆向归纳法的内涵中加入交流理性的概念。
何伟等[3]着眼于预期心理,认为参与者一旦在主动选择时能获得与被动选择最大利益相同的收益,就会产生终止的动机。
方志耕等[4]将“灰数规整”与顺推归纳法结合,通过计算期望值探究博弈终止时的纳什均衡。
胡晓娟[5]等利用“颤抖手”方法,详细论证选择波动时,参与人合作的条件。
在实践中,McKelvey和Palfrey [6]让参与者分别在四阶段低收益蜈蚣博弈、四阶段高收益蜈蚣博弈和六阶段蜈蚣博弈中做出选择,发现参与者很少选择第一轮终止,更多选择倒数第二、三轮终止。
十大经典博弈1. 囚徒困境“囚徒困境”说的是两个囚犯的故事。
这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。
这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。
而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。
当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。
但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。
这种想法的诱惑力实在太大了。
但他也意识到,他的同伙也不是傻子,也会这样来设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。
而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。
所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
2. 智猪博弈假设猪圈里有一头大猪、一头小猪。
猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是7∶3;小猪先到槽边,收益比是6∶4。
博弈行为中的演绎与归纳推理及其问题作者:潘天群文章来源:自然辩证法研究200303【内容提要】博弈逻辑(game logic)是随着博弈论的迅速发展而形成的一个新的学科,它是一行动逻辑。
博弈逻辑研究的是理性的人在互动行动中即博弈中的推理问题。
在博弈行为中存在演绎推理和归纳推理。
正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中同样存在悖论或者“问题”。
博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是否有效的问题。
【关键词】博弈逻辑/演绎推理与归纳推理/逆向归纳法悖论/归纳推理的合理性【正文】中图分类号:BS12文献标识码:A1一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。
在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。
在此基础上,一种新的逻辑“博弈逻辑”(game logic)得以兴起,它是一种特殊的行动逻辑(action logic)。
博弈论研究多个理性人在互动过程中如何选择自己的策略。
理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人——经济人。
理性人如何使得自己的“得益”最大?关键是“推理”。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,建立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。
近几年,他在国际刊物上发表了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic)系统,而且,建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。
第二种研究纲领是研究博弈活动中的实际“推理问题”,许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的分析不是这里的任务,本文的目的是简要论述博弈活动中的推理问题,属于第二种研究纲领。
根据博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
以蜈蚣博弈研究烟草工业合作生产的发展思路烟草工业合作生产是指各烟草企业之间建立合作关系,共同参与生产、销售和经营活动。
蜈蚣博弈是一种博弈论中常用的策略,通过合作达到共同利益最大化。
建立互信合作关系是合作生产的基础。
烟草企业之间应该建立稳定、长期的合作关系,建立信任和理解,形成公平、公正、互利的合作模式。
只有在互信的基础上,才能共同合作、共同发展。
加强合作伙伴之间的沟通和交流。
烟草企业可以组织定期的合作会议,共同讨论合作事项,分享经验和信息。
通过沟通和交流,可以及时解决合作中出现的问题,推动合作生产的顺利进行。
优化产业链条和价值链。
烟草企业可以通过合作生产,共同协调和规划产业链上的各个环节,实现各个环节之间的优化和协同。
在产业链条上加入更多的附加值环节,提升产品品牌价值和市场竞争力。
要做好风险管理工作。
烟草工业合作生产中难免会面临各种风险,如市场风险、技术风险、政策风险等。
合作伙伴之间应该共同分担和管理风险,制定有效的风险管理措施。
建立健全的合作框架和协议,明确各方的权责,提高合作的稳定性和可持续性。
要注重创新和持续发展。
烟草工业合作生产应该积极引进新技术、新产品和新模式,不断创新,提升核心竞争力。
要关注产业发展的长远性,注重生态保护,推动绿色、可持续发展。
只有不断创新和持续发展,才能在激烈的市场竞争中取得优势。
烟草工业合作生产的发展思路应该是建立互信合作关系、加强沟通交流、优化产业链条和价值链、做好风险管理、注重创新和持续发展。
通过合作生产,烟草企业可以共同实现规模效应,提高市场竞争力,实现共赢发展。
博弈行为中的演绎与归纳推理及其问题【内容撮要】博弈逻辑(game logic) 是随着博弈论的迅速进展而形成的一个新的学科,它是一步履逻辑。
博弈逻辑研究的是理性的人在互动步履中即博弈中的推理问题。
在博弈行为中存在演绎推理和归纳推理。
正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中一样存在悖论或“问题〞。
博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是不是有效的问题。
【关键词】博弈逻辑/ 演绎推理与归纳推理/ 逆向归纳法悖论/ 归纳推理的合理性【正文】1 一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中取得遍及的运用。
在博弈论中,人类的所有活动,只假设是互动行为,均能够当作是博弈行动。
在此根底上,一种新的逻辑“博弈逻辑〞(game logic) 得以兴起,它是一种特殊的步履逻辑(action logic) 。
博弈论研究多个理性人在互动进程中如何选择本身的策略。
理性的人是使本身的目标或得益最大化的人,在经济活动中理性的人便是使经济目标最大化的人——经济人。
理性人如何使得本身的“得益〞最大?关键是“推理〞。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,成立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)传授是这方面的权威。
近几年,他在国际刊物上颁发了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的根底上成立了多个博弈逻辑(game logic) 系统,并且,成立了与博弈逻辑紧密相关的公共常识逻辑(common knowledge logic) 系统。
第二种研究纲领是研究博弈活动中的实际“推理问题〞,许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的阐发不是阿谁地址的任务,本文的目的是简要阐述博弈活动中的推理问题,属于第二种研究纲领。
依照博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
但是,正如传统逻辑中存在着悖论〔演绎悖论和归纳悖论〕,在博弈逻辑中一样存在着悖论。
逆推归纳法是博弈论及博弈逻辑研究中的一种常用的方法,由策梅洛(E.Zermelo)在讨论象棋博弈问题时首先使用,后经泽尔腾(R.Selten)完善及推广。
逆推归纳法主要用于求解完全且完美信息动态博弈。
完全且完美信息动态博弈的特点是,两个或多个局中人轮流博弈,局中人完全了解全部局中人任何决策可能导致的收益情况,并且局中人在进行每一次决策时完全知道之前阶段中自己和对手的策略。
逆推归纳法从动态博弈的最后一个阶段开始分析,向后推理、逐步倒推,直到博弈开始阶段局中人的决策。
逆推归纳法是完全归纳推理,结论是必然的。
然而这种逻辑严密的推理方法得到的预测或结果与现实中的博弈行为往往不一致,这就是“逆推归纳法悖论”的基本内涵。
逆推归纳法悖论的典型案例有连锁店悖论,有限重复囚徒困境、蜈蚣博弈悖论等。
真正引起人们对逆推归纳法悖论极大关注的是罗森塔尔(R.Rosenthal)首先研究的蜈蚣博弈悖论[1]。
逆推归纳法悖论是一种合理行为悖论,体现的是博弈论推理与人们实际行动的矛盾,这种矛盾无疑对博弈理论的合理性提出了挑战。
一尧蜈蚣博弈的逆推归纳法分析及悖论蜈蚣博弈悖论属于典型的逆推归纳法悖论,运用逆推归纳法分析博弈所得到的结果与人们的直觉不一致,并且与实验及现实博弈结果均发生了偏离[2]。
图1蜈蚣博弈的原始模型罗森塔尔在1981年的文献[3]中给出了3个完美信息动态博弈的模型,其中之一便是蜈蚣博弈的原始模型,如图1所示;后来宾默(K.Binmore)进行基于信念变化的蜈蚣博弈悖论解悖探析张峰1,赵绪涛2(1.北京理工大学,北京100081;2.中国人民大学,北京100872)摘要:逆推归纳法是研究完美信息动态博弈的常用方法,通过完全归纳得到必然结论,但用于分析蜈蚣博弈时理论预测与人们的实际博弈行为发生偏离,导致悖论。
蜈蚣博弈的结构精致而复杂,局中人对博弈收益情况的权衡以及局中人试图在非合作的博弈机制中进行合作的主观倾向,影响了局中人决策时的信念变化。
利他偏好是否导致博弈均衡的偏离——对蜈蚣博弈实验的解
释
饶育蕾;张媛;彭叠峰
【期刊名称】《系统管理学报》
【年(卷),期】2010()6
【摘要】将异质性利他偏好引入到博弈者的效用函数中,构建了基于心理效用的随机扰动的异质性利他模型来拟合蜈蚣博弈实验数据,研究结果发现,利他偏好是蜈蚣博弈实验结果与传统博弈论预测的纳什均衡结果产生系统性偏离的一个重要影响因素。
本文建立的模型不仅能够解释蜈蚣博弈实验结果的所有定性特征,而且能从动态角度刻画异质性利他程度的变化对蜈蚣博弈各阶段"结束"的条件概率的影响。
根据极大似然准则,该模型比已有的模型具有更好的拟合效果。
【总页数】8页(P676-683)
【关键词】利他;异质性;蜈蚣博弈;行为博弈论
【作者】饶育蕾;张媛;彭叠峰
【作者单位】中南大学商学院
【正文语种】中文
【中图分类】F224.0;F069.9
【相关文献】
1.非合作博弈均衡与合作博弈均衡之研究——博弈均衡的裂变分析 [J], 陈建先
2.房地产抵押贷款评估的信息反馈与博弈均衡——金融风险形成的一个博弈论解释[J], 余新民;杨金花
3.信念、反馈效应与博弈均衡:房地产投机泡沫形成的一个博弈论解释 [J], 周京奎
4.利他偏好下微分博弈闭环供应链的回收渠道选择 [J], 李妍;张桂涛;郭君宜
5.基于演化博弈模型的供应链利他偏好动态演进研究 [J], 覃燕红;白萌;林强
因版权原因,仅展示原文概要,查看原文内容请购买。
协调博弈(Coordination Game)是一种博弈模型,其核心在于参与者需要选择一种策略,以便与另一方的策略相协调。
在协调博弈中,参与者通常面临两个或更多的可选策略,每个策略都有不同的收益。
这种博弈模型通常用于研究合作行为和信息交流。
以下是协调博弈的几个例子:
猎鹿博弈(又称安全博弈、协调博弈):在一个村庄中,有两个猎人分别选择猎鹿和兔子作为猎物。
如果一个猎人选择猎鹿,他需要另一人也选择猎鹿,这样他们才能成功狩猎。
这是因为一个猎人单独外出捕猎只能捕到4只兔子,但如果两个猎人同时出动且合作就能捕到1只鹿。
从填饱肚子的角度看,4只兔子可以作为4天的食物,而1只鹿则足以让猎人在10天内都不用外出捕猎。
蜈蚣博弈:这个博弈模型是一个动态的博弈过程,其名称来源于蜈蚣有多个腿。
在这个博弈中,参与者需要在一系列的选择中做出决策,每个决策都会影响后续的步骤。
如果一开始就选择背叛,最终收益会远远低于一开始就选择合作。
酒吧博弈:这个博弈模型研究的是在酒吧中的人数动态。
假设每个想要去酒吧的人都是理性的,那么酒吧每天接待的人数几乎不会有过大的浮动。
蜈蚣博弈
蜈蚣博弈(Centipede game)
什么是蜈蚣博弈
蜈蚣博弈是由罗森塞尔(Rosenthal)提出的。
它是这样一个博弈:两个参与者A、B轮流进行策略选择,可供选择的策略有“合作”和“背叛”(“不合作”)两种。
假定A先选,然后是B,接着是A,如此交替进行。
A、B 之间的博弈次数为有限次,比如100次。
假定这个博弈各自的支付给定如下:1
合作合作合作合作...合作合作
A B A B …… A B (100,100)
合作合作合作合作...合作背叛
A B A B …… A B (98,101)
现在的问题是:A、B是如何进行策略选择的?
这个博弈因形状像一只蜈蚣,而被命名成“蜈蚣博弈”。
这个博弈的奇特之处是:当A决策时,他考虑博弈的最后一步即第100步;B在“合作”和“背叛”之间作出选择时,因“合作”给B带来100的收益,而“不合作”带来101的收益,根据理性人的假定,B会选择“背叛”。
但是,要经过第99步才到第100步,在99步,A考虑到B在100步时会选择“背叛”——此时A的收益是98,小于B合作时的100,那么在第99步时,他的最优策略是“背叛”——因为“背叛”的收益99大于“合作”的收益98……如此推论下去,最后的结论是:在第一步A将选择“不合作”,此时各自的收益为1,远远小于大家都采取“合作”策略时的收益:A:100,B:100-99。
1
蜈蚣博弈的悖论1
根据倒推法,结果是令人悲伤的。
从逻辑推理来看,倒推法是严密的,但结论是违反直觉的。
直觉告诉我们,一开始就采取不合作的策略获取的收益只能为1,而采取合作性策略有可能获取的收益为100。
当然,A一开始采取合作性策略的收益有可能为0,但1或者0与100相比实在是太小了。
直觉告诉我们采取合作策略是好的。
而从逻辑的角度看,一开始A应取不合作的策略。
我们不禁要问:是倒推法错了,还是直觉错了?
这就是蜈蚣博弈的悖论。
什么是悖论?悖论(paradox)来源于希腊语,para意即“超越”,doxos的意思是“相信”。
Paradox的意思是:本来可以相信的东西不能相信,而有的东西看起来不可信但是反而是正确的。
悖论指由肯定它真,就推出它假,由肯定它假,就推出它真的一类命题。
在历史上有许多悖论。
如“阿基里斯赶不上乌龟”的芝诺悖论,“一个克里特人说‘所有克里特人都说谎’”的说谎者悖论,“一个理发师说:‘我给所有不给自己理发的人理发’”的理发师悖论或罗素悖论,等等。
这些悖论在历史上对于逻辑和数学的发展起了巨大的作用。
对于蜈蚣悖论,许多博弈专家都在寻求它的解答。
在西方有研究博弈论的专家做过实验,目前通过实验验证集体的交互行为已成时尚,正如博弈论专家英国的宾莫(Ken Binmore)所言,诺贝尔奖也无疑在考虑这方面的先驱者,实验发现,不会出现一开始选择“不合作”策略而双方获得收益1的情况。
双方会自动选择合作性策略,从而走向合作。
这种做法违反倒推法,但实际上双方这样做,要好于一开始A就采取不合作的策略。
倒推法似乎是不正确的。
然而,我们会发现,即使双方开始能走向合作,即双方均采取合作策略,这种合作也不会坚持到最后一步。
理性的人出于自身利益的考虑,肯定在某一步采取不合作策略。
倒推法肯定在某一步要起作用。
只要倒推法在起作用,合作便不能进行下去。
这个悖论在现实中的对应情形是,参与者不会在开始时确定他的策略为“不合作”,但他难以确定在何处采取“不合作”策略。