当前位置：文档之家› 从_囚徒困境_走向_智猪博弈_关于学术交流博弈策略的理性思考

从_囚徒困境_走向_智猪博弈_关于学术交流博弈策略的理性思考

CANGSANG

从“囚徒困境”走向“智猪博弈”

——

—关于学术交流博弈策略的理性思考

朱逊贤

摘要学术交流是提升研究生科学研究能力的重要手段，在研究生培养和学校建设过程中有着重要的地位和作用。但是“囚徒困境”是影响学术交流的主要掣肘，基于“囚徒困境”的非合作博弈成为影响学生综合素质塑造的重要矛盾和问题。而“智猪博弈”是推动学术交流的共赢策略，即采取“合作博弈”的方式，达到学术交流的本质和目的。

关键词博弈论囚徒困境智猪博弈学术交流

学术交流是关于任一领域的学者通过正式和非正式渠道接收、使用和传播信息的交流活动[1]，是科学技术工作中个人钻研和集体智慧相结合的一种形式[2]，是原始创新的源头之一，是科学研究、技术进步的“催化剂”，是创新发明突发灵感的“点火器”，是科学新理论、新思想的“摇篮”[3]。激发、启迪才是学术交流最本质的、核心的意义。

研究生学术交流主要是指研究生参加的涉及有关学科前沿领域、新理论、新技术、新方法和应用的集会、讨论、报告、比赛等活动，是研究生培养的重要组成部分，是激励研究生创新的主要途径，是与外界互动，把握时代脉搏，学习、吸纳营养，逐步塑造、完善自己的有效渠道。这种交流可以是正式组织发起的，可以是同一专业的一些学生自发交流的，也可以是跨学科、跨专业的学生针对自己研究领域的前沿或者自己的思想、经验、方法等与大家交流，恳请予以评价、指正。交流的根本在于人与人之间的交流，通过交流实现优化，促进全面发展。参加学术交流的前提是：心态是主动的，希望和大家交流，想听听别人的意见和建议。只有这样才能真正达到交流的目的。

一、囚徒困境：影响学术交流的主要掣肘

著名的博弈论案例“囚徒困境”讲的是两个嫌疑犯A和B 作案后被警察抓住，分别关押在不同的屋子里受审讯。警察告诉他们：如果两人都坦白，各判刑8年；如果两人都抵赖，各判刑1年（因证据不足）；如果其中一人坦白另一人抵赖，坦白的无罪释放，抵赖的判刑10年。这里，每个囚徒都有两个战略：坦白或抵赖。在这个例子里，占有战略均衡就是（坦白，坦白），就是说不论对方如何选择，个人的最优选择都是坦白。比如说，如果B不坦白，A坦白的话被释放，不坦白的话被判1年，所以坦白比不坦白好；如果B坦白，A坦白的话被判8年，不坦白的话被判10年，所以坦白还是比不坦白好。这样，坦白就是A的占有战略。同理，坦白也是B的占有战略。结果是，每个人都选择坦白，各判刑8年。

囚徒困境反映了一个很深刻的问题，就是个体理性与集体理性的矛盾。如果两个人都抵赖，各判刑1年，显然比都判刑8年好。但是，两个人为了自己的眼前利益最大，而不愿意改变决策，导致集体利益最小，并且自身利益也没有达到最大化，反而受到了一定的损失。

博弈通常是建立在个体行为理性基础上的非合作博弈，追求个体利益的最大化。由于他们之间没有建立一个攻守同盟或者没有人积极性遵守协定，个体理性不一定能达到自己的目标。

这个例子是实际生活中许多现象的一个抽象概括。同学间“非合作博弈”不可避免地凸显，并逐渐成为影响学生综合素质塑造的重要矛盾和问题，这种现象在我校的研究生培养中亦不可避免地存在着。学校提供给的各项资源是有限的，不能满足所有学生的要求。由于个体利益的客观存在，为抓住发展机遇，个体之间表现为竞争对手的态势，从而围绕各项资源展开“非合作博弈”。传统的个体意识导致个体为了眼前利益和现实利益，会使个体之间存在形形色色的自我保护壁垒。由于个体自身发展水平和学校自身实力有限，学术交流给个体和学校带来的利益短期内不可能明显的表现出来，致使个体保护行为有了存在的理由，解决这个问题的难度也很大。

这种相互割据、自行其是的局面带来了很坏的影响。一是导致学校的资源不能得到充分利用，出现严重的浪费现象；二是导致学校在提高教学质量、培养创新人才等发展缓慢，制约学校服务学生、服务社会的能力和水平；三是使个体之间的比较优势不仅不能相互结合、充分发挥，反而在很大程度上出现相互制约，甚至出现不良竞争。

二、智猪博弈：推动学术交流的共赢策略

在经济学中，智猪博弈是一个著名博弈论例子。

这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一头有个踏板，每踩一下踏板，在远离踏板的猪圈的另一头的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择搭便车策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲

学术争鸣

··2011·2

上接第66页

不仅是最高领袖及其干部需要，一般的人民更

需要。如果知识和受教育不被垄断，一事能变

之智，不可欺之智的增长与普及是不可限量的。今天人民当家做主，是不可欺者。特别是今天我国发展到了由弱变强，由贫变富

关键时期，我们更需要

“一事能变”且“应变不失”的本领和智慧。在今天平等的时代，每个人都负有仁德义务和智慧的责任或者说具有智慧是人的权利，保持人性的仁与智的平衡是作为一个真正人的权利与义务。

个人和社会的关系是一切问题的基础。处理这个问题，需要人性基础。也就是开拓社会关系规范的要求以及作为人的自然的发展需要的矛盾的可能性。发挥和成就人的根本潜力就是人性的根本要求和表现。仁的含义是爱人，特别是表明对人生命的尊重。我们社会需要科技进步，但更需要人性的进步。科技进步应服从于人性进步，而不是相反。不然的话，那些挑战智力的，有害的发明与应用就会层出不穷，贻害无穷。

怎样才能算是一个完整的人？这就是管子的成人命题。仁且智，这两个要素，管子从当时社会的发展需要做出了既仁且智，

谓之成人的概括。

论述了仁者，智者的内涵。仁与智，不是一般人的迫切要求，而是治国理政者的迫切要求，一切建功立业者的要求。现在是人与人平等的时代，即法律地位和人格尊严平等的时代，公民作为权利主体，迫切需要仁与智的发展平衡。以实现活一回的人的价值。今天的时代，仁与智的关系仍然处于紧张的状态。但是千百年来积累的基本德行在文化基因中存在着，不应使之恶变，而必须千百倍地呵护，这就是有仁且智的素质，就是真正的人。我们尽力争取真善美统一发展。

参考文献：

[1]（春秋）管仲撰.吴文涛、张善良编著.管子.北京：燕山出版社,1995.

孙玉锁山西职工医学院副教授

（责编樊誉）

自去踩踏板总比不踩强吧，所以只好亲力亲为了。出现这个博弈结果有三个前提，也是关键之处。一是两只猪必有一方放弃部分利益而不能鱼和熊掌兼得；二是小猪不可能独吞所有利益；三是理性是两只猪的固有属性。如果小猪具有雷锋精神，舍己为人，其结果只有死路一条，这种行为是非理性的；

大猪如果自私，其结果是两猪双双毙命，也是非理性的。

将综合素质相对较高的个体比作“大猪”，综合素质相对较低的个体比作

“小猪”。根据“智猪博弈”案例，则有以下三种策略供选择：一是两猪都不踩踏板，维持现状；二是小猪踩踏板，大猪得食即损失其他个体的部分利益，让某个体尽可能地发展；三是大猪踩踏板，小猪吃饱即割让部分利益，让其余个体快速发

展。三种策略的结果是：第一种策略导致这些个体综合素质不高；第二种策略结果是综合素质相对较低的个体的情况继续恶化；第三种策略可能改变综合素质相对较低的个体的状况，而综合素质相对较高个体的各方面也继续保持全面态势，并弥补自己的不足之处。古人云，三人行则必有我师。在学术交流的过程中，综合素质相对较高的个体充分展现了自己，锻炼了自己的口才和自信，也会认识到自己的不足和他人的长处，他山之石可以攻玉，从而使其得以全面塑造。可见，采用第三种策略应该是理性的选择，即采取

“合作博弈”的方式，应该是一种互利互惠的共赢策略。

每个个体应该选择适度均衡、全面发展道路。均衡发展可能会使每个个体的核心优势不是那么突出而丧失某些机遇，而非均衡发展又将产生无序竞争。只有实行合作博弈策略，才能经历一个由不均衡到均衡，再由均衡到不均衡的发展过程。因此，均衡是相对的，不均衡是绝对的，个体之间的合作交流发展同样要遵循和运用这一客观规律。每个个体终究要走出目前的小圈子，走向社会乃至世界，去和千千万万的学子竞争，你的对手绝不仅仅是眼前的同学。恰恰相反，现在的同学是你的朋友，将来很可能是你成功的助力。朋友多了路好走，朋友强大了路会更通畅。学术交流，自由争辩，可以沟通情况，取长补短，相互促进，共同提高，使认识得到发展，从而有可能产生新的思想，开辟新的研究途径。我国科学学理论家赵红州指出：科学创造的复杂性

和不确定性，常常超出一个人的智力范围，而需要“科学家智力

集团效应”[4]

。而“科学家智力集团效应”不是多个科学家智力的简单叠加，而是科学家智力的相互“碰撞”、相互激发和协作研究。同理，研究生搞学术研究也应该像这样。

学术交流中，思想的“碰撞”、“科学要素之间的相互作用”、“不同来源的思想的相互作用”，可以激发出灵感的火花，从而产生“额外的”科学新成果，这才是学术交流作用的关键与本质，是

学术交流成为一种“科学活动”、成为“人类知识生产力的一种生产方式”、成为“研究者学术生涯的一种生活方式”的关键所在[3]

。

在学术交流中，激发、启迪作用最有效的方式是学术争鸣与学术批判。

“正是在这种批评与反批评、挑战与应战的学术竞争、学术争鸣中，理论得到锤炼，思想碰出火花，方法受到洗礼。”[5]

高峡老师将学术交流的流程表述为：学术思想（学术观点、知识）－→学术交流－→知识人或思想者－→学习、创新－→新

学术思想（新学术观点、新知识）[6]

。学术交流最终落脚在“新学

术思想（新学术观点、

新知识）”上。所以，学术交流是“原始性创新源头之一”，是科学研究、技术进步的“催化剂”，是创新发明突发灵感的“点火器”，是科学新理论、新思想的“摇篮”，它还是

提升研究生个体和学校研究能力的重要措施之一。参考文献：[1]仝莉.网络环境下的学术信息交流模式[J].内蒙古科技与经济，2007，(11):26～30.[2]邢天寿.科学技术协会要为实现四个现代化作出贡献[J].学会与发展，1991，(3):70.

[3][5][6]高峡.学术交流作用新解[J].学会，2007，(1):50～51.

[4]赵红州.科学能力学引论[M].北京：科学出版社，1984.115.[5]张保生.学术评价的性质和作用[J].新华文摘，2006，(9):147.

朱逊贤南昌大学硕士研究生（责编任软平）74--

第二卷智猪博弈案例

第二卷智猪博弈案例在博弈论经济学中，有一个博弈叫“智猪博弈”，“智猪博弈”是一个著名的纳什均衡的例子。其内容是这样的：假设猪圈里有一头大猪、一头小猪，猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，我们来分析一下，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；大猪，小猪同时到槽边，收益比是7∶3；小猪先到槽边，收益比是6∶4。从中我们可以看出，在两头猪都有智慧的前提下，最好的结果是小猪选择等待。 1 在博弈论经济学中，有一个博弈叫“智猪博弈”，“智猪博弈”是一个著名的纳什均衡的例子。其内容是这样的：假设猪圈里有一头大猪、一头小猪，猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，我们来分析一下，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；大猪，小猪同时到槽边，收益比是7∶3；小猪先到槽边，收益比是6∶4。从中我们可以看出，在两头猪都有智慧的前提下，最好的结果是小猪选择等待。实际上小猪选择等待，让大猪去按控制按钮，而自己选择“坐船”(或称为搭便车)的原因很简单：在大猪选择行动的前提下，小猪也行动的话，小猪可得到1个单位的纯收益(吃到3个单位食品的同时也耗费2个单位的成本，以下纯收益计算相同)，而小猪等待的话，则可以获得4个单位的纯收益，等待优于行动；在大猪选择等待的前提下，小猪如果行动的话，小猪的收入将不抵成本，纯收益为-1单位，如果小猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，等待还是要优于行动。

智猪博弈案例整理

案例一、有一个经典案例，是说当年英国政府将流放澳洲的犯人交给往来于澳洲之间的商船来完成，由此经常会发生因商船主或水手虐待犯人，致使大批流放人员因此死在途中(葬身大海)的事件发生。后来大英帝国对运送犯人的办法(制度)稍加改变，流放人员仍然由往来于澳洲的商船来运送，只是运送犯人的费用要等到犯人送到澳洲后才由政府按实到犯人人数支付给商船。仅就这样一点小小的“改变”，几乎再也没有犯人于中途死掉的事情发生。案例二、公司并购中的搭便车：面对收购者，如果存在大股持有人和小股持有人，小股持有人宁愿当搭便车者，因为收购之后的股价会超出收购价格- 收购溢价，由于小股持有人无论出售股权还是保留股权都不能成为承购成功与否的决定因素，所以以不变应万变，存在不卖的优势策略。而大股持有人只有出售才能促成收购的成功，不出卖就得不到收购价格，逼迫他出卖股权，而小股东也会得利。为了打击小股东的搭便车行为，往往在公司成立之初就会通过法律来届定权利，比如规定收购者一旦接管公司有权利稀释那些没有转让的股权。案例三、员工和企业也是一个“智猪博弈”过程，员工就是大猪，员工有两种选择，努力工作或者消磨时间。如果员工努力工作那么企业和员工都受益，如果员工敷衍工作，拿多少工资干多少活，那么最终会被企业辞退。员工只有行动才会受益，不行动则不受益或者受损。而企业可以选择物资奖励，也可以选择说教等待，物资奖励企业必先拿出部分资金作为奖励品，显然收益为负，而等待则不受损，即使辞退员工也可以有人填补空缺，让员工有危机感反而会促进员工的积极性。所以聪明的员工会选择努力工作引起领导注意而得到加薪。案例四、在现实生活中，我们随时随地都在扮演着“小猪”或是“大猪”，进行着一场场“智猪博弈”，只是我们并没发现而已。下面将具体从“学生社团”的案例来具体说明“智猪博弈”在生活学习中的存在性以及其作用。在学校，参加社团是一件很平常的事情，但社团里的那些事情，其实也是一场场生动的博弈

浅析博弈中的囚徒困境

浅析博弈中的囚徒困境班级：姓名：学号：

摘要：囚徒困境是博弈论的非零和博弈中具代表性的例子，个人最佳选择并非团体最佳选择，个人理性有时会导致集体的非理性——机关算尽却因而作茧自缚，这就是囚徒困境所反映的问题。一经典的囚徒困境 “囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人隐瞒，则揭发者因为立功而立即获释，隐瞒者因不合作而入狱五年；若互相揭发，则因证据确实，二者都判刑三年。从集体上看，他们应当互相合作，都隐瞒，这样总服刑时间最短（为2年）。但他们会仔细考虑对方可能采取什么样的选择，并从自身利益出发做出选择。他们会意识到，如果同伙隐瞒而自己背叛，就能使自身利益最大化（0年）。但他也意识到，他的同伙也不傻，也会这样来设想，这样的话，他就更不可能让同伙得利（服刑0年）而自己受害（服刑5年）所以结论就是，唯一正确的选择就是背叛同伙，把一切都告诉警方，如果他的同伙保持隐瞒，那么他就会是那个获释出狱，服刑0年。而如果他的同伙也向警方交代了，那么，他只需服刑3年而不是5年。所以结果只能是两个囚犯都坐牢服刑3年，而不是都服刑1年。所以对于他们个人来说都是理性的，然而对集体来说却是非理性的。二重复多次如果囚徒困境的情况重复多次，会有什么新的变化？假设重复10次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次相反，如果第一次别人保持隐瞒，建立了互信的关系，你也会保持隐瞒，导致最优。当然，两个囚徒都会有相似的想法，在第一局保持隐瞒，以期望建立互信关系，所以双方都会保持隐瞒。第二局时，双方亦应有相似的想法，继续保持隐瞒，以期继续在互信的情况下进行第三局，

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2 囚徒 1 （表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。容易看出，由于对

于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长，支付的时间价值必须考虑，记r为折现因子。在有限博弈的情况下，可简化在r = l 的情况下讨论，并采用动态博弈的逆向归纳法进行研究：先分析t = T阶段两博弈方的选择，这仍然是一个基本的囚徒困境博弈，此时前一阶段的结果已成为事实，又无后续阶段，因此不难得出结论，这一阶段的结果是(坦白，坦白)，双方得益( -3 ，-3)。现在回到t = T -1阶段，理性的博弈方对于后一阶段的结局非常清楚，其结果必然是(坦白，坦白)，因此不管现阶段的博弈结果是什么，双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3，此时的得益矩阵是：囚徒2 囚徒 1 （表2）容易看出，坦白仍是两博弈方的严格优超策略，即(坦白，坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推，每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白，所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段，所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”：( 1 ) 开始阶段选择抵赖；( 2 )选择抵赖直到有一方选择了坦白，为了报复对手的背叛，以后都选择坦白。假定囚徒j 严格执行上述冷酷战略，考察囚徒i 的最优策略是否为冷酷战略：如果i 在博弈的某个阶段首先选择了坦白，他在该阶段得到0，而不是-1，但他的这次背叛会遭到囚徒j的永远惩罚，因此i 在随后每个阶段的支付都是-3 。如果下列条件满足，给定j没有选择坦白，i将不会选择坦白： 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……，即： 31 11 r r r -≤- -- 解上述不等式得：r≥1／3 (这个条件容易满足)。就是说，如果r ≥1／3，给定j 坚持冷酷战略并且j没有首先坦白，i不会选择首先坦白。进一步假定j首先选择坦白，那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为？如果i 坚持冷酷战略，他随后每个阶段的支付是-3，但如果他选择其他战略，他在任何单一阶段的支付都不会大于-3，因此，无论r是多大，i都有积极性坚持冷酷战略。在博弈重复无数次的情况下，只要r>1／3，子博

智猪博弈案例整理

案例一、有一个经典案例,就是说当年英国政府将流放澳洲的犯人交给往来于澳洲之间的商船来完成,由此经常会发生因商船主或水手虐待犯人,致使大批流放人员因此死在途中(葬身大海)的事件发生。后来大英帝国对运送犯人的办法(制度)稍加改变,流放人员仍然由往来于澳洲的商船来运送,只就是运送犯人的费用要等到犯人送到澳洲后才由政府按实到犯人人数支付给商船。仅就这样一点小小的“改变”,几乎再也没有犯人于中途死掉的事情发生。案例二、公司并购中的搭便车: 面对收购者,如果存在大股持有人与小股持有人,小股持有人宁愿当搭便车者,因为收购之后的股价会超出收购价格- 收购溢价,由于小股持有人无论出售股权还就是保留股权都不能成为承购成功与否的决定因素,所以以不变应万变,存在不卖的优势策略。而大股持有人只有出售才能促成收购的成功,不出卖就得不到收购价格,逼迫她出卖股权,而小股东也会得利。为了打击小股东的搭便车行为,往往在公司成立之初就会通过法律来届定权利,比如规定收购者一旦接管公司有权利稀释那些没有转让的股权。案例三、员工与企业也就是一个“智猪博弈”过程,员工就就是大猪,员工有两种选择,努力工作或者消磨时间。如果员工努力工作那么企业与员工都受益,如果员工敷衍工作,拿多少工资干多少活,那么最终会被企业辞退。员工只有行动才会受益,不行动则不受益或者受损。而企业可以选择物资奖励,也可以选择说教等待,物资奖励企业必先拿出部分资金作为奖励品,显然收益为负,而等待则不受损,即使辞退员工也可以有人填补空缺,让员工有危机感反而会促进员工的积极性。所以聪明的员工会选择努力工作引起领导注意而得到加薪。案例四、在现实生活中,我们随时随地都在扮演着“小猪”或就是“大猪”,进行着一场场“智猪博弈”,只就是我们并没发现而已。下面将具体从“学生社团”的案例来具体说明“智猪博弈”在生活学习中的存在性以及其作用。在学校,参加社团就是一件很平常的事情,但社团里的那些事情,其实也就是一场场生动的博弈论案例。就我自己的经历来说,大二时我当上了某个校社团的会长,社团里还有多个部长,

浅析囚徒困境与纳什均衡

浅析囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效，中小学生课业负担不减反增。又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。再看中国的法治之路。虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。不过，任何事物都有两面性，“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。比如在楼市的囚徒困境中，政府能适当调控房价，给予购房者房价稳定合理的承诺，那么楼市的囚徒困境是有可能破解的。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出

囚徒困境

囚徒困境（prisoner's dilemma ）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。概念释义囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。单次和多次重单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。囚徒困境的主旨囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。固定局数的囚徒困境试想像囚徒困境的情况进行十次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。经典的囚徒困境例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获

智猪博弈理

智猪博弈理论拼音：Zhìzhū Bóyì Lǐlùn(Zhizhu Boyi Lilun) 英文：Boxed Pig Game 同义词条：Boxed Pig Game 目录[ 隐藏 ] ?1智猪博弈理论简介 ?2经典案例 ?3智猪博弈理论的启示 ?4从“智猪博弈”到“新智猪博弈” ?5“新智猪博弈”理论的运用智猪博弈理论：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃一点残羹。

智猪博弈理论在博弈论（Game Theory）经济学中，“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有两头猪，一头大猪，一头小猪。猪圈很长，一头有一踏板，另一头是饲料的出口和食槽。猪每踩一下踏板，另一边就会有相当于10份的猪食进槽，但是踩踏板以后跑到食槽所需要付出的“劳动”，加起来要消耗相当于2份的猪食。问题是踏板和食槽分置笼子的两端，如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。踩踏板的猪付出劳动跑到食槽的时候，坐享其成的另一头猪早已吃了不少。 “笼中猪”博弈的具体情况如下：如果两只猪同时踩踏板，同时跑向食

槽，大猪吃进7份，得益5份，小猪吃进3份，实得1份；如果大猪踩踏板后跑向食槽，这时小猪抢先，吃进4份，实得4份，大猪吃进6份，付出2份，得益4份；如果大猪等待，小猪踩踏板，大猪先吃，吃进9份，得益9份，小猪吃进1份，但是付出了2份，实得-1份；如果双方都懒得动，所得都是0。利益分配格局决定两头猪的理性选择：小猪踩踏板只能吃到一份，不踩踏板反而能吃上4份。对小猪而言，无论大猪是否踩动踏板，小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边，这是最好的选择。现在来看大猪。由于小猪有“等待”这个优势策略，大猪只剩下了两个选择：等待，一份也得不到；踩踏板得到4份。所以“等待”就变成了大猪的劣势策略，当大猪知道小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，只好为一点残羹不知疲倦地奔忙于踏板和食槽之间。在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。这时候有所不为才能有所为！高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择，对它的留意和研究可以给企业节省很多不必要的费用，从而使企业的管理和发展走上一个新

智猪博弈理论

智猪博弈是经济学中一个很典型的博弈理论，在这个理论中会有许多经典的意义所在，现在让我们来了解一下吧。【问题】假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按钮，控制猪食的供应。按一下按钮，将有10个单位的猪食进入猪食槽，供两头猪食用。两头猪场面临选择的策略有两个：自己去按按钮或等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择，它必须付出如下代价：第一，它需要收益相当于两个单位的成本；

第二，由于猪食槽远离猪食，它将比另一头猪后到猪食槽，从而减少吃食的数量。假定：若大猪先到（小猪按按钮），大猪将吃到9个单位的猪食，小猪只能吃到1个单位的猪食；若小猪先到（大猪场按按钮），大猪和小猪各吃到4个单位的猪食；若两头猪同时到（两头猪都选择等待，实际上两头猪都吃不到猪食），大猪吃到6个单位的猪食，小猪吃到4个单位的猪食。问：大小猪的最优决策是什么？最后的结果很可能是什么样子的？？【答案】用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择：从这个矩阵上不难看出，小猪选择等待，让大猪去按控制按钮，而自己选择“坐船”(或称为搭便车)是最佳选择。原因很简单：在大猪选择行动的前提下，小猪选择等待的话，在大猪返回食槽之前，小猪可得到4个单位的纯收益，大猪到达之后只能得

到剩下的6个单位，实得4个单位；而小猪和大猪同时行动的话，则它们同时到达食槽，分别得到1个单位和5个单位的纯收益；在大猪选择等待的前提下，小猪如果行动的话，小猪在返回到达食槽之前，大猪已吃了9个单位，小猪只能吃到剩下的1个单位，则小猪的收入将不抵成本，纯收益为-1单位，如果大猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，等待还是要优于行动。【启示】博弈与制度 “智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。在博弈中，每一方都要想方设法攻击对方、保护自己，最终取得胜利；但同时，对方也是一个与你一样理性的人，他会这么做吗?这时就需要更高明的智慧。博弈其实是一种斗智的竞争。作为一门科学，博弈论就是研究不同主体之间相互影响行为的一种学问。或者准确地说，博弈论是研究决策主体行为发生直接相互作用时的决策以及这种决策的均衡问题的学问，因此也有人把它称为“对策论”。对于企业经营者来说，如何理解博弈论，如何运用博弈论原理指导企业有效管理，这是值得思考的事情。在价格和产量决策、经济合作和经贸谈判、引进和开发新技术或新产品、参与投标拍卖、处理劳资关系，以及在与政府的关系和合作等多方面，博弈论都是企业经营者十分有效的决策工具，或者至少是比较科学的决策思路。

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法摘要：囚徒困境是博弈论中的一个重要范例，这个问题涉及各个领域。本文通过三个简单的实例，来谈谈解决的方法。案例一：一个面馆的囚徒困境我曾经在路边一个小店里吃面，由于当时客人不是很多，就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅，开始的时候为了调动他的积极性他们采用按销售量分成，一碗面给5毛钱提成。这样的话，客人越多他挣得也就越多，为了吸引更多的顾客，他在碗里放很多的肉来吸引回头客，一碗面才6块钱，本来就靠薄利多销，他放的肉多，面馆自然也赚不到钱。后来呢，就换了一个结算方式，给厨师发固定的工资，这样客人多少跟他没有什么关系，但是新的问题又出现了，这次他在碗里放肉放很少，基本上把所有的客人都赶走了。客人少了，他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧，由于没有处理好，使得双方都处在不利的结局。解决方法：面馆的老板应该对厨师明确，每碗面的元材料是固定的，大师傅的工资还是按照销售量提成走，但是前题是每个月使用的原材料不能超额，否则只有基本工资。或者就规定每碗面里就放多少克肉。此外，还有一个更简单的办法就是：面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。经过以上的分析，我们可以得知解决的方法：1.工资加提成的制度确实能调动员工的积极性；2.权利下放可以，但是要有度；3.员工的工资提成不能只和销量挂钩，应该和老板的利润挂钩。4.有效的沟通、激励，平时给员工传达精神的奖励，让员工认为自己也是公司的主人。案例二：小餐馆的囚徒困境在天津新建的一片经济适用房社区里有两家小餐馆，他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房，而周边像小饭馆这样的生活配套设施很缺乏，所以附近的建筑工人都是在这两家小饭馆解决三餐。这两家餐馆因为在口味、价格、菜的品种等都基本相同，所以一直以来这两家面对都是这些人，营业额都差不多，而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长，就在今年的夏天，两家餐馆的其中一家，暂且称为A

囚徒困境-个人理性与集体理性的矛盾及其解决方式

个人理性与集体理性的矛盾及其解决方式一、囚徒困境举例概述囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克（Albert tucker）1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8 年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数1 个体理性与集体理性许多行业的价格竞争都是典型的囚徒困境现象，每家企业都以对方为敌手，只关心自己的利益。在价格博弈中，只要以对方为敌手，那么不管对方的决策怎样，自己总是以为采取低价策略会占便宜，这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。在国内的家电大战中，虽然不是两个对手之间的博弈，但由于在众多对手当中每一方的.市场份额都很大，每一个主体人的行为后果受对手行为的影响都很大，因此，其情景大概也是如此。如果清楚这种前景，双方勾结或合作起来，都制定比较高的价格，那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”，双赢也就成泡影。五花八门的价格联盟总是非常短命，道理就在这里。并不是每次个人的“理性选择”都能让自我利益最大化，也许会让你陷入一个“囚徒困境”。大量例子说明，在“囚徒困境”中，常常是先动手的一方会占一些优势。那么，“先下手为强”吧。二、个体理性与集体理性 1.个体理性

智猪博弈理论

智猪博弈理论在博弈论（Game Theory）经济学中，“智猪博弈”是一个著名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是7∶3；小猪先到槽边，收益比是6∶4。那么，在两头猪都有智慧的前提下，最终结果是小猪选择等待。目录介绍博弈与制度由智猪博弈故事得到的启示编辑本段介绍实际上小猪选择等待，让大猪去按控制按钮，而自己选择“坐船”(或称为搭便车)的原因很简单：在大猪选择行动的前提下，小猪也行动的话，小猪可得到1个单位的纯收益(吃到3个单位食品的同时也耗费2个单位的成本，以下纯收益计算相同)，而小猪等待的话，则可以获得4个单位的纯收益，等待优于行动；在大猪选择等待的前提下，小猪如果行动的话，小猪的收入将不抵成本，纯收益为-1单位，如果大猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，等待还是要优于行动。用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择：小猪行动等待大猪行动5,14,4 等待9,-10,0 　从矩阵中可以看出，当大猪选择行动的时候，小猪如果行动，其收益是1，而小猪等待的话，收益是4，所以小猪选择等待；当大猪选择等待的时候，小猪如果行动的话，其收益是-1，而小猪等待的话，收益是0,所以小猪也选择等待。综合来看，无论大猪是选择行动还是等待，小猪的选择都将是等待，即等待是小猪的占优策略。

在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。这时候有所不为才能有所为！高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择，对它的留意和研究可以给企业节省很多不必要的费用，从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见，却很少为小企业的经理人所熟识。编辑本段博弈与制度由智猪博弈故事得到的启示在这个例子中，对小猪而言，无论大猪是否踩动踏板，不去踩踏板总比踩踏板好。反观大猪，明知小猪不会去踩踏板，但是去踩踏板总比不踩强，所以只好亲历亲为了。这个案例令我们不得不思考—— 【博弈与制度】 “智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。在博弈中，每一方都要想方设法攻击对方、保护自己，最终取得胜利；但同时，对方也是一个与你一样理性的人，他会这么做吗?这时就需要更高明的智慧。博弈其实是一种斗智的竞争。作为一门科学，博弈论就是研究不同主体之间相互影响行为的一种学问。或者准确地说，博弈论是研究决策主体行为发生直接相互作用时的决策以及这种决策的均衡问题的学问，因此也有人把它称为“对策论”。对于企业经营者来说，如何理解博弈论，如何运用博弈论原理指导企业有效管理，这是值得思考的事情。在价格和产量决策、经济合作和经贸谈判、引进和开发新技术或新产品、参与投标拍卖、处理劳资关系，以及在与政府的关系和合作等多方面，博弈论都是企业经营者十分有效的决策工具，或者至少是比较科学的决策思路。还有一个经典案例，是说当年英国政府将流放澳洲的犯人交给往来于澳洲之间的商船来完成，由此经常会发生因商船主或水手虐待犯人，致使大批流放人员因此死在途中(葬身大海)的事件发生。后来大英帝国对运送犯人的办法(制度)稍加改变，流放人员仍然由往来于澳洲的商船来运送，只是运送犯人的费用要等到犯人送到澳洲后才由政府支付给商船。仅就这样一点小小的“改变”，几乎再也没有犯人于中途死掉的事情发生。关于这一问题，现任招商局掌门人秦晓先生在最近做客央视《对话》节目时，也谈了他的一些看法。他认为：企业领导人应该去制定游戏规则，而不应该单纯地去做裁判。他觉得制度应当比个人的权威

博弈论论文囚徒困境的启示和思考

囚徒困境的启示和思考二、囚徒困境的解释如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。实际上囚徒困境在我们的实际生活中也有很多，下面举两个进行说明

三、经济学例子：关税战两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。（背叛）与对方达成关税协定，降低关税以利各自商品流通。（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）四、商业例子：广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：互相达成协议，减少广告的开支。（合作）增加广告开支，设法提升广告的质量，压倒对方。（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。除了这些还有的很多类似的例子，比如说公共产品的提供，商家的价格战等等，在这里就不多赘述了。五、“囚徒困境”现象的意义和启示通过以上几个关于囚徒困境的例子，特别是作为经济管理学院的学生，我们可以将博弈论的一些知识运用好，更好的指导我们的经济生活。理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。在经济发展中，我们应该认识到“看不见的手”还有更多内涵，有待我们去发掘。本文主要通过对该理论的分析，从中发现对企业经营管理活动的有义启示。第一，在市场竞争过程中，一名优秀的经营者，无论做任何决策还是考虑问题应该有战略眼观，特别是在做出对企业乃至行业今后发展的竞争策略时，从长远出发，做正确的决断。第二，保存对手就是保存自己。在市场竞争中，让竞争对手发展就是自己发展，本着求同存异的思想，共谋发展，避免恶性竞争，避免两败俱伤的情况。第三，市场竞争不是纯粹的竞争，在义和利之间应该如何取舍，是一位有战略眼观的企业家该做的第一个选择。 2杜兰：走出“囚徒困境”《通信企业管理》[J] 2003年第4期，第31页

囚徒困境博弈的行为博弈均衡分析

囚徒困境博弈的行为博弈均衡分析 Christopher Stephens: Modelling Reciprocal Altruism, The British Journal for the Philosophy of Science, vol.47, No.4, 1996, pp.533-551. 互动利他主义建模 1、利他主义困惑与标准模型 The altruism puzzle and the standard model 在一个囚徒困境博弈中，每个博弈者都有两种可能选择：背叛（Defect）或合作（Cooperate），可一般表示为：囚徒困境博弈要求两个主要条件：（1）Y>W>Z>X（命令条件，The ordering condition）；（2）(Y+X)<2W（反利用条件，The anti-exploitation condition）尽管“背叛”策略是一次性博弈中每个博弈者的优超选择，但相互合作却比相互背叛要好。 2、利他主义的非正式条件 Informal condition for reciprocal altruism 3、对反利用条件的Axelrod证明的批评 Criticism of Axelrod’s justification of the anti-exploitation condition 4、相互利他主义的一组正式模型 A menu of formal models of reciprocal altruism 5、对于guppies、baboons和bats模型的互动利他主义建模 Modelling reciprocal altruism in guppies, baboons, and bats （1）建模guppies的同时合作

经典的囚徒困境

经典的囚徒困境 1950年，由就職於兰德公司的梅里尔·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式阐述，並命名为「囚徒困境」。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯，分别和二人见面，并向雙方提供以下相同的选择： ?若一人認罪並作证检控對方（相關術語稱「背叛」對方），而對方保持沉默，此人将即時獲释，沉默者将判監10年。 ?若二人都保持沉默（相關術語稱互相「合作」），则二人同樣判监半年。 ?若二人都互相检举（互相「背叛」），則二人同樣判監2年。用表格概述如下：解說如同博弈論的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，

此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方选择；而即使他们能交谈，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇： ?若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。 ?若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。二人面對的情況一樣，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此，这場博弈中唯一可能达到的纳什均衡，就是雙方参与者都背叛對方，結果二人同樣服刑2年。这場博弈的纳什均衡，顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，兩人都只會被判刑半年，总体利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛，结果二人判监均比合作為

博弈论经典案例《智猪博弈》

在经济学中，在经济学中，智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。那么，两只猪各会采取什么策略？答案是：小猪将选择搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标，猪圈里还会出现同样的小猪躺着大猪跑”的景象吗？试试看。改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡

献食物，所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的共产主义”社会，所以竞争意识却不会很强。对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费宀完。对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。原版的智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

博弈论中的囚徒困境在生活中的应用

博弈论中的囚徒困境在生活中的应用囚徒困境最早出现在1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。若二人都互相检举（互相“背叛”），则二人同样判监2年。如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：（1）若对方沉默、背叛会让我获释，所以会选择背叛。（2）若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。一，囚徒困境之于异地恋