当前位置:文档之家› 博弈论经典例子(13)重复囚徒困境的游戏

博弈论经典例子(13)重复囚徒困境的游戏

博弈论经典例子(13)重复囚徒困境的游戏
博弈论经典例子(13)重复囚徒困境的游戏

重复囚徒困境的游戏

其目的就是要研究在无限次数的对局游戏中人为什么要合作,人什么时候是合作的,什么时候又是不合作的,如何使别人与你合作。

一位美国科学院院士、著名的行为分析和国际关系专家罗伯符·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏,艾克斯罗德的游戏思路非常简单,任何想参加这个计算机竞赛的人都扮演“囚徒困境” 案例中一个囚犯的角色,他们把自己的策略编入到计算机程序中,然后他们的程序会被成双成对地融入到不同的组合,在分好组以后,参与者就开始玩“囚徒困境”的游戏。在游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,做出自己的选择。

艾克斯罗德邀请了来自经济界,心理学,补会学、政治学和数学领域的14位专家参与这一游戏,每个参加者每一步都要写出个体选择合作或不合作的程序,这个程序在作选择时可以利用对局的历史情况来分析,从而决定自己的策略。游戏双方的选择,放在一起就产生了四种可能的结果,即:

1. 合作.合作;

2. 合作,背叛;

3. 背叛,合作;

4. 背叛,背叛;

在这个游戏中,如果双方选择合作,双方都能得到较好的结果,即“对双方合作的奖励”为3分,如果一个合作而另一方背叛,那么,背叛者因为占了便宜,所以得到“对背叛投机”的5分,而合作者因为被对方占了便宜,只能得到0分。如果双方都背叛,那么双方既没有得到利益,也没有失去什么,双方都得1分。

我们设想甲、乙两个程序在一起博弈,就出现这样的结果:

甲:合作(3)乙:合作(3)

甲:合作(0)乙:背叛(5)

甲:背叛(5)乙:合作(0)

甲:背叛(1)乙:背叛(1)

就这种情形来看,对双方最好的结果是选择合作,总体得6分,如果一方选择合作,一方选不合作,总体得5分,如果两个人都不合作,总体得2分。

竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先约定的竞赛规则,每一个参赛程序还要与自己对局,以及和一个随机程序对局,所谓随机程序是以相等的概率50%随机选择合作或背叛;

艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两对局,以找出什么样的策略得分最高。

14个程序再加上一个“随机程序“彼此开始了第一轮游戏,让我们来分析一下这个重复囚徒困境的游戏,虽然对个体而言最大的利益是得5分,但是如果对局在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契是,对策者就能持续的得3分,这是一个相对理想的结果,但如果持续不合作的话,每个人就永远得一分,因此,对每个参赛者而言,不可能得到高分,这样,合作成为了这个游戏的优势策略。

在这个游戏中,参赛者提出了各种程序,根据程序的本意大致可分为善良的,邪恶的和随意的三类,所谓善良即以合作为主导的策略,邪恶即以背叛占便宜的为主的策略。

最后胜出的是一个称为“一报还一报”的策略,它是所有提交程序中最简单,结果却是最好的,这个策略的特点是,第一次对局采用合作的策略,以后每一步

都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。

假设某人的策略是:第一次合作,以后只要对方不合作一次,他就永远不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多,对于总是不合作的人,也只能采取不合作的策略。

为什么一报还一报这样简单的策略会打败其他学者绞尽脑汁写出来的复杂程序呢?

让我们再来反思一下,一报还一报稳定成功的原因,简单的说,这个以其人之道还治其人之身的策略有着四个特点。

一,清晰性,以牙还牙,以眼还眼,以合作还合作,以背叛还背叛,使他容易被对方理解,从而引出长期合作的关系。

二,善良性,这种策略一开始便以善意和对方合作,也绝不会先背叛对方,这可防止它陷入不必要的麻烦。

三,报复性,如果对方背叛,下一次一定如法炮制,自动报复对面,绝不原谅,报复性使得对方试着背叛一次后就不敢背叛。

四,宽容性,如果对方又主动恢复合作,要立刻与对方握手言欢,既往不咎,有助于重新恢复合作。

一报还一报,策略是有关囚徒困境的最著名的也是被讨论最多的策略,它非常容易理解也非常容易被编成程序,更因为这个策略能引发人们的合作关系而著名。

一报还一报的成功可以说明它是一个很具适应性的规则,即它在很大范围内

表现极佳。

有趣的足,“一报还报”这个策略与单独某个策略相遇时,没有一次是赢了对方的,顶多是和对方打成平手。“一报还一报”策略从来没有一次在竞赛中比对方得更多的分!它总是让对方先背叛,而它自己背叛次数也绝不比对方多,它的得分往往比对方少,至多与对方相等。但是,打与多样化的对手分别比赛之后,最后加起来的,它的总分仍然有可能是最高的;今天如果比赛的规则改变了,在单独比赛赢的人将得到所有的分数.输的为零分。那么,“一报还一报”可能就没机会坐上冠军的宝座了。

一报还一报的成功部分是由于其他规则预料到它的存在并被设计得与它很好相处。要和“一报还一报”很好的相处就要求和它合作,这反过来就帮助了“一报还一报”规则,即使,是那些想伺机占便宜而不被惩罚的规则,也很快向“一报还一报”规则道歉。

任何想占“一报还一报”便宜的规则最终伤害自己,“一报还一报”从自己的不可欺负性中得到好处,这是因为遇到“一报还一报”很容易被识别出来,一旦被识别出来,其不可欺负性就显示出来了,因此,一报还一报从它自己的清晰性中得到好处。

一报还一报这个策略放弃了占他人便宜的可能性,尽管这种机会有时是很有利可图的,但是在广泛的环境中,试图占便宜而引来的问题也多种多样。

在与一报还一报的策略的接触中,如果一个规则用背叛试探是否可以占便宜,它就得被那些可激怒的规则报复的风险,如果双方反击一旦开始,就很难使自己解脱。

最后,试图识别那些“随机规则”或者那些过分不合作的规则,放弃与他

们合作的努力,经常错误地导致放弃与其他一些规则的合作,而这些规则是可以被有耐心的规则,比如一报还一报这种规则挽救的。

当然,我们知道就有限的次数与对局者而言,“一报还一报”并不是最优策略,但却是整体得分最多的策略,它的成功在于它良好的适应性。

由于一个特定的策略的有效性不仅取决于它自己的特性,而且取决于它要相遇的其他策略的特性,因此,单一竞赛的结果是不能最后说明问题的。

当第一轮的比赛结束后,第一次的结果被公布,并决定邀请更多的人再做一次游戏,第二次征集到了62个程序,加上自己的随机程序,又进行了一次比赛。第二次的比赛有了更高的起点,因为每个策略都已经从第一次的比赛中获取了经验,因此人们更期望它的结果对指导下一轮的成功更有帮助。

令人意外的是,第二轮胜出的仍然是一报还一报,但与第一轮不同的是,这一轮比赛由于绝大部分人都知道了一报还一报胜出的事实,最有趣而令人惊奇的是,许多人在一报还一报的原则上试图改进它,不过,更令人惊奇的是这些提交的复杂程序没有一个能像一报还一报的策略表现的那么好。既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都想实现而没能实现的,一报还一报显然是经济,实用而且非常成功的策略。

第二轮竞赛不仅验证了第一轮比赛中得出的结论和发现,还使得参赛者从第一轮竞赛的经验中吸取了自己的教训,但不同的人得到的教训明显不同。

最容易让人上瘾的10款超大规模游戏

最容易让人上瘾的10款超 大规模游戏 回想90年代,游戏中的关卡屈指可数,游戏时长也只有几个小时。要想延长游戏时间,就必须从头开始。 如今的游戏世界华丽而且生机勃勃。光是把握场景规模,就要花上几个小时。此外,模拟与回合策略游戏每年都会增加新特性,令现实世界都相形见绌。在网络游戏中,玩家身边不只有2P,甚至还有3P、4P……乃至200P。 如果你想成为冒险家、刺客或者全球首脑,如果你想为游戏奉献大段人生,以下10款超大规模游戏绝对能让你沉浸其中:

1、《文明6》 《文明》系列都是最容易成瘾的游戏。作为这个回合制策略游戏的最新篇章,《文明6》具备时间机器的效用——你以为只玩了1小时,实际上已经过去4小时。 该系列的DLC一直以来深受玩家们的欢迎,担当起游戏演变的重任。而游戏也因此变

得越来越庞大。选择领袖之后,玩家就可以开始发展自己的帝国,检视本国的实力和弱点以及周围的文明,决定要当穷兵黩武的征服者、文明模范、科技先锋或者宗教领袖。 另外,玩家还要在游戏中与时间赛跑,平衡交易和联盟。即使不痴迷于拿下每座城市,邻邦也会在你建造文明奇迹时前来骚扰,或者在联合国中投票否决你的决议。所以,当邻国敬酒不吃吃罚酒时,我们能做的只有进攻。

2、《星际争霸2》 《星际争霸》系列是即时战略游戏中的王者。初代游戏是全球电竞联赛的起源,续作又在其基础上不断完善:机械化的人族、变态生物虫族和超自然的神族,三者相互制衡。 《星际争霸2》为每个种族都编写了气势恢宏的剧情。它是继《红色警戒》之后首款深

入刻画人物的即时战略游戏。 如果能跟上网战节奏,你将享受到这款游戏的真正乐趣。因为兵种极为平衡,玩家间决胜全靠战略。从侦查敌营发展,囤积自己的部队,到骚扰敌人的农民,减缓对手资源采集的速度,使其无法迅速扩张军力……每一局游戏都能采用截然不同的策略。而每当升级篇加入新兵种、新技能和新地图,游戏又会焕然一新。 与前作一样,《星际争霸2》的服务器至今依然繁忙,还能玩上好几年。《星际争霸》不只是一款游戏,更是一种生活方式。

博弈论66个经典例子(9)不会令人后悔的纳什均衡

不会令人后悔的均衡 在纳什均衡中,你不一定满意其他的策略,但你的策略是回馈对手招数的最佳策略。 从囚徒困境中我们会发现,作为博弈各方的行动就是针对对方行动而确定的最佳对策,而一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学把这么一个结果称为均衡。这个概念是有普林斯顿大学数学家约翰·纳什提出的,因此被称为纳什均衡。 诺贝尔经济学奖获得者萨缪尔森有句名言,你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词,供给与需求。博弈论专家坎多瑞引申说:“要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是纳什均衡”。 1950年,还是一名研究生的纳什写了一篇论文,题为《n人博弈的均衡问题》,该文只有短短一页纸,可就这短短一页纸成了博弈论的经典文献。 纳什的贡献是,他证明了在这一类的竞争中,在很广泛的条件下是有稳定解存在的,只要是别人的行为确定下来,竞争者就可以有最佳的策略。 那么,什么纳什均衡呢?简单说,就是一策略组合中,所有的参与者面临这样的一种情况:给定你的策略,我的策略是我最好的策略。给定我的策略,你的策略也是你最好的策略,即双方在对方给定的策略下不愿意调整自己的策略。 纳什均衡从此成为经济学家用来分析商业竞争到贸易谈判现象的有力工具,所以纳什均衡是对冯诺依曼和摩根斯坦的合作博弈论的重大发展,甚至说是一场革命。 纳什均衡首先对亚当斯密“看不见的手”的原理提出挑战,按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果,

从纳什均衡引出一个悖论:从利己的目的触发,结果损人不利己。“囚徒困境”就是如此,从这个意义说,纳什均衡提出的悖论实际上动摇了西方经济学的基石。 纳什的想法成为我们指导“同时行动博弈”的最后一个法则的基础。这个法则如下:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。所谓博弈均衡,它是一稳定的博弈结果。均衡是博弈的一结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,因而是可以预测的。 在囚徒困境中存在唯一的纳什均衡点,即两个囚犯均选择“招认”,这是唯一稳定的结果。 有些博弈的纳什均衡点不止一个,如下述夫妻博弈中有两个纳什均衡点。 丈夫和妻子商量晚上的活动,丈夫喜欢看拳击,而妻子喜欢欣赏歌剧,但两个人都希望在一起度过夜晚。在这个夫妻博弈中有两个纳什均衡点:要么一同去看歌剧,要么一同去看拳击。在有两个或两个以上纳什均衡点的博弈中,其最后的结果难以预测。在夫妻博弈中,我们无法知道,最后结果是一同欣赏歌剧还是一同看拳击。 是不是所有的博弈均存在纳什均衡点呢?不一定存在纯策略纳什均衡点,但至少存在一个混合策略均衡点。 这里所谓纯策略是指参与者在他的策略空间中选取唯一确定的策略,所谓混合策略是指参与者采取的不是唯一的策略,而是其策略空间上的概率分布。 我们下面将在警察与小偷的博弈中给出混合策略的说明。 在西部片里,我们常能看到这样的故事:某个小镇上只有一名警察,他要负责整个镇的治安,现在我们假定,小镇的一头有一家酒馆,另一头有一家银行,再假定该地有一个小偷,要实施偷盗。因为分身乏术,警察一次只能在一个地方

暖场游戏(二)30个游戏

晚会、聚会各种暖场小游戏 1、记忆动作 道具:无道具。 规则:一次一组4-6人,进行两次。一个人做一个动作,下一个人重复上一个人做的动作,并且加上自己的动作。依此类推,做错或忘记者将被淘汰,最终能记得所有动作的人 可以得到奖品。 2、一只青蛙 道具:无道具。找一个人负责打节奏。 规则:参与者围成一圈,面朝中央.主持人念“一”,顺时针下一位念“只”,再“青”再“蛙”再“跳”再“进”再“水”再“中”再“咚”;接着“两只青蛙跳进水中咚咚” ……依此类推,跟不上节奏或出错者罚节目. 3、钻竹杆儿 道具:长杆儿一支,两名同学负责固定高度。 规则:各组列队钻过竹竿,手不能触地,身体后仰钻过竹竿,碰掉竹竿者淘汰,竹竿从高向低调整,到最后竹竿最低的一组胜出。 4、中短信王 道具:无道具。 规则:当场公布一个不超过20字的文字,内容不限。现场告诉大家一个手机号码,由主持人说开始,参与者开始编辑规定内容的短信,发送到指定号码,然后主持人讲收到的号码 打回去,看谁的手机响。前三个先发到指定号码的获奖。进行两轮。 5、摆时钟 道具:准备长中短细棍儿各两支。

规则:两队人,每队三人列成纵队,第一人拿个短棍当时针,第二人拿中棍当分针,第三人拿长棍当秒针,表演时钟,主持人说个时间,看哪一队表演得快准,五局三胜。 6、时间地点人物 道具:白纸和笔若干。 规则:每组四人,分别写上。 甲,任意写下对方一个成员的名字或团号 乙,任意写下一个形容词 丙,任意写下一个动作 丁,任意写下一个时间 将四个人的合起来,就是命令对方那个人将要做的动作 比如,webhuman,哭笑不得的,接吻,十分钟 7、抢椅子 道具:椅子六把。 规则:摆上几把椅子,椅子比人数少一放音乐当音乐停止时,开始抢椅子,没有坐到椅子的人将要淘汰,最后一名是胜者! 8、夹气球 道具:吹好的气球若干,中间摆桌椅等障碍。 规则:一男一女来完成,要求用某个部位夹着气球,不许用手。然后通过障碍夹到指定地点. 气球不能破不能掉。 9、投篮 道具:一个篮筐,或是小篮架。四个球。 规则:投篮,在规定时间内投数越多者获胜。 10、手脚并用 道具:白纸、记号笔。 规则:将四肢编上序号,由主持人把序号打乱并画在黑板上。参赛同学及时反映并相应摆出手脚的位置!没有成功者淘汰,最后留在台上的为优胜者。 11、占领阵地

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论经典例子

博弈论经典例子 篇一:《博弈论三大经典案例》 经典的囚徒困境 1950年,由就职于兰德公司的梅里尔弗拉德(MerrillFlood)和梅尔文德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问阿尔伯特塔克(AlbertTucker)以囚徒方式阐述,并命名为"囚徒困境"。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检举对方(相关术语称"背叛"对方),而对方保持沉默,此人将即时获释,沉默者将判监xx年。若二人都保持沉默(相关术语称互相"合作"),则二人同样判监半年。若二人都互相检举(互相"背叛"),则二人同样判监2年。 用表格概述如下: 甲沉默(合作) 乙沉默(合作)二人同服刑半年甲认罪(背叛)甲即时获释;乙服刑xx 年乙认罪(背叛)甲服刑xx年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即"囚徒")都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为"严格劣势",理性的参与者绝不会选择。另外,没有任何

其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是"困境"所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。由囚徒困境可以写出类似的员工困境: 一名经理,数名员工;前提,经理比较苛刻; 如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信 息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。 关键词:博弈论囚徒困境经济 一、完全信息静态“囚徒困境”博弈 完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。 它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。 用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) : 囚徒2 囚 徒 1 (表1) 假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。容易看出,由于对

于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。 二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈 研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。 下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长,支付的时间价值必须考虑,记r为折现因子。在有限博弈的情况下,可简化在r = l 的情况下讨论,并采用动态博弈的逆向归纳法进行研究: 先分析t = T阶段两博弈方的选择,这仍然是一个基本的囚徒困境博弈,此时前一阶段的结果已成为事实,又无后续阶段,因此不难得出结论,这一阶段的结果是(坦白,坦白),双方得益( -3 ,-3)。现在回到t = T -1阶段,理性的博弈方对于后一阶段的结局非常清楚,其结果必然是(坦白,坦白),因此不管现阶段的博弈结果是什么,双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3,此时的得益矩阵是: 囚徒2 囚 徒 1 (表2) 容易看出,坦白仍是两博弈方的严格优超策略,即(坦白,坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推,每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白,所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。 再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段,所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”:( 1 ) 开始阶段选择抵赖;( 2 )选择抵赖直到有一方选择了坦白,为了报复对手的背叛,以后都选择坦白。假定囚徒j 严格执行上述冷酷战略,考察囚徒i 的最优策略是否为冷酷战略:如果i 在博弈的某个阶段首先选择了坦白,他在该阶段得到0,而不是-1,但他的这次背叛会遭到囚徒j的永远惩罚,因此i 在随后每个阶段的支付都是-3 。如果下列条件满足,给定j没有选择坦白,i将不会选择坦白: 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……,即: 31 11 r r r -≤- -- 解上述不等式得:r≥1/3 (这个条件容易满足)。就是说,如果r ≥1/3,给定j 坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。进一步假定j首先选择坦白,那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为?如果i 坚持冷酷战略,他随后每个阶段的支付是-3,但如果他选择其他战略,他在任何单一阶段的支付都不会大于-3,因此,无论r是多大,i都有积极性坚持冷酷战略。在博弈重复无数次的情况下,只要r>1/3,子博

经典现场互动小游戏

经典现场互动小游戏! 户外游戏:踩数字 目的: 1、团队成员之间协调、配合的重要2、让公司员工活动起来 时间:每组耗时5~7分钟,组织实施时计20~30分钟 道具:一根7米长的绳子、33张大小为A4纸一半的纸张,上面、马表(或替带品) 游戏准备:1、将到场员工分为四组(一般7~8个人一组,公司领导亦要参加)。,2、主持人员在空地用绳子围成一个边长为1.5米左右的正方形,3、将1~33写有号码的纸,号码一面朝上,不分次序和方向随意均匀散落在正方形内,纸张不可重叠。4、在离正方形7~10米处,划一起跑线。 游戏规则:游戏开始前,一小组成员全部站在起跑线外,主持喊开始(同时计时),所有小组人员跑到正方形后卫,用脚按顺序踩完所有数字(每个人的数字不可重复)。踩的过程中任何时候不允许有两只或两只以上的脚同时在正方形内,负责犯规。踩完所有数字后,小组成员全体回到起跑线外(停计时)。每组活动结束后,主持宣布用时。所有小组中用时最短按规则完成上述过程的小组为胜者。7此游戏在开始前给所有小组3分钟左右的讨论时间。 合力吹汽球 目的:沟通配合能力,借着分工合作来完成任务 人数:每组限六人 场地:不限 道具:主持人准备每组各六张签,上写:嘴巴;手(二张);屁股;脚(二张) 汽球(每组一个) 适合:全部的人 游戏方法: 1. 分两组,但每组必须要有六人。 2. 主持人请每组每人抽签。 3. 首先,抽到嘴巴的必须借着抽到手的两人帮助来把汽球给吹起(抽到嘴巴的人不能用手自已吹起汽球);然后二个抽到脚的人抬起抽到屁股的人去把汽球给坐破 报纸拔河 概要:在报纸上挖两个洞来进行拔河的游戏 道具:旧报纸 方法: 1、在报纸上挖两个人头大小的洞; 2、2人对坐各自把报纸套上进行拔河(站着拔亦可); 3、报纸破裂离开脖子的一方输。 注意事项:不可以用手去拉。 心有灵犀 概要:猜成语 道具:写好成语的大纸 方法:

囚徒困境

囚徒困境(prisoner's dilemma )是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 概念释义 囚徒困境(prisoner's dilemma ):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。 单次和多次重 单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。 在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。 囚徒困境的主旨 囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。 固定局数的囚徒困境 试想像囚徒困境的情况进行十次。 我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次别人保持沉默,建立了互信的关系,你也会保持沉默,导致帕累托最优。 当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。这种想法合理吗? 在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的,理由和只有一局囚徒困境一样。 问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你在第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。 下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。 只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生,才会出现互相保持沉默的现象。 经典的囚徒困境 例子 1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法 摘要:囚徒困境是博弈论中的一个重要范例,这个问题涉及各个领域。本文通过三个简单的实例,来谈谈解决的方法。 案例一:一个面馆的囚徒困境 我曾经在路边一个小店里吃面,由于当时客人不是很多,就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅,开始的时候为了调动他的积极性他们采用按销售量分成,一碗面给5毛钱提成。这样的话,客人越多他挣得也就越多,为了吸引更多的顾客,他在碗里放很多的肉来吸引回头客,一碗面才6块钱,本来就靠薄利多销,他放的肉多,面馆自然也赚不到钱。后来呢,就换了一个结算方式,给厨师发固定的工资,这样客人多少跟他没有什么关系,但是新的问题又出现了,这次他在碗里放肉放很少,基本上把所有的客人都赶走了。客人少了,他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧,由于没有处理好,使得双方都处在不利的结局。 解决方法:面馆的老板应该对厨师明确,每碗面的元材料是固定的,大师傅的工资还是按照销售量提成走,但是前题是每个月使用的原材料不能超额,否则只有基本工资。或者就规定每碗面里就放多少克肉。此外,还有一个更简单的办法就是:面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。 经过以上的分析,我们可以得知解决的方法:1.工资加提成的制度确实能调动员工的积极性;2.权利下放可以,但是要有度;3.员工的工资提成不能只和销量挂钩,应该和老板的利润挂钩。4.有效的沟通、激励,平时给员工传达精神的奖励,让员工认为自己也是公司的主人。 案例二:小餐馆的囚徒困境 在天津新建的一片经济适用房社区里有两家小餐馆,他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房,而周边像小饭馆这样的生活配套设施很缺乏,所以附近的建筑工人都是在这两家小饭馆解决三餐。 这两家餐馆因为在口味、价格、菜的品种等都基本相同,所以一直以来这两家面对都是这些人,营业额都差不多,而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长,就在今年的夏天,两家餐馆的其中一家,暂且称为A

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

囚徒困境-个人理性与集体理性的矛盾及其解决方式

个人理性与集体理性的矛盾及其解决方式 一、囚徒困境举例概述 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、 环境保护等方面,也会频繁出现类似情况。囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数1 个体理性与集体理性 许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的.市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。五花八门的价格联盟总是非常短命,道理就在这里。并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。大量例子说明,在“囚徒困境”中,常常是先动手的一方会占一些优势。那么,“先下手为强”吧。 二、个体理性与集体理性 1.个体理性

经典的囚徒困境

经典的囚徒困境 1950年,由就職於兰德公司的梅里尔·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式阐述,並命名为「囚徒困境」。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯,分别和二人见面,并向雙方提供以下相同的选择: ?若一人認罪並作证检控對方(相關術語稱「背叛」對方),而對方保持沉默,此人将即時獲释,沉默者将判監10年。 ?若二人都保持沉默(相關術語稱互相「合作」),则二人同樣判监半年。 ?若二人都互相检举(互相「背叛」),則二人同樣判監2年。用表格概述如下: 解說 如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,

此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方选择;而即使他们能交谈,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇: ?若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。 ?若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。 二人面對的情況一樣,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此,这場博弈中唯一可能达到的纳什均衡,就是雙方参与者都背叛對方,結果二人同樣服刑2年。 这場博弈的纳什均衡,顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,兩人都只會被判刑半年,总体利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛,结果二人判监均比合作為

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

50个趣味游戏玩转数学(四)

50个趣味游戏玩转数学(四) 31.游戏学数学:纸牌与魔方阵问题 有些游戏表面上看似乎不一样,但实际的结构却相同。下面这两种两人玩的游戏即为一例。 (1)从纸牌中抽出方块A及从2至9这9张牌。将这9张牌正面朝上放在桌上。A当作1,玩的人轮流取一张牌。手上3张牌的点数之和最先达到15的人赢。 (2)将下列9个英文单词写在不同的卡片上,再把它们正面朝上放在桌上。 两人轮流各抽1张卡片,最先使手上的3张卡片具有一个共同的字母的人赢。 解答与分析 这两种游戏的结构相同。1到9这9张卡片中的3张之和为15的情形和魔方阵中的任一行、列或对角线的数字总和为15的情况一样。 第2个游戏中所选择的9个单词可排成如上所示的3×3阵列。同一列、行或对角线的3个单词均出现一个共同的字母。 32.游戏学数学:火柴棒的平移问题

右图是由12根火柴排列成的六边形轮子,形成6个等边三角形。现在请你试着移动其中的4根火柴,将原来的图形变为3个等边三角形。 解答与分析 解答如图所示。此题须注意的是题目中并没有要求移动后必须形成相同大小的等边三角形。 33.五年级奥数:最短管路长度的设计 凤凰城由于常常发生火灾而声名狼藉。为了洗刷恶名,市议会通过一项提案,决定在下图中的9个地点设置消防栓。为了确保能提供充分的水压,决定加设一套管路连接这9个消防栓。由于埋设管路所需经费庞大,因此市议会决定向外界公开征求管路总长度最短的设计。受到建筑物的影响,管路必须沿着上图中所示的街道铺设。图中每一条线的长度的单位是m。 你会如何设计? 解答与分析

管路的最短长度是520 m。 将ABHGIEF连接起来,再接上CI及DI两管路。 34.五年级奥数:数阵问题的巧妙计算 下图为5×5的魔方阵(即每一行、列或对角线上的数字之和为5×13=65)。有一个相当有趣的特性,就是其内部的3×3方阵仍然是一个魔方阵(即每一行、列或对角线上的数字之和为3×13=39)。由1到25所组成的5×5魔方阵中心包含另一个3×3的魔方阵,并不止这一种排法。另一个方法就是在3×3的魔方阵中填入下列数字: 5,6,7,12,13,14,1920,21 然后再将其他的数字填入外围的格子中,试试看你能否做得到? 魔方阵的概念可加以扩充对于一个由1到81所组成的9×9的魔方阵,其内又可包含: 7×7的魔方阵、5×5的魔方阵及3×3的魔方阵,试着排排看吧! 解答与分析 中心方格内的数字是13,即1与25的中间数。

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论经典案例《智猪博弈》

在经济学中,在经济学中,智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略?答案是:小猪将选择搭 便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。 原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。 小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之 间的距离。 如果改变一下核心指标,猪圈里还会出现同样的小猪躺着 大猪跑”的景象吗?试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小 猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡

献食物,所以谁也不会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然 是失败的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小 猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的 共产主义”社会,所以竞争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效 果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费 宀 完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最 大。 原版的智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规 则的设计者是不愿看见有人搭便车的,政府如此,公 司的老板也是如此。而能否完全杜绝搭便车”现象,就要看游戏 规则的核心指标设置是否合适了。

博弈论案例分析

博弈论案例分析 一、经济学中的“智猪博弈” (Pigs’payoffs) 故事背景:猪圈里有一头大猪和一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略,答案是:小猪将选择“搭便车”策略,也就 是舒舒服服地等在食槽边; 而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在,因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗,试试看。改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。对于游戏规则的设计者来说,这个规则的成相当高(每次提供双份的食物) ;而且因为竞争不强烈,想让猪们去多踩踏板的

囚徒困境(博弈论的经典案例)

囚徒困境(博弈论的经典案例) 学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境,非常耐人回味。 囚徒困境,说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。 这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。----那么,这两个囚犯该怎么办呢? 是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上

意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。 当然,在现实世界里,信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中,其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。----但是,无论在自然界还是在人类社会,合作都是一种随处可见的现象。 那么,问题就出现了:到底是何种机制促使生物体或者人类进行相互合作呢?----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,对合作的问题久有研究兴趣。为了进行关于合作的研究,他组织了一

相关主题
文本预览
相关文档 最新文档