当前位置:文档之家› 博弈论经典模型全解析

博弈论经典模型全解析

博弈论经典模型全解析
博弈论经典模型全解析

博弈论经典模型全解析(入门级)

1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪也行动的话,小猪可得到1个单位的纯收益(吃到3个单位食品的同时也耗费2个单位的成本,以下纯收益计算相同),而小猪等待的话,则可以获得4个单位的纯收益,等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择。这时候有所不为才能有所为!高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见,却很少为小企业的经理人所熟识。 3. 枪手博弈有三个枪手,第一个枪手A的命中率是80%,B是60%,C是40%。他们同时举枪瞄准、同时射击另两个人中的一个,要尽可能消灭对手,每

个人一次机会,一颗子弹,目标是努力使自己活下来。谁活下来的可能性最大?如果你认为枪法最准的A胜出,那么你就错了。我们来看,如果你是A,你毫无疑问的会瞄准对你威胁最大的B,而B也会瞄准对他威胁最大的A,而C则也可能瞄准A,那么三个人存活的概率都是多少呢?A = 100% - 60% - (1-60%)* 40% = 24%B = 100% - 80% = 20% (因为命中率为80%的A在瞄准他)C = 100% (因为没有人瞄准他)原来,枪法最不准的C竟然活了下来。

那么,换一种玩法呢?如果三个人轮流开枪,谁会生存下来?如果A先开枪的话,A还是会先打B,如果B被打死了,则下一个开枪的就是C,那么此时A生存的概率为60%,而C依然是100%(他开过枪后A没有子弹了,游戏结束);如果打不死B,则下一轮在B开枪的时候一定会全力回击,A的生存率为40%,不管是否打死A,第三轮AB的命运都掌握在C的手里了。那么,如果游戏规则规定必须由C先开枪,如果你是C怎么才能让自己活下来呢?答案是胡乱开一枪,只要不针对AB任何一人即可。当C开枪完毕,AB还是会陷入互相攻击的困境。插播1——警察与小偷令人沮丧的博弈结局。警察和小偷各只有一个机会去巡查或者偷盗A地或B地。A地的价值大于B地,那么警察应该为了保护价值大而一直保护A

地吗。博弈论认为当然不是,警察的合理策略应当是有倾

向于A以一定概率的随机巡查。这个概率就是:p=A地价值/AB地总价值。这种情况下才能使小偷最大得手几率降至最低。但是很不幸的是,此时的小偷谋求的是,最小得手几率的最大化。也就是说,警察的最优策略将把小偷的最差策略改良!这个便是冯·诺伊曼提出的“最小最大定律”。我们必须再一次感谢这个不完美的世界,因为现实之中,类似的现象,对于一方仍然可以设法找到对手致命的规律性行动(当然必须考虑到对方是不是一个更加老练的猎手,故意放出的诱饵)。而保持自己的行动的无序性,则有可能成为欺骗策略的武器,这倒似张三丰所言道的:无招胜有招。 4. 斗鸡博弈两只斗鸡在决斗的时候,无论选择进或退都是一个难题,因为纳什均衡已经给出了一胜一败的最优策略。在很多较量下,死拼将是得不偿失的,因为很可能给第三者机会。因此,两个已经在战场的强势力很可能自觉的遵循纳什均衡,当一方攻击时,另一方暂退。虽然可能某方暂时受损,但较之于两败俱伤是好得多的。不过,要维持这一状况,必须保证下一次先期受损的一方发动攻势的时候,另一方同样的后退。于是这样的攻击性行为开始变得“仪式化”,没有人真正流血。这只不过是两个巨头玩弄的游戏,目的是警告后来者,想进来,那么也得陪我们一起玩,可是你玩的起么?这正是百事的广告,即使暗含挑衅也最多只到“敢为中国红”这样的地

步的原因。插播2——协和谬误欧洲ZF在大量投资协和飞机后,终于不能自拔。即使前景黯淡,也撑着面子投下去,非要走头无路才放弃。而这时投入的成本已经全打水漂了。如果,发现不能继续的时候,就果敢放手,损失会小得多。可是他们会、能这么做么?壮士断腕,是何等的壮烈,却也是何等的艰难!沉没成本很可能会延续人们无畏的坚持。已经沉没的本该放弃,可惜大部分有赌徒式的心理,相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的支点之前,已经窒息了。协和谬误,倒是给了人们半途而废的理由,会不会有人担心它的滥觞会左右一些本该坚持的目标?的确有这个可能,但是应该相信人们足够理智,完全可以比较沉没成本、机会成本与未来收益的关系。看清了的,必定会坦然地走出协和谬误。 5. 蜈蚣博弈一场颠前倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是一个睿智的策略,因果相报,把握好因缘,自有好结果。它的另一个好处,就是使得未来的计划明晰化,是你不再徘徊。只可惜,很多时候,碌碌无为的我们并没有看透迷局的眼睛。我们黑色的眼睛只习惯于黑夜。蜈蚣博弈也有一个致命的悖论,仍旧是个人利益和集体利益的冲突,因为最后一次的背叛收益始终优于合作。可悲的是,这一次背叛将由于人性的理智,穿越时光隧道,回到原始的地点:人们将从

开始就拒绝合作。还是感谢我们这个不完美的世界吧,事实上人们很少这样做。当然合作到最后的也很少,这意味着,倒推法只在中间阶段突然发生了作用,只不过谁也不能预测,中间一步在哪里。在那里,我们只有冀望信任、道德、良知等等。 6. 分蛋糕博弈两个小孩怎么分蛋糕?经典的故事,经典的解答:一个分,一个选。现实多如此,权利的合理分配将有效促进公平与效率。经营权与所有权的分置的确使得经济更加活力。不过分蛋糕的进阶模型却强调了讨价还价的策略,分蛋糕不是一次性的,而是多回合的,而且出现成本:蛋糕在融化。时间称本的加入,将使得分配变得复杂化。双方如果不能及时达成交易,不仅集体的收益将减量,而且个体的收益也将减少。在此情况下,利用时间称本以及威胁、承诺将对其中一方极其有利。顾客可能迫于情势,必须尽快结束谈判,这时卖方却不慌不忙,故意拖延,顾客一方将不得不在价格上作出妥协。顾客一方当然也有策略,它的策略就是货比三家,要求承诺或威胁。这个前提是买方市场的存在。顾客还应当保护自己讨价还价的能力,这就是顾客有权投诉商家。7. 鹰鸽博弈这个博弈很多人等同于斗鸡博弈。不过,斗鸡是两个兼具侵略性的个体,鹰鸽却是两个不同群体的博弈,一个和平,一个侵略。在只有鸽子一个苞谷场里,突然加入的鹰将大大获益,并吸引同伴加入。但结

果不是鹰将鸽逐出苞谷场,而是一定比例共存,因为鹰群增加一只鹰的边际收益趋零时(鹰群发生内斗),均衡将到来。由此产生了ESS进化上的稳定策略,也就是说一旦均衡形成,偏离的运动会受到自然选择的打击。也就是鹰群饱满后,再试图加入的鹰将会被鹰群排挤。进化上的稳定均衡最大的好处莫过于保持稳定。但问题在于形成强势的路径依赖,也就是胜出的不一定是最好的。因为最好的会被当作出头鸟干掉,这是个体的失败,集团的胜利以及集体的止步不前。8. 脏脸博弈恍然大悟的博弈。三个人在屋子里,不许说话。美女进来说:你们当中至少一个人脸是脏的。三人环看,没有反应。美女又说:你们知道吗?三人再看,顿悟,脸都红了。为什么?因为美女后一句废话点破天机,三个人都知道脏脸的存在,而且推测知道对方也知道了脏脸的存在(因为另两人脸没红,说明他们看到脏脸了),而且知道对方知道自己已经想到上一步……循环开始,知识开始共同化,真相大白:三个人都是脏脸,所有人都脸红了。这就是共同知识的作用,它的作用显得有点可怕的强大。几乎是一招无影腿,杀人不见血。在台面上的博弈之前,私下的算计已经置对手于死地。不过,很可能对方也预料到这一点,早也想到这一点,同时杀来。终于,形成双死局面。当然,现实虽然存在类似现象,不过共同知识更大的作用在于减少交易成

本。因为某些规则人尽皆知,双方只要各自依之行事就可以了。信息均衡:很显然,信息的作用在博弈之中非常重要。将博弈论还原到现实,人们不再完全理性,信息存在不对称,博弈就需要在抢占信息高地上作出努力。信息不对称,是一个很大的障碍。信息的不对称会造成“逆向选择”和“道德风险”,前者事前,后者事后。信息不对称短期内对某一方会有利,但最终会破坏整个市场。于是有两个解决策略。信息传递:传达你的正面的信息的策略,也就是说吸引顾客走到你的柜台面前。它的要点是保持有效、减低成本。信息甄别:诱导对手暴露其私下拥有的真实信息。就是给顾客一个放大镜,保证顾客不会走到其他柜台去。这种策略显然更加有效,不过风险也更大:万一顾客用放大镜看出了了自己的瑕疵怎么办?

插播3——博傻理论在资本市场中(如股票、期货市场):人们之所以完全不管某个东西的真实价值而愿意花高价购买,是因为他们预期会有一个更大的笨蛋会花更高的价格从他们那儿把它买走。“博傻理论”所要揭示的就是投机行为背后的动机,投机行为的关键是判断“有没有比自己更大的笨蛋”,只要自己不是最大的笨蛋,那么自己就一定是赢家,只是赢多赢少的问题。如果再没有一个愿意出更高价格的更大笨蛋来做你的“下家”,那么你就成了最大的笨蛋。可以这样说,任何一个投机者信奉的无非是“最大

的笨蛋”理论。何谓博傻?博傻是指在高价位买进股票,等行情上涨到有利可图时迅速卖出,这种操作策略通常被市场称之为傻瓜赢傻瓜,所以只能在股市处于上升行情中适用。从理论上讲博傻也有其合理的一面,博傻策略是高价之上还有高价,低价之下还有低价,其游戏规则就像接力棒,只要不是接最后一棒都有利可图,做多者有利润可赚,做空者减少损失,只有接到最后一棒者倒霉。在艺术品市场中:预期会有人花更高的价格从你手中买走它博弈论中的笨蛋理论(Theory of Greater Fool):你之所以完全不管某件艺术品的真实价值,即使它一文不值,也愿意花高价买下,是因为你预期会有更大的笨蛋花更高的价格从你手中买走它。而投资成功的关键就在于能否准确判断究竟有没有比自己更大的笨蛋出现。只要你不是最大的笨蛋,就仅仅是赚多赚少的问题。如果再也找不到愿意出更高价格的更大笨蛋从你手中买走这件艺术品的话,那么,很显然你就是最大的笨蛋了。9. 以牙还牙是一个用于博弈论的重复囚徒困境(Reiterated Prisoner's Dilemma)非常有效的策略。也就是说,人家怎么对你,你也怎么对他。说得再准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。这一策略有两个步骤:① 第一个回合选择合作② 下一回合是否选合作要看上一回对方是否合作,若对方上一回背叛,此回合我亦

背叛;若对方上一回合作,此回合继续合作以牙还牙策略有四个特点:① 友善:以牙还牙者开始一定采取合作态度,不会背叛对方② 报复性:遭到对方背叛,以牙还牙者一定会还击作出报复③ 宽恕:当对方停止背叛,以牙还牙者会原谅对方,继续合作④ 不羡慕对手:以牙还牙者个人永远不会得到最大利益,整个策略以全体的最大利益为依归10. 手表定律

手表定律是指一个人有一只表时,可以知道现在是几点钟,而当他同时拥有两只表时却无法确定。两只表并不能告诉一个人更准确的时间,反而会让看表的人失去对准确时间的信心。你要做的就是选择其中较信赖的一只,尽力校准它,并以此作为你的标准,听从它的指引行事。记住尼采的话:“兄弟,如果你是幸运的,你只需有一种道德而不要贪多,这样,你过桥更容易些。” 如果每个人都“选择你所爱,爱你所选择”,无论成败都可以心安理得。然而,困扰很多人的是:他们被“两只表”弄得无所,心身交瘁,不知自己该信仰哪一个,还有人在环境、他人的压力下,违心选择了自己并不喜欢的道路,为此而郁郁终生,即使取得了受人瞩目的成就,也体会不到成功的快乐。

手表定理在企业经营管理方手表定律面给我们一种非常直观的启发,就是对同一个人或同一个组织的管理不能同时采用两种不同的方法,不能同时设置两个不同的目标。甚

至每一个人不能由两个人来同时指挥,否则将使这个企业或这个人无所适从。手表定理所指的另一层含义在于每个人都不能同时挑选两种不同的价值观,否则,你的行为将陷于混乱。

(完整版)博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、 决策主体是理性的,最大化自己的收益。 2、 完全理性是共同知识 3、 每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、 传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P ,I),其中P 为市场价格,I 为消费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

博弈论的基础知识与应用

博弈论的基础知识与应用(转) 1 基础知识 博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论(如同计算科学理论和许多其他的贡献一样)是由约翰.冯.诺伊曼(John von Neumann)创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦(Oskar Morgenstern)共同写成的《博弈论与经济行为》(The Theory of Games and Economic Behavior)。当然,摩根斯坦把新古典经济学的思想带入了合作中,但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻 由于诺伊曼的工作,在更广阔的人类行为互动的范围内,“博弈”成为了一个科学的隐喻。在人类的互动行为中,结局依赖于两个或更多的人们所采取的交互式的战略,这些人们具有相反的动机或者最好的组合动机(mixed motives)。在博弈论中常常讨论的问题包括:1)当结局依赖于其他人所选择的战略以及信息是完全的时候,“理性地”选择战略意味着什么? 2)在允许共同得益或者共同损失的“博弈”中,寻求合作以实现共同得益(或避免共同损失)是否“理性”?或者,采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失,这是否是“理性”的? 3)如果对2)的回答是“有时候是”,那么在什么样的环境下侵略是理性的,在什么样的情况下合作是理性的? 4)在特定情况下,正在持续的关系与单方退出这种关系是不同的吗? 5)在理性的自我主义者的行为互动中,合作的道德规则可以自然而然地出现吗? 6)在这些情况下,真正的人类行为与“理性”行为是否相符? 7)如果不符,在那些方面不符?相对于“理性”,人们更倾向于合作?或者更倾向于侵略?抑或二者皆是? 因而,博弈论研究的“博弈”包括: 破产 门口的野蛮人(Barbarians at the Gate) 网络战(Battle of the Networks) 货物出门,概不退换(Caveat Emptor) 征召(Conscription) 协调(Coordination) 逃避(Escape and Evasion) 青蛙呼叫配偶(Frogs Call for Mates) 鹰鸽博弈(Hawk versus Dove) Mutually Assured Destruction 多数决定原则(Majority Rule) Market Niche 共同防卫(Mutual Defense) 囚徒困境(Prisoner’s Dilemma) 补贴小商业Subsidized Small Business 公共地悲剧Tragedy of the Commons 最后通牒Ultimatum

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

关于定价的博弈论模型

CH13 关于定价的博弈论模型 分析寡头市场的最大困难在于策略问题。在此情形下,市场上仅有几家企业,每一家企业在做决策时,都必须在一定程度上考虑其它企业的行为。博弈论就是用以研究策略选择的一种主要的工具。 一、基本概念 在一些情况下,个人或企业必须作出策略性选择,并且最终的结果依赖于每一个行动者的选择,这种情况就可以看成是一个博弈。 1.博弈的三要素 任何一个博弈都必须具备三个要素: (1)博弈的参与者 参与人的具体身份无关紧要,在博弈中没有“好人”与“坏蛋”之分,我们只是简单地假设每个参与者在考虑到对手行为的前提下,做出最有利的策略性选择。 (2)策略 策略是博弈参与者的行动规则。 在非合作博弈中,参与者之间不能就策略选择达成一个有约束力的协议。 (3)支付(payoffs ) 支付是参与者的最终受益。支付包括了与博弈结果相关的所有方面,既包括显性的货币报酬,也包括隐性的参与者关于结果的心理感受。 2. 符号 两个参与者(A 和B )之间的博弈G 用下式表示 [,,(,),(,A B A B G S S U a b U a b 其中,A S 和B S 分别表示参与者A 和参与者B 的可选策略,(,)A U a b 和(,)B U a b 分别表示当参与者A 和B 分别选择策略a 和策略b 时,各自所得到的支付(,A B a S b S ∈∈)。 二、Nash 均衡 市场均衡:在均衡价格和产量下,买方和卖方都没有动力去改变自己的行为。

Nash 均衡:对于策略组合(**,a b ),如果给定其它参与者的策略,没有一个参与者会选择单方面偏离,那么这个策略组合就构成一个Nash 均衡。也就是说 ** * (,)(,)A A U a b U a b '≥ 对于所有A a S '∈ ** * (,)(,)B B U a b U a b '≥ 对于所有B b S '∈ 对纳什均衡的理解 设想所有参与者在博弈之前达成一个(没有约束力的)协议,规定每个参与人选择一个特定的战略。那么,给定其他参与人都遵守此协议,是否有人不愿意遵守此协议?如果没有参与人有积极性单方面背离此协议,我们说这个协议是可以自动实施的(self-enforcing ),这个协议就构成一个纳什均衡。否则,它就不是一个纳什均衡。 三、一个例子 两个厂商(A 和B )决定自己花多少钱用于做广告。每个厂商可以选择较高的预算(H )或较低的预算(L )。 1.博弈的扩展式表述 图13.1 2.博弈的策略式(规范式)表述 表13.1 3.占优策略和Nash 均衡 从表13.1可以看出,低预算(L )是厂商B 的占优策略,即不管厂商A 选择哪一种策略,L 都是厂商B 的最佳选择。由于该博弈的结构是公共知识,厂商A 也知道L 是厂商B 的占优策略,所以厂商A 将选择L 。因此,该博弈的均衡是(L ,L )。 请验证(L ,L )构成一个Nash 均衡,而其它三个策略组合都不是Nash 均衡。

从博弈论角度看古诺模型

从博弈论角度看古诺模 型 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

博弈论的观点看古诺模型 罗思蕴 (华中师范大学数学与应用数学系,武汉430079) 摘要:运用博弈论的研究方法,对古诺模型的几种变式进行分析,给出模型解法的代数表达式,并对结果进行适当的对比分析,最后总结出不同模型对结论的改变情况。 关键词:古诺模型纳什均衡完全信息不完全信息静态博弈动态博弈 古诺模型(Cournot model)是博弈论中最具有代表性的模型之一,也是是纳什均衡最早的版本。它是法国经济学家古诺(Augustin Cournot)在1938年出版的《财富理论的数学原理研究》一书中最先提出的。而古诺的定义比纳什的定义早了一百多年,足以体现博弈论这样一个学科是深深扎根于经济学的土壤中的。从经济学的角度,它的研究价值在于古诺模型是介于两种极端状况完全竞争和垄断之间。 在古诺生活的时代,大多数市场都只有少数的厂商经营,所以这个模型在当时是极具现实意义的。随着时间的推移,古诺模型也演变出了各种不同的版本。如果从博弈论的角度分析,有四种情况极具代表性:完全信息静态博弈的古诺模型、不完全信息静态博弈的古诺模型、完全且完美信息动态博弈的古诺模型、无限次重复博弈的古诺模型。 1 经典古诺模型 古诺模型最初的形态是来自于经济学的。在经济学中,寡头的概念是指那种在某一产业只有少数几个卖者的市场组织形式。古诺模型对寡头具有如下的基本假设。一,

假定一个产业只有两个寡头,每个寡头生产同质产品,并追求利润最大化。二,两个寡头之间进行的是产量的竞争而不是价格竞争,且产品的价格依赖于两者生产的产品总量。三,寡头之间无勾结行为。四,每个生产者都把对方的产出水平视为定值。五,边际成本为常数。 在经典的古诺模型中,每个企业具有相同的不变单位成本: 需求函数为: 第i个企业的利润为: 最优化的一阶条件为: 反应函数为: 解得纳什均衡为: 每个公司的利润为: 古诺模型是在假定寡头具有完全信息的基础上导出的。在这一均衡中,每个寡头都可以准确猜测对手的产量,从而选择自己的最大产出。 最重要的是,古诺均衡解在寡头无勾结的假定下求出的。如果考虑寡头之间相互勾结而达到均衡的情况,那么经过计算可以得到实际产出水平与实际价格上等于完全垄断条件下达到的产量与价格。更广泛的,考虑无勾结寡头市场、垄断市场、自由市场,可以得到:无论是产量还是价格,无勾结寡头市场都是处于中间的位置。也就是说,如果寡头市场不存在勾结的行为,其效率高于完全垄断,低于完全竞争。 2 博弈分类下的两种古诺模型 不完全信息静态博弈的古诺模型 完全信息静态博弈的古诺模型即经济学中最经典的形式,它假设了厂商相互完全

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

(完整版)博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、决策主体是理性的,最大化自己的收益。 2、完全理性是共同知识 3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息)等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博 弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则 为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信 息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P,I),其中P为市场价格,I为消

费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 2、 参与人的行动顺序,即每个参与 人在何时行动; 3、 序列结构:每个参与人行动时面 临的决策问题,包括参与人行动时可供选择的行动方案、所了解的信息; 4、 参与人的支付函数。 比较: 1、战略式博弈从本质上来讲是一种静态模型。 2、扩展式博弈从本质上来讲是一种动态模型。 {1,2,...,} n Γ={1,2,...,}n Γ=11 (,...,,...,) n i i n i s s s s ==∏

博弈论的基本概念

博弈论的基本概念 ?博弈论是研究两人或多人谋略和决策的理论。 ?博弈论思想古已有之,我国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论专著。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展,正式发展成一门学科则是在20世纪初。1928年冯·诺意曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。1944年,冯·诺意曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的的学科。 ?参与者:参与者是指一个博弈中的决策主体,通常又称为参与人或局中人。 参与人的目的是通过合理悬着自己的行动,以便取得最大化的收益。参与者可以是自然人,也可以是团体。 ?信息:信息是指参与者在博弈过程中能了解和观察到的知识。信息对参与者是至关重要,每一个参与者在每一次进行决策之前必须根据观察到的其他参与者的行动和了解到的有关情况作出自己的最佳选择。完全信息是指所有参与者各自选择的行动的不同组合所决定的收益对所有参与者来说是共同知识。

?策略:策略是参与者如何对其他参与者的行动作出反应的行动规则,它规定参与者在什么时候选择什么行动。通常用s i表示参与者i的一个特定策略,用S i表示参与者i的所有可选择的策略的集合(又成为而i的策略空间)。如果n个参与者没人选择一个策略,那么s=(s1,s2,…,s n)称为一个策略组合。 ?收益:收益是在一个特定的策略组合下参与者能得到的确定的效用。通常用u i表示参与者i的收益,它是策略组合的函数。 ?均衡:均衡是所有参与者的最优策略组合,记为s*。 几个经典的博弈实例 ?例一囚徒困境两个共同作案的犯罪嫌疑人被捕,并受到指控。除非至少一人认罪,否则警方无充分证据将他们按最论刑。警方把他们隔离审讯,并对他们说明不同行动所带来的后果。如果两人都采取沉默的抗拒态度,因警方证据不足,两人将均被判为轻度犯罪入狱一个月;如果双方都坦白,根据案情两人将被判入狱六个月;如果一个招认而另一个拒不坦白,招认者因由主动认罪立功的表现将立即释放,而另一人将被判入狱九个月。

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

博弈论的总结|博弈论总结

博弈论学习的个人总结刘艳丽 第一部分基本情况 视频来源耶鲁公开课《博弈论》1----5讲,人人影视 参考资料耶鲁校园网 《博弈论--战略分析入门》,美,罗杰A麦凯恩,原毅军译,机械工业出版社,2006,42元《策略博弈》,阿维纳什迪克西特,蒲勇健译,中国人民大学出版社,第二版,2009,65元班级工商,人力08级学生 课时8节 我的时间投入视频26个小时;书籍,25小时;上网时间,无法统计。 第二部分知识层面 一、The five lessons五个基本的结论 1、Don"t play a strictly dominated strategy

2、Rational choices can lead to bad outcomes 3、You can"t get what you want 4、Put yourself in other people"s shoes 5、Yale students are evil 二、Game 2: "pick a number."数字游戏 Without showing your neighbor what you"re doing, put in the box below a whole number between 1 and a 100 [whole number between 1 and 100--integer.] We will calculate the average number chosen in the class. The winner in this game is the person whose number is closest to two-thirds times the average in the class. 三、The Prisoners" Dilemmasome examples囚徒困境 A joint project Price competition

(完整word版)博弈论中的几个经典问题

几个博弈论中的经典问题 博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。 几个重要的概念 1、策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整的行动方案, 即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。 2、得失(payoffs):一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时 的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。 3、次序(orders):各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策 选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。 4、博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。 在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。 5、纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况, 当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a,那么局中人A 的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。 经典的博弈问题 1、“囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。

博弈论培训心得

博弈论培训心得 -------李佳航 经过两次对博弈论的培训本人感触很深,也看了许多关于博弈的案例也从案例从学习了很多关系学习生活为人方面的博弈。 学习后现在简单总结一下: 1、博弈论中有很多的模型,其实记住模型并不是最重要的东西,掌握将问题变成博弈格局图以及进行优势策略标注法,找到纳什均衡更加重要。世界上的事情千变万化,仅仅靠这几个模型是无法全部解释的,而且模型与模型之间,仅仅变换几个数字,则发生变化。 2、博弈论可以将社会问题变成一个数学模型来计算推理,因此我们运用此模型时,需要相对准确地核定博弈各方的支付大小,解决问题的过程中,可设法改变参数让博弈对自己更加有利。 3、基本博弈模型的作用在于解决问题时更加容易去套,而不需要计算即知道博弈的结果将是什么,因此对于分析问题是有益的。有了模型在,对于一些谈判,容易让人站在博弈论的高度去分析它,这往往让人对谈判更加具有控制力。 4、对于较为简单的事件,完全不需要学习博弈论即能找到问题的答案,我们现实生活中的都自然而然的达到了博弈的均衡结果。 本周培训主要是讲的卡尼曼的前景理论和损失规避。 前景理论: 1、“二鸟在林,不如一鸟在手”,在确定的收益和“赌一把”之间,多数人会选择确定的好处。所谓“见好就收,落袋为安。称之为“确定效应”。 2、在确定的损失和“赌一把”之间,做一个抉择,多数人会选择“赌一把”。称之为“反射效应”。 3、白捡的100元所带来的快乐,难以抵消丢失100元所带来的痛苦。称之为“损失规避”。 4、很多人都买过彩票,虽然赢钱可能微乎其微,你的钱99.99%的可能支持福利事业和体育事业了,可还是有人心存侥幸搏小概率事件。称之为“迷恋小概率事件”。 5、多数人对得失的判断往往根据参照点决定,举例来说,在“其他人一年挣6万元你年收入7万元”和“其他人年收入为9万元你一年收入8万”的选择题中,大部分人会选择前者。称之为“参照依赖”。 损失规避: 如何理解“损失规避”?用一句话打比方,就是“白捡的100元所带来的快乐,难以抵消丢失100元所带来的痛苦”。 前景理论最重要也是最有用的发现之一是:当我们做有关收益和有关损失的决策时表现出的不对称性。对此,就连传统经济学的坚定捍卫者保罗·萨缪尔森,也不得不承认:“增加100元收入所带来的效用,小于失去100元所带来的效用。” 这其实是前景理论的第3个原理,即“损失规避”(lossaversion):

博弈模型

有趣味的博弈论模型 按语: 本文已经发表在“百科知识”2009年6月下半月总第413期第14-15页;在今年2月下半月总第405期第11-13页上发表了“网络科学三大里程碑”;2005年11月上半月总第326期第21-22页发表了“网络科学的三大发现”。令我意外的是去年在网上偶然发现“共检索到 10 条读者推荐文章”(请看最后附录),这篇科普文章名列首位,我们还有一篇文章名列第七。如果读者有兴趣可以去看看,或等我有时间找出来。我觉得,把新兴科学应用通俗易懂的语言写出来,有利于科学知识普及。这也应该是一个科学工作者的责任。 在自然界和人类社会经济等领域中广泛存在合作与竞争,而能够反映这种既激烈竞争又需要合作的一门学科就是博弈论(Game Theory),也称对策论,它是模拟和分析理性的个体在利益冲突环境下相互作用的形式、决策及其均衡理论,研究个体之间行为的相互影响和相互作用规律,它可以描述现实生活中参与者面对有限资源的合作与竞争行为。令人惊奇的是,有三次诺贝尔获奖者是博弈论的杰出科学家,他们是1985年获得诺贝尔奖的公共选择学派的领导者布坎南,1994年经济学诺贝尔奖颁发给美国普林斯顿大学的纳什博士、塞尔屯、哈桑尼3位博弈论专家,1995年获奖的理性主义学派的领袖卢卡斯。博弈论在经济学、政治学、管理学、社会学、军事学、生物学等诸多学科领域具有广泛的实际背景和应用价值。进入20世纪末,随着复杂网络科学的一些新的发现,博弈论也成为网络时代人们的一种思维方式、竞争与合作的模式。 博弈论对人有一个最基本假定:人是理性的,人在具体策略选择的目的全是使自己的利益最大化。博弈论就是研究理性的人之间如何进行策略选择的,因此博弈论也称为对策论。博弈论就凭这么一条最简单的假定可以展开广泛的研究,并获得了丰富多彩的结果,利用博弈论可以解读人类的社会行动或集体行动,更易理解人类社会的复杂性和特殊性。为了刻画个体间利益的冲突对整个系统的影响,人们已经提出和研究了许多博弈模型,比较著名的有三个模型:囚徒困境、“雪堆”博弈和“少数者”博弈,下面笔者通过对这三个模型进行简单而通俗的介绍,让大家了解博弈论及其应用概况。 “囚徒困境”模型 囚徒困境作为一个经典的博弈模型受到广泛关注。这个博弈模型假设两个小偷合伙作案时被捕,分别关在不同的屋子里,如果双方都拒绝承认同伴的罪行,则由于证据不足两人都会被轻判(收益为);为此,警方设计了一个机制:如果一方出卖同伴,而另一方保持忠 诚,则背叛者将无罪释放(收益为T ) ;坚持忠诚的一方将被重判(收益为);如果双方都背叛了对方,则双方都会被判刑(收益为R S P ) 。这里假设上述收益参数满足下面的条件:。对每个参与者来说,如果对手坚持忠诚,则他也选择忠诚得到的收益T R P S >>>R 小于他选择背叛得到的收益T ;如果对手选择背叛,则他选择忠诚得到的收益仍小于他选择背叛得到的收益。 S P 可见,无论对手采取哪种策略,自己的最佳策略就是背叛,双方都选择背叛称为囚徒困境的唯一“纳什均衡”(纳什因其提出的“非合作完全信息博弈的纳什均衡”概念而荣获了1994年的诺贝尔获得经济学奖);同时选择背叛所取得的平均收益要低于两个人同时选择合作取得的平均收益。在这种情况下,理性参与者面临着两难的困境。 自然界中广泛存在的合作现象——从单细胞生物的协同工作到人类的无私奉献的行为

博弈论中的几个经典问题精编版

博弈论中的几个经典问 题 集团企业公司编码:(LL3698-KKI1269-TM2483-LUI12689-ITT289-

几个博弈论中的经典问题博弈论(GameTheory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。 几个重要的概念 1、策略(strategies):一局博弈中,每个局中人都有选择实际可行的 完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博 弈”。 2、得失(payoffs):一局博弈结局时的结果称为得失。每个局中人在一 局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。

3、次序(orders):各博弈方的决策有先后之分,且一个博弈方要作 不止一次的决策选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。 4、博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关 量处于稳定值。在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。 5、纳什均衡(NashEquilibrium):在一策略组合中,所有的参与者面临 这样一种情况,当其他人不改变策略时,他此时的策略是最好的。 也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中,当局中人A采取其最优策略a*,局中人B 也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a,那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。 经典的博弈问题 1、“囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论理论经典讲解

博弈论经典案例 冰晶淩(杂物区)2010-04-09 22:31:28 阅读258 评论0 字号:大中小订阅 引用 光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家:纳什,泽尔腾和海萨尼.而博弈论可以划分为合作博弈和非合作博弈.那三位博弈论专家的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈.合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果有,就是合作博弈;反之,就是非合作博弈.非合作博弈强调的是个人理性,个人最优决策,其结果可能是有效率的,也可能是无效率的.而合作博弈强调的是团体理性.下面是我收集的张维迎教授的几个有关博弈论的经典 案例. <案例一:囚徒困境> 囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯.警察告诉他们:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(或许因证据不足);如果其中一人坦白一人抵赖,坦白的放出去,不坦白的判刑10年(这有点'坦白从宽,抗拒从严'的味道).这里,每个囚徒都有两种战略:坦白或抵赖.表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中第一个数字是第一个囚徒的支付,第二个数字为第二个囚徒的支付.战略形式又称标准形式,是博弈的两种表述形式之一,它特别方便于静态博弈分析. 在这个例子里,纳什均衡就是(坦白,坦白):给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白.事实上,这里,(坦白,坦白)不仅是纳什均衡,而且是一个占优战略均衡.就是说,不论对方如何选择,个人的最优选择是坦白.比如说,如果B不坦白,A坦白的话被放出来,不坦白的话判1年,所以坦白比不坦白好;如果B坦白,A坦白的话判8年,不坦白的话判10年,所以,坦白还是比不坦白好。 这样,坦白就是A占优战略;同样,坦白也是B的占优战略.结果是,每个人都选择坦白,各判刑8年. <案例二:智猪博弈> 这个例子讲的是,猪圈里有两头猪,一大一小.猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮需要付2个单位的成本.若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。表中第一格表示两猪同时按按钮,因而同时走到猪食槽,大猪吃7个,小猪吃3个,扣除2个单位的 成本,支付水平分别为5和1.其他情形可以类推. 在这个例子中,什么是纳什均衡?首先我们注意到,无论大猪选择"按"还是"等待",小猪的最优选择均是"等待".比如说给定大猪按,小猪也按时得到1个单位,等待则得到4个单位;给定大猪等待,小猪按得到-1单位,等待则得0单位,所以,"等待"是小猪的占优战略.给定小猪总是选择"等待",大猪的最优选择只能是"按".所以,纳什均衡就是:大猪按,小猪等待,各得4个单位.多劳者不多得! <案例三:性别战>

相关主题
文本预览
相关文档 最新文档