当前位置:文档之家› 襄樊之战及三国格局演变—以博弈论视角分析

襄樊之战及三国格局演变—以博弈论视角分析

襄樊之战及三国格局演变—以博弈论视角分析
襄樊之战及三国格局演变—以博弈论视角分析

【学术】襄樊之战及三国格局演变——以博

弈论视角分析

襄樊之战是东汉末年的一次关键战役,确定了三国鼎立的格局,魏蜀吴基于自身利益的最大化,不断进行博弈,外交政策屡次更迭。本文以博弈论的视角探讨襄樊之战及战后各国政治策略的合理性。

一、赤壁之战后魏蜀吴势力变迁

赤壁之战为三国鼎立奠定了基础,一心想统一全国的曹操惨败而归,有生之年再也没有发动大规模南征,仍为实力最强的军阀;孙权经历大战洗礼,巩固了江东霸主的地位;而一直寄人篱下的刘备时来运转,获得荆州多数州郡,随即占领益州全境,夺取汉中,实力扩张之迅速,令曹操、孙权倍感威胁,三国形势及政治策略悄然发生转变。

1、荆州战略的意义

荆州是军事上的必争之地,关乎三政权生存发展。荆州毗邻曹操统治的核心区域许昌,是进入中原的咽喉。曹操北征柳城时,刘备曾劝刘表偷袭许都,刘表不听,等曹操率军回归后,刘表深感后悔。汉晋春秋曰:太祖之始征柳城,刘备说表使袭许,表不从。及太祖还,谓备曰:“不用君言,故失此大会也。”荆州扼守汉江与峡口,位居东吴政权上游,如一把利剑悬在其上,严重威胁其安全,孙吴三代视之

为争霸的根本,孙坚甚至死于与刘表的交战中。“夫荆楚与国邻接,水流顺北,外带江汉,内阻山陵,有金城之固,沃野万里,士民殷富,若据而有之,此帝王之资也。”同时,荆州是刘备政权北伐的基地,诸葛亮在《隆中对》中提出两路北伐的设想,“天下有变,则命一上将将荆州之军以向宛、洛,将军身率益州之众出於秦川。”因此,荆州的战略意义对魏蜀吴三家都非常重要,是争夺的焦点。

襄樊之战发生前,荆州七郡为三家瓜分。曹操控制北面的南阳郡,湘水以东的长沙、桂阳、江夏为孙权控制,以西的南郡、零陵、武陵归刘备,关羽镇守,面临双线作战。

2、孙刘战略形势发生转变

赤壁之战后,孙权占据了江夏、南郡,刘备占据四郡(长沙、桂阳、零陵、武陵)。南郡频临曹操控制的南阳郡,将刘备与曹操实际控制地区割裂。鲁肃劝孙权把南郡“借”给刘备,“后备诣京见权,求都督荆州,惟肃劝权借之,共拒曹公。”一是壮大刘备实力,使之充当东吴抵御曹操的前哨;二是为了维系孙刘联盟。可是,刘备势力的迅速膨胀远远超出了孙权君臣的预料,夺取益州后,刘备独霸西南,版图大有超越东吴之势,成为孙吴政权的最大威胁,孙刘联盟随着实力的不均衡增长而产生裂痕,双方矛盾与日俱增。占领益州后,孙权曾讨要南郡,刘备不许,“须得凉州,当以荆州相与。”孙权派兵强夺

数郡,刘备率军来夺,战斗一触即发,恰逢曹操平定汉中,益州受到威胁,刘备做出让步,割长沙、桂阳给孙权,算是偿还了南郡。在这次博弈中,刘备、孙权都做出了最优策略,孙权获得2郡,版图有所扩展;刘备表面上维持了孙刘联盟,确保单线作战,随后攻占汉中,双方实现了利益最大化。

217年,鲁肃之死成为孙刘联盟破裂的导火索。鲁肃生前认为曹操势力强大竭力维系联盟,“尝劝孙权以曹操尚存,宜且抚辑关羽”。接替他的吕蒙则是主战派,主张武力夺取荆州消除刘备对东吴政权的威胁,“不如取羽,全据长江,形势益张。”孙权认同吕蒙的观点,为偷袭荆州做准备。

二、襄樊之战中的三方博弈

219年,刘备大败曹操,夺取汉中,版图进入顶峰,曹操进入守势。同年,镇守荆州的关羽北伐襄阳、樊城,先胜后败,前期水淹七军,威震华夏;随后曹操、孙权形成联盟,关羽两线作战,兵败身死,丧失荆州,蜀汉政权元气大伤。

1、关羽出兵的合理性

本文运用完全信息博弈理论对三方策略合理性进行分析,假定三方策略皆为理性选择,都能根据对手的策略制定下一步计划,保证利益的最大化。

关羽拥有镇守、出兵两种策略选择。不主动出兵可以固守三郡,出兵可能陷入双线作战,面临孙权、曹操夹击,风险性大,但是他选择了出兵。

曹操面临抵抗与放弃两种选择。放弃襄樊意味着中原门户大开,曹魏核心统治区域不保,曹操选择了坚守襄樊。虽然被水淹七军,“所督七军皆没。禁降羽,羽又斩将军庞德”,但是城池始终没有失守,成功拖住了关羽主力,为孙权偷袭创造了条件。

孙权有三种选择,攻曹、攻刘、中立。攻打曹操是最差策略,孙权在多次合肥之战中皆惨败而归,攻打曹操也不会使版图扩张,只能减少关羽的军事压力;

中立不出兵是中策,两不相帮虽然没有损失,也错失奇袭荆州的良机;所以孙权选择了结束孙刘联盟,“袭其空虚”,偷袭刘备控制的荆州另外三郡。

我们根据襄樊之战的最终结果逆向推测,探究各方策略合理性,实现最佳收益的一方既策略合理,损失惨重、得不偿失的一方则是策略不合理。孙权奇袭荆州得手,将刘备版图遏制在峡口上游,消除了来自上游的威胁,实现了预期目标,偷袭荆州是最优策略。曹操坚守襄樊,度过了统治危机,瓦解了孙刘联盟,严重削弱了蜀汉的实力,实现了利益最大化,坚守是上策。关羽兵败人亡,荆州沦陷,蜀汉失去了东面出兵的基地,“隆中对”两路北伐的设想彻底化为泡影,上升势头彻底被遏制,只能固守一隅。荆州丢失使蜀国在三国战略上陷入被动,出兵襄樊是最差策略。

2.孙权、曹操之间的博弈

水淹七军后,关羽声势达到了顶峰,成为曹操、孙权共同的敌人,两位死敌结成了同盟,达成共识,曹操在正面战场拖住关羽,孙权背

后偷袭。三国志的记载自相矛盾,关羽传记载,曹操“遣人劝权蹑其后,许割江南以封权”,曹操寻求与孙权联盟,孙权掌握主动权;董昭传记载如下孙权遣使辞以“遣兵西上,欲掩取羽。江陵、公安累重,羽失二城,必自奔走,樊军之围,不救自解。乞密不漏,令羽有备,”曹操占据主导权。总而言之,面对声势滔天的关羽,曹操、孙权决定夹攻关羽。为了减少损失,曹操还是暗中把孙权偷袭信息透露给关羽,引导其与孙权主力激战。“内露之。羽闻权上,若还自护,围则速解,便获其利。可使两贼相对衔持,坐待其弊。”东吴早已为奇袭荆州做了充足准备,逢此良机,不费吹灰之力夺取三郡。

乍看之下,曹操、孙权的收益与付出不成正比,曹操消耗了大量

人力、财力,给孙权做嫁衣,让其占据长江以南的荆州全境。但在宏观战略上,曹操却成为最大的受益者。

第一,直接削弱了主要敌对势力刘备政权的实力。刘备丧失了东路北伐的基地,只能程序化的出兵陇右,诸葛亮、姜维先后十几次北伐,规模一次比一次小,威胁越来越小,从大规模出征逐渐变为边境骚扰的局部战争。襄樊之战后,刘备政权再也没有对曹魏造成实质性威胁。

第二,巩固了中原地区的统治。孙权占据荆州大部分后,为曹操阻断了刘备对中原地区的威胁。东吴固守荆州尚可,缺乏北伐的能力,曹操中原地区的军事压力大为减轻。原因如下:一是东吴擅长水战,陆战能力奇差,自守尚可,不具备北伐的能力。二是东吴军事组织依靠世家大族,顾、陆、朱、张四大家族控制着政权与军权,世袭领兵,盛行私兵。“吴名宗大族,皆有部曲,阻兵仗势,足以建命”。吴军战斗力与士族利益息息相关,当外敌来犯或是攻打山越等少数民族时,东吴将领为了维护家族利益、增加私人财产,积极迎战,战斗力极强;反之,北伐远离故土,家族获益不大,故消极迎战,北伐屡次失败。

第三,孙刘联盟解体。孙权的偷袭令刘备愤恨不已,“汉主耻关羽之没,将击孙权。”随即发动了夷陵之战,蜀汉政权再次惨败,东吴亦有所损失,各国此消彼长,曹魏一家独大。

表象上,孙权获利多,曹操实为最大赢家,奠定了三国强弱格局,蜀吴都彻底丧失了统一全国能力,曹魏一统天下其实只是时间问题。

三、夷陵之战后三国博弈

关羽兵败后,刘备起兵伐吴,刚即位的曹丕持观望态度,孙权迎来赤壁之战后政权面临最严峻的挑战。东吴大都督陆逊在夷陵之战后及时撤军,抵御魏国南下。随着刘备的去世,孙刘再次形成同盟,统一抗曹。

1、夷陵之战的三方选择

夷陵之战是三国期间蜀吴两国唯一一次正面交锋,依然用完全信息博弈法探讨三方军事策略选择的合理性。第一阶段,刘备倾国之力攻打吴国。第二阶段,孙权抵抗,夷陵之战击败刘备,有追击和撤军两种选择。追击会导致后方空虚,给魏国可乘之机,因而撤军。第三阶段,蜀吴激战正酣之际,魏国未能及时出兵,蜀国溃败之际,东吴及时回防,魏军此时南下错失良机。

在吴蜀两弱国交战中,不论战果如何,魏国总会成为最大受益者,魏的选择决定各国的成败。“天下三分,中(魏)国十有其八。吴、蜀各保一州,阻山依水,有急相救,此小国之利也。今还自相攻,天

亡之也,宜大兴师,径渡江袭之。蜀攻其外,我袭其内,吴之亡不出旬月矣。吴亡则蜀孤,若割吴之半以与蜀,蜀固不能久存!”可是,曹丕却接受孙权的请降,在道义上陷入了被动,“人称臣降而伐之,疑天下欲来者心,”偷袭东吴属于背信弃义之举。若是攻打蜀国,“蜀远吴近,又闻中国伐之,便还军,不能止也。”因此,魏国的最优策略是与蜀国瓜分吴国,再灭蜀。曹丕在迟疑中错过了时机,当其下决心攻吴国时,对手已经做好准备,故南下没有取得战果。

吴国由于魏国的迟疑获得生机,夷陵之战后放弃追击刘备,为抵御魏军南下做准备。“逊与朱然、骆统以为曹丕大合士众,外讬助国讨备,内实有奸心,谨决计辄还。无几,魏军果出,三方受敌也。”吴国既巩固了政权,也为重修孙刘联盟做了准备,实为最优策略。

刘备攻打吴国风险性较大,也是扭转蜀汉政权战略被动的必然之举。只有重获荆州,刘备才能实现两路夹击、北定中原的目标,只是未能如愿罢了。

总之,东吴做出了符合自身利益最大化的决策,由于曹丕的迟疑,魏国丧失了提前统一中国的机遇,而刘备东征本身就是一场冒险的赌博,赢了重新获得战略主动,输了继续维持襄樊之战以后的格局罢了。

2、战后三国新格局

夷陵之战使刘备又愧又气,病死于白帝城,他建立的蜀汉政权因两次大战人才凋零,摇摇欲坠;魏国虽然南征失败,整体实力没有受到根本性的削弱,吴国虽然取得两次大战的胜利,依旧损兵折将。面对强大的魏国,吴蜀只能联盟,抵御强敌,三足鼎立之势维持了40年,直到蜀国的灭亡才打破均衡。蜀有山川之险、吴国有长江天险,魏虽然无险可守,但是幅员辽阔,整体实力强大,任何国家都没有相互兼并的可能,分三种情况。

第一,弱国攻打强国,诸葛亮、姜维、孙权、诸葛恪、孙峻发动北伐,无一成功,蜀吴与魏国的实力悬殊过大。

第二,两国夹击魏国。234年,诸葛亮最后一次北出祁山,孙权亲征合肥,魏明帝与司马懿两路防守,“但坚壁拒守以挫其锋,彼进不得志,退无与战,久停则粮尽,虏略无所获,则必走。”两路北伐并没取得实际效果,只能撤军而回。

第三,魏国主动攻打一国。上文提到,蜀有山川之险,吴有长江天险,两国虽然实力不及魏国,尚可自保,魏国南征并没占得任何便宜。

综上所述,在三国实力相互牵制的情况下,出兵对任何国家都非最优策略,既无法开疆拓土,反而损耗国力,发展国力方为上策。也

有读者会问,难道三国都发展内政会永远呈现出鼎足之势吗,显然不会,各国发展不均衡,魏国人口、城市众多,经济发达,在没有重大变乱发生的前提下,统一全国只是时间问题。无论出兵或不出兵,魏国一统天下是大势所趋。吴、蜀两国的灭亡有相似之处,内乱不断,长期穷兵黩武,民困国贫,强大的魏(晋)国在囤积军马、粮草后,迅速取得胜利。三国在内耗中最终统一,蜀吴最终被强大的魏(晋)所兼并,符合历史发展规律,两国无论是北伐或是自守,灭国是最终命运。

因此,襄樊之战的结束奠定了三国格局以及最终走势,此战扼杀了蜀汉两路北伐改变强弱格局的唯一希望,三国被桎梏在原有版图上难以突破,只能在拉锯战中取实现统一。从汉末黄巾起义至西晋统一全国近百年时间里,通常认为官渡之战、赤壁之战、夷陵之战是这一时期的三大关键战役,个人认为襄樊之战三国最终格局及未来走势,从蜀吴偏安一隅无力扩张之日起,注定了其灭国的命运。

演化博弈论发展

演化博弈论发展 理论部分应用部分 解(均衡)概念适应机制经济学社会学…制度学生物学 ESS NSS … REE 无理性(自然选择)部分理性(学习) (在不同情形下定义及性质不同) 复制动态路径学习模仿信念学习 国外部分应用研究: [1]Basu(1995)研究了公民规范和演化之间的关系 [2]Friedman & Fung(1996)以日本和美国的企业组织模式为背景,用演化博弈论分 析了在无贸易和有贸易的情况下企业组织模式的演化 [3]Bester & Guth(1998)用演化博弈论研究了人类在经济活动中利他行为的存在性 及其演化稳定性 [4]Dufwenbery & Guth(1999)在双寡头垄断竞争的情形下比较了间接演化法和策略代 理方法 [5]Guttman(2000)用演化博弈论研究了互惠主体在有机会主义存在的群体中是否能 够存活的问题 [6]青木昌彦(2001)从认知的角度提出了一个关于演化博弈论的主观博弈模型 [7]Haruvy & Prasad (2001)运用演化博弈论研究了在具有网络外部性的条件下免费软 件的最优价格和质量 [8]Kosfeld(2002)建立了德国超市购物时间反常的演化博弈模型 [9]Nyborg & Rege (2003)用演化博弈理论研究了顾忌别人感受的吸烟行为的社会规范 的形成 [10]Jasmina & John (2004)研究了不同的学习规则在公共物品博弈中仿制人类行为时 谁表现的更好的问题

[11]Daniel,Arce & Todd(2005)研究了四种不同类型的囚徒困境博弈,指出要达成合作所需的演化和信息要求 [12]Josef Hofbauera & William H. Sandholmb(2007)讨论了具有随机扰动得益的演化博弈问题并将其应用于种群博弈问题的研究 国内相关研究曾涉及的问题: 土地制度变迁的演化博弈分析;电子商务中企业行为分析;企业会计信息披露博弈;金融体制改革风险研究;农民工权益维护分析;信息安全问题研究;营销合作系统中的竞争与合作;知识链组织间知识共享的研究;经济组织多样性研究;“以市场换技术”的演化博弈分析;新型农村资金合作体系的构建分析;零售业业态创新研究;区域经济协调发展研究(改革&保守);水污染控制系统;电力市场竞价分析;….. 博弈情形的具体分类: 有限群体/无限群体;连续时间/离散时间;同质/异质;双人/多人;对称/非对称;有限记忆/无限记忆;各种不同学习方式;各种噪音;… 部分演化博弈论研究者的主要贡献: 国外近五年来相关文献研究内容:

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

演化博弈论简介

演化博弈论简介 说明:这篇东西是我上周六在浙大思想讨论班上做演讲的讲稿和主要内容。讲完以后,叶航老师提出了很多宝贵的意见。我也正好乘这机会把没有讲或者没有讲清楚的东西梳理了一下。整理过程中还发现了了很多问题,请大家批评。 丁丁1994年有一篇重要的文章,介绍发展经济学的最新进展。他比较了诺斯(North)的制度变迁理论,罗默(Romer),卢卡斯(Lucas)等的内生增长理论,哈耶克的“自发秩序论”,重复博弈和演化博弈论等理论,这些理论的共同特点是“动态”(dynamic)。传统新古典经济学是静态的,重视均衡点,但很难进行历史的研究。正因为如此,这些新理论才显示出强大 的生命力,获得广泛运用。 我们这里讲演化博弈(evolutionary game theory),它显然有2条理论来源,一是演化理论,一是博弈论。 先来看演化理论,我首先要纠正一个常见的误解,即演化均衡是帕累托最优的,或者说最大化整个社群的福利。我们要注意到,演化均衡不等于一般均衡,等会我会给出一些严格的定义。从福利经济学第一定理可以得知,一般均衡必然是帕累托最优的,即所谓的看不见的手的含义,但是演化均衡并没有类似的定理。我们用常识来分析,如果演化均衡最大化社群的福利,那么什么是社群的福利呢?是个体的总数最大吗,是个体的多样性最多吗,抑或是个体预期存活概率最大?即使我们能为适应性(fitness)找出合适的测量方法,我们也无法保证演化是朝向个体适应性最大的方向演化。我这里用演化,避免用演进,可以减少误解。 演化理论中有两条最重要的机制。一个叫自然选择,即不是每种生物都有相同的概率在下一期存活。在这个世界上,有些生物个体(或者人)特别幸运,他们能活下去,但还有些个体就倒霉了,他们会被淘汰。我们今天都活着,可见我们的祖先都还是幸运的,他们有后代继承了他们的基因。我特别要强调自然选择,对于我们来说是被选择(be selected),我们能决定我们的行为和策略,但不能决定我们是否被选择,那是上帝的事情。严复说物竞天择,就是这个意思。 另一种机制叫突变机制(mutant),这保证了种群的变化。如果没有突变,那么这个世界上存活下来的物种就会越来越少,最后只剩下一种。对于突变机制,我也要强调它是没有方向性的,可能会提高个体的适应性,但更有可能降低个体的适应性。突变同样是上帝的选择,微观个体无能为力。 接下来,我们就可以回顾演化经济学的思想史了。我在幻灯片里给出了一长串人的名字,他们都可以看作是具有演化思想的经济学家,都是演化经济学的先驱。斯密,马克思,门格尔,马歇尔,凡勃仑,熊彼特,直到哈耶克。我尤其要强调雄彼特的贡献,他研究经济发展和经济周期,提出了著名的“创新”思想。这带有明显的动态的特征,并影响了随后的尼尔森和温特。 安德森把熊彼特以后,尼尔森-温特以前这段时间(1930-1970)比作黑暗时代(当然这仅指演化经济学而言,对于新古典经济学无疑是黄金时代呢),这段时间很少有人关心动态的演化的经济学理论。(阿尔奇安也许是个例外) 从70年代初开始,尼尔森和温特提出了一系列演化经济学模型。同时,梅纳德.史密斯在1973年提出了著名的演化稳定策略,奠定了演化经济学的基础。从此,演化经济学可以算真正诞生了。 尼尔森自称是熊彼特的忠实信徒,而温特是达尔文进化论的信徒,他们的演化理论非常鲜明地具有这些特征。计算机能够很好地模拟生态学上物种数量的演化,因而也被广泛地用于经济模型的演化模拟。尼尔森-温特的多数模型都很容易被改编成计算机模型,用现实数据进

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

演化博弈论小结

演化博弈论和学习行为的小结 1.RD 模型 ()[()()]()s s x u x u x F s =-= 该模型的来源由Van Damme(1991)的基因复制动态过程的非代际交叠模型和Binmore(1992), Samue(1997)的基因复制动态过程的代际交叠模型分别得出。 2.ESS 的概念 定义:①(,(1))(,(1))u x x y u y x y εεεε-+>-+ ②(1)(,)(,)(1)(,)(,)u x x u x y u y x u y y εεεε-+>-+ ③(,)(,)u x x u x y >或者如果(,)(,)u x x u x y =那么有 EGT 其他引申出的均衡、定理等 ESS 概念 学习模型 模仿 信念学习 路径学习 RD 模型

(,)(,)u x y u y y > PS:NSS 就是在ESS 的定义中将大于号变为大于等于号。 3.其他引申出的一些均衡、均衡之间的关系以及一些定理 3.1 ①EE : 是演化动态过程的任一渐进稳定不动点。其判定方法可以如下: ()0F s =;()/0dF s ds <。 ②ES : (对称二人博弈中)如果x *是X 的子集,且满足条件: a 、x *中每个元素都是一个NSS b 、x X *∈,(,)(,)u x x u y x =且(,)(,)u x y u y y =,则有y X *∈。 ③REE 对称策略(x,x )是REE 充分必要条件是存在某个 ε∈(0,1),使如果x x '≠且 (0,)εε∈,有((1)x B R x x εε ''?+- ④EES x X '∈是EES 的充分必要条件是, 它是最小的非空子集使得:

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论经典案例《智猪博弈》

在经济学中,在经济学中,智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略?答案是:小猪将选择搭 便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。 原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。 小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之 间的距离。 如果改变一下核心指标,猪圈里还会出现同样的小猪躺着 大猪跑”的景象吗?试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小 猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡

献食物,所以谁也不会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然 是失败的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小 猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的 共产主义”社会,所以竞争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效 果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费 宀 完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最 大。 原版的智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规 则的设计者是不愿看见有人搭便车的,政府如此,公 司的老板也是如此。而能否完全杜绝搭便车”现象,就要看游戏 规则的核心指标设置是否合适了。

演化博弈论

演化博弈论 演化博弈论(evolutionary stable strategy)整合了理性经济学与演化生物学的思想,不再将人模型化为超级理性的博弈方,认为人类通常是通过试错的方法达到博弈均衡的,与生物演化具有共性,所选择的均衡是达到均衡的均衡过程的函数,因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。在理论应符合现实意义上,该理论对于生物学以及各种社会科学尤其是经济学,均大有用场。 演化博弈理论最早源于Fisher,Hamilton,Tfive~等遗传生态学家对动物和植物的冲突与合作行为的博弈分析,他们研究发现动植物演化结果在多数情况下都可以在不依赖任何理性假设的前提下用博弈论方法来解释。但直到Smith and Price(1973)在他们发表的创造性论文中首次提出演化稳定策略(evolutionary stable strategy)概念以后,才标志着演化博弈理论的正式诞生。生态学家Taylor and Jonker(1978)在考察生态演化现象时首次提出了演化博弈理论的基本动态概念——模仿者动态(replicator dy—namic),这是演化博弈理论的又一次突破性发展。模仿者动态与演化稳定策略(RD&ESS)一起构成了演化博弈理论最核心的一对基本概念,它们分别表征演化博弈的稳定状态和向这种稳定状态的动态收敛过程,ESS概念的拓展和动态化构成了演化博弈论发展的主要内容。 编辑本段主要应用领域 演化证券学:演化证券学是运用生物进化原理系统阐释股市运行机理的新兴交叉学科,是证券投资研究的一个具有生命力和丰富内涵的新领域。与现代金融学的“理性人”、“有效市场”相关假设不同,演化证券学重视对“生物本能”和“竞争与适应”的研究,强调人性和市场环境在股市演化中的重要地位,是揭示股市生存法则最有潜力的前沿科学。其开山之作《股市真面目》颠覆了股市运行机理的传

博弈论案例分析

博弈论案例分析 一、经济学中的“智猪博弈” (Pigs’payoffs) 故事背景:猪圈里有一头大猪和一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略,答案是:小猪将选择“搭便车”策略,也就 是舒舒服服地等在食槽边; 而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在,因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗,试试看。改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。对于游戏规则的设计者来说,这个规则的成相当高(每次提供双份的食物) ;而且因为竞争不强烈,想让猪们去多踩踏板的

博弈论三大经典案例

经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: ?若对方沉默、背叛会让我获释,所以会选择背叛。 ?若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 由囚徒困境可以写出类似的员工困境: 一名经理,数名员工; 前提,经理比较苛刻; 如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作 如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作 如果所有人都不听从经理吩咐,则经理下岗 但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

博弈论理论经典讲解

博弈论经典案例 冰晶淩(杂物区)2010-04-09 22:31:28 阅读258 评论0 字号:大中小订阅 引用 光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家:纳什,泽尔腾和海萨尼.而博弈论可以划分为合作博弈和非合作博弈.那三位博弈论专家的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈.合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果有,就是合作博弈;反之,就是非合作博弈.非合作博弈强调的是个人理性,个人最优决策,其结果可能是有效率的,也可能是无效率的.而合作博弈强调的是团体理性.下面是我收集的张维迎教授的几个有关博弈论的经典 案例. <案例一:囚徒困境> 囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯.警察告诉他们:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(或许因证据不足);如果其中一人坦白一人抵赖,坦白的放出去,不坦白的判刑10年(这有点'坦白从宽,抗拒从严'的味道).这里,每个囚徒都有两种战略:坦白或抵赖.表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中第一个数字是第一个囚徒的支付,第二个数字为第二个囚徒的支付.战略形式又称标准形式,是博弈的两种表述形式之一,它特别方便于静态博弈分析. 在这个例子里,纳什均衡就是(坦白,坦白):给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白.事实上,这里,(坦白,坦白)不仅是纳什均衡,而且是一个占优战略均衡.就是说,不论对方如何选择,个人的最优选择是坦白.比如说,如果B不坦白,A坦白的话被放出来,不坦白的话判1年,所以坦白比不坦白好;如果B坦白,A坦白的话判8年,不坦白的话判10年,所以,坦白还是比不坦白好。 这样,坦白就是A占优战略;同样,坦白也是B的占优战略.结果是,每个人都选择坦白,各判刑8年. <案例二:智猪博弈> 这个例子讲的是,猪圈里有两头猪,一大一小.猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮需要付2个单位的成本.若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。表中第一格表示两猪同时按按钮,因而同时走到猪食槽,大猪吃7个,小猪吃3个,扣除2个单位的 成本,支付水平分别为5和1.其他情形可以类推. 在这个例子中,什么是纳什均衡?首先我们注意到,无论大猪选择"按"还是"等待",小猪的最优选择均是"等待".比如说给定大猪按,小猪也按时得到1个单位,等待则得到4个单位;给定大猪等待,小猪按得到-1单位,等待则得0单位,所以,"等待"是小猪的占优战略.给定小猪总是选择"等待",大猪的最优选择只能是"按".所以,纳什均衡就是:大猪按,小猪等待,各得4个单位.多劳者不多得! <案例三:性别战>

博弈论经典案例-文档

博弈论 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判6年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 简而言之就是: 甲沉默,乙沉默 --> 二人同服刑1年 甲坦白,乙坦白 --> 二人同服刑6年 甲坦白,乙沉默 --> 甲即时获释;乙服刑10年 甲沉默,乙坦白 --> 甲服刑10年;乙即时获释 “囚徒困境”反应了个人理性和集体理性的矛盾。不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判六年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑六年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。 海盗分赃 有五个海盗,劫掠了100公斤黄金,需要分赃。办法是抓阄,盗亦有道。 五个纸团里写着1-5五个数字,按数字顺序抓阄,抓到“1”的人,可以先提出一个分配方案,如果他的方案被一半以上的人同意,就照他的方案分金子,否则,第一个人就要被杀掉。余下的人也照此办理。 我的问题是:如果你是第一个人,你会提出怎样的分配方案,才能让自己利益最大化? (答案:第一个人提出自己独拿100公斤黄金) 这个例子告诉我们,想问题,确实需要方法论,靠直觉是不可以的,直觉在很多情况下是错误的,必须依靠方法,依靠逻辑的力量。 红黑博弈 这是一个关于输与赢之间的博弈游戏,游戏规则是这样的:所有参加培训的新人分为几个小组,其中两组作为对手。每组选出队长作为团队的领导者和谈判官。在游戏的进程中,每一组选择向对手亮出什么样颜色的牌,如果两组同时亮出了红牌,那么两组将同时被扣掉3分;如果其中一组选择红牌,而另一组选择黑牌,那么选择红牌的一组将得3分,而选择黑牌的小组将得0分;双方同时选择黑牌,将同时得到1分。

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例——“海盗分金”问题 5个海盗抢得100枚金币,他们按抽签的顺序依次提方案:首先由1号提出分配方案,然后5人表决,超过半数同意方案才被通过,否则他将被扔入大海喂鲨鱼,依此类推。 “海盗分金”其实是一个高度简化和抽象的模型,体现了博弈的思想。在“海盗分金”模型中,任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么,并用最小的代价获取最大收益,拉拢“挑战者”分配方案中最不得意的人们。 假设前提 假定“每个海盗都是绝顶聪明且很理智”,那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化?” 推理过程 从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。所以,4号惟有支持3号才能保命。 3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。 不过,2号推知3号的方案,就会提出(98,0,1,1)的方案,即放弃3号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。这样,2号将拿走98枚金币。 同样,2号的方案也会被1号所洞悉,1号并将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97,0,1,2,0)或(97,0,1,0,2)。分析 1号看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还收益最大。这不正是全球化过程中先进国家的先发优势吗?而5号,看起来最安全,没有死亡的威胁,甚至还能坐收渔人之利,却因不得不看别人脸色行事而只能分得一小杯羹。 不过,模型任意改变一个假设条件,最终结果都不一样。而现实世界远比模型复杂。 首先,现实中肯定不会是人人都“绝对理性”。回到“海盗分金”的模型中,只要3号、4号或5号中有一个人偏离了绝对聪明的假设,海盗1号无论怎么分都可能会被扔到海里去了。所以,1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住,否则先分者倒霉。 如果某人偏好看同伙被扔进海里喂鲨鱼。果真如此,1号自以为得意的方案岂不成了自掘坟墓! 再就是俗话所说的“人心隔肚皮”。由于信息不对称,谎言和虚假承诺就大有用武之地,而阴谋也会像杂草般疯长,并借机获益。如果2号对3、4、5

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展 05-06-13 10:57 发表于:《没有范的世界》分类:未分类 博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年; 如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。 囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。 在经济学方面的实例: 一.电信价格竞争 根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。 正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。这时候,A该怎么做?不妨假定: A降价而B维持,则A获利15,B损失5,整体获利10; A维持且B也维持,则A获利5,B获利10,整体获利15;

进化博弈论读书心得

进化博弈论读书报告 汪波 1973年,梅拉德·史密斯和普瑞斯将博弈论的思想引入到生物演化的分析中,二人提出了进化稳定策略(ESS ),随着1978年, Taylor 和Jonker 发现了进化稳定策略和复制动力学之间的关系,标志着进化博弈理论的诞生,因为与复制动力学之间的关系,进化稳定策略也因此成为进化博弈理论最经典的概念。1982年,梅拉德·史密斯出版了《演化与博弈论》,该书揭示动物群体的行为变化的动力学机制,也因此书他被称为进化博弈论之父,1995年,Weibull 著作了《Evolutionary Game Theory 》,2009年初,Sandholm 出版了《Population Game and Evolutionary Dynamics 》专著,这篇读书报告是在看了这三本著作的很少的一部分内容之下,理解其中一些浅显的内容后完成的。 一、进化稳定策略最初的模型 进化博弈理论是将博弈论引入到生物学背景下产生的,当生物的特定表现型的适应度依赖于群体中的频率分布时,进化博弈论就是从这个角度来思考生物演化的问题的一种方法,古典博弈中,参与者根据自利的原则表现出理性行为,但在生物进化的背景下是不合适的,由此,理性原则被群体的动态性和稳定性取代,而自利原则则被达尔文的适应度所取代。在一些重要的假设下,将会得到博弈的一个新形式解:进化稳定策略。它是这样一个策略,如果整个群体的每个成员都采取这个策略,那么在自然选择的作用下,不存在一个具有突变特征的策略能够侵犯这个种群。 最初的简化的模型由梅拉德·史密斯和普瑞斯给出,他和普瑞斯也给出了进化稳定策略的数学式的描述定义,这一模型的本质特征是假设该群体有无限大的规模,繁衍以无性生殖的方式进行,竞争只在两个不存在任何差异的对手间展开即是成对的竞争。生物学中价值是指两个动物为了争夺资源而增加的或者减少的达尔文适应度。故我们用适应度作为最后个体的收益的衡量,假想在这个无限的种群中,有两个策略I 、J ,每一个成员都采取这两个策略之一,且策略的选择是随机的,在有竞争前个体的初始适应度为0w ,再假设整个群体中选择I 的概率为p ,()w I 、()w J 分别表示选择相应策略带来的适应度,而(,)E I J 表示个体选择策略I 而对手选择J 时的收益,其他(,)E I I 等表示类同的意义。 若每一个个体都参与到竞争当中,则有 0()=+(1-p)(,)(,)w I w E I I pE I J + (1-1) 0()=+(1-p)(,)(,)w J w E J I pE J J + (1-2) 稳定的策略具有下列性质:整个种群中几乎所有的个体都采取了这个策略,且这些个体的 适应度必将高于竞争对手或者可能出现的突变异种的适应度,否则竞争对手或者产生的突变 异种会侵害整个种群,以致种群的削弱或者毁灭等,这时此策略便不可能是稳定的策略。若 I 是进化稳定策略,则()()w I w J >,且1p =,所以当I J ≠,有 (,)(,)E I I E J I > (1-3) 当(,)(,)E I I E J I =时有 (,)(,)E I J E J J > (1-4) 满足上述条件(1-3)、(1-4)的策略就称为进化稳定策略,而上述的两个条件1-3、1-4也被认为是判别ESS 的标准条件。 上述的策略是在纯策略情形下考虑的,当策略I 是从一个可能策略集合中随机的选择而

博弈论经典案例智猪博弈

在经济学中,“在经济学中,“智猪博弈”(Pigs’payoffs)(Boxed Pigs)是 一个着名博弈论例子。 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于 踏板和食槽之间。 原因何在因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧, 所以只好亲力亲为了。 “小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。 如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑” 的景象吗试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将

也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不 会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败 的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞 争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。 原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。

相关主题
文本预览
相关文档 最新文档