当前位置:文档之家› 完全信息静态博弈及其纳什均衡解

完全信息静态博弈及其纳什均衡解

完全信息静态博弈及其纳什均衡解
完全信息静态博弈及其纳什均衡解

1

第四章 完全信息动态博弈及其均衡解

1.完全且完美信息动态博弈

完全信息博弈指的是参与者的收益是共同知识。

完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。

而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。

例4.1.我们来考虑这样一个动态博弈: 假定甲在开采一个价值4万元的金矿时需要1万元资金,乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)——乙得到2万元的金子,同时收回自己的1万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。如果乙借钱给甲的话,那么博弈进入第二个阶段。在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1万元为投资成本。〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。参见图1。

借 不借

分 不分 (0,1)

乙 乙 (2,3) 打官司 不打官司

(1,2) (5,0)

图1. 借钱博弈的博弈树

2.逆向归纳法与子博弈纳什均衡解

逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。

在动态博弈中逆向归纳法能够进行的前提:参与人是理性的——任何一步参与人都选择

甲乙

2

最优策略;理性是公共知识——参与人选择最优策略是其他人所能够预测的。

在完全且完美信息动态博弈中逆向归纳法能够求得子博弈精炼纳什解。

借 ╳ 不借

分 ╳ 不分 (0,1)

乙 乙 (2,3) 打官司 ╳ 不打官司

(1,2) (5,0)

图2. 借钱博弈的逆向归纳法的求解过程

在例4.1中这样一个动态博弈,用逆向归纳法,我们就可以推知,如果甲做出“不分”的选择,那么乙一定会选择“打”官司。因为对于乙而言,打官司的收益为1,不打官司的收益是0,所以,作为一个理性人,乙一定会选择打官司。而如果甲知道在“不分”的情况下乙必定选择“打官司”,那么甲就一定会选择“分”一半的金子给乙,因为对甲而言,“分”的收益是2,“不分”的收益是0。所以,甲的承诺是可置信的。而对于乙来说,他会选择“借”,因为“借”的收益是3,“不借”的收益是1。因此,该博弈最终的子博弈精炼纳什均衡点就是(2,3)。

例4.2.斯坦克尔伯模型。

两个厂商垄断某个市场,其中厂商1处于支配地位,它先行动,然后从属企业2后行动。假定市场需求函数为p=a-Q 。厂商的单位产品的成本c 。这些是企业1和2的公共知识。问:厂商1和2是如何决定的它们的生产产量的。

假定厂商1和2所决定的产量分别为q 1,q 2。

我们用逆向归纳法来求解。企业2后行动,对于企业1的任何行动,即任意给定的产量,企业2确定产量以使利润最大,即使L 2=p ×q 2-c ×q 2最大。假定企业1决定的产量为q 1,因为:L 2=p ×q 2-c ×q 2=(a-q 1-q 2)×q 2-c ×q 2

由dL 2/dq 2=0:

q 1-2q 2=a-c (1)

甲乙

即:q2=(q1-a+c)/2

企业1先行动,它能够预知企业2的最优化行为,即在它的最优产量q1给定的情况下,

企业将按照q2=(q1-a+c)/2进行决策。这样,企业的利润函数为:L1=p×q1-c×q1=(a-q1-q2)×q1-c×q1=(a-q1-q2)×q1-c×q1而q2是q1如下的函数:

q2=(q1-a+c)/2

由dL1/dq1=0:

q1*=(a-c)/2

于是,

q2*=(a-c)/4

因此,((a-c)/2,(a-c)/4)为逆向归纳法解。该解被称为子博弈精炼纳什均衡解。

此时总产量为q2=3(a-c)/4,价格为(a+3c)/4

企业1的利润L1=(a-c)2/8

企业2的利润为L2=(a-c)2/16

请读者与古诺均衡解进行比较。

3.动态博弈中的威胁与承诺

为了实现最大利益,使博弈在博弈参与人所希望的策略组合上实现,在他人作出行动之前的每一步参与人都会向对方可能做出某种威胁或承诺,希望对方做出或者不做出某个行动。而通过逆向归纳法我们能够区别动态博弈中威胁或承诺是否可信。

例4.1:甲向乙承诺:借钱给我,我赚钱后将分给你。甲的承诺是可信的。

乙威胁甲:若你不分给我,我将起诉你。乙的威胁也是可信的。

之所以发生威胁与承诺的言语现象,是因为轮到他人行动的时候,参与人只能通过言语而影响他人的行动从而实现自己希望的结果。甲之所以承诺,是因为他希望乙能够“借钱”给他。同样,而乙之所以进行威胁,是因为他借钱之后,希望甲能够连本带利将钱给乙。

当然,在博弈论中因为参与人是理性人,威胁与承诺是否可置信能够被确认。这样任何威胁与承诺都是没有意义的:若是不可置信,它是公共知识,又何必做这样的威胁或承诺;若是可置信的,因为该博弈是完全且完美信息博弈,做出这样的威胁与承诺也是无益的。

但是在实际生活中,做出这样的威胁与承诺是有意义的,因为,人们不一定认为对方是完全理性人,而认为会发生某种“偏离”:或者会受言语的影响,而“忘记”应该按照计算的行动进行,或者相信了对方的承诺或威胁而改变了原来的行动选择;等等。

4.理性的困境:蜈蚣博弈与最后通牒博弈

3

逆向归纳法是从动态博弈的最后一步往回推,以求解动态博弈的均衡结果。它是完全归纳推理,其推理是演绎的,即结论是必然的。逆向归纳法在逻辑上是严密的,然而它存在着“困境”。

逆向归纳法的逻辑严密性毋庸置疑。然而,当我们分析一个特殊的博弈——蜈蚣博弈——的时候,一个违背直觉的悖论出现了,这个悖论被认为是对逆向归纳法的挑战。

蜈蚣博弈(centipede game)为罗森塔尔(R.Rosenthal)在1981年提出,我们这里采取的是奥曼(Aumann,1998)论文中的形式1。

安娜鲍伯安娜鲍伯安娜鲍伯2n+2

2n+1

2 1 4

3 2n 2 n-1

1 4 3 6 2n-1

2 n+2

图 8-2 蜈蚣博弈

这个博弈有两个参与人,安娜和鲍伯。该博弈从安娜开始,她有两个策略“合作”和“不合作”,若她选择“不合作”,博弈即刻终止,安娜得到2,鲍伯得到1;若她选择“合作”,那么博弈继续进行,由鲍伯开始选择。鲍伯同样有“合作”和“不合作”两种策略。在这第二轮选择中,若鲍伯选择“不合作”,博弈终止,选择“合作”,博弈继续进行……在这个博弈最后一轮,即第2n轮,若鲍伯选择“不合作”,他所得2n+1,安娜得2n-1;若他选择“合作”,鲍伯得2n+1安娜得2n+2。

因这个博弈树形状像蜈蚣,因而被称为蜈蚣博弈。

在这里我们假定了,总的步数2n是一个双方都知道的有限数。严格地说,我们假定了,该博弈的总步数2n为双方的公共知识(common knowledge)。

我们用逆向归纳法来分析这个博弈的结果:在最后一步,鲍伯在“合作”与“不合作”中进行选择时,因为“不合作”带给他的好处是2n+2,而“合作”的好处是2n+1,选择“不合作”的好处大于“合作”的好处,鲍伯应当选择“不合作”。在倒数第二步,安娜这样想,选择“不合作”的好处是2n;而选择“合作”,在下一步鲍伯肯定会选择“不合作”,此时她的好处将是2n-1,因此在这倒数第二步安娜的理性选择“不合作”……通过这样的分析,在这个博弈的第一步安娜的理性的选择是“不合作”。

这样,这个博弈的结果是,在博弈的第一步安娜选择“不合作”,博弈即终止。这一点构成蜈蚣博弈的完美纳什均衡点。在这个点上,安娜得到支付2,而鲍伯得到支付1。

这样的结果是反直觉的:最大化自己支付的理性人其所得是不合理的。从这个博弈树来看,若他们均选择“合作”,双方的支付将会很高。但根据逆向归纳法,这个结果达不到。

在这个博弈中,每个人考虑到未来他人不合作,自己先采取不合作。因在最后一步理性的参与人必定采取不合作,每个人的考虑是有逻辑基础的。于是,一个违反直觉的糟糕结果便出现了。这便是动态不合作。

对于蜈蚣博弈的这个逆向归纳法解,博弈论专家中存在赞成和反对两种观点。著名的博弈论专家奥曼(R.J. Aumann)认为,如果“策略人是理性的”是双方的公共知识,逆向归纳法的解必然要达到。

英国伦敦经济学院的宾谟(K.Binmore)教授则认为,在蜈蚣博弈的开始存在混合策略的可能,即在博弈的开始安娜有采取“合作”的非零概率,而轮到鲍伯,他同样有采取“合

1Aumann, R.J. Note on the centipede Game[J]. Games and Economic Behavior,1998, vol

23,pp97-105.

4

作”策略的非零概率。因此,在宾谟看来,该博弈终止于第一步不是必然的。2本人认为,在最后一步鲍伯合作的概率必然为0,逆推到第一步,安娜的合作概率也必然为0。这样,宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解是行不通的。逆向归纳法悖论依然存在。

最后通牒博弈。参与人1和2分一笔钱,如100元,1提出分配方案,2表决。如果参与人1所提出的分配方案得到参与人2的同意,就按照该分配方案分配;如果参与者2拒绝,双方都将一无所获。

逆向归纳法解:

6.完全非完美信息动态博弈

博弈的扩展式表达

囚徒1

合作不合作

囚徒2 囚徒2

合作不合作合作不合作

(3,3)(4,1)(1,4)(2,2)

6.子博弈纳什均衡解与进化稳定策略

在博弈论、行为生态学及演化心理学中,演化稳定策略ESS是一个这样的策略,一旦它被给定环境中的参与人群体采用,它不能被任何其他可能的策略所侵略。一个ESS是纳什均衡的精炼。它是演化稳定的纳什均衡:一旦它在一个种群中得到确认,自然选择本身足以放防止变异的可能策略侵略成功。

演化稳定策略在博弈论证是一个中心概念,它由John Maynard Smith和George R. Price在1973首先给出,并被用于人类学、演化心理学、哲学和政治科学之中。

进化稳定策略依赖于侵略的概念。一个X-策略参与人的群体被Y策略的参与人所造访。如果新的参与人使用Y策略比X-策略的参与人得分更高,他被认为是侵略的。假定参与人能够选额和变换策略,这会导致原来的种群开始走向Y

策略。

一个策略X是进化稳定的,如果没有策略Y能够侵略到它。也就是是,采取新策略的物种来到X-策略的种群平均来说将不会获得比X策略的参与人更好的收益。Maynard Smith

2Binmore,K.A note on Backward Induction. Games and Economic

Behavior,1996,vol 17,pp138-146.

5

与Price[1]给出了ESS策略的条件:一个策略S是ESS: for all T≠S,或者E(S,S) > E(T,S),或者E(S,S) = E(T,S) 且E(S,T) > E(T,T)。

纳什均衡与ESS的区别。在囚徒困境中是同一的。在“伤害邻居”的博弈中,(A,A)(B,B)都是纳什均衡,但只有是一个ESS(强纳什均衡)。A则不是,因此B能够中性地侵略到A策略家的群体之中并占优势(predominate),因为B对抗B得分高于A对抗B对抗B的得分。

在鹰鸽博弈中混合策略为一个ESS。

7.现实的动态博弈解读

谢林的核武器理论。

黑格尔:存在就是合理的。

拓展均衡解的扩展

1.纳什均衡作为博弈预测的局限

博弈论所研究的模型是现实的抽象。博弈论专家研究博弈期目的是为了预测,预测博弈参与人的策略选择及博弈结果。然而,当一个博弈包含不止一个纳什均衡时,我们往往无法对之预测。

为了解决这个问题,博弈论专家坐了许多尝试。

2.谢林的聚点均衡

焦点效应。在一个具有多重均的博弈中,某些事情使得一个博弈的参与人将注意力集中到一个均衡,使他们预期并实现这个均衡,这便是谢林所说的焦点效应。

一个焦点均衡(focal equilibrium)就是一个具有某种使它显著地区别于所有其他均衡之性质的均衡。

焦点又称为谢林点(Schelling point),这一概念最早由诺贝尔奖获得者谢林于1960年在《冲突的策略》一书中提出:“人们如果得知别人也正试图做出和自己同样的行为时,

6

常常能使他们的意图或期望达成一致。大多数情况——或许每一种情况都能为此种博弈参与人的合作提供一些线索,为每个人的期望提供‘聚点’(focal point),其中每个人的期望是别人期望他期望被期望去做的事。”3也就是说,聚点是在协调博弈中博弈参与人通过相互期望所做出的共同选择形成的那个均衡点,它显示出了博弈中人们在没有沟通的情况下的共同选择倾向。

芬斯特(Maier Fenster,1995)等人给出了一个明确的定义:给定一个问题和可能解的集合,参与人必须从解集合中选择一个,聚点就是参与人所选的最突出的那个解。4谢林曾经有过这样的实验:

“请选择下列数字中的一个,如果你们的选择相同,你们都将获胜。”

7 100 13 261 99 555

实验结果是在41人中37人选择了前三项,7略微领先于100,13位于第三位。5可以看出,在这三项中,选择人数按数字排列的位置呈递降趋势。在谢林的实验中,聚点在选择第一个数上形成,协调博弈的结果与被选择对象呈现的次序有关。“如果问到在所有正数当中哪个是最明显独特的,或者什么样的选择规则将导致明确结果,人们将会受到这种事实的强烈影响:即最普遍的选择是‘第一个’或‘最小’的那个正数。”6

谢林进行的其他一系列实验也验证了这种“位置优先性”:在“正面”和“反面”二者之间,聚点在选择“正面”形成;在十六个方块列成的矩阵之间,聚点在选择第一个方块时形成。7从谢林的实验可以看出,在无差异的选择对象之间,被试往往倾向于选择位置处于第一个的对象。这似乎暗示着,人们可以利用被选择对象呈现的次序来控制选择的结果。如果这是唯一的结论,那么这在具体的运用中,会出现许多令人沮丧的结果。比如,在选举时,人们可以利用排名的先后来进行某种暗示。然而,令人欣喜的是,我们的实验结果与之完全不同,从附表3可以看出,聚点偏离了第一个数的位置,在选择位于第三的数字上形成。聚点发生了变迁!在这里,聚点的形成与位置无关,也就是说,博弈的结果不再与数字呈现的次序有关。

对于协调博弈的结果,谢林认为很大程度上取决于双方的直觉而不是逻辑思维推理,或许依靠来自双方对相似事物之间的类比经验、先例、偶然巧遇、对称性、审美观或几何原理、诡辩推理,以及当事人的自身条件和对彼此情况的了解。8巴卡拉克(Bacharach), 萨登(Sugden)和詹森(Janssen)等人也持有类似的观点,他们认为,在很多情况下,聚点来自于直觉。9然而,从我们的实验结果看来,人们的选择并没有排除逻辑思维推理。

3. 焦点均衡的一个实验

在群体生活中,许多行动可以通过约定(convention)来达到一致。当一个群体中的每个

3T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 57.

4M. Fenster, S. Kraus and J. S. Rosenschein, Coordination without Communication: Experimental Validation of Focal Point Techniques . AAAI. 1995, pp:102.

5T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 56.

6T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 94.

7T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 56.

8T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 57.

9A. Casaius, Focal Points in Framed Strategic Forms . Games and Economic Behavior, Volume 32, Issue 2, 2000, pp: 263.

7

人遵守某些原则,从而使其他群体中的每个人也遵守这些原则时,就出现了约定。10在协调博弈中,如果有约定,某些行动规则便成为公共知识,协调博弈的难题就迎刃而解了。这里所指的公共知识(common knowledge),是指对于一个命题,某个群体中的每个人都知道它,每个人知道每个人知道它,……等等。

然而在许多协调博弈中,没有约定作为相应的博弈参与人进行行动选择的依据,当然沟通也是不可能的,在这样的情况下,人们又是怎样行动的呢?为了探寻在没有约定的情况下现实生活中人们是如何协调行动的,我们进行了一个关于协调博弈的实验:请从‘2、7、8、9’这4个数字中选出一个数字,若你所选的数字为在座的同学中最多的人所选的,那么你将是获胜者,请解释你的选择。

该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一,即该实验是在考试中进行的(本题略带欺骗的性质,因为学生预先不知道该题做任何选择都给满分)。实验总人数:167人。在实验之前,学生没有听说过该类测试,在实验中学生之间没有任何交流。

图1

实验数据如附表1所示,有51.50%的人“不约而同”地选择了“8”。按照题意,选“8”的人为胜出者。再进一步考察选“8”的理由可以看出,选“8”的86个答案中,有69个是根据公共知识进行推理得出的。他们的理由是:“8”在中国人心中有特殊意义,人们对8代表“发”了解最为广泛,买车牌号码、电话号码等都喜欢带8的,寓发财发达之意、是国人喜欢的吉利数字、幸运发财之数,这是公共知识。

这个实验是一个多数人参与的一次性协调博弈,在实验中,学生没有对哪个数字有过约定,每个数字被选择的几率“应当”是均等的。我们可以将该博弈设想为一个参与者与其他参与者之间的两方博弈(参与人A与参与人B之间的博弈),因此它可以还原为如附表2所示的数字选择协调博弈。

这个博弈中有四个纳什均衡点,即[2,2]、[7,7]、[8,8]、[9,9]。对局双方只有共同合作才能取得双赢,参与人在哪个点上合作都可以得到收益1,如果合作失败则收益为0。这时,如果有约定,博弈的结果当然就显而易见了。但是,显然人们没有关于数字选择的约定。

10G. Harman, Convention. The Nature of Morality, New York: Oxford University Press, 1977, pp: 103.

8

3.奥曼的相关均衡

有通讯的博弈。

一个相关均衡是博弈中所有参与人在调节人的帮助下能够自动执行的相关策略,而调解人向每个参与人做出不具约束力的秘密推荐。

这里,推荐的概率是公共知识;该均衡是自我强制的或自我约束力的。

两个纯策略均衡点(5,1)(1,5)和一个混合策略均衡,此时的支付为(2.5,2.5)。

相关均衡:

9

第二章 完全信息静态博弈的基本理论

第二章完全信息静态博弈的基本理论 0.完全信息(complete information)博弈与不完全信息(incomplete information)博弈 完全信息博弈是指每个参与人的支付函数都是该博弈的公共知识;只要有一个参与人的支付函数不是该博弈的公共知识,就意味着该博弈是不完全信息博弈。 特别提示:如果该博弈是完全信息博弈,这意味着参与人不仅知道自己是什么类型的人,也知道对手们是什么类型的人。 一.求解方法之一:剔除严格劣策略 1.占优策略与劣策略。 严格占优策略与严格劣策略:不管对手采取什么策略,如果参与人采取a策略所获得的支付严格大于b策略,则称a策略是相对于b策略的严格占优策略(strictly dominating strategy),b策略是相对于a策略的严格劣策略(strictly dominated strategy)。 弱占优策略与弱劣策略:不管对手采取什么策略,如果参与人采取a策略所获得的支付不低于b策略,且至少有一种情况下的支付会严格大于b策略,则称b策略是相对于a策略的弱劣策略(weakly dominated strategy );a策略则是相对于b策略的弱占优策略(weakly dominating strategy)。 占优策略就是我们平时所说的上策,劣策略就是我们平时所说的下策。 特别提示:本文对占优策略的理解与其他教材不同,本文可以将以上述方式定义出来的占优策略称为局部占优策略;如果不管对手采取什么策略,如果参与人采取a策略所获得的支付严格大于其他所有策略,则称a策略是全局严格占优策略。类似地,可以定义局部劣策略与全局劣策略。 理性的人在博弈时绝对不会选择严格劣策略。通过剔除严格劣策略所获得的博弈解就称之为占优策略均衡。 2.案例 案例1 乙 甲坦白 不坦白

1.完全信息静态博弈实验指南(2020)

西方经济学实验一:完全信息静态博弈实验指南 一、博弈论概述 博弈论(game theory)又被称为“对策论”、“赛局论”。博弈论是研究相互依赖、相互影响的决策主体的理性决策行为及这些决策的均衡结果的理论。 博弈主要包括局中人、行动、信息、战略、支付(效用)、结果和均衡等要素,其中,局中人、战略和支付是描述一个博弈所需的最少要素。局中人、行动和结果统称为“博弈规则”。 (1)依据博弈参与者相互作用时能否达成一个具有约束力的协议,可将博弈分为合作博弈和非合作博弈。如果有具有约束力的协议,就是合作博弈;如果没有,就是非合作博弈。 (2)依据博弈局中人行为的时间序列性,可将博弈分为静态博弈、动态博弈两类。静态博弈是指在博弈中,局中人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。 (3)按照局中人对其他局中人的了解程度,可将博弈分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每位局中人对其他局中人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果局中人对其他局中人的特征、策略空间及收益函数信息了解得不够准确,或者不是对所有局中人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。 目前经济学家们所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博理论复杂,在理论上的成熟度远远不如非合作博弈论。非合作博弈可分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈,其对应的均衡概念和理论研究的代表人物如表1所示。 (1)纳什均衡 纳什均衡(Nash equilibrium)的核心思想是:博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。 纳什均衡有一个很重要的特点,是可以自我实施的,即信念和选择之间的一致性。就是说,基于信念的选择是合理的,同时支持这个选择的信念也是正确的。如果所有人都认为这个结果会出现,这个结果就真的会出现。 如果局中人事前达成一个协议,在不存在外部强制的情况下,每个人都有积极性遵守这个协议,这个协议就是纳

完全信息静态博弈及其纳什均衡解

1 第四章 完全信息动态博弈及其均衡解 1.完全且完美信息动态博弈 完全信息博弈指的是参与者的收益是共同知识。 完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。 而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。 例4.1.我们来考虑这样一个动态博弈: 假定甲在开采一个价值4万元的金矿时需要1万元资金,乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)——乙得到2万元的金子,同时收回自己的1万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。如果乙借钱给甲的话,那么博弈进入第二个阶段。在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1万元为投资成本。〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。参见图1。 乙 借 不借 甲 分 不分 (0,1) 乙 乙 (2,3) 打官司 不打官司 (1,2) (5,0) 图1. 借钱博弈的博弈树 2.逆向归纳法与子博弈纳什均衡解 逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。 在动态博弈中逆向归纳法能够进行的前提:参与人是理性的——任何一步参与人都选择 甲乙

不完全信息下的静态博弈习题

非完全信息静态博弈习题 1、考虑下面的Cournot 双头垄断模型。市场的反需求函数为Q a Q p -=)(,其中21q q Q +=为市场总产量,两个企业的总成本都为()i i i cq q c =,但需求却不确定:分别以θ的概率为高(H a a =),以θ-1的概率为低(L a a =),此外,信息也是非对称的:企业1知道需求是高还是低,但企业2不知道,所有这些都是共同知识,两企业同时进行决策。 要求:假定H a 、L a 、θ和c 的取值范围使得所有均衡产出都是正数,试问此博弈的贝叶斯纳什均衡是什么? 解: 在市场需求为高时,企业1的最优战略为: ()H H H q c q q a Max 121?--- 由一阶条件可以推出2 21c q a q H H --= (1) 在市场需求为低时,企业1的最优战略为: ()L L L q c q q a Max 121?--- 由一阶条件可以推出2 21c q a q L L --= (2) 企业2的最优战略为 ()()(){}2212211q c q q a q c q q a Max L L H H ----+---θθ 由一阶条件可得: ()()()211*2c q a q a q L L H H ---+=-θθ (3) 方程(1)、(2)和(3)联立可得: ()()()()6 21311*1c q a q a q L L H H H ------=θθ ()6 22*1c a a q H L L --+=θθ ()31*2c a a q H L -+-=θθ 由此可知,企业1的战略()*1*1,L H q q 和企业2的战略* 2q 构成贝叶斯纳什均衡。

几个博弈案例

几个博弈案例 1.囚徒困境 警察抓住了两个罪犯,但是警察局却缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和面临的选择:如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判一年徒刑;如果两人中有一人坦白认罪,则坦白者立即释放而另一人将重判10年徒刑;果两人都坦白认罪,则他们将被各判8年监禁。问:两个罪犯会如何选择(坦白还是抵赖)? 2.智猪博弈(占优战略均衡) 猪圈里有一头大猪,一头小猪。猪圈的边缘有个踏板,每踩一下,远离踏板的投食口就会落下少量食物。如果是小猪踩踏板,大猪会在小猪跑到食槽之前吃光所有食物;若是大猪踩踏板,则小猪还有机会吃到一点残羹冷炙,因为小猪食量小嘛。那么,两头猪会采取什么策略呢?答案是:小猪将安安心心地等在食槽边,而大猪则不知疲倦地奔忙于踏板和食槽之间。办公室里也会出现这样的场景:有人做“小猪”,舒舒服服地躲起来偷懒;有人做“大猪”,疲于奔命,吃力不讨好。但不管怎么样,“小猪”笃定一件事:大家是一个团队,就是有责罚,也是落在团队身上,所以总会有“大猪”悲壮地跳出来完成任务。想一想,你在办公室里扮演的角色,是“大猪”,还是“小猪”?(其实小猪的决策是明智的,想想同一个公司,小股东和大股东的行为。) 3.性别之争(多重纳什均衡) “有一对夫妻,丈夫喜欢看足球赛节目,妻子喜欢看肥皂剧节目,但是家里只有一台电视,于是就产生了争夺频道的矛盾。假设双方都同意看足球赛,则丈夫可得到2单位效用,妻子得到一单位效用;如果都同意看肥皂剧,则丈夫可得到1单位效用,妻子得到2单位效用;如果双方意见不一致,结果只好大家都不看,各自只能得到0单位效用。这个博弈的策略式表达如下:

不完全信息静态博弈案例 扶老人 林志涵

让道德与理性同行 ——不完全信息静态博弈案例分析 2012333501054 林志涵 12经济学1班 摘要:通过简单的博弈论分析方法对日常生活中具有现实意义的社会现象进行分析,从而在理性人假设的前提下,在各种因素的影响下,在个人取得利益最大化的同时,通过政策或法律的有效实施来使得道德能得到发扬提倡。 关键词:不完全信息静态博弈社会现象道德与理性 不完全信息静态博弈 在不完全信息静态博弈里,参与人并不完全清楚有关博弈的一些信息,所有参与人在共同决策环境中同时选择行动策略,每个参与人只选择一次。 纳什均衡,在给定的其他参与人选择的前提下,参与人根据自身收益选择的最优战略。 1.背景: “除非有人证物证,否则我不会再去扶跌倒的老人!”广东肇庆的阿华在扶起倒地的70多岁阿婆却遭诬陷后表示。事发7月15日早上,阿华开摩托车上行人道准备买早餐,看到路边有位老太太跌倒在求救,阿华立刻停下来,扶起老奶奶,殊不知却遭到阿婆的诬陷,随后和阿婆的女婿发生争执。阿婆被送到医院住院观察。为调查真相,交警暂扣了阿华的摩托车。事发后几天,阿华说没睡过一次好觉,还向单位请了几天假,天天在附近找证人,就是为了证实自己清白。 这一案件的真想不言而喻,老婆婆家人蛮不讲理地要求赔偿和阿华地好心搀扶倒地老婆婆形成了鲜明的对比,好心被当驴肝肺的事情就这么真真实实的发生在了我们的身边,社会风气遇到了极大的挑战,这引发了社会各界针对这一事件的激烈讨论。到底该不该扶?本文将在经济人假设的前提下,通过不完全信息静态博弈的思想进行分析阐述,并探讨我们如何通过一系列客观因素的影响,来使得利益与道德同行。 2.博弈的假设与建模: 假设: ①参与博弈的双方是理性人,都会选择个人利益最大化的行动。 ②假设阿婆在未有人搀扶时便决定是否坑钱,而路人并不知道阿婆是否会坑钱,即参与人在决策时不知道对方的策略同时也并不知道对方能够的收益函数。 ③假定当事人双方最终解决方法由交警决定,当事人将面临交警正确处理和错误处理两种。 参与人:阿婆、路人 行动选择:路人——帮忙扶起、不帮忙扶起 阿婆——被扶起后坑钱、不坑钱 3.支付收益: 1)在不考虑交警是否正确判断因素下,阿婆倒地没人扶会有-10的身体伤 害,在阿婆不坑钱的情况下仍然没有人扶会多产生负收益-10的心灵损 失(路人不知道阿婆是否坑钱);路人选择帮忙且阿婆不坑钱会产生10

完全信息静态博弈

博弈论第二章练习 8.设股诺模型中有n家厂商,qi为厂商i的产量,Q=q1+……+qn为市场总产量。P为市场出清价格,且已知P=P(Q)=a-Q(当Qa+ C1,则纳什均衡产量又为多少? 答:当情形变为两个厂商,则利润分别为 u1=Pq1-c1q1=(a-q1-q2)q1-c1q1 u2=Pq2-c2q2=(a-q1-q2)q2-c2q2 对q求导并令其为0得 a-q1-c1-2q1=0 a-q2-c2-2q2=0 反应函数为q1=(a-q2-c1)/2 q2=(a-q1-c2)/2 若0a+c1时,q2<0,厂商1垄断了市场,此时纳什均衡产量为q1=q*=(a-c1)/2 思考题:卡特尔能够持久存在吗?为什么石油输出国组织能长期维持? 答:(1)我认为卡特尔不能持久存在。 因为有两个因素导致了卡特尔具有天然的不稳定性: 第一,潜在进入者的威胁:一旦卡特尔把价格维持得较高水平,那么就会吸引新企业进入这个市场,而新企业进入后,可以通过降价扩大市场份额,此时卡特尔要想继续维持原来的高价就很不容易了。 第二,卡特尔内部成员所具有的欺骗动机:这是一个典型的“囚徒困境”,给定其他企业的生产数量和价格都不变,那么一个成员企业偷偷地增加产量将会获得额外的巨大好处,这会激励成员企业偷偷增加产量,如果每个成员企业都偷偷增加产量,显然市场总供给大量增加,市场价格必然下降,卡特尔限产提价的努力将瓦解。如果卡特尔不能有效解决这个问题,最终将导致卡特尔的解体。事实上,经济学家研究得出,世界上卡特尔的平均存续期间约为6.6年,最短的两年就瓦解了 此外,随着各国政府反垄断法的实施,卡特尔也可能因为违反了政府法

不完全信息静态博弈

第八章 不完全信息静态博弈 这一章里我们讨论不完全信息静态博弈,也称为贝叶斯博弈(Bayes)。不完全信息博弈中,至少有一个参与者不能确定另一参与者的收益函数。非完全信息静态博的一个常见例子是密封报价拍卖(sealed —bid auction):每一报价方知道自己对所售商品的估价,但不知道任何其他报价方对商品的估价;各方的报价放在密封的信封里上交,从而参与者的行动可以被看作是同时的。静态贝叶斯博弈问题的主要来源也是现实经济活动,许多静态博弈关系都有不完全信息的特征,研究贝叶斯博弈不仅是完善博弈理论的需要,也是解决实际问题的需要。 8.1 静态贝叶斯博弈和贝叶斯纳什均衡 为了更好的说明不完全信息与完全信息之间的差异,我们用一个典型静态贝叶斯博弈作为例子,自然的引进静态贝叶斯博弈概念。 8.1.1不完全信息古诺模型 考虑如下两寡头进行同时决策的产量竞争模型。其中市场反需求函数由Q a Q P -=)(给出,这里21q q Q +=为市场中的总产量。企业1的成本函数为1111)(q c q C =,不过企业2的成本函数以θ的概率为222)(q c q C H =,以θ-1的概率为222)(q c q C L =,这里H L c c <。并且信息是不对称的:企业2知道自己的成本函数和企业1的成本函数,企业1知道自己的成本函数,但却只知道企业2边际成本为高的概率是θ,边际成本为低的概率是 θ-1(企业2可能是新进入这一行业的企业, 也可能刚刚发明一项新的生产技术)。上述一切都是共同知识:企业1知道企业2享有信息优势,企业2知道企业1知道自己的信息优势,如此等等。 现在我们来分析这个静态贝叶斯博弈。一般情况下,企业2的边际成本较高时选择较低的产量,边际成本较低时,选择较高的产量。企业1从自己的角度,会预测到企业2根据其成本情况将选择不同的产量。设企业1的最佳产量选择为*1q ,企业2 边际成本为H c 时的最佳产量选择为)(*2H c q ,企业2 边际成本为L c 时的最佳产量选择为)(* 2L c q ,如果企业2的成本较高,它会选择)(*2H c q 满足: 22*1])[(max 2q c q q a H q --- 类似地,如果企业2的成本较低,)(*2L c q 应满足: 22*1])[(max 2q c q q a L q --- 从而,企业l 为了使利润最大化,选择*1q 应满足: }])()[(1(])([(max {11*2111*212q c c q q a q c c q q a L H q ----+---θθ 三个最优化问题的一阶条件为: 2)( ,2)(*1*2*1* 2L L H H c q a c q c q a c q --=--=

完全信息静态博弈例子(作业)

例1:完全信息静态博弈在银行监管中的应用 一、完全信息静态博弈模型的建立 (一)博弈的参与人 商业银行(监管对象)作为理性经济人,其行为动机是部门、个人利益最大化。但由于在管理体制、经营方式、技术手段、人员素质、资产质量与外资银行之间存在差距,其经营难度和盈利能力都会受到不利的冲击。在遵循一定条件下的预期效用最大化的原则下,商业银行有足够的动力进行违规操作,例如私自变动利率或进行不符合政策的违规金融创新,借以获得竞争优势,实现最大化效用。 银监会作为监管者,通过行使行政管理、现场检查、非现场检查以及违规处罚等监管权力,对商业银行的市场准入和退出,日常业务营运等进行指导、监督、管理。而在目前市场经济没有完善的条件下,无论是现场检查还是非现场检查,都存在监管工作量大,连续性强的特点。因此,实行严格监管策略有着较高的成本:监管费用增加,监管机构“暗箱”操作增长,创造经济租金使商业银行寻租行为增多,商业银行内部创新能力削弱等等。监管成本的增加可能会超过市场交易成本。 (二)博弈的假设前提 (1)银监会的策略空间为严格监管和宽松监管;(2)银监会在进行严格监管工作时,有成本支出。当商业银行违规经营时,可采用罚款、取消高级人员资格等措施。但在商业银行合规经营时,银监会宽松监管会带来收益;(3)商业银行的策略空间是违规经营和合规经营;(4)商业银行合规经营时,无论监管者监管与否,商业银行都将得到自己的正常收益;(5)商业银行违规经营的期望收益是违规所得,其在违规经营中将获得超额利润,但在银监会严格监管的条件下也将付出成本。 注:R1、R2分别是银监会宽松监管,商业银行合规经营的正常收益。A为银监会采取监管措施所花费的成本;B为银监会在商业银行违规经营情况下,采取宽松监管所遭受的损失;C 为商业银行在违规经营条件下受到严格监管所造成的损失;M为银监会采取宽松监管,商业银行违规经营所获得的超额收益。其中A,B,C都与M成正相关。P为银监会严格监管的概率,1-p 是银监会宽松监管的概率;q是商业银行合规经营的概率,1-q是商业银行违规经营的概率。 二、博弈模型的分析 当商业银行合规经营时,银监会宽松监管的收益大于严格监管的收益,所以其最优选择是采取宽松监管;当商业银行违规经营时,银监会是采取严格监管还是宽松监管主要取决于A与B的比较。当A>B时,银监会采取宽松监管,商业银行的最优选择则是违规经营;当AB时,不管M与C的大小如何,银监会与商业银行之间存在纯策略纳什均衡(宽松监管,违规经营)。 其含义为:银监会采取严格监管措施付出的成本大于商业银行违规经营对其造成的损失

相关主题
文本预览
相关文档 最新文档