答疑]动态博弈与子博弈精练纳什均衡
- 格式:pdf
- 大小:88.67 KB
- 文档页数:2
子博弈精炼纳什均衡的基本概念在动态博弈中,行动有先后次序,后行动者可以通过观察先行动者的行为,来获得有关先行动者的信息,从而证实或修正自己对先行动者的判断。
完全信息动态博弈,是指博弈中信息是完全的,即双方都掌握参与者对他参与人的战略空间和战略组合下的支付函数有完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息。
在不完全信息静态博弈中,参与人同时行动,没有机会观察到别人的选择。
而在不完全信息动态博弈中,问题变得更加简单。
博弈开始时,某一参与人既不知道其他参与人的真实类型,也不知道其他参与人所属类型的分布概率。
他只是对这一概率分布有自己的主观判断,即有自己的信念。
博弈开始后,该参与人将根据他所观察到的其他参与人的行为,来修正自己的信念。
并根据这种不断变化的信念,作出自己的战略选择。
动态博弈行动有先后顺序,不同的参与人在不同时点行动,先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者做了什么选择,因此,为了做最优的行动选择,每个参与人都必须这样思考问题:如果我如此选择,对方将如何应对?如果我是他,我将会如何行动?给定他的应对,什么是我的最优选择?如下棋。
[1]子博弈精炼纳什均衡包含两层含义:(1)它是原博弈的纳什均衡;(2)它在每一个子博弈上给出纳什均衡。
子博弈精炼纳什均衡就是要剔除那些只在特定情况下是合理的,而在其他情况下并不合理的行动规则在动态博弈中,参与人的行动有先后顺序,后行动的参与人在自己行动之前就可以观察到先行动者(参与人)的行为,并在此基础上选择相应的策略。
而且,由于先行动者拥有后行动者可能选择策略的完全信息,因而先行动者在选择自己的策略时,就可以预先考虑自己的选择对后行动者选择的影响,并采取相应的对策。
子博弈是指在动态博弈中,所有参与人先后都采取了一次行动后所构成的一组新的博弈,这组博弈中的每一个都称为“子博弈”。
当只当参与人的战略在其子博弈的系列(第二代、第三代…)中,每一个子博弈都构成纳什均衡,就构成了子博弈精练纳什均衡子博弈子博弈(Subgame)[编辑]什么是子博弈子博弈是指在动态博弈中,所有参与人先后都采取了一次行动后所构成的一组新的博弈,这组博弈中的每一个都称为“子博弈”。
我们已经了解了完全信息静态博弈的内容。
这时候,参与人同时行动,或者不同时行动,但是后动的人观察不到先动的人的任何有关其行动的信息,这于同时行动等价。
这时候,任何一个参与人选择行动的时候,没有任何可以依据的信息。
当博弈成为动态的时候,参与人先后行动,后动者可以观察到先动者的行动,因此,后动者选择他的行动的时候,可以依据观察到的信息作选择。
因为先动者可能采取的行动是若干个,所以后动者就有可能观察到同样多的信息。
因此,这时后动者选择的已经不简单的行动,而是一套完整的行动计划——这套行动计划指出,在观察到不同的信息时该怎样随机应变选择自己的行动。
因此,现在后动者的选择变量就是行动计划,我们就把一套完整的行动计划叫做一个策略。
以下图为例,参与人1先动,之后参与人2行动,参与人2可以观察到参与人1的选择。
参与人的选择就是L或者R,这既是他的行动有时他的策略,因为参与人1行动时可能出现的信息只有一种情况——空信息集——因为他先动,这时什么信息也没有。
1行动之后,1的行动可以被2观察,因此2可能观察到的信息就有可能是L或者R,因此,2的行动会根据这些信息作出。
2的一套完整的行动计划应该告诉他,在观察到L时选择什么,观察到R时选择什么,由此我们也可以看出,如果2把行动的选择委托给另外的人,这个人可以根据2的行动计划处理任何可能发生或者面对的形式。
这样,2的行动计划——我们称为策略,就有四种可能:1,观察到L时,选F,观察到R时,选F。
我们用一个有序二维向量(F,F)表示。
2,观察到L时,选F,观察到R时,选C。
我们用一个有序二维向量(F,C)表示。
3,观察到L时,选C,观察到R时,选F。
我们用一个有序二维向量(C,F)表示。
4,观察到L时,选C,观察到R时,选C。
我们用一个有序二维向量(C,C)表示。
总结:参与人1的行动是L或者R,由于是先动,没有信息,所以策略也就是行动。
参与人2的行动是F或者C,由于是后动,有信息,策略是建立在信息上的完整行动——计划,有四个策略:(F,F),(F,C)(C,F)(C,C)。
一:子博弈精炼纳什均衡在给出子博弈精炼Nash均衡的正式定义之前,我们需要先介绍“子博弈”这个概念。
子博弈(sub game):由一个单结信息集X开始的与所有该决策结的后续结(包括终点结)组成的,能够自成一个博弈的原博弈的一部分。
即给定“历史”,每一个行动选择开始至博弈结束构成了的一个博弈,称为原动态博弈的一个“子博弈”。
子博弈可以作为一个独立的博弈进行分析,并且与原博弈具有相同的信息结构。
为了叙述方便,一般用表示博弈树中开始于决策结的子博弈。
譬如图3.5,该博弈存在3个子博弈:除了原博弈自己以外,还存在两个子博弈图3.6a 子博弈和图3.6b子博弈。
在静态博弈分析时,我们所说的战略是指参与人声明他将做出何种选择,而他们往往也是按照声明做出实际选择的;在动态博弈中,战略尽管仍然具有这种含义,但博弈在行动选择上参与人具有选择行动的先后顺序情况下,参与人有了一种额外的选择——事后机会主义,后动的局中人完全可以根据博弈进行到此时对局中人最为有利的方式选择行动,而放弃事前所声明的战略所规定的行动选择选择其行动。
这意味着,在动态博弈中,即使参与人人按事前所声明的战略组合构成一个纳什均衡,而这些均衡战略又规定了各个参与人在其所有信息集上的行动选择,这些行动选择也可能并非参与人在对应信息集上的最优行动选择。
而当博弈实际进行到那些由纳什均衡战略规定的行动并非最优行动选择的信息集时,按照理性人假设,可以想象参与人届时并不会按纳什均衡战略所规定的方式去选择行动,而是机会主义地选择最优的行动。
这样,具有这种特点的纳什均衡就是不可信的,即不能作为模型的预测结果,按照“精炼”纳什均衡的思想,应当将其消掉。
定义3.1:子博弈精炼纳什均衡(SPNE):扩展式博弈的策略组合 S*=(S1*,…, Si*,…, Sn* )是一个子博弈精炼纳什均衡当且仅当:如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡。
如果一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足:在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。
博弈论练习题(四)一、什么是子博弈精炼纳什均衡?答:将纳什均衡中包含的不可置信的威胁策略剔除出去。
它要求参与者的决策在任何时点上都是最优的。
由于剔除了不可置信的威胁,在许多情况下,精炼纳什均衡也就缩小了纳什均衡的个数。
只有当参与人的策略在每一个子博弈中都构成纳什均衡叫做精炼纳什均衡。
或者说,组成精炼纳什均衡的策略必须在每一个子博弈中都是最优的。
二、参与人的理性问题对动态博弈分析的影响是否比静态博弈的影响更大?为什么?答:正确,博弈论要求个体具有始终追求自身利益最大化的理性意识和理性能力的“自我”个体理性,这是静态博弈的范畴。
除此之外,还要求相关的参与者具有层次较高的“交互理性”,要求不同个体之间在理性和行为方面具有一种“默契”。
即,人们的自身利益的最大化不仅取决于自己的选择,还取决于与之相关的其他人的选择与行为,那么为了实现自己的最大利益,个体的理性决策就必须考虑他人的理性选择与行为。
作为博弈论的基础,交互理性是其基本的理性要求。
博弈论还要求有关博弈的结构、各个博弈参与者的得益函数以与各个博弈参与者的理性等“知识”是所有博弈参与者之间的“共同知识”。
也就是,每个博弈参与者不仅要首先明确自己和其他参与者所有可选的策略,还需知晓各种情况下自己最终的收益或其概率分布,并且每个博弈参与者都知道各个参与者掌握这些信息;更为重要的是,每个博弈参与者都知道所有参与者都是理性的,都知道其他博弈参与者知道所有参与者都是理性的,都知道其他博弈参与者知道其他博弈参与者知道所有博弈参与者都是理性的------。
理性的共同知识假设是非合作博弈理论的一个非常重要和关键的假设,是实现交互理性和理性主义的纳什均衡的基本前提,这些,都是动态博弈的范畴。
因此说,参与者理性问题对动态博弈的分析影响更大。
三、纳什均衡和精炼纳什均衡存在哪些问题?答:纳什均衡存在的问题:(1)不是所有博弈都存在纳什均衡如纯策略就不存在混合策略则一定会存在纳什均衡,它是通过概率来计算纳什均衡,在这种均衡下,给定其他参与人的策略选择概率,每个参与人都可以为自己确定选择每一种策略的最优概率。
01子博弈02子博弈完美纳什均衡03承诺行动193.3 子博弈和子博弈完美纳什均衡例第三种开金矿博弈不借借不分分(1,0)不打打(0,4)(-1,0)(2,2)乙甲乙法律保障不足的开金矿博弈——分钱打官司都不可信子博弈不分分不打打(0,4)(-1,0)(2,2)甲乙子博弈可以看作是动态博弈中满足一定要求的次级博弈。
子博弈:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的组成部分,称为原动态博弈的一个“子博弈”。
子博弈本身就是一个博弈!例第三种开金矿博弈不借借不分分(1,0)不打打(0,4)(-1,0)(2,2)乙甲乙法律保障不足的开金矿博弈——分钱打官司都不可信一级子博弈不分分不打打(0,4)(-1,0)(2,2)甲乙二级子博弈不打打(0,4)(-1,0)乙例子:仿冒和反仿冒博弈A不制止制止(-2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒BAB15例子:仿冒和反仿冒博弈(续)A不制止制止(-2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒BAB不制止制止(-2,5)(2,2)(10,4)(5,5)不制止制止仿冒不仿冒BAB不制止制止(2,2)(10,4)(5,5)仿冒不仿冒AB不制止制止(2,2)(10,4)B一级子博弈二级子博弈三级子博弈原博弈子博弈特点:(1)动态博弈本身不是它自己的子博弈。
(2)子博弈不能分割任何信息集。
首先,子博弈不能包括原博弈的第一个阶段,也就是说,原博弈不是自己的子博弈。
其次,子博弈必须有一个明确的初始信息集,意味着子博弈不能分割任何信息集。
122111221只有2个子博弈子博弈存在4个子博弈(Subgame-perfect Nash equilibrium)子博弈完美纳什均衡:如果一个完美信息的动态博弈的一个策略组合满足在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么称该策略组合为该动态博弈的一个“子博弈完美纳什均衡”。
《经济博弈论》复习题及参考答案一、名词解释1、混合战略纳什均衡如果在博弈的利益表中,无法找到任何一方都可以接受(不一定利益最大化)的方案,也就是没有哪一种组合是在给定对手策略下没有动机改变自己策略的情况。
这时博弈没有纯策略均衡,需要一个“概率表”指导博弈结果。
在博弈G={S1,S2……Sn;U1,U2……Un}中第i个博弈方策略空间为Si={Si1……Sik}则博弈方以概率分布Pi=(Pi……Pik)随机在k个可选策略中选的的策略称为一个混合策略纳什均衡。
2、子博弈精炼纳什均衡对于扩展式博弈的策略组合S*=(S1*,…,Si*,…,Sn*) ,如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡,则它是一个子博弈精炼纳什均衡。
子博弈精练纳什均衡所要求的是参与人应该是序惯理性的。
对于有限完美信息博弈,逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。
3、完全信息动态博弈完全信息动态博弈,是指博弈中信息是完全的,即双方都掌握参与者对他参与人的战略空间和战略组合下的支付函数有完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息。
4、不完全信息动态博弈指在动态博弈中,行动有先后次序,博弈的每一参与人知道其他参与人的有哪几种类型以及各种类型出现的概率,即知道“自然”参与人的不同类型与相应选择之间的关系,但是,参与人并不知道其他的参与人具体属于哪一种类型。
由于行动有先后顺序,后行动者可以通过观察先行动者的行为,获得有关先行动者的信息,从而证实或修正自己对先行动者的行动。
5、完全信息静态博弈完全信息静态博弈指的是信息对于博弈双方来说是完全公开的情况下,双方在博弈中所决定的决策是同时的或者不同时但在对方做决策前不为对方所知的。
6、囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
子博弈精炼纳什均衡名词解释嘿,朋友们!今天咱来聊聊子博弈精炼纳什均衡这个听起来有点高大上的玩意儿。
你看啊,这就好比是一场复杂的游戏。
在这个游戏里,每个人都有自己的策略和选择。
子博弈精炼纳什均衡呢,就是在这个游戏中的某个局部,大家都找到了一个最佳的玩法,谁也不愿意轻易改变。
咱可以想象一下,一群人在玩扑克牌,每个人都在算计着怎么出牌才能赢。
在某个特定的局面下,大家都形成了一种默契,都按照某种特定的方式出牌,因为这样对自己最有利呀。
这就是一种子博弈精炼纳什均衡。
它可不是随随便便就能达到的哦!就像爬山一样,得一步一步找到最合适的路径。
在这个过程中,大家都得不断地思考、算计,权衡各种利弊。
而且啊,它还很稳定呢,一旦达到了,就不太容易被打破。
比如说在商业竞争中,几家公司在市场上争斗。
他们会根据对手的行动来调整自己的策略,直到找到一个大家都觉得不错的状态,这其实就是一种子博弈精炼纳什均衡啦。
再想想下棋,每一步棋都是在追求一种平衡和最优解。
高手下棋的时候,不就是在寻找那个子博弈精炼纳什均衡嘛!他们可不会瞎走,都是深思熟虑的呀。
那这个子博弈精炼纳什均衡有啥用呢?用处可大啦!它能帮我们更好地理解人与人之间的互动和竞争。
知道了这个,我们就能在各种情况下做出更明智的选择。
比如说在谈判的时候,如果你能理解对方的策略,找到那个子博弈精炼纳什均衡,不就能更好地达成自己的目的了嘛!在团队合作中也是一样,大家找到共同的最优策略,工作就能更顺利地进行呀。
总之,子博弈精炼纳什均衡就像是一个隐藏在各种复杂局面背后的秘密武器。
只要我们能发现它、理解它、运用它,就能在生活和工作中更加得心应手。
难道不是吗?所以啊,大家可得好好琢磨琢磨这个有趣的概念哦!。
我们已经了解了完全信息静态博弈的内容。
这时候,参与人同时行动,或者不同时行动,但是后动的人观察不到先动的人的任何有关其行动的信息,这于同时行动等价。
这时候,任何一个参与人选择行动的时候,没有任何可以依据的信息。
当博弈成为动态的时候,参与人先后行动,后动者可以观察到先动者的行动,因此,后动者选择他的行动的时候,可以依据观察到的信息作选择。
因为先动者可能采取的行动是若干个,所以后动者就有可能观察到同样多的信息。
因此,这时后动者选择的已经不简单的行动,而是一套完整的行动计划——这套行动计划指出,在观察到不同的信息时该怎样随机应变选择自己的行动。
因此,现在后动者的选择变量就是行动计划,我们就把一套完整的行动计划叫做一个策略。
以下图为例,参与人1先动,之后参与人2行动,参与人2可以观察到参与人1的选择。
参与人的选择就是L或者R,这既是他的行动有时他的策略,因为参与人1行动时可能出现的信息只有一种情况——空信息集——因为他先动,这时什么信息也没有。
1行动之后,1的行动可以被2观察,因此2可能观察到的信息就有可能是L或者R,因此,2的行动会根据这些信息作出。
2的一套完整的行动计划应该告诉他,在观察到L时选择什么,观察到R时选择什么,由此我们也可以看出,如果2把行动的选择委托给另外的人,这个人可以根据2的行动计划处理任何可能发生或者面对的形式。
这样,2的行动计划——我们称为策略,就有四种可能:
1,观察到L时,选F,观察到R时,选F。
我们用一个有序二维向量(F,F)表示。
2,观察到L时,选F,观察到R时,选C。
我们用一个有序二维向量(F,C)表示。
3,观察到L时,选C,观察到R时,选F。
我们用一个有序二维向量(C,F)表示。
4,观察到L时,选C,观察到R时,选C。
我们用一个有序二维向量(C,C)表示。
总结:参与人1的行动是L或者R,由于是先动,没有信息,所以策略也就是行动。
参与人2的行动是F或者C,由于是后动,有信息,策略是建立在信息上的完整行动——计划,有四个策略:(F,F),(F,C)(C,F)(C,C)。
参与人1
L R
参与人2 参与人2
F C F C
6 4 5 8
6 1 ‐10 ‐3
子博弈:在动态博弈中,我们现在接触到的都可以用树形图来表示。
从每一个结点开始的剩余博弈,就是这个动态博弈的子博弈。
在上面的图中,包括起始点在内,总共有三个结点,于是就有三个子博弈。
其中博弈本身也是一个子博弈。
子博弈精练纳什均衡:一组策略组合在所有的子博弈上都构成纳什均衡,那么这组策略称为子博弈精练纳什均衡。
在上图的例子中,{L,(F,F)}构成一个纳什均衡。
因为给定(F,F),参与1选L得到6,选R得到5,给定L,参与人2选(F,F)得6,选(F,C)得6,选(C,F)得1,选(C,C)得1。
选(F,F)最大化了自己的支。
但是{L,(F,F)}在红色线标出的这个子博弈中没有给出纳什均衡。
因为红色线构成的子博弈,相当于只有1个参与人2,有两种行动的单人博弈,这个子博弈的纳什均衡就是C,因为2选择F只能得到‐10<选C可以得到的‐3。
因此,{L,(F,F)}虽然是纳什均衡,但不是子博弈纳什均衡。
同理,我们也可以看出在兰色线构成的子博弈中,子博弈纳什均衡一定是F,所以子博弈精练纳什均衡中2的策略必须是(F,C),给定2的这一策略,1的最优策略就是R。
所以子博弈精练纳什均衡就是{R,(F,C)},大家可以检验这个策略组合是否在所有的子博弈上都给出了纳什均衡。