博弈论——完全信息动态博弈
- 格式:doc
- 大小:1.15 MB
- 文档页数:32
完全信息动态博弈和演化博弈的关系在博弈论的研究领域中,完全信息动态博弈和演化博弈是两个重要的分支。
它们分别从不同的角度研究博弈现象,但二者之间也存在一定的联系和关系。
本文将探讨完全信息动态博弈和演化博弈的关系,并对它们的特点和应用进行分析。
1. 完全信息动态博弈的定义和特点完全信息动态博弈是指博弈参与者在博弈过程中具备完全信息的情况下,根据先后顺序依次做出决策,随着时间的推移,博弈过程也在不断变化。
在完全信息动态博弈中,博弈参与者对于其他参与者的行动和策略都有准确的了解,能够全面考虑对手的决策,以此来优化自己的策略选择。
完全信息动态博弈的特点包括:首先,信息对称,每个博弈者都能了解其他博弈者的策略和收益函数;其次,决策按照时间顺序依次进行,每个博弈者的行动会对其他人的决策产生影响;最后,完全信息动态博弈具有策略的时序性,参与者需要根据他们观察到的其他人的决策来选择自己的策略。
2. 演化博弈的定义和特点演化博弈是指博弈参与者根据其在群体中的优势来选择策略,并通过遗传和选择机制在演化过程中逐步改变策略的过程。
演化博弈考虑的不是个体之间的完全信息,而是从整体出发,通过个体之间的相互作用和进化选择来探讨不同策略之间的稳定性和最终结果。
演化博弈的特点包括:首先,演化博弈关注的是群体中不同策略的相对频率和进化趋势,而不是个体行动的绝对收益;其次,演化博弈中存在着演化稳定策略,即一旦某种策略在群体中形成,就会对其他策略形成一种稳定的威胁;最后,演化博弈的结果依赖于演化的时间尺度和环境的改变。
3. 完全信息动态博弈与演化博弈的关系完全信息动态博弈和演化博弈虽然从不同的角度出发,但也存在一定的联系和关系。
首先,完全信息动态博弈可以看作演化博弈的一种特殊情况,即当演化博弈的时间尺度趋于无穷时,完全信息动态博弈的结果可以看作是演化博弈的极限情况。
因此,完全信息动态博弈可以为演化博弈提供一种基础理论框架。
其次,演化博弈可以用来解释完全信息动态博弈中出现的某些稳定策略。
完全信息动态博弈模型完全信息动态博弈模型是博弈论中一种重要的博弈模型,它描述了一组参与者在了解所有相关信息的情况下,通过一系列决策和行动来实现最优化的结果。
下面将详细介绍完全信息动态博弈模型的相关内容。
一、博弈的参与者:完全信息动态博弈模型中,通常包括两个或多个参与者,每个参与者都可以做出自己的决策和行动。
参与者可以是个人、组织、公司等,他们之间存在着相互竞争和合作的关系。
二、博弈的信息:完全信息动态博弈模型中的参与者拥有完全信息,即每个参与者都能够获得关于其他参与者的决策和行动的完整信息。
通过完全信息,参与者能够准确地评估自己的决策和行动对其他参与者的影响,并作出最优化的决策。
三、博弈的行动和策略:在完全信息动态博弈中,参与者可以选择不同的行动和策略来达到自己的目标。
每个参与者根据自己对其他参与者行动和策略的评估,以及自己的目标和利益,选择最优化的行动和策略。
四、博弈的时间顺序:完全信息动态博弈是一个时间序列上的博弈模型,参与者的决策和行动是有序进行的。
参与者按照一定的时间顺序依次进行决策和行动,每个参与者都会考虑前面参与者的行动和决策对自己的影响,进而作出自己的决策。
五、博弈的结果和收益:完全信息动态博弈模型的结果是参与者的收益和利益。
通过多轮反复的博弈过程,参与者根据自己的决策和行动可以获得不同的结果和收益。
每个参与者的最终目标是通过优化自己的决策和行动,获得最大的收益和利益。
完全信息动态博弈模型是博弈论中一种重要的模型,它能够帮助我们分析和理解多方参与者在了解所有相关信息的情况下,通过一系列决策和行动来实现最优化的结果。
通过对博弈的参与者、信息、行动和策略、时间顺序以及结果和收益的分析,可以更好地理解和应用完全信息动态博弈模型。
博弈论——完全信息动态博弈2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与⼈在不同的时间选择⾏动。
完全信息动态博弈指的是各博弈⽅先后⾏动,后⾏动者知道先⾏动者的具体⾏动是什么且各博弈⽅对博弈中各种策略组合下所有参与⼈相应的得益都完全了解的博弈静态博弈习惯⽤战略式(Strategic form representation)表述,动态博弈习惯⽤扩展式(Extensive form representation)表述。
战略式表述的三要素:参与⼈集合、每个参与⼈的战略集合、由战略组合决定的每个参与⼈的⽀付。
扩展式表述的要素包括:参与⼈集合、参与⼈的⾏动顺序、参与⼈的⾏动空间、参与⼈的信息集、参与⼈的⽀付函数、外⽣事件(⾃然的选择)的概率分布。
n⼈有限战略博弈的扩展式表述⽤博弈树来表⽰1(1,2) (0,3)①结:包括决策结和终点结。
决策结是参与⼈采取⾏动的时点,终点结是博弈⾏动路径的终点。
第⼀个⾏动选择对应的决策结为“初始结”,⽤空⼼圆表⽰,其它决策结⽤实⼼圆表⽰。
X表⽰结的集合,x X表⽰某个特定的结。
z表⽰终点结,Z表⽰终点结集合。
表⽰结之间的顺序关系,x x′表⽰x在x′之前。
x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。
以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。
在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。
②枝:博弈树上,枝是从⼀个决策结到其直接后续结的连线,每⼀个枝代表参与⼈的⼀个⾏动选择。
在每⼀个枝旁标注该具体⾏动的代号。
⼀般地,每个决策结下有多个枝,给出每次⾏动时参与⼈的⾏动空间,即此时有哪些⾏动可供选择。
③信息集(information sets):博弈树中某⼀决策者在某⼀⾏动阶段具有相同信息的所有决策结集合称为⼀个信息集。
博弈树上的所有决策结分割成不同的信息集。
每⼀个信息集是决策结集合的⼀个⼦集(信息集是由决策结构成的集合),该⼦集包括所有满⾜下列条件的决策结:(1)每⼀个决策结都是同⼀个参与⼈的决策结。
完全信息动态博弈名词解释完全信息动态博弈是经济学和博弈论的一个重要概念,它是一种自上而下的模型,用来描述多个经济参与者之间的博弈行为。
完全信息动态博弈模型可以用来分析不同参与者之间在时间和空间上进行博弈,以求取共同利益最大化。
它允许模型解决者预测策略,分析每个参与者在某个时间点采取的不同策略所带来的结果,以此来帮助其他参与者制定最佳战略。
完全信息动态博弈的核心概念是状态和行动,也就是描述参与者在每一轮有多少种可能的策略。
它在一定的时间框架内,由描述参与者现在的状态,观察他们如何根据当前状态下每个参与者的行动,以及每个行动产生的结果,来描述某一具体策略下的最终结果。
参与者首先通过观察彼此之间的博弈行为,体会状态和行动,从而确定自己的策略,并计划未来可能出现的状态和行动,从而获得最大的利益。
例如,在一款棋类游戏中,两个对手可以通过对对方进行攻击,或者保护自己的棋子,以及改变棋局,来表明他们的能力。
在这种情况下,两个玩家拥有相同的完全信息,他们可以根据当前的棋局和自己可能采取的每一步棋,确定最优的策略,从而提高自己赢得游戏的几率。
许多实际问题也是基于完全信息动态博弈模型构建的,如政府向公司提出经济问题的解决案,或是在双方同意的情况下进行谈判等。
在这些情况下,参与者不仅需要观察当前的状态和行动,还要考虑未来的可能性,用完全信息动态博弈模型来解决问题,才能更有效地取得共同利益最大化。
完全信息动态博弈是经济学和博弈论研究中一个基本模型,它可以有效的模拟由多个经济参与者之间进行的博弈,利用状态和行动的概念,可以很好的帮助参与者制定最优策略,以达到共同利益最大化的目的。
另外,它也可以用来解决政府和公司之间的实际问题。
完全信息动态博弈是一个对经济学和博弈论有着深远作用的概念,它也被广泛应用于实践。
2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与人在不同的时间选择行动。
完全信息动态博弈指的是各博弈方先后行动,后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈静态博弈习惯用战略式(Strategic form representation)表述,动态博弈习惯用扩展式(Extensive form representation)表述。
战略式表述的三要素:参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。
扩展式表述的要素包括:参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件(自然的选择)的概率分布。
n人有限战略博弈的扩展式表述用博弈树来表示1(1,2) (0,3)①结:包括决策结和终点结。
决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。
第一个行动选择对应的决策结为“初始结”,用空心圆表示,其它决策结用实心圆表示。
X表示结的集合,x X表示某个特定的结。
z表示终点结,Z表示终点结集合。
表示结之间的顺序关系,x x´表示x在x´之前。
x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。
以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。
在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。
②枝:博弈树上,枝是从一个决策结到其直接后续结的连线,每一个枝代表参与人的一个行动选择。
在每一个枝旁标注该具体行动的代号。
一般地,每个决策结下有多个枝,给出每次行动时参与人的行动空间,即此时有哪些行动可供选择。
③信息集(information sets):博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。
博弈树上的所有决策结分割成不同的信息集。
每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:(1)每一个决策结都是同一个参与人的决策结。
(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。
引入信息集的目的是为了描述当一个参与人要作出决策时他可能不知道“之前”发生的所有事情。
(之前加引号是因为,博弈树中的决策结的排序并不一定与行动的时间顺序相一致)H 表示信息集集合,h 表示一个特定的信息集。
h (x )表示包含决策结x 的信息集。
h (x )是一个信息集,意味着在x 决策的参与人不确定他处在x 结点还是其它x ´ h (x )结点。
这同时意味着一个决策结只能属于一个信息集。
信息集满足的条件:1、任何一个决策结不能是属于同一信息集的其它决策结的前列结或后续结。
2、同一信息集的所有结都是同一参与人的决策结,即参与人不会将自己行动的结与他人行动的结混淆。
3、一个参与人在属于同一信息集的每一个决策结的行动空间应该是相同的。
1a b 2 c d e 1 1一个静态博弈的扩展式表述一个信息集可能包含多个决策结,也可能只包含一个决策结。
只2f 1 1g h i j k l m n2(2,1)(3,1)(2,4) (5,1) (0,6) (7,1)(2,4)vw(1,2)(0,3)包含一个决策结的信息集称为单结信息集;如果博弈树的所有信息集都是单结的(如果有虚拟参与人自然,则所有的参与人都知道自然的行动),该博弈称为完美信息博弈(Game of perfect information);否则就是不完美信息博弈。
完美信息(perfect information): 在博弈的每次行动的参与人完全知道博弈的历史,即每个信息集只有一个决策结。
完美信息博弈意味着博弈中没有任何两个参与人同时行动,而且所有后行动者都能确切知道先行动者选择的行动,所有参与人都知道自然的行动。
完全信息(complete information):参与人完全了解对手特征,既没有事前的不确定性。
不完全信息意味着不完美信息,但逆定理不成立。
在博弈论中,自然的信息集一般假定为单结的。
因为自然是随机行动的,自然在参与人决策之后行动等价于自然在参与人决策之前行动但参与人不能观测到自然的行动。
因此,博弈树上是否出现连接不同决策结的虚线取决于我们如何安排决策结的顺序。
决策结的顺序:如果知道前决策者的选择,后决策者必须出现在后面,如果不知道前决策者的选择,后决策者可以出现在后面,也可以出现在前面。
相同的博弈可以不同的博弈树表示,但同一个参与人在代表同一博弈的不同博弈树中的信息集的数量必须相同,自然除外。
博弈一般假定满足完美回忆的要求,完美回忆是指没有参与人会忘记自己以前知道的事情,所有参与人都知道自己以前的选择。
1确保博弈具有完美回忆的要求:如果①x 2和x 1属于同一信息集;②x 是x 1的前列结;③x 和x 1都是同一个参与人的决策结;那么,存在一个x ´´(可能是x 本身)满足:①x ´´和x 属于同一信息集;②x ´´是x 2的前列结;③从x 到达x 1的行动和x ´´到达x 2的行动是一样的。
即必须满足“同一行动”和“同一信息集”假设。
当博弈涉及到外生不确定性事件时,我们假定“自然”以某种概率选择某个特定事件,所有参与人对于自然的选择具有相同的先验概率。
即所谓的“海萨尼公理”。
均衡结果有三个(进入,默许)、(不进入,斗争)、(不进入、默许)定理:一个有限完美信息博弈有一个纯战略纳什均衡(zermelo,1913; kuhn,1953)。
策略的可置信性问题:策略是博弈方自己预先设定的,在各个博弈阶段针对各种情况所作的相应行为选择的计划,本身没有强制力,且实施起来有一个过程。
在该过程中,根据自己的利益需要,他完全可以改变这个计划,从而存在“相机选择”,产生策略的可置信性问题。
BB(40,50)(-10,0)(0,300)默许斗争进入不进入A默许斗争(0,300)纳什均衡:(进入、(默许、默许))(不进入、(斗争、斗争))(进入、(默许、斗争))(不进入、(斗争、默许))2.1.A 子博弈精炼纳什均衡、逆向归纳法“子博弈精炼纳什均衡”(subgame perfect Nash equilibrium,selten,1965),用于区分动态博弈中的“合理纳什均衡”与“不合理纳什均衡”,将纳什均衡中包含有不可置信威胁策略的均衡剔除出去,就是说,使最后的均衡中不再包含有不可置信威胁策略的存在。
子博弈:一个扩展式表示博弈的子博弈G是由一个单结信息集x 开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。
要求:①x是一个单结信息集;②子博弈的信息集和支付向量都直接继承自原博弈;③子博弈不能切割原博弈的信息集。
任何博弈本身称为其自身的子博弈。
扩展式博弈的战略组合s*=(s*1,…,s*i , …,s*n)是一个子博弈精炼纳什均衡,如果:(1)它是原博弈的纳什均衡;(2)它在每一个子博弈上给出纳什均衡。
简单的讲,一个战略组合是子博弈精炼纳什均衡,当且仅当他在每一个子博弈(包括原博弈)上都构成一个纳什均衡。
如果整个博弈是唯一的子博弈,那么纳什均衡与子博弈精炼纳什均衡相同,如果有其它子博弈,则有些纳什均衡可能不构成子博弈精炼纳什均衡。
(开发,{不开发,开发})是唯一一个子博弈精炼纳什均衡均衡路径(equilibrium path ):纳什均衡所在的路径。
其它的路径都是该纳什均衡的非均衡路径(off-equilibrium path )。
构成子博弈精炼纳什均衡的战略不仅在均衡路径上是最优的,而且在非均衡路径上也是最优的。
这是纳什均衡与子博弈精炼纳什均衡的实质区别。
只有当一个战略规定的行动规则在所有可能的情况下都是最优的时,它才是一个合理的、可置信的战略。
序贯理性(sequential rationality ):不论过去发生了什么,参与人应该在博弈的每一个时点上最优化自己的决策。
子博弈精炼纳什均衡求法——逆向归纳法求解对于我们现在所讨论的有限完美信息动态博弈,逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。
在求解子博弈精炼纳什均衡时,从最后一个子博弈开始逆推上去,这就是逆向归纳法。
所以逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈均衡的方法。
逆向归纳法是重复剔出劣战略方法在扩展式博弈中的应用。
逆向归纳法不适合于无限博弈和不完美信息博弈。
简单的完全和完美信息博弈: 1. 参与人 1 选择行动a 12. 参与人 2 观察a 1,然后选择a 23. 收益是 u 1(a 1, a 2)和u 2(a 1, a 2)求解博弈: 逆向归纳法 (backward induction) 1. 求解第二个阶段,对于a 1,求a 222max A a ∈u 2(a 1,a 2)其解: a 2= R 2(a 1) ---- 反应函数 2. 求解第一个阶段11max A a ∈ u 1(a 1,R 2(a 1))其解: a *1逆向归纳解(outcome): (a *1, R 2(a *1) ) 注意:在动态博弈中,行动与战略是不同的概念; 逆向归纳解与纳什均衡是不同的概念。
例11L R220 L'R'111 L''R''3 00 2用逆向归纳法:第3步:参与人1 选择L'';第2步:参与人2 选择L';第1步:参与人1 选择L逆向归纳解: L(在第一个阶段结束)。
如果博弈在第一个阶段中不结束,可能原因是什么?甲在开采一价值4万元的金矿时缺1万元资金,而乙正好有1万元资金可以投资。
甲希望乙能将1万元资金借给自己用于开矿,并许诺在采到金子后与乙对半分成,乙是否该将钱借给甲呢?关于逆向归纳法的理性假定:所有参与人是理性的是所有参与人的共同知识2.1.B Stackelberg 模型(1934)二个企业,生产产量: q1, q2市场需求: P = a–Q, 其中Q = q1 + q2成本: C i (q i) = cq i, i = 1, 2.利润:πi (q1, q2) = Pq i–C i (q i) = (a– (q1 + q2))q i–cq i,博弈的顺序:(1) 企业1 选择q1≥ 0;(2) 企业2 观察q1然后选择q2≥ 0;(3) 收益: πi(q i, q j) = q i [P(Q) –c],其中P(Q) = a–Q, Q = q1 + q2求逆向归纳解(1)阶段2,企业2在观察q1后选择q2满足2max ≥q q 2 (a – (q 1 + q 2) – c )解出q 2 = R 2 (q 1) = 21cq a --(2)阶段1,企业 1预测到R 2 (q 1),求q 11max ≥q q 1 (a – (q 1 + R 2 (q 1))– c )=01max ≥q q 121cq a -- 解出q 1* =2c a -, q 2* =4c a -,π1*=2()8a c -π2*= 2()16a c -与 Cournot 模型比较q 1* = q 2* =3ca -,π1*=π2*= 9)(2c a -结果:先进入市场者有更多的利润。