重复博弈
- 格式:doc
- 大小:42.00 KB
- 文档页数:6
©2008仅供课程参考。
未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。
未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。
•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
如囚徒困境。
•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同时行动。
©2008仅供课程参考。
未经许可,请勿传播3重复博弈©2008仅供课程参考。
未经许可,请勿传播4重复博弈©2008仅供课程参考。
未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
©2008仅供课程参考。
未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。
未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
4.重复博弈问题:在旅游地很容易出现假货,而在居民小区的便利店则很少出现假货,为什么?重复博弈是指由同样结构的基本博弈重复多次进行构成的博弈过程,其中的每次博弈称为阶段博弈。
给定一个基本博弈G(可是静态或动态博弈),重复进行T次G,并且在每次重复G之前各参与人都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。
而G 则称为G(T)基本博弈,G(T)中的每次重复称为G(T)的一个“阶段”重复博弈具有三个特征:1、阶段博弈之间没有“物质上”的联系(no physical links),即前一阶段的博弈不改变后一阶段博弈的结构。
(每阶段博弈的结构相同,都是独立的)2、所有参与人都能观察到博弈过去的历史(完全信息)。
3、参与人的总支付是所有阶段博弈支付的贴现值或加权平均值。
参与人是从总支付最大化的角度进行决策的。
在长期内,参与人之间的行为可能相互影响,合作或者报复不合作者(便利店老板就比较害怕报复),这样,在博弈的一个阶段支付大并不意味着在长期内的支付也大,所以,在重复博弈中参与人必须考虑到长期利益。
现实中的例子:寡头门在市场上的长期竞争,如价格战,市场份额战等;两个企业履行长期协议;商业中的回头客等4.1有限次重复博弈重复次数较少的有限次重复博弈可以不考虑贴现问题。
4.1.1零和博弈有限次重复博弈在零和博弈中,一方所得及为另一方所失,因而即使重复多,也不可能进行合作或报复,所以零和博弈的重复进行对博弈没有影响。
以猜硬币博弈为例,用逆向归纳法证明如下:在博弈的最后阶段T,纳什均衡是双方各以0.5的概率选择正面或反面;在博弈的T-1阶段,纳什均衡纳什均衡是双方各以0.5的概率选择正面或反面;.......上述结论也可以推广到非零和或多个博伊方,但博弈方的利益严格对立,没有纯策略纳什均衡的严格竞争博弈中。
4.1.2存在唯一纯策略纳什均衡博弈的有限次重复博弈参与人的行为不会因为博弈的有限次重复而发生改变,例一:连锁店在位者默许斗争不进入在此博弈中,如果进入者先行动,唯一的子博弈精炼纳什均衡结果是进入者进入,在位者默许(注意,这是一个两阶段动态博弈)。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
再重复博弈中,参与人存在着短期利益和长远利益的均衡,有可能为了长远利益牺牲短期利益而选择不同的均衡策略。
有限次重复博弈和无限次重复博弈。
什么是有限次重复博弈
有限次重复博弈是指相同结构的博弈有限次重复进行
无限次重复博弈与有限次重复博弈的共同点:试图“合作”和惩罚“不合作”是实现理想均衡的关键
所谓重复博弈,是指将一个博弈重复进行下去。
我们知道,在单个的囚徒困境博弈中,双方采取对抗的策略可使个人收益最大化
如果就一次性博弈来看,(对抗,对抗)是必然的结果
恋人们之间的博弈。
重复博弈同样可以用来解释商业行为。
■诚信来自重复博弈
:“诚信奇迹无人卖报摊三年口袋里从没少过钱”。
,吴师傅的关于“不敢拿”的判断,似乎更为符合博弈学原理。
我们可以把这个“诚信报摊”看作摊主与买报人之间的博弈,而从博弈过程来看,“诚信报摊”成立第一天那种“每个博弈者都只关心一次性支付的简单博弈”已经转变成了“重复的、连续进行的博弈”
“有仇就报,马上就报”如果用博弈论的观点来解释,则可以简单地描述为“针锋相对策略”。
这个如此简单的策略之所以反复赢得竞赛,是因为它奉行了针锋相对的法则,说白了就是一报还一报,即“人不犯我,我不犯人;人若犯我,我必犯人”,但它坚持“有理、有利、有节”的尺度,并且用以下有规律可供遵循的行为将对手纳入长期合作的轨道上来:
第一,善良的,即从不首先背叛;
第二,可激怒的,对于对方的背叛行为一定要报复,不能总是合作;
第三,宽容的,不能人家一次背叛,你就没完没了地报复,以后人家只要改为合作,你也要合作;
第四,易于察觉的,即逻辑清晰,使对手能够很轻易地发现你采取策略的规律,并且领会你的意图。
“针锋相对策略”在实际生活中可以被广泛地应用:
重复博弈:冲突与合作方能共存
一、军队的群体目标下的多人重复博弈
高度统一的一致行动的能力,这就是我们通常所说的战斗力,这是军队能遂行各种任务的前提。
为了实现这一群体目标,军队对于其成员关系、交往方式、群体意识都作了严格的要求,对于分工和群体内规范也都作了细致的安排。
除了这些以外,军队还必须把搞好内部团结,维护整体利益的原则作为管理的一般标准。
二、权威型的管理方式下的管理策略要求
如前所述,军官实行的是权威型的管理方式。
按照这种管理方式,军官必须在大多数情况下独自决定群体决策及分配任务,其策略选择对军队整体有着绝对的影响。
因此,军官通过自己的行为策略对军队施加影响具有了可能性。
(一)对于不合作的违纪情况管理不力(二)对于不同的士兵施用不同的尺度(三)对于有过不合作行为的士兵进行反复的惩罚。
(四)群体目标不明确
三、“一报还一报”策略与管理策略选择
对于这样的条件下的社会群体合作问题,美国学者罗伯特·艾克斯罗德(Robert Axelrod)在多人合作的囚徒困境重复博弈中的研究成果很值得我们参考。
艾克斯罗德假设群体成员能够在无限多次囚徒困境当中不断调整自己的选择,根据以往选择的结果来选择下一次不合作或是合作,并能够把多次的有规律性的选择作为自己的策略。
艾克斯罗德做了一个有趣的实验,
艾克斯罗德发现,这个程序有五个特点:
第一,从不首先采取不合作,即“善良的”;
第二,对于对方的不合作行为一定要报复,不能总是合作,即“ 可激怒的”;
第三,不能对方一次不合作,就没完没了的报复,以后对方只要改为合作,自己也要合作,即“宽容性”。
第四,自己的策略简单而有效
第五,即“不妒忌他人”。
以上的结论意味着,军官在管理的过程中,应该在强调军队纪律与思想教育等手段的基础上,参照以上的行为特点来制定自己的博弈策略。
首先,对于所有的士兵,在第一次博弈中,都应采取善意的合作方式,对士兵的自觉性与能动性给予充分的信任。
其次,对于采取不合作行动,违犯纪律的士兵,一定要说到做到地进行惩罚,军官对士兵的惩罚实际上就是对士兵的不合作,但是注意的是,军官在对不合作者进行惩罚的时候,不能因此使集体的利益受到损害。
再次,对于在下一次博弈中选择了合作的违纪士兵,军官也应该采取合作,采取信任的态度。
第四,军官应该在较短的时间之内,通过口头表达和实际行动,明确自己的策略,使士兵能够迅速地掌握军官的行为方式,从而理解规则,在博弈中调整自己的选择。
最后,军官要坚持自己的策略,不要因为某些士兵在博弈中暂时凭小聪明取得了一时的个人利益而改变自己的策略,这样就能维持规则的稳定性,并且更能在群体中坚持既有的群体目标。
四、军官倡导的“一报还一报”策略会使群体走向合作
“一报还一报”的策略在静态群体的博弈中得到了很好的分数,那么,在一个动态的进化的群体中,持“一报还一报”策略的合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾克斯罗德用生态学的原理来分析合作的进化过程。
为什么我们可以期望群体发生进化呢,因为人们在多人反复博弈中会有一种改变自己策略的能力。
第一,试错。
例如士兵在一个陌生的环境中,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。
第二,影响。
例如一个士兵的合作性好,那么他的周围的士兵受他的影响,合作的可能性就大。
第三,学习。
反复博弈的过程就是群体成员相互学习的过程,如果“一报还一报”的策略好,那么有的人就愿意学。
按这样的思路,艾克斯罗德设计了另一个实验,在63个程序中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。
这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
实验结果很有趣。
“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。
另外,有一些程序在进化过程中消失了。
因此,可以得出结论,群体是越来越合作的。
以上的结论意味着,假如军官在军队内部管理的博弈中,坚持“一报还一报”策略,可以有效地维持军队内部的合作状态,更能改变士兵的个体策略,使他们也逐步采取“一报还一报”策略,逐步地都在博弈中选择合作。
随着持“一报还一报”策略的群体成员不断增多,不仅仅军队内部的合作性会得到加强,凝聚力和战斗力能够得到保障,更能够创造出一种“官管兵,兵管兵,兵管官”的民主带兵氛围,增加士兵对于部队的主人翁意识,发挥出士兵最大的能动性。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。
"
一报还一报"在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。
它赖以生存的基础是很牢固的,因为它让对方得到了高分
只要群体的5%或更多成员是"一报还一报"的,这些合作者就能生存,而且,
2. 只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个
群体。
3. 反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自
下而上的。
在研究中发现,合作的必要条件是:
第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;
第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。
那么,如何提高合作性呢?
首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。
(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的时候一方总是要小小地进攻一
下的,在中越前线就是这样)
第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。
第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合
作。
第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步
进行,以促使对方采取合作态度。
第五、不要嫉妒人家的成功,"一报还一报"正是这样的典范。
第六、不要首先背叛,以免担上罪魁祸首的道德压力。
第七、不仅对背叛要回报,对合作也要作出回报。
第八、不要耍小聪明,占人家便宜。
(打桥牌和打麻将的区别)
第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,
也有可能合作。
第二、预见性也不是合作的前提,悔过的一报还一报"效果越好,"宽大的一报还一报"效果
越差。