4 重复博弈--博弈论
- 格式:ppt
- 大小:223.00 KB
- 文档页数:46
第8章博弈论和信息经济学8.1 复习笔记一、博弈论1.博弈论与传统经济学博弈论本质上也是研究理性的经济主体的最大化行为,但比传统经济学更进一步,认为自己的效用(以及利润或收入)函数不仅依赖于自己的决策,也依赖于他人的决策。
现实的经济生活中,新古典经济学的两个基本假设均难满足:(1)市场是不完全竞争的,市场局中人之间往往是相互影响的,因此一方在决策时必须考虑对方反应,而这一扩张恰恰是博弈论主题。
(2)现实市场中,局中人间信息通常是不充分的。
2.博弈论的基本要素博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。
在策略性环境中,每一个人进行的决策和采取的行动都会对其他人产生影响。
因此,每个人在进行策略性决策和采取策略性行动时,要根据其他人的可能反应来决定自己的决策和行动。
博弈论的基本要素包括:(1)局中人:参与博弈(对策)并承担后果的利益主体,有时也称参与人。
(2)策略集合:指所有局中人可能采取的行动方案的总和。
(3)收益:指在每种策略组合情况下局中人采取特定策略得到的结果。
3.上策均衡和纳什均衡(1)上策:指不管其他局中人采取什么策略,某一局中人都采取自认为对自己最有利的策略。
均衡指博弈中所有局中人都不想改变自己策略的一种相对静止状态。
上策均衡是指不管其他局中人采取什么策略,每个局中人都选择了对自己最有利的策略所构成的一个策略组合。
(2)纳什均衡:指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。
(3)二者关系:纳什均衡不一定是上策均衡,但上策均衡一定是纳什均衡。
如表8-1所示,该博弈没有上策均衡,(策略A,策略A),(策略B,策略B)都是纳什均衡,但不是上策均衡。
表8-1 纳什均衡4.重复博弈和序列博弈(1)静态博弈指局中人同时决策或虽非同时决策,但后决策者不知道先决策者采取什么策略的博弈。
动态博弈指局中人决策有先有后,后决策者能观察到先决策者决策情况下的博弈。
《博弈论》知识点总结归纳《博弈论》知识点总结归纳摘要:博弈论是研究决策者之间相互影响和决策制定的数学分析工具。
本文对博弈论的基本概念、解的概念、均衡理论、博弈策略和应用等方面进行了总结归纳,以帮助读者更好地理解和应用博弈论的相关知识。
关键词:博弈论、基本概念、解的概念、均衡理论、博弈策略、应用引言博弈论是研究决策者之间相互影响和决策制定的数学分析工具,源自于经济学和数学两大学科的交叉。
博弈论在经济学、管理学、政治学、社会学、计算机科学等多个领域都有广泛的应用。
本文将对博弈论的相关知识进行详细的总结和归纳。
一、基本概念1.1 博弈博弈是指决策者之间相互影响和策略选择的过程。
博弈的基本要素包括:参与者、策略、收益和信息。
1.2 参与者参与者是指博弈中的决策者,可以是个人、团体、企业、国家等。
参与者的目标是实现自身利益的最大化。
1.3 策略策略是指参与者在博弈中所能采取的行动或选择。
通常分为纯策略和混合策略。
1.4 收益收益是指在博弈中参与者根据所选择的策略所能得到的结果或利益。
收益可以用来衡量参与者的利益大小。
1.5 信息信息是指参与者在博弈中所了解的有关其他参与者或博弈环境的信息。
信息可以分为对称信息和非对称信息。
二、解的概念2.1 均衡均衡是指在博弈中各参与者选择了策略后,没有动力再改变策略,从而达到一种稳定状态。
常见的均衡概念有纳什均衡、帕累托最优和博弈解。
2.2 纳什均衡纳什均衡是指在博弈中的一组策略选择,使得每个参与者选择的策略是对其他参与者的策略选择的最佳应对,没有动机再改变策略。
2.3 帕累托最优帕累托最优是指在博弈中的一组策略选择,使得至少有一个参与者的收益达到最大,而其他参与者的收益至少不会减小。
帕累托最优是一种资源分配的有效方式。
2.4 博弈解博弈解是指在博弈中的一组策略选择,使得没参与者都没有动力再改变策略。
博弈解往往是均衡的特殊情况。
三、均衡理论3.1 零和博弈零和博弈是一种特殊的博弈形式,即参与者的利益总和为零。
聊聊四种经典的博弈论模型展开全文1、囚徒困境:为什么两个犯人都选择坐牢官差破获了一宗盗窃案,抓住了两名犯罪嫌疑人。
但在审讯过程中,被关在一处的二人始终矢口否认盗窃罪名,说东西不是我们偷的。
为了避免两人达成默契,结成攻守同盟,官差决定对他们进行单独审讯。
官差表示,如果两人中有一人坦白认罪,则可立即释放,另一个不认罪的人判5年徒刑;如果两人都坦白罪刑,则他们将各判2年徒刑。
但还有一种情况,那就是两个人都拒绝坦白,由于缺乏证据,他们只会以扰乱公共场合为名判处3个月拘役。
这就是两名罪犯面临的困境中,他们会做出怎样的选择呢?首先,他们互相之间都不清楚对方是否会坦白,其次,二人都希望将自己的刑期缩至最短。
如此考虑,最终,两名犯人都会选择坦白交代。
上面的案例就是博弈论所说的“囚徒困境”。
犯人们如果彼此合作,可为集体带来最佳利益(刑期最短);但当二人面对同样的情况且不知道对方如何选择时,在理性思考后,双方都会得出相同的结论(坦白交代),以便达到个人利益的最大化。
囚徒困境是博弈论的“非零和博弈”中具代表性的例子,反映的是个人的最佳选择并非是团体的最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
2、智猪博弈:赢的总是小猪猪圈里有大小两头猪,它们在同一个食槽里进食。
为了保持饲料的新鲜,在远离猪食槽的另一边有一个踏板,大猪或小猪跑过去,每按动一次踏板,投食口就会掉落10个单位的食物。
于是,在大猪和小猪每次进食前,就会形成这样一种局面:如果小猪跑去按踏板,大猪守在食槽边,则大猪小猪吃到的食物比是9:1;反之,如果大猪去按而小猪守在食槽边,则吃食比例是6:4。
如果二猪同时到食槽边,则吃食比是7:3。
这样一来,从纯收益的角度考虑,小猪就更愿意选择在食槽边等待食物落出,因为“等待优于行动”,而大猪只能被迫奔忙在踏板和食槽之间。
上述“智猪博弈”的案例是经济学家的假设论证模型,这个博弈的结果,用经济学视角看待,可以解释为:谁占有更多资源,谁就必须承担更多义务。
重复博弈战略是博弈论中的一个重要概念,它指的是在一个博弈过程中,双方参与者不仅仅有一次的决策,而是需要多次反复进行决策。
在这种情况下,双方的策略选择不仅受到对方当前行为的影响,还受到对方未来可能的回应的影响。
在这种情况下,参与者的决策可能会考虑自己的长期利益,而不仅仅是眼前的利益。
而以德报德、以直报怨则是在重复博弈中的一种普遍策略。
以德报德这一策略强调的是合作、信任和责任。
在重复的博弈中,如果双方能够建立起互相信任的关系,相互协作,相互帮助,就能够达成双赢的局面。
在这种情况下,双方都有动力去遵守之前达成的协议,因为他们知道良好的合作关系对双方都是有利的。
这种策略在实际生活中也得到了广泛的应用,比如商业合作中的长期合作伙伴关系、国际关系中的互惠互利原则等等。
以直报怨这一策略则是强调对于对方行为的实时回应。
在重复博弈中,如果一方采取了不公平或者对自己不利的行为,另一方可以通过采取类似的回应来进行反制。
这种策略可以有效地制衡对方的不良行为,保护自己的利益。
另外,以直报怨也可以通过对方的正当行为进行回报来增进双方的合作和信任。
这种策略在博弈论中被广泛研究,并得到了丰富的实例证明。
在现实生活中,以德报德、以直报怨这两种策略都具有重要的指导意义。
比如在企业管理中,建立合作、信任和责任的企业文化能够提高员工之间的协作效率,激励员工为企业的长期利益而努力工作。
在国际关系中,秉持互惠互利原则,遵守国际法规和公平贸易原则,能够更好地维护世界和平与稳定。
以德报德、以直报怨是在重复博弈中能够取得最优结果的普遍策略。
在实际生活中,我们也可以借鉴这些策略,促进合作、信任和责任,维护自身利益的同时也考虑对他人的尊重和回报。
只有在这样的基础上,我们才能够真正实现和谐共赢,推动社会和国际关系朝着更加美好的方向发展。
在现实生活中,我们可以看到许多成功的案例,这些案例都充分体现了以德报德和以直报怨这两种重复博弈策略的重要性。
有些企业在面对市场竞争时,选择与供应商建立长期稳定的合作关系,这样不仅能够获得更好的供应和服务,还能够建立供应商信任,形成良好的合作生态。
博弈论读书笔记(五)重复博弈2.3重复博弈从这⾥开始,就进⼊博弈论⽐较难以理解的地⽅了。
我也不跟着书上的章节⾛,根据⾃⼰的理解和书上的例⼦来写,如果理解有什么不对的地⽅,欢迎各位⼤佬的指正。
⾸先我们来明晰博弈论到底在讨论些什么:对于这个问题,前⾯⼏章的内容可能对⼤家会造成⼀定的误导。
因为根据前⾯⼏章的例⼦,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。
这句话本⾝没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒⼀样,选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明⽩我的意思)。
例如第⼀章第⼀节中囚徒困境双⽅都选择招认(因为选择合作即不招认,结果可能是被背叛)。
但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),⽽要考虑多次重复博弈的总收益。
这个时候就需要参与双⽅共同商定⼀个“协议”(例如双⽅说好都选择不招认),这个协议必须是对于双⽅都有利的(⾄少由于选择单次博弈的纳什均衡,例如双⽅不招认总⽐双⽅都招认要好),并且协议中会对不遵守规则的进⾏惩罚,以便于对每个⼈来说选择合作是最好的结果。
从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。
好了,这⼀章最核⼼的思想在这⾥已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上⾯所说的,这会对下⾯的概念理解有很⼤帮助。
2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理:定义:对个定的阶段博弈G,令G(T)表⽰G重复T次的有限重复博弈,并且在下⼀次博弈开始前,所有以前的博弈都可以被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
这个定义最重要的是引出⼀个重复博弈中收益的概念,即T次博弈的收益简单相加,后⾯我们会提到贴现的概念,不过到这⾥先理解到简单相加就⾏。
定理:如果阶段博弈G有唯⼀的纳什均衡,则对任意有限的T,重复博弈G(T)有唯⼀的⼦博弈精炼解:即G的纳什均衡结果在每⼀阶段重复进⾏。
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。