4 重复博弈
- 格式:ppt
- 大小:391.00 KB
- 文档页数:46
聊聊四种经典的博弈论模型展开全文1、囚徒困境:为什么两个犯人都选择坐牢官差破获了一宗盗窃案,抓住了两名犯罪嫌疑人。
但在审讯过程中,被关在一处的二人始终矢口否认盗窃罪名,说东西不是我们偷的。
为了避免两人达成默契,结成攻守同盟,官差决定对他们进行单独审讯。
官差表示,如果两人中有一人坦白认罪,则可立即释放,另一个不认罪的人判5年徒刑;如果两人都坦白罪刑,则他们将各判2年徒刑。
但还有一种情况,那就是两个人都拒绝坦白,由于缺乏证据,他们只会以扰乱公共场合为名判处3个月拘役。
这就是两名罪犯面临的困境中,他们会做出怎样的选择呢?首先,他们互相之间都不清楚对方是否会坦白,其次,二人都希望将自己的刑期缩至最短。
如此考虑,最终,两名犯人都会选择坦白交代。
上面的案例就是博弈论所说的“囚徒困境”。
犯人们如果彼此合作,可为集体带来最佳利益(刑期最短);但当二人面对同样的情况且不知道对方如何选择时,在理性思考后,双方都会得出相同的结论(坦白交代),以便达到个人利益的最大化。
囚徒困境是博弈论的“非零和博弈”中具代表性的例子,反映的是个人的最佳选择并非是团体的最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
2、智猪博弈:赢的总是小猪猪圈里有大小两头猪,它们在同一个食槽里进食。
为了保持饲料的新鲜,在远离猪食槽的另一边有一个踏板,大猪或小猪跑过去,每按动一次踏板,投食口就会掉落10个单位的食物。
于是,在大猪和小猪每次进食前,就会形成这样一种局面:如果小猪跑去按踏板,大猪守在食槽边,则大猪小猪吃到的食物比是9:1;反之,如果大猪去按而小猪守在食槽边,则吃食比例是6:4。
如果二猪同时到食槽边,则吃食比是7:3。
这样一来,从纯收益的角度考虑,小猪就更愿意选择在食槽边等待食物落出,因为“等待优于行动”,而大猪只能被迫奔忙在踏板和食槽之间。
上述“智猪博弈”的案例是经济学家的假设论证模型,这个博弈的结果,用经济学视角看待,可以解释为:谁占有更多资源,谁就必须承担更多义务。
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
“善有善报”不是因果迷信在囚徒困境中,选择招供,也就是背叛是理性的,这一论断与我们的传统观念并不相符。
如果人人都这样想问题,那么诚信又从何而来呢?出现这一问题的原因是:现实中的情况和囚徒困境并不一样,困境中的两个囚徒互不相识,被判出狱后可能老死不相往来。
现实中并非如此,人们都在进行着重复的博弈,就是同样结构的博弈要重复多次,人们可能在次数不定的博弈中与其他人重复交手。
正因为如此,人们才要有诚信,诚信只是为让自己在以后的博弈中继续获得利益,这是一种长远的打算。
诚信的人一般都是聪明人,他们懂得细水长流的道理,对于“善有善报”这样的言语充满敬畏。
其实,“善有善报”的观念并不是一种迷信思想,从另一个角度看,它是有科学依据的。
如果有一个人总是出卖朋友,那么他可能会从第一次、第二次、第三次出卖中获得利益,但是长此以往,人们就会认清他的真面目,并互相传播他的劣迹。
这样,到了最后,他就会变得没有朋友可以出卖,因为他一直靠出卖朋友生存,当他没有朋友的时候,就是他穷途末路的时候,最终他只能落得众叛亲离的下场。
现在,我们明白了,诚信并不是什么了不起的美德,它也是实现利益最大化的一种手段,如果最终真的无利可图,人们便不会有诚信之举。
也许你会举出英雄人物的例子来反驳,但是英雄人物最终得到了人们的敬仰和爱戴,他们流芳百世、永垂不朽,如果他们合己为人的结果是被人指责、唾骂,遗臭万年,那么他们绝不会选择当英雄。
“一报还一报”的伟大胜利如果囚徒困境是简单的一次性博弈,使坏对于双方来说,当然都是最理性的选择。
但是,在重复性的博弈中,参与者应该怎样面对合作与背叛的问题?应该选择什么样的策略呢?著名学者爱克斯罗德所做的一个实验回答了这一问题。
实验的过程是这样的:所有参加这个实验的人都扮演“重复型”囚徒困境案例中一个区犯的角色,把自己的策略编成计算机程序,与其他程序进行一对一的博弈,在合作与背叛之间做出选择。
他们要将这个游戏以单循环赛的方式玩上200次。