1.完全信息静态博弈实验指南(2020)
- 格式:docx
- 大小:49.74 KB
- 文档页数:7
第三章完全信息静态博弈及其纳什均衡解1.完全信息静态博弈定义 3.1.完全信息静态博弈。
完全信息静态是指,博弈中的参与人同时采取行动,或者尽管参与人行动的采取有先后顺序,但后行动的人在行动时不知道先采取行动的人采取的是什么行动;同时博弈参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识”。
两个特点:(1)静态;(2)完全信息。
完全信息静态博弈例子。
例1:锤子-剪刀-布例2:交通行驶非“完全信息静态博弈”例子:英式拍卖——动态博弈;第一密封价格及第二密封价格拍卖——不完全信息博弈。
2.纳什均衡及其判定定义3.2 纳什均衡。
在一个n人博弈的标准式G={S1,S2,…,S n; u1,u2,…,u n}中,一个策略组合{s1*,s2*,…,s n*},若满足u i(s1*,…,s i*,…s n*)≥u i(s1*,…s i,…,s n*)(i=1…n),则称这个策略组合为{s1*,s2*,…,s n*}为该博弈G的一个纳什均衡。
某策略组合是纳什均衡指的是,在该策略组合上任何一个参与人的收益在其他人策略不改变的情况下都至少是弱优的。
特点:(1)每个人没有单独改变策略的动机;(2)局部最优。
纳什均衡判定方法:用定义来判定:某点是均衡看它是否符合纳什均衡的定义。
求解纳什均衡的方法:(2)用定义来求解(3)对于策略空间为连续的博弈,用求极值的方法来求得。
3.纳什均衡存在定理:(纳什)定理3.1.在一个n人博弈的标准式G={S1,S2,…,S n; u1,u2,…,u n}中,如果n是有限的,且对每个i, S i是有限的,则博弈至少存在一个纳什均衡。
这里的均衡可能包含混合策略均衡。
证明:略例子3:囚徒困境的均衡例1:“锤子-剪刀-布”的均衡?4.混合策略与混合策略的均衡纯策略与混合策略概念。
定义.3.3.一个策略是纯策略指的是参与人策略空间中的某个确定策略;而一个混合策略是参与人策略空间上的一个概率分布,一般地,某个人i的策略空间为{s i1,s i2,…,s ik},则参与人i在策略空间上的一个概率分布p i=(p i1,p i2,…,p ik)构成他的一个混合策略,其中p i1+p i2+…+p ik=1。
袈第四章完全信息动态博弈及其均衡解蝿1.完全且完美信息动态博弈蒆完全信息博弈指的是参与者的收益是共同知识。
螄完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。
因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;( 3)每一可能的行动组合下的参与人的收益都是公共知识。
羈而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。
:假定甲在开采一个价值4万元的金矿时需要1 万元资金,乙有袅例4.1 .我们来考虑这样一个动态博弈1万元资金。
甲向乙借钱来开金矿。
在这个博弈的第一阶段,甲向乙承诺:如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2 , 3)――乙得到2万元的金子,同时收回自己的1万元投资。
对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。
如果乙借钱给甲的话,那么博弈进入第二个阶段。
在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2 , 3),其中1万元为投资成本。
〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段:如果乙同甲打官司,那么由于打官司费时费力,两个人的收益为(0 , 1);若乙不打官司,那么两个人的收益就为(5 , 0)。
参见图1。
膄甲肇乙不借葿(1, 2) ( 5, 0)芄图1.借钱博弈的博弈树袂蚆2.逆向归纳法与子博弈纳什均衡解羆逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动, 逐步逆推到博弈开始时进行第- 步的参与人的最优行动,从而确定每个参与人的最优行动。
蚁在动态博弈中逆向归纳法能够进行的前提: 参与人是理性的 任何一步参与人都选择 最优策略;理性是公共知识一一参与人选择最优策略是其他人所能够预测的。
西方经济学实验一:完全信息静态博弈实验指南一、博弈论概述博弈论(game theory)又被称为“对策论”、“赛局论”。
博弈论是研究相互依赖、相互影响的决策主体的理性决策行为及这些决策的均衡结果的理论。
博弈主要包括局中人、行动、信息、战略、支付(效用)、结果和均衡等要素,其中,局中人、战略和支付是描述一个博弈所需的最少要素。
局中人、行动和结果统称为“博弈规则”。
(1)依据博弈参与者相互作用时能否达成一个具有约束力的协议,可将博弈分为合作博弈和非合作博弈。
如果有具有约束力的协议,就是合作博弈;如果没有,就是非合作博弈。
(2)依据博弈局中人行为的时间序列性,可将博弈分为静态博弈、动态博弈两类。
静态博弈是指在博弈中,局中人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
(3)按照局中人对其他局中人的了解程度,可将博弈分为完全信息博弈和不完全信息博弈。
完全信息博弈是指在博弈过程中,每位局中人对其他局中人的特征、策略空间及收益函数有准确的信息。
不完全信息博弈是指如果局中人对其他局中人的特征、策略空间及收益函数信息了解得不够准确,或者不是对所有局中人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。
目前经济学家们所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博理论复杂,在理论上的成熟度远远不如非合作博弈论。
非合作博弈可分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈,其对应的均衡概念和理论研究的代表人物如表1所示。
(1)纳什均衡纳什均衡(Nash equilibrium)的核心思想是:博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。
纳什均衡有一个很重要的特点,是可以自我实施的,即信念和选择之间的一致性。
就是说,基于信念的选择是合理的,同时支持这个选择的信念也是正确的。
如果所有人都认为这个结果会出现,这个结果就真的会出现。
如果局中人事前达成一个协议,在不存在外部强制的情况下,每个人都有积极性遵守这个协议,这个协议就是纳(2)混合战略纳什均衡工人偷懒 不偷懒老板监督 不监督员工不偷懒、老板不监督是最好的(总收益最大)但如果员工知道老板不监督,员工则偷懒;如果老板知道员工偷懒,老板则监督……形成一个循环。
假如老板认为员工偷懒的概率是P ,不偷懒的概率是1-P ,从老板的角度看,监督的预期收益是: 1×P+(-1)×(1-P)=2P-1……(1) 不监督的预期收益为: (-2)×P+2×(1-P)=1-4P ……(2) 令(1)=(2),得P=1/3,这时,员工选择以1/3的概率偷懒,2/3的概率不偷懒,老板监督与不监督,老板的收益一样的。
假如员工认为老板监督的概率为Q ,不监督的概率为1-Q ,这时,从员工的角度,偷懒的预期收益是: (-1)×Q+3×(1-Q)=3-4Q (3)不偷懒的预期收益为: 2×Q+2×(1-Q)=2 (4)要使员工的选择在这两者之间无差异,则令(3)=(4),得Q=1/4;意味着老板以1/4的概率监督,3/4的概率不监督,员工的的收益一样的。
因此,混合战略纳什均衡是:员工以1/3的概率偷懒,2/3的概率不偷懒;老板以1/4的概率监督,3/4的概率不监督。
***纳什均衡的存在性问题:(一般存在奇数个纳什均衡)1、每一个有限博弈至少存在一个纳什均衡(纯战略或混合战略);2、如果一个博弈存在两个纯战略纳什均衡,那么,一定存在第三个混合战略纳什均衡。
(3)高风险下的纳什均衡在一些特殊情况下,即使犯错误的可能性很小也可能导致大的灾难(比如核电站,出问题就非常严重),纳什均衡就可能不会产生有说服力的解释。
考虑如下博弈:乙甲上下 这个例子说明,个体可能不想我们所假设的那样完全理性,在遇到高风险的情况下,人们会考虑风险,从而使得最终结果可能偏离纳什均衡战略。
(4)占优策略均衡在一些特殊博弈中,一个局中人的最优策略选择可能并不依赖于其他局中人的策略选择,即无论其他局中人选择什么策略,他的最优策略是唯一的,这种最优策略被称为“占优策略”。
该策略只要求行动者是理性的,对手是否理性不作要求。
在一个博弈里,如果所有局中人都有占优策略存在,那么占优策略均衡是可以预测到的唯一的均衡,因为没有一个理性的局中人会选择劣策略。
(5)重复剔除占优均衡“劣”战略:无论对方选择什么,如果自己选择A 得到的收益总是小于选择B 得到的收益,A 就是相对于B 的劣战略。
把这个劣战略剔除;然后再剔除剩下的博弈中对手的劣战略;继续这个过程,直到没有劣战略存在。
如果剩下的战略组合是唯一的,这个唯一的战略组合就是“重复剔除占优均衡”。
最初的智猪博弈收益矩阵首先剔除小猪行动劣策略所得的收益矩阵为: 其次,再剔除了大猪等待劣策略的智猪博弈均衡小猪小猪 小猪大猪 行动大猪 行动 大猪行动等待等待 等待理性共识:0阶理性共识:每个人都是理性的,但不知道其他人是否是理性的;1阶理性共识:每个人是理性的,并且知道其他每个人也都是理性的,但并不知道其他人是否知道自己是理性的;2阶理性共识:每个人是理性的,并且知道其他每个人也都是理性的,并且知道其他人知道自己是理性的,但不知道其他人是否知道自己知道其他人都是理性的……三阶、四阶……n 阶依次类推。
重复剔除不仅要求每个人是理性的,而且要求每个人知道其他人都是理性的,每个人知道每个人知道每个人是理性的,如此等等,即理性是“共识”。
(1)囚徒困境:假定有两个犯罪嫌疑人共同作案。
警察抓住他们以后,分开拘押,并告诉他们:可以选择坦白,或是不坦白;如果一个人坦白,而另一个人不坦白,则坦白的一方会被立即释放,而不坦白的一方被判10年;如果两人都坦白,则会每人各判8年;如果两人都抵赖,因证据不足,则每人在关押1年后释放。
那么,这两个犯罪嫌疑人该如何选择呢?该博弈体现了哪种均衡?乙甲坦白 不坦白我们假设局中人是理性的,都不想坐牢,能少坐牢尽量少坐牢。
我们先考虑甲的选择,他面对的问题是:如果乙坦白的话,自己坦白判8年,不坦白判10年,那么坦白比不坦白好;如果乙不坦白,自己坦白会被立即释放,不坦白则判1年,坦白还是比不坦白好。
因此,不论对方坦白不坦白,甲或乙自己的最优选择都是坦白。
由囚徒困境我们可以看出,一个人的最优选择并不依赖于他人的选择,因此囚徒困境博弈有占优均衡,所以其结果很容易预测。
(2)智猪博弈假设猪圈里有一头大猪、一头小猪。
猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,谁先按按钮,谁会后到食槽边。
而且按按钮的那一方就少吃2个单位的食物(按按钮的成本),若大猪按按钮,那么小猪先到槽边,大小猪吃到食物的收益比是4∶4,如果两只猪同时按按钮,它们同时到槽边,大小猪吃到的食物比是5∶1;如果小猪按按钮,那么大猪先到槽边,大小猪吃到的食物比是9∶-1;当然如果两只猪都选择等待,那么没有食物进入食槽,两只猪的收益比就为0:0。
小猪行动 等待(3)混合战略纳什均衡足球队的点球手走向罚球点时需要做一个重要决策:踢向网的左边还是右边(为了简单起见,忽略踢向中间或高球或低平球的选项)。
守门员将力图预测点球手的行为,决定扑向左边还是右边。
如果他扑向了罚点球的方向,那他很有可能将球扑出;如果他扑错了方向,那点球手就很可能取得进球。
再次地,为了简单起见,假定守门员扑的方向正确就一定能扑出点球,不正确就会失球。
相应的支付矩阵:守门员点球手左右下地通过抛硬币来决定你罚点球的方向。
正面朝上就踢向右边,反面朝上就踢向左边;或者反之。
如果某个局中人有n 个纯战略,那么,混合战略就是在这n 个纯战略上的概率分布 (p 1,p 2,...,p n ),即以 p i 的概率选择纯战略i,11=∑=ni ip。
若p i =0,则说明纯战略i 被选到的概率为0。
indifferent )。
原因在于,如果某个纯战略严格地好于其他纯战略,那么,该局中人应该以1的概率选择那个纯战略,而这与混概率选择的纯战略差。
原因在于,如果局中人的均衡混合战略中以正概率选择的纯战略比以0概率选择的纯战略差,那么,该局中人的那个所谓均衡混合战略就不是他的最优选择,这与混合战略纳什均衡矛盾。
(2)梅西罚丢点球应该得到原谅! (3)博弈论的主旨是换位思考。
二、实验目的通过完全信息静态博弈实验,使学生直接参与博弈游戏并亲身感受“囚徒困境”,从而让学生进一步理解博弈论中的占优战略、纳什均衡等有关概念,并能够应用这些概念分析完全信息静态博弈问题。
三、实验过程1、实验材料(扑克牌)一副,用作标记实验参与者身份及编号;2、每位实验参与者有1份“完全信息静态博弈实验者收益记录表”,8轮均有“完全信息静态博弈决策(第X 轮)”;3、工作人员填写“完全信息静态博弈实验记录表”、“完全信息静态博弈实验数据汇总表”、“完全信息静态博弈实验全班收益汇总表”。
1、抽取4-5人为试验工作人员,保证全班按照偶数原则落实实验参与者。
2、按红、黑扑克牌颜色将实验者分为两组,编号分别为A1、A2、……An;编号分别为B1、B2、……Bn。
A组坐教室一边,B组坐教室另一边,中间隔离,方便工作人员收发扑克牌。
3、按照特定牌落实工作人员。
1、在博弈过程中不允许合谋、欺诈欺骗等行为发生,出牌前不能让对方任何人看到自己的决策;2、每个实验者都以追求最大收益为目标;3、每位实验参与者在每轮博弈中仅可做出“红”或“黑”的选择。
4、本实验分两个阶段共8轮实验,每轮实验流程相同。
首先,AB两组工作人员随机发牌,每位实验参与者需要确定自己的牌和身份编号。
分发“完全信息静态博弈实验者收益记录表”,每位实验参与者填写相关信息。
其次,AB两组工作人员分发“完全信息静态博弈决策”,每位实验参与者填写“完全信息静态博弈决策”,并在“完全信息静态博弈实验者收益记录表”中记录“我的牌”、“我的编号”、“我的决策”。
将填写好的“完全信息静态博弈决策”交给本组的工作人员。
第三,AB组工作人员清点“完全信息静态博弈决策”无误后,交给统计人员。
第四,AB组工作人员回收扑克牌,洗牌,等待“本轮实验结束,开始下一轮实验”指令。
5、教师公布配对博弈规则,工作人员记录每轮每对实验参与者的决策结果,填写每一轮的“完全信息静态博弈实验记录表”。
记录完毕以后,向全体实验参与者宣读配对结果,全体实验参与者自行计算本轮个人收益,并将结果填入“完全信息静态博弈实验者收益记录表”。