当前位置:文档之家› 重复博弈概述(20200619070956)

重复博弈概述(20200619070956)

平新乔微观经济学十八讲课后习题详解(第12讲子博弈及完美性)

4n 平新乔《微观经济学十八讲》第 12讲 子博弈与完美性 跨考网独家整理最全经济学考研真题,经济学考研课后习题解析资料库,您可以在这里 查阅历年经济学考研真题, 经济学考研课后习题,经济学考研参考书 等内容,更有跨考考研 历年辅导的经济学学哥学姐的 经济学考研经验,从前辈中获得的经验对初学者来说是宝贵的 财富,这或许能帮你少走弯路,躲开一些陷阱。 以下内容为跨考网独家整理,如您还需更多考研资料,可选择经济学一对一在线咨询进 行咨询。 1.在Bertrand 价格博弈中,假定有n 个生产企业,需求函数为p Q a Q ,其中p 是 m a c i 4n 考虑时期t 企业i 的选择,给定其他企 业按照垄断条件生产,若企业仍遵守垄断定价, 那么它从t 期开始的利润的现值为:那么它的利润最大化问题就是: 由一阶条件得: Q i , t 厂商i 相应的利润为: 2 2 n 1 a c i ,t 2 --------------- 16n 又因为在t 期,企业i 不遵守垄断定价规则,所以从 t 1期开始,它的利润就恒为零。 市场价格,Q 是n 个生产企业的总供给量。 假定博弈重复无穷多次, 每次的价格都立即被观 测到,企业使用“触发策略” (一旦某个企业选择垄断价格,则执行“冷酷策略” )。求使垄 断价格可以作为完美均衡结果出现的最低贴现因子 解:(1)①当n 个企业合谋时: 假设该行业中任一企业的边际成本恒为 ?解释与n 的关系。 n 个生产企业的总利润函数为: pQ cQ cQ 利润最大化的一阶条件为: 此时垄断价格为: d dQ 2Q Q m 从而垄断的总利润和每个厂商的利润分别为: 解得垄断总产出为 Q m 节。 2 c 4 2 -,i 1, 2 ,卅,n 4n 1 ②当有企业背叛时: 给定其他企业按照垄断条件生产,即 Q ; t n 1 a 2n c 。若企业i 选择背离垄断价格, max Q i,t Q i,t Q m i,t cQ i ,t

平新乔《微观经济学十八讲》(课后习题 第12讲 子博弈与完美性)【圣才出品】

第12讲子博弈与完美性 1.在Bertrand 价格博弈中,假定有n 个生产企业,需求函数为()p Q a Q =-,其中p 是市场价格,Q 是n 个生产企业的总供给量。假定博弈重复无穷多次,每次的价格都立即被观测到,企业使用“触发策略”(一旦某个企业选择垄断价格,则执行“冷酷策略”)。求使垄断价格可以作为完美均衡结果出现的最低贴现因子σ?解释σ与n 的关系。 解:(1)①当n 个企业合谋时: 假设该行业中任一企业的边际成本恒为c ,0a c >>。n 个生产企业的总利润函数为: ()()2pQ cQ a Q Q cQ Q a c Q π=-=--=-+-利润最大化的一阶条件为: d 20d Q a c Q π=-+-=,解得垄断总产出为2 m a c Q -=。此时垄断价格为: 2m m a c p a Q +=-=从而垄断的总利润和每个厂商的利润分别为:()24m a c π-=() 2,1,2,,4m i a c i n n π-== 考虑时期t 企业i 的选择,给定其他企业按照垄断条件生产,若企业仍遵守垄断定价,那么它从t 期开始的利润的现值为: ()()() 241i a c m n πσ-=-②当有企业背叛时: 给定其他企业按照垄断条件生产,即()12m i t n Q a c n --=-,。若企业i 选择背离垄断价格,那么它的利润最大化问题就是:

(),,,,max m i t i t i t i t Q a Q Q cQ ----由一阶条件得: ()14i t n Q a c n +=-,厂商i 相应的利润为: ()() 22 2116i t n a c n π+-=,又因为在t 期,企业i 不遵守垄断定价规则,所以从1t +期开始,它的利润就恒为零。因此(),i i t b ππ=,其中b 代表背叛垄断定价。 为了使垄断价格可以作为子博弈完美纳什均衡的结果出现,那么合谋时企业利润的现值就不应当低于背叛时的现值,即()()i i m b ππ≥,从而解得贴现因子的最小值为: 2 min 211n σ??=- ?+??(2)因为min σ关于n 单调递增,这就意味着:n 越大,即行业中的企业越多时,不遵守垄断规则,图一时好处的吸引力就越大,因此,只有通过更高的折现率来提高未来收益在利润中的权重,才能保持厂商遵守垄断规则。 2.表12-1给出了一个两人的同时博弈,若这个同时博弈进行两次,第二次博弈是在知道第一次博弈的前提下进行的,并且不存在贴现因子。收益(4,4)能够在纯策略的子博弈完备的纳什均衡中作为第一次博弈的结果吗?如果它能够,给出策略组合;如果不能够,请说明为什么不能? 表12-1博弈的支付矩阵

平新乔课后习题详解(第10讲--策略性博弈与纳什均衡)

平新乔《微观经济学十八讲》第10讲 策略性博弈与纳什均衡 1.假设厂商A 与厂商B 的平均成本与边际成本都是常数,10A MC =,8B MC =,对厂商产出的需求函数是 50020D Q p =- (1)如果厂商进行Bertrand 竞争,在纳什均衡下的市场价格是多少? (2)每个厂商的利润分别为多少? (3)这个均衡是帕累托有效吗? 解:(1)如果厂商进行Bertrand 竞争,纳什均衡下的市场价格是10B p ε=-,10A p =,其中ε是一个极小的正数。理由如下: 假设均衡时厂商A 和B 对产品的定价分别为A p 和B p ,那么必有10A p ≥,8B p ≥,即厂商的价格一定要高于产品的平均成本。其次,达到均衡时,A p 和B p 都不会严格大于10。否则,价格高的厂商只需要把自己的价格降得比对手略低,它就可以获得整个市场,从而提高自己的利润。所以均衡价格一定满足10A p ≤,10B p ≤。但是由于A p 的下限也是10,所以均衡时10A p =。给定10A p =,厂商B 的最优选择是令10B p ε=-,这里ε是一个介于0到2之间的正数,这时厂商B 可以获得整个市场的消费者。综上可知,均衡时的价格为10A p =,10B p ε=-。 (2)由于厂商A 的价格严格高于厂商B 的价格,所以厂商A 的销售量为零,从而利润也是零。下面来确定厂商B 的销售量,此时厂商B 是市场上的垄断者,它的利润最大化问题为: max pq cq ε>- ① 其中10p ε=-,()5002010q ε=-?-,把这两个式子代入①式中,得到: ()()0 max 1085002010εεε>----???? 解得0ε=,由于ε必须严格大于零,这就意味着ε可以取一个任意小的正数,所以厂商B 的利润为:()()500201010εε-?--????。 (3)这个结果不是帕累托有效的。因为厂商B 的产品的价格高于它的边际成本,所以 如果厂商B 和消费者可以为额外1单位的产品协商一个介于8到10ε-之间的价格,那么厂商B 的利润和消费者的剩余就都可以得到提高,同时又不损害厂商A 的剩余(因为A 的利润还是零)。 2.(单项选择)在下面的支付矩阵(表10-1)中,第一个数表示A 的支付水平,第二个数表示B 的支付水平,a 、b 、c 、d 是正的常数。如果A 选择“下”而B 选择“右”,那么: 表10-1 博弈的支付矩阵

重复博弈

影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。再重复博弈中,参与人存在着短期利益和长远利益的均衡,有可能为了长远利益牺牲短期利益而选择不同的均衡策略。 有限次重复博弈和无限次重复博弈。 什么是有限次重复博弈 有限次重复博弈是指相同结构的博弈有限次重复进行 无限次重复博弈与有限次重复博弈的共同点:试图“合作”和惩罚“不合作”是实现理想均衡的关键 所谓重复博弈,是指将一个博弈重复进行下去。我们知道,在单个的囚徒困境博弈中,双方采取对抗的策略可使个人收益最大化 如果就一次性博弈来看,(对抗,对抗)是必然的结果 恋人们之间的博弈。 重复博弈同样可以用来解释商业行为。 ■诚信来自重复博弈 :“诚信奇迹无人卖报摊三年口袋里从没少过钱”。 ,吴师傅的关于“不敢拿”的判断,似乎更为符合博弈学原理。我们可以把这个“诚信报摊”看作摊主与买报人之间的博弈,而从博弈过程来看,“诚信报摊”成立第一天那种“每个博弈者都只关心一次性支付的简单博弈”已经转变成了“重复的、连续进行的博弈” “有仇就报,马上就报”如果用博弈论的观点来解释,则可以简单地描述为“针锋相对策略”。。 这个如此简单的策略之所以反复赢得竞赛,是因为它奉行了针锋相对的法则,说白了就是一报还一报,即“人不犯我,我不犯人;人若犯我,我必犯人”,但它坚持“有理、有利、有节”的尺度,并且用以下有规律可供遵循的行为将对手纳入长期合作的轨道上来: 第一,善良的,即从不首先背叛; 第二,可激怒的,对于对方的背叛行为一定要报复,不能总是合作;

第三,宽容的,不能人家一次背叛,你就没完没了地报复,以后人家只要改为合作,你也要合作; 第四,易于察觉的,即逻辑清晰,使对手能够很轻易地发现你采取策略的规律,并且领会你的意图。 “针锋相对策略”在实际生活中可以被广泛地应用: 重复博弈:冲突与合作方能共存 一、军队的群体目标下的多人重复博弈 高度统一的一致行动的能力,这就是我们通常所说的战斗力,这是军队能遂行各种任务的前提。为了实现这一群体目标,军队对于其成员关系、交往方式、群体意识都作了严格的要求,对于分工和群体内规范也都作了细致的安排。除了这些以外,军队还必须把搞好内部团结,维护整体利益的原则作为管理的一般标准。 二、权威型的管理方式下的管理策略要求

博弈论第四章习题

第四章习题 一、如果T次重复齐威王田忌赛马,双方在该重复博弈中的策略是什么?博弈结果如何? 答:因为这是零和博弈,结论比较具体。重复Nash 均衡,均以1/6的概率选择各个策略,期望收益分别为1和-1。 因为这是竞争性的零和博弈,无论是有限次重复博弈还是无限次的重复博弈,均不能达成合作的条件。 二、举出现实生活中的一个重复博弈与一次性博弈效率不同的例子。 答:火车站和机场餐饮业的服务的顾客往往是一次性的,回头客和常客也比较少,价格高,质量差,一次性博弈。效率也比较低。 商业区和居民区的餐饮业和商业服务业,回头客和常客比较多,比较注重信誉,质优、价廉,重复博弈。效率也比较高。 三、有限次重复博弈和无限次重复博弈有什么区别?这些区别对我们有什么启发?

答:动态博弈的逆向归纳法可以用于有限次重复博弈,但不能用于无限次重复博弈,主要用逆向归纳法。 无限次重复博弈的效率往往高于有限次重复博弈。当重复次数较少不一定考虑贴现问题,但无限次重复博弈必须考虑贴现问题。 启发:重视有限次与无限次的区别,区分和研究这两类博弈,在实践方面重要启发是促进和保持经济的长期稳定和可持续发展,提高社会经济效率是非常有意义的。 四、判断下列表述是否正确,并作简单讨论: (1)有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。 答:不一定。对于有两个以上纯策略纳什均衡的条件下就不一定。如“触发策略”就不是。 (2)有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。 答:是,根据子博弈完美纳什均衡的要求,最后一次必须是原博弈的一个纳什均衡。 (3)无限次重复博弈均衡解的得益一定优于原博

博弈论分析报告:重复博弈现象分析

博弈论分析报告 重复博弈现象分析 现代经济学里,博弈论(GameTheory,又名对策论)已经成为十分标准的分析工具。而完全信息静态博弈是一种最简单的博弈,重复博弈则是完全信息静态博弈论的一种进化。重复博弈有下列三项基本特征:阶段博弈之间没有“物质上”的联系,即前阶段的博弈不改变后一阶段的结构;所有参与人都观测到博弈过去的历史;参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。 在博弈论课堂所做的两人重复博弈作业,属于多轮次的典型囚徒困境博弈。根据囚徒困境的说法,个人最佳选择为不合作(招供)时可以达到纳什均衡,然而却达不到都合作(不招供)时的个人利益最大化。因此,如何获得全部的信息在重复博弈的环境中显得至关重要。这一点,从课堂同学们的决策中可以明显的看出来。正是由于每一轮博弈后可以根据其结果来修正下一轮的选择,在经过几轮的信息交换后,大家基本可以明确博弈双方的态度,在一方释放合作意愿的情况下,采取合作态度(不招供)的人数会大幅度上升,带来双方收益的上升。相反,在发现博弈对手采取不合作的情况下,自己往往会采取“以牙还牙,以眼还眼”的跟随策略,双方最终陷入多轮的囚徒困境,收益也会大为减少。从同学们提交的数据中可以明显看出这一情况。另一方面,在10轮的博弈过程中,随着轮次的增加,双方的信息越来越清楚,采取合作态度的博弈者就越多,在后几轮可以稳定的达到70%以上,说明重复博弈的情况下,单次博弈经常出现囚徒困境现象会得到明显改善。 在现实生活中,单次的囚徒博弈情况其实比较少见,而重复博弈的情况则比较普遍,因此研究重复博弈对于我们的工作生活有着更加明显的指导意义。其中,一个比较常见的重复博弈现象就是电商和网购。网购双方形成了与囚徒博弈类似的博弈情况:买方和卖方都可以选择诚信和不诚信,对于单次博弈的情况,选择

平新乔课后习题详解(第11讲--广延型博弈与反向归纳策略)

平新乔《微观经济学十八讲》第11讲广延型博弈与反向归纳策略 1.考虑图11-1所示的房地产开发博弈的广延型表述: (1)写出这个博弈的策略式表述。 (2)求出纯策略纳什均衡。 (3)求出子博弈完美纳什均衡。 图11-1 房地产开发商之间的博弈 解:(1)开发商A的策略为:①开发,②不开发。 开发商B的策略为: ①无论A怎样选择,B都会选择开发;用(开发,开发)表示。 ②当A选择开发时,B选择开发;当A选择不开发时,B选择不开发;用(开发,不开发)表示。 ③当A选择开发时,B选择不开发;当A选择不开发时,B选择开发;用(不开发,开发)表示。 ④无论A怎样选择,B都会选择不开发;用(不开发,不开发)表示。 房地产开发博弈的策略式表述如表11-1所示: 表11-1 房地产开发商之间的博弈 (2)对于任意的参与人,给定对手的策略,在他的最优策略对应的支付下面画一条横线。对均衡的策略组合而言,相应的数字栏中有两条下划线,所以本题共有三个纯策略纳什均衡(如表11-1所示),它们分别为: ①{不开发,(开发,开发)};②{开发,(不开发,开发)};③{开发,(不开发,不开发)}。 (3)利用反向归纳法可知,子博弈完美的纳什均衡为{开发,(不开发,开发)}。 2.你是一个相同产品的双寡头厂商之一,你和你的竞争者生产的边际成本都是零。而市场的需求函数是: =- p Q 30 (1)假设你们只有一次博弈,而且必须同时宣布产量,你会选择生产多少?你期望的利润为多少?为什么? (2)若你必须先宣布你的产量,你会生产多少?你认为你的竞争者会生产多少?你预

计你的利润是多少?先宣布是一种优势还是劣势?为了得到先宣布或后宣布的选择权,你愿意付出多少? (3)现在假设你正和同一个对手进行十次系列博弈中的第一次,每次都同时宣布产量。你想要十次利润的总和(不考虑贴现)最大化,在第一次你将生产多少?你期望第十次生产多少?第九次呢?为什么? 解:(1)由于只有一次博弈,所以这里的产量为古诺解。由已知可得厂商1的利润函数为: ()()21111121213030pQ C Q Q Q Q Q Q π=-=--=-+- 利润最大化的一阶条件为1121 2300Q Q Q π?=-+-=?,可得厂商1的反应函数为: 12150.5Q Q =- ① 同理得到厂商2的反应函数为: 21150.5Q Q =- ② 联立①、②两式,解得110Q =,210Q =。 从而市场价格和厂商各自的利润为:10p =;1100π=,2100π=。 (2)这是一个斯塔克博格模型。在这个模型中,市场的领导者会根据竞争对手的反应函数(由第﹙1﹚问可知)来确定自己的最优产量,此时厂商1的利润函数为: 211111130300.5152Q Q Q Q Q π-??=--=-+ ??? 利润最大化的一阶条件为:111 150Q Q π?=-=?,解得115Q =。 从而可得:27.5Q =;7.5p =;1112.5π=;256.25π=。 由以上的计算可知,先宣布产量是一种优势,为了得到先宣布产量的选择权,领导者愿意付出的代价应不大于两种情况下的利润差,即112.510012.5-=。 (3)当两企业进行有限次的博弈时,按照古诺模型确定的产量是各自的最优选择,所以在每次博弈中,两个企业的产量都为10。这是因为两企业为了实现利润最大的最优选择原本应是按照联合定价的卡特尔模型行事,但在第十次生产时,双方都知道这是最后一次博弈,为实现自身的利润最大,都会选择背叛,即实行先宣布产量的战略,从而使得市场的最后均衡为古诺均衡,而第九次博弈时,既然双方都知道在第十次博弈时,对方一定会背叛自己,那就没有理由在第九次博弈中合作,而市场的最终结果还是古诺均衡。依次类推,可知古诺产量是每一次博弈的均衡解。 3.考虑下列三个广延型博弈(如图11-2),哪一个博弈有多重反向归纳策略? 图11-2 广延型博弈的树形图 答:(1)有多重反向归纳策略。分析如下:这个动态博弈的子博弈完美的纳什均衡为:

重复博弈

重复博弈 刘峰 1105060144 司法1101班重复博弈是一种特殊的博弈,在博弈中,相同结构的博弈重复多次,甚至无限次。本文通过运用博弈论对企业合作行为的形成机理和实施条件进行了简要的剖析,最终认为重复博弈激励企业合作,同时企业合作是合作企业集体理性的结果。 “囚徒困境”在经济生活中具有很大的普遍性,在资源利用和环境保护,以及政治、军事和法律等各种领域的问题中,都存在类似的“囚徒困境”的现象。“囚徒困境”中的参与人基于个体理性所作的选择,均衡解都是非合作的。那么,经济理性的前提下,是否存在合作的博弈均衡呢? 考虑博弈对局反复进行多次的情况,结局可能会有所不同。因为博弈如果只进行一次,参与人就只关心一次博弈的支付;但如果博弈将重复多次,短期机会主义行为的所得可能是微不足道的,参与人可能会为长期利益暂时牺牲眼前利益从而选择不同的策略。在“囚徒困境”例子中,如果两人是一对经常合谋犯罪的惯犯,他们有一个长期的攻守同盟,被抓捕受审时就会考虑,这次我被判了,他下次他一定会报复我,共同抵赖的合作均衡就可能出现。美国密执安大学的艾克赛罗教授曾邀请博弈论专家就“囚徒困境”提交计算机程序,以竞赛的方式决出最优程序,结果是一种被称作“针锋相对”的最简单的程序胜出。这一程序以合作的策略开始,以后每一次选择都模仿对方上一次的选择,即如果对方合作,自己也选择合作,如果对方不合作,自己也立即选择不合作进行报复,如果对方“改过自新”重新采取合作的态度,自己也不计前嫌,继续与对方合作。值得注意的是,从理论上说,“针锋相对”策略的胜出有一个十分重要的条件,即博弈是无限次重复的,也就是说,对局双方都预期这一博弈将永远持续下去,如果对局是有限次的话,上述结论将不再有效。 本文认为战略联盟是企业间在重复博弈的理性选择。自从战略联盟的概念被提出以来,就受到了管理学界和企业界的广泛关注。战略联盟一般是由具有共同利益关系的单位之间组成的合作共同体,他们可能是供应商、生产商、分销商之间形成的合作联盟,甚至是竞争者之间形成的合作联盟,战略联盟是企业间相互

博弈论66个经典例子之六

博弈论经典例子 一、囚徒困境 故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各

判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个帕累托改进办不到,因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。 二、旅行者困境 两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来,他们都买了花瓶。提取行李的时候,发现花瓶被摔坏了,于是他们向航空公

司索赔。航空公司知道花瓶的价格大概在八九十元的价位浮动,但是不知道两位旅客买的时候的确切价格是多少。于是,航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的一样,航空公司将认为他们讲真话,就按照他们写的数额赔偿;如果两人写的不一样,航空公司就认定写得低的旅客讲的是真话,并且原则上按这个低的价格赔偿,同时,航空公司对讲真话的旅客奖励2元,对讲假话的旅客罚款2元。为了获取最大赔偿而言,本来甲乙双方最好的策略,就是都写100元,这样两人都能够获赔100元。可是不,甲很聪明,他想:如果我少写1元变成99元,而乙会写100元,这样我将得到101元。何乐而不为?所以他准备写99元。可是乙更聪明,他算计到甲要算计他写99元,于是他准备写98元。想不到甲还要更聪明一个层次,估计到乙要写98元来坑他,于是他准备写97元……大家知道,下象棋的时候,不是说要多“看”几步吗,“看”得越远,胜算越大。你多看两步,我比你更强多看三步,你多看四步,我比你更老谋深算多看五步。在花瓶索赔的例子中,如果两个人都“彻

平新乔微观经济学十八讲课后习题详解(第12讲子博弈及完美性)

平新乔《微观经济学十八讲》第12讲 子博弈与完美性 跨考网独家整理最全经济学考研真题,经济学考研课后习题解析资料库,您可以在这里查阅历年经济学考研真题,经济学考研课后习题,经济学考研参考书等内容,更有跨考考研历年辅导的经济学学哥学姐的经济学考研经验,从前辈中获得的经验对初学者来说是宝贵的财富,这或许能帮你少走弯路,躲开一些陷阱。 以下内容为跨考网独家整理,如您还需更多考研资料,可选择经济学一对一在线咨询进行咨询。 1.在Bertrand 价格博弈中,假定有n 个生产企业,需求函数为()p Q a Q =-,其中p 是市场价格,Q 是n 个生产企业的总供给量。假定博弈重复无穷多次,每次的价格都立即被观测到,企业使用“触发策略”(一旦某个企业选择垄断价格,则执行“冷酷策略”)。求使垄断价格可以作为完美均衡结果出现的最低贴现因子σ?解释σ与n 的关系。 解:(1)①当n 个企业合谋时: 假设该行业中任一企业的边际成本恒为c ,0a c >>。n 个生产企业的总利润函数为: ()()2pQ cQ a Q Q cQ Q a c Q π=-=--=-+- 利润最大化的一阶条件为: d 20d Q a c Q π=-+-=,解得垄断总产出为2m a c Q -=。 此时垄断价格为: 2 m m a c p a Q +=-= 从而垄断的总利润和每个厂商的利润分别为: ()24m a c π-= () 2,1,2, ,4m i a c i n n π-== 考虑时期t 企业i 的选择,给定其他企业按照垄断条件生产,若企业仍遵守垄断定价,那么它从t 期开始的利润的现值为: ()()() 241i a c m n πσ-=- ②当有企业背叛时: 给定其他企业按照垄断条件生产,即()12m i t n Q a c n --=-,。若企业i 选择背离垄断价格,那么它的利润最大化问题就是: (),,,,max m i t i t i t i t Q a Q Q cQ ---- 由一阶条件得: ()14i t n Q a c n +=-,

博弈论经典例子(13)重复囚徒困境的游戏

重复囚徒困境的游戏 其目的就是要研究在无限次数的对局游戏中人为什么要合作,人什么时候是合作的,什么时候又是不合作的,如何使别人与你合作。 一位美国科学院院士、著名的行为分析和国际关系专家罗伯符·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏,艾克斯罗德的游戏思路非常简单,任何想参加这个计算机竞赛的人都扮演“囚徒困境” 案例中一个囚犯的角色,他们把自己的策略编入到计算机程序中,然后他们的程序会被成双成对地融入到不同的组合,在分好组以后,参与者就开始玩“囚徒困境”的游戏。在游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,做出自己的选择。 艾克斯罗德邀请了来自经济界,心理学,补会学、政治学和数学领域的14位专家参与这一游戏,每个参加者每一步都要写出个体选择合作或不合作的程序,这个程序在作选择时可以利用对局的历史情况来分析,从而决定自己的策略。游戏双方的选择,放在一起就产生了四种可能的结果,即: 1. 合作.合作; 2. 合作,背叛; 3. 背叛,合作; 4. 背叛,背叛; 在这个游戏中,如果双方选择合作,双方都能得到较好的结果,即“对双方合作的奖励”为3分,如果一个合作而另一方背叛,那么,背叛者因为占了便宜,所以得到“对背叛投机”的5分,而合作者因为被对方占了便宜,只能得到0分。如果双方都背叛,那么双方既没有得到利益,也没有失去什么,双方都得1分。 我们设想甲、乙两个程序在一起博弈,就出现这样的结果:

甲:合作(3)乙:合作(3) 甲:合作(0)乙:背叛(5) 甲:背叛(5)乙:合作(0) 甲:背叛(1)乙:背叛(1) 就这种情形来看,对双方最好的结果是选择合作,总体得6分,如果一方选择合作,一方选不合作,总体得5分,如果两个人都不合作,总体得2分。 竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先约定的竞赛规则,每一个参赛程序还要与自己对局,以及和一个随机程序对局,所谓随机程序是以相等的概率50%随机选择合作或背叛; 艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两对局,以找出什么样的策略得分最高。 14个程序再加上一个“随机程序“彼此开始了第一轮游戏,让我们来分析一下这个重复囚徒困境的游戏,虽然对个体而言最大的利益是得5分,但是如果对局在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契是,对策者就能持续的得3分,这是一个相对理想的结果,但如果持续不合作的话,每个人就永远得一分,因此,对每个参赛者而言,不可能得到高分,这样,合作成为了这个游戏的优势策略。 在这个游戏中,参赛者提出了各种程序,根据程序的本意大致可分为善良的,邪恶的和随意的三类,所谓善良即以合作为主导的策略,邪恶即以背叛占便宜的为主的策略。 最后胜出的是一个称为“一报还一报”的策略,它是所有提交程序中最简单,结果却是最好的,这个策略的特点是,第一次对局采用合作的策略,以后每一步

重复博弈

重复博弈 重复博弈(Repeated Games) [ 什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。 在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。 下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。 定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。 在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判

断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。 [编辑] 重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。 2、所有参与人观察到博弈过去的历史。 3、参与人的总得益是所有阶段博弈得益的贴现值之和。 如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。[编辑] 重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。 A、B两个参与人都有两种定价待选择:定高价或定低价。如果两个参与人都定低价,则每个参与人的收益均为20个单位;如果两人都定高价,则每人的收益均为30个单位;如果其中某一参与人定低价,而另一参与人定高价,则定低价的参与人有占有更多的市场份额获得40个单位的收益,定高价的参与人由于失去一部分市场份额而只获得10个单位的收益。显然,在这个一次性完全信息静态博弈中,两个参与人均有占优策略,占优策略均衡为A、B双方都定低价。 如果A、B之间的定价博弈是多次进行的,那么,问题就不是如此简单了。我们先来分析博弈重复次数为无限时的情况。 如果A、B双方都选择合作,都保持定高价,则双方在每个阶段的收益均为30个单位,记为(30,30,30,…);如果A、B中有一方(如A)

平新乔课后习题详解(第10讲--策略性博弈与纳什均衡)

平新乔《微观经济学十八讲》第10讲策略性博弈与纳什均衡 1 ?假设厂商A与厂商B的平均成本与边际成本都是常数,MC A=10,MC B =8,对厂 商产出的需求函数是 Q D二500 -20 p (1)如果厂商进行Bertrand竞争,在纳什均衡下的市场价格是多少? (2)每个厂商的利润分别为多少? (3)这个均衡是帕累托有效吗? 解:(1)如果厂商进行Bertrand竞争,纳什均衡下的市场价格是p B =10 一;,p A =10 , 其中;是一个极小的正数。理由如下: 假设均衡时厂商A和B对产品的定价分别为p A和p B,那么必有p A刃0 , p B K8,即厂商的价格一定要高于产品的平均成本。其次,达到均衡时,p A和p B都不会严格大于10。否则,价格高的厂商只需要把自己的价格降得比对手略低,它就可以获得整个市场,从而提高 自己的利润。所以均衡价格一定满足p A空10 , p B?「0。但是由于p A的下限也是10,所以均衡时P A =10。给定P A =10 ,厂商B的最优选择是令P B =10- ;,这里:是一个介于0到2 之间的正数,这时厂商B可以获得整个市场的消费者。综上可知,均衡时的价格为P A =10 , P B =10 -;。 (2)由于厂商A的价格严格高于厂商B的价格,所以厂商A的销售量为零,从而利润也是零。下面来确定厂商B的销售量,此时厂商B是市场上的垄断者,它的利润最大化问题为: max pq —cq ①其中p =10 _ q =500 -20 107、把这两个式子代入①式中,得到: max (10 —芯―)500 —20(10 —名卩 解得;=0,由于;必须严格大于零,这就意味着;可以取一个任意小的正数,所以厂商 B 的利润为:||500-20 10 -; 10-;。 (3)这个结果不是帕累托有效的。因为厂商B的产品的价格高于它的边际成本,所以 如果厂商B和消费者可以为额外1单位的产品协商一个介于8到10一;之间的价格,那么厂商B的利润和消费者的剩余就都可以得到提高,同时又不损害厂商A的剩余(因为A的利润 还是零)。 2.(单项选择)在下面的支付矩阵(表10-1 )中,第一个数表示A的支付水平,第二个数表示B 的支付水平,a、b、c、d是正的常数。如果A选择“下”而B选择“右”,那么: (1) b .1 且d :::1

相关主题
文本预览
相关文档 最新文档