当前位置：文档之家› 重复博弈

重复博弈

刘峰 1105060144 司法1101班重复博弈是一种特殊的博弈，在博弈中，相同结构的博弈重复多次，甚至无限次。本文通过运用博弈论对企业合作行为的形成机理和实施条件进行了简要的剖析，最终认为重复博弈激励企业合作，同时企业合作是合作企业集体理性的结果。

“囚徒困境”在经济生活中具有很大的普遍性，在资源利用和环境保护，以及政治、军事和法律等各种领域的问题中，都存在类似的“囚徒困境”的现象。“囚徒困境”中的参与人基于个体理性所作的选择，均衡解都是非合作的。那么，经济理性的前提下，是否存在合作的博弈均衡呢？

考虑博弈对局反复进行多次的情况，结局可能会有所不同。因为博弈如果只进行一次，参与人就只关心一次博弈的支付；但如果博弈将重复多次，短期机会主义行为的所得可能是微不足道的，参与人可能会为长期利益暂时牺牲眼前利益从而选择不同的策略。在“囚徒困境”例子中，如果两人是一对经常合谋犯罪的惯犯，他们有一个长期的攻守同盟，被抓捕受审时就会考虑，这次我被判了，他下次他一定会报复我，共同抵赖的合作均衡就可能出现。美国密执安大学的艾克赛罗教授曾邀请博弈论专家就“囚徒困境”提交计算机程序，以竞赛的方式决出最优程序，结果是一种被称作“针锋相对”的最简单的程序胜出。这一程序以合作的策略开始，以后每一次选择都模仿对方上一次的选择，即如果对方合作，自己也选择合作，如果对方不合作，自己也立即选择不合作进行报复，如果对方“改过自新”重新采取合作的态度，自己也不计前嫌，继续与对方合作。值得注意的是，从理论上说，“针锋相对”策略的胜出有一个十分重要的条件，即博弈是无限次重复的，也就是说，对局双方都预期这一博弈将永远持续下去，如果对局是有限次的话，上述结论将不再有效。

本文认为战略联盟是企业间在重复博弈的理性选择。自从战略联盟的概念被提出以来，就受到了管理学界和企业界的广泛关注。战略联盟一般是由具有共同利益关系的单位之间组成的合作共同体，他们可能是供应商、生产商、分销商之间形成的合作联盟，甚至是竞争者之间形成的合作联盟，战略联盟是企业间相互

博弈，形成集体理性，进行合作的结果。

假定有两个企业A和B每家企业有合作和竞争两种策略，支付矩阵如下图。

这个博弈也是一个囚徒困境。如果两家都采取不合作的竞争策略，它们的利润都低于共同实施合作策略的结局，虽然合作能够产生更高的收益，但只要任何一方采取不合作的态度，主动合作的一方都会蒙受更大的损失，因此一次博弈的均衡结果只能是双方共同的占有优均衡：（竞争，竞争）。如果这两个企业将长期垄断这一市场，博弈将重复进行下去，结局会有何不同呢？先来分析有限次博弈的情况。假定对局的次数是N，我们从第N次即最后一次对局开始分析。此时对企业A来讲，如果它是理性的，它会作如下推理：企业B采取的是“针锋相对”的策略，但现在是最后一次对局，即使我采取不合作竞争的策略，它也没有机会报复我了，而且我还可以从不合作竞争中获取更大的利润。因此，企业A将在最后一次对局中采取不合作的竞争策略。同样，企业B也是理性的，它也会做同样的分析和选择，而且理性的它还会进一步推理：既然企业A在第N次肯定不会与我合作，那么我在N-1次选择合作又有什么意义呢？我的合作态度是不会得到回报的。因此企业B在N-1次对局中就会选择不合作竞争的策略。反过来，企业A 也会做同样的推理，类似的推理还会发生在第N-2次、N-3次、……，直到第一次。显然，在这种情况下，企业A和企业B都从一开始就选择不合作策略，因此，有限次博弈和一次性的博弈在本质上不会有什么区别，结局都是不合作的。但是如果博弈是无限次重复的，具有经济理性的双方都清楚的知道，合作是对双方都有利的，如果自己不选择合作策略，对方一定也会选择不合作，结果是两败俱伤；如果自己选择合作策略而对方不合作，自己也有机会在下一次惩罚对方，因此，在无限次的重复博弈中，双方理性选择的结果完全可能产生合作均衡。

由于联盟企业有共同的战略目标和具有高度的战略价值认同感，因此能相互协调行动，形成协作动力，激励自己努力实现联盟目标。另外在社会化大生产分工越来越细的现代经济社会，企业之间互相协作相互依赖的程度越来越大，资源

的匮乏和不合作的低效率促使企业间必须进行合作，在战略联盟内，虽然还存在着一定程度的竞争，但以合作取代竞争成为企业之间关系的主流，通过合作最大限度提高企业价值创造能力，达到双赢的效果。如果仅为一次交易利益的最大化而过多损害交易双方的利益必然妨碍其长期利益的最大化，会使合作陷入困境，这是得不偿失的事。因此尽管双方都有利己主义的动机，但在长期的博弈中，双方都采取合作的策略相互协调，不仅有利而且是有十分重要的现实意义。

重复博弈

影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。再重复博弈中，参与人存在着短期利益和长远利益的均衡，有可能为了长远利益牺牲短期利益而选择不同的均衡策略。有限次重复博弈和无限次重复博弈。什么是有限次重复博弈有限次重复博弈是指相同结构的博弈有限次重复进行无限次重复博弈与有限次重复博弈的共同点：试图“合作”和惩罚“不合作”是实现理想均衡的关键所谓重复博弈，是指将一个博弈重复进行下去。我们知道，在单个的囚徒困境博弈中，双方采取对抗的策略可使个人收益最大化如果就一次性博弈来看，(对抗，对抗)是必然的结果恋人们之间的博弈。重复博弈同样可以用来解释商业行为。 ■诚信来自重复博弈：“诚信奇迹无人卖报摊三年口袋里从没少过钱”。，吴师傅的关于“不敢拿”的判断，似乎更为符合博弈学原理。我们可以把这个“诚信报摊”看作摊主与买报人之间的博弈，而从博弈过程来看，“诚信报摊”成立第一天那种“每个博弈者都只关心一次性支付的简单博弈”已经转变成了“重复的、连续进行的博弈” “有仇就报，马上就报”如果用博弈论的观点来解释，则可以简单地描述为“针锋相对策略”。。这个如此简单的策略之所以反复赢得竞赛，是因为它奉行了针锋相对的法则，说白了就是一报还一报，即“人不犯我，我不犯人；人若犯我，我必犯人”，但它坚持“有理、有利、有节”的尺度，并且用以下有规律可供遵循的行为将对手纳入长期合作的轨道上来：第一，善良的，即从不首先背叛；第二，可激怒的，对于对方的背叛行为一定要报复，不能总是合作；

第三，宽容的，不能人家一次背叛，你就没完没了地报复，以后人家只要改为合作，你也要合作；第四，易于察觉的，即逻辑清晰，使对手能够很轻易地发现你采取策略的规律，并且领会你的意图。 “针锋相对策略”在实际生活中可以被广泛地应用：重复博弈：冲突与合作方能共存一、军队的群体目标下的多人重复博弈高度统一的一致行动的能力，这就是我们通常所说的战斗力，这是军队能遂行各种任务的前提。为了实现这一群体目标，军队对于其成员关系、交往方式、群体意识都作了严格的要求，对于分工和群体内规范也都作了细致的安排。除了这些以外，军队还必须把搞好内部团结，维护整体利益的原则作为管理的一般标准。二、权威型的管理方式下的管理策略要求

博弈论第四章习题

第四章习题一、如果T次重复齐威王田忌赛马，双方在该重复博弈中的策略是什么？博弈结果如何？答：因为这是零和博弈，结论比较具体。重复Nash 均衡，均以1/6的概率选择各个策略，期望收益分别为1和-1。因为这是竞争性的零和博弈，无论是有限次重复博弈还是无限次的重复博弈，均不能达成合作的条件。二、举出现实生活中的一个重复博弈与一次性博弈效率不同的例子。答：火车站和机场餐饮业的服务的顾客往往是一次性的，回头客和常客也比较少，价格高，质量差，一次性博弈。效率也比较低。商业区和居民区的餐饮业和商业服务业，回头客和常客比较多，比较注重信誉，质优、价廉，重复博弈。效率也比较高。三、有限次重复博弈和无限次重复博弈有什么区别？这些区别对我们有什么启发？

答：动态博弈的逆向归纳法可以用于有限次重复博弈，但不能用于无限次重复博弈，主要用逆向归纳法。无限次重复博弈的效率往往高于有限次重复博弈。当重复次数较少不一定考虑贴现问题，但无限次重复博弈必须考虑贴现问题。启发：重视有限次与无限次的区别，区分和研究这两类博弈，在实践方面重要启发是促进和保持经济的长期稳定和可持续发展，提高社会经济效率是非常有意义的。四、判断下列表述是否正确，并作简单讨论：（1）有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。答：不一定。对于有两个以上纯策略纳什均衡的条件下就不一定。如“触发策略”就不是。（2）有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。答：是，根据子博弈完美纳什均衡的要求，最后一次必须是原博弈的一个纳什均衡。（3）无限次重复博弈均衡解的得益一定优于原博

博弈论分析报告：重复博弈现象分析

博弈论分析报告重复博弈现象分析现代经济学里，博弈论（ＧａｍｅＴｈｅｏｒｙ，又名对策论）已经成为十分标准的分析工具。而完全信息静态博弈是一种最简单的博弈，重复博弈则是完全信息静态博弈论的一种进化。重复博弈有下列三项基本特征：阶段博弈之间没有“物质上”的联系，即前阶段的博弈不改变后一阶段的结构;所有参与人都观测到博弈过去的历史;参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。在博弈论课堂所做的两人重复博弈作业，属于多轮次的典型囚徒困境博弈。根据囚徒困境的说法，个人最佳选择为不合作（招供）时可以达到纳什均衡，然而却达不到都合作（不招供）时的个人利益最大化。因此，如何获得全部的信息在重复博弈的环境中显得至关重要。这一点，从课堂同学们的决策中可以明显的看出来。正是由于每一轮博弈后可以根据其结果来修正下一轮的选择，在经过几轮的信息交换后，大家基本可以明确博弈双方的态度，在一方释放合作意愿的情况下，采取合作态度（不招供）的人数会大幅度上升，带来双方收益的上升。相反，在发现博弈对手采取不合作的情况下，自己往往会采取“以牙还牙，以眼还眼”的跟随策略，双方最终陷入多轮的囚徒困境，收益也会大为减少。从同学们提交的数据中可以明显看出这一情况。另一方面，在10轮的博弈过程中，随着轮次的增加，双方的信息越来越清楚，采取合作态度的博弈者就越多，在后几轮可以稳定的达到70%以上，说明重复博弈的情况下，单次博弈经常出现囚徒困境现象会得到明显改善。在现实生活中，单次的囚徒博弈情况其实比较少见，而重复博弈的情况则比较普遍，因此研究重复博弈对于我们的工作生活有着更加明显的指导意义。其中，一个比较常见的重复博弈现象就是电商和网购。网购双方形成了与囚徒博弈类似的博弈情况：买方和卖方都可以选择诚信和不诚信，对于单次博弈的情况，选择

重复博弈

重复博弈刘峰 1105060144 司法1101班重复博弈是一种特殊的博弈，在博弈中，相同结构的博弈重复多次，甚至无限次。本文通过运用博弈论对企业合作行为的形成机理和实施条件进行了简要的剖析，最终认为重复博弈激励企业合作，同时企业合作是合作企业集体理性的结果。 “囚徒困境”在经济生活中具有很大的普遍性，在资源利用和环境保护，以及政治、军事和法律等各种领域的问题中，都存在类似的“囚徒困境”的现象。“囚徒困境”中的参与人基于个体理性所作的选择，均衡解都是非合作的。那么，经济理性的前提下，是否存在合作的博弈均衡呢？考虑博弈对局反复进行多次的情况，结局可能会有所不同。因为博弈如果只进行一次，参与人就只关心一次博弈的支付；但如果博弈将重复多次，短期机会主义行为的所得可能是微不足道的，参与人可能会为长期利益暂时牺牲眼前利益从而选择不同的策略。在“囚徒困境”例子中，如果两人是一对经常合谋犯罪的惯犯，他们有一个长期的攻守同盟，被抓捕受审时就会考虑，这次我被判了，他下次他一定会报复我，共同抵赖的合作均衡就可能出现。美国密执安大学的艾克赛罗教授曾邀请博弈论专家就“囚徒困境”提交计算机程序，以竞赛的方式决出最优程序，结果是一种被称作“针锋相对”的最简单的程序胜出。这一程序以合作的策略开始，以后每一次选择都模仿对方上一次的选择，即如果对方合作，自己也选择合作，如果对方不合作，自己也立即选择不合作进行报复，如果对方“改过自新”重新采取合作的态度，自己也不计前嫌，继续与对方合作。值得注意的是，从理论上说，“针锋相对”策略的胜出有一个十分重要的条件，即博弈是无限次重复的，也就是说，对局双方都预期这一博弈将永远持续下去，如果对局是有限次的话，上述结论将不再有效。本文认为战略联盟是企业间在重复博弈的理性选择。自从战略联盟的概念被提出以来，就受到了管理学界和企业界的广泛关注。战略联盟一般是由具有共同利益关系的单位之间组成的合作共同体，他们可能是供应商、生产商、分销商之间形成的合作联盟，甚至是竞争者之间形成的合作联盟，战略联盟是企业间相互

博弈论66个经典例子之六

博弈论经典例子一、囚徒困境故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各

判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。但这个帕累托改进办不到，因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。二、旅行者困境两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来，他们都买了花瓶。提取行李的时候，发现花瓶被摔坏了，于是他们向航空公

司索赔。航空公司知道花瓶的价格大概在八九十元的价位浮动，但是不知道两位旅客买的时候的确切价格是多少。于是，航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的一样，航空公司将认为他们讲真话，就按照他们写的数额赔偿；如果两人写的不一样，航空公司就认定写得低的旅客讲的是真话，并且原则上按这个低的价格赔偿，同时，航空公司对讲真话的旅客奖励2元，对讲假话的旅客罚款2元。为了获取最大赔偿而言，本来甲乙双方最好的策略，就是都写100元，这样两人都能够获赔100元。可是不，甲很聪明，他想：如果我少写1元变成99元，而乙会写100元，这样我将得到101元。何乐而不为？所以他准备写99元。可是乙更聪明，他算计到甲要算计他写99元，于是他准备写98元。想不到甲还要更聪明一个层次，估计到乙要写98元来坑他，于是他准备写97元……大家知道，下象棋的时候，不是说要多“看”几步吗，“看”得越远，胜算越大。你多看两步，我比你更强多看三步，你多看四步，我比你更老谋深算多看五步。在花瓶索赔的例子中，如果两个人都“彻

博弈论经典例子(13)重复囚徒困境的游戏

重复囚徒困境的游戏其目的就是要研究在无限次数的对局游戏中人为什么要合作，人什么时候是合作的，什么时候又是不合作的，如何使别人与你合作。一位美国科学院院士、著名的行为分析和国际关系专家罗伯符·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏，艾克斯罗德的游戏思路非常简单，任何想参加这个计算机竞赛的人都扮演“囚徒困境” 案例中一个囚犯的角色，他们把自己的策略编入到计算机程序中，然后他们的程序会被成双成对地融入到不同的组合，在分好组以后，参与者就开始玩“囚徒困境”的游戏。在游戏中，有两个对策者，他们可以有两个选择：合作或背叛，每个人都必须在不知道对方选择的情况下，做出自己的选择。艾克斯罗德邀请了来自经济界，心理学，补会学、政治学和数学领域的14位专家参与这一游戏，每个参加者每一步都要写出个体选择合作或不合作的程序，这个程序在作选择时可以利用对局的历史情况来分析，从而决定自己的策略。游戏双方的选择，放在一起就产生了四种可能的结果，即： 1. 合作．合作； 2. 合作，背叛； 3. 背叛，合作； 4. 背叛，背叛；在这个游戏中，如果双方选择合作，双方都能得到较好的结果，即“对双方合作的奖励”为3分，如果一个合作而另一方背叛，那么，背叛者因为占了便宜，所以得到“对背叛投机”的5分，而合作者因为被对方占了便宜，只能得到0分。如果双方都背叛，那么双方既没有得到利益，也没有失去什么，双方都得1分。我们设想甲、乙两个程序在一起博弈，就出现这样的结果：

甲：合作(3)乙：合作(3) 甲：合作(0)乙：背叛(5) 甲：背叛（5）乙：合作（0）甲：背叛（1）乙：背叛（1）就这种情形来看，对双方最好的结果是选择合作，总体得6分，如果一方选择合作，一方选不合作，总体得5分，如果两个人都不合作，总体得2分。竞赛是循环进行的，即每一个参赛程序都与其他程序相遇。按照事先约定的竞赛规则，每一个参赛程序还要与自己对局，以及和一个随机程序对局，所谓随机程序是以相等的概率50%随机选择合作或背叛；艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两对局，以找出什么样的策略得分最高。 14个程序再加上一个“随机程序“彼此开始了第一轮游戏，让我们来分析一下这个重复囚徒困境的游戏，虽然对个体而言最大的利益是得5分，但是如果对局在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契是，对策者就能持续的得3分，这是一个相对理想的结果，但如果持续不合作的话，每个人就永远得一分，因此，对每个参赛者而言，不可能得到高分，这样，合作成为了这个游戏的优势策略。在这个游戏中，参赛者提出了各种程序，根据程序的本意大致可分为善良的，邪恶的和随意的三类，所谓善良即以合作为主导的策略，邪恶即以背叛占便宜的为主的策略。最后胜出的是一个称为“一报还一报”的策略，它是所有提交程序中最简单，结果却是最好的，这个策略的特点是，第一次对局采用合作的策略，以后每一步