当前位置：文档之家› 博弈论基础知识

博弈论基础知识

1 基础知识

博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰•冯•诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡•摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。

■一个科学的隐喻

由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括：

1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？

2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？

3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？

4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？

5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？

6）在这些情况下，真正的人类行为与“理性”行为是否相符？

7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？

因而，博弈论研究的“博弈”包括：

 破产

 门口的野蛮人（Barbarians at the Gate）

 网络战（Battle of the Networks）

 货物出门，概不退换（Caveat Emptor）

 征召（Conscription）

 协调（Coordination）

 逃避（Escape and Evasion）

 青蛙呼叫配偶（Frogs Call for Mates）

 鹰鸽博弈（Hawk versus Dove）

 Mutually Assured Destruction

 多数决定原则（Majority Rule）

 Market Niche

 共同防卫（Mutual Defense）

 囚徒困境（Prisoner’s Dilemma）

 补贴小商业Subsidized Small Business

 公共地悲剧Tragedy of the Commons

 最后通牒Ultimatum

 视频系统协调Video System Coordination

■理性

新古典经济学与博弈论之间的关键链接就是理性。新古典经济学建基于这样一个假设之上，即人类在其经济选择行为中是绝对理性的。确切地说，这个假设意味着每个人在其所面临的环境中都会最大化自身的报酬——利润、收入或主观利益。在资源配置研究中，上述假说服务于两个目的：一是稍稍缩小可能发

生事物的范围；二是提供了一个衡量经济体制效率的标准。如果经济体制导致部分人的报酬减少，而又没有对其他人产生更多的报偿（宽泛地讲就是成本大于收益），那么在某些方面就产生了失误。污染、渔业资源的过度开发、不恰当的资源用于研究（inadequate resources committed to research）都是这类问题的例子。

在新古典经济学中，理性的个人面临特定的体制或制度，包括产权、货币和高度竞争的市场。这些是个人纳入最大化报酬计算的许多“情况”之一。财产权利、货币经济以及理想化的竞争市场的隐含意义是经济个体不需要考虑自己与其他经济个体的行为互动。他或她只需要考虑自己的境况和“市场条件”。但这导致了两个问题：一是理论的范围受到局限。只要竞争受到限制（但没有垄断）或者产权没有完全界定，众望所归的新古典经济学理论就不适用了，并且新古典经济学也从未产生可接受的理论扩展以覆盖上述情况。对于新古典经学来说，决策是在货币经济之外做出的，这也是有问题的。

博弈论正好面对上述问题：提供一个关于人们直接（而不是“通过市场”）互动的经济和战略行为的理论。在博弈论中，“博弈”始终是针对人类社会严肃的互动行为的一个隐喻。博弈论也许是关于纸牌游戏或者棒球运动的理论，但却不是关于象棋的理论，它是关于这样一些严肃的互动行为比如市场竞争、军备竞赛和环境污染的理论。只不过博弈论涉及这些问题的时候使用的是博弈的隐喻意义：在这些严肃的互动行为中，就象在游戏中一样，个体的选择实质上是战略选择，行为互动的结局依赖于每个参与人所选择的战略。通过这样的阐释，研究“博弈”可以真正告诉我们关于严肃的互动行为的一些事情。但是，究竟会告诉我们多少？

在新古典经济学理论中，理性地进行选择就是要最大化自身的收益。在某种观点看来，这是一个数学问题：在给定环境条件下选择最大化报酬的行动。因而我们可以把理性的经济选择当作一个数学问题的“解”。在博弈论中，情况就更复杂了。既然结局不仅依赖于自身的战略和“市场”条件，也直接依赖于其他人所选择的战略，但我们仍然可以把理性的战略选择当作一个数学问题——最大化行为互动中的决策制定者群体的报酬——从而我们再次称理性的结果是博弈的“解”。

2 囚徒的困境

博弈论近来的发展，特别是1994年诺贝尔纪念奖授予给三位博弈论理论家以及89岁高龄的塔克（A. W. Tucker）在1995年1月的去世，唤起了人们对博弈论创立时的回忆。尽管博弈论可以追索到更早的时代，但其兴起的关键时期是20世纪40年代。当然，《博弈论与经济行为》的出版是一个特别重要的台阶。但是，在某种程度上，塔克发明的“囚徒困境”例子更为重要。这个可以在一页纸上求解出来的例子在20世纪下半叶的社会科学中可能是最具影响的一页。

这个杰出的创见并不是出自研究论文，而出自于课堂。正如S. J. Hagenmayer在《费城调查者（Philadelphia Inquirer）》(“Albert W. Tucker, 89, Famed Mathematician,“Thursday, Feb. 2, 1995, p.. B7)中写到：“在1950年，作为访问教授，塔克在斯坦福大学向由心理学家组成的听众发表演说的时候，创造了‘囚徒困境’来说明分析某些类型博弈的困难。塔克的简单解释导致了后来大量的文献。这些文献来自不同的领域，比如哲学、伦理学、生物学、社会学、政治科学、经济学，当然还有博弈论。”

■囚徒困境博弈

塔克是从这样一个小故事开始的：两个夜贼，鲍伯(Bob)和艾尔(Al)，在行窃现场附近被抓获并被警方隔离拷问。每个夜贼都必须选择是否坦白和揭发对方。如果两个贼都不坦白，他们都将被判刑一年。如果每个贼都坦白并揭发对方，他们都将在监狱中度过10年。但是，如果一个贼坦白并揭发对方，而另一个贼不坦白，那么与警方合作的贼将被释放而另一个贼将在监狱中度过20年。

在这个例子中的战略是：坦白与不坦白。赢利（payoff）（实际上是处罚）是判刑。我们可以用“赢利表（payoff table）”简洁地表达上述信息，这类赢利表已经成为博弈论中很好的标准表达式。以下是囚徒困境博弈的赢利表。

表2-1

艾尔

坦白不坦白

鲍伯坦白10，100，20

不坦白20，01，1

这个表的读法是这样的：每个囚犯从两个战略中选择一个。即，艾尔选择一列，鲍伯选择一行。每个单元格的两个数字告诉两个囚犯相应的战略被选择后的结果。逗号左边的数字表示选择行的人（鲍伯）的赢利，逗号右边的数字表示选择列的人（艾尔）的赢利。因此（先阅读第一列），如果他们都选择坦白，每人将判刑10年，但是如果艾尔坦白而鲍伯不坦白，鲍伯被判20年而艾尔将被释放。

那么：怎样求解这个博弈？如果双方都想使自己呆在监狱的时间最短，他们选择什么战略是“理性的”？艾尔可能会做这样的推理：“两种事件可能发生：鲍伯要么坦白要么保持沉默。假定鲍伯坦白，我不坦白的话将被判20年，我也坦白的话则判10年。另一方面，如果鲍伯不坦白，我不坦白我被判刑1年，但在这种情况下，如果我坦白我可以被释放。无论怎样，我选择坦白都是最好的。因此，我将坦白。”

但是鲍伯能够而且大概也将做同样的推理——因此他们都将坦白并且都在监狱呆10年。然而，如果他们“不理性”地行动，都保持沉默，他们都可以在1年后被释放。

■占优战略（Dominant Strategies）

这里发生的情况是，两个囚犯陷入了“占优战略均衡”。

定义：占优战略——让博弈的参与人单独地评估他面临的战略组合中的每一个战略，并且，对于每一个组合，他从自己的所有战略中选择一个使他赢利最多的战略。如果对于参与人面临的每一个不同的战略组合，参与人都选择同一个战略，这个被选择的战略就叫该参与人在博弈中的“占优战略”。

定义：占优战略均衡——在一个博弈中，如果每个参与人都有一个占优战略，且每个参与人都采取占优战略，那么（占优）战略组合及其相应的赢利被认为是构成了博弈的占优战略均衡。

在囚犯困境博弈中，坦白是占优战略，当两个囚犯都选择坦白时，那就是占优战略均衡。

■囚犯困境中需要考虑的问题

这个不同寻常的结果——两个囚犯出于自利的个体理性行动导致双方情况变得更糟糕——在现代社会科学中产生了广泛的影响。因为在现代世界里有大量的行为互动与此极其相似，从军备竞赛到道路拥挤，以及渔业资源贫化污染和地下水资源的过度开发等，莫不如此。这些行为互动在细节上有很大差异，但却如我们想象的一样，个体理性给每个人带来了更差的结果，囚犯困境暗示了它们的发展方向。这就是“囚犯困境”的威力所在。

当然，我们也必须坦白地承认，囚犯困境对于上述行为互动来说是只一个非常简明扼要的概括——如果你愿意，也可说它“不切实际”。囚犯困境也孕育了许多对其进行批评的论点，这些论点构成了许多学术文献的基础：

 囚犯困境是二人博弈，但是这一思想的许多应用场合是真正的多人行为互动。

 我们假定两个囚犯之间没有进行过沟通。如果他们能够相互沟通并谋求协调战略，我们有可能得到不同的结局。

 在囚犯困境中，两个囚犯仅博弈一次。重复的博弈行为可以导致大相径庭的结果。

 导致占优战略均衡的推理也许是强制进行的，但它并不是推导出问题的唯一方式。也许它根本就不是最理性的答案。

3 一个信息技术的例子

博弈论提供了一个很有发展前途的方法去理解各类战略问题，囚犯困境及其他类似例子的简明和威力使它们有了一个自然而然的起点。但是在更为复杂和现实的应用中，常常有一些我们必须考虑的冲突。怎样从一个简化的博弈转移到更现实的博弈模型？现在让我们来看一个真实世界的战略思考的例子：选择信息系统。

这个例子中，参与人是：一个正在考虑选择新的内部电邮系统（internal e-mail system）或内部互联网系统（intranet system）的公司，以及一个正在考虑制造它们的供应商。两个选择是：建立技术先进的系统，或者建立一个功能简单的一般系统。我们假定更先进的系统真的能够提供更多的功能，因此两个参与人的赢利，用户支付给供应商的净额如表3-1所示。

表3-1

用户

先进一般

供应商先进20，200，0

一般0，05，5

我们发现，如果建立先进系统，两个参与者的净收入都将更好。（我们不是宣称现实永远如此！我们仅仅是假设在这个特定的决策下是如此）。可能发生的最糟糕的情况是一个参与者确定先进系统而另一个参与者却坚持一般系统。在这样的情况下将没有交易，大家也就没有赢利。为了在一起工作，供应商和用户必须具有一个相容的标准，既然标准的选择即战略选择，那么他们的战略必须相互吻合。

尽管第一眼看上去这很象囚犯困境博弈，但它实际上是更复杂的博弈。我们将逐一探讨几个复杂的方面：

 仔细看一看，我们发现这个博弈没有占优战略。每个参与人的最优战略依赖于对方所采取的战略。因而，我们需要一个新的可以容纳这种复杂性的博弈均衡概念。当没有占优战略时，我们通常用一个叫做“纳什均衡”（Nash Equilibrium）的概念来称呼均衡。纳什均衡是根据诺贝尔奖得主纳什来命名得。纳什均衡是一个非常美妙简单的思想：给定其他参与人所选择的战略，每个参与人都选择最优战略，我们将得到纳什均衡。例如，如果用户选择先进系统，那么供应商最好也选择先进系统。于是（先进，先进）就是一个纳什均衡。但是，请留意，如果用户选择一般系统，那么供应商最好也选择一般系统。这里存在两个纳什均衡！究竟哪一个会被选择呢？看起来选择先进系统是更好的，因此它可能更容易出现，但是如果每个参与人都认为对方陷在一般系统——恰如陷入泥土中的手杖之一段——那么双方选择一般系统将是最好的。假定对方是一根陷入泥土的手杖，双方都会正确选择的。这是一类非常危险的经典博弈，叫做“协调博弈”（coordination game）。我们已经学习到的是，相容标准选择是协调博弈。

 我们假定赢利是确定而且大家都知道的。在现实世界，每一个战略决策都有风险——针对先进系统的决策可能比针对一般系统的决策具有更大的风险。因而，要使例子完全现实化，我们还需要考虑参与人对风险的主观态度，考虑他们的“风险规避”（risk adversion）。在这个例子中我们不做这样的尝试，但是我们必须把这些记在脑海里。

 在例子中我们假定赢利是以货币计量的。因而，我们不仅不考虑风险规避，而且没有考虑无法用货币来计量的主观收益或损失。经济学家有办法用货币项目来测度主观收益——有时候他们确实这样做——不过，我们将跨过这个问题并假定所有的报酬或惩罚都已经货币计量化，并且在用户与供应商之间可以进行转移，反之亦然。

 现实中，信息系统的选择可能包括两个以上的参与人，至少在长期是如此——用户可能在几个供应商之间选择，而供应商也可以有很多客户。这使得协调问题更难以解决。例如，假设“beta”是先进系统而“VHS”是一般系统，假设90%的市场使用“VHS”。那么尽管“beta”是更好的系统，但仍将被“VHS”接管。许多经济学家，博弈理论家和其他人相信，这是某种技术标准获得支配地位的原因。（Macintosh机正在谱写这样的篇章。你是否能想到其他的象beta与VHS的例子？） 另外，例子中用户和供应商不能坐下来等待并观察对方采取什么行动——他们可以坐下来商量，并达成协议。事实上，他们的确这样做，因为用户支付给供应商的金额——在此之前我们忽略了这个战略决策——也必须达成协议。换句话说，与囚犯困境不同，这是一个合作博弈（cooperative games）,而不是非合作博弈（noncoorperative game）。在一方面，这将使协调标准的问题变得容易，至少在短期如此；在另一面，合作博弈需要不同的方法去求解。

4 零和博弈

从塔克发明“囚犯困境”开始，博弈论业已受到广泛关注。但是绝大多数早期的工作主要聚焦在一种特殊的博弈上：零和博弈（Zero-sum Gmes）。

在早期的工作中，诺伊曼做出了一个惊人的发现。他发现，如果玩纸牌的人最大化其报酬，他们采取欺骗来达到目的。并且，更一般地，在很多博弈中支付是不可预知的。当然，这在本质上并无新意——棒

球投掷手早在诺伊曼写出混合战略前就知道投掷角度变换的球了。但是诺伊曼发现的更多。他发现了一个明确而又独特的问题：在这类没有市场、价格、产权和其他制度的博弈中，我如何最大化自己的收益？这个问题是对新古典经济学绝对理性概念的一个主要扩展。不过诺伊曼为他的发现付出了代价。代价就是极端简化的假定：诺伊曼的发现仅能用于零和博弈。

例如，考虑一个叫“赌便士”（matching pennies）的小孩游戏。在这个博弈中，两个参与人同意一个是“Even(偶数)”一个是“Odd（奇数）”。每个人同时出示一个便士，每个参与人可以展示便士的正面或反面。如果两人展示出同一面，Even将赢得Odd的便士，反之如果他们展示出不同的币面，则Odd将赢得Even 的硬币。下面是该博弈的赢利表（表4-1）。

表4-1

Odd

正面反面

Even正面1，-1-1，1

反面-1，11，-1

如果我们加总每单元格的赢利，我们会得到1-1=0。这就是“零和博弈”。

定义：零和博弈——如果我们加总博弈的赢得和亏损，把亏损记为负数，我们发现每一个选定战略的组合之支付加总之和为0，这个博弈就是“零和博弈”。

用非正式的语言讲，一个零和博弈即一方所得为另一方所失的博弈。注意定义中要求每个战略组合的支付总和为0。如果有一个战略组合的支付加总不为0，这个博弈就不是零和博弈。

■另一个例子

这里有另外一个零和博弈的例子。它是一个非常简单的价格竞争模型。象奥古斯汀•古诺（Augustin Cournot，1840）那样，我们考虑两个卖矿泉水的公司。每个公司在每一时期有$5000的固定成本，不管他们是否销售。我们随机地称这两个公司为毕雷矿泉水和阿波里罗矿泉饮料。

这两个公司在同一个市场竞争，并且每个企业必须选择高价格（每瓶$2）或者低价格（每瓶$1）。以下是博弈规则：

1) 在$2的价格上，可以出售5000瓶获得总收益$10000。

2) 在$1的价格上，可以出售10000瓶获得总收益$10000。

3) 如果两个公司选择同样的价格，它们平分销售额。

4) 如果一个公司选择更高的价格，那么价格较低的公司得到全部的销售量而价格高的公司一瓶也售不出去。

5) 赢利即利润——收益减去$5000的固定成本。

以下是两个公司的赢利表（表4-2）。

表4-2

毕雷矿泉水

$1$2

阿波里罗$10，05000，-5000

$2-5000，50000，0

（自己检查一下，这是一个零和博弈）。对于二人零和博弈，存在一个清楚的解的概念。博弈的解就是最大化准则——即，每个参与人选择最大化其最小赢利的战略。在这个博弈中，阿波里罗在价格$1下的最小赢利为0，在价格$2下最小赢利为-5000，因此$1最大化其最小赢利。同样的推理适用于毕雷矿泉水，因此它们都将选择$1的价格。以下是最大化解背后的推理：阿波里罗知道任何情况下它所会失去的就是毕雷所得到的；所以无论她采取何种战略，毕雷将选择使行中支付最小化的战略。反过来，毕雷刚好进行相反的推理。

解：最大化准则——对于二人零和博弈，选择最大化其最小赢利的战略对于每一个参与者来说都是理性的，双方最大化其最小赢利的战略对子和赢利对子就是“博弈的解”。

■混合战略（Mixed Strategy）

现在让我们回顾一下“赌便士”博弈。这个博弈似乎没有确定的解。最小的赢利在两个战略下是相同的：-1。但是这不是全部的故事。这个博弈可以有超过两个的战略。作为正面、反面两个明显战略的补充，参与人可以一定的概率随机选择提供正面或反面，使其战略“随机化”。这样的随机战略叫做“混合战略”。两个显战略，正面或背面，叫做“纯战略（pure strategies）”

古老的堆物博弈有一种很有意思的游戏不知道你玩儿过没有，就是有物体若干堆，可以是火柴棍或是围棋子等等均可。两个人轮流从堆中取物体若干，规定最后取光物体者取胜。这是我国民间很古老的一个游戏，别看这游戏极其简单，却蕴含着深刻的数学原理。下面我们来分析一下要如何才能够取胜。（一）巴什博奕（Bash Game）：只有一堆n个物品，两个人轮流从这堆物品中取物，规定每次至少取一个，最多取m个。最后取光者得胜。显然，如果n=m+1，那么由于一次最多只能取m个，所以，无论先取者拿走多少个，后取者都能够一次拿走剩余的物品，后者取胜。因此我们发现了如何取胜的法则：如果n=（m+1）r+s，（r为任意自然数，s≤m),那么先取者要拿走s个物品，如果后取者拿走k（≤m)个，那么先取者再拿走m+1-k个，结果剩下（m+1）（r-1）个，以后保持这样的取法，那么先取者肯定获胜。总之，要保持给对手留下（m+1）的倍数，就能最后获胜。这个游戏还可以有一种变相的玩法：两个人轮流报数，每次至少报一个，最多报十个，谁能报到100者胜。（二）威佐夫博奕（Wythoff Game）：有两堆各若干个物品，两个人轮流从某一堆或同时从两堆中取同样多的物品，规定每次至少取一个，多者不限，最后取光者得胜。这种情况下是颇为复杂的。我们用（ak，bk）（ak ≤bk ,k=0，1，2，...,n)表示两堆物品的数量并称其为局势，如果甲面对（0，0），那么甲已经输了，这种局势我们称为奇异局势。前几个奇异局势是：（0，0）、（1，2）、（3，5）、（4，7）、（6，10）、（8，13）、（9，15）、（11，18）、（12，20）。可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而bk= ak + k，奇异局势有如下三条性质：1。任何自然数都包含在一个且仅有一个奇异局势中。由于ak是未在前面出现过的最小自然数，所以有ak > ak-1 ，而bk= ak + k > ak-1 + k-1 = bk-1 > ak-1 。所以性质1。成立。2。任意操作都可将奇异局势变为非奇异局势。事实上，若只改变奇异局势（ak，bk）的某一个分量，那么另一个分量不可能在其他奇异局势中，所以必然是非奇异局势。如果使（ak，bk）的两个分量同时减少，则由于其差不变，且不可能是其他奇异局势的差，因此也是非奇异局势。3。采用适当的方法，可以将非奇异局势变为奇异局势。假设面对的局势是（a,b），若b = a，则同时从两堆中取走 a 个物体，就变为了奇异局势（0，0）；如果a = ak ，b > bk，那么，取走b - bk个物体，即变为奇异局势；如果 a = ak ，b < bk ,则同时从两堆中拿走ak - ab - ak个物体,变为奇异局势（ab - ak , ab - ak+ b - ak）；如果a > ak ，b= ak + k,则从第一堆中拿走多余的数量a - ak 即可；如果a < ak ，b= ak + k,分两种情况，第一种，a=aj （j < k）,从第二堆里面拿走 b - bj 即可；第二种，a=bj （j < k）,从第二堆里面拿走 b - aj 即可。从如上性质可知，两个人如果都采用正确操作，那么面对非奇异局势，先拿者必胜；反之，则后拿者取胜。那么任给一个局势（a，b），怎样判断它是不是奇异局势呢？我们有如下公式：ak =[k（1+√5）/2]，bk= ak + k （k=0，1，2，...,n 方括号表示取整函数)奇妙的是其中出现了黄金分割数（1+√5）/2 = 1。618...,因此,由ak，bk组成的矩形近似为黄金矩形，由于2/（1+√5）=（√5-1）/2，可以先求出j=[a（√5-1）/2]，若a=[j（1+√5）/2]，那么a = aj，bj = aj + j，若不等于，那么a = aj+1，bj+1 = aj+1 + j + 1，若都不是，那么就不是奇异局势。然后再按照上述法则进行，一定会遇到奇异局势。（三）尼姆博奕（Nimm Game）：有三堆各若干个物品，两个人轮流从某一堆取任意多的物品，规定每次至少取一个，多者不限，最后取光者得胜。这种情况最有意思，它与二进制有密切关系，我们用（a，b，c）表示某种局势，首先（0，0，0）显然是奇异局势，无论谁面对奇异局势，都必然失败。第二种奇异局势是（0，n，n），只要与对手拿走一样多的物品，最后都将导致（0，0，0）。仔细分析一下，（1，2，3）也是奇异局势，无论对手如何拿，接下来都可以变为（0，n，n）的情形。计算机算法里面有一种叫做按位模2加，也叫做异或的运算，我们用符号（+）表示这种运算，先看（1，2，3）的按位模2加的结果：1 =二进制01

2 =二进制10

3 =二进制11 （+）

———————

0 =二进制00 （注意不进位）

对于奇异局势（0，n，n）也一样，结果也是0。任何奇异局势（a，b，c）都有a（+）b（+）c =0。如果我们面对的是一个非奇异局势（a，b，c），要如何变为奇异局势呢？假设 a < b < c,我们只要将 c 变为a（+）b,即可,因为有如下的运算结果: a（+）b（+）(a（+）b)=(a（+）a)（+）(b（+）b)=0（+）0=0。要将c 变为a（+）b，只要从c中减去c-（a（+）b）即可。例1。（14，21，39），14（+）21=27，39-27=12，所以从39中拿走12个物体即可达到奇异局势（14，21，27）。例2。（55，81，121），55（+）81=102，121-102=19，所以从121中拿走19个物品就形成了奇异局势（55，81，102）。例3。（29，45，58），29（+）45=48，58-48=10，从58中拿走10个，变为（29，45，48）。例4。我们来实际进行一盘比赛看看：甲:(7,8,9)->(1,8,9)奇异局势乙:(1,8,9)->(1,8,4)甲:(1,8,4)->(1,5,4)奇异局势乙:(1,5,4)->(1,4,4)甲:(1,4,4)->(0,4,4)奇异局势乙:(0,4,4)->(0,4,2)甲:(0.4,2)->(0,2,2)奇异局势乙:(0,2,2)->(0,2,1)甲:(0,2,1)->(0,1,1)奇异局势乙:(0,1,1)->(0,1,0)甲:(0,1,0)->(0,0,0)奇异局势甲胜。

不会用博弈论害死了关羽

有人认为当时蜀国与魏、吴结怨很深，而荆州位于魏和吴夹击之中，必然失守，诸葛亮应该认识到这一点，但还是让关羽留守荆州，因此关羽之死诸葛亮应负一部分责任。笔者持不同的看法，从博弈论的角度论证关羽之死责任不在诸葛亮，而在于关羽自己不会用博弈论。

正因为荆州位于魏和吴的夹击之中，时时处于不稳定之中，才有刘备不远千里去攻取西川，争取一个稳固的根据地。因此说守卫荆州确实是一件难事，但并不是说肯定失守。我们可以建立一个博弈模型来进行考虑。

当时的实力分析：

（1）魏、吴单独和关羽交锋。魏、吴单独和关羽比处于下风或至少势均力敌（从关羽和曹操的交战中可以看出这一点），任何一方和关羽力拼必然损兵折将，另一方则可趁虚而入，不仅能够取得荆州大部分地区，还避免了和关羽正面交锋的损失。设此时单独作战收益为X，因为单独作战，另一方会偷袭，从而自己得不到荆州，有X<0；趁另一方作战，本方不战而偷袭则会有收益Y1，Y1>0。

（2）双方都对关羽作战，则关羽首尾不能兼顾，关羽必败。但此时魏吴也会有一定的损失，取胜后为拼抢共同胜利的果实——荆州，双方也会再起战事，因此此时的收益必定不如本方不战而偷袭所得的收益，设此时双方的收益各为Y2（0

（3）双方都不对关羽力拼，则偷袭不会成功，魏吴的收益均为零。

我们可以把此博弈的支付矩阵列表如下

力拼偷袭

力拼（Y2，Y2）（X，Y1）

偷袭（Y1，X）（0，0）

注：X<0

我们可以看出，理论上，双方都力拼对魏和吴来说是最好的结果（Y2，Y2），但双方都会认识到：假如对方力拼，自己的偷袭所得将是Y1！Y1>Y2，更坏的结果莫过于自己力拼，对方偷袭，自己将遭受损失（X<0）。因此最明智的结果是自己不力拼而偷袭。因此说这个博弈的纳什均衡是（0，0），即双方都会等待对方力拼，结果偷袭都不会成功。这和囚徒困境是一个道理。

如果双方都是经济学上的理性人，那么结果会是（0，0），关羽不会死。但不幸的是曹操充当了傻子，与关羽力拼，搞得“水淹七军”不说，荆州九郡还全部落入孙权之手。诸葛亮则不愧为高人，看来他那时对博弈论已经很清楚，而且运用自如（中华民族早已把博弈论运用于战争之中，比那个纳什早了上千年），因此才嘱咐关羽切不可对一方穷追猛打，否则会两面受敌，只守不攻乃为上上策。

只要听从诸葛亮的建议，短期内荆州不会失守，等巴蜀稳定下来，魏、吴更会有所忌惮，不敢强攻荆州，那时荆州就会相对稳固起来。因此说荆州是可以守卫成功的。

此时不得不提的一个人物是刘备，刘备此人对别人疑心很大。守卫荆州最合适的人选莫过于赵云，但无奈赵云非刘备的嫡系，刘备最信任的还是自己的结拜兄弟关羽和张飞，适才派关平来荆州，暗示诸葛亮要关羽留守荆州。诸葛亮很熟悉关羽的个性——自傲、容易意气用事，派他守荆州不会听从自己的建议，可能会出问题，无奈这是刘备的意思，诸葛亮也没有办法，在临走前还千叮咛万嘱咐关羽不要冲动，但最终关羽还是没听诸葛亮的话，死攻樊城，令陆逊偷袭成功，导致自己败走麦城。

因此说，关羽的死并不是诸葛亮的错，而是关羽自己不会用博弈论的结果。假如他明白其中厉害，不主动进攻，或见好就收（水淹七军后马上收手），可能不会令陆逊有机可乘。

刘备也应当负一部分责任，他信不过诸葛亮的人选——赵云，而把并不适合的人选关羽往刀口送。这种用人上的错误，也直接导致了以后张飞和刘备自己的死。

博弈论在战争中的应用很多，远的不提，拿二战时的苏联来说，他一方面要对德国作战，另一方面小日本对他也不断骚扰。但斯大林深得博弈论之精髓，在与日本的交锋中即使胜利了也草草签署一个战和协议了事，并没有对小日本穷追猛打，才得以专心对德国作战，也才有了最终的胜利。当然从我们中国的角度来说，斯大林做得很不人道，但从苏联的角度来考虑，斯大林却是采取了最好的战略。话说回来，假设当时苏联对日本猛打，小日本也不会侵占中国那么多土地，中国不会遭受那么大的损失，日本更不会冒傻气去偷袭珍珠港，美国不一定那么快参战，历史可能因此而改写。

博弈论期末习题

《博弈论》期末习题专业：经济学学号：2 ；姓名：王兆丽一、试写出掷硬币博弈的局中人及其策略与得益函数，并写出双变量得益矩阵。答：局中人：盖硬币者和猜硬币者。策略：有正面和反面两种可选择策略，若猜对，猜者得１盖者－１.否则猜者－１盖者１.由于每一方都不会让对方在选择之前知道自己的决策，所以可以看做是同时做决策的。双变量得益矩阵；猜硬币方二、试举生活中的一例，说明囚徒困境是如何产生的？并试分析可能走出囚徒困境的途径。答：例子：中国移动和中国联通之间的价格战。产生原因：囚徒困境是在个体之间存在行为和利益相互制约的博弈结构中，以个体理性和个体选择为基础的分散决策方式，无法有效地协调各方面的利益，并实现整体、个体利益共同的最优。简单的说，囚徒困境问题都是个体理性与集体理性的矛盾引起的。可能走出的囚徒困境途径：(1)惩罚。如果政府对实行价格战以获利的企业实行惩罚，那么就会制止这种现象发生。（2）忠诚文化。有时候，建立一种相互忠诚的文化也可以帮助走出囚徒困境。在很多组织中，团体产生所面临的囚徒困境问题的轻重程度是不同的，这种差异的根本来源就是各个组织有自己的文化。（3）长期关系和重复博弈。建立长期关系使得囚徒困境博弈可以多次重复，如果这个“多次”足够长，那么人们就有可能为了长远的将来利益而牺牲眼前的一笔横财，合作也是可以达成的。

三、用逆向归纳法求解下面的博弈的子博弈完美纳什均衡。答：1、该博弈共包括四个子博弈：（1）从博弈方1选择R 以后博弈方2的第二阶段选择开始的三阶段动态博弈；（2）从博弈方2第二阶段选择R 以后博弈方1 的开始选择的两个阶段动态博弈；（3）第三阶段博弈方1选择A 以后博弈方2 的单人博弈；（4）第三阶段博弈方1选择B 以后博弈方2的单人博弈 2、根据逆推归纳法先讨论博弈方2在第四阶段的选择。由于选择C 、D 个中任何一个的得益都相同，因此在这阶段随意选择一个都可以。倒退回第三阶段，博弈方1选择ＡＢ中任何一个都可以。再推回第二阶段，博弈方２选择Ｌ将得到３选择Ｒ得到２，因此选择Ｌ；最后回到第一阶段，博弈方１选择Ｌ得到２选择Ｒ得到３,。所以该博弈的子博弈完美纳什均衡为：博弈方１第一阶段选择Ｒ，博弈方２第二阶段选择Ｌ，即（３,１）是该博弈的完美纳什均衡。四、两个寡头企业进行价格竞争博弈，企业1的利润函数是 q c aq p ++--=21)(π，企业2的利润函数是p b q +--=22)(π，其中p 是企业1 的价格，q 是企业2的价格。求： 1．两个企业同时决策的纯战略纳什均衡；两个企业同时定价。根据两个企业的得益函数，很容易导出它们各自的反应函数：απ1 /αp = -2(p-aq+c)=0 ____ p=aq-c απ2/αq = -2(q-b)=0 ______ q=b

博弈论的基础知识(doc 21页)

博弈论的基础知识与应用(转) 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰.冯.诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略

性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是博弈论的基础知识与应用(转) 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰.冯.诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以

《经济博弈论》期末考试复习

《经济博弈论》期末考试复习资料第一章导论 1.博弈的概念：博弈即一些个人、队组或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，并从中各自取得相应结果的过程。它包括四个要素：参与者，策略，次序和得益。 2.一个博弈的构成要素：博弈模型有下列要素：(1)博弈方。即博弈中决策并承但结果的参与者．包括个人或组织等：(2)策略。即博弈方决策、选择的内容，包括行为取舍、经济活动水平或多种行为的特定组合等。各博弈方的策略选择范围称策略空间。每个博弈方各选一个策略构成一个策略组合。(3)进行博弈的次序：次序不同一般就是不同的博弈，即使博弈的其他方面都相同。(4)得益。各策略组合对应的各博弈方获得的数值结果，可以是经济利益，也可以是非经济利益折算的效用等。 3.合作博弈和非合作博弈的区别：合作博弈：允许存在有约束力协议的博弈；非合作博弈：不允许存在有约束力协议的博弈。主要区别:人们的行为互相作用时，当事人能否达成一个具有约束力的协议。假设博弈方是两个寡头企业，如果他们之间达成一个协议，联合最大化垄断利润，并且各自按这个协议生产，就是合作博弈。如果达不成协议，或不遵守协议，每个企业都只选择自己的最优产品（价格），则是非合作博弈。合作博弈：团体理性（效率高，公正，公平）非合作博弈：个人理性，个人最优决策（可能有效率，可能无效率） 4.完全理性和有限理性: 完全理性：有完美的分析判断能力和不会犯选择行为的错误。有限理性：博弈方的判断选择能力有缺陷。区分两者的重要性在于如果决策者是有限理性的，那么他们的策略行为和博弈结果通常与在博弈方有完全理想假设的基础上的预测有很大差距，以完全理性为基础的博弈分析可能会失效。所以不能简单地假设各博弈方都完全理性。 5.个体理性和集体理性：个体理性：以个体利益最大为目标；集体理性：追求集体利益最大化。第一章课后题：2、4、5 2.设定一个博弈模型必须确定哪几个方面? 设定一个博弈必须确定的方面包括:(1)博弈方，即博弈中进行决策并承担结果的参与者;(2)策略(空间)，即博弈方选择的内容，可以是方向、取舍选择，也可以是连续的数量水平等;(3)得益或得益函数，即博弈方行为、策略选择的相应后果、结果，必须是数量或者能够折算成数量;(4)博弈次序，即博弈方行为、选择的先后次序或者重复次数等;(5)信息结构，即博弈方相互对其他博弈方行为或最终利益

博弈论泽尔腾简介

莱茵哈德?泽尔腾简介一、人物生平莱茵哈德?泽尔腾（Reinhard Selten），德国人，1930年10月10日出生于德国的布莱斯劳。由于犹太人的身份，泽尔腾自小对政治、经济学感兴趣，对数学的爱好伴随其一生。 1951～1957年，他在法兰克福大学学习数学，1957年获硕士学位。 1961年，泽尔腾获得马恩法兰克福大学的数学博士学位。 1967～1968年，泽尔腾去伯克利加州大学商学院当客座教授。 1969年接受柏林大学聘请，担任经济学教授至1972年。 1984年，他到波恩大学任经济学教授。 1991年，泽尔腾和夫人伊丽莎白都患上了严重的糖尿病。伊丽莎白因此下肢瘫痪，并且视力也接近失明。但泽尔腾夫妇对生活仍充满了自信。泽尔腾多次来中国访问，并到过多所大学进行学术演讲。泽尔腾在学术报告中展示出的大师的学术精神与态度、深刻的思想见解以及伟大的学术抱负令聆听其报告的每一个人所敬佩。 1994年泽尔腾教授因在“非合作博弈理论中开创性的均衡分析”方面的杰出贡献而荣获诺贝尔经济学奖。泽尔腾现还任计量经济学社团委员、美国艺术与科学学院外籍名誉院士、青岛大学名誉教授、南开大学公司治理研究中心顾问、南京审计学院名誉教授。

二、主要著作和学术贡献 1、主要著作泽尔腾的主要学术论著有：《一项寡头垄断实验》、《关于扩展性博弈中均衡完善概念的再检验》、《连锁商店之谜》、《博弈中均衡选择通论》、《价格制定者厂商的一般均衡》（1974年）、《博弈均衡选择的一般理论》（1988年，与哈萨尼合作）、《战略理性模型与决策理论丛书：《系列C：博弈论、数学规划及运筹学研究》（1988年）。1994年，由于“莱茵哈德?泽尔腾教授的均衡分析中的完善性的观念大大扩展了非合作博弈论的应用”，他与约翰?纳什、约翰?哈萨尼共同荣获该年度诺贝尔经济学奖。 2、学术贡献他的主要学术研究领域为博弈论及其应用、实验经济学等。博弈论是作为数学的一个分支出现的，但是它在军事、政治、经济许多方面都有很多重要的运用，其中以在经济学内的运用最多也最为成功。博弈论整个改写了经济学理论。博弈论对人类的更大贡献是，加强了国际间的交流合作机会。各国对博弈论的研究，促进了人类社会的文明发展。此外，博弈论的思维方式推动了人类思维模式更高层次的发展。泽尔腾针对纳什均衡中的静态分析的不足，在1965年将扩展型博弈推广为动态博弈，并提出了子博弈的概念和子博弈完美均衡的概念，发展了倒推归纳法。1975年发表“关于扩展型博弈中完美均衡概念的再检验”一文，提出了被称之为“颤抖手完美纳什均衡”的概念，

博弈论基础复习

《博弈论基础》主要知识点一、名词解释（5×2＝10分）策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。纳什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。混合策略局中人的混合策略是其纯策略空间上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。类型 :一般地，将一个参与人所拥有的所有私人信息称为他的类型。信号博弈是研究具有信息传递作用的信号机制的一般博弈模型，其基本特征是两个博弈方，分别称为信号发出方和信号接收方。分离均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者以概率1选择不同的信号，接收者完全可以通过信号来准确判断出发送者的类型。混同均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者选择了相同的信号，接收者无法从信号中得到新的信息，无法对先验信念进行修正。特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益，也就是给出了一种集合函数，称为特征函数。联盟

博弈期末考试总结

博弈与决策答案一、名词解释（每小题2分，共16分） 1、博弈博弈是指一些个人、团队或其他组织，面对一定的环境条件，在一定的规则约束下，依靠掌握的信息，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以施，并从中各自取得相应结果或收益的过程， 2、占优战略均衡占优战略均衡是指在博弈中，如果所有参与人都有占优策略存在，博弈将在所有参与人的优策略的基础上达到均衡． 3、重复博弈重复博弈是指同一个博弈在相同的环境、规则下反复多次执行的博弈问题， 4、序列博弈序列博弈是指对局者选择策略有时问先后的顺序，某些对局者可能率先采取行动．序列博也是一种动态博弈． 5、动态博弈动态博弈是指在博弈中，参与人的行动有先后顺序且后行动者能够观察到先行动者所选择的行动． 6、占优战略均衡--占优战略均衡是指在博弈中，如果所有参与人都有占优策略存在，博弈将在所有参与人的占优策略的基础上达到均衡． 7、完全信息---完全信息是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息． 8、得益得益是参与人在博弈结束后从博弈中获得的效用，一般是所有参与人的策略或行动的函数，这是每个参与人最关心的东西． 9，博弈论：博弈论就是系统的研究各种各样的博弈问题，寻求各博弈方合理选择策略的情况下博弈的解，并对这些解进行讨论分析的理论。 10，纳什战略均衡：纳什战略均衡指在均衡中，每个博弈参与人都确信，在给定其他参与人选择的策略的情况下，该参与人选择了最优策略以回应对手的策略。 11，静态博弈：静态博弈是指在博弈中，参与人同时选择或非同时选择但后行动者并不知道先行动者采取了什么具体行动。二、、简答题（每小题6分，共24分） 1、占优战略均衡和纳什均衡的联系与区别如下： 1)每一个占优战略均衡都是纳什均衡，而每一个纳什均衡却未必是占优战略均衡； 2)用重复剔除严格劣战略方法，保留下的唯一的重复剔除的占优均衡，就是纳什均衡． 3)纳什均衡，不会被重复剔除严格劣战略方法剔除掉（但弱劣战略剔除，可能会剔除纳什衡）： 4)经重复剔除严格劣战略之后，有不唯一的多个哉略组合保留，其中有的战略组合不一定纳什均衡．即重复剔除严格劣战略方法，无法确保将所有非纳什均衡战略剔除，没有被剔的战略组合不一定是纳什均衡． 5)没有占优战略均衡的博弈，不能用重复剔除严格劣战略方法求解的博弈，可以有纳什均衡2，博弈的构成要素有哪些？并对其进行说明。 2、博弈一般由以下几个要素组成，包括：参与人、行动、信息，策略、得益、结果、均衡等．

博弈论试题及答案

诚信考试沉着应考杜绝违纪《博弈论》试卷课堂周四（7/8）院系专业万方电气系通信工程学号余数 0 姓名

河南理工大学2010–2011学年第1学期《博弈论》课程期末考试试卷开课学院：经济管理学院，考试形式：开卷，允许带___________入场考试时间：2010年12月25日－12月25日, 所需时间：周考生姓名：学号：专业：题序一二三四五六七八总分得分评卷人 1、第一题：（10分）（1）举一个你所经历情侣博弈的情形，在实际博弈中你采取什么行动让自己收益最大；答：作为一个男生，我想很多机会都是把握在自己手中的，情侣博弈有二个“纳什均衡”，一次博弈的结局究竟落到哪一个“纳什均衡”，关键就是要看遇事时自己如何去选择了。例如：周末和女朋友去逛商场，应该客观地按照需求去采购，在了解女朋友的爱好的前提下，想办法引导她去看性价比最高的商品，并给予一定建议。遇到她特别喜欢的衣服或饰物，只要价格合理，又能满足生活需要，在对方征求意见时应该支持购买并给予肯定答复；当遇到不合理的购买选择时，应简明扼要地说出其不适之处，并建议对方到其它她喜欢的物品处，挑选令其满意的商品。购物中间一旦遇到对方生气或者发火，可以宽容地对待对方，以显示出自己的城府，若对方为无理取闹，应该坦诚地向对方说明情况，让对方明白自己在为她考虑，说明都说清楚了事情也就简化了。另外，在购物结束前，可以给女朋友买些她喜欢的零食，或者一起去对方喜欢的餐饮店，休息的同时也可调节一下情调，让双方都能够感觉到两个人在一起的幸福与甜蜜。总结一下，在这场情侣博弈中，要想让自己获得最大收益，必须努力做到认真、善意、宽容、强硬、简单明了各种措施相结合。 2、第二题：（20分）请举例说明下列说法是否正确，构造博弈模型具体说明，阐述原因。（1）判断分析“先下手为强” 答：“先下手为强”并不满足所有的情形。博弈中，在有多个"纳什均衡"的情况下,常常是先动手的一方会占一些优势，这和课例中“囚徒困境”情形类似，有一个最佳策略，古代的很多例子也证明了此点，如：诸葛亮先下手为强，占据荆州要势；日本先下手为强，偷袭美国的珍珠港，不然就不会有第二次世界大战；三国曹操先下手为强，迎接汉献帝，后挟天子以令诸侯等。要指出的是，“动态博弈”中也是有很多后动优势的情形，一般是在方案已经制定，自身实力比较弱，需要选择决策的时候，主动放弃先发权利，变先动劣势为后动优势。如：三人参加选举，支持率分别为15%，35%，50%，这个时候，如果15%者先采取行动，可能会立刻被强敌灭掉，所以他必须保存实力，保持低调，不介入强者的争斗，由另两位先动手，争取灭掉一方后均分失败者的支持率，虽然这样扔处于劣势，但比最初情况要好很多。所以，在面对选择

博弈论基础作业及答案

博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT 二、问答题 1.举出囚徒困境和智猪博弈的现实例子并进行分析。囚徒困境的例子：军备竞赛；中小学生减负；几个大企业之间的争相杀价等等；以中小学生减负为例：在当前的高考制度下，给定其他学校对学生进行减负，一个学校最好不减负，因为这样做，可以带来比其他学校更高的升学率。给定其他学校不减负，这个学校的最佳应对也是不减负。否则自己的升学率就比其他学校低。因此，不论其他学校如何选择，这个学校的最佳选择都是不减负。每个学校都这样想，所以每个学校的最佳选择都是不减负，因此学生的负担越来越重。请用同样的方法分析其他例子。智猪博弈的例子：大企业开发新产品；小企业模仿；股市中，大户搜集分析信息，散户跟随大户的操作策略以股市为例：给定散户搜集资料进行分析，大户的最佳选择是跟随。而给定散户跟随，大户的最佳选择是自己搜集资料进行分析。但是不论大户是选择分析还是跟随，散户的最佳选择都是跟随。因此如果大户和散户是聪明的，并且大户知道散户也是聪明的，那么大户就会预见到散户会跟随，而给定散户跟随，大户只有自己分析。请用同样的方法分析其他例子。 2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。破釜沉舟是一个承诺行动。目的是要断绝自己的退路，让自己无路可退，让自己决一死战变得可以置信。也就是说与敌人对决时，只有决一死战，这样才可以取得胜利。否则，如果不破釜沉舟，那么遇到困难时，就很有可能退却，也就无法取得胜利。穷寇勿追就是要给对方一个退路，由于有退路，对方就不会殊死抵抗。否则，对方退无可退，只有坚决抵抗一条路，因而必然决一死战。自己也会付出更大的代价。

博弈论基础作业及答案

博弈论基础作业及答案Last revision on 21 December 2020

博弈论基础复习

《博弈论基础》复习大纲一、名词解释（5×2＝10分）策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。纳什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。混合策略局中人的混合策略是其纯策略空间上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。类型一般地，将一个参与人所拥有的所有私人信息称为他的类型。静态贝叶斯均衡是一种与类型有关的策略组合，其中每个局中人在给定自己类型和其它局中人策略的情况下最大化自己的期望效用函数。

信号博弈是研究具有信息传递作用的信号机制的一般博弈模型，其基本特征是两个博弈方，分别称为信号发出方和信号接收方。分离均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者以概率1选择不同的信号，接收者完全可以通过信号来准确判断出发送者的类型。混同均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者选择了相同的信号，接收者无法从信号中得到新的信息，无法对先验信念进行修正。联盟设},,2,1{I =ζ为局中人集合，则其中任意一非空子集ζ?S 为一个联盟。特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益，也就是给出了一种集合函数，称为特征函数。核多人合作博弈中所有不被超优的分配的集合。核仁合作博弈核仁解所依据的基本思想是:在分配属于核仁的条件下，最不理想的联盟也要优于任何其它分配向量的最不理想的联盟。二、判断题（5×1＝5分）三、简答题（4×7＝28分）策略型博弈的基本要素。策略型博弈的基本要素有：局中人：即博弈的参与者，可以是自然人﹑企业﹑政府﹑社团等。策略：指每个局中人在博弈中可选择采用的行动方案。支付：指每个局中人从各种策略组合中获得的收益。什么是纳什均衡？你是如何理解的？纳什均衡及其理解：在一个博弈过程中，无论其它局中人的策略选择如何，局中人都会选择某个确定的策略，则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略，局中人谁都没有动机单方面偏离该状态，那么这个组合就被定义为纳什均衡。 1.是完全信息静态博弈的解的一般概念。 2.每一个严格占优战略均衡一定是纳什均衡，反之不然。

博弈论基础

ECON 40050 Game Theory Exam 1- Answer Key Instructions: 1) You may use a pen or pencil, a hand-held nonprogrammable calculator, and a ruler. No other materials may be at or near your desk. Books, coats, backpacks, etc... must be placed against the wall. No electronic communication devices may be used. 2) As soon as the instruction to begin the test is given, please check that you have 10 numbered pages. 3) Be sure to show all of your work. Answers without supporting calculations will receive zero credit. You will receive credit only for the answers and supporting calculations that appear in this test packet. 4) All exams must be turned in by 1:45 pm. No extensions will be granted. 5) Be sure to read each question in its entirety before beginning your analysis. 6) The time estimates at the beginning of each question are only suggestions to help you manage your time. NAME ____________________________________________ Question 1 (10 minutes)_______ (15 points) Question 2 (10 minutes)_______ (15 points) Question 3 (10 minutes)_______ (15 points) Question 4 (15 minutes)_______ (15 points) Question 5 (20 minutes)_______ (20 points) Total: (65 minutes)_______ (80 points)

博弈论试题

杭州师范大学2010-2011学年第二学期通识课程期末考试《博弈论与企业管理》试卷一、单项选择题（本大题共12题，每题3分，共36分） 1. 下列关于优势策略均衡和纳什均衡的描述正确的是（） A 优势策略均衡肯定是纳什均衡； B 纳什均衡都是优势策略均衡； C 纳什均衡是特殊的优势策略均衡； D 以上三种情况都有可能 2. 以下关于承诺的描述不准确的是（） A 承诺使威胁可置信； B 承诺往往对自己构成约束； C 承诺往往不需要成本； D 承诺往往会给自己带来成本，但最终结果使自己有利 3. 对于以下报酬矩阵，哪个命题是正确的（） A 甲和乙都有占优策略； B 只有甲有占优策略； C 只有乙有占优策略； D 两人都没有占优策略 4. 对于如下报酬矩阵，乙的占优策略是（） A 上； B 中； C 左； D 右

5. 对于题4的报酬矩阵，以下哪个是纳什均衡（） A （上，左）；B （上，右）；C （下，右）；D （上，中） 6. 对于题4的报酬矩阵，如果乙先走一步，并且知道甲再作决策时已经知道乙的决策，那么，乙将采取（） A 左；B 中； C 右；D 上 7. 交易双方信息不对称，比如买房不知道卖方的一些情况，是由于（） A 卖方故意隐瞒自己的一些情况； B 买方自身的认识能力有限； C 买方掌握完全信息的成本太高； D 以上三种情况都有可能 8. 面对不对称信息，下列哪一项不能为消费者减少信息不对称（） A 品牌；B 低价格 C 产品保证 D 长期质量保证书 9. 下列哪一项不是高质量的信号（） A 产品保证； B 延长的质量保单； C 暂时的经营场所； D 被认可的品牌 10.在二手市场上，（） A 买主知道商品的质量，而卖主不知道； B 买主不知道商品的质量，而卖主知道； C 卖主和买主都知道商品的质量是低的； D 卖主和买主都不知道商品的质量是低的 11.一个有效的激励机制必须能够（） A 使代理人参与工作的净收益不低于不工作也能得到的收益； B 使代理人让委托人满意的努力水平也是给代理人带来最大净收益的努力水平； C 尽可能地减少或消除代理人的目标函数与委托人的目标函数之间的冲突； D 以上都是 12.在信息不对称的劳动力市场，效率最低的激励机制是（） A 固定工资；B 效率工资；C 利润分享； D 提成二、简答题（本大题共6题，第1、2、3题每题4分，第4、5、6题每题6分，共30分） 1.一个博弈如果出现两败俱伤的结果，这样的博弈一定是非合作的零和博弈吗 2.两个罪犯只打算合伙犯罪一次，所以被捕后出现了囚徒困境的情况。如果这两个罪犯准备合伙犯罪30次，那么在开始的犯罪活动中如果被捕，还会出现囚徒困境吗 3.请举例分析说明在什么条件下博弈者采取威胁对方的策略可以奏效。 4.某博弈的报酬矩阵如下：（1）如果（上，左）是优势策略均衡，那么a ，b ，c ，d 应满足什么条件（2）如果（上，左）是纳什均衡，那么，又应该满足什么条件（3）如果（上，左）是优势策略均衡，那么，它是否必定是纳什均衡为什么

博弈论基础

博弈论博弈论（Game Theory），亦名“对策论”、“赛局理论”，属应用数学的一个分支，博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。参见：行为生态学（behavioral ecology）。约翰·冯·诺依曼博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。博弈论思想古已有之，中国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。近代对于博弈论的研究，开始于策墨洛（Zermelo），波雷尔（Borel）及冯·诺伊曼（von Neumann）。 1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。 1950～1951年，约翰·福布斯·纳什（John Forbes Nash Jr）利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的策墨洛（Zermelo) 基础。纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出

高校博弈论期末试卷

高校博弈论期末试卷(每题10分)1、在下面的战略式表述博弈中，说明两个参与人是否有占优战略及其理由，是否有占优战略均衡，若有，说明均衡结果。DURowColumnRL3,07,-12,55,12、在下面的战略式表述博弈中，说明战略组合(U,L)不是纳什均衡和(D,R)是纳什均衡的理由。DURowColumnRL9,55,36,79,53、求下面扩展式表述博弈的纳什均衡及结果。进入者不进入进入在位者默许斗争默许斗争(0,400)(0,400)(10,30)(40,50)4、求下面战略式表述博弈的混合战略纳什均衡，画出反应对应图。DURowColumnRL2,24,33,42,25、在下面的扩展式表述博弈中，写出两个参与人的战略空间，求其子博弈精炼纳什均衡及结果。在位者默许斗争进入者进入者不进入不进入进入进入(100,90)(0,-10)(300,0)(300,0)6、求下面扩展式表述博弈的子博弈精炼纳什均衡及结果。 3RLDU21(40,50,10)(0,30,20)INOUT(0,50,20)(10,60,0)7、图示以下列战略式表述博弈为阶段博弈的无限重复博弈的纳什威胁点、可行支付集合、个人理性支付集合、个人理性可行支付集合和子博弈精炼可达到的支付集合。DURowColumnRL8,80,66,02,28、写出下列扩展式表述博弈的战略式表述，求出这个博弈的纳什均衡及结果，如何使两个企业既守法又不减少所获收益？企业1违法守法企业2守法违法守法违法(1,1)(2,-1)(-1,2)(1,1)9、在以下静态贝叶斯博弈中，在位者知道自己是低成本的，进入者不知道在位者是高成本还是低成本，但知道在位者是高成本的概率是60%，两个参与人同时行动，画出这个博弈的扩展式表述，说明在进入者选择进入的情况下在位者在两种成本情况下的战略选择，计算进入者两种战略选择的期望支付，写出这个博弈的贝叶斯纳什均衡及结果。在位者低成本[0.4]高成本[0.6]斗争默许斗争默许进入0,4000,4000,3000,300-10,10030,80-10,040,50进入进入者不进入10、在下列不完全信息动态博弈中，自然首先选择参与人1的类型，参与人1知道自己的类型，参与人2不知道参与人1的类型，但知道参与人1属于t1和t2类型的先验概率，（1）写出两个参与人的战略空间；（2）判断在给定的先验概率条件下，若参与人1选择L，参与人2会选择U还是D，若参与人1选择R，参与人2会选择U还是D；（3）给定参与人2的这种选择，若参与人1是t1类型的，将选择L还是R，若参与人1是t2类型的，将选择L还是R；（4）若参与人2观察到参与人1选择R，计算他认为参与人1是t1类型的后验概率，若参与人2观察到参与人1选择L，计算他认为参与人1是t1类型的后验概率；（5）写出这个博弈的精炼贝叶斯均衡，说明参与人1采用的是何种战略。

武汉大学2015-2016学年第二学期博弈论期末考试

武汉大学2015-2016学年第二学期博弈论期末考试 (2016.05.28) 一、判断题（每小题3.5分，共35分） 1、纳什均衡一定是占优均衡。（×） 2、占优均衡一定是纳什均衡。（√） 3、占优均衡是帕累托最优的均衡。（×） 4、囚徒困境说明个人的理性选择不一定是集体的理性选择。（√） 5、子博弈精炼纳什均衡不是一个纳什均衡。（×） 6、在一个博弈中只可能存在一个纳什均衡。（×） 7、在一个博弈中如果存在多个纳什均衡则不存在占优均衡。（√） 8、根据参与人行动的先后顺序，博弈可以划分为静态博弈(static game)和动态博弈(dynamic game)。 9、在博弈中纳什均衡是博弈双方能获得的最好结果。（×） 10、在动态博弈中，因为后行动的博弈方可以先观察对方行为后再选择行为，因此总是有利的。（×）二、名词解释（每小题2分，共20分） 1、博弈：一些个人、团体或其他组织，在一定的规则约束下，依据所掌握的信息，同时或者先后，一次或者多次从允许选择的行为或战略进行选择并加以实施，并从中各自取得相应结果或收益的过程。 2、静态博弈：指博弈中的参与人同时选择行为，或者虽非同时但后行动者并不知道前行动者采取了什么具体行动；动态博弈：指参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。 3、囚徒困境：从博弈中的两个利益主体出发选择行为，结果是既没有实现两人总体的最大利益，也没有真正实现自身的个体最大利益，比如经济领域的寡头竞争、公共产品的供给。 4、参与人(player)：指的是博弈中选择行动以最大化自己效用(收益)的决策主体，参与人有时也称局中人，可以是个人，也可以是企业、国家等团体； 5、非合作博弈与合作博弈：人们行为相互作用时，当事人能达成一个具有约束力的协议，也就是合作博弈，反之，就是非合作博弈。 6、占优均衡：无论其他参与人选择什么战略，参与人的某一种战略均是最优的。 7、纳什均衡：给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是最好的策略，即双方在给定的战略上不愿意改变自己的策略。 8、完全信息博弈：每一个参与人对所有其他参与人的特征，战略空间以及支付函数有准确知识的博弈。 9、重复剔除劣战略的占优均衡：首先找到某个参与人的劣战略（假定存在），把这个劣战略删除掉，重新构造一个不包含已删除的劣战略的新的博弈，然后再删除这个新的博弈中的某个参与人的劣战略，一直重复这个过程，直到只剩下唯一的战略组合为止。 10、不可置信的威胁：在纳什均衡中，不可置信的均衡战略，在博弈的规则下，使自己的支付变小的不理性的选择。

博弈论复习题及答案

囚徒困境说明个人的理性选择不一定是集体的理性选择。（√）子博弈精炼纳什均衡不是一个纳什均衡。（×）若一个博弈出现了皆大欢喜的结局，说明该博弈是一个合作的正和博弈。（）博弈中知道越多的一方越有利。（×）纳什均衡一定是上策均衡。（×）上策均衡一定是纳什均衡。（√）在一个博弈中只可能存在一个纳什均衡。（×）在一个博弈中博弈方可以有很多个。（√）在一个博弈中如果存在多个纳什均衡则不存在上策均衡。（√）在博弈中纳什均衡是博弈双方能获得的最好结果。（×）在博弈中如果某博弈方改变策略后得益增加则另一博弈方得益减少。（×）上策均衡是帕累托最优的均衡。（×）因为零和博弈中博弈方之间关系都是竞争性的、对立的，因此零和博弈就是非合作博弈。（×）在动态博弈中，因为后行动的博弈方可以先观察对方行为后再选择行为，因此总是有利的。（×）在博弈中存在着先动优势和后动优势，所以后行动的人不一定总有利，例如：在斯塔克伯格模型中，企业就可能具有先动优势。囚徒的困境博弈中两个囚徒之所以会处于困境，无法得到较理想的结果，是因为两囚徒都不在乎坐牢时间长短本身，只在乎不能比对方坐牢的时间更长。（×）纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。（√）不存在纯战略纳什均衡和存在惟一的纯战略纳什均衡，作为原博弈构成的有限次重复博弈，共同特点是重复博弈本质上不过是原博弈的简单重复，重复博弈的子博弈完美纳什均衡就是每次重复采用原博弈的纳什均衡。（√）多个纯战略纳什均衡博弈的有限次重复博弈子博弈完美纳什均衡路径：两阶段都采用原博弈同一个纯战略纳什均衡，或者轮流采用不同纯战略纳什均衡，或者两次都采用混合战略纳什均衡，或者混合战略和纯战略轮流采用。（√）如果阶段博弈G={A1, A2,…,An; u1, u2,…,un)具有多重Nash均衡，那么可能（但不必）存在重复博弈G(T)的子博弈完美均衡结局，其中对于任意的t

博弈论基础知识

1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰•冯•诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡•摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？ 3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？ 4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？ 5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？ 6）在这些情况下，真正的人类行为与“理性”行为是否相符？ 7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？因而，博弈论研究的“博弈”包括：  破产  门口的野蛮人（Barbarians at the Gate）  网络战（Battle of the Networks）  货物出门，概不退换（Caveat Emptor）  征召（Conscription）  协调（Coordination）  逃避（Escape and Evasion）  青蛙呼叫配偶（Frogs Call for Mates）  鹰鸽博弈（Hawk versus Dove）  Mutually Assured Destruction  多数决定原则（Majority Rule）  Market Niche  共同防卫（Mutual Defense）  囚徒困境（Prisoner’s Dilemma）  补贴小商业Subsidized Small Business  公共地悲剧Tragedy of the Commons  最后通牒Ultimatum  视频系统协调Video System Coordination ■理性新古典经济学与博弈论之间的关键链接就是理性。新古典经济学建基于这样一个假设之上，即人类在其经济选择行为中是绝对理性的。确切地说，这个假设意味着每个人在其所面临的环境中都会最大化自身的报酬——利润、收入或主观利益。在资源配置研究中，上述假说服务于两个目的：一是稍稍缩小可能发