博弈论
- 格式:doc
- 大小:146.00 KB
- 文档页数:7
博弈论约翰·冯·诺依曼博弈论的概念博弈论又被称为对策论(Game Theory),它是现代数学的一个新分支,也是运筹学的一个重要组成内容。
在《博弈圣经》中写到:博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的意义。
按照2005年因对博弈论的贡献而获得诺贝尔经济学奖的Robert Aumann教授的说法,博弈论就是研究互动决策的理论。
所谓互动决策,即各行动方(即局中人[player])的决策是相互影响的,每个人在决策的时候必须将他人的决策纳入自己的决策考虑之中,当然也需要把别人对于自己的考虑也要纳入考虑之中……在如此迭代考虑情形进行决策,选择最有利于自己的战略(strategy)。
博弈论的应用领域十分广泛,在经济学、政治科学(国内的以及国际的)、军事战略问题、进化生物学以及当代的计算机科学等领域都已成为重要的研究和分析工具。
此外,它还与会计学、统计学、数学基础、社会心理学以及诸如认识论与伦理学等哲学分支有重要联系。
按照Aumann所撰写的《新帕尔格雷夫经济学大辞典》“博弈论”辞条的看法,标准的博弈论分析出发点是理性的,而不是心理的或社会的角度。
不过,近20年来结合心理学和行为科学、实验经济学的研究成就而对博弈论进行一定改造的行为博弈论(behavoiral game theory )也日益兴起。
博弈论的发展博弈论思想古已有之,我国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论专著。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展,正式发展成一门学科则是在20世纪初。
1928年冯·诺意曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺意曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。
2.2.1 博弈论的定义现代经济学的最新发展有一个特别引人注目的特点,那就是博弈论在经济学中越来越受到重视。
博弈论,又称为对策论,它是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。
也就是说,当一个主体,好比说一个人或一个企业的选择受到其他人、其他企业选择的影响,而且反过来影响到其他人、其他企业选择时的决策问题和均衡问题①。
简单地说,就是研究决策主体的行为在发生直接相互作用时,他们如何进行决策,以及这种决策的均衡问题。
1944 年冯·诺依曼和摩根斯特恩(Morgenstern)合作出版了《博弈论与经济行为》(The Theory of Games and Economic Behavior),开始将博弈论引入经济学,成为现代经济博弈论研究的开端。
20 世纪50 年代纳什(John F. Nash)、塔克(Tucker)等人的研究,奠定了现代博弈论的基石。
在其后的几十年里,许多经济学家致力于博弈论的研究,1965 年泽尔腾(Reinhard Selten)将纳什均衡的概念引入了动态分析;1967-1968 年,海萨尼(John C. Harsanyi)把不完全信息分析引入博弈论的研究;1982 年克瑞普斯(David M. Kreps)和威尔逊(RobertWilson)分析了动态不完全信息条件下的博弈问题。
1994 年诺贝尔经济学奖授予了纳什、泽尔腾和海萨尼三位博弈论专家,此后在2001 年诺贝尔经济学奖同样授予了三位博弈论的专家②。
博弈论是一种关于行为主体策略相互作用的理论,它已形成了一套完整的理论体系和方法论体系。
它具有基本假设的合理性、研究对象的普遍性、研究结论的真实性、方法论的实证性等特点。
正是因为这些特点,博弈论的产生和发展引发了一场深刻的经济学革命,使得现代经济学从方法论,到概念和分析的方法体系,都发生了很大的变化。
正如克瑞普斯(Kreps)在《博弈论与经济模型》一书中指出“在过去一二十年中,经济学在方法论,以及语言、概念等等方面,经历了一场温和的革命,非合作博弈已经成为范式的中心……在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中,现在人们已经很难找到不①懂纳什均衡能够‘消化’近代文献的领域。
博弈论百度百科博弈论是一门研究决策制定和决策结果的学科,它是应用数学的一个分支,通过运用数学和逻辑工具,探讨参与者在互动决策中的最佳策略选择。
在博弈论中,参与者被称为玩家,他们根据自身利益和目标来做出决策。
博弈论适用于各种不同领域的情境,包括经济学、政治学、生物学等。
一、概述博弈论的研究对象是策略性互动。
在一个博弈中,每个玩家都会依据一定的策略选择进行行动,而这个选择可能会受到其他玩家的影响。
博弈论试图理解和分析在这种互动中,参与者如何做出决策,并找到最优的解决方案。
博弈论的核心概念是博弈,一个博弈可以用一个四元组表示:(N, A, U, F),其中:- N表示参与博弈的玩家集合;- A表示每个玩家可选的行动集合;- U表示每个玩家的效用函数,用于衡量不同结果对该玩家的好坏程度;- F表示每个玩家的信息集合。
信息集合是指每个玩家在博弈过程中所了解的信息。
二、博弈论的重要概念1. 纳什均衡纳什均衡是博弈论中最重要的概念之一,指的是在一个博弈中,所有玩家选择的策略组合,使得任何玩家都没有动机单方面改变自己的策略。
纳什均衡是一个稳定状态,玩家之间不再有改变策略的动机。
2. 零和博弈与非零和博弈博弈可以分为零和博弈和非零和博弈。
零和博弈是指参与博弈的玩家的收益之和为零,即一方获利必然导致另一方的损失。
非零和博弈是指参与博弈的玩家的收益之和不为零,即可以存在多方共同受益的情况。
3. 微观博弈与宏观博弈微观博弈是指研究个体玩家之间的策略性互动,关注的是个体决策的结果。
宏观博弈是指研究整体群体之间的策略性互动,关注的是全局结果。
三、应用领域博弈论的研究在众多领域中都具有广泛的应用。
以下是博弈论在一些领域的应用举例:1. 经济学博弈论在经济学领域中有着广泛的应用。
它可以用来研究市场竞争、合作与冲突、价格形成等经济问题。
例如,博弈论可以用来分析竞争市场中的价格战和垄断市场中的价格定价策略。
2. 政治学博弈论在政治学领域中也有着重要的应用。
什么是博弈论?博弈论是一门研究策略决策的学科,它涉及到两个或多个参与者的博弈过程。
博弈论的研究对象可以是经济、政治、社会等领域,也可以是日常生活中的人际交往。
下面,我们来详细了解一下这门学科。
一、博弈论的起源博弈论起源于20世纪40年代,当时美国数学家冯·诺依曼(John von Neumann)和经济学家奥斯卡·莫根斯特恩(Oskar Morgenstern)合著了《博弈论与经济行为》一书。
这是一本奠定博弈论基础的重要著作,它将博弈论应用于经济学领域,从而成为博弈论的奠基之作。
二、博弈论的基本概念1.参与者博弈论的参与者指的是博弈过程中参与决策的个体或组织,例如一个独立的个人、两个公司或国家之间的竞争。
2.策略策略是指参与者在博弈中所采用的行为方式或决策方法。
不同的策略可能导致不同的博弈结果,因此博弈过程中策略的选择非常重要。
3.收益收益是博弈过程中参与者所能获取的利益,包括经济利益、社会地位、权力等。
收益对参与者而言是决策的目的和结果,因此其大小和分布会影响博弈的结果。
4.博弈形式博弈形式指的是博弈参与者、策略和收益之间的关系,是博弈过程的精神核心。
博弈形式一般分为合作博弈和非合作博弈两种,而在这两种博弈形式下,又分别有多种复杂的形式。
三、博弈论的应用1.经济学领域博弈论在经济学领域的应用最为广泛。
经济学研究的主题之一是市场竞争,而博弈论可以帮助我们透彻理解市场竞争的规律。
例如,博弈论可以用来研究企业之间的价格战、垄断行为、拍卖等问题。
2.政治学领域博弈论在政治学领域的应用也非常重要。
政治学研究的主题之一是国家之间的竞争和协作,而博弈论可以帮助我们研究国际关系、外交政策等问题。
例如,博弈论可以用来研究国际贸易谈判、军备竞赛等问题。
3.人际交往领域博弈论在人际交往领域的应用也相当重要。
通过博弈论,我们可以学习如何有效地沟通和合作,避免双方的冲突和误解。
例如,博弈论可以用来研究双方的协调、合作等问题。
博弈论是一种处理竞争与合作问题的数学决策方法;研究竞争中参加者为争取最大利益应当如何做出决策的数学方法;根据信息分析及能力判断,研究多决策主体之间行为相互作用及其相互平衡,以使收益或效用最大化的一种对策理论;研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。
博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。
博弈论思想古已有之,我国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺伊曼(von Neumann)。
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。
纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。
今天博弈论已发展成一门较完善的学科。
博弈的分类根据不同的基准也有所不同。
一般认为,博弈主要可以分为合作博弈和非合作博弈。
它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。
从行为的时间序列性,博弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
博弈论一:基本知识1.1定义:博弈论;又称对策论;是使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论;是研究竞争的逻辑和规律的数学分支..即;博弈论是研究决策主体在给定信息结构下如何决策以最大化自己的效用;以及不同决策主体之间的均衡..1.2基本要素:参与人、各参与人的策略集、各参与人的收益函数;是博弈最重要的基本要素..1.3博弈的分类:博弈论根据其所采用的假设不同而分为合作博弈理论和非合作博弈理论..两者的区别在于参与人在博弈过程中是否能够达成一个具有约束力的协议binding agreement..倘若不能;则称非合作博弈Non-cooperative game..合作博弈强调的是集体主义;团体理性;是效率、公平、公正;而非合作博弈则主要研究人们在利益相互影响的局势中如何选择策略使得自己的收益最大;强调个人理性、个人最优决策;其结果有时有效率;有时则不然..目前经济学家谈到博弈论主要指的是非合作博弈;也就是各方在给定的约束条件下如何追求各自利益的最大化;最后达到力量均衡..博弈的划分可以从参与人行动的次序和参与人对其他参与人的特征、战略空间和支付的知识、信息;是否了解两个角度进行..把两个角度结合就得到了4种博弈:a、完全信息静态博弈;纳什均衡;Nash1950b、完全信息动态博弈;子博弈精炼纳什均衡;泽尔腾1965c、不完全信息静态博弈;贝叶斯纳什均衡;海萨尼1967-1968d、不完全信息动态博弈;精炼贝叶斯纳什均衡;泽尔腾1975 Kreps; Wilson1982 Fudenberg; Tirole19911.4课程主要内容:完全信息静态博弈完全信息动态博弈不完全信息静态博弈机制设计合作博弈1.5博弈模型的两种表示形式:策略式表述 Strategic form; 扩展式表述Extensive form1.6占优均衡:a、占优策略:在博弈中如果不管其他参与人选择什么策略;一个参与人的某个策略给他带来的支付值始终高于其他策略;或至少不劣于其他策略;则称该策略为该参与人的严格占优策略或占优策略..对于所有的s-i; si称为参与人i的严格占优战略;如果满足:uisi;s-i>uisi';s-is-i; si' sib、占优均衡:一个博弈的某个策略组合中;如果对应的所有策略都是各参与人的占优策略;则称该策略组合为该博弈的一个占优均衡..1.7重复剔除严劣策略均衡:a、“严劣”和“弱劣”的含义:设 s i’和s i’’是参与人i可选择的两个策略;若对其他参与人的任意策略组合s-i; 均成立u i s i’; s-i < u i s i’’; s-i; 则说策略s i’严劣于策略s i’’ ..上面式子中;若将“<”改为“≤”;则说策略s i’弱劣于策略s i’’ ..b、定义:重复剔除严格策略就是各参与人在其各自策略集中;不断剔除严劣策略…如果最终各参与人仅剩下一个策略;则该策略组合就被称为重复剔除严劣策略均衡..二:纳什均衡Nash Equilibrium2.1纳什均衡定义:对于一个策略式表述的博弈G= {N;S i; u i; i ∈N}; 称策略组合s=s1; …s i; …; s n是一个纳什均衡;如果对于每一个i ∈N; s i是给定其他参与人选择s-i={s1; … ;s i-1; s i+1; … ;s n} 情况下参与人i的最优策略经济理性策略;即:u i s i; s-i≥ u i s i; s-i; 对于任意的s i∈S i ;任意的i∈N均成立..通俗定义:纳什均衡是一种策略组合;给定对手的策略;每个参与人选择自己的最优策略..纳什均衡是一种稳定的策略组合:当所有参与人的选择公开以后;每个人都满意自己作出了正确的选择;没有人能得到更好的结果了..在博弈论中这种结果被称为纳什均衡NE..2.2定理:Nash在1950年证明:任何有限博弈;都至少存在一个NE——Existence of Nash Equilibrium..即在一个有n个参与人的策略式博弈G={S1;…;Sn; u1;…;un}中;如果n是有限的;且Si是有限集i=1;…;n;则该博弈至少存在一个纳什均衡在混合策略意义下Wilson1971证明;几乎所有有限博弈;都存在有限奇数个NE;包括纯策略NE和混合策略NE..——Oddness Theorem2.3纳什均衡、占优均衡、重复剔除严劣策略均衡的关系定理 a 每一个占优均衡、重复剔除严劣策略均衡一定是纳什均衡;但反过来不一定成立;定理 b 纳什均衡一定不能通过重复剔除严劣策略方法剔除..2.4划线法先找出自己针对其他博弈方每种策略或策略组合对多人博弈的最佳对策;即自己的可选策略中与其他博弈方的策略或策略组合配合;给自己带来最大得益的策略这种相对最佳策略总是存在的;不过不一定唯一;然后在此基础上;通过对其他博弈方策略选择的判断;包括对其他博弈方对自己策略判断的判断等;预测博弈的可能结果和确定自己的最优策略..这就是划线法..2.5箭头法箭头法对于理解博弈关系很有好处;是寻找相对稳定性策略组合的分析方法..对博弈中的每个策略组合进行分析;考察在每个策略组合处各个参与方能否通过改变自己的策略而增加得益..如能;则从所分析的策略组合对应的得益数组引一箭头到改变策略后策略组合对应的得益数组..最后综合对每个策略组合的分析情况;形成对博弈结果的判断..划线法和箭头法的结果是一致的;可以相互替代..三:混合策略Mixed Strategies 纳什均衡3.1定义:混合策略的定义:在博弈G={N; Si; ui; i∈N}中;假设参与人i的纯策略构成的策略集合为Si={si1;…; sik};若参与人i 以概率分布pi=pi1;…; pik 在其k 个可选策略中随机选择“策略”;称这样的选择方式为混合策略..这里;0≤pij ≤ 1;对于j=1 ;…; k 都成立;且有; pi1+…+ pik=1..纯策略可看成特殊的混合策略..上述定义是在有限博弈前提下进行的..3.2混合策略意义下策略组合的表述{x1∈X1; …; xn∈Xn};其中Xi ; i =1; …; n表示参与人i所有纯策略生成的概率空间;xi为参与人i的一个具体混合策略猜硬币博弈的一个混合策略就可记为{1/2; 1/2;1/2; 1/2}3.3VNM效用函数Von Neumann and Morgenstern冯·诺依曼和摩根斯坦如果某个随机变量X以概率Pi 取值xi;i=1;2;…;n;而某人在确定地得到xi时的效用为uxi;那么;该随机变量给他的效用便是: UX =P1ux1 + P2ux2 + ... + Pnuxn表示关于随机变量X的期望效用..因此UX称为期望效用函数;又叫做冯·诺依曼——摩根斯坦效用函数VNM函数..3.4基于混合策略意义下的博弈策略式表述定义:基于v-N-M效用的策略式博弈由 a、参与人集合 b、每个参与人有一个纯策略集合 c、对于每一个参与人来说;由所有参与人纯策略组合构成的风险结果空间;存在一个v-N-M效用3.5混合策略意义下的纳什均衡定义:对于博弈G= {N; Si; ui; i∈N};基于v-N-M效用的混合策略组合α是一个纳什均衡;若对于每一个i; 以及i的任意一个混合策略αi;α对应的期望支付至少和αi;α-i 的期望支付一样大换句话说;称混合策略组合α是一个纳什均衡;如果没有一个参与人通过偏离策略αi 实现支付的增加3.6一个定理对于N-人静态博弈问题;设混合策略纳什均衡对应的策略组合为Xi ; X –i ..对于任意的i ;若最优混合策略为Xi= {x1;…;xl;0…0}不失一般性;假设前l个分量严格大于0;记分量xk k=1;…; l 对应的纯策略sk;则对于参与人i而言;sk与其他参与人的最优混合策略组合X –i 形成的局势的收益值;等于纳什均衡混合策略组合 Xi; X –i 的收益值..即ui sk; X –i = ui Xi; X –i 成立 ; k=1;…; l3.7方法:a、求解混合策略均衡可以用期望收益等值法b、2×2双矩阵博弈的图解法:反应函数的三个交点即是纳什均衡四:多重纳什均衡解及其分析4.1 帕雷托占优均衡帕雷托占优均衡的含义是:在多个纳什均衡中;若存在一个纳什均衡;其支付结果针对每个参与人而言都严格优于其它纳什均衡;则该纳什均衡是帕雷托占优纳什均衡..4.2风险占优均衡risk-dominant equilibrium参与人对风险占优均衡的选择倾向;有一种强化的机制..当部分或所有参与人选择风险占优均衡的可能性增强的时候;任一参与人选择帕雷托占优均衡策略的期望支付会进一步减小;而这又使得帕雷托占优均衡策略的支付更小;从而形成一种选择风险占优均衡策略的正反馈机制;并使其出现的概率越来越大..当参与人数目增加时;选择合作的风险将会更大;可借助该点考虑招标机制如何减少投标方勾结问题..上述问题是我们知道建立诚信机制社会的重要意义..上述问题引出一个博弈相关分支为协调博弈coordination game4.3聚点均衡由实际问题抽象出来的博弈模型中;更多的一类问题是:多个纳什均衡间不存在帕雷托占优关系或明显的风险占优关系;如夫妻爱好问题的两个纯策略均衡..这时如何预测哪一个纳什均衡会出现是一个很有意义的问题以夫妻爱好博弈为例;在实际中往往二人很默契地知道如何进行博弈;双方往往知道怎么进行选择策略;且能够相互了解这里面排除了互相协商后达成的一致实际博弈中参与人往往会利用博弈模型以外的信息;实现对特定博弈均衡一致关注的“聚点”这些信息如:参与人共同的文化背景或规范;共同的知识;具有特定意义事物的特征;某些特殊的数量、位置关系等聚点均衡确实反映了人们在多重纳什均衡选择中的某些规律性;但因为涉及因素太多;对于一般博弈模型很难总结普遍规律;只能具体问题具体分析聚点:人们通常会协调彼此的行为..你弱他就强;先例产生的影响远大于逻辑或者法律效力;人们总是乐于安守现状或接受自然形成的界线三八线4.4相关均衡correlated equilibrium实际上;在现实中遇到选择困难时;特别是在长期中反复遇到相似选择难题时;常会通过收集更多信息;形成特定的机制和规则;为某种形式的制度安排等主动寻找思路..相关均衡就是这样的一种均衡选择机制..对于实际中比较复杂的博弈问题;参与人是否有能力设计这种机制;并且有足够能力理解、信任这种机制;是有一定疑问的..相关均衡作为社会经济制度创新的一种解释也许更有意义..4.5防共谋均衡coalition-proof equilibrium 定义:如果一个博弈的某个策略组合满足a、没有任何单个参与人的“串通”会改变博弈的结果;即单独改变策略无利可图该策略组合是纳什均衡..b、给定选择偏离的参与人有再次偏离的自由时;没有任何两个参与人通过“串通”改变博弈的结果..c、依此类推;直到所有参与人都参加的串通也不会改变博弈的结果..满足上述要求的均衡策略组合称为“防共谋均衡”在有多个参与人的博弈中;若部分参与人通过某种形式的默契或串通形成小团体;可能得到比不串通个大的支付..这就是多人博弈的共谋问题..防共谋均衡是指这样的一个纳什均衡;在该均衡局势下;少数参与人集合不能通过均衡策略的偏离;实现更好的局部利益..防共谋均衡是两个以上参与人参加的博弈中;参与人在帕雷托占优均衡中进行合作思想的扩展..五:动态博弈5.1特点一类博弈行为通常需要参与人多步决策才能完成;具有明显的阶段性..博弈的结局、各参与人的收益由多阶段决策结果确定..各参与人的决策有一定的顺序..由于动态博弈各参与人进行决策具有明显的阶段性、行动次序性;通常用扩展式extensive form表述法描述这些信息..5.2博弈的扩展式表示参与人集合:i=1; … ;N..用N表示虚拟参与人“自然”;自然的含义是某些外生的客观概率分布事件参与人的行动顺序the orderof moves:描述各参与人在什么时候行动;参与人的行动空间actionset:在每次行动时;参与人可选择的行动集合;参与人的信息集information set:每次行动时参与人知道什么;参与人的收益函数:在行动结束之后;每个参与人得到些什么..自然选择的概率分布假定自然状态是共同知识..对于有限博弈;博弈树是常用的表述方式..5.3博弈树a若动态博弈是有限博弈;则可用博弈树表示该博弈..这里有限的含义是:各阶段各参与人的行动数目有限;博弈的阶段数有限..b博弈树的基本结构为结点nodes..包括决策结及终点结..决策结是参与人采取行动的时点;终点结是博弈行动路径的终点..枝branches..从一个决策结到它的直接后续结的连线;每一个枝代表参与人的一个行动选择..信息集..是决策结集合的一个子集..将博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集..注:每个决策结都是同一个参与人的决策结..该参与人知道博弈进入该集合的某个决策结;但不知道自己究竟出于哪一个决策结若该信息集有两个或两个以上元素..5.4对于有限动态博弈;若参与人对彼此在各决策结点的行动集合;彼此的效用函数;历史的行动有着完全的了解;则称这样的博弈为完全信息动态博弈..如果博弈树的所有信息集都是单元素集;称该博弈为完美信息博弈game of perfectinformation..上述两个定义的差别在于对自然行动信息的描述..5.5动态博弈的策略式表述a相机选择contingent play动态博弈中参与人的策略是各自预先设定的;在博弈的各阶段;针对各种情况做出相应决策..即“等待”博弈到达自己的信息集包含一个或多个决策结后再决定如何行动..在策略式表述博弈中;参与人似乎是博弈开始之前就制定出了一个完全的相机选择;即“如果……发生;我将选择……”..b从扩展式表述构造战略式表述若把B的信息集从左到右排列;上述四个纯策略可以简单记为{开发;开发}{开发;不开发}{不开发;开发}{不开发;不开发}..上面四个纯策略含义:当A选择开发时;B选择大括号中前面的策略;当A选择不开发时;B选择大括号中后面的策略..B的纯策略为:{开发;开发}{开发;不开发}{不开发;开发}{不开发;不开发}A的纯策略为:SA=开发;不开发于是可以写成策略式表述形式;为开发;开发开发;不开发不开发;开发不开发;不开发开发-3;-3-3;-31;01;0不开发0;10;00;10;0在扩展式表述博弈中;所有n个参与人的一个纯战略组合s=s1;…;sn决定了博弈树上的一个路径..比如开发;{不开发;开发}决定了博弈的路径为A 开发 B 不开发1;05.6完全信息动态博弈纳什均衡存在性定理如果有限博弈是完美信息博弈;他还有一个纯战略纳什均衡Zermelo;1913..5.7逆向归纳法:a逆向归纳法求解策略:从动态博弈的最后一个阶段出发;对该参与人采用经济理性原则进行分析;逐步到推回前一个阶段相应参与人的行动选择;一直到第一阶段的分析方法..b逆向归纳法是求解完美信息动态博弈的经典方法..逆推归纳法是完美信息动态博弈分析中使用最普遍的方法..c与策略式分析比较:如果A选择U;那么B的信息集不能达到;我们说B的信息集不在均衡路径上out-of-equilibrium path.. 此种情况下;B的选择对A没有什么影响..因此;纳什均衡对一个参与人在非均衡信息集上的选择没有限制..但是;一个参与人在非均衡信息集上的战略可以影响其他参与人在均衡信息集上的选择..d逆向归纳法实质上是重复剔除劣战略法在扩展式博弈中的应用..逆向归纳法适不用于无限博弈和不完美信息博弈..逆向归纳法剔除了“非理性”的均衡策略5.8子博弈完美均衡子博弈精炼纳什均衡①子博弈概念:一个扩展式博弈的子博弈G由一个决策结x和所有该决策结的后续结Tx组成;它满足下列条件:x是一个单结信息集;即hx={x};对于所有的Tx中的x’;如果x’’与x’同属于一个信息集;则x’’也在Tx中..需要说明的是;G本身是自己的一个子博弈..②子博弈完美纳什均衡子博弈精炼纳什均衡扩展式博弈的一个战略组合s=s1;…;s i;…;s n是一个子博弈完美纳什均衡;如果它是原博弈的纳什均衡..它在每一个子博弈上都是纳什均衡③纳什均衡与子博弈精炼纳什均衡的关系前面分析说明;一个特定的纳什均衡决定了原博弈树上唯一的一条路径;这条路径称为“均衡路径”equilibrium path..相对该纳什均衡;其他路径称为非均衡路径out-of-equilibrium path..在每一个子博弈上给出纳什均衡意味着;构成子博弈纳什均衡的战略不仅在均衡路径的决策结上是最优的;同时在非均衡路径的决策结上也是最优的..对于有限完美信息博弈;前面介绍的逆推归纳法得出的纳什均衡即是子博弈精炼纳什均衡..六多阶段静态博弈6.1该类模型中至少在某个阶段参与人同时选择其决策..这类模型实质上就是完美信息动态博弈;因此仍然可以采用逆推归纳法进行分析..因为存在同时选择;因此每个阶段不再是单人优化问题;而是一个静态博弈..6.2前向归纳法:前面已经说明;完美信息动态博弈的经典求解方法为逆序归纳法..还有一种分析方式;就是前向归纳法forward induction..前向归纳法由科尔博格和莫顿斯1986提出..这里不进行严格的数学描述;仅通过一个例题进行说明..6.3重复博弈重复博弈repeated game的定义指同样结构的博弈重复多次;其中的每次博弈称为“阶段博弈stage game”..如两个多次犯罪的“囚徒问题”..由于动态博弈是相机行动;反映到重复博弈中;就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史..影响重复博弈均衡结果的主要因素是博弈重复次数和信息的完备性completeness..重复次数对参与人可能会有的影响是:参与人为了获得长远利益而牺牲眼前利益的策略成为可能..关于完备性;简单地说;但一个参与人的支付函数不为其他参与人所知时;该参与人可能有积极性建立一个“好”的声誉reputation以换取长远利益..在社会行为中;经常可以看到本质不好的人在相当长的时期内干好事的原因..定理:令G是阶段博弈;GT是G重复T次的重复博弈T<∞..那么;如果G有唯一的纳什均衡;重复博弈GT的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次即每个阶段博弈出现的都是一次性博弈的均衡结果..上述定理说明;只要博弈的重复次数是有限的;重复本身并不改变囚徒困境的均衡结果..上述定理中“唯一性”是一个重要条件..如果纳什均衡不是唯一的;上述结论就不一定成立..当博弈有多个纳什均衡时;参与人可以使用不同的纳什均衡惩罚前面阶段的不合作行为或奖励第一阶段的合作行为..(七)不完全信息静态博弈不完全信息静态贝叶斯博弈贝叶斯纳什均衡海萨尼转换拍卖理论八合作博弈可传递效用 transferableutility合作博弈的特征函数合作的分配可行分配核心的定义 Shapley 值。
博弈论1 引言博弈论包括局中人,策略和支付函数三个要素。
有n个局中人参入的博弈称为n人博弈, n≥ 2。
每个局中人有个支付函数,其收益或损失由所有局中人的策略按照该支付函数计算。
每个局中人采用的策略可以是其多个策略中的某一个,或者是策略的某种概率分布。
前者称为纯策略博弈,后者称为混合策略博弈。
纯策略可以看作是混合策略的特殊情形。
根据局中人之间的关系,博弈分为合作博弈和非合作博弈。
每个局中人都希望使自己的利益最大化。
但是在非合作博弈中,由于局中人的利益是互相冲突的,只能寻求一组策略使每个局中人较为满意。
一组策略是指由每个局中人的一种策略构成的策略组合。
如果存在一个策略组合,无论那个局中人单方面地改变其策略,不会使其收益增加,只可能使其收益减少,这个策略组合就叫做納什均衡(或納什均衡解、納什均衡点)。
以下是关于納什均衡的正式定义及其存在性定理(见[1])。
Formal definitionLet (S,f) be a game with n players, where S i is the strategy set for player i, S = S1⨯S2⨯…⨯S n is the set of strategy profiles and f = (f1(x), f2(x), … , f n(x)) is the payoff function for x∈S. Let x i be a strategy profile of player i and x-i be a strategy profile of all players except for player i. When each player i∈ {1, 2, … , n} chooses strategy x i resulting in strategy profile x = (x1, x2, … , x n) then player i obtains payoff f i(x). Note that the payoff depends on the strategy profile chosen, i.e., on the strategy chosen by play i as well as the strategies chosen by all the other players. A strategy profile x*∈S is a Nash Equilibrium (NE) if no unilateral deviation in strategy by any single player is profitable for the player, that is∀i, x i∈S i: f i(x i*, x-i*) ≥f i(x i, x-i*).Nash’s Existence TheoremIf we allow mixed strategies, then every game with a finite many pure strategies has at least one Nash Equilibrium.(有限策略的非合作n人博弈至少有一个納什均衡)2 二人博弈2.1 纯策略博弈局中人I有m个策略A1, A2, … , A m,局中人II有n个策略B1, B2, … ,B n,不同策略下双方的收益如表2.1所示([2]p72)。
表2.1 二人博弈的收益表由每个单元格中前一个数字构成的矩阵A = (a ij)m⨯n是局中人I的收益矩阵,由后一个数字构成的矩阵B = (b ij )m ⨯n 是局中人II 的收益矩阵。
当局中人II 采用某策略B j 时,如果局中人I 采用其m 个策略中的策略A i 可以获得最大收益,称A i 是对B j 的最优反应。
同样,当局中人I 采用某策略A i 时,如果局中人II 采用其n 个策略中的策略B j 可以获得最大收益,称B j 是对A i 的最优反应。
当A i 和B j 互为最优反应时,称(A i , B j )为该博弈的纯策略納什均衡点。
纯策略博弈问题可能有一个,多个或没有納什均衡点。
下面介绍计算纯策略納什均衡点的一种方法。
在局中人I 收益矩阵A = (a ij )m ⨯n 每一列的最大数字上标上*号,在局中人II 收益矩阵B = (b ij )m ⨯n 每一行的最大数字上标上*号。
如果同一位置有两个*号,那么其相应的两个策略是納什均衡点。
例2.1 某博弈问题的博弈表为表2.2。
求其纯策略納什均衡点。
表2.2 某博弈问题的收益表解 在甲方收益矩阵每一列的最大数字上标上*号,在乙方收益矩阵每一行的最大数字上标上*号。
单元格(3, 3)有两个*号,所以策略(A 3, B 3)是此博弈问题的納什均衡点。
2.2混合策略博弈如果没有纯策略納什均衡,可考虑求混合策略納什均衡解。
设局中人I 策略的分布为(x 1, x 2, … ,x m ), 局中人II 策略的分布为(y 1, y 2, … ,y n )。
那么x 1 + x 2 +… + x m = 1, x 1, x 2, … ,x m ≥ 0,y 1 + y 2 + … + y n = 1, y 1, y 2, … ,y n ≥ 0. 局中人I 的期望收益为E 1(X , Y ) =∑∑==m i nj j i ij y x a 11= X T AY .局中人II 的期望收益为E 2(X , Y ) =∑∑==m i nj j i ij y x b 11= X T BY .其中X = (x 1, x 2, … ,x m )T , Y = (y 1, y 2, … ,y n )T 。
例2.2 (现价折扣促销博弈[2]p73) 考虑销售商与消费者之间的博弈。
销售商有“明天打折销售”和“今天打折销售”两个策略,消费者有“明天购买”和“今天购买”两个策略。
双方的收益见表2.3,求混合納什均衡解。
表2.3 销售商与消费者博弈的收益解 由表2.3可以看出此博弈问题没有纯策略納什均衡点。
销售商和消费者的收益矩阵分别为A = ⎪⎪⎭⎫ ⎝⎛4793,B =⎪⎪⎭⎫⎝⎛9347. 现求其混合策略納什均衡解。
为此,设销售商采用两个策略的概率分别为x 和1 - x ,消费者采用两个策略的概率分别为y 和1 - y 。
记X = (x , 1 - x )T , Y = (y , 1 - y )T , 那么(消费者明天购买的期望收益, 消费者今天购买的期望收益)= X T B = (x , 1 - x )⎪⎪⎭⎫⎝⎛9347= (3 + 4x , 9 - 5x ).一个合理的假设是:销售商确定的x 最好使得消费者无论哪一天购买商品都无所谓,即使得3 + 4x = 9 - 5x 。
由此得x = 2/3, 1 - x = 1/3。
另外⎪⎪⎭⎫ ⎝⎛收益销售商今天打折的期望收益销售商明天打折的期望= AY = ⎪⎪⎭⎫ ⎝⎛4793⎪⎪⎭⎫ ⎝⎛-y y 1=⎪⎪⎭⎫⎝⎛+-y y 3469. 基于同样的考虑,令9 - 6y = 4 + 3y ,得y = 5/9, 1 - y = 4/9。
所以销售商的混合策略X = (2/3, 1/3)T , 消费者的混合策略Y = (5/9, 4/9)T 。
下面求销售商和消费者的期望收益。
由于AY 的两个分量(AY )1和(AY )2相等,X 的两个分量和为1,销售商的期望收益E 1(X , Y ) = X T AY = (AY )1 = 9 - 6 ⨯ 5/9 = 17/3.由于X T B 的两个分量(X T B )1和(X T B )2相等,Y 的两个分量和为1,消费者的期望收益E 2(X , Y ) = X T BY = (X T B )1 = 3 + 4 ⨯ 2/3 = 17/3.2.3二人有限零和博弈在二人零和博弈中,一个局中人的收益等于另一个局中人的损失,即b ij = -a ij 。
这时仅用一个局中人的收益矩阵,如A = (a ij )m ⨯n 即可。
寻找纯策略納什均衡点的方法是:在A = (a ij )m ⨯n 每一行的最大数字上标上*号,再每一列的最大数字上标上*号。
如果有一个数字上有两个*号,那么其相应的两个策略是纯策略納什均衡点。
如果没有纯策略納什均衡点,再考虑求混合策略納什均衡解。
设局中人I 策略的分布为(x 1, x 2, … ,x m ), 局中人II 策略的分布为(y 1, y 2, … ,y n )。
局中人II 采用策略B j 时,局中人I 的期望收益为∑=mi i ij x a 1,j = 1, 2, … ,n 。
为了使这些期望收益最大化,可使用以下线性规划模型求局中人I 的最优策略([4]p400)。
Max ws.t.∑=mi i ij x a 1≥ w , j = 1, 2, … ,n ,x 1 + x 2 + … + x m = 1,x 1, x 2, … ,x m ≥ 0. (2.1)从另一方讲,局中人I 采用策略A i 时,局中人II 的期望损失为∑=nj i ij y a 1,i = 1, 2, … ,m 。
为了使这些期望损失最小化,可使用以下线性规划模型求局中人II 的最优策略。
Min vs.t.∑=nj j ij y a 1≤ v , i = 1, 2, … ,m ,y 1 + y 2 + … + y n = 1,y 1, y 2, … ,y n ≥ 0. (2.2)按照线性规划对偶的定义,模型(2.1)和(2.2)互为对偶。
由于它们有可行解,所以都有最优解,并且最优目标函数值相等。
2.4 连续策略博弈在以上几节介绍的博弈问题中,每个局中人仅有几个策略,称为有限策略的博弈问题。
策略可以是连续变量,这时的博弈称为连续策略博弈。
古诺模型是连续策略博弈的一个有名例子([2]p44)。
例2.3 假设寡头市场上只有两个厂商生产完全相同的产品,他们各自决定自己的产量。
假设市场出清价格P 是商品总供给量Q 的线性函数:P = P (Q ) = 8 - Q ;产量为q 时的收益为u = qP (Q ) - 2q 。
问两厂商各生产多少产品供给市场双方收益较为满意。
解 设两厂商的产量分别为q 1和q 2,那么收益函数分别为u 1(q 1, q 2) = q 1P (Q ) - 2q 1 = q 1[8 -( q 1 + q 2)] - 2q 1 = 6q 1 - q 1q 2 - q 12, u 2(q 1, q 2) = q 2P (Q ) - 2q 2 = q 2[8 -( q 1 + q 2)] - 2q 2 = 6q 2 - q 1q 2 - q 22. 此问题需要求解以下极大值:⎪⎩⎪⎨⎧--=--=2221222121116max 6max 21q q q q u q q q q u q q 令11q u ∂∂= 6 - q 2 - 2q 1 = 0, 22q u ∂∂= 6 - q 1 - 2q 2 = 0.两式联立解得q 1 = q 2 = 2。