博弈论中理性人假设的困境
- 格式:docx
- 大小:22.20 KB
- 文档页数:5
个人理性与集体理性的矛盾及其解决方式一、囚徒困境举例概述囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特•塔克(Albert tucker ) 1950年提出来的。
他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。
故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数1个体理性与集体理性许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。
在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。
如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。
在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的.市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。
如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。
但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。
五花八门的价格联盟总是非常短命,道理就在这里。
并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。
浅谈理性人假设理论的不足与发展内容摘要:本文从“经济人”理论谈到了理性人假设的理论,简单的介绍了其理论的发展史。
从对“五人抓豆子”例题的分析中发现了传统经济学对理性人假设理论解释的局限性和在现实生活中的不可操作性。
从而引出了新经济学对理性人假设理论的重新概括这一话题,并着重对“有限理性”“行为经济学”和“实验经济学”理论进行了介绍。
从中可以发现经济学家们对经济学的发展所做出的贡献和对理性人假设理论完善。
关键词:经济人理性人假设有限理性行为经济学实验经济学2002年诺贝尔经济学奖授予了美国普林斯顿大学的卡尼曼和乔治梅森大学的史密斯两位教授。
他们分别因为“把心理学研究和经济学研究有效地结合,从而解释了在不确定条件下如何决策”;“发展了一整套实验研究方法,尤其是在实验室时研究市场机制的选择性方面”的杰出贡献而获奖。
其中,卡尼曼教授的研究使经济学界开始反思正统经济理论关于理性人行为的某些公理性假设,以更加逼近真实世界的人类行为,从而使经济学对现实的解释力得以提高。
而史密斯教授所创立的实验经济学,则通过在可控实验环境下对经济现象和经济行为的分析和考察,来检验和完善正统的经济学理论。
在这里两位教授获奖的意义不仅是拓宽了整个现代经济学的研究领域,而且激发了人们对理性人、效用最大化等经济学基本命题的反思和对整个西方经济学理论体系的重新审视。
我们在这里将比较系统的指出传统经济学对理性人假设理论局限性和当代新经济学家对该理论的研究,介绍了一种新的视角去理解西方经济学的发展。
1.从“经济人”到理性人假设的发展我们知道,西方经济学最基本的前提假设就是理性人假设,经济学家们从研究对象的利己主义和理性行为的角度出发,将理性人假设作为经济学理论的基础和一切经济学命题或解释的前提。
关于理性人行为的基本假设是“经济人”假设,该假设认为经济活动中的个人是完全理性和自利的,他们会合理利用自己所收集到的信息来估计将来不同结果的各种可能性,然后最大化其期望效用。
盘点博弈论&纳什均衡&囚徒困境&零和博弈&智猪博弈1.博弈论是什么博弈论(game theory),又译为对策论,或者赛局理论,经济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。
博弈论被认为是20世纪经济学最伟大的成果之一。
目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
主要研究公式化了的激励结构(游戏或者博弈)间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
也是运筹学的一个重要学科。
具有竞争或对抗性质的行为称为博弈行为。
在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。
为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。
比如日常生活中的下棋,打牌等。
博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。
2.纳什均衡(Nash equilibrium)3.囚徒困境(Prisoner’s Dilemma)纳什平衡的经典例子就是囚徒困境。
囚徒困境(Prisoner’s Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式阐述,并命名为“囚徒困境”。
经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
论《博弈论》在解决现实问题中的局限性摘要:博弈论作为一门研究决策主体相互作用及其均衡的学科,在经济学、管理学、政治学、社会学等众多领域都有着广泛而深刻的应用。
本文旨在对博弈论的基本概念、主要类型和应用领域进行系统的阐述,并通过具体案例分析展示其实际价值,同时探讨博弈论在解决现实问题中的局限性和未来发展趋势。
关键词:博弈论;策略互动;均衡;应用领域一、引言博弈论是现代数学的一个重要分支,它为分析和理解人类社会中的竞争与合作行为提供了有力的工具。
随着社会的发展和科学技术的进步,博弈论的应用范围不断扩大,已经成为解决各种复杂问题的重要理论基础。
二、博弈论的基本概念(一)参与者参与者是博弈中的决策主体,他们具有独立的决策能力和利益诉求。
(二)策略策略是参与者在博弈中可以选择的行动方案。
(三)收益收益是参与者采取特定策略所获得的结果,通常用数值来表示。
(四)信息信息是参与者在决策过程中所拥有的关于其他参与者、博弈环境等方面的知识。
(五)均衡均衡是指一种稳定的状态,在这种状态下,每个参与者在给定其他参与者策略的情况下,都选择了对自己最优的策略,并且没有任何参与者有动机单方面改变自己的策略。
三、博弈论的主要类型(一)合作博弈与非合作博弈合作博弈强调参与者之间可以通过协商、签订契约等方式达成合作,以实现共同利益的最大化;非合作博弈则假设参与者之间不能进行有效的合作,各自追求自身利益的最大化。
(二)完全信息博弈与不完全信息博弈完全信息博弈是指参与者对彼此的策略、收益等信息都有完全的了解;不完全信息博弈则存在信息不对称的情况,参与者对某些信息不完全知晓。
(三)静态博弈与动态博弈静态博弈是指参与者同时做出决策,不存在先后顺序;动态博弈则是参与者的决策有先后顺序,后行动者能够观察到先行动者的决策。
四、博弈论的应用领域(一)经济学在微观经济学中,博弈论被用于分析企业之间的竞争策略、市场结构等问题;在宏观经济学中,博弈论可以用于研究货币政策、财政政策等的制定和实施。
“博弈论”中的经典案例“博弈论”中的经典案例“博弈论”中一些经典案例,不仅使专业研究人士如醉如痴,也使一些普通民众兴致盎然。
“博弈论”中有一些由点及面、发人深思的经典案例,这些案例不仅使专业研究人士如醉如痴,也使一些普通民众兴致盎然;不仅成为“博弈论”中的一道亮丽风景,也是整个经济学领域中的学术奇葩。
1、囚徒困境假设警察局抓住了两个合伙犯罪的嫌疑犯,但获得的证据并不十分确切,对于两者的量刑就可能取决于两者对于犯罪事实的供认。
警察局将这两名嫌疑犯分别关押以防他们串供。
两名囚徒明白,如果他们都交代犯罪事实,则可能将各被判刑5年;如果他们都不交代,则有可能只会被以较轻的妨碍公务罪各判1年;如果一人交代,另一人不交代,交代者有可能会被立即释放,不交代者则将可能被重判8年。
对于两个囚徒总体而言,他们设想的最好的策略可能是都不交代。
但任何一个囚徒在选择不交代的策略时,都要冒很大的风险,一旦自己不交代而另一囚徒交代了,自己就将可能处于非常不利的境地。
对于囚徒A而言,不管囚徒B采取何种策略,他的最佳策略都是交代。
对于囚徒B而言也是如此。
最后两人都会选择交代。
因此,囚徒困境反映了个体理性行为与集体理性行为之间的矛盾、冲突。
囚徒困境现象在现实生活中比比皆是。
记得姜昆和唐杰忠过去说过一个公共楼道占用问题的相声。
住户在公共楼道里堆满了杂物,结果大家都极不方便,以致即将分娩的妇女都没法及时被送往医院。
但你如果不占用公共楼道,别人也会占用。
每一居住面积狭小的住户从自我利益最大化出发,都会选择占用。
但占用的结果却最终损害了大家的利益。
前几年,我国彩电市场上,生产厂家基于自我利益选择大幅降价,但由此引发的价格战使所有生产厂家都遭受重创,这也是一种囚徒困境。
2、斗鸡博弈两只公鸡面对面争斗,继续斗下去,两败俱伤,一方退却便意味着认输。
在这样的博弈中,要想取胜,就要在气势上压倒对方,至少要显示出破釜沉舟、背水一战的决心来,以迫使对方退却。
经济学中理性人假设的缺陷性探讨提要西方经济学中有一个基本假设,即“理性人”假设,这个假设在模拟人的行为时有很大的缺陷,它将人看作是理性的机器,而事实上人会因为各种原因往往表现的不那么理智。
本文探讨这个假设的缺陷,并估计产生的原因,以及展望“理性人”假设的发展。
关键词:理性人;理性;博弈选择;风险理性人的假定,就是指英国古典经济学家亚当·斯密的《国富论》中所讲的“经济人”。
这个假设是整个西方经济学思想体系中的前提性假设,西方经济学的诸多命题都是在这一假定条件下推出的。
这个假定的主要主张有三点:1、人是有理性的。
每个人是自己利益的最好的判断者,在各项利益的比较中选择自我的最大利益。
2、利己是人的本性,人们在从事经济活动中,追求的是个人利益,通常没有促进社会利益的动机。
3、个人利益的最大化只有在与他人利益的协调中才能实现。
交换是从“理性人”的本性驱使下自然而然地发生的。
人类的交换倾向是利己本性的外在形式和作用方式。
“理性人”假设作为一种高度抽象的模型,使得经济学研究公理化和逻辑化,但是随着经济学的发展,“理性人”假设的局限性也越来越明显。
与之相对的,理性人假设的三点都具有缺陷性:第一,人并不是完全理性的,甚至在现实生活中,人更多地表现为不理智。
从认知的角度看,人类所处的外部世界复杂多变,而作为个体在信息加工和处理上会有诸多限制,从而使个体不可能达到假设中所设想的完全信息状态。
而现实社会中个体地位不同,所处于的信息优势就有很大区别。
因此,个体不可能掌握完全同等的信息,所以个体决策也会因为无法实现完全掌握信息,比如股市里散户和庄家所处的信息地位就很不同。
正是由于现实中个体和环境的原因,使得个体不可能是全知全能的。
个体由于信息掌握不同,面对选择时就不会达到“理性人”要求的完全理性。
而即使是自己掌握的信息,人们也不会理智的处理一切问题。
个体一方面具有努力追求最大化的理性倾向,同时也具有不努力追求最大化的非理性倾向。
2007年第9期(总第200期)学术论坛ACADE M I C F ORUMNO.9,2007(Cu mulatively NO.200)博弈逻辑中理性人假设的困境与思考张 峰 [摘 要]博弈逻辑是近年来兴起的一个逻辑学的新分支。
理性人假设,即所有的参与人都是理性的,是博弈逻辑的基本假定,然而理性人假设在现实中遇到了挑战。
文章对理性人假设面临的困境,包括完全理性假设的困境、个体理性与集体理性的冲突等问题进行分析和评价,从而夯实博弈逻辑的理论基础。
[关键词]博弈逻辑;理性人假设;完全理性;个体理性;集体理性[作者简介]张峰,北京理工大学人文学院教师,哲学博士,北京 100081[中图分类号]B819 [文献标识码]A [文章编号]1004-4434(2007)09-0007-04 博弈逻辑(Ga me Logic)是近年来兴起的一个逻辑学的新分支,是博弈论和逻辑学相交叉的研究领域,属于应用逻辑范畴。
博弈逻辑研究理性的主体互动行动中的推理过程,即研究博弈中的推理问题。
博弈逻辑拓展了逻辑学研究的深度和广度。
理性人假设,即所有的参与人都是理性的,是博弈逻辑的基本假定。
理性人的本质是现实人或社会人。
有学者认为理性人就是使自己的效用最大化的人。
还有不少学者认为,理性人是指有一个很好定义的偏好,在面临给定的约束条件下最大化自己的偏好,就是人们在行为时,不仅要优先考虑自己的需要,而且要兼顾他人的需要和其他给定的约束条件。
在博弈逻辑中理性人是指具有推理、决策能力并通过选择策略使自己的得益或支付(Pay2 off)最大的人。
但是,理性人假设受到了现实的挑战。
在理性人假设的前提下,不仅要求博弈方掌握完全的信息,而且对博弈方的理性提出很高的要求,包括知识水平、计算能力、理解能力、预测能力、相互信任和不会犯错误等各种方面的能力。
然而,要求普通的决策者都具有这样的知识水平和理性能力常常是不切合实际的。
现实中的决策者所面临的决策环境远比研究者讨论的、经过高度抽象简化的博弈环境要复杂得多。
如何理解经济学中的理性人假设经济学中的理性人假设是指经济行为主体在作出决策时是理性的,他们会根据自身的利益最大化来做出选择。
这一假设是整个经济学体系的基石,对于解释个体行为和市场机制起到了重要作用。
然而,理性人假设也有其限制和批评,需要我们在理解和运用时保持一定的警惕。
理性人假设首先假定了个体是理性的,即能全面,准确地获取信息,并且能够对信息进行分析和评估。
在现实生活中,个体往往受到信息不对称、有限理性等因素的制约。
但是,无论个体能够获取多么准确的信息,在决策过程中都无法避免不完全信息的问题。
因此,在实际应用中需要考虑信息的不完全性和限制。
其次,理性人假设还假定个体的行为是一致的和稳定的,即个体的偏好和目标不会随时间的变化而变化。
然而,在现实生活中,人的喜好和目标往往受到各种因素的影响,比如情绪、文化背景等。
个体的行为也会受到时机效应和损失厌恶等心理因素的影响。
因此,理性人假设在解释个体行为时需要结合心理学的相关理论,更加细致地分析个体的行为。
理性人假设还假定个体能够在不同的选择之间进行比较,并且能够根据自身的利益对选择进行排序。
然而,在现实生活中,人的决策过程往往受到有限的认知能力和自我偏见等因素的影响。
个体的决策往往是基于经验、直觉和情感进行的,而不是完全基于逻辑和计算。
因此,在解释个体行为时需要考虑认知科学的相关研究,更好地理解个体的决策过程。
理性人假设在经济学中的应用非常广泛。
在微观经济学中,理性人假设用于解释个体的消费行为、生产决策和投资行为等。
在宏观经济学中,理性人假设用于解释市场的供求关系、价格的形成和资源配置等。
理性人假设还用于解释市场的竞争机制、博弈论和契约理论等。
因此,理性人假设成为了经济学中非常重要的一个理论框架,对于推动经济学的发展和应用具有重要意义。
然而,理性人假设也存在一些局限性和批评。
首先,现实生活中个体的决策往往受到情感和文化因素的影响,而理性人假设忽略了这些非经济因素的影响。
重复博弈囚徒困境,砸了传统经济学的场子。
因为个人的自利行为,并不一定导致集体利益的最大化,“看不见的手”拉不住,人类向堕落之城下滑的趋势,难道这真是一个悲哀?索性并非如此,撇去博弈论的理性假设不说。
博弈论者很快发现囚徒困境只在单次博弈情形下明显,一旦博弈的开始陷入重复,合作将到来。
因为,未来的收益将左右目前的决策。
以牙还牙重复的博弈理论上导致了合作的产生,但是谁也不能保证合作的继续,因为之前已经说过,合作的代价是建立在损害个人利益基础之上的。
如果个人放弃未来收益或当前背叛收益大于未来收益,背叛的风险仍然存在。
那么在重复博弈中怎样的策略才是最优。
若干睿智而复杂在经过计算机中PK 之后,极其原始的“以牙换牙”策略脱颖而出,固然这个策略简单至极,其威力却无穷,以至于人们在短暂的欣喜之后,发现这把太阿指之剑倒持的可怕,一旦重复链条中出现一次(也许不经意的)背叛,那据此原则行事的博弈将永无止境的背叛下去,个人利益极度膨胀的同时,集体利益无限衰微。
幸好,这个世界不是模型,也不是如此简单。
很多时候,我们不必以牙还牙,第三方的规范:道德与法律就是我们的假牙,他们更加有利、有理、有节。
人质困境一场憋屈的博弈。
抢打出头鸟,人质联合固然可以制服歹徒,但是谁愿出头。
这一点给了无数处于劫持者地位的一方以机会,类似于秦的远交近攻、各个击破的策略,将最终全盘赢下。
人质可有反制的策略,当然有,不过艰难至极。
人质可以选择沉默,这样他有一定时间苟延残喘;或者联合劫持者对付人质,结局还是取决于劫持者,万一他过河拆桥怎么办;同时反抗,集体将获得左右策略,但是这需要壮士断腕的勇气,部分人可能因此受伤。
这里是实力与勇气的较量,而且实力暂居上风。
酒吧博弈如果人人理性,那么每一天到达酒吧的人数将是差不多正好的,但是人非圣贤,往往是有限理性的。
第一次到酒吧的人多,那么大多人人认为酒吧人太多,太挤。
第二次决定的时候,参考前次而不去酒吧。
少数去的人发现酒吧的人第二天很少,感觉很爽,第三次将继续回来,并重新带回许多人……循环就此开始。
个人理性与集体理性的矛盾及其解决方式一、囚徒困境举例概述囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。
他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。
故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数1 个体理性与集体理性许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。
在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。
如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。
在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的.市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。
如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。
但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。
五花八门的价格联盟总是非常短命,道理就在这里。
并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。
博弈论经典案例在我们的生活中,博弈论的应用无处不在。
从商业竞争到日常决策,从国际关系到体育比赛,博弈论的智慧都在发挥着重要作用。
接下来,让我们一起探讨几个经典的博弈论案例,深入理解其中的策略和思维。
案例一:囚徒困境假设有两个犯罪嫌疑人 A 和 B 被警方抓获,但警方并没有足够的证据证明他们的罪行。
于是,警方将两人分别关押在不同的房间进行审讯,并分别告知他们以下的规则:如果两人都保持沉默(不坦白),那么他们都将被判处较轻的刑罚,比如监禁 1 年。
如果一人坦白,而另一人保持沉默,那么坦白的人将被立即释放,而沉默的人将被判处 8 年监禁。
如果两人都坦白,那么他们都将被判处 5 年监禁。
对于 A 和 B 来说,他们都面临着两种选择:坦白或者沉默。
从 A的角度来看,如果 B 坦白,那么自己坦白将被判处 5 年监禁,沉默将被判处 8 年监禁,所以坦白是更好的选择;如果 B 沉默,那么自己坦白将被立即释放,沉默将被判处 1 年监禁,还是坦白更好。
同样的逻辑对于 B 也适用。
最终,两人往往都会选择坦白,尽管从整体上看,如果他们都保持沉默,两人的总刑期会更短。
这就是著名的囚徒困境,它反映了个体理性与集体理性之间的冲突。
在现实生活中,囚徒困境的例子也屡见不鲜。
比如,在商业竞争中,两个企业可能会面临是否降价的决策。
如果都不降价,可能都能保持较高的利润;但如果一方降价,而另一方不降价,那么降价的一方可能会抢占更多市场份额,不降价的一方则会损失市场。
因此,双方可能都会选择降价,导致整个行业的利润下降。
案例二:智猪博弈假设猪圈里有一头大猪和一头小猪,猪圈的一头有一个猪食槽,另一头安装着控制猪食供应的按钮。
按一下按钮会有 10 个单位的猪食进槽,但谁按按钮就会首先付出 2 个单位的成本。
而且,大猪吃的速度比小猪快。
如果小猪去按按钮,大猪在猪食槽边等待,那么当小猪跑回来时,大猪已经几乎吃光了 10 个单位的猪食,小猪只能吃到 1 2 个单位,扣除按按钮的 2 个单位成本,小猪是亏损的。
博弈困境的两种解决方案分析纳什均衡(Nash Equilibrium)概念的提出和存在性证明奠定了博弈论这门学科的基础,为理解和预测人们在策略互动中的行为提供了强而有力的工具。
但是,随着博弈论的发展,人们普遍意识到,甚至通过实验研究也发现,在有些博弈中,纳什均衡所预测的博弈结果并不符合人们的直观和各种实验研究的结果。
人们把这些纳什均衡与直观或现实严重冲突的博弈称为博弈困境,著名的例子有囚徒困境(Prisoner s Dilemma)、旅行者困境(Traveler s Dilemma)、蜈蚣博弈(Centipede Game)、纳什讨价还价问题(Nash bargaining problem)、伯川德悖论(Bertrand competition)、公共物品供给博弈(Public Good Game)、最后通牒博弈(Ultimatum Game)和独裁者博弈(Dictator Game)等。
旅行者困境是由著名经济学家Kaushik Basu于1994年提出来的博弈中的一个新的困境。
正如他本人所说:旅行者困境是一个特殊的并且令人信服的悖论,在这里,无情的博弈论理性和直觉观念无法保持一致。
该困境融合了以往困境中具有代表性的一些主要特征,从而使博弈论中的根本问题更为集中地得到展现。
旅行者困境的发现和提出,立刻引起了学术界的广泛关注,国际上不少博弈论学家和逻辑学家从理论和实验两个方面分别展开研究。
与此相反,国内学者虽然对一般意义上的博弈困境及其产生原因已有所关注,但是对针对博弈困境的各种解决方案缺乏细致而深入的学理分析和研究。
对解决方案的深入研究可以加深我们对人类社会中各种博弈困境的理解的同时,有助于寻找新的理论和现实解决方案,还可以避免对博弈论泛泛而谈的批评和指责。
本文以旅行者困境为例,对Halpern Pass提出的重复后悔度极小化模型和Capraro提出的基于联盟与合作的概率推理模型两种方案进行分析比较,以窥它们是如何成功地解释和预测旅行者困境中选手实际博弈行为的,并分析这两种方案各自存在的问题。
博弈论66个经典例子之六本文介绍了博弈论中的三个经典例子。
第一个例子是囚徒困境,讲述了两个嫌疑犯被警察审讯,面临坦白或抵赖的选择。
尽管最优选择是坦白,但如果两人都抵赖会得到更好的结果。
这个例子反映出了人类的个人理性有时会导致集体的非理性。
第二个例子是旅行者困境,讲述了两个旅客索赔花瓶的故事。
为了获取最大赔偿,他们都想尽可能多地写花瓶价格,但最终可能都只写了一两元。
这个例子告诉我们,在理性的假设下,博弈的结果可能不是最优解。
第三个例子是竞争和劫持,没有明显的格式问题,但内容不太适合在此展开讨论,因此不做更多介绍。
综上所述,博弈论是研究决策者在相互影响的情况下如何做出最优选择的学科。
这些经典例子揭示了人类的理性和非理性,也提醒我们在决策过程中要充分考虑其他人的选择和可能的结果。
费城西区有两家商店,分别是纽约廉价品商店和美国廉价品商店。
这两家商店紧挨着,老板们是死敌,他们一直在进行价格战。
他们出售的商品质量都很好,比如爱尔兰亚麻床单,即使是挑剔的XXX女士也找不出任何瑕疵。
而且这些商品的价格非常低廉,比如床单只需要6.5美元。
每当一家商店在橱窗里贴出这样的告示,顾客们就会等待另一家商店的回应。
果然,大约两个小时后,另一家商店的橱窗里也出现了类似的告示,价格战就这样开始了。
除了在橱窗里贴告示之外,两家商店的老板还会在店外互相对骂,甚至打起了拳脚。
最终,一方的老板会停止争斗,价格也不再下降。
这时,获胜的商家会被人们称为“疯子”,意味着他们赢得了这场价格战。
这时,人们就会涌入获胜的商店,抢购各种商品。
在这个地区,这两家商店的价格战是最激烈、持续时间最长的,因此非常有名。
住在附近的人们从他们的争斗中受益匪浅,可以买到各种“精美”的商品。
突然有一天,一家商店的老板去世了,几天后,另一家商店的老板声称要去外地办货,两家商店都停业了。
几个星期后,两家商店都有了新老板。
这些新老板对前任老板的财产进行了详细的调查。
有一天,他们发现两家商店之间有一条秘密通道,并且在两家商店的楼上,两位前任老板住过的套房里有一扇连接两套房子的门。
博弈论囚徒困境博弈论经典案例“囚徒困境”及其实证分析最近三四十年,经济学经历了一场“博弈论革命”,就是引入博弈论的概念和方法改造经济学的思维,推进经济学的研究。
诺贝尔经济学奖授予包括美国普林斯顿大学的纳什博士在内的3位博弈论专家,可以看作是一个标志,这自然也激发了人们了解博弈论的热情。
博弈论作为现代经济学的前沿领域,已成为占据主流的基本分析工具。
博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡,也就是说,当一个主体的选择受到其他主体选择的影响,而且反过来影响到其他主体选择时的决策问题和均衡问题。
一个完整的博弈应当包括五个方面的内容:第一,博弈的参加者,即博弈过程中独立决策、独立承担后果的个人和组织;第二,博弈信息,即博弈者所掌握的对选择策略有帮助的情报资料;第三,博弈方可选择的全部行为或策略的集合;第四,博弈的次序,即博弈参加者做出策略选择的先后;第五,博弈方的收益,即各博弈方做出决策选择后的所得和所失。
“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。
讲的是两个嫌疑犯(,和,)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则判,,年;如果各判,年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的都不坦白则因证据不足各判,年。
在这个例子里,博弈的参加者就是两个嫌疑犯,和,,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。
可能出现的四种情况:,和,均坦白或均不坦白、,坦白,不坦白或者,坦白,不坦白,是博弈的结果。
,和,均坦白是这个博弈的纳什均衡。
这是因为,假定,选择坦白的话,,最好是选择坦白,因为,坦白判,年而抵赖却要判十年;假定,选择抵赖的话,,最好还是选择坦白,因为,坦白判不被判刑而抵赖确要被判刑,年。
即是说,不管,坦白或抵赖,,的最佳选择都是坦白。
反过来,同样地,不管,是坦白还是抵赖,,的最佳选择也是坦白。
从博弈论中看理性经济人
所谓理性经济人是指按照自身利益最大化的原则,能够对自己的行为做出正确选择的、自私自利的人。
囚徒困境——双输的博弈,为什么呢?因为人是都是自私的,人总是追求自己利益最大化的。
理性的经济人假设,是经济学上的一个重要的假设,在理性经济人的假设下,囚徒困境模型的纳什均衡表明人们追求的是个人利益的最大化。
我们都熟知的囚徒困境是博弈论里最有名的范例,它最早由美国普林斯顿大学的数学家曾克于1950后提出的。
警方抓捕甲乙两名案犯,隔离审讯,若两人都不坦白,由于证据不足,两人均只能判2年;若一人坦白,另一人不坦白,则坦白者判1年,不坦白者判8年;若两人均坦白,则各判5年。
结果很显然是两人都坦白,各判了5年。
在这个故事当中,甲乙两人均从自身利益最大化考虑,选择了坦白,但我们从结果看,最好的策略是双方都选择不坦白,那样两人都只判1年。
在信息不对称的信息下,每一个人都是从利已的目的出发,每一方在选择时都选择对自己最有利的方案,而不考虑任何其他对手利益,但这样的选择得出的结果却又刚好适得其反。
这场博弈的纳什均衡,以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑2年,总体利益更高。
但根据以上假设,二人均为理性的个人,且只追求自己个人利益的最大化。
均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作高,总体利益较合作低。
而在现实生活中,由于信息是不完全的,同一个企业内部不同职位之间的收入是相对保密的,在不知道其他人收入的前提条件下,对于雇佣者给出的薪水,大部分人选择接受,这就造成了不同职位之间收入差距的拉大,而随着社会财富的增加,雇佣者给出的分配比例也会拉大,从而使社会贫富差距进一步拉大。
几个博弈论中的经典问题博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。
目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
博弈论主要研究公式化了的激励结构间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
也是运筹学的一个重要学科。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
生物学家使用博弈理论来理解和预测进化论的某些结果。
几个重要的概念1、策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。
如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。
2、得失(payoffs):一局博弈结局时的结果称为得失。
每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。
所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。
3、次序(orders):各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。
4、博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。
在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。
5、纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。
也就是说,此时如果他改变策略他的支付将会降低。
在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
博弈论的局限性(博弈论的诡计)有两⽗⼦正在赶路,突然从⼀户⼈家跑出来⼀条⼤⿊狗,冲着他们“汪汪”狂吠。
⼉⼦吓了⼀⼤跳,急忙躲到了⽗亲的⾝后。
⽗亲告诉他说:“你放⼼.它不会咬你的。
难道你没有听说过‘吠⽝不咬⼈’那句话吗?”⼉⼦听了这番话,仍然紧紧地抓住⽗亲的⾐⾓,⽤颤抖的声⾳说:“我倒是听说过这句话,但是我不能肯定这条狗有没有听说过。
”这番对话之所以可笑,是因为⼉⼦“以⼰度狗”,把“吠⽝不咬⼈”当做⼈狗双⽅据以确定策略的依据。
这种推论⾃然是错误的。
但是在这个笑话的背后.我们却可以发现⼉⼦的话中包含着对著名的哥德尔不完备定理的认识:任何⼀个理论体系必定是不完全的,任何理论都包含了既不能证明为真也不能证明为假的命题。
对这个世界的最好描述可能只有其本⾝,但是正如罗宾逊夫⼈的妙语所说:“⽐例尺是⼀⽐⼀的地图是没⽤的。
”博弈论也是如此.⽐如博弈论的基本假设之⼀就是:⼈是理性的。
所谓理性的⼈是指⾏动者具有推理能⼒,在具体策略选择时的⽬的是使⾃⼰的利益最⼤化。
⽽现实⽣活中,⼈们在做决策时往往是有限理性的。
因为⼈类的精⼒和时间永远是有限的,⼈不可能具备完全理性,不可能掌握所有知识和信息。
⼈不可能搜寻到所需的全部信息.另⼀⽅⾯信息的搜寻也是需要成本的,必须为此付出⼤最的时间、精⼒和财⼒等。
意图搜寻到所有信息,企图做出收益最优的决策⾏为。
有时反⽽是最不理性的举动。
事实上,要求博弈论能够完全刻画真实的世界.注定是徒劳⽆功的。
正如诺贝尔经济学奖得主菜因哈德·泽尔滕教授所说:“博弈论并不是疗法,也不是处⽅,它不能帮我们在赌博中获胜.不能帮我们通过投机来致富,也不能帮我们在下棋或打牌中赢对⼿。
它不告诉你该付多少钱买东西,这是计算机或者字典的任务。
”尽管如此.⼈类⾄今还没有找到⼀种⽐博弈论更好的思考⼯具,可以对现实的客观世界进⾏如此近似的描述。
就像并不完美的⼒学是⾃然科学的哲学和数学⼀样,博弈论是社会科学的⼒学和数学。
博弈论中理性人假设的困境“博弈参与人是理性的”是博弈论的公设,然而理性人假定存在许多博弈困境。
囚徒困境与公共地悲剧反映的是个体理性与集体理性之间的冲突;纽科母难题(Newcomb problem)体现了理性人使胜占优策略原则与最大期望效用原则时的两难;最后通牒博弈与蜈蚣博弈则表现了理性参与人选择过程是理性的而结果是非理性的,其中蜈蚣博弈悖论又称为逆向归纳法悖论;而投票悖论则反映了群体建立加总群体偏好的理性规则的限度。
在博弈论中,博弈论专家不仅假定了博弈参与人(player)是理性的(rational),而且假定了“所有参与人是理性人”是博弈参与人之间的公共知识(common knowledge)——公共知识简单说来就是“我们知道”的事实。
理性人在博弈论中是指具有推理、决策能力并通过选择策略使自己的得益或支付(pay-off)最大的人。
然而,理性的参与人在某些博弈中并不能使自己的得益最大,在另外一些博弈中理性反而成为获得最大得益的障碍,在某些情况下理性人面临难以做出决策的二难,即:“理性人”面临着困境。
一、个体理性与集体理性的冲突一个熟知的博弈困境是囚徒博弈。
囚徒困境(Prisoners'dilemma)是这样一个博弈:两个囚徒被警察抓住后单独关押,警察给他们的政策是“坦白从宽,抗拒从严”。
每个囚徒均面临着两个策略选择“招认”和“不招认”。
如果一方“招认”,另外一方“不招认”,招认方无罪释放,不招认方将被重判(比如10年);如果双方均“招认”,因无立功表现,每人均被判刑(如5年),而如果每人均“不招认”,警察抓不到足够的证据证明以前的犯罪,只能对他们目前所犯的罪进行惩戒(如判刑半年)。
这个博弈中,两个囚徒均会选择“招认”,因为无论对方选择什么策略,自己选择“招认”是占优策略(dominant strategy)。
双方均选择“招认”的策略组合点是纳什均衡(Nash Equilibrium)点。
如果两个囚犯都选择“不招认”策略,结果是最理想的状态。
但这个状态是达不到的,因为每个理性的囚徒均会主动偏离这个状态。
一个稳定的状态是双方均选择“招认”,这是理性的囚徒难以摆脱的困境。
与此类似的是公共地悲剧(tragedy of the commons)。
公共地悲剧是由美国生物学家哈定(G.Hardin)在1968年提出的,该问题提出后引起各个领域里的讨论。
他说,想象一个对所有牧民开放的牧场,每个牧民的占优策略是尽量多地放牛。
因为购买小牛的成本小于当牛长成后被卖出后所得的收益。
但是,当每个牧民均作如此思维与策略选择的时候,牧场将被过度放牧而荒芜了。
这是一种集体行动的悲剧。
哈定说,人口问题,污染问题以及军备竞赛问题,均具有与此相同的结构。
哈定这里所说的悲剧是古希腊意义上的。
他借用怀特海的话说,悲剧不是不幸,而是事物发展的无情性。
即,人类知道这个悲剧,但无法摆脱它发展的必然性。
公共地悲剧就是这样的悲剧——每个人均能够预先知道悲剧的必然性,因为这个必然性是每个人理性行为的结果,但每个人由于自己的理性,均不会约束自己的策略选择,因而悲剧是不可避免的。
囚徒困境与公共地悲剧所反映的是个体的理性行为产生的集体的不合理性行为,体现了个体理性与集体理性的冲突。
然而,当人类社会真的要产生如公共地悲剧这样的悲剧的时候,人们的价值观以及相应的社会制度会自动产生一种克服该悲剧的方法来。
因而,悲剧并不是不可避免的。
囚徒困境与公共地悲剧中的个体的理性是没有任何价值观约束下的理性,与实际中的情况相差甚远。
二、理性原则间的冲突1960年,物理学家威廉·纽科姆(William Newcomb)提出了一个策略选择难题。
哲学家诺齐克在1969年《纽科姆难题和两个选择原则》中转述了这个难题,并称之为纽科姆难题(Newcomb problem)。
然而,“人们从未看到纽科姆本人就该疑难发表文章”。
诺齐克认为,纽科姆难题“是一个漂亮的难题。
我真希望它是我提出的。
”不管纽科姆难题是谁提出来的,但它的提出引起了人们尤其是哲学家的广泛争论。
它所反映的是理性人决策时的两个原则“最大期望效用原则”(Maximum Expected Utility)与“占优策略原则”(Dominant Strategy)之间的冲突。
纽科姆难题是这样的:假定有两个黑色的盒子。
你无法看到盒子里的东西。
1号盒子里面有1000元钱;2号盒子里面或者有1000000元,或者为0元(这由神来确定)。
你有两个选择:(1)选择全部,即1号和2号盒子;或者(2)只选择2号盒子。
假设一个有预测力的神能够预测你将作出的选择。
如果他预测你将“选择两个盒子”,他事先不在2号盒子里放钱,即他使盒子里面的钱数为0;如果神预测到你“只选择2号盒子”,他将1000000元钱放进2号盒子里(如果他预测你将使用随机的方法做出选择,他仍使2号盒子空着)。
我们假定了这个神能够准确预测。
有可能的是,这个神的预测能力可能不是100%准确,但足够准确,如90%的准确。
具有这个能力的可以是神,或者精灵,或者某个超级生物。
这是人和神之间的一个博弈。
如果是你,你将“选择两个盒子”还是“只选择2号盒子”?表1在神与人的博弈中人的得益附图根据占优策略原则,你应当选择“取两个盒子的策略”。
因为,神的预测是过去做出的。
2号盒子里的钱的多少是不可更改的,与你现在的选择无关。
如果神预测到你将“取两个盒子”,而你“只取了2号盒子”,你所得为0元,而选择“取两个盒子”的策略的所得为1000元,“取两个盒子”的所得比“只取1个盒子”的收益多1000元。
此时,你应当“取两个盒子”。
而如果神预测到你“只取2号盒子”,他在2号盒子里面放了1000000元,你如果“只取2号盒子”,你的所得为1000000元,而如果“取两个盒子”,你的所得为1001000元,“取两个盒子”比“只取一个盒子”多1000元。
此时,你应当“取两个盒子”。
综上所述,“取两个盒子”是占优策略。
你应当选择“取两个盒子的策略”。
而如果根据最大期望效用原则,你应当选择“只取一个盒子”的策略。
因为,假定你选择“取两个盒子”,神已经预测到这点,他使2号盒子里面为0,你的所得是1000元;你“只取2号盒子”,神预测到这一点,那么神在2号盒子里面放了1000000元,这样你的所得为1000000元。
选择“只取2号盒子”比“取两个盒子”的所得多1000000元。
因此,你应当选择“只取2号盒子”的策略。
即使神的预测不是100%的准确,只要神的预测准确度超过一定的概率,我们还是应当选择“只取2号盒子”的策略。
因为:假定神的预测是90%的准确,“取两个盒子策略”的期望得益为:0.9×1000+0.1×1001000=101000(元)“只取2号盒子”的期望所得为:0.1×0+0.9×1000000=900000(元)此时,应当选择“只取2号盒子”。
通过计算,只要神预测的准确性超过0.5005,根据最大期望效用原则,我们应当选择“只取2号个盒子”。
这两个选择均有理由,但它们不可能同时正确。
究竟应当选择“取两个盒子”还是“只取2号盒子”的策略?加得纳(Matin Gardner)1973年在《科学美国人》杂志数学游戏栏目中邀请读者给出这个难题的答案以及建议,有明确答案的126封来信中,89封信说选择2号盒子;37封信说他们选择取两个盒子。
另外有18人认为这个难题的条件不能满足。
对这个难题,哲学家诺齐克、莱维(Isaac Levi),均认为应当选择“取两个盒子”,纽约大学政治系著名政治学家勃拉姆兹(Steven Brains),以及纽科姆本人认为应当选择“只取2号盒子”。
笔者进行了一个实验。
本人将这个难题出作本科生博弈论课程的考试题。
78名学生参加了考试。
学生事先不知道这是一个没有确定答案的难题。
我给了他们这两种选择答案,并给了他们理由,让他们利用他们的分析能力对之进行选择。
实验结果是:62人选择“只取2号盒子”,14人选择“取两个盒子”,2个人不能表明态度。
选择“只取2号盒子”的人数接近“取两个盒子”的人数的4.5倍。
加得纳(Matin Gardner)的实验结果也是选择“只取2号盒子”的人多,但比例没有本人这里的实验结果高。
见下表。
表2实验结果附图纽科姆难题涉及到人的意志是否是自由的问题。
因而,纽科姆难题又称自由意志困境。
在博弈论中,博弈论专家预设了博弈参与人具有理性决策能力。
但更为基本的是,博弈论预设人可以“自由地”选择策略,即人的意志是自由的。
然而在纽科姆难题中人的意志是否是自由的,则是一个问题。
如果神能够准确预测并做出正确的决定,表明在人的预测与人的决定之间存在着因果联系。
此时,无论人做出什么样的决策,均是神的预测的实现。
如果神预测不是绝对准确,可能因为他对这种因果联系的认识不精确而已。
基于这样的信念,选择“只取2号盒子”是合适的。
如果人的意志是自由的,神的预测就难以准确。
此时,人的理性便能够发挥作用。
此时,人应当采用“混合策略”,即以一定的概率选择“取两个盒子”和“只取2号盒子策略”,概率各为0.5。
当然,如果是重复博弈,并且假定神的目标是尽量预测准确人的选择,人与神采取“合作策略”是合理的,即人选择只取2号盒子,而神预测人将选择“只取2号盒子”的策略。
三、过程理性与结果理性之间的冲突逆向归纳法(backward induction)是求解动态博弈均衡的方法。
所谓动态博弈是指博弈参与人的行动存在着先后次序,并且后行动的参与人能够观察到前面的行动。
逆向归纳法在逻辑上是严密的,然而它存在着“困境”。
所谓逆向归纳法是从动态博弈的最后一步往回推,以求解动态博弈的均衡结果。
逆向归纳法又称逆推法。
它是完全归纳推理,其推理是演绎的,即结论是必然的。
我们来看一下最后通牒博弈(ultimatum game)的均衡。
有这样一个动态博弈——A、B两个人分100元钱。
规则规定:A提出方案,B对之进行表决。
如果B对A提出的方案表示同意的话,A、B就按照A提出的方案进行分配,如果B 不同意A的方案,那么A和B均将一无所有。
这是一个完全且完美信息动态博弈(dynamic game with perfect and complete information)。
让我们分析这个过程。
A提出方案时,他知道B是理性人。
B的行为是可被A预测的。
A将提出这么一个方案:A和B的所得比例为99.99:0.01,即给B留1分钱,而将其余99元9角9分留给自己。
此时B面临“同意”和“不同意”的选择:如果B“同意”,B所得为1分钱;如果B“不同意”,他将一无所得。
理性的B将选择“同意”——这个选择是A所能够预测的。
因此在“最后通牒博弈”中,理性的B只能得到1分钱!而A正是根据B的理性的选择而使自己利益最大。