博弈论完全信息静态博弈
- 格式:ppt
- 大小:445.50 KB
- 文档页数:102
博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。
其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。
本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。
关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。
它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。
用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。
容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。
二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。
而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。
下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。
首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。
第三章完全信息静态博弈及其纳什均衡解1.完全信息静态博弈定义 3.1.完全信息静态博弈。
完全信息静态是指,博弈中的参与人同时采取行动,或者尽管参与人行动的采取有先后顺序,但后行动的人在行动时不知道先采取行动的人采取的是什么行动;同时博弈参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识”。
两个特点:(1)静态;(2)完全信息。
完全信息静态博弈例子。
例1:锤子-剪刀-布例2:交通行驶非“完全信息静态博弈”例子:英式拍卖——动态博弈;第一密封价格及第二密封价格拍卖——不完全信息博弈。
2.纳什均衡及其判定定义3.2 纳什均衡。
在一个n人博弈的标准式G={S1,S2,…,S n; u1,u2,…,u n}中,一个策略组合{s1*,s2*,…,s n*},若满足u i(s1*,…,s i*,…s n*)≥u i(s1*,…s i,…,s n*)(i=1…n),则称这个策略组合为{s1*,s2*,…,s n*}为该博弈G的一个纳什均衡。
某策略组合是纳什均衡指的是,在该策略组合上任何一个参与人的收益在其他人策略不改变的情况下都至少是弱优的。
特点:(1)每个人没有单独改变策略的动机;(2)局部最优。
纳什均衡判定方法:用定义来判定:某点是均衡看它是否符合纳什均衡的定义。
求解纳什均衡的方法:(2)用定义来求解(3)对于策略空间为连续的博弈,用求极值的方法来求得。
3.纳什均衡存在定理:(纳什)定理3.1.在一个n人博弈的标准式G={S1,S2,…,S n; u1,u2,…,u n}中,如果n是有限的,且对每个i, S i是有限的,则博弈至少存在一个纳什均衡。
这里的均衡可能包含混合策略均衡。
证明:略例子3:囚徒困境的均衡例1:“锤子-剪刀-布”的均衡?4.混合策略与混合策略的均衡纯策略与混合策略概念。
定义.3.3.一个策略是纯策略指的是参与人策略空间中的某个确定策略;而一个混合策略是参与人策略空间上的一个概率分布,一般地,某个人i的策略空间为{s i1,s i2,…,s ik},则参与人i在策略空间上的一个概率分布p i=(p i1,p i2,…,p ik)构成他的一个混合策略,其中p i1+p i2+…+p ik=1。
完全信息静态博弈论模型引言:博弈论是研究决策制定者在不同利益冲突场景下的行为和策略选择的数学模型。
在博弈论中,静态博弈是指参与者在同一时间点做出决策的情况。
完全信息表示每个参与者对于其他参与者的行为和策略选择都有完全的了解。
本文将介绍完全信息静态博弈论模型的基本概念、解决方法以及应用领域。
一、基本概念1.1 参与者完全信息静态博弈中,有两个或多个参与者,每个参与者可以是个体、团体或国家等。
参与者通过制定决策来追求自身的利益。
1.2 策略每个参与者在博弈中可以选择的行动方案称为策略。
策略可以是纯策略,即只选择一个确定的行动;也可以是混合策略,即以一定概率选择不同的行动。
1.3 支付函数支付函数是衡量参与者在不同策略组合下所获得效用或利益的函数。
支付函数可以表示为参与者的收益、成本或效用。
1.4 纳什均衡纳什均衡是指在博弈中,每个参与者选择的策略组合使得没有参与者有动机改变自己的策略。
换言之,每个参与者都在给定其他参与者的策略下做出最优的决策。
二、解决方法2.1 支付矩阵为了描述参与者之间的策略选择和支付函数之间的关系,可以使用支付矩阵。
支付矩阵是一个二维矩阵,行表示一个参与者的策略选择,列表示其他参与者的策略选择,每个元素表示对应策略组合下的支付函数。
2.2 最优响应最优响应是指在其他参与者的策略下,参与者能够选择的最优策略。
通过计算每个参与者的最优响应,可以找到纳什均衡。
2.3 前瞻性在完全信息静态博弈中,参与者可以通过推断其他参与者的策略和支付函数来做出决策。
前瞻性是指参与者能够预测其他参与者的行为并做出相应的反应。
三、应用领域完全信息静态博弈论模型广泛应用于经济学、政治学、生物学等领域。
3.1 经济学博弈论在经济学中有广泛应用,如市场竞争、定价策略、拍卖等。
完全信息静态博弈模型可以帮助分析参与者的决策行为,预测市场的走势和结果。
3.2 政治学在政治学中,博弈论可以用于分析选举、政策制定和国际关系等问题。
博弈论四种类型之完全信息静态博弈决策需要信息,⼏乎所有需要决策的场合我们都掌握着有限信息,这使得现实中往往是有限信息博弈。
完全信息在这⾥指的是每个参与⼈对其他参与⼈的⽀付函数有着完全的了解。
⽽静态指的是同时⾏动的博弈,或者不同时但后⾏动者不知道之前⾏动者的决策。
在完全信息静态博弈中的均衡是纳什均衡。
最典型的例⼦是囚徒困境与智猪博弈。
下⾯就由这两个例⼦展开,并将在博弈论中的⼀些知识点做出介绍。
【囚徒困境】中基于收益矩阵的模型描述如下:【注】博弈中参与⼈只拥有有限个离散性的纯战略供其选择称为离散型策略。
⽽在另外⼀些博弈中,每个参与者的纯策略可以是来⾃连续范围的⼀个数,如⼚商定价,称为连续型策略。
离散型策略静态博弈可以⽤⽀付表来表⽰,如上图。
对于囚徒A与B来说,⽆论对⽅采取什么策略,⾃⼰的策略是“坦⽩”时总是⽐“抵赖”要好些,在两⼈⽆法通信的情况下,两⼈都会选择“坦⽩”。
【优势战略均衡】在这⾥,⽆论对⽅选择什么,“坦⽩”的收益是严格⼤于“抵赖”,所以“坦⽩”是⼀个严格优势策略,对应的“抵赖”则是⼀个劣势策略。
所有⼈都有⾃⼰的优势策略,由此产⽣的优势策略组合是⼀个优势战略均衡。
但是这⾥需要注意的是,双⽅各⾃的优势策略却导致了集体的利益最差,如果两⼈都选择“抵赖”收益将是各⾃-1,但是优势策略下的收益却是-8.囚徒困境反映了个⼈理性与集体理性的冲突。
个⼈的最优选择从社会⾓度看并不是最优的。
社会⽣活中有很多例⼦:公共品的给予,商家的价格战,团队⽣产中的偷懒(三个和尚没⽔喝),⼩学⽣减负越减越重,各国军备竞赛等。
【如何⾛出囚徒困境】如果有可信的承诺或者是惩罚(第三⽅实施),会使两⼈合作,促进集体利益最⾼。
【智猪博弈】智猪博弈的收益矩阵模型如下:在此处,⼩猪有优势与劣势策略,但⼤猪没有,只能根据⼩猪的策略做出最佳应对,⽽⼩猪不会选择劣势策略,因此剔除⼩猪“按”的策略,此时,⼤猪的策略只能为“等”。
【重复剔除劣势战略均衡】严格劣势策略为不管其他参与⼈怎样选择呢策略,参与⼈选择策略A时的收益严格⼩于策略B时的收益。
华为在阿根廷电信设备市场上的竞争博弈华为技术有限公司是一家总部位于中国广东省深圳市的生产销售电信设备的员工持股的民营科技公司,经过数十年的发展,成为全球最大的电信网络解决方案提供商,全球第二大电信基站设备供应商,同时也是全球第六大手机厂商,其海外市场的利润占到其总利润的75%。
在华为进入阿根廷电信设备市场之前,阿根廷的电信设备市场由爱立信、阿尔卡特-朗讯以及阿根廷本土设备供应商三家共同分享市场份额,接下来,我们将分析其不同条件下的博弈结果:1、完全信息情况下的静态博弈A 、纳什均衡:我们将上述三家公司统称为原有垄断者,华为称为虎视眈眈的潜在进入者,原有垄断者想要保住自己现有的垄断地位,就会想要阻止潜在进入者进入,在这个博弈中,原有垄断者有两种选择:一是进行斗争,打价格战;二是不斗争,默许其进入从而共同竞争,具体的支付矩阵结果表示如下:原有垄断者潜在进入者 进入 不进入根据纳什均衡的定义:各个参与者所做的是在给定其他参与者的策略是所能够做出的最好的一组策略。
当潜在进入者选择进入时,原有垄断者的最优选择是不斗争,获得70单位的利润;同样的,原有垄断者选择不斗争的情况下,潜在进入者的最优选择是进入,获得20单位的利润,从而获得一个要求纳什均衡的均衡(进入,不斗争),同理可以得出另一个纳什均衡(不进入,斗争)。
B 、占优策略:现假设华为公司已经获得了阿根廷电信集团的经营许可证,在严格管制情况下二者都不能以低于成本的价格进行价格战,同时禁止出现单一寡头垄断的情形,(各自均有正的利润)在这两种情况下考虑两者是否进行价格战的情况,具体支付矩阵如下所示:原有垄断者 低价 高价潜在进入者低价 高价对于潜在进入者而言,不论原有垄断者是否进行价格战,潜在进入者的占优策略都是进行价格战,因为在原有垄断者定低价时,潜在进入者定低价可以获得额外的20单位利润,在原有垄断者定高价时,潜在进入者定低价可以获得额外的10单位利润,从而确定华为必将进行价格战,在完全信息情况下,原有垄断者会将自己置于潜在进入者的位置进行决策,从而决定自己也要进行价格战,否则会失去更多的利润。