lecture24Bayesian Nash Equilibrium(博弈论,Carnegie Mellon University)

格式：ppt
大小：349.50 KB
文档页数：23

下载文档原格式

博弈论

效用（英文：Utility），是经济学中最常用的概念之一。

一般而言，效用是指对于消费者通过消费或者享受闲暇等使自己的需求、欲望等得到的满足的一个度量。

正和博弈亦称为合作博弈，是指博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整个社会的利益有所增加。

负和博弈，是指双方冲突和斗争的结果，是所得小于所失，就是我们通常所说的其结果的总和为负数，也是一种两败俱伤的博弈，结果双方都有不同程度的损失那是定理在一个有n个博弈方的博弈G=﹛S1,…,Sn：u1,…,un}中，如果n是有限的，且Si 都是有限集（对i=1，…，n），则该博弈至少存在一个纳什均衡，但可能包含混合策略。

是由纳什发现的。

美苏争霸的囚徒困境军备竞赛是囚徒困境的又一个典型例子。

下面讲的，源自30年前美国的博弈论课本，本书不敢掠美。

从军事上看，30多年前，美国和苏联是世界上的两个超级大国，它们相互对垒。

假定每一方都有两种策略选择，一个是扩军，发展战略核武器，甚至实施“星球大战”计划等；另一个是彻底裁军，直至不设军备。

如果双方都扩军，则各花费2 000亿美元用于军费。

彻底裁军，则军费为0。

在一个弱肉强食的世界上，如果美国裁军不设防，但是苏联扩军，苏联就可以任意欺侮和损害美国。

这样，美国会受到很大损失。

损失之大，直至丧失主权。

这使我们可以非正式地把这种情况下美国的赢利记做–∞，即负无穷大。

这时候，欺侮人的一方的赢利是多少呢？你可能想象应该是+∞，即正无穷大。

其实不然。

你想想，砍伐一片森林所造成的损失，难道可以用所得到的木材的价值来补偿吗？更不必说占领甚至炸毁对方一座城市，你所得到的远远低于对方的损失。

被欺侮一方的损失，并不会等量地转化为欺侮人的一方的利益，这常常是对抗的规律。

所以，在一方扩军欺侮别人而另一方裁军任人欺侮的情况下，我们假定欺侮人的一方将只掠夺到一个有限数额的财富，比方说10 000亿美元。

这10 000亿美元的掠夺成本是上面讲的2 000亿美元。

博弈论纳什均衡

博弈论纳什均衡什么是纳什均衡？1、纳什均衡（Nash equilibrium )，又称非合作博弈均衡，是博弈论概念，指的是：一种博弈稳定结果，谁单方改变策略，谁就会损失。

两个囚徒互相揭发，就是一种纳什均衡。

对于每个囚徒来说，如果打破纳什均衡，在对方实施揭发策略时，改变揭发策略，保持沉默，自己就会由判刑2年，变成判刑5年。

也就是说，两个囚徒互相揭发是稳定博弈结果，谁单方改变策略，就会受到损失。

这也就是均衡涵义所在，两个囚徒从利己角度，都不会单方改变策略。

博弈策略稳定，博弈结果也稳定。

之所以命名为纳什均衡，是因为提出者是经济学家、博弈论创始人约翰．纳什。

之所以称为非合作博弈均衡，原因就是：两个囚徒如果合作，互相保持沉默，各自只要坐牢1年；但最终博弈结果，也就是纳什均衡显著特征，是不合作。

2、纳什均衡意义重大。

纳什均衡提出，震动整个经济学界。

诺贝尔经济学奖得主萨缪尔森曾说：“你只要教会鹦鹉说‘需求和供给’，它也是经济学家。

”博弈论专家坎多瑞则说：“这只鹦鹉现在必须多学一个词了，那就是‘纳什均衡’。

”诺贝尔经济学奖得主迈尔森也说：“发现纳什均衡意义，可以和生命科学中发现DNA 双螺旋结构相媲美。

”纳什也因为提出纳什均衡，创立博弈论，而获得1994年诺贝尔经济学家奖。

纳值均衡意义重大，简单来说，就是它对于经济学具有重大意义。

读友们如果了解经济学看不见的手原理，就知道，古典经济学认为，通过市场这只‘看不见的手’调节，个体追求私利行为，会促进集体利益最大化。

但纳什均衡却违反上述原理：两个囚徒分别追求私利行为，并没有促进集体（囚徒整体）利益最大化，反而是损人不利己。

这正是市场失灵软肋之处，通过博弈论视角可以得到合乎逻辑解释，更有条件找到合适解决方案。

从上述这点，读友们可以“一斑窥全豹”，感受到博弈论重要性。

更重要的是，纳什均衡非常普遍，小至个人沟通，中到公司竞争，大到国家往来，都可以观察到。

Q2：怎样运用纳什均衡？1、分析囚徒困境。

纳什平衡Nash Equilibrium

纳什平衡Nash Equilibrium2010-02-11 16:48:59纳什平衡（Nash Equilibrium），又称为非合作赛局平（Non-Cooperative Games），是博弈论的一个重要概念，以约翰•纳什命名。

定义：如果某情况下无一参与者可以独自行动而增加收益，则此策略组合被称为纳什均衡点。

例子：经典的例子就是囚徒困境，囚徒困境是一个非零和博弈。

大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被立即释放，而对方将被判刑十年；如果两人均招供，将均被判刑两年。

如果两人均不招供，将最有利，只被判刑半年。

于是，两人同时陷入招供还是不招供的两难处境。

但两人无法沟通，于是从各自的利益角度出发，都依据各自的理性而选择了招供，这种情况就称为纳氏均衡点。

这时，个体的理性利益选择是与整体的理性利益选择不一致的。

囚犯甲的博弈矩阵囚犯甲招供不招供囚犯乙招供判刑两年甲判刑十年；乙即时获释不招供甲即时获释；乙判刑十年判刑半年基于经济学中Rational agent的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判刑半年就不会出现。

事实上，这样两人都选择坦白的策略以及因此被判两年的结局被称作是“纳什均衡”（也叫非合作均衡），换言之，在此情况下，无一参与者可以“独自行动”（即单方面改变决定）而增加收获。

学术争议和批评：第一，纳什（Nash）的关于非合作（non-cooperative）博弈论的平衡不动点解（equilibrium/fixpoint）学术证明是非构造性的（non-constructive），就是说纳什用角谷静夫不动点定理（Kakutani fixed point theorem）证明了平衡不动点解是存在的，但却不能指出以什么构造算法如何去达到这个平衡不动点解。

这种非构造性的发现对现实生活里的博弈的作用是有限的，即使知道平衡不动点解存在，在很多情况下却找不到，因此仍不能解决问题。

Nash均衡专业知识讲座

Control Science and Engineering, HUST
All Rights Reserved, 2023, Luo Yunfeng
一、占优行为
• 考察更一般旳 n 人博弈情形。在n人博弈中，参加人 i ( i=1,2,...,n)旳支付ui= ui(si, s-i)既与自己旳选择si有关，也与其他参加人旳选择 s-i有关。
Control Science and Engineering, HUST
All Rights Reserved, 2023, Luo Yunfeng
定义2 ：占优战略均衡
• 在n人博弈中，假如对全部参加人 i
(i=1,2,...,n) ，都存在占优战si* 略，则占
优战略组s*合 (s1*, s2*,..., sn* )
All Rights Reserved, 2023, Luo Yunfeng
例2 反复剔除劣战略
B
L
M
R
U A
1，0
1，2
0，1
D 0，3 0，1 2，0
B理性
A理性且懂得B理性
B
LM
B
U 1, 0 1, 2
LM
AD 0, 3 0, 1
A U 1, 0 1, 2
B不但理性, 且懂得A理性，且懂得 A懂得B理性。
则称战略 si为参加人i旳劣战略，或者说战略 si相对于战略 si 占优。
Control Science and Engineering, HUST
All Rights Reserved, 2023, Luo Yunfeng
剔除劣战略行为
• 在博弈中，假如战略 si是参加人i旳劣战略，那么参加人i肯定不会选择战略 si。这就相当于参加人将战略 si 从自己旳战略集 Si 中剔除掉，直接从战略集 Si \{si}中选择自己旳战略。参加人旳这种选择行为我们称之为剔除劣战略行为。

贝叶斯纳什均衡

知识创造未来
贝叶斯纳什均衡
贝叶斯纳什均衡（Bayesian Nash equilibrium）是一种博弈论中的概念，描述了在玩家具有不完全信息的情况下，通过贝叶斯推断来确定均衡策略的一种解决方式。

在一般的纳什均衡中，玩家的策略是确定的，而在贝叶斯纳什均衡中，玩家的策略是基于他们对其他玩家的信息的概率分布。

具体来说，贝叶斯纳什均衡涉及两个概念：一是通过贝叶斯推断来估计其他玩家的策略概率分布，即玩家根据已知的信息对其他玩家的策略进行推断；二是基于这些概率分布来选择自己的策略。

贝叶斯纳什均衡在博弈论和经济学中有广泛的应用，特别是在涉及不完全信息和不完全竞争的情况下。

它能更好地描述玩家在不确定环境中做决策的情况，并提供对策略选择的概率性解释。

需要注意的是，贝叶斯纳什均衡是一个较为复杂的理论概念，要确定具体的贝叶斯纳什均衡需要进行大量的计算和推断分析。

1。

《博弈论：原理、模型与教程》第02章Nash均衡第03节Nash均衡

《博弈论：原理、模型与教程》第一部分完全信息静态博弈第2章Nash均衡「 -------------------------------------第2.1节占优行为第2.2节重复剔除劣战略行为第2.3节Nash均衡2.3 Nash 均衡（已精细订正！）1、定义2-5I2、一定理，及其证明I3、简单博弈问题Nash均衡的求解：划线法；箭头法I _________________________________________________________前面两小节分析了理性参与人在博弈中的战略选择行为一行为与剔占优除劣战略行为。

但是，在大多数博弈问题中，参与人的占优战略是不存在的，而且所有参与人同时存在占优战略的情形更是少见；剔除劣战略虽然可以在一定程度上简化博弈问题的求解，但在相当多的博弈中是无法使用重复剔除劣战略的方法求解博弈问题的（如图2-4和图2-6所示的战略式博弈）。

为了完全解决完全信息博弈的求解问题，需要选找新的方法和定义新的博弈解。

探寻博弈问题的解，必须明确：博弈分析是在博弈问题的结构和参与人完全理性为共同知识的假设下进行的，而在该假设下，人们（或博弈论专家）对博弈问题的求解就等同于完全理性的参与人对博弈问题的求解。

因此，可以采用内省式思维分析博弈问题的解。

考察战略式博弈的解。

假设参与人i （i =1,2r ,n）在博弈开始之前对博弈的结果进行预测，并且预测战略组合（s「,sj将成为博弈的结果。

现在的问题是：参与人i的这种预测是否一定就是博弈的真正结果？或者说参与人的预测在什么情况下才是正确的? 参与人i的预测战略组合（s「,s丄）将成为博弈结果，也就意味着参与人i 预测其他参与人的选择为S丄。

在预测其他参与人的选择为S」情况下，参与人i自己的选择S*怎样才是合理的呢？或者说参与人i选择S*应该满足什么样的条件呢？显然，对于理性的参与人i来讲，其选择S*必须满足这样的条件：在其他参与人的选择为S；的情况下，选择S出的所得必须不小于选择其他任何战略的所得，或者说S「必须是使自己的所得最大化的选择。

非完全信息动态博弈博弈论吉本斯.pptx

27
第28页/共59页
Example 1-厂商的分离均衡纯策略
•.
(保修,不保修)
(1,0.5) Y [1] 保修厂商不保修[0] Y (-1,1)
(0,0) N
H
[0.5]
N (0,0)
客户
自然
客户
(-1,-0.5)Y [0]
(0,0) N
保修
[0.5] L
不保修 [1] 厂商
Y (1,0.5) N (0,0)
19
第20页/共59页
Signaling game
• Sender和 Receiver 都有四个纯策略.
Sender的纯策略：
(m1,m1), (m1,m2), (m2,m1), (m2,m2)
(m1,m1), (m2,m2)：混同(pooling strategies)策略
(m1,m2), (m2,m1)：分离(separating strategies)策略
q1 1 1 q2
1
11
第12页/共59页
Requirement 4
• 要求 4. 对处于均衡路径之外的信息集, 推断由贝叶斯法则以及可能情况下的参与人的均衡策略给出. • 定义 .满足要求1到4的策略和推断构成博弈的完美贝叶斯均衡（perfect Bayesian equilibrium ）.
17
第18页/共59页
Signaling game
•图
a1
m1
S
m2
a1
a2
t1 [p]
a2
R
N
R
a1
[1-p] a1
t2
a2
m1 S
m2
a2

通过几个例子理解博弈论与纳什均衡

通过⼏个例⼦理解博弈论与纳什均衡2019/12/18更新，重新叙述⼀下智猪博弈2019/10/28更新，这⾥再举⼀个博弈论的经典例⼦，海盗分⾦问题。

喜欢玩德州扑克的⼈应该都听说过“GTO”这个词。

GTO，即 GameTheory Optimal，翻译成中⽂应该叫做“游戏理论最优化”。

直接翻译过来有点拗⼝，通俗⼀点的解释可以是：在游戏中，你可以采取⼀种最优策略，使得⾃⼰的损失最⼩，同时游戏中的对⼿也必须采取相对应的策略，否则只会扩⼤你的受益。

讲到GTO，就不得不提到博弈论中⾮常著名的⼀个理论：纳什均衡（Nash Equilibrium）。

该理论是由著名的经济学家，博弈论创始⼈，诺贝尔奖获得者约翰·纳什提出的，也就是电影《美丽⼼灵》的男主⾓原型。

该理论是说：在⾮合作类博弈中，存在⼀种策略组合，使得每个参与⼈的策略是对其他参与⼈策略的最优反应。

如果参与者当前选择的策略形成了“纳什均衡”，那么对于任何⼀位参与者来说，单⽅更改⾃⼰的策略不会带来任何好处。

约翰·纳什证明了在每个参与者都只有有限种策略选择，并允许混合策略的前提下，纳什均衡⼀定存在。

上边的解释还是有点拗⼝，这⾥通过⼏个例⼦，更直观的理解⼀下这个理论。

囚犯的困境假设有两个⼩偷A和B联⼿闯⼊民宅盗窃被抓，警⽅将两⼈置于不同的房间进⾏审讯，并给出如下政策：如果⼀个犯罪嫌疑⼈坦⽩并交出了赃物，两⼈都会被判有罪。

如果另⼀个犯罪嫌疑⼈也坦⽩，则两⼈各被判刑8年；如果另⼀个犯罪嫌⼈抵赖，再加刑2年，⽽坦⽩者有功，会被⽴即释放。

如果两⼈都抵赖，偷窃罪证据不⾜，但会因私⼊民宅⽽各判⼊狱1年。

即：表中的数字表⽰A，B各⾃的判刑结果。

博弈论分析中⼀般都⽤这样的表来表⽰。

此时有⼈会觉得双⽅都抵赖就好了，但问题是双⽅被隔离，都会怀疑对⽅会出卖⾃⼰以求⾃保。

两个⼈都会这么想：假如对⽅坦⽩，此时如果我抵赖得坐10年监狱，如果我坦⽩才坐8年监狱；假如对⽅抵赖，此时如果我也抵赖会被判1年，如果我坦⽩可以被释放。

博弈论(哈佛大学原版教程)

1
H
T
H
1,−1
−1,1
T
−1,1
1,−1
Fearing this what might the opponent do? One solution is to randomize and play a mixed strategy. Each player could ﬂip a coin and play H with probability 1 and T with probability 1 . 2 2 Note that each player cannot be taken advantage of. Deﬁnition 1 Let G be a game with strategy spaces S1 ,S2 ,..,SI . A mixed strategy σi for player i is a probability distribution on Si i.e. for Si ﬁnite a mixed strategy is a function σi : Si → + such that si ∈Si σi (si ) = 1. Several notations are commonly used for describing mixed strategies. 1. Function (measure): σ1 (H ) =
∗ ∗ ∗ ui σ i , σ− i ≥ ui σi , σ−i
for all i and all σi ∈ Σi .
3
Testing for MSNE
The deﬁnition of MSNE makes it cumbersome to check that a mixed proﬁle is a NE. The next result shows that it is suﬃcient to check against pure strategy alternatives. Proposition 1 σ ∗ is a Nash equilibrium if and only if

(完整word)耶鲁大学博弈论_精简版

第一讲导论—五个入门结论1。

通过成绩博弈模型可以知道，不选择严格劣势策略，因为每次博弈会得到更好的收益.2。

通过囚徒的困境博弈模型可以知道，理性选择导致次优的结果（协商难以达成目的的原因不是因为缺少沟通，而是没有强制力）。

3。

通过愤怒天使博弈模型可以知道，汝欲得之,必先知之；永远选择优势策略，选择非劣势策略，损失小，如果对手有优势策略则应以此作为选择策略的指导.4.如果想要赢，就应该站在别人的立场去分析他们会怎么做.第二讲学会换位思考1.构成博弈要素包括，参与人,参与人的策略以及收益.2。

所谓严格优势策略，就是指不论对方采取什么策略，采取的这个策略总比采取其他任何策略都好的策略。

3。

在博弈中剔出某些选择时需要站在别人的角度去思考结果,因为对手不会选择劣势策略；同时要考虑到对手也是一个理性的参与人。

4.在博弈中剔除某些选择是一种直接思考，同时也是作为一个理性参与人的选择。

第三讲迭代剔除和中位选民定理1。

在选民投票博弈模型中,通过不断地迭代以及剔除来决定策略，由此,我们得到了一种新的选择策略的方法：迭代剔除法。

2.选民投票博弈模型的结果与现实存在偏差，主要是因为：现实中选民并不是均匀分布的;选民通常根据候选人的性格而非政治立场来进行投票，而政治立场只是单一维度；只适用于只有两个候选人的情况;④同时存在弃权票；⑤选民未必相信候选人所声明的立场。

3.建立模型，是为了更好的描述事实以激发灵感，模型是有重要的事是抽象而来，逐步增加约束条件完善模型观察结果，比较分析结果的变化。

第四节足球比赛与商业合作之最佳对策1。

点球博弈模型告诉我们，不要选择一个在任何情况或信念下都不是最佳对策的策略。

2.最佳对策：参与人针对对手策略的定义：参与人i的策略s^i（简写成BR）是对手策略S—i的最佳对策，如果参与人i在对手的策略S-i下选S^i的收益弱优于其它对策Si`，这对参与人i的所有Si`都适用，则策略S^i是其它参与人策略S—i的最佳对策。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

June 23, 2003
73-347 Game Theory--Lecture 24
3
Static (or simultaneous-move) games of complete information
A set of players (at least two players) For each player, a set of strategies/actions Payoffs received by each player for the

Firm 1’s cost also depends on some other
(independent or dependent) factor that only firm 1 knows. Its cost can be
HIGH: cost function: C1(q1)=cHq1. LOW: cost function: C1(q1)=cLq1.
June 23, 2003 73-347 Game Theory--Lecture 24 9
Cournot duopoly model of incomplete information (version three) cont’d
Before production, firm 2 knows exactly its cost is HIGH or LOW. However, firm 2 cannot know exactly firm 1’s cost. Equivalently, it is uncertain about firm 1’s payoff. Firm 2 believes that if its cost is HIGH then firm 1’s cost function is C1 (q1 ) cH q1 with probability p2 (c1 cH | c2 cH ) , and C1 (q1 ) cL q1 with probability p2 (c1 cL | c2 cH ) . Firm 1 believes that if its cost is LOW then firm 2’s cost function is C1 (q1 ) cH q1 with probability p2 (c1 cH | c2 cL ) , and C1 (q1 ) cL q1 with probability p2 (c1 cL | c2 cL ) . Example: p2 (c1 cH | c2 cH ) p2 (c1 cH | c2 cL ) p2 (c1 cL | c2 cH ) p2 (c1 cL | c2 cL ) 1 as in version two.
Firm 2’s cost depends on some factor (e.g.
technology) that only firm 2 knows. Its cost can be
HIGH: cost function: C2(q2)=cHq2. LOW: cost function: C2(q2)=cLq2.
June 23, 2003
73-347 Game Theory--Lecture 24
2
Today’s Agenda
Review of previous class Cournot duopoly model of incomplete
information (version three) Normal-form (or strategic-form) representation of static Bayesian games Bayesian Nash equilibrium
June 23, 2003 73-347 Game Theory--Lecture 24 5
Cournot duopoly model of incomplete information (version three)
A homogeneous product is produced by only
June 23, 2003 73-347 Game Theory--Lecture 24 10
Cournot duopoly model of incomplete information (version three) cont’d
Firm 1 knows exactly its cost is high or low. If its cost is HIGH, i.e. C1 (q1 ) cH q1, then, given its belief on firm 2, it will solve u1(q1, q2(cH); cH)
p1 (c2 cH | c1 cH )[a 2 q1 q2 (cH ) cH ] p1 (c2 cL | c1 cH )[a 2 q1 q2 (cL ) cH ] 0
Hence,
q1(c H ) a cH p1 (c2 c H | c1 c H ) q2 (c H ) p1 (c2 c L | c1 c H ) q2 (cL ) 2
q1 (cH ) is firm 1's best response to its belief (probability) on firm 2's ( q2 (cH ) , q2 (cL ) ) if firm 1's cost is HIGH.
73-347 Game Theory--Lecture 24 11
Static (or SimultaneousMove) Games of Incomplete Information
Bayesian Nash Equilibrium
June 23, 2003
73-347 Game Theory--Lecture 24
1
Outline of Static Games of Incomplete Information
combinations of the strategies, or for each player, preferences over the combinations of the strategies
All these are common knowledge among
all the players.

June 23, 2003 73-347 Game Theory--Lecture 24 7
Cournot duopoly model of incomplete information (version three) cont’d
Firm 1's quantity depends on its cost. It chooses q1 (cH ) if its cost is HIGH q1 (cL ) if its cost is LOW Firm 2's quantity also depends on its cost. It chooses q2 (cH ) if its cost is HIGH q2 (cL ) if its cost is LOW
two firms: firm 1 and firm 2. The quantities are denoted by q1 and q2, respectively. They choose their quantities simultaneously. The market price: P(Q)=a-Q, where a is a constant number and Q=q1+q2.
June 23, 2003
Max s.t. p1 (c2 c H | c1 c H ) q1[a (q1 q2 (c H )) cH ] p1 (c2 c L | c1 c H ) q1[a (q1 q2 (cL )) cH ] q1 0
FOC:
u1(q1, q2(cL); cH)
All the above Βιβλιοθήκη re common knowledge
June 23, 2003
73-347 Game Theory--Lecture 24
6
Cournot duopoly model of incomplete information (version three) cont’d
June 23, 2003 73-347 Game Theory--Lecture 24 4
Static (or simultaneous-move) games of INCOMPLETE information
Payoffs are no longer common knowledge Incomplete information means that
Introduction to static games of incomplete
information Normal-form (or strategic-form) representation of static Bayesian games Bayesian Nash equilibrium Auction
June 23, 2003
73-347 Game Theory--Lecture 24
8
Cournot duopoly model of incomplete information (version three) cont’d
Before production, firm 1 knows exactly its cost is HIGH or LOW. However, firm 1 cannot know exactly firm 2’s cost. Equivalently, it is uncertain about firm 2’s payoff. Firm 1 believes that if its cost is HIGH then firm 2’s cost function is C2 (q2 ) cH q2 with probability p1 (c2 cH | c1 cH ) , and C2 (q2 ) cL q2 with probability p1 (c2 cL | c1 cH ) . Firm 1 believes that if its cost is LOW then firm 2’s cost function is C2 (q2 ) cH q2 with probability p1 (c2 cH | c1 cL ) , and C2 (q2 ) cL q2 with probability p1 (c2 cL | c1 cL ) . Example: p1 (c2 cH | c1 cH ) p1 (c2 cH | c1 cL ) p1 (c2 cL | c1 cH ) p1 (c2 cL | c1 cL ) 1 as in version two.