- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
How to find a solution ?
Payoffs if Pat is happy with probability 0.5 Pat Opera 2 , 0 , 1 0 Prize Fight 0 , 1 , 0 2
Chris
Opera Prize Fight
Payoffs if Pat is unhappy with probability 0.5
himself and his preference is shown in the following table. Chris cannot figure out whether Pat is happy or not. But Chris believes that Pat is happy with probability 0.5 and unhappy with probability 0.5 海萨尼转换
G { A1 , , An ; T1 , , Tn , p1 , , pn ; u1 , , un }
静态贝叶斯博弈的标准型表达
一个 n 人静态贝叶斯博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; ai Ai 参与者的类型空间 T1 , , Tn ; ti Ti 参与者的推断 p1 , , pn ; pi pi (t i | ti ) 参与人的收益函数 u1 , , un , ui ( a1 , , an ; ti )
不完全信息的囚徒困境
给定囚徒1对囚徒2的推断,囚徒1应当选择什么战略呢? 如果囚徒2是理性的或者是利他主义的,他会选择什么
样的战略呢?
如果囚徒2是理性的,那 么收益 囚徒 1 不, -1 -9 认罪 -9 , 0 -6 , -6 囚徒 2 不认罪 -1 , -1 0 , -9 认罪 -9 , -4 -6 , -10
G { A1 , , An ; T1 , , Tn , p1 , , pn ; u1 , , un }
贝叶斯推断(Bayesian Inference)
贝叶斯公式
p(ti ti ) p(t-i , ti ) p(ti ) p(t-i , ti )
t i T i
p(t-i , ti )
静态贝叶斯博弈的标准型表达
一个 n 人静态贝叶斯博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; ai Ai 参与者的类型空间 T1 , , Tn ; ti Ti 参与者的推断 p1 , , pn ; pi pi (t i | ti ) 参与人的收益函数 u1 , , un , ui ( a1 , , an ; ti )
战略和战略集
战略是一套基于类型(Type)的选择规则,或者说是 函数si
ai = si(ti )
函数的定义域 ti ∈Ti;类型空间或者类型集。 函数的值域 ai ∈Ai;行动空间或者行动集。 函数关系 si 所在的集合Si 则是(纯)战略空间或者 战略集,代表了关于从ti到ai的所有各种可能的函数
G { A1 , , An ; T1 , , Tn , p1 , , pn ; u1 , , un }
海萨尼转换 (Harsanyi transformation)
静态贝叶斯博弈的标准型表达
海萨尼转换(Harsanyi Transformation) : 自然赋予参与者的类型向量: t (t1 , , tn ) 自然告知每个参与者 i 自己的类型 ti ,却不告知其 他参与者的类型; 每个参与者都在自己的可行集中选择 ai Ai , 构成 行动向量/行动组合 ( a1 , , an ) 每个参与者得到自己的收益 ui (a1 , , an ; ti )
Chris Opera Prize Fight
Pat
Opera 2 , 0 , 0 1 Prize Fight 0 , 1 , 2 0
17
Battle of the sexes with incomplete information (version one) cont’d
Best response If Chris chooses opera then Pat’s best response: opera if he is happy, and prize fight if he is unhappy Suppose that Pat chooses opera if he is happy, and prize fight if he is unhappy. What is Chris’ best 不知道i的类型 response? If Chris chooses opera then she get a payoff 2 if Pat 的博弈对手-i, is happy, or 0 if Pat is unhappy. Her expected payoff is 20.5+ 00.5=1 需要推算i在每 If Chris chooses prize fight then she get a payoff 0 if 一种可能的类型 Pat is happy, or 1 if Pat is unhappy. Her expected payoff is 00.5+ 10.5=0.5
关系的总和。
静态贝叶斯博弈:什么是战略
战略和战略集
从类型空间到行动空间上所有的一一对应关系构成 战略空间。
考虑到战略空间的复杂性,并且通常使用行动空间
即可刻画博弈,故而在静态贝叶斯博弈当中,我们 一般使用行动空间。 贝叶斯博弈的特点:不知道i的类型的博弈对手-i, 需要推算i在每一种可能的类型下的行动集。
Opera Chris Prize Fight
Opera
Prize Fight
2 ,
0 ,
1
0
0 ,
1 ,
0
2
15
Battle of the sexes with incomplete information (version one)
Now Pat’s preference depends on whether he is happy. If he is happy then his preference is the same. If he is unhappy then he prefers to spend the evening by
* ui (si* (t1 ),, si*1(ti 1), ai , si*1(ti 1), , sn (tn ); t) pi (ti ti )
亦即,没有参与者愿意改变自己的战略,即使这种
改变只涉及一种类型下的一个行动。
Battle of the sexes
At the separate workplaces, Chris and Pat must choose to
attend either an opera or a prize fight in the evening. Both Chris and Pat know the following:
Both
would like to spend the evening together. But Chris prefers the opera. Pat prefers the prize fight. Pat
-4, -9
-9, 0
-1,-1
静态贝叶斯博弈的标准型表达
海萨尼转换(Harsanyi Transformation) : 不完全信息变成了一个不完美信息,从而可以被正 式地讨论。
静态贝叶斯博弈的标准型表达
一个 n 人静态贝叶斯博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; ai Ai 参与者的类型空间 T1 , , Tn ; ti Ti 参与者的推断 p1 , , pn ; pi pi (t i | ti ) 参与人的收益函数 u1 , , un , ui ( a1 , , an ; ti )
Payoffs if Pat is unhappy
Chris Opera Prize Fight Pat Opera Prize Fight
2 , 0 ,
0 1
0 , 1 ,
2 0
16
Battle of the sexes with incomplete information (version one) cont’d
Static (or SimultaneousMove) Games of Incomplete Information-Lecture 4
Yongqin Wang, CCES, Fudan
完全信息静态博弈的标准型表达
一个 n 人完全信息静态博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; 参与人的收益函数 u1 , , un 。 我们用 G { A1 , , An ; u1 , , un } 来表示这一博弈
6
如果囚徒2是利他的,那 么收益 囚徒 1 不认罪 认罪
静态贝叶斯博弈的标准型表达
海萨尼转换 自然 P(理性) 囚徒2 认罪 不认罪 认罪 囚徒1 认罪 不认罪 认罪 不认罪 认罪 P(利他) 囚徒2 不认罪
囚徒1
认罪 不认罪
囚徒1
囚徒1
不认罪
-6, -6
0, -9
-9, 0
-1,-1
-10,-6
p(ti ti ) p(t-i , ti ) p(ti )
条件概率 联合概率 边缘概率 先验概率