L(A)=2rc+1(1-r)(1-c) dL(A)/dr =3c-1=0 L(B)=rc+2(1-r)(1-c) dL(B)/dc =3r-2=0 r=2/3 c=1/3
A:(2/3,1/3),B:(1/3,2/3)是本博弈的 混合策略纳什均衡
完全信息动态博弈
参与人先后行动 每个参与人对每个参与人的得益具有完全信 息 博弈树 参与人的行动顺序(when to move,谁在 什么时候行动) 参与人的信息集(what known,每次行动 时参与人知道些什么)
Player B L,L
3 U, 5 Player A 2 D, 5
R,1-L
(1,2)
(0,5)
(0,4)
(3,2)
Player B L,L
3 U, 5 Player A 2 D, 5
R,1-L
(1,2)
(0,5)
(0,4)
(3,2)
如果A 选U,其期望收益为
1 L 0 (1 L ) L .
策略组合
策略组合:(s1,…,si,…,sn) ui=ui(s1,…,si,…sn) 一个参与人的支付不仅取决于自己的策略选择, 而且取决于其他参与人的策略选择 Max ui=ui(s1,…,si,…sn)
囚徒困境博弈的标准式表述
B
抵赖 坦白
抵赖
-1,-1 0,-10
-10,0 -8,-8
ui ( s ,...,s ) 0 si
* 1 * n
囚徒困境的纳什均衡
(坦白,坦白)构成本博弈的纳什均衡
抵赖
B
坦白
抵赖
-1,-1 0,-10
-10,0 -8 -8
A