混合策略纳什均衡

  • 格式:ppt
  • 大小:867.00 KB
  • 文档页数:47

下载文档原格式

  / 16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

思考
如何分析“不存在”纳什均衡 或存在多个纳什均衡的博弈?
第一节 混合策略与期望支付
一、混合策略 (一)案例:小偷与守卫的猫鼠博弈 守卫 睡 不睡 偷 8,-2 -2,0 小偷 0,8 0,0 不偷
小偷与守卫博弈
无纳什均衡,如何分析?
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 1.表述 参与人按照一定概率,随机从策略 组合中选择一种策略作为实际行动 随机行动的目的:使自己的行为不被 对手预测
二、研究方法:反应函数法
三、反应函数 2. Dela : Jim卖表的概率越小, Dela 剪发越好
UDel=2q(1-3p)+2p
1, ifp 1 / 3, 此时1 3p 0, q越大越好 q [0,1], ifp 1 / 3 0, ifp 1 / 3, 此时1 3p 0, q越小越好
第一节 混合策略与期望支付
二、期望支付 (二)数学刻画
1 ( p, q ) pi q j aij
i 1 j 1 m n
m
n
2( p, q ) pi q j bij
i 1 j 1
第一节 混合策略与期望支付
三、混合策略纳什均衡 给定策略式博弈G= {S1,…,Sn;u1,…,un}以及混合策略组 合p*=(p1*,…,pi*,…pn*) 对于所有i和pi∈∑i, ∑i——i的混合策 略空间 如果有:πi(pi*,p-i*)≥πi(pi’,p-i*) 则:混合策略组合p*=(p1*,…,pi*,…pn*) 为G的混合策略纳什均衡
二、研究方法:反应函数法
四、反应函数曲 线 p 1.交点(1,0) 1 双方支付为2 2.交点(0,1) 双方支付为2 1/3 3.交点(1/3,1/3) 双方支付为2/3
互相为对方着 想,期望支付 变小
1/3
q 1
作业
利用反应函数法求解“社会福利博弈” 是否需要调整数据? 可得出有关社会保障体系改革的结 论?
第三节多重纳什均衡的选择标准
二、风险优势标准:风险更小 (二)分析:偏离损失比较法 1.甲:单独偏离均衡的损失 (1)偏离“作弊”:9-8=1 (2)偏离“不作弊”:7-0=7
友军博弈
英 国 支持巴顿 支持蒙帅 支持巴顿 4,3 2,2 美国 1,1 3,4 支持蒙帅
友军博弈特征
两个(多个)纳什均衡 问题:博弈的最终结果?
第三章 混合策略纳什均衡
第三节 多重纳什均衡的选择 标准
第三节 多重纳什均衡的选择标准
一、帕累托优势标准:得益更大 (一)案例:战争与和平 C国 鹰战略 鸽战 略 -5,-5 8,-10 鹰战略 -10,8 10,10 A国 鸽战略
二、研究方法:反应函数法
三、反应函数 1.Jim:Dela剪发的概率越小,Jim卖 表越好
UJim=2p(1-3q)+2q
1, i来自百度文库q 1 / 3, 此时1 3q 0, p越大越好 p [0,1], ifq 1 / 3 0, ifq 1 / 3, 此时1 3q 0, p越小越好
第一节 混合策略与期望支付
二、期望支付 (一)分析 1.概率 (偷,睡)的概率:pq (偷,不睡)的概率:p(1-q) (不偷,睡)的概率:(1-p)q (不偷,不睡)的概率:(1-p)(1-q)
第一节 混合策略与期望支付
二、期望支付 (一)分析 2.期望支付 U小偷=8pq+(-2)p(1-q)+0(1-p)q+0(1p)(1-q)=2p(5q-1) U守卫= (-2) pq+0p(1-q)+8(1p)q+0(1-p)(1-q)=2q(4-5p)
混合策略纳什均衡
第一节 基本概念:混合策略 与期望支付
社会福利博弈:无纳什均衡
政府 流浪汉 寻找工作 游荡 救济 不救济
你救济,他就游 荡;你游荡,他 就不救济
3,2 -1,1
-1,3 0,0
社会福利博弈的特征
不存在纳什均衡 类似:父母与啃老族 回望:另一个不正常的博弈 情侣博弈——两个纳什均衡
第三节 多重纳什均衡的选择标准
一、帕累托优势标准:得益更大 (二)纳什均衡的选择标准 帕累托优势标准 按照支付大小筛选纳什均衡
-5,-5 -10,8 8,-10 10,10
第三节多重纳什均衡的选择标准
二、风险优势标准:风险更小? (一)案例:串通作弊博弈 帕累托优 学生乙 势? 作弊 不作弊 作弊 9,9 0,8 学生甲 8,0 7,7 不作弊
第二节 研究方法:反应函数法
——最佳反应函数曲线交叉法 一、案例:麦琪的礼物 Dela 剪发q 保留(1-q) 卖表p -2,-2 2,2 Jim 2,2 0,0 保留(1-p)
二、研究方法:反应函数法
二、期望支付 1.UJim=(-2)pq+2p(1-q)+2(1-p)q+0(1p)(1-q)=2p(1-3q)+2q 整理原则:一项含p,一项不含p 2.UDel=(-2)pq+2p(1-q)+2(1-p)q+0(1p)(1-q)=2q(1-3p)+2p 整理原则:一项含q,一项不含q
混合策略
小偷的混合策略 以p的概率偷,(p,1-p) 守卫的混合策略 以q的概率睡(q,1-q)
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 2.相对概念:纯策略 每个参与人的非随机性选择 纯粹行动计划,p=100%,1-p=0
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 3.数学刻画 给定博弈G={S1,…,Sn;u1,…,un}以及参 与人i的纯策略Si= {si1,…,sik} 概率分布pi=(pi1,…,pik)为混合策略 其中:0≤ pik ≤1,∑ pik=1, pik=p( sik ) 混合策略组合p=(p1,…,pi,…pn)