博弈论-第一章
- 格式:ppt
- 大小:49.50 KB
- 文档页数:10
1 完全信息静态博弈1.0 对策论研究的内容与基本形式对策论研究的内容对策论研究多个行为主体的决策问题。
对策论研究的形式博弈(game),由多个行为主体构成的系统。
例Stackelberg modelCournot model博弈的类型参与者行动的时间与顺序同时行动——静态博弈;先后行动——动态博弈。
参与者的信息多少信息相同——完全信息;信息不同——不完全信息。
1.1 基本理论: 博弈的标准式和纳什均衡例1 儿童游戏:“石头、剪刀、布”。
博弈的标准式表示(normal-form representation)(1) 参与人( player).n 个参与人:1, 2, …, i, …, n.(2) 战略(strategy).一个参与人的战略是他采取的一个行动。
参与人i 的战略:s i.参与人i 的战略空间: S i.战略的一个组合: s ={s1,s2, …, s n}.简化表示:s-i ={ s1,…, s i -1,s i+1, …, s n }.(3) 收益(payoff).参与人i 的收益:u i= u i(s1,s2, …, s n)n个参与人博弈的标准形式表示:G = {S1, S2, …, S n;u1, u2, … , u n}完全信息(complete information):每个参与人知道其他人的战略空间和收益。
静态博弈(static game):所有的参与人同时行动。
每个人行动时,不知道其他人的行动。
例1(续):博弈{石头、剪刀、布} 的描述:参与人:1,2。
战略空间:S1 = S2 = {石头、剪刀、布}收益:两人出手的函数u1 (石头,石头) = 0,u1 (石头,剪刀) = 1,u1 (石头,布) = -1 …u2 (石头,石头) = 0,u2 (石头,剪刀) = -1,u2 (石头,布) = 1 ……收益表:两个参与人,有限个战略的博弈的表示方法。
P2石头剪刀布石头0 ,0 1 ,-1 -1 ,1P1剪刀-1 ,1 0 ,0 1 ,-1布 1 ,-1 -1 ,1 0 ,0博弈的问题:能否知道每个参与人选择的战略?例2: 囚徒困境(The Prisoner’s Dilemma)囚徒 2沉默招认沉默-1 ,-1 -9 ,0囚徒 1招认0 ,-9 -6 ,-6囚徒1的考虑:无论对方选沉默还是招认,自己选“招认”好于“沉默”。
博弈论前四章笔记整理第一章:博弈论基础概念。
- 博弈的定义与要素。
- 博弈是指在一定的规则下,多个参与者(至少两个)进行策略选择并得到相应结果(收益)的过程。
- 要素包括参与者(局中人)、策略(每个参与者可选择的行动方案)、收益(每个参与者在不同策略组合下的所得)。
例如在“囚徒困境”中,两个囚犯是参与者,坦白或不坦白是他们的策略,不同策略组合下的刑期长短就是收益。
- 博弈的分类。
- 按参与者数量可分为两人博弈和多人博弈。
- 按策略空间是否有限分为有限博弈和无限博弈。
如猜硬币是有限博弈(正面或反面两种策略),企业的产量竞争(产量可在一定范围内连续取值)可能是无限博弈。
- 按收益情况分为零和博弈(一方的收益就是另一方的损失,总和为零,如赌博)、常和博弈(收益总和为常数)和非零和博弈(收益总和不为零,如企业合作共同开拓市场,双方都可能获利)。
第二章:完全信息静态博弈。
- 策略式表述(标准式表述)- 通常用一个矩阵来表示,行代表一个参与者的策略,列代表另一个参与者的策略,矩阵中的元素是对应的收益组合。
以“性别战”为例,丈夫和妻子选择看电影或看球赛,就可以构建一个2×2的收益矩阵。
- 占优策略均衡。
- 占优策略是指无论其他参与者选择什么策略,该策略都是某个参与者的最优策略。
如果每个参与者都有占优策略,那么由这些占优策略组成的策略组合就是占优策略均衡。
例如在“囚徒困境”中,每个囚徒的占优策略都是坦白,所以(坦白,坦白)是占优策略均衡。
- 纳什均衡。
- 纳什均衡是指在一个策略组合中,每个参与者的策略都是对其他参与者策略的最优反应。
即给定其他参与者的策略,没有参与者有动机单方面改变自己的策略。
与占优策略均衡不同,纳什均衡并不要求每个参与者都有占优策略。
例如在“性别战”中,(看电影,看电影)和(看球赛,看球赛)都是纳什均衡。
第三章:完全信息动态博弈。
- 扩展式表述。
- 包括博弈树的构建,节点表示参与者的决策点,树枝表示可选择的策略,终端节点表示博弈的结果并标有相应的收益。
第一章博弈论的发展一、博弈论的由来博弈论是一门年轻的学科,起源于本世纪初,在二战后发展成为一门完整而丰富的理论体系。
其中博弈译自英文的Game,字面意义可直译为游戏,我国学术界的另一种译法是博弈。
从名称上可以体会到博弈论的来源。
如同概率论来自对掷色子,彩票等随机性行为的观察和研究(概率论的起源有一个故事,两个人为一笔奖金而打赌,约定谁先赢到一定局数就获得全部奖金,但因故没有赌完,各自赢得一定局数,于是请数学家裁定每个人应该得到多少,数学家分析了各自获得最终胜利的概率,应按比例进行分配),博弈论起源于对国际象棋,扑克等竞赛活动的认识。
这也许可以说体现了西方精神与东方精神的差别,在中国人不屑深究其内在意义的地方西方人发展起了一种科学。
一旦以严肃认真的科学态度去分析游戏,它的思想成果即刻就超越了它原来的研究对象,博弈论的对象很快扩展为广泛存在于人类生活各个方面的人与人之间利益相互制约下进行策略选择时的理性行为及相应结局。
豪尔绍尼在诺贝尔获奖辞中是这样定义博弈论的:“博弈论是关于策略相互作用的理论,就是说,它是关于社会形势中理性行为的理论,其中,每个局中人对自己行动的选择必须以他对其他局中人将如何反应的判断为基础”。
简言之,博弈论研究人与人之间“斗智”的形式和后果。
当人们的利益存在着冲突时,每个人所获得的利益不仅取决于自己所采取的行动,也取决于其他人同时采取的行动或者对自己行动的反应。
例如,我国人们喝酒时有猜拳的习气,一个人是否被罚一杯不仅取决于自己伸出的手指数目与说出的数字,还取决于对手的选择。
由于人与人之间利益存在磨擦的情况出现于几乎所有的人类活动中,博弈论即具有了广阔的用武之地。
值得注意的是,博弈论研究的目的并非帮助特定一方胜券在握,而是描述在这种形势中各方理性选择自己的行动会达成的结果。
由于它研究人们决策相互影响的形势,国内为了突出它博弈略的强调,常常将其译为学术气氛更浓的博弈论。
博弈论这种译法来自于港台,由于它更贴近英语原文的风格以及更为直观,现下逐渐流行起来。
问题1:假如你正考虑是否投资100万元开设一家饭店。
假设情况是这样的:你决定开,则0.35的概率你将收益300万元(包括投资),而0.65的概率你将全部亏掉;如果你不开,则你能保住本钱但也不会有利润。
请你:(1)用得益矩阵和扩展形式表示该博弈。
(2)如果你是风险中性的,你会怎样选择?(3)如果成功的概率降到0.3,你怎样选择?(4)如果你是风险规避的,且期望得益的折扣系数为0.9,你的策略选择是什么?(5)如果你是风险偏好的,期望得益系数为1.2,你的选择又是什么?问题2:一逃犯从关押他的监狱中逃走,一看守奉命追捕。
如果逃犯逃跑有两条可选择的路线,看守只要追捕方向正确就一定能抓住罪犯。
逃犯逃脱可少坐10年牢,但一旦被抓住则要加刑10年;看守抓住逃犯能得1000元奖金。
请分别用得益矩阵和扩展型表示该博弈,并作简单分析。
(赌胜博弈)问题3:一个工人给一个老板干活,工资标准是100元。
工人可以选择是否偷懒,老板则选择是否克扣工资。
假设工人不偷懒有相当于50元的负效用,老板想克扣工资则总有借口扣掉60元的工资,工人不偷懒老板有150元的产出,而工人偷懒时老板只有80元的产出,但老板在支付工资之前无法知道实际产出,这些情况双方都是知道的。
请问:(1)如果老板完全能够看出工人是否偷懒,博弈属于哪种类型?用得益矩阵或扩展型表示该博弈并作简单分析。
(2)如果老板无法看出工人是否偷懒,博弈属于哪种类型?用得益矩阵或扩展型表示并作简单分析。
参考答案1.得益矩阵扩展型(2)100105065.030035.0>=⨯+⨯,结论:开(3)1009007.03003.0<=⨯+⨯,结论:不开(4)1005.94)065.030035.0(9.0<=⨯+⨯,结论:不开(5)100126)065.030035.0(2.1>=⨯+⨯,结论:开100108)07.03003.0(2.1>=⨯+⨯,结论:开2.扩展型两博弈方的计量单位不同,无法判定是否为常和博弈,但肯定不是零和博弈。
《博弈⼊门》第⼀章引论本书推荐的的阅读计划1.1 何为博弈论 博弈论旨在帮助我们理解决策者互动的情形。
与其他科学⼀样,博弈论也是由模型的集合所组成。
模型是我们⽤来理解所见所历的⼀种抽象。
我们不能⽤绝对的标准来衡量模型;模型既不是“对的”,也不是“错的”。
模型是否有⽤,从某种程度上来说,取决于运⽤模型的⽬的。
博弈论模型是对可以⽤语⾔来表达的思想的精确描述。
博弈论的建模以决策者之间互动⾏为的某⼀⽅⾯有关的思想作为起点。
我们在模型中准确表达这个起点,并加⼊相关信息。
1.2 理性选择理论 理性选择理论是博弈论中许多模型的构成部分。
简⽽⾔之,该理论是指决策者根据⾃⼰的偏好,在所有可选⽅案中跳出最佳⾏为。
决策者的偏好不受质的限制;当⾯对⼀系列不同的可选⾏为时,她的“理性”在于她决策上的⼀致性,⽽不是她喜欢什么和不喜欢什么。
1.2.1 ⾏动 理论所基于的模型由两个部分组成:集合A包括在某些情况下⼀系列可供决策者选择的⾏动,以及决策者的特定偏好。
在任何⼀种特定情况下,决策者⾯对⼀⼀个A的⼦集合,从中选取⼀个集合元素。
决策者了解可选项的⼦集合,认为是可选的;尤其是,这个⼦集不受决策者偏好的影响。
1.2.2 偏好和盈利函数我们如何描述决策者的偏好呢?⼀种⽅式是对每⼀个可能的“⾏动对”,指定决策者喜欢的⾏动,或者表明决策者在两个“⾏动对”之间觉得⽆所谓。
另外,我们可以⽤盈利函数来“描述"偏好,每个⾏动以如下的⽅式与⼀个数字相连,数字⼤的⾏动更受到偏爱。
更进⼀步地讲,决策者偏好可以⽤如下盈利函数u来描述,如果对A中的⾏动a和⾏动b,有:u(a)>u(b),当且仅当决策者喜欢a甚于b (1.1)(“偏好显⽰性函数”这个名称可能⽐盈利函数更为恰当。
在经济理论中,描述消费者偏好的盈利函数常被称为“效⽤函数”。
)习题是笔者按照理解做的,如有问题,欢迎探讨。
设对⾃⼰收⼊为1,对⼩明收⼊为2的偏好为A,则 u(1,4)=A+2A=3A, u(2,1)=2A+0.5A=2.5A , u(3,0)=3A偏好顺序 u(1,4)= u(3,0)>u(2,1)能⽤满⾜v(a)=-1,v(b)==0,v(c)=4的盈利函数v来描述。