(数学建模教材)7第七章对策论
- 格式:docx
- 大小:75.47 KB
- 文档页数:13
对策论讲义对策论【教学内容】对策论的基本概念,纳什均衡,矩阵对策,二人的无限零和对策,有限的二人非零和对策,n人合作型对策与n人合作型对策。
【教学要求】要求学生理解对策论的基本概念,掌握矩阵对策的求解方法;理解纳什均衡的概念及相应的求解方法、理解二人的无限零和对策及有限的二人非零和对策问题,了解n人合作型对策与n人合作型对策。
【教学重点】对策论的基本概念、矩阵对策及求解、纳什均衡与求解、二人的无限零和对策,有限的二人非零和对策。
【教学难点】建立对策的模型求解。
【教材内容及教学过程】对策论来自于生活。
简单的问题如游戏,决策者的策略对最终结果有着举足轻重的影响,但决策者的策略选择也要考虑其它策略者的策略选择,现实生活中一个坏的策略选择未必带来坏的结果(原因是他方选择了对自己不利,对前者有利的策略),对策论的研究中排除了对方犯错误的可能性,每个决策者都在考虑到他方的各种策略后,选择对自己最有利的策略。
对策论解决的问题大的象经济生活中的经营决策、市场竞争,政治、军事活动中的竞选、谈判、联合和战争等,从这点来说对策论大有用武之地。
本章先介绍了对策论的基本概念,然后通过例子介绍了纳什均衡的概念及求解方法,重点介绍了二人零和对策(矩阵对策)与求解,接着介绍二人的无限零和对策、有限的二人非零和对策。
最后介绍n人合作型对策与n人合作型对策,目的是让学生通过本章学习,对其基本方法有所掌握与了解,为以后的实际应用打好基础。
i.§1.1 对策的三要素第一节引言从前述可看出对策论是研究具有斗争或竞争性质现象的数学理论和方法。
根据不同性质的问题,可建立不同的对策模型。
尽管对策模型的种类可以千差万别,但本质上都必须包含3个基本要素:1.局中人局中人即在一个对策行为中,有权决定自己行动方案的对策参加者。
通常用I表示局中- 1 -人的集合,如果有n个局中人,则I=?1,2,3,…n两个局中人。
?。
一般要求一个对策中至少要有对策中关于局中人的概念是广义的。
LF2011080006对策论的浅谈河北省廊坊市管道局中学初二(1)班乔子涵指导老师:苏秀珍摘要:对策论是现代数学的一个重要分支,在军事、公安、经济和日常生活各个方面,都很有用处。
以解决一个侦查员跟踪间谍的事件做切入点,将“石头剪子布”游戏作为数学模型,引入表上游戏与混合策略,利用数学方法解决实际的对策论问题。
关键词:对策论;表上游戏;混合策略。
一、问题的提出侦查员小王接到命令,去跟踪一个重要的间谍“熊”。
现在,“熊”在一间密室里和另外两个间谍碰头。
小王只知道“熊”是3个人中最高的一个,但是无法看到他们3个人碰头的情况,因而也不知道3个人中哪个身材最高。
小王只能在门口等待他们出来。
他想:这三个间谍如果不一块出来,可能最先出来的是“熊”,也可能最后出来的是“熊”,也可能中间那一个是“熊”,我应该跟踪哪一个呢?3个间谍在密室里也考虑呢,为了防备外面有人盯梢,谁先出去好呢?这就是一个对策论的问题。
对策论是现代数学的一个重要分支,在军事、公安、经济和日常生活各个方面,都很有用处。
由于对策论经常用智力游戏——打扑克、下棋等做模型,所以又叫博弈论。
博就是赌博,弈就是下棋。
其实,赌博如果去掉输赢财物的规定,就是智力游戏。
一般的对策问题都是这样:双方各有一些可以采取的策略,一旦双方的策略都确定了,就会出现一定的结果,问题是双方怎样找到最好的策略?二、问题的分析与建模我们平时玩的“石头、剪子、布”手势游戏,就可以作为对策论的一个例子:在这个问题里,甲和乙各有3种可以采取的策略。
结果如何?我们列出一个输赢表来。
这是甲的得分表。
“0”表示平局,“-1”表示输,“1”表示赢。
我们把对策论问题列成这样的表,就成了“表上游戏”。
这种表是由若干行和若干列数字组成。
甲可以指定其中的某一横行,乙可以指定其中的某一直行。
规定他们同时说出他们指定的横行和直行。
在这两行的交叉点上的数,就是甲得到的分数。
例如在这个表格里:0 1 -1-1 0-1 1 01如果甲指定第一横行,乙指定第一直行,甲就得到0分,也就是说平局。
·实验5 对策论一、实验目的1、了解对策论建模的方法和模型的算法;2、了解带线性规划的基本原理和解法;3、掌握Matlab 优化工具箱求解线性规划的基本用法;二、实验要求掌握对策论建模的方法以及如何用MATLAB 去实现;能够掌握Matlab 优化工具箱中linprog 的基本用法,能够对控制参数进行设置,能够对不同算法进行选择和比较。
三、实验内容1.主要命令和注意事项线性规划模型:min z=cX..s t AX b £Aeq Xbeq ?VLB ≤X ≤VUB在Matlab 中可通过linprog 函数来实现,其调用形式为:[1] x=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB ) [2] x=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB, X 0)[3] [x,fval,exitflag,output,lambda]=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB, X 0,options )返回最优解x及x处的目标函数值fval. 注意:[1] 若没有等式约束:Aeq X beq ?, 则令Aeq=[ ], beq=[ ].[2]其中X 0表示初始点例 max 1234560.40.280.320.720.640.6z x x x x x x =+++++123456..0.010.010.010.030.030.03850s t x x x x x x +++++ 140.020.05700x x + 250.020.05100x x + 360.030.08900x x +1,2,6j x j ?解 编写M 文件如下:c=[-0.4 -0.28 -0.32 -0.72 -0.64 -0.6];A=[0.01 0.01 0.01 0.03 0.03 0.03;0.02 0 0 0.05 0 0;0 0.02 0 0 0.05 0;0 0 0.03 0 0 0.08];b=[850;700;100;900];Aeq=[]; beq=[];vlb=[0;0;0;0;0;0]; vub=[];[x,fval]=linprog(c,A,b,Aeq,beq,vlb,vub)2.实验内容(1)求解线性规划123min 542z x x x =-++ 123.. 68s t x x x -+123 2410x x x ++ 1 -13x # 202x #30x ³.(2)求解线性规划12max 64z x x =+ 12.. 23100s t x x + 12 42120x x + 12,0x x ³.(3)P94 ex6安徽师范大学数计 学院实验报告专业名称数学与应用数学实验室2号实验楼#201 实验课程Matlab实验名称对策论姓名张顺强学号100701185同组人员无实验日期2013.4.10。
对策型决策当决策系统中的自然状态是由竞争对手的策略(行动方案)决定的时候,这种情况下的决策就构成了对策型决策。
与上不同的是此时的自然状态的出现是由人决定的,甚至是比你聪明的对手出的招数。
对策论是研究对策型决策的数学学科,即在不完全知道对方行动或意图的条件下构建和研究的数学决策模型。
对策论(Game Theory)又称为博弈论,是研究带有竞争与对抗问题的理论与方法。
在现实生活中,我们常常看到双方对抗、竞争的现象,例如从日常生活中的下棋、游戏到政治、军事上的斗争,以及经济领域各个企业的相互竞争,均属此类现象。
最著名的例子是田忌赛马和乒乓球团体赛队员出场名单及出场顺序。
在有对抗性和竞争性现象中,斗争的各方总是希望自己一方最终取得胜利或获的尽可能好的结局。
但是总会遭遇对方的干扰、破坏、抵抗或进攻。
在这种情况下人们想获得尽可能好的结局,必须考虑对手可能怎样采取策略,从而选取自己的一个好的对付策略。
对策型决策的三要素:1局中人:具有决策权的双方(或多方)称为局中人。
如棋局中的对弈双方,战争中敌我双方的司令员等。
2 策略:是指决策者为了战胜对手所可能选择的行动方案。
所有策略一起构成一个策略集。
每个局中人各有一个策略集。
3 局势和支付函数:在对策型决策问题中,每一个局中人从各自的策略集中任取一个策略,组成的策略组称为一个局势。
局势直接导致的结果是局中人是失败还是成功,对它的定量表述在一般经济问题中称为支付函数。
支付函数是以局势为自变量,以局中人的得失为因变量的函数。
我们下面主要讨论零和对策和矩阵决策。
所谓零和决策是指:若在任意局势中,全体局中人的得与失相加等于零,这种决策称为零和决策。
又当只有两个局中人且他们的策略集均是有限集时,支付函数可用矩阵表示,称此时的零和对策为矩阵决策。
矩阵对策及其数学模型:局中人Ⅰ的m个纯策略S1={α1,α2,…αm}。
局中人Ⅱ的n个纯策略S2={β1,β2,…βn}。
支付矩阵:A=(aij )m*n称为局中人Ⅰ的赢得矩阵(或局中人Ⅱ的损失矩阵),即aij 表示在局势(αi,βj)的情况下局中人Ⅰ赢得的值(等于局中人Ⅱ损失值)。
第七章 对策论§1 引言社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾,应用科学的方法来 解决这样的问题开始于 17 世纪的科学家,如 C.,Huygens 和 W.,Leibnitz 等。
现代对 策论起源于 1944 年 J.,V on Neumann 和 O.,Morgenstern 的著作《Theory of Games and Economic Behavior 》。
对策论亦称竞赛论或博弈论。
是研究具有斗争或竞争性质现象的数学理论和方法。
一般认为,它既是现代数学的一个新分支,也是运筹学中的一个重要学科。
对策论发展 的历史并不长,但由于它所研究的现象与人们的政治、经济、军事活动乃至一般的日常 生活等有着密切的联系,并且处理问题的方法又有明显特色。
所以日益引起广泛的注意。
在日常生活中,经常看到一些具有相互之间斗争或竞争性质的行为。
具有竞争或对 抗性质的行为称为对策行为。
在这类行为中。
参加斗争或竞争的各方各自具有不同的目 标和利益。
为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并 力图选取对自己最为有利或最为合理的方案。
对策论就是研究对策行为中斗争各方是否 存在着最合理的行动方案,以及如何找到这个合理的行动方案的数学理论和方法。
§2 对策问题对策问题的特征是参与者为利益相互冲突的各方,其结局不取决于其中任意一方的 努力而是各方所采取的策略的综合结果。
先考察一个实际例子。
例 1(囚徒的困境) 警察同时逮捕了两人并分开关押,逮捕的原因是他们持有大 量伪币,警方怀疑他们伪造钱币,但没有找到充分证据,希望他们能自己供认,这两个 人都知道:如果他们双方都不供认,将被以持有大量伪币罪被各判刑 18 个月;如果双 方都供认伪造了钱币,将各被判刑 3 年;如果一方供认另一方不供认,则供认方将被从 宽处理而免刑,但另一方面将被判刑 7 年。
将嫌疑犯 A 、 B 被判刑的几种可能情况列 于表 1。
表 1表 1 中每对数字表示嫌疑犯 A 、B 被判刑的年数。
如果两名疑犯均担心对方供认并希 望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。
从这一简单实例中可以看出对策现象中包含有的几个基本要素。
2.1 对策的基本要素(i )局中人 在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者,称为局 中人。
通常用 I 表示局中人的集合.如果有 n 个局中人,则 I = {1,2,L , n }。
一般要求 一个对策中至少要有两个局中人。
在例 1 中,局中人是 A 、B 两名疑犯。
(ii )策略集 一局对策中,可供局中人选择的一个实际可行的完整的行动方案称为一个策略。
参 加对策的每一局中人 i , i ∈ I ,都有自己的策略集 S i 。
一般,每一局中人的策略集中 至少应包括两个策略。
-154-嫌疑犯 B供认不供认 嫌疑犯 A供认不供认(3,3) (0,7) (7,0) (1.5,1.5)(iii )赢得函数(支付函数)在一局对策中,各局中人所选定的策略形成的策略组称为一个局势,即若 s i 是第 i 个局中人的一个策略,则 n 个局中人的策略组s = (s 1 , s 2 ,L , s n )就是一个局势。
全体局势的集合 S 可用各局中人策略集的笛卡尔积表示,即S = S 1 ⨯ S 2 ⨯L ⨯ S n当局势出现后,对策的结果也就确定了。
也就是说,对任一局势, s ∈ S ,局中人 i 可以得到一个赢得 H i (s ) 。
显然, H i (s ) 是局势 s 的函数,称之为第 i 个局中人的赢 得函数。
这样,就得到一个向量赢得函数 H (s ) = (H 1 (s ),L , H n (s )) 。
本节我们只讨论有两名局中人的对策问题,其结果可以推广到一般的对策模型中 去。
2.2 零和对策(矩阵对策) 零和对策是一类特殊的对策问题。
在这类对策中,只有两名局中人,每个局中人都只有有限个策略可供选择。
在任一纯局势下,两个局中人的赢得之和总是等于零,即双 方的利益是激烈对抗的。
设局中人Ⅰ、Ⅱ的策略集分别为 S 1 = {α1 ,L ,αm }, S 2 = {β1 ,L , βn } 当局中人Ⅰ选定策略αi 和局中人Ⅱ选定策略 β j 后,就形成了一个局势 (αi , β j ) ,可见 这样的局势共有 mn 个。
对任一局势 (αi , β j ) ,记局中人Ⅰ的赢得值为 a ij ,并称ϒ a 11 'a a 12 a 1n / LL L L∞ a a A = ' 2n ∞ 2122' L ≤a m 1L ∞ a mn ƒL a m 2 ' ∞ 为局中人Ⅰ的赢得矩阵(或为局中人Ⅱ的支付矩阵)。
由于假定对策为零和的,故局中 人Ⅱ的赢得矩阵就是 - A 。
当局中人Ⅰ、Ⅱ和策略集 S 1 、 S 2 及局中人Ⅰ的赢得矩阵 A 确定后,一个零和对策 就给定了,零和对策又可称为矩阵对策并可简记成G = {S 1 , S 2 ; A } 。
例 2设有一矩阵对策 G = {S 1 , S 2 ; A } ,其 中 S 1 = {α1 ,α2 ,α3} ,S 2 = {β1 , β2 , β3 , β4 } ,ϒ 12 - 6 2 0 30 18 - 10- 22/ ∞ A = ' 14 10 ''≤- 6 ∞ 16 ∞ƒ从 A 中可以看出,若局中人Ⅰ希望获得最大赢利 30,需采取策略α1 ,但此时若局中人Ⅱ采取策略 β4 ,局中人Ⅰ非但得不到 30,反而会失去 22。
为了稳妥,双方都应考 虑到对方有使自己损失最大的动机,在最坏的可能中争取最好的结果,局中人Ⅰ采取策 略α1、α2、α3 时,最坏的赢得结果分别为-155-min{12,-6,30,-22} = -22 min{14,2,18,10} = 2 min{-6,0,-10,16} = -10其中最好的可能为 max{-22,2,-10} = 2 。
如果局中人Ⅰ采取策略 α2 ,无论局中人Ⅱ采取什么策略,局中人Ⅰ的赢得均不会少于 2。
局中人Ⅱ采取各方案的最大损失为 max{12,14,-6} = 14 , max{-6,2,0} = 2 ,max{30,18,-10} = 30 ,和 max{-22,10,16} = 16 。
当局中人Ⅱ采取策略 β2 时,其损失不会超过 2。
注意到在赢得矩阵中,2 既是所在行中的最小元素又是所在列中的最大 元素。
此时,只要对方不改变策略,任一局中人都不可能通过变换策略来增大赢得或减 少损失,称这样的局势为对策的一个稳定点或稳定解。
定义 1 设 f ( x , y ) 为一个定义在 x ∈ A 及 y ∈ B 上的实值函数,如果存在 x *∈ A ,y *∈ B ,使得对一切 x ∈ A 和 y ∈ B ,有f ( x , y *) ≤ f ( x *, y *) ≤ f ( x *, y )则称 ( x *, y *) 为函数 f 的一个鞍点。
定义 2 设 G = {S 1 , S 2 ; A } 为矩阵 对策,其 中 S 1 = {α1 ,α2 ,L ,αm } , S 2 = {β1 , β2 ,L , βn }, A = (a ij )m ⨯n 。
若等式max min a ij = min max a ij = a i * j *(1)i j j i成立,记V G = a i * j * ,则称V G 为对策 G 的值,称使(1)式成立的纯局势 (αi * , β j * )为对策 G 的鞍点或稳定解,赢得矩阵中与 (αi * , β j * ) 相对应的元素 a i * j * 称为赢得矩阵的鞍 点,αi * 与 β j * 分别称为局中人Ⅰ与Ⅱ的最优纯策略。
给定一个对策 G ,如何判断它是否具有鞍点呢?为了回答这一问题,先引入下面定理 1 设 G = {S 1, S 2 ; A } ,记 μ = max min a ij , ν = - min max a ij ,则必有ijjiμ +ν ≤ 0 。
证明 ν = max min(-a ij ) ,易见 μ 为Ⅰ的最小赢得,ν 为Ⅱ的最小赢得,由于 G j i是零和对策,故 μ +ν ≤ 0 必成立。
定理 2 零和对策 G 具有稳定解的充要条件为 μ +ν = 0 。
证明:(充分性)由 μ 和ν 的定义可知,存在一行例如 p 行,μ 为 p 行中的最小元 素,且存在一列例如 q 列, -ν 为 q 列中的最大元素。
故有a pq ≥ μ 且 a pq ≤ -ν又因 μ +ν = 0 ,所以 μ = -ν ,从而得出 a pq = μ , a pq 为赢得矩阵的鞍点,(α p , βq ) 为 G 的稳定解。
(必要性)若 G 具有稳定解 (α p , βq ) ,则 a pq 为赢得矩阵的鞍点。
故有μ = max min ≥ min = a pqa ij a pj i jj -ν = min max ≤ max = a pq a ij a iq j i i-156-从而可得 μ +ν ≥ 0 ,但根据定理 1, μ +ν ≤ 0 必成立,故必有 μ +ν = 0 。
上述定理给出了对策问题有稳定解(简称为解)的充要条件。
当对策问题有解时, 其解可以不唯一,当解不唯一时,解之间的关系具有下面两条性质:性质 1 无差别性。
即若 (α , β ) 与 (α , β ) 是对策G 的两个解, 则必有 i 1 j 1 i 2 j 2 a i j 1 1 = a i j 。
2 2性质 2 可交换性。
即若 (α , β ) 和 (α , β ) 是对策 G 的两个解,则 (α , β ) 和i 1 j 1 i 2 j 2 i 1 j 2 (α , β ) 也是解。
i 2 j 1 §3 零和对策的混合策略具有稳定解的零和问题是一类特别简单的对策问题,它所对应的赢得矩阵存在鞍 点,任一局中人都不可能通过自己单方面的努力来改进结果。
然而,在实际遇到的零和 对策中更典型的是 μ +ν ≠ 0 的情况。
由于赢得矩阵中不存在鞍点,此时在只使用纯策 略的范围内,对策问题无解。
下面我们引进零和对策的混合策略。
设局中人Ⅰ用概率 x i 选用策略 αi ,局中人Ⅱ用概率 y j 选用策略 β j ,m∑ x i n= ∑ y j= 1 ,记 x = (x 1,L , x ) , y = ( y 1,L , y n)TT,则局中人Ⅰ的期望赢得为mi =1j =1E (x , y ) = x T Ay 。
记**S :策略α1 ,L ,αmS :策略β1 ,L , βn1 2 x 1 ,L , x my 1 ,L , y n概率 概率分别称 S *与S *为局中人Ⅰ和Ⅱ的混合策略。