马氏决策规划简介上课讲义
- 格式:ppt
- 大小:764.00 KB
- 文档页数:20
人教版高中选修(B版)4-9第六讲马尔可夫型决策课程设计介绍本文档是一篇课程设计,主要介绍了人教版高中选修(B版)4-9第六讲中,马尔可夫型决策相关知识的课程设计方案。
本课程设计主要面向高中生,并使用Markdown文本格式输出。
基本知识马尔可夫型过程是指一个随机过程,在此过程中,状态的转移概率不受时间的影响,只与当前状态有关。
马尔可夫型决策是一种以获得最好效果为目标的决策过程,主要用于研究不确定情况下的决策问题。
课程设计目标本课程设计的主要目标是让学生掌握马尔可夫型决策的基本原理和应用方法,能够理解并运用相关知识解决现实问题。
同时,通过课程设计的方式,增强学生对理论知识的理解和实践能力的培养。
课程设计内容1.马尔可夫模型的概念和原理–马尔可夫性质的定义–马尔可夫过程的实例2.马尔可夫决策的基本流程和模型构建–状态、决策、效用函数、状态转移概率的定义–马尔可夫决策模型构建的步骤3.马尔可夫决策的解法与应用–状态-行动-状态法–动态规划法–值迭代法–策略迭代法–应用案例的讲解实践案例以网络占领为例,介绍马尔可夫决策的应用。
1.问题描述在网络安全领域,有一类攻击叫做“网络占领”。
假设一台服务器在t时刻被攻陷,攻击者一定是可以选择保持控制,或者被清除出服务器。
对于一个行业领袖,在网络中被攻陷将会给公司带来数百万美元的损失。
假设您是公司安全团队的一名成员,请你设计一个马尔可夫决策模型,以帮助公司最大限度地减少损失。
2.马尔可夫决策模型的构建在这个问题中,存在四个状态,分别是:–清除状态:在此状态下,服务器已经被清除并恢复正常,公司无损失。
–留在状态:在此状态下,服务器被攻陷并正在被攻击者控制,公司将遭受损失。
–单次攻击失败状态:在此状态下,攻击者试图占领服务器但失败了,他们将再次尝试,公司也会继续承担损失。
–持续攻击状态:在此状态下,攻击者成功占领服务器并保持控制,公司将遭受重大损失。
状态转移图如下:状态转移图–叶节点的效用函数:•清除状态:1•留在状态:0•单次攻击失败状态:-2•持续攻击状态:-10–状态间的转移概率:•清除状态只能转移到清除状态:1•留在状态可以转移到单次攻击失败状态、持续攻击状态和留在状态:0.5、0.25 和 0.25•单次攻击失败状态可以转移到留在状态和单次攻击失败状态:0.8 和 0.2•持续攻击状态只能转移到持续攻击状态:13.马尔可夫决策模型的解法基于状态-行动-状态法,我们可以得到该问题的最佳策略:–清除状态:只能选择清除行动。
马尔可夫决策规————————————————————————————————作者:————————————————————————————————日期:马尔可夫决策规划第二讲马尔可夫链与马尔可夫过程§2.1 马尔可夫链为书写方便,下面用X表示随机变量(ξ)。
定义 2.1:随机变量序列{X n,n=0,1,2,......}称为是一个马尔科夫(Markov)链,如果等式p{X m+k=j|X m=i, X kL=i L, ......, X k2=i2, X k1=i1} =p{X m+k=j|X m=i}对任意整数k、L、m以及非负整数m>k L>…k2>k1均成立。
其中,X m=i表示马尔科夫链在第m步(时刻m)位于状态i,状态i的集合S称为状态空间;p(k)ij(m)=p{X m+k=j|X m=i}称为在时刻m位于状态i经k步转移到达状态j的k步转移概率,而p ij(m)=p(1)ij(m) 称为时刻m的1步转移概率;P(k)(m)=(p(k)ij(m))称为时刻m的k步转移概率矩阵,而P(m)=(p(1)ij(m))=(p ij(m))称为时刻m的1步转移概率矩阵。
Markov满足的K-C方程如下:A. P(k)(m)=P(l)(m)P(k-l)(m+l),其中0≤l≤k约定:P(0)(m)=IB.()∏-+==1)(P )(P k m mi k i m约定:()I P 1=∏-=m mi i定义2.2:马尔科夫链{X n , n=0,1,2,......}称为是齐次的,是指它在时刻m 的1步转移概率矩阵P (m )与m 无关,它等价于P (k )(m )与m 无关。
其中,P (k)=(p (k )ij )称为齐次马氏链的k 步转移概率矩阵,而P = (p ij )称为齐次马氏链的1步转移概率矩阵。
相应地有,A. K-C 方程:P (k ) = P (l )P (k-l ),其中0≤l ≤kB. P (k )=P kC. 马尔科夫链的概率分布:设{X n , n=0,1,2, ......}为一马尔科夫链,X 0的分布列(初始分布)为0q (约定马尔科夫链的概率分布列为行向量),记n q 为X n 的分布列或Markov 链在时刻n 的瞬时分布列,{P (n ), n =0,1,2,......}为一步转移概率矩阵的集合,则有:C 1:()0 ,)(P q 0P q q 00)(0≥==∏=n i ni n n(非齐次) C 2:0 ,P q P q q 0)(0≥==n nn n (齐次) 关于马氏链的存在性:对任意给定的分布列0q 和一束随机矩阵{P (n ), n =0,1,2,......},a.s 唯一地存在某概率空间(Ω, F , P )上的马氏链,恰以0q 为初始分布列、以{P (n ), n =0,1,2,......}为转移概率矩阵的集合。
马尔可夫决策规划第五讲 有限阶段模型及其他有限阶段模型的目标只有有限项,即1110210100P P P P P P P )(2)(+-++++=n n n f f f f f n f f f f f f n r r r r V βββπβ1) 当n 充分大时,近似令∞=n 2) 用动态规划法求解注意:用Bellmon 最优化原理可推出平稳策略优势。
§ 5.1 向后归纳法在确定性动态规划问题求解中,向后归纳法是寻求最优策略的一种有效解法,同样也是求解有限阶段Markov 决策规划问题中最优策略与最优值函数的有效解法。
定理5.1 在状态集与所有行动集均为有限的有限阶段模型中,定义函数()nV i *,使其满足如下等式:()()()()()⎥⎦⎤⎢⎣⎡+=∑∈+∈S j n i A a nj V a i j p a i r i V 1**,,max()()()()()∑∈++=Sj n n n j V i f i j p i f i r 1***,, ……..(5.1)()0,...,2,1,,--=∈N N N n S i 其中()01*=+j V N 。
则由上述算式求出的()()()()00001,2,...,V V V V l ****=即为有限阶段模型的最优值函数,即对每个i S ∈,均有()()0sup ,N V i V i ππ*∈∏=;与此同时求得的决策序列()01,,...,N f f f π****=即为最优策略,其中{1,2,...,}S l =。
由于所有的()(),A i i S∈及{1,2,...,}S l =均为有限集,故由(5.1)式求得的()n f i *一定存在,且达到最优的行动可能多于一个(此时可任取一个作为()n f i *)。
定理5.1不仅解决了有限阶段模型求解最优策略的方法问题,而且还表明对任何n ,()i V n*表示在阶段n ,从状态i 出发,在余下1N n +-的阶段的最优期望总报酬,()1,,...,n n N f f f ***+也构成从n 到阶段N 的最优策略,这体现了Bellman 的最优化原理。