马氏决策ppt
- 格式:ppt
- 大小:1.24 MB
- 文档页数:20
第六讲马尔可夫型决策-人教B版选修4-9 风险与决策教案一、教学目标1.了解马尔可夫型决策的基本概念;2.学习如何计算马尔可夫型决策的收益及其期望值;3.熟悉风险决策的概念和风险决策的方法;4.能够应用马尔可夫型决策和风险决策方法解决实际问题。
二、教学重点1.马尔可夫型决策的基本概念;2.马尔可夫型决策的收益及其期望值的计算方法;3.风险决策的概念和方法。
三、教学难点1.马尔可夫型决策的期望值的计算方法。
四、教学内容4.1 马尔可夫型决策马尔可夫型决策是指在动态不确定条件下,在一系列决策中,对每一种状态和每一种决策所产生的效益(或称为收益)进行评估,并通过对效益进行量化,制定决策,以使总效益最大化。
因此,马尔可夫型决策需要评估每种可能的决策和每种状态下所获得的效益,并根据效益的计算结果确定最优决策。
4.2 马尔可夫型决策的计算方法在马尔可夫型决策中,一个事件或状态的过程总是处于某种状态,这种状态可以用一个有限集合中的元素来表示。
每个状态具有一定的概率转移到其他状态,这是指每个状态之间的转移是随机的。
在马尔可夫型决策中,每个状态下所获得的效益是不确定的,在确定一定期间内的效益时,需要考虑对每个状态的转移概率和每种决策的效益进行计算。
因此,在进行马尔可夫型决策时,需要进行以下计算:1.状态转移矩阵的计算;2.效益矩阵的计算;3.期望值的计算。
其中,状态转移矩阵的计算是指,针对所有可能的状态,计算出从一个状态转移到另一个状态的概率。
效益矩阵的计算是指,将每个状态下对每一种决策的效益量化,用矩阵表示。
期望值的计算是指,在马尔可夫型决策中,确定每个状态和每种决策的效益,针对所有可能的决策和状态,计算期望值,用于比较和分析优劣。
4.3 风险决策的概念和方法在风险决策中,决策者面临的是不确定、有风险的情况,需要选择一种策略来应对风险。
在风险决策中,需要考虑到风险的概率、风险的影响、决策的收益和成本等因素。
风险决策的方法包括最大期望值法、等价收益法、最小最大法、利用判断矩阵法等,适用于不同的决策场景。
定理4.7-ε最优马氏策略总是存在的。
(报酬函数r 有界)[证明] 记V )}({1πππβV V R V DM L =∈∃∈=+使得,则当r 有界时,V 为有界数集。
nif n i f n nr V )P ()(1∏∑-=∞==βπββββ-+=⎪⎪⎪⎭⎫ ⎝⎛++=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫ ⎝⎛≤∑∑∞=∞=1)1()1()1(11111100M L M L M L M M M n nn n于是V 为有界数集,所以V 必有上确界(最小的上界)。
设上确界为*V ,则对于任意的0>ε存在∈V V ,使得ε->*V V∴存在D M ππ∈*使得V V =)(*πβ。
显然)(*πβV 是-ε最优的。
[证毕]注:这个定理实际上是在r -有界折扣模型上成立的,扩大了F 有限折扣模型。
定理4.8 在r 有界的范围内,-ε最优平稳策略总是存在的。
[证明] 由定理4.7,存在-ε最优马氏策略*π,设},,,,,{210 n f f f f =*π,记='π},,,,{21n f f f ,则有εππββ+<*)()('V V ∴ ])([)(00'εππββ+≤*V T V T f f 即 εβππββ⋅+≤**00)]([)(f f P V T V ∴ ')()(0εππββ-≥**V V T f∴ '0)()(επββ-≥*∞V f V ∴ )(0∞f V β是'εε+最优策略。
[证毕]作业题: 对于F 有限折扣模型,总存在最优平稳策略。
注意:在上述证明中均没有提到初始状态,这意味着我们得到的决策是相对于所有初始状态而言的一致最优策略。
综合结论可得出如下事实:在全体策略类∏上寻求最优策略,等价于在平稳策略类上寻求最优策略。
因为在平稳策略类上所获得的β-最优策略,在全体策略类∏上对同一β来说,它同样是最优的。
考虑到在状态集S 为有限以及所有A (i )(S i ∈)均为有限的假设下,平稳策略类仅包含有限个不同的元素、或仅有有限个平稳策略,这就使得寻求最优策略的问题大为简化。