- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1) 指标函数
指标函数: 描述问题的数量函数用Vk,n表示.
Vk,n Vk,n (sk,uk ,.....,sn , un , sn1)
k 1,2,..,n
要求Vk,n 满足可分离性及递推关系 .
2020/5/30
22
10 指标和 Vk,n为阶段指标v j (s j , u j )之和
n
n
Vk,n v j (s j , u j ) vk (sk , uk ) v j (s j , u j )
▪
在实际问题中,决策变量的取值往往限制
在某一范围之内,此范围称为允许决策集合。
常用Dk (sk)表示第k阶段从状态sk出发的允许决 策集合。
2020/5/30
20
4.策略
策略:决策按顺序构成的序列,用p表示。
pk,n (sk ) : 第k阶段起至第n阶段止的策略
pk,n (sk ) {uk (sk ), uk1(sk1)..., un (sn )}
23
(2) 最优值函数 最优值函数fk (sk ) : 指标函数的最优值 fk (sk ) opt Vk.n (sk , uk ,...,sn , un , sn1)
uk un
opt : 最优化,取 max或 min
2020/5/30
24
四、动态规划模型的最优性原理和基本方程
1、动态规划的最优性原理
2020/5/30
12
▪ 于是
2020/5/30
13
▪ ▪ (3)在第二阶段 ▪ 在第二阶段,还有三步才能到达终点 ▪ 同理f2 (s2)=min { d2 (s2, X2) +f3 (s3)}
2020/5/30
14
2020/5/30
15
▪ (4)在第一阶段
▪ 在第一阶段f1(s1)=min {d1(s1, x1)+f2 (s2)} ▪ 目前状态s1是①,即为出发点,可选择的
③、④)中的点到 (⑤、⑥、⑦)中的一点是第二
阶段;由 (⑤、⑥ 、⑦)中的点到(⑧、⑨)中的一
点是第三阶段;由 (⑧ 、⑨)中的一点到⑩是第四
阶段。
2020/5/30
10
具体计算前,先引进几个符号:
▪ K— 阶段变量
▪
sk— 状态变量,表示第 k阶段所处的位置。
▪ 择的下Xk一—状决态策变量,表示当状态为 sk时,可选
▪ 二、 多阶段决策问题
▪ 1、多阶段决策问题的描述
▪ 一个决策问题常与时间联系,将时间作为变 量的决策问题称为动态决策问题。在动态决策问 题中,研究对象——系统所处的状态和时点都是 进行决策的重要因素。决策者要在系统发展的不 同时点,根据系统的当前状态,不断地作出决策。 因此,多次决策是动态决策的一个基本特点。
uk Dk
sk 1 Tk (sk , uk )
k 1,2,, n
fn1(sn1) 0
这是一个逆推方程.
2020/5/30
28
基本方程的解法
• 逆推找决策:
k n时, fn1(sn1) 0
fn (sn ) opt vn (sn , un ) fn1(sn1)
unDn
opt vn (sn , un ) un* ,
7
2020/5/30
8
▪ 生活中的常识告诉我们 ,最短路有一个重 要的特性:如果由起点 A经过 P点和 H点而到达 终点 G是一条最短路线,则由点P出发经过 H点 到达终点 G的这条子路线,对于从点 P出发到达 终点的所有可能选择的不同路线来说,必定也是 最短路。此特性用反证法易证 。
▪ 因为如果不是这样 ,则从点 P到 G点有另 外一条距离更短的路线存在,把它和原来最短路 线由 A点到达 P点的那部分连接起来,就会得到 一条由 A点到 G点的新路线,它比原来那条最短 路线的距离还要短些。这与假设相矛盾,是不可 能的。
第五章 动 态 规 划
2020/5/30
1
▪ 一、综 述
▪ 动态规划解决多阶段决策过程最优化的一种 数学方法,大约产生于50年代。
▪ 1951年美国数学家贝尔曼 (R. Bellman)等 人根据一类多阶段决策问题的特点,把多阶段决 策问题变换为一系列互相联系的单阶段问题,然 后逐个加以解决。与此同时,他提出了解决这类 问题的 “最优性原理”,研究了许多实际问题, 从而创建了解决最优化问题的一种新的方法—— 动态规划。他的名著 《动态规划》于 1957年出 版,该书是动态规划的第一本著作。
unDn
k n 1,
fn1(sn1) opt vn1(sn1, un1) fn (sn )
un 1Dn 1
un*1, 此时要用到sn Tk 1(sk 1, uk 1)
2020/5/30
29
• 逆推找决策:
k 1, f1(s1) opt v1(s1, u1) f2 (s2 )
2020/5/30
5
▪ 在多阶段决策过程中,系统的动态过程可以 按照时间的进程分为若干个相互联系的阶段,而 在每一个阶段中,具有一个或多个状态,在每一 个阶段中都要针对每一个状态作出决策。
▪ 在各个阶段的决策确定以后,就顺序构成了 一个决策序列,称为一个策略。
▪ 由于每个阶段有多种决策,因此,形成有多 种策略可供选择,策略不同经济效果也不一定相 同。
2020/5/30
19
▪ 3、决策
▪ 决策表示当过程处于某一阶段的某个状态时, 可以作出不同的决策 (或选择),从而确定下一阶 段的状态,这种决定称为决策。
▪ 描述决策的变量 ,称为于向s量k时来的描决述策。变常量用。u它k (是sk)
当k 1时.p1,n (s1)为全过程策略.
p1,n (s1) P1,n (s1)
使目标达最优的策略为最优策略:
p* 1,n
(s1
)
2020/5/30
21
5.状态转移方程
确定过程由一个状态到另一个状态的变换方程.
Sk1 Tk {Sk , uk }, Tk : 变换算子 6.指标函数和最优值函数
而 pk,n uk , pk1,n
2020/5/30
26
pk*,n表示sk sn的最优策略,则最优值函数
fk (sk ) Vk,n (sk , pk*,n ) opt Vk,n (sk , pk,n )
pk ,nPk ,n
opt vk (sk , uk ) Vk 1,n (sk 1, pk 1,n )
jk
jk 1
vk (sk , uk ) Vk1,n
20 指标积 Vk,n为阶段指标v j (s j , u j )之积
n
n
Vk,n v j (s j , u j ) vk (sk , uk ) v j (s j , u j )
jk
jk 1
vk (sk , uk ) Vk1,n
2020/5/30
2020/5/30
17
▪ 2 、状态 状态表示每个阶段开始时所处的 自然状况或客观条件,它描述了研究问题过程 的状况,又称为不可控因素。
▪ 在例 1中,状态就是某阶段的出发位置,它 既是该阶段某支路的起点,又是前一阶段某支 路的终点。通常一个阶段有若干个状态,第一 阶段有一个状态就是点①,第二阶段有三个状 态,即点集合 {②,③,④},一般第 k阶段的状 态就是第 k阶段所有始点的集合。
作为整个过程的最优策略具有这样的性质, 即无论过去的状态和决策如何,对前面决策 所形成的状态而言,余下的诸决策必须构成 最优决策。
简言之,一个最优策略的子策略 也是最优的.
例 最优路线: A B2 C1 E2 F
子路线: C1 E2 F也是最优的.
2020/5/30
25
2、基本方程
设指标函数为
▪ 许多问题用动态规划的方法处理,常常比线 性规划或非线性规划更有效,特别是对于离散性 的问题。应当指出,动态规划是求解问题的一种 方法,是考察问题的一种途径,而不是一种特殊 的算法 (如线性规划是一种算法)。
2020/5/30
3
▪ 动态规划它不像线性规划那样有一个标准的 数学表达式和明确的一组规则,而必须对具体的 问题进行具体的分析和处理。因此,在学习动态 规划时,除了要对动态规划的基本概念和方法正 确理解外,还应该以丰富的想象力去建立模型, 用创造性的技巧去求解。
▪ 动态规划所研究的对象是多阶段决策问题。
▪ 多阶段决策问题是指一类活动过程,它可以 分为若干个相互联系的阶段,在每个阶段都需要 作出决策。这个决策不仅决定这一阶段的效益, 而且决定下一阶段的初始状态。
2020/5/30
4
▪ 每个阶段的决策确定以后,就得到一个决策 序列,称为策略。多阶段决策问题就是求一个策 略,使各阶段的效益的总和达到最优。
▪ 目前状态 s4可以是⑧或⑨,可选择的下一状 态X4 是⑩ 所以f4 (8) =d4 (8, 10) =3,
▪ f4 (9)=d4 (9, 10)=4 ▪ (2)在第三阶段
▪ 在第三阶段,还需两步才能到达终点,此时 f3 ( s3)=min{d3 ( s3,X3)+f4 (s4)} 目前状态s3可 以是⑤、⑥、⑦,可选择的下一状态X3有两个 点⑧或⑨
uk , pk 1,n
optvk (sk , uk ) opt Vk 1,n (sk 1, pk 1,n )
uk
pk 1,n
optvk (sk , uk ) fk1(sk1)
uk
2020/5/30
27
pk*,n表示sk sn的最优策略,则最优值函数 基本方程
fk (sk ) opt vk (sk , uk ) fk1(sk1)
2020/5/30
2
▪ 动态规划的方法在工程技术 、企业管理 、 工农业生产及军事部门中都有广泛的应用 ,并 且获得了显著的效果。