5.2动态规划的基本概念和基本方程

格式：ppt
大小：187.00 KB
文档页数：19

下载文档原格式

动态规划

f1(A)=MIN r(A,B1)+ f2(B1) r(A,B2)+ f2(B2)
=MIN（3+12，4+10）=14
最短路线： A—— B2 ——C2——D2——E2——F 最优解： d1*(A)= B2，最短用时14
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
最优解： d2*(B1)= C1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S2=B2，则下一步能取C2或C3，故
f2(B2)=MIN r(B2,C2)+ f3(C2)
r(B2,C3)+ f3(C3) =MIN（2+8，1+11）=10
最短路线： B2 ——C2——D2——E2——F
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S4=D3，则下一步只能取E2，故

动态规划的基本概念

且也必然对目标函数给予影响，阶段效应就是执行阶段决策时给目标函数的影响。
多阶段决策过程关于目标函数的总效应是各阶段的阶段效应累积形成的。常见的全过程目标函数有以下两种形式：（1）全过程的目标函数等于各阶段目标函数的和，即：

R=r1 (x1, u1) +r2 (x2, u2) +…+rn(xn, un) （2）全过程的目标函数等于各阶段目标函数的积，即： R=r1 (x1, u1) ×r2 (x2, u2) ×…×rn(xn, un)
例2（带回收的资源分配问题）某厂新购某种机床125台。据估计，这种设备5年后将被其它设备所代替。此机车如在高负荷状态下工作，年损坏率为1/2，年利润为10万元；如在低负荷状态下工作，年损坏率为1/5，年利润为6万元。问应如何安排这些机床的生产负荷，才能使5年内获得的利润最大？本问题具有时间上的次序性，在五年计划的每一年都要作出关于这些机床生产负荷的决策，并且一旦作出决策，不仅影响到本年利润的多少，而且影响到下一年初完好机床数，从而影响以后各年的利润。所以在每年初作决策时，必须将当年的利润和以后各年利润结合起来，统筹考虑。与上面例1、例2类似的多阶段决策问题还有资源分配、生产存贮、可靠性、背包、设备更新问题等等。
在基本方程中， rk(xk, uk)， xk+1=T(xk, uk)都是已知函数，
最优子策略fk（xk）与fk+1（xk+1）之间是递推关系，要求出fk（xk）及uk(xk)，需要先求出fk+1（xk+1），这就决定了应用动态规划基本方程求最优策略总是逆着阶段的顺序进行的。
另一方面，由于k+1阶段的状态xk+1=T(xk, uk)是由前面的状态和决策所形成的，在计算fk+1（xk+1）时还不能具体确定xk+1的，这就要求必须就k+1阶段的各个可能状态计算fk+1（xk+1），因此动态规划不但能求出整个问题的最优策略和最优目标值，而且还能求出决策过程中所有可能状态的最优策略及最优目标值。

动态规划的基本思想和基本方程

物流运筹学
2
结合最短路线问题介绍动态规划方法的基本思想。
生活中的常识告诉我们，最短路线有一个重要特性：如果由起点A经过P点和H点而到达终点G是一条最短路线，则由点P出发经过H点到达终点G的这条子路线，对于从点P出发到达终点的所有可能选择的不同路线来说，必定也是最短路线。例如，在最短路线问题中，若找到了 A→B1→C2→D1→E2→F2→G是由A到G的最短路线，则D1→E2→F2→G 应该是由D1出发到G点的所有可能选择的不同路线中的最短路线。
ff22((BB12)) u1( A) B1 。于是得到从起点A到终点G的最短距离为18。
7
为了找出最短路线，再按计算的顺序反推之，可求出最优决
策函数序列 uk ，即由
u1( A) B1, u2 (B1) C2 ,u3 (C2 ) D1,u4 (D1) E2 ,u5 (E2 ) F2 , u6 (F2 ) G
组成一个最优策略。因而，找出相应的最短路线为
A B1 C2 D1 E2 F2 G
8
从上面的计算过程中可以看出，在求解的各个阶段，我们利用了
k阶段与k+1阶段之间的递推关系：
fk
(sk
)
min
uk Dk (sk
)
dk (sk ,uk (sk )) fk1(uk (sk ))
f7 (s7 ) 0(或写成 f6 (s6 ) d6 (s6,G))
u3 (C1) D1 u3 (C2 ) D1 u3 (C3 ) D2 u3 (C4 ) D3
当k=2时，有
f2 (B1) 13 f2 (B2 ) 16
u2 (B1) C2 u2 (B2 ) C3
当k=1时，出发点有一个A点，则
f1(A) min

动态规划的基本原理和基本概念

)
=
max/
min
n

d
j
(S
j
,
x
j

)
j=k

7)指标递推方程（动态规划的基本方程）：
fk (Sk ) = max/ min{dk (Sk , xk ) + fk+1(Sk+1)}, k = 1,2,..., n

f
n+1
(Sn+1
)
=
0
例投资金额分配问题．某公司有4百万元资金需要投资，有三个投资项目可以选择。经市场调查预测，如果向项目 i 投资 j 百万元，则每年
所得到的利润（万元/年）因投资额的不同而有差异，如下表所示。问
应如何投资才能使总的利润最大？
投资额
利润
0
1
2
3
4
项目
项目1
0
16 25 30 32
项目2
0
12 17 21 22
项目3
0
10 14 16 17
解：令每给一个项目考虑投资多少资金为一个决策阶段,则该投资
决策问题可分为三个阶段.决策顺序为:
最优决策
0 1 1
2 2,3
目标值
0 12 22
27 31
项目1（阶段1）：
状态 0 4 0+31
决策
1
2
3
16+27 25+22* 30+12
4 32+0
最优决策
2
目标值
47
S1
x1 S2
x2
S3
x3
47 4
31 4

2_1动态规划的基本方程和基本定理

(2.1.4) (2.1.5)
k 1 ,2,, n,
边界条件是
f 0 x0 0.
递推过程时从k=1开始，从前往后推移，直到求出fn(xn). 同样，第一编的（1.5），（1.6）就是（2.1.5）在最短线路中的具体形式。以后，凡是要求“给出问题的DP模型”，则意味着：
1. 定义恰当的最优值函数；
动态规划和数学规划的关系

动态规划的优点和存在的问题
§1 动态规划的术语
一、阶段
把所给问题的过程恰当地分成若干个相互联系的阶段，以便于求解，
过程不同，阶段数就可能不同，描述阶段的变量称阶段变量。阶段可以是离散的，也可以是连续的，但是多数情况下是离散的。二、状态状态表示每个阶段开始面临的自然状况或客观条件，它不以人们
是定义在
xk , uk , xk 1, uk 1,... 上的函数，要构成动态规划模型，这个
Vk ( xk ,u k , xk 1, uk 1,...) [ xk , uk ,Vk ( xk 1, uk 1,...)]
函数还需要满足递推关系：
常见的指标函数的形式是： 1. 过程和它的任一子过程的指标是它所包含的各阶段指标之和，即
Vk ( xk ,...) v j ( x j , u j )
j k
n 1
其中 v j ( x j , u j ) 表示第j阶段的指标，这时
Vk ( xk ,...) vk ( xk , uk ) Vk 1 ( xk 1 ,...);
2. 过程和它的任一子过程的指标是它所包含的各阶段的指标的乘积，即
的主观意志为转移，也称为不可控因素。
过程的状态通常可以用一个或一组变数据描述，称为状态变量。常用 xk 表示第K个阶段的某一状态。

动态规划的基本概念与方法

动态规划的基本概念与方法动态规划（Dynamic Programming，简称DP）是解决一类最优化问题的一种方法，也是算法设计中的重要思想。

动态规划常用于具有重叠子问题和最优子结构性质的问题。

它将问题分解为子问题，并通过求解子问题的最优解来得到原问题的最优解。

动态规划的基本概念是“最优子结构”。

也就是说，一个问题的最优解可以由其子问题的最优解推导出来。

通过分解问题为若干个子问题，可以形成一个递归的求解过程。

为了避免重复计算，动态规划使用一个表格来保存已经计算过的子问题的解，以便后续直接利用。

这个表格也被称为“记忆化表”或“DP表”。

动态规划的基本方法是“状态转移”。

状态转移指的是，通过已求解的子问题的解推导出更大规模子问题的解。

常用的状态转移方程可以通过问题的递推关系定义。

通过定义好状态转移方程，可以通过迭代的方式一步步求解问题的最优解。

在动态规划中，通常需要三个步骤来解决问题。

第一步，定义子问题。

将原问题划分为若干个子问题。

这些子问题通常与原问题具有相同的结构，只是规模更小。

例如，对于计算斐波那契数列的问题，可以定义子问题为计算第n个斐波那契数。

第二步，确定状态。

状态是求解问题所需要的所有变量的集合。

子问题的解需要用到的变量就是状态。

也就是说，状态是问题（解决方案）所需要的信息。

第三步，确定状态转移方程。

状态转移方程通过已求解的子问题的解推导出更大规模子问题的解。

通常情况下，状态转移方程可以通过问题的递推关系确定。

在实际应用中，动态规划常用于求解最优化问题。

最优化问题可以归纳为两类：一类是最大化问题，另一类是最小化问题。

例如，最长递增子序列问题是一个典型的最大化问题，而背包问题是一个典型的最小化问题。

动态规划的优势在于可以解决许多复杂问题，并且具有可行的计算复杂度。

但是，动态规划也有一些限制。

首先，动态规划要求问题具有重叠子问题和最优子结构性质，不是所有问题都能够满足这两个条件。

其次，动态规划需要存储计算过的子问题的解，对于一些问题来说，存储空间可能会非常大。

动态规划的基本概念

动态规划的基本概念基本概念设我们研究某一个过程,这个过程可以分解为若干个互相联系的阶段。

每一阶段都有其初始状态和结束状态,其结束状态即为下一阶段的初始.状态。

第一阶段的初始状态就是整个过程的初始状态,最后一阶段的结束状态就是整个过程的结束状态。

在过程的每一个阶段都需要作出决策,而每一阶段的结束状态依赖于其初始状态和该阶段的决策。

动态规划问题就是要找出某种决策方法, 使过程达到某种最优效果。

这种把问题看作前后关联的多阶段过程称为多阶段决策过程, 可用图9.1表示。

下面介绍动态规划的术语和基本概念。

(l)阶段把所研究的过程恰当地分为若干个互相联系的相对独立过程。

(2)状态变量用来描述系统所处状态的变量称为状态变量。

通常用s k 表示第k 阶段的初始状态，则s k +1表示第k 阶段结束时(也就是第k+l 阶段开始时)过程的状态。

通常要求状态变量具有无后效性, 即过程在第k 阶段以后的变化只与该阶段结束时的状态有关, 而与系统如何到达此状态的过程无关。

(3)决策变量的状态转移方程。

系统在第k 阶段中的变化过程, 通常我们并不关心，但我们希望知道该阶段的初始状态与结束状态之间的关系。

我们用以影响该系统的手段，也用一个变量x k 表示，称为决策变量，则第k 阶段结束时的状态s k +1是决策变量x k 和初始状态s k 的函数, 即s k +1=T (s k ,x k ) (9-1)(9-1)称为状态转移方程。

(4)权函数反映第k 阶段决策变量x k 的效益函数W k (s k ,x k ) 称为权函数。

(5)指标函数判断整个过程优劣的数量指标称为指标函数。

当第k 阶段初始状态为s k 时,设我们在此阶段及以后各阶段均采取最优策略时,所获得的效益为f k (s k ), 那么有 ))}(),,(({)(11++∈=k k k k k k D x k k s f x s W F opt s f kk (9-2) 其中opt 表示最优,按具体问题可取为max 或min , D k 是决策变量x k 的定义域;F k 是某一个函数; s k +1=T (s k ,x k ).图9.1例如,描述一质点在已知力场中的运动,若我们选取该质点的坐标(x,y,z)作为状态变量, 则不能满足无后效性要求, 因质点的运动不仅与它当前的坐标有关,还与它如何来到此点的过程有关。

动态规划基本概念

最短路问题（2）第四阶段 k=4
d4(D1，E)=30 f4（D1）=30
状态变量s4可取D1，D2
d4(D2，E)=40 f4（D2）=40
例1.
s4 D1 D2
u4(s4) E E
f4(s4)=d4 30 40
u4*(s4) E E
最短路问题（3）第三阶段 k=3 f4（D1）=30 s3 C1 u3
3.确定决策uk,及每个阶段的允许决策集合Dk(sk) 4.写出状态转移方程: sk+1=Tk(sk,uk )
5.列出阶段效益vk(sk,uk)及效益函数 fk(sk)
二.动态规划的基本概念(4) 在不同问题中,最优指标函数fk( sk)表示的意义不一样, 可以是费用,成本,距离
6.状态转移方程：
确定由一个状态到另一个状态的演变过程. 若给定第k阶段状态变量sk的值,且该阶段的决策变量uk 一经确定 ,则第k+1阶段的状态变量sk+1也随之确定, 即sk+1是sk和uk的函数,记为sk+1=Tk(sk,uk), 它描述了由第k阶段到第k+1阶段的状态转移规律,
例1.最短路问题设某公司自外国进口一台大型机床,由工厂至出口港,有三港口可供选择,而进口港又有三个可供选择,进口后可经由两个城市到达目的地,其间的运输路线如下图,试求总距离最短的路线?
出口港 B1 20 A 40 进口港 70 C1 10 40 C2
40 60 30
B2 20
60 D1
D2
最优策略在允许策略集合中，使整个问题达到最优效果的策略
k子过程由第k阶段开始到终点为止的过程，称为原问题的 k后部子过程（或称为k子过程）
k子过程策略 k子过程的决策函数序列。简称子策略

动态规划算法

动态规划算法动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题,采用顺序求解方法,通过解一系列小问题达到求解整个问题目的；动态规划的各个决策阶段不但要考虑本阶段的决策目标,还要兼顾整个决策过程的整体目标,从而实现整体最优决策。

需指出：动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种算法。

必须对具体问题进行具体分析，运用动态规划的原理和方法，建立相应的模型，然后再用动态规划方法去求解。

一、动态规划基本思想（一）基本概念描述阶段的变量称为阶段变量k。

阶段的划分，一般是根据时间和空间的自然特征来进行的，但要便于问题转化为多阶段决策。

表示每个阶段开始所处的自然状况或客观条件。

通常一个阶段有若干个状态，描述过程状态的变量称为状态变量Sk。

某一阶段的某个状态时，可以作出不同的决定，从而确定下一阶段的状态，这种决定称为决策，描述决策的变量成为决策变量Uk。

在实际问题中决策变量取值一般在一个范围，称之为允许决策集合（策略）。

状态转移方程：Sk+1 = Tk（Sk，?Uk）4、指标函数和最优值函数用来衡量所实现过程优劣的一种数量指标，为指标函数。

指标函数常见的形式：（1）各段指标的和的形式（2）各段指标的积的形式其中表示第j阶段的阶段指标（二）基本思想动态规划方法的关键：正确地写出基本的递推关系式和恰当的边界条件（简称基本方程）。

要做到这一点，就必须将问题的过程分成几个相互联系的阶段，恰当的选取状态变量和决策变量及定义最优值函数，从而把一个大问题转化成一组同类型的子问题，然后逐个求解。

即从边界条件开始，逐段递推寻优，在每一个子问题的求解中，均利用了它前面的子问题的最优化结果，依次进行，最后一个子问题所得的最优解，就是整个问题的最优解。

二、建立动态规划模型的步骤划分阶段：按时间或空间先后顺序，将过程划分为若干相互联系的阶段。

对于静态问题要人为地赋予“时间”概念，以便划分阶段。

正确选择状态变量：选择变量既要能确切描述过程演变又要满足无后效性，而且各阶段状态变量的取值能够确定。

动态规划的基本概念和基本原理

f k (sk ) opt Vk,n (sk , uk ,, sn1 )
uk ,,un
当k=1时，f1（s1）就是从初始状态s1出发到终止状态的最优函数。二、动态规划的基本思想与基本原理
最优性原理：“作为整个过程的最优策略具有这样的性质：无论过去的状态和决策如何，相对于前面的决策所形成的状态而言，余下的决策序列必然构成最优子策略。”
5.状态转移方程（state transfer equation）设第k阶段状态为sk，做出的决策为uk（sk），则第k+1阶段的状态sk+1随之确定，他们之间的关系可以表示为：
sk+1=Tk（sk，uk）表示从第k阶段到第k+1阶段状态转移规律的方程称为状态转移方程，它反映了系统状态转移的递推规律。
)
min
d d
3 3
(C3 (C3
, ,
D1) D2 )
ff44((DD12))
2 3
min1
5
5
f3（C4）= d3（C4，D2）+ f4（D2）=7+5=12
u3（C2）=D2 u3（C3）=D1 u3（C4）=D2
k=2时，
f
2
(B1
)
d mind
2 2
( B1 , ( B1 ,
C1) C2 )
min
d d
2 2
( (
B3 B3
, ,
C3 C4
) )
f3 (C3 ) f3 (C4 )
2 min2
5 12
7
u2（B1）=C1 u2（B2）=C3 u2（B3）=C3
k=1时，有：
d1( A, B1) f2 (B1)

动态规划的基本方程

第七章动态规划主要内容2动态规划的基本概念动态规划的逆推解法运筹学13动态规划的应用4动态规划的基本方程2动态规划的基本方程例1：如图所示线路网络，求A到G的最短路线。

AB 1B 2C 1C 2C 3C 4D 1D 2D 3E 1E 2E 3F 1F 2G538761366835338422123335526643最短路线的性质：如果由起点A经过P点和H点而到达终点G是一条最短路线，则由点P出发经过H点到达点G的这条子路线，必定是从点P 到点G的最短路线。

根据最短路线的性质，寻找最短路线的方法，就是从最后一段开始，由后向前逐步递推，求出各点到G 点的最短路线。

1234562动态规划的基本方程运筹学k=6第六阶段f6(F1)=4f6(F2)=3F1F2G43s6=｛F1,F2｝式12动态规划的基本方程k =5第五阶段f 5(E 1)=min ｛7,8｝=7s 5=｛E 1,E 2,E 3｝E 1E 2E 3F 1F 2G35526643()()()()()73543min ,,min 262151611515=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=F f F E d F f F E d E f ①:d 5(E 1,F 1)+f 6(F 1)=3+4=7②:d 5(E 1,F 2)+f 6(F 2)=5+3=8()115F E u =E 1→F 1→G2动态规划的基本方程k=5第五阶段s k=｛E1,E2,E3｝E1 E2 E3F1F2G 355 26 643()()()()()73543min,,min262151611515=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=FfFEdFfFEdEf()115FEu= ()()()()()53245min,,min262251612525=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=FfFEdFfFEdEf()225FEu= ()()()()()93646min,,min262351613535=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=FfFEdFfFEdEf()235FEu=2动态规划的基本方程k =4第四阶段s 4=｛D 1,D 2,D 3｝()()()()()75272min ,,min 252141511414=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=E f E D d E f E D d D f ()214E D u =D 1D 2D 3E 1E 2E 3F 1F 2G22123335526643()()()()()69251min ,,min 353242522424=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=E f E D d E f E D d D f ()224E D u =()()()()()89353min ,,min 353342523434=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=E f E D d E f E D d D f ()432u D E =2动态规划的基本方程k =3第三阶段s 3=｛C 1,C 2,C 3,C 4｝()()()()()136876min ,,min 242131411313=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=D f D C d D f D C d C f ()113D C u =C 1C 2C 3C 4D 1D 2D 3E 1E 2E 3F 1F 2G6835338422123335526643()()()()()106573min ,,min 242231412323=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=D f D C d D f D C d C f ()123D C u =()()()()()98363min ,,min 343332423333=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=D f D C d D f D C d C f ()233D C u =()()()()()128468min ,,min 343432424343=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=D f D C d D f D C d C f ()343D C u =2动态规划的基本方程k =2第二阶段s 2=｛B 1,B 2｝()()()()()()()1396103131min ,,,min 33312232121311212=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧+++=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧+++=C f C B d C f C B d C f C B d B f ()212C B u =B 1B 2C 1C 2C 3C 4D 1D 2D 3E 1E 2E 3F 1F 2G8761366835338422123335526643()()()()()()()1612697108min ,,,min 43422333222322222=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧+++=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧+++=C f C B d C f C B d C f C B d B f ()322C B u =2动态规划的基本方程k =1第一阶段s 1=｛A ｝()()()()()18163135min ,,min 2221121111=⎭⎬⎫⎩⎨⎧++=⎭⎬⎫⎩⎨⎧++=B f B A d B f B A d A f ()11B A u =AB 1B 2C 1C 2C 3C 4D 1D 2D 3E 1E 2E 3F 1F 2G5387613668353384221233355266432动态规划的基本方程()11B A u =()181=A f ()1312=B f ()212C B u =()1622=B f ()322C B u =()1313=C f ()113D C u =()1023=C f ()123D C u =()933=C f ()233D C u =()1243=C f ()343D C u =()714=D f ()214E D u =()624=D f ()224E D u =()834=D f ()234E D u =()715=E f ()115F E u =()525=E f ()225F E u =()935=E f ()235F E u =()416=F f ()G F u =16()326=F f ()G F u =26计算结果汇总A →B 1B 1→C 2C 2→D 1D 1→E 2E 2→F 2F 2→GA →B 1→C 2→D 1→E 2→F 2→G2动态规划的基本方程递推关系()()()()(){} ()⎪⎩⎪⎨⎧==+=+1,2,3,4,5,6,,min771ksfsufsusdsfkkkkkkkukkk边界条件递推关系一般形式()()()()(){}()⎪⎩⎪⎨⎧-==+=+++1,,1,,0,111nnksfsufsusvoptsfnnkkkkkkkukkk()()()()(){}()⎪⎩⎪⎨⎧-==⨯=+++1,,1,,1,,111nnksfsufsusvoptsfnnkkkkkkkukkk加法合成乘法合成2动态规划的基本方程动态规划的最优性原理：作为整个过程的最优策略，无论过去的状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。

运筹学第五章动态规划

和 dk 2 (sk ))；
(4) 允许决策集： D k ( s k ) ( x k , y k ) 0 ≤ y k ≤ s k ; 0 ≤ x k ≤ 1 0 0 0 ( s k y k )
状态转移方程： s k 1 s k x k y k ,s 1 5 0 0k4,3,2,1
其中s 5 表示第四阶段末的状态； (5) 阶段指标： v k ( s k ,x k ,y k ) q k y k p k x k ，k4,3,2,1；
5.1 动态规划的基本概念和模型
5.1.1 动态规划的基本概念
下面结合实例来介绍动态规划的基本概念：
【例5.1】如图5.1所示，在处有一水库，现需从点铺设一条管道到点，弧上的数字表示与其相连的两个地点之间所需修建的渠道长度，请找出一条由到的修建线路，使得所需修建的渠道长度最短。
2
A4
3
B
7
(1) 按月份分段： k4,3,2,1；
(2) 状态变量： s k 表示第 k 个月月初的库存量；
(3) 决策变量： dk1(sk表) 示第 k 个月已有库存 s的k 情况下，要定
购的商品量， dk2表(sk示) 第个月k 已有库存的商品量(为方便，后面将分别依次用，
的来x sk 情代k y况替k 下，要d销k1(售sk )
(6) 动态规划基本方程：
fk(s k) (x k,y m k) a D x k(s k)v k(s k,x k,y k) fk 1 (s k 1 )
f5 (s 5 ) 0 k 4 ,3 ,2 ,1
求解（要求板书）辅图1
辅图2
辅图3
5.2.3 动态规划的顺序解法
【例 5.3】图 5.3 所示为一水利网络， A 为水库，分B 1 ,别B 2 为,B 3 不;C 同1 ,C 的2 ,供C 3 水;D 目1 ,D 的2地，试找出给各供水目的地供水的最短路线。

动态规划的基本概念与算法设计

动态规划的基本概念与算法设计动态规划（Dynamic Programming）是一种解决复杂问题的优化方法，常用于计算机科学和数学领域。

它的基本思想是将一个复杂问题分解为若干个相互重叠的子问题，并通过求解子问题的最优解来构建原问题的最优解。

一、动态规划的基本概念动态规划中的概念主要包括以下几个方面：1. 最优子结构（Optimal Substructure）：一个问题的最优解可以由其子问题的最优解来构建。

也就是说，问题的最优解具备递归性质。

2. 无后效性（无后效性）：一个阶段的状态一旦确定，就不受之后决策的影响。

也就是说，在解决某个阶段的问题时，只需要考虑当前阶段的状态和选择，无需关心之后的情况。

3. 重叠子问题（Overlapping Subproblems）：子问题之间可能会出现重叠的情况，即不同的子问题具有相同的子问题。

二、动态规划的算法设计步骤动态规划的算法设计通常包括以下步骤：1. 确定状态：首先要明确问题的求解需要哪些状态量，并将问题抽象化，将问题的每个阶段的状态定义清楚。

2. 确定状态转移方程：根据问题的最优子结构，利用递归的思想，确定问题的状态转移方程。

状态转移方程描述了问题从一个阶段到下一个阶段的状态转移过程。

3. 确定初始条件和边界条件：确定问题的初始状态和边界状态，也就是递归的终止条件。

4. 确定计算顺序：确定问题的计算顺序，通常是从小规模的子问题开始，逐渐扩展到原问题的规模。

5. 填表计算：根据状态转移方程和初始条件，填充计算表格，记录子问题的最优解。

6. 求解原问题：根据计算表格中的最优解，推导出原问题的最优解。

三、动态规划的示例应用为了更好地理解动态规划的基本概念和算法设计步骤，下面以一个经典的示例问题来说明。

问题描述：给定一个数组nums，其中的元素表示一系列可抢劫的房屋的价值。

要求求解出在不触发警报的情况下，可以获得的最大抢劫价值。

解决思路：1. 状态定义：定义一个一维数组dp，其中dp[i]表示前i个房屋能够获得的最大抢劫价值。

2_1动态规划的基本方程和基本定理

略，用 p k ( xk ) 表示，即
pk ( xk ) uk ( xk ),uk 1 ( xk 1 ),...,un ( xn )
对于每一个实际的多阶段决策过程，可供选取的策略有一的范围限制，这个范围称为允许策略集合，允许策略集合中达到最优效果的策略称为最优策略。五、状态转移给定第K阶段状态变量的值后，如果这一阶段的决策变量一经确定，
3） ( xk , uk ,Vk 1 ) 对于其变量 Vk 1 严格单调，通常取指标函数的形式为：
Vk v j ( x j , u j ),
j k n 1
其中 v j ( x j , u j ) 表示第j段的指标，它显然满足上述三个性质。递推关系式
可以写成
Vk vk ( xk , u k ) Vk 1
际过程都满足上述的无后效性，所以在构造决策过程的动态规划模型时，不能仅由描述过程的具体特征这点着眼去规定状态。
三、决策
一个阶段的状态给定以后，从该状态到下一阶段某个状态的一种选择（行动）称为决策。在最优控制中，也称为控制。在许多问题中，决策可以自然而然地表示为一个数或一组数，不同的决策对应着不同的数值。描述决策的变量称为决策变量（控制变量）。因为状态满足无后效性，故在每个阶段选择决策时只需要考虑当前的状态而无须考虑过程的历史，在第K阶段用态出发的决策集合，则 xk
p( x1 ) u1 ( x1 ),u2 ( x2 ),...,un ( xn )
换句话说，策略是在任意阶段作出决策的决策规则的集合，它仅
与阶段和在这个阶段过程的状态有关。从K阶段开始到终点的过程称为原过和的后部子过程（或称K子过
程），其决策函数序列
uk ( xk ),...,un ( xn ) 称K子过程策略，简称子策

动态规划

状态 B1 在决策 u2 ( B1 ) 作用下的一个新的状态，记作u2 ( B1 ) C2 . 4、策略策略是一个按顺序排列的决策组成的集合。由过程的第 k 阶段开始到终止状态为止的过程，称为问题的后部子过程（或称为 k 子过程）。
返回结束
动态规划
由每段的决策按照顺序排列组成的决策函数序列
k 1,2,, n.
对于动态规划模型的指标函数，应具有可分离性，并满足递推关系
Vk ,n k [ sk , uk ,Vk 1,n ( sk 1 ,, sn1 )]
在实际问题中指标函数都满足这个性质。常见的指标函数有下列两种形式（1）过程和任一子过程的指标是它所包含的各阶段指标的和，即
指标函数的最优值，称为最优值函数，记作 f k (sk ) 它表示从第 k 阶段的状态 sk 开始到第 n 阶段的终止状态的过程，采取最优策略所得到的指标函数值。即
f k ( sk ) opt Vk ,n ( sk , uk ,, sn1 )
uk ,,un
返回结束
动态规划
在不同的问题中，指标函数的含义不同，它可能是距离，利润，成本，产品的产量，资源消耗等。二、动态规划的基本思想和基本方程结合最短路问题介绍动态规划的基本思想。最短路线有一个重要特性，
这种递推关系式称为动态规划的基本方程。
返回
结束
动态规划
资源分配问题某工业部门根据国家计划的安排，将某种高效率的设备五台，分配给所属的甲、乙、丙三个工厂，各工厂若获得这种设备之后，可以为国家提供盈利如表2-2所示。
问这五台设备应如何分配给工厂，才能使国家得到的盈利最大。
返回
结束
动态规划
表2-2

动态规划的基本定理和基本方程

动态规划的基本定理和基本方程
动态规划发展的早期阶段，从简单逻辑出发给出了所谓最优性原理，然后在最优策略存在的前提下导出基本方程，再由这个方程求解最优策略。

后来在动态规划的应用过程中发现，最优性原理不是对任何决策过程普遍成立，它与基本方程不是无条件等价，二者之间也不存在任何确定的蕴含关系。

基本方程在动态规划中起着更为本质的作用。

[基本定理]
对于初始状态x1∈X1，策略p1n*={u1*,..u n*}是最优策略的充要条件是对
于任意的k,1<k<=n,有
[推论]
若p1n*∈P1n(x1)是最优策略，则对于任意的k,1<k<n，它的子策略p kn*对于由x1和p1,k-1*确定的以x k*为起点的第k到n后部子过程而言，也是最优策略。

上述推论称为最优化原理，它给出了最优策略的必要条件，通常略述为：不论过去的状态和决策如何，对于前面的决策形成的当前的状态而言，余下的各个决策必定构成最优策略。

根据基本定理的推论可以得到动态规划的基本方程：
其中是决策过程的终端条件，为一个已知函数。

当x n+1只取固定的状态时称固定终端；当x n+1可在终端集合X n+1中变动时称自由终端。

最终要求的最优指标函数满足(10)式：
(9)式是一个递归公式，如果目标状态确定，当然可以直接利用该公式递归求出最优值（这种递归方法将在后文介绍，称作备忘录法），但是一般在实际应用中我们通常将该递归公式改为递推公式求解，这样一般效率会更高一些。

运筹学：第6章：动态规划

动态规划问世之初，受计算技术水平的限制，对人们所关心的许多复杂问题难以进行处理。以后,随着计算技术的进步,动态规划的思想方法,在工程技术、企业管理、工农业生产以及军事等部门都有广泛的应用。例如在企业管理方面，动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存问题、装载问题、排序问题、设备更新问题、生产过程最优控制问题等等。
例6-4中，从s到t可以分成四个阶段：s～A(A有三种选择， A1或A2或A3)，A～B(B1或B2或B3)，B～C(C1或C2)，C～t，
因此k＝1，2，3，4。
2、状态表示每个阶段开始所处的自然状况或客观条件。
描述各阶段状态的变量称为状态变量，常用sk表示第k阶段的状态变量。
状态变量的取值有一定的允许集合或范围，此集合称为状态允许集合，第k阶段的可能状态集用Sk表示。
8
s6
4
A1
3 6
7
4
A2
3 5
B1 2
5
7
B2 4
C1
2 10
min7 6
12
6 2
A3 6
4 4
B3
C2
二、动态规划的数学模型
动态规划的数学模型可以描述如下：
opt V1,n (s1,u1, s2,u2,, sn ,un )
sk 1 Tk sk ,uk
uskk
Sk
sk
Dk
sk
k 1,2,,n
建立实际问题的动态规划模型一般可遵循以下步骤：
第一，按时间或空间顺序将多阶段决策问题划分为适当的阶段；
二、多阶段决策问题举例
【例6-1】生产与存贮问题。某工厂每月需供应市场一定数量的产品，并将所余产品存入仓库。一般某月适当增加产量可降低生产成本，但超产部分存入仓库会增加库存费用。要求确定一个逐月的生产计划，在满足需求的条件下，使一年的生产与存贮费用之和最小。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K=3 ……
7
k＝1 ＝ d(A ,B1) +f2(B1) f1(A)＝min ＝ d(A ,B2) +f2(B2) 5+13 ＝min 3+16
8
=18 u1(A)= B1
(三)基本方程三基本方程 fk(Sk)＝min{d(Sk , uk)+ fk+1(Sk+1)} k=6, …1 ＝ f7(S7)＝0 ＝或 fk(Sk)＝min{d(Sk , uk)+ fk+1(Sk+1)} k=5, …1 ＝ f6(S6)＝ min{d(S6 , u6)} ＝
0≤u5≤S5
u5 * =S5
14
K=4 f4(S4)＝ max{3u4+5S4 + f5(S5)} ＝
0 ≤ u4 ≤ S4
＝ max{3u4+5S4 +8(0.9S4- 0.2u4)}
0 ≤ u4 ≤ S4
＝ max{1.4u4+12.2S4}
0 ≤ u4 ≤ S4
＝ 13.6S4
u4 * =S4
2
(5)最优指标函数：最优指标函数：最优指标函数 fk (Sk)：第k段，在Sk状态时到终点的最状态时到终点G的最：段短距离 (6)阶段效益：阶段效益：阶段效益 d(Sk ，uk)为第段，采取策略 k 到下一状为第k段采取策略u 为第态的距离
3
例1 最短路径问题
1 5
C1
15
K=3 f3(S3)＝ max{3u3+5S3 + f4(S4)} ＝
0 ≤ u3 ≤ S3
＝ max{3u3+5S3 +13.6(0.9S3- 0.2u3)}
0 ≤ u3 ≤ S3
＝ max{0.28u3+17.24S3}
0 ≤ u3 ≤ S3
＝ 17.5S3
u3 * =S3
16
K=2 f2(S2)＝ max{20.7S2-0.5u2} ＝
§5.2
动态规划的基本概念和基本方程
(一)基本概念一基本概念 (1)阶段：k 阶段：阶段 (2)状态变量：Sk 状态变量：状态变量 (3)决策变量： uk(Sk) 决策变量：决策变量 (4)策略策略 (5)状态转移方程： Sk＋1 ＝T (Sk ， uk) 状态转移方程：＋状态转移方程 (6)指标函数： Vk，n (Sk) 指标函数：，指标函数 (7)最优指标函数： fk (Sk) 最优指标函数：最优指标函数
9
例2 已知某种完好的机器1000台，台已知某种完好的机器高负荷时低负荷时 S1=8y1 S2=5y2 a=0.7 b=0.9
问：每年初应如何安排分配机器，每年初应如何安排分配机器，可使得5年总收益最大？可使得年总收益最大？年总收益最大
10
解 (1)阶段：k=1,2,3,4,5 n=5 阶段：阶段 (2)状态变量 k ：第k年初始的完好设备数状态变量S 状态变量年初始的完好设备数 (3)决策变量 k：第k年初始分到高负荷下决策变量u 决策变量年初始分到高负荷下的机器数 Sk- uk：第k年初始分到低负荷下年初始分到低负荷下的机器数
1
(二)前例二前例前例1 (1)阶段：k＝1，2，…，6 n=6 阶段：＝，，，阶段 (2)状态变量：Sk－第k阶段所处的位置状态变量：状态变量阶段所处的位置状态集合如S2 : (B1 , B2) (3)决策变量 k ：在第段Sk状态时决定选决策变量u 在第k段决策变量取的下一段的某点 (4)状态转移方程：Sk＋1 ＝uk 状态转移方程＋
18
第四年567台投入高负荷台投入高负荷第四年 S5＝ 0.9S4-0.2u4＝ 0.7S4 ＝397 第五年397台投入高负荷台投入高负荷第五年基本方程 fk(Sk)＝OPT{d(Sk uk)+ fk+1(Sk+1)} k=n, …1 ＝ fk+1(Sk+1)＝0 ＝
19
12
基本方程 fk(Sk)＝max{d(Sk uk)+ fk+1(Sk+1)} k=5, …1 ＝ f6(S6)＝0 ＝
uk
即 fk(Sk)＝max{(3uk+5Sk)+ fk+1(0.9Sk- 0.2uk)} ＝
uk
k=4, …1 f5(S5)＝ max{3uk+5Sk} ＝
uk
13
K=5 f5(S5)＝ max{3u5+5S5}＝8S5 ＝＝
3 8
6 3 5
D1
2 2
E1
5 5 E2 2 6
3
B1
8
6 7 6
C2 C3 C4
F1
4
A
3
D2 1 3
2 3
G F2
6 3
B2
3 8 4
D3 3
E3
4
k＝6， f6(F1)＝4 f6(F2)＝3 ＝，＝＝ k＝5 ＝ d(E1 ,F1) +f6(F1) f5(E1)＝min )＝ d(E1 ,F2) +f6(F2) 3+4 ＝min 5+3
11
(4)状态转移方程：状态转移方程：状态转移方程 Sk＋1 ＝0.7 uk+0.9(Sk - uk)= 0.9Sk - 0.2 uk ＋ (5)最优指标函数：最优指标函数：最优指标函数 fk (Sk)—从第年末采取最优策略的最大收益从第k-5年末采取最优策略的最大收益从第 (6)一年收益：一年收益：一年收益 d(Sk , uk)=8uk+5(Sk - uk)= 3uk +5Sk
0 ≤ u2 ≤ S2
＝ 20.7S2 K=1 f1(S1)＝23.7 S1 ＝当S1＝1000时时
u2* =0
u1* =0 f1(1000)＝23700 ＝
17
结论第一年1000台投入低负荷台投入低负荷第一年 S2＝ 0.9S1-0.2u1＝ 0.9S1 ＝ 900 第二年900台投入低负荷第二年台投入低负荷 S3＝ 0.9S2-0.2u2＝ 0.9S2 ＝ 810 第三年810台投入高负荷台投入高负荷第三年 S4＝ 0.9S3-0.2u3＝ 0.7S3 ＝ 567
5
=7 u5(E1)= F1
同理 k＝4 ＝
f5(E2)＝5 u5(E2)＝ F2 ＝＝ f5(E3)＝9 u5(E3)＝ F2 ＝＝ d(D1 ,E1) +f5(E1)
f4(D1)＝min ＝ d(D1 ,E2) +f5(E2) 2+7 ＝min 2+5 =7 u4(D1)= E2
6
同理
f4(D2)＝6 u4(D2)＝ E2 ＝＝ f4(D3)＝8 u4(D3)＝ E2 ＝＝

5.2动态规划的基本概念和基本方程

合集下载

动态规划

动态规划的基本概念

动态规划的基本思想和基本方程

动态规划的基本原理和基本概念

2_1动态规划的基本方程和基本定理

动态规划的基本概念与方法

动态规划的基本概念

动态规划基本概念

动态规划算法

动态规划的基本概念和基本原理

动态规划的基本方程

运筹学第五章动态规划

动态规划的基本概念与算法设计

2_1动态规划的基本方程和基本定理

动态规划

动态规划的基本定理和基本方程

运筹学：第6章：动态规划

文档推荐

最新文档

5.2动态规划的基本概念和基本方程

合集下载

动态规划

动态规划的基本概念

动态规划的基本思想和基本方程

动态规划的基本原理和基本概念

2_1动态规划的基本方程和基本定理

动态规划的基本概念与方法

动态规划的基本概念

动态规划基本概念

动 态 规 划 算 法

动态规划的基本概念和基本原理

动态规划的基本方程

运筹学第五章动态规划

动态规划的基本概念与算法设计

2_1动态规划的基本方程和基本定理

动态规划

动态规划的基本定理和基本方程

运筹学：第6章：动态规划

文档推荐

最新文档

动态规划算法