4.策略(Policy) 由过程的第一阶段开始到最后一阶段为止称为问题的全
过程,由各阶段的决策uk (xk ) (i=1,2,…,n)构成的策略序列
称 为 全 过 程 策 略 ( 简 称 策 略 ) 记 为 P1,n , 即
P1,n (x1 ) u1 (x1 ), u2 (x2 ),, un (xn )
Vk,n ( xk , uk , xk1, uk1,, xn1 )
[xk , uk ,Vk1,n ( xk1,, xn1 )] (iii) [ xk , uk ,Vk1,n ( xk1,, xn1 )] 对于Vk1,n 来说是严
格单调的。 常见的收益函数是取各阶段收益之和形式:
xk
)) f k1 1,2,3,4
(uk
(
xk
))
这里 f k (xk ) 是 xk 到终点 Q 的最短距离,由xk 至终点 Q 还有k 段
路程。可以把阶段次序颠倒过来求解的多阶段决策过程为可逆过程。
贝尔曼(R.E.Bellman)最优性原理如下:
作为整个过程的最优策略具有这样的性质:即无论过去的状态和
n
Vk,n R j (x j , u j ) 它显然满足以上三个性质。 jk
收益函数是策略的函数,记为Vk,n ( xk , pk,n ( xk )) ,故递推关系
f3 (E ) min{ 6 f4 (C),4 f4 (F )} 8, u3 (E ) F;
第三步:k=2,状态变量可取 A、D,可计算出
f2 ( A) min{6 f3 (B),7 f3 (E)} 13, u2 ( A) B,
f2 (D) min{ 2 f3 (B),2 f3 (E)} 9, u2 (D) B;