动态规划2
- 格式:docx
- 大小:264.40 KB
- 文档页数:58
1. 资源问题1-----机器分配问题f[i,j]:=max(f[i-1,k]+w[i,j-k]);2. 资源问题2------01背包问题f[i,j]:=max(f[i-1,j-v[i]]+w[i],f[i-1,j]);3. 线性动态规划1-----朴素最长非降子序列f[i]:=max{f[j]+1}4. 剖分问题1-----石子合并f[i,j]:=min(f[i,k]+f[k+1,j]+sum[i,j]);5. 剖分问题2-----多边形剖分f[i,j]:=min(f[i,k]+f[k,j]+a[k]*a[j]*a[i]);6. 剖分问题3------乘积最大f[i,j]:=max(f[k,j-1]*mult[k,i]);7. 资源问题3-----系统可靠性(完全背包)f[i,j]:=max{f[i-1,j-c[i]*k]*P[I,x]};8. 贪心的动态规划1-----快餐问题f[i,j,k]:=max{f[i-1,j',k']+(T[i]-(j-j')*p1-(k-k')*p2) div p3};9. 贪心的动态规划2-----过河f[i]=min{{f(i-k)} (not stone[i]){f(i-k)}+1} (stone[i]); +贪心压缩状态10. 剖分问题4-----多边形-讨论的动态规划F[i,j]:=max{正正f[I,k]*f[k+1,j];负负g[I,k]*f[k+1,j];正负g[I,k]*f[k+1,j];负正f[I,k]*g[k+1,j];} g为min11. 树型动态规划1-----加分二叉树(从两侧到根结点模型)F[i,j]:=max{f[i,k-1]*f[k+1,j]+c[k]};12. 树型动态规划2-----选课(多叉树转二叉树,自顶向下模型)f[i,j]表示以i为根节点选j门功课得到的最大学分f[i,j]:=max{f[t[i].l,k]+f[t[i].r,j-k-1]+c[i]};13. 计数问题1-----砝码称重f[f[0]+1]=f[j]+k*w[j];(1<=i<=n; 1<=j<=f[0]; 1<=k<=a[i];)14. 递推天地1------核电站问题f[-1]:=1; f[0]:=1;f[i]:=2*f[i-1]-f[i-1-m];15. 递推天地2------数的划分f[i,j]:=f[i-j,j]+f[i-1,j-1];16. 最大子矩阵1-----一最大01子矩阵f[i,j]:=min(f[i-1,j],v[i,j-1],v[i-1,j-1])+1;ans:=maxvalue(f);17. 判定性问题1-----能否被4整除g[1,0]:=true; g[1,1]:=false; g[1,2]:=false; g[1,3]:=false; g[i,j]:=g[i-1,k] and ((k+a[i,p]) mod 4 = j)18. 判定性问题2-----能否被k整除f[i,j±n[i] mod k]:=f[i-1,j]; -k<=j<=k; 1<=i<=n20. 线型动态规划2-----方块消除游戏f[i,i-1,0]:=0f[i,j,k]:=max{f[i,j-1,0]+sqr(len(j)+k), //dof[i,p,k+len[j]]+f[p+1,j-1,0] //not do}; ans:=f[1,m,0];21. 线型动态规划3-----最长公共子串,LCS问题f[i,j]=0 (i=0)&(j=0);f[i-1,j-1]+1 (i>0,j>0,x[i]=y[j]);max{f[i,j-1]+f[i-1,j]}} (i>0,j>0,x[i]<>y[j]);22. 最大子矩阵2-----最大带权01子矩阵O(n^2*m)枚举行的起始,压缩进数列,求最大字段和,遇0则清零23. 资源问题4-----装箱问题(判定性01背包)f[j]:=(f[j] or f[j-v[i]]);24. 数字三角形1-----朴素の数字三角形f[i,j]:=max(f[i+1,j]+a[I,j],f[i+1,j+1]+a[i,j]);25. 数字三角形2-----晴天小猪历险记之Hill同一阶段上暴力动态规划f[i,j]:=min(f[i,j-1],f[i,j+1],f[i-1,j],f[i-1,j-1])+a[i,j];26. 双向动态规划1数字三角形3-----小胖办证f[i,j]:=max(f[i-1,j]+a[i,j],f[i,j-1]+a[i,j],f[i,j+1]+a[i,j]);27. 数字三角形4-----过河卒//边界初始化f[i,j]:=f[i-1,j]+f[i,j-1];28. 数字三角形5-----朴素的打砖块f[i,j,k]:=max(f[i-1,j-k,p]+sum[i,k],f[i,j,k]);29. 数字三角形6-----优化的打砖块f[i,j,k]:=max{g[i-1,j-k,k-1]+sum[i,k]};30. 线性动态规划3-----打鼹鼠’f[i]:=f[j]+1;(abs(x[i]-x[j])+abs(y[i]-y[j])<=t[i]-t[j]);31. 树形动态规划3-----贪吃的九头龙f[i,j,k]:=min(f[x1,j1,1]+f[x2,j-j1-1,k]+d[k,1]*cost[i,fa[i]]] {Small Head}, f[x1,j1,0]+f[x2,j-j1,k]+d[k,0]*cost[i,fa[i]] {Big Head});f[0,0,k]:=0; f[0,j,k]:=max(j>0)d[i,j]:=1 if (i=1) and (j=1)1 if (i=0) and (j=0) and (M=2)0 else32. 状态压缩动态规划1-----炮兵阵地Max(f[Q*(r+1)+k],g[j]+num[k]);If (map[i] and plan[k]=0) and((plan[P] or plan[q]) and plan[k]=0);33. 递推天地3-----情书抄写员f[i]:=f[i-1]+k*f[i-2];34. 递推天地4-----错位排列f[i]:=(i-1)(f[i-2]+f[i-1]);f[n]:=n*f[n-1]+(-1)^(n-2);35. 递推天地5-----直线分平面最大区域数f[n]:=f[n-1]+n:=n*(n+1) div 2 + 1;36. 递推天地6-----折线分平面最大区域数f[n]:=(n-1)(2*n-1)+2*n;37. 递推天地7-----封闭曲线分平面最大区域数f[n]:=f[n-1]+2*(n-1);:=sqr(n)-n+2;38 递推天地8-----凸多边形分三角形方法数f[n]:=C(2*n-2,n-1) div n;对于k边形f[k]:=C(2*k-4,k-2) div (k-1); //(k>=3)39 递推天地9-----Catalan数列一般形式1,1,2,5,14,42,132f[n]:=C(2k,k) div (k+1);40 递推天地10-----彩灯布置排列组合中的环形染色问题f[n]:=f[n-1]*(m-2)+f[n-2]*(m-1); (f[1]:=m; f[2]:=m(m-1);41 线性动态规划4-----找数线性扫描sum:=f[i]+g[j];(if sum=Aim then getout; if sum<Aim then inc(i) else inc(j);)42 线性动态规划5-----隐形的翅膀min:=min{abs(w[i]/w[j]-gold)};if w[i]/w[j]<gold then inc(i) else inc(j);43 剖分问题5-----最大奖励f[i]:=max(f[i],f[j]+(sum[j]-sum[i])*i-t;44 最短路1-----Floydf[i,j]:=max(f[i,j],f[i,k]+f[k,j]);ans[q[i,j,k]]:=ans[q[i,j,k]]+s[i,q[i,j,k]]*s[q[i,j,k],j]/s[i,j];45 剖分问题6-----小H的小屋F[l,m,n]:=f[l-x,m-1,n-k]+S(x,k);46 计数问题2-----陨石的秘密(排列组合中的计数问题)Ans[l1,l2,l3,D]:=f[l1+1,l2,l3,D+1]-f[l1+1,l2,l3,D];F[l1,l2,l3,D]:=Sigma(f[o,p,q,d-1]*f[l1-o,l2-p,l3-q,d]);47 线性动态规划------合唱队形两次F[i]:=max{f[j]+1}+枚举中央结点48 资源问题------明明的预算方案:加花的动态规划f[i,j]:=max(f[i,j],f[l,j-v[i]-v[fb[i]]-v[fa[i]]]+v[i]*p[i]+v[fb[i]]*p[fb[i]]+v[fa[i]]*p[fa[i]]);49 资源问题-----化工场装箱员50 树形动态规划-----聚会的快乐f[i,2]:=max(f[i,0],f[i,1]);f[i,1]:=sigma(f[t[i]^.son,0]);f[i,0]:=sigma(f[t[i]^.son,3]);51 树形动态规划-----皇宫看守f[i,2]:=max(f[i,0],f[i,1]);f[i,1]:=sigma(f[t[i]^.son,0]);f[i,0]:=sigma(f[t[i]^.son,2]);52 递推天地-----盒子与球f[i,1]:=1;f[i,j]:=j*(f[i-1,j-1]+f[i-1,j]);53 双重动态规划-----有限的基因序列f[i]:=min{f[j]+1}g[c,i,j]:=(g[a,i,j] and g[b,i,j]) or (g[c,i,j]);54 最大子矩阵问题-----居住空间f[i,j,k]:=min(min(min(f[i-1,j,k],f[i,j-1,k]),min(f[i,j,k-1],f[i-1,j-1,k])),min(min(f[i-1,j,k-1],f[i,j-1,k-1] ),f[i-1,j-1,k-1]))+1;55 线性动态规划------日程安排f[i]:=max{f[j]}+P[I]; (e[j]<s[i])56 递推天地------组合数C[i,j]:=C[i-1,j]+C[i-1,j-1];C[i,0]:=157 树形动态规划-----有向树k中值问题F[I,r,k]:=max{max{f[l[i],I,j]+f[r[i],I,k-j-1]},f[f[l[i],r,j]+f[r[i],r,k-j]+w[I,r]]};58 树形动态规划-----CTSC 2001选课F[I,j]:=w[i](if i∈P)+f[l[i],k]+f[r[i],m-k](0≤k≤m)(if l[i]<>0);59 线性动态规划-----多重历史f[i,j]:=sigma{f[i-k,j-1]}(if checked);60 背包问题(+-1背包问题+回溯)-----CEOI1998 Substractf[i,j]:=f[i-1,j-a[i]] or f[i-1,j+a[i]];61 线性动态规划(字符串)-----NOI 2000 古城之谜f[i,1,1]:=min{f[i+length(s),2,1], f[i+length(s),1,1]+1};f[i,1,2]:=min{f[i+length(s),1,2]+words[s],f[i+length(s),1,2]+words[s]};62 线性动态规划-----最少单词个数f[i,j]:=max{f[i,j],f[u-1,j-1]+l};63 线型动态规划-----APIO2007 数据备份状态压缩+剪掉每个阶段j前j*2个状态和j*2+200后的状态贪心动态规划f[i]:=min(g[i-2]+s[i],f[i-1]);64 树形动态规划-----APIO2007 风铃f[i]:=f[l]+f[r]+{1 (if c[l]<c[r])};g[i]:=1(d[l]<>d[r]) 0(d[l]=d[r]);g[l]=g[r]=1 then Halt;65 地图动态规划-----NOI 2005 adv19910F[t,i,j]:=max{f[t-1,i-dx[d[[t]],j-dy[d[k]]]+1],f[t-1,i,j];66 地图动态规划-----优化的NOI 2005 adv19910F[k,i,j]:=max{f[k-1,i,p]+1} j-b[k]<=p<=j;67 目标动态规划-----CEOI98 subtraF[I,j]:=f[I-1,j+a[i]] or f[i-1,j-a[i]];68 目标动态规划----- Vijos 1037搭建双塔问题F[value,delta]:=g[value+a[i],delta+a[i]] or g[value,delta-a[i]];69 树形动态规划-----有线电视网f[i,p]:=max(f[i,p],f[i,p-q]+f[j,q]-map[i,j]);leaves[i]>=p>=l, 1<=q<=p;70 地图动态规划-----vijos某题F[i,j]:=min(f[i-1,j-1],f[i,j-1],f[i-1,j]);71 最大子矩阵问题-----最大字段和问题f[i]:=max(f[i-1]+b[i],b[i]); f[1]:=b[1];72 最大子矩阵问题-----最大子立方体问题枚举一组边i的起始,压缩进矩阵B[I,j]+=a[x,I,j];枚举另外一组边的其实,做最大子矩阵73 括号序列-----线型动态规划f[i,j]:=min(f[i,j],f[i+1,j-1] (s[i]s[j]=”()”or(”[]”)),f[i+1,j+1]+1 (s[j]=”(”or”[” ) , f[i,j-1]+1(s[j]=”)”or”]”);74 棋盘切割-----线型动态规划f[k,x1,y1,x2,y2]=min{min{f[k-1,x1,y1,a,y2]+s[a+1,y1,x2,y2],f[k-1,a+1,y1,x2,y2]+s[x1,y1,a,y2]};75 概率动态规划-----聪聪和可可(NOI2005)x:=p[p[i,j],j];f[I,j]:=(f[x,b[j,k]]+f[x,j])/(l[j]+1)+1;f[I,i]=0;f[x,j]=1;76 概率动态规划-----血缘关系F[A, B]=(f[A0, B]+P[A1, B])/2;f[i,i]=1;f[i,j]=0;(i,j无相同基因)77 线性动态规划-----决斗F[i,j]=(f[i,j] and f[k,j]) and (e[i,k] or e[j,k]); (i<k<j)78 线性动态规划-----舞蹈家F[x,y,k]=min(f[a[k],y,k+1]+w[x,a[k]],f[x,a[k],k+1]+w[y,a[k]]);79 线性动态规划-----积木游戏F[i,a,b,k]=max(f[a+1,b,k],f[i+1,a+1,a+1,k],f[i,a+1,a+1,k]);80 树形动态规划(双次记录)-----NOI2003 逃学的小孩朴素的话枚举节点i和离其最远的两个节点j,k O(n^2)每个节点记录最大的两个值,并记录这最大值分别是从哪个相邻节点传过来的。
动态规划的基本原理和基本应用
一、动态规划的基本原理
动态规划(Dynamic Programming)是一种运用在运筹学中的一种数
学规划方法。
它的基本思路是:将一个复杂的求解问题分解成若干个更简
单的子问题,再从这些子问题出发,求出各子问题的解,回溯到原问题求
出原问题的解,通常情况下,动态规划的核心是对于每一个子问题只求解
一次,存储子问题的解,避免了重复求解子问题。
1.最优子结构性质:具有最优子结构性质的问题可以用动态规划求解,即如果一些问题的求解最优解由其子问题的最优解组合而成,那么该问题
也是最优的;
2.重复子问题性质:具有重复子问题性质的问题可以用动态规划求解,即一些问题的解可以由重复的子问题的解组合而成;
3.边界条件:求解动态规划的问题要求有边界条件,即知道求解问题
的初始和终止条件;
4.最优化原理:即求解问题的全局最优解可以由求子问题的最优解组
合而成,求解问题从最优解的最终状态开始,逐渐迭代至初始状态;
5.无后效性:即状态仅取决于其之前的几个状态,不受其之后状态的
影响。
二、动态规划的基本应用
1.适用于短路径问题:在交通运输、通信网络中。
动态规划的三个实施步骤什么是动态规划动态规划(Dynamic Programming)是一种解决复杂问题的算法思想,它通常用于求解最优化问题。
动态规划的核心思想是将复杂问题分解成较简单的子问题,并通过子问题的最优解推导出原问题的最优解。
动态规划的三个实施步骤动态规划的实施步骤通常包括以下三个阶段:1.划分阶段:将原问题划分成若干个子问题,通过划分可以简化问题的复杂度。
2.确定状态:定义状态表示问题的不同阶段和状态,以及状态之间的关系。
状态的选择对最终解决问题的效率和准确性有很大影响。
3.推导方程:根据子问题的最优解和状态之间的关系,推导出原问题的最优解,并通过递推和迭代求解。
下面将详细介绍每个步骤。
1. 划分阶段在划分阶段,我们需要将原问题划分成若干个子问题。
通常,问题的划分可以基于以下两种方式之一:•递归划分:将原问题拆分成规模更小的相同类型的子问题,直到问题规模较小,可以直接得到解答。
•迭代划分:通过迭代的方式,逐步处理原问题的不同阶段,每个阶段都可以看作是一个子问题。
划分阶段可以大大减少问题的复杂度,使得问题的求解更加可行和高效。
2. 确定状态确定状态是动态规划的核心步骤,它需要定义状态并建立状态之间的关系。
状态表示问题的不同阶段和状态,以及状态之间的关联关系。
在确定状态时,通常需要考虑以下几个因素:•问题的边界状态:例如,问题的起始状态和最终状态。
•中间状态的定义:例如,问题的中间阶段的状态。
•状态之间的转移方程:即状态之间的关联关系,包括过程中的选择和决策。
通过合理地确定状态,可以将复杂问题简化成易于求解的子问题,并能够快速推导出原问题的最优解。
3. 推导方程在推导方程阶段,我们通过子问题的最优解和状态之间的关系,推导出原问题的最优解。
根据问题的具体特点和状态定义,推导方程可以采用不同的方式,例如:•递推方程:通过递归地求解子问题,逐步推导出原问题的最优解。
•迭代方程:通过迭代地更新状态,逐步得到原问题的最优解。
动态规划Dynamic ProgrammingStarfish (starfish.h@)摘要本文介绍了动态规划的基本思想和基本步骤,通过实例研究了利用动态规划设计算法的具体途径,讨论了动态规划的一些实现技巧,并将动态规划和其他一些算法作了比较,最后还简单介绍了动态规划的数学理论基础和当前最新的研究成果。
目录∙引言∙动态规划的基本概念∙动态规划的基本定理和基本方程∙动态规划的适用条件∙动态规划的基本思想∙动态规划的基本步骤∙动态规划的实例分析∙动态规划的技巧∙动态规划实现中的问题∙动态规划与其他算法的比较∙动态规划的理论基础∙其他资料参考文献∙现代计算机常用数据结构和算法,潘金贵编著,南京大学出版社,1992∙算法与数据结构,傅清祥王晓东编著,电子工业出版社,1998∙现代应用数学手册——运筹学与最优化理论卷,清华大学出版社,1998∙运筹学基础,张莹,清华大学出版社,1995∙Dictionary of Algorithms, Data Structures, and Problems ,Paul E. Black ,/dads/ , 下载该网站的镜像(1,682KB)∙以下是来自IOI国家集训队的论文:o动态规划,方奇(下载压缩过的MS Word文档)o把握本质,灵活运用——动态规划的深入探讨,来煜坤(下载压缩过的MS Word文档)o动态规划的深入讨论,李刚(下载压缩过的MS Word文档)o动态规划的特点及其应用,张辰(下载压缩过的MS Word文档)∙AXIOMS FOR DYNAMIC PROGRAMMING , Prakash P. Shenoy ,1996 (下载压缩过的PDF文档)∙Dynamic Programming: a different perspective , Sharon Curtis, (下载压缩过的PDF文档)一.动态规划的基本概念动态规划的发展及研究内容动态规划(dynamic programming)是运筹学的一个分支,是求解决策过程(decision process)最优化的数学方法。
20世纪50年代初美国数学家R.E.Bellman等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优化原理(principle of optimality),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法——动态规划。
1957年出版了他的名著Dynamic Programming,这是该领域的第一本著作。
动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。
例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。
虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解。
多阶段决策问题多阶段决策过程,是指这样的一类特殊的活动过程,问题可以按时间顺序分解成若干相互联系的阶段,在每一个阶段都要做出决策,全部过程的决策是一个决策序列。
要使整个活动的总体效果达到最优的问题,称为多阶段决策问题。
例1是一个多阶段决策问题的例子,下面是另一个多阶段决策问题的例子:[例2]生产计划问题工厂生产某种产品,每单位(千件)的成本为1(千元),每次开工的固定成本为3(千元),工厂每季度的最大生产能力为6(千件)。
经调查,市场对该产品的需求量第一、二、三、四季度分别为 2,3,2,4(千件)。
如果工厂在第一、二季度将全年的需求都生产出来,自然可以降低成本(少付固定成本费),但是对于第三、四季度才能上市的产品需付存储费,每季每千件的存储费为0.5(千元)。
还规定年初和年末这种产品均无库存。
试制订一个生产计划,即安排每个季度的产量,使一年的总费用(生产成本和存储费)最少。
决策过程的分类根据过程的时间变量是离散的还是连续的,分为离散时间决策过程(discrete-time decision process),即多阶段决策过程和连续时间决策过程(continuous-time decision process);根据过程的演变是确定的还是随机的,分为确定性决策过程(deterministic decision process)和随机性决策过程(stochastic decision process),其中应用最广的是确定性多阶段决策过程。
动态规划模型的基本要素一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素:1.阶段阶段(step)是对整个过程的自然划分。
通常根据时间顺序或空间特征来划分阶段,以便按阶段的次序解优化问题。
阶段变量一般用k=1,2,..,n表示。
在例1中由A出发为k=1,由Bi (i=1,2)出发为k=2,依此下去从Di(i=1,2,3)出发为k=4,共n=4个阶段。
在例2中按照第一、二、三、四季度分为k=1,2,3,4,共4个阶段。
2.状态状态(state)表示每个阶段开始时过程所处的自然状况。
它应该能够描述过程的特征并且具有无后向性,即当某阶段的状态给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态都是过去历史的一个完整总结。
通常还要求状态是直接或间接可以观测的。
描述状态的变量称状态变量(state variable)。
变量允许取值的范围称允许状态集合(set of admissible states)。
用xk表示第k阶段的状态变量,它可以是一个数或一个向量。
用Xk 表示第k阶段的允许状态集合。
在例1中x2可取B1,B 2,X2={B1,B2}。
n个阶段的决策过程有n+1个状态变量,xn+1表示xn演变的结果,在例1中x5取E。
根据过程演变的具体情况,状态变量可以是离散的或连续的。
为了计算的方便有时将连续变量离散化;为了分析的方便有时又将离散变量视为连续的。
状态变量简称为状态。
3.决策当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个状态,这种选择手段称为决策(decision),在最优控制问题中也称为控制(control)。
描述决策的变量称决策变量(decision variable)。
变量允许取值的范围称允许决策集合(set of admissible decisions)。
用u k (x k )表示第k 阶段处于状态x k 时的决策变量,它是x k 的函数,用U k (x k )表示了x k 的允许决策集合。
在例1中u 2(B 1)可取C 1,C 2,C 3。
决策变量简称决策。
4.策略决策组成的序列称为策略(policy)。
由初始状态x 1开始的全过程的策略记作p 1n (x 1),即p 1n (x 1)={u 1(x 1),u 2(x 2),...,u n (x n )}。
由第k 阶段的状态x k 开始到终止状态的后部子过程的策略记作p kn (x k ),即p kn (x k )={u k (x k ),u k+1(x k+1),...,u n (x n )}。
类似地,由第k 到第j 阶段的子过程的策略记作p kj (x k )={u k (x k ),u k+1(x k+1),...,u j (x j )}。
对于每一个阶段k 的某一给定的状态x k ,可供选择的策略p kj (x k )有一定的范围,称为允许策略集合(set of admissible policies),用P 1n (x 1),P kn (x k ),P kj (x k )表示。
5.状态转移方程在确定性过程中,一旦某阶段的状态和决策为已知,下阶段的状态便完全确定。
用状态转移方程(equation of state)表示这种演变规律,写作在例1中状态转移方程为:x k+1=u k (x k )6.指标函数和最优值函数指标函数(objective function)是衡量过程优劣的数量指标,它是关于策略的数量函数,从阶段k 到阶段n 的指标函数用V kn (x k ,p kn (x k ))表示,k=1,2,...,n 。
能够用动态规划解决的问题的指标函数应具有可分离性,即V kn 可表为x k ,u k ,V k+1 n 的函数,记为:其中函数是一个关于变量V k+1 n 单调递增的函数。
这一性质保证了最优化原理(principle of optimality)的成立,是动态规划的适用前提。
过程在第j 阶段的阶段指标取决于状态x j 和决策u j ,用v j (x j ,u j )表示。
阶段k 到阶段n 的指标由v j (j=k,k+1,..n)组成,常见的形式有: 阶段指标之和,即阶段指标之积,即阶段指标之极大(或极小),即这些形式下第k 到第j 阶段子过程的指标函数为V kj (x k ,u k ,x k+1,...,x j+1)。
可以发现,上述(3)-(5)三个指标函数的形式都满足最优性原理。
在例1中指标函数为(3)的形式,其中v j (x j ,u j )是边<x j ,u j (x j )>的权(边的长度),u j (x j )表示从x j 出发根据决策u j (x j )下一步所到达的节点。
根据状态转移方程,指标函数V kn 还可以表示为状态x k 和策略p kn 的函数,即V kn (x k ,p kn )。
在x k 给定时指标函数V kn 对p kn 的最优值称为最优值函数(optimal value function),记作f k (x k ),即其中opt 可根据具体情况取max 或min 。
上式的意义是,对于某个阶段k 的某个状态x k ,从该阶段k 到最终目标阶段n 的最优指标函数值等于从x k 出发取遍所有能策略p kn 所得到的最优指标值中最优的一个。
7.最优策略和最优轨线使指标函数V kn 达到最优值的策略是从k 开始的后部子过程的最优策略,记作p kn *={u k *,..u n *},p 1n *又是全过程的最优策略,简称最优策略(optimal policy)。
从初始状态x 1(=x 1*)出发,过程按照p 1n *和状态转移方程演变所经历的状态序列{x 1*,x 2*,..,x n+1*}称最优轨线(optimal trajectory)。
二 。
动态规划的基本定理和基本方程动态规划发展的早期阶段,从简单逻辑出发给出了所谓最优性原理,然后在最优策略存在的前提下导出基本方程,再由这个方程求解最优策略。
后来在动态规划的应用过程中发现,最优性原理不是对任何决策过程普遍成立,它与基本方程不是无条件等价,二者之间也不存在任何确定的蕴含关系。