第4章 最优性条件
- 格式:doc
- 大小:1.23 MB
- 文档页数:17
第4章 最优性条件§4.1 最优性条件的预备知识1.极小点的定义 无约束问题:1 (1)定义1(全局极小点)若存在nR x ∈使得n R x x f x f ∈∀≥ ),()(则称x 为问题(1)的全局极小点。
如果有x x R x x f x f n ≠∈∀>, ),()(则称x 为问题(1)的严格全局极小点。
定义2 (局部极小点)设nR x ∈,如果存在0>δ使得)( ),()(x N x x f x f δ∈∀≥则称x 为问题(1)的局部极小点。
如果有}/{)( ),()(x x N x x f x f δ∈∀>则称x 为问题(1)的严格局部极小点。
约束问题:)(min x f (2)s.t. m i x g i ,,1,0)( =≥l j x h j ,,1,0)( ==其中)( ),( ),(x h x g x f j i 都是定义在nR 上的实值连续函数,且至少有一个是非线性的。
称)(x f 为目标函数,)(x g i 为不等式约束函数,)( x h j 为等式约束函数。
(i) 如果0=m ,称(2)为等式约束优化问题; (ii) 如果0=l ,称(2)为不等式约束优化问题;(iii) 如果),,1)(( ),,,1)((l j x h m i x g j i ==都为线性函数,)(x f 是二次函数,则称(2)为二次规划问题。
若nR x ∈满足(2)的所有约束条件,称x 为(2)的可行点(或可行解)。
可行集(可行域):⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧=≥=≥=.,,1,0)(,,,1,0)(l j x h m i x g x S j i 。
定义3 (全局极小点)设S x ∈使得 S x x f x f ∈∀≥ ),()(成立,则称x 为问题(2)的全局极小点。
如果有x x S x x f x f ≠∈∀>, ),()(成立,则称x 为问题(2)的严格全局极小点。
定义4 (局部极小点)设S x ∈,如果存在0>δ使得S x N x x f x f )( ),()(δ∈∀≥成立,则称x 为问题(2)的局部极小点。
如果有x x S x N x x f x f ≠∈∀>,)( ),()( δ成立,则称x 为问题(2)的严格局部极小点。
2. 内容安排■ 求全局极小点一般来说相当困难。
实际上可行的只是求一个局部(或严格局部)极小点。
故本课程后面所指极小点,通常指求局部极小点。
■ 仅当问题为凸规划(即目标函数)(x f 为凸函数,不等式约束函数m i x g i ,,1 ),( =-为凸函数,等式约束函数l j x h j ,,1 ),( =为线性函数)时,局部极小点才是全局极小点。
■ 按定义验证最优解是不可能的。
因此有必要给出只依赖于在x 处目标函数和约束函数信息的、且与定义等价的条件。
这样的条件称其为最优性条件,它们是各种基于梯度算法的理论基础。
§4.2 无约束问题的最优性条件考虑无约束问题(1),回忆当R x ∈时,即单变量函数极值问题的最优性条件: 必要条件:若R x ∈且)(x f 在x 处取到极值,如果)(x f 在x 可微,则x 为)(x f 的驻点,即满足0)('=x f 。
充分条件:若R x ∈且)(x f 在x 处可微,如果0)('=x f 且0)(''>x f ,则)(x f 在x 处取到极小值;如果0)('=x f 且0)(''<x f ,则)(x f 在x 处取到极大值。
x x*3:x 为全局极大点; *4:x 为严格局部极大点。
定理1 (一阶必要条件):设nR x ∈为函数)(x f 在nR 的局部极小点,且)(x f 在x 可微,则0)(=∇x f 。
证明 利用§4.0中的定理1可证。
几何解释:若x 为局部极小点,则)(x f 在x 处不能有下降方向。
从而,当0)(≠∇x f 时,)(x f ∇-为)(x f 在x 处的一个下降方向,故若n R x ∈为函数)(x f 在n R 的极值点,必有0)(=∇x f 。
定理2 (二阶必要条件):设nR x ∈为函数)(x f 在nR 的局部极小点,且)(x f 在x 二阶可微,则有0)(=∇x f ,且)(2x f ∇半正定证明:利用)(x f 在x 的二阶Taylor 展开及局部极小点的定义可得。
几何解释:由x 为局部极小点及0)(=∇x f 所确定。
定理3 (二阶充分条件):设)(x f 是定义在nR 上的二次可微函数,如果0)(=∇x f ,且)(2x f ∇正定,则x 为函数)(x f 在n R 的严格局部极小点。
证明 利用)(x f 在x 的二阶Taylor 展开及正定矩阵的定义可得。
注:满足0)(=∇x f 的点称为)(x f 的平稳点或驻点。
驻点可能是极大值点,也可能是极小值点,也可能不是极值点。
但若目标函数为凸函数,则驻点就是全局极小值点;若目标函数为凹函数,则驻点就是全局极大值点。
定理4 (凸充分性定理):设)(x f 是定义在nR 上的凸函数,如果0)(=∇x f ,则x 为函数)(x f 在nR 上的全局极小点。
(一阶必要条件+凸性) 证明 利用可微凸函数的一阶判别条件和0)(=∇x f 易证。
例:利用极值条件求解12232313131)(min 2x x x x x f Rx --+=∈ 解:1211-=∂∂x x f ,22222x x x f -=∂∂ 令0)(=∇x f ,即0121=-x ,02222=-x x 。
得到驻点:⎥⎦⎤⎢⎣⎡=01)1(x ,⎥⎦⎤⎢⎣⎡=21)2(x ,⎥⎦⎤⎢⎣⎡-=01)3(x ,⎥⎦⎤⎢⎣⎡-=21)4(xHesse 矩阵: ⎥⎦⎤⎢⎣⎡-=∇22002)(212x x x f在点)4()3()2()1(,,,xx x x 处Hesse 矩阵:⎥⎦⎤⎢⎣⎡-=∇2002)()1(2x f ,⎥⎦⎤⎢⎣⎡=∇2002)()2(2x f ⎥⎦⎤⎢⎣⎡--=∇2002)()3(2x f ,⎥⎦⎤⎢⎣⎡-=∇2002)()4(2x f )()1(2x f ∇和)()4(2x f ∇不定,根据定理2,)4()1(,x x 不是极小点;)()3(2x f ∇负定,)3(x 是极大点;)()2(2x f ∇正定,根据定理3,)2(x是局部极小点。
§4.3 约束问题的极值条件4.3.1 一阶最优性条件引入记号:},,1{l E =――等式约束指标集},,1{m I =――不等式约束指标集 定义1: 对(2)的任何可行解S x ∈~,若I i x g i∈=,0)~(,称第i 个不等式约束在x ~处是紧的,称集合},0)~(|{)~(I i x g i x I i ∈==为不等式约束中在x ~处的紧约束指标集。
称 )~()~(x I E x A =是在x ~处的积极集合(有效约束指标集,或紧约束指标集)。
可行集上一点是否为局部极小点, 取决于目标函数在该点以及附近其它可行点上的值。
可行方向在推导最优性条件中起十分重要的作用。
各种可行方向的定义:定义2: 设S x ∈,nR d ∈≠0,如果存在0>δ,使得S d x ∈+λ,),0( δλ∈∀则称d 是集合S 在x 处的可行方向。
S 在x 处的可行方向的集合记为),(S x FD 。
问题:问),(n R x FD ?(}0/{),(n n R R x FD =)例1: 考虑集合}|{21221x x R x S =∈=,}|{21222x x R x S ≥∈=在点Tx )0 ,0(=处的可行方向集,则∅=),(1S x FD}0,|),{(),(21212>∈=d R d d d S x FD定义3: 设S x ∈,nR d ∈,如果E j x h d j T ∈=∇ ,0)(; )( ,0)(x I i x g d i T ∈≥∇则称d 是集合S 在x 处的线性化可行方向。
S 在x 处的线性化可行方向的集合记为),(S x LFD 。
定义4: 设S x ∈,nR d ∈,如果存在序列}{k d 和}{k δ,其中0>k δ,使得S d x k k ∈+δ,k ∀且有d d k→和0→k δ,则称d 是集合S 在x 处的序列可行方向。
S 在x 处的所有序列可行方向的集合记为),(S x SFD 。
xx x x d kk k --=∞→lim注:可行方向为几何概念,线性化可行方向为代数概念,序列可行方向是基于极限定义的几何概念。
例2 }|{2122x x R x S =∈=,取T x )0 ,0(=,则∅=),(S x FD}|)0,{(),(11R d d S x LFD ∈=}|)0,{(),(11R d d S x SFD ∈=上述定义的三个可行方向集有如下关系: 引理1 设S x ∈,如果所有的约束函数在x 处可微,则有),(),(),(S x LFD S x SFD S x FD ⊆⊆。
注:该结论条件可以放宽为)()(x I i x g i ∈,,)( x h j ,l j ,,1 =在x 处可微,其余不等式约束函数)()(x I i x g i ∉,在x 处连续。
引理2 (几何最优性条件-必要):设S x ∈是(2)的局部极小点,如果)(x f 在x 处可微,则必有),( ,0)(S x SFD d x f d T ∈∀≥∇证明 利用目标函数)(x f 在k k d x δ+处的一阶Taylor 展开,序列可行方向的定义及局部极小点的定义可证。
注:该定理也可表述为:S x ∈是(2)的局部极小点,则∅=<∇),(}0)(|{S x SFD x f d d T 。
第一个集合表示目标函数在x 处的一个下降方向的子集,即该下降方向的子集与序列可行方向无公共元素。
定理1:设S x ∈是(2)的局部极小点,如果目标函数和所有的约束函数在x 处可微,且),(),(S x LFD S x SFD = (3)则必存在I i w i ∈ ,和E j v j ∈ ,使得0)()()(11=∇-∇-∇∑∑==lj j j mi i i x h v x g w x f (梯度条件)(4a ) 0)( ,0=≥x g w w i i i ,m i ,,1 = (互补松弛条件)(4b )该定理的另外一种等价表示(基于该等价表示可以看出K-T 最优性条件的几何意义): 定理'1: 设S x ∈是(2)的局部极小点,如果目标函数和所有的约束函数在x 处可微,且),(),(S x LFD S x SFD =则必存在)( ,0x I i w i ∈≥和E j v j ∈ ,使得0)()()(1)(=∇-∇-∇∑∑=∈lj jjx I i iix h v x g w x f (5)证明思路:(4a)-(4b)由Kuhn ,Tuck (1951)给出,一般称为K-T 条件,因Karush (1939)也类似地考虑了约束优化的最优性条件,所以也称K-K-T 条件。