最优化之最速下降法.

格式：ppt
大小：3.22 MB
文档页数：16

下载文档原格式

最优化方法第二章_线搜索算法_最速下降法

f x1 , x2 c, c>0,
2
改写为：
x12 2c 1

2 x2

2c 2
2
1
二、最速下降法
x2
这是以
2c
1
和
2c
2
为半轴的椭圆
2c
2c
2
2
从下面的分析可见两个特征值的相对
x1
大小决定最速下降法的收敛性。
（1）当 1 2 时，等值线变为圆
2 2
4 f x , 2
2 x1 2 x2 4 f ( x) , 2 x1 +4x2
4 d = f x , 2
0 0
=40 2 20 3 令 0= ' ( ) 80 20, 得 0 =1/4,
一
一维搜索
二三四
下降算法
五
最速下降法 Newton法共轭梯度法
多尺度法（拟Newton法）
二、最速下降法假设 f 连续可微，取线搜索方向
k
d f ( x )
k
步长k 由精确一维搜索得到。从而得到第 k+1次迭代点，即
f ( x k k d k ) min f ( x k d k )

(推论)在收敛定理的假设下，若f (x)为凸函数，则最速下降法或在有限迭代步后达到最小点；或得到点列 x k ，它的任何聚点都是 f (x)的全局最小点。
二、最速下降法

最速下降法特征：相邻两次迭代的方向互相垂直。
令
( ) f ( x d ), 利用精确一维搜索，可得

最速下降法简介

的梯度，记作
函数的梯度是一个向量，
在
处的梯度向量为：
梯度方向是函数在该点增长最快的方向，负梯度方向是函数在该点减少最快的方向。如下示意图：
令 p ( k ) ( x ( k ) ) ， k 为在 x
(k )
点沿最速下降
方向 p ( k ) 所走的距离，最优步长。可有最速下降法的迭代公式：
x(2) x(1) 1 p1 ( 36 8 T , ) 31 31
13 62
关于相邻连个梯度的关系
n 1 1 n n 函数 : R R ； ( x) ( Ax, x) (b, x) aij xi x j b j x j 2 2 i 1 j 1 j 1
p1 f ( x (1) ) (4, 6)T x(1) p1 (2 4 ,1 6 )T
( ) f ( x(1) p1 ) (2 4 )2 3(1 6 ) 2
min ( x)

' ( ) 8(2 4 ) 36(1 6 ) 0 1
谢谢

最速下降法基本思想
从当前点出发，取函数在该点处下降最快的方向作为搜索方向。任一点的负梯度方向是函数值在该点下降最快的方向。将n维问题转化为一系列沿负梯度方向用一维搜索方法寻优的问题。

定义函数：
，
可微。
梯度的概念：是定义在量为即上的可微函数，称以的 n 个偏导数为分量的向
( p ( k 1) , p ( k ) ) (b A( x ( k ) p ( k ) ), p ( k ) ) ( p ( k ) , p ( k ) ) k ( Ap ( k ) , p ( k ) ) 0

最速下降法原理及例题实例

表 1-1 迭代次数k
Xk (0.00,3.00)T (2.70,1.51)T (2.52,1.20)T (2.43,1.25)T (2.37,1.16)T (2.33,1.18)T (2.30,1.14)T (2.28,1.15)T
f (X k ) 52.00
0.34 0.09
∇f ( X k ) (−44, 24)T (0.73,1.28)T (0.80, −0.48)T (0.18, 0.28)T (0.30, −0.20)T (0.08, 0.12)T (0.15, −0.08)T (0.0算目标函数的梯度和 Hesse 阵
设d
(k )
= [ d1 , d 2 ] ， ∇f ( X ( k ) ) = [ g1 , g 2 ] 得到精确一维搜索步长 αk = g1d1 + g 2 d 2 3d + d 2 2 − 2d1d 2
2 1
取X
(1)
= (0, 0)T ，则 ∇f ( X (1) ) = [ −2, 0] ，所以 d (1) = −∇f ( X (1) ) = [ 2, 0 ] ，
求单变量极小化问题：
min f ( x 0 + tp 0 ) = min f (44t , 3 − 24t )
t ≥0 t ≥0
= min(44t − 2)4 + (92t − 6)2
t ≥0
的最优解 t 0 ，由 0.618 法可得 t 0 = 0.06 ，于是
X 1 = x 0 + t 0 p 0 = (2.70,1.51)T ∇f ( X 1 ) = (0.73,1.28)T ∇f ( X 1 ) = 1.47 > ε
10 −2 ，停止计算，所以 X (9) = [ 0.988, 0.988] 作为问题的最优解。

最优化问题——梯度下降法

最优化问题——梯度下降法1、⽆约束最优化问题求解此问题的⽅法⽅法分为两⼤类：最优条件法和迭代法。

2、最优条件法我们常常就是通过这个必要条件去求取可能的极⼩值点，再验证这些点是否真的是极⼩值点。

当上式⽅程可以求解的时候，⽆约束最优化问题基本就解决了。

实际中，这个⽅程往往难以求解。

这就引出了第⼆⼤类⽅法：迭代法。

最优条件法：最⼩⼆乘估计3、迭代法（1）梯度下降法（gradient descent），⼜称最速下降法（steepest descent）梯度下降法是求解⽆约束最优化问题的⼀种最常⽤的⽅法。

梯度下降法是迭代算法，每⼀步需要求解⽬标函数的梯度向量。

必备条件：函数f(x)必须可微，也就是说函数f(x)的梯度必须存在优点：实现简单缺点：最速下降法是⼀阶收敛的，往往需要多次迭代才能接近问题最优解。

算法A.1（梯度下降法）输⼊：⽬标函数f(x)，梯度函数g(x)=▽f(x)，计算精度ε；输出：f(x)的极⼩点x*总结：选取适当的初值x(0),不断迭代，更新x的值，进⾏⽬标函数的极⼩化，直到收敛。

由于负梯度⽅向是使函数值下降最快的⽅向，在迭代的每⼀步，以负梯度⽅向更新x的值，从⽽达到减少函数值的⽬的。

λk叫步长或者学习率；梯度⽅向g k=g(x(k)）是x=x(k)时⽬标函数f(x)的⼀阶微分值。

学习率/步长λ的确定：当f(x)的形式确定，我们可以通过求解这个⼀元⽅程来获得迭代步长λ。

当此⽅程形式复杂，解析解不存在，我们就需要使⽤“⼀维搜索”来求解λ了。

⼀维搜索是⼀些数值⽅法，有0.618法、Fibonacci法、抛物线法等等，这⾥不详细解释了。

在实际使⽤中，为了简便，也可以使⽤⼀个预定义的常数⽽不⽤⼀维搜索来确定步长λ。

这时步长的选择往往根据经验或者通过试算来确定。

步长过⼩则收敛慢，步长过⼤可能震荡⽽不收敛。

如下图：当⽬标函数是凸函数时，梯度下降法的解是全局最优解。

但是，⼀般情况下，往往不是凸函数，所以其解不保证是全局最优解。

最速下降法原理及例题实例

−1 1
=
G
αk
=
g1d1 + g2d2 3d12 + d22 − 2d1d2
[ ] [ ] 取 X (1) = (0, 0)T ，则 ∇f ( X (1) ) = −2, 0 T ，所以 d (1) = −∇f ( X (1) ) = 2, 0 T ，
因此
α1
=
22 3× 22
=
1 3
[ ] [ ] X (2) = X (1) + α1d (1) =
=
1 + 4x1 + 2x2 −1+ 2x1 + 2x2
∂(x2 )
∇f
(X
(1) )
=
1 −1
令搜索方向 d (1)
=
−∇f
(X
(1) )
=
−1 1
再从
X
(1) 出发，沿
d (1) 方向作一维寻优，令
步长变量为 λ
，最优步长为 λ1 ，则有
X
(1)
+
λd (1)
=
0 0
+
λ
−1 1
min f ( X ) = (x1 − 2)4 + (x1 − 2x2 )2
其中 X = (x1, x2 )T ，要求选取初始点 X 0 = (0, 3)T ，终止误差 ε = 0.1.
解：因
∇f ( X ) = [4(x1 − 2)3 + 2(x1 − 2x2 ), −4(x1 − 2x2 )]T
∇f (x∗ ) = 0源自(二)最速下降法的基本思想和迭代步骤
最速下降法又称为梯度法，是 1847 年由著名数学家 Cauchy 给出的。他是解析法中最古老的一种，其他解析方法或是它的变形，或是受它的启发而得到的，因此它是最优化方法的基础。

最优化方法-最速下降法

s.t. 0
计算步骤
设f (X )是可微函数，精度要求为
X f ( ) K 1
，
X 0 为初始点。
(1)计算梯度
f
(
X
)
k
，初始k=0；
(2)
Pk

f
(
X
)
k
(3)求解 k
min f ( X k Pk)
s.t. 0
设 k 是一维搜索的最优解；
(4)求下一个点
评价
由例题中可以发现两次迭代的搜索方向满足：
P P P P T 0, T 0,...,
01
12
即相邻两个搜索方向 PK 与 PK1 正交，这是最速下降
法的搜索方向的基本形质。因此，最速下降法的迭代
路线呈锯齿形，尤其是在极小点附近，锯齿现象尤为
严重，从而影响了迭代速度。
评价
锯齿现象
最优化技术
第三章 7节最速下降法
主要内容
1原理
2 计算步骤
3 例题分析 4评价
原理
定义：用来求解无约束多元函数 min f（x）
极小化问题的一种迭代算法。
拓展：
最速下降法又称梯度法，是 1847 年由著名数学家
Cauchy 给出的，它是解析法中最古老的一种，其他解析方法或是它的变形，或是受它的启发而得到的，因此它是最优化方法的基础。
X
)
0

(1,1)T
3-最优步长
2
X P ( ) f 5
0
0 2
1
0
应用一维搜索技术，解得函数最小值点 0 =0.2
举例分析
4-下一搜索点
X1

最速下降法-最优化方法

（4）f
(
X
)
3

(0.04,0.04)T
,
f ( X 3) 2 0.0032 0.01
X 3 已达到预定精度要求，迭代终止。
故f（x）的无约束近似极小点为
X X 3 (0.96,1.44)T
注：原问题的精确极小点为
X (1,1.5)T
3. 最速下降法性质与评价
x1 x1

2 2
x2 x2
1 1
（1） X 0 (1,1)T
,
f
(
X
)
0

(1,1)T
,
P0

f
(
X
)
0

(1,1)T
X P (t ) f( 0 t
)
0

5t 2

2t
1
,t>0
ቤተ መጻሕፍቲ ባይዱ
应用一维搜索技术，可解得 (t) 的极小点为t0=0.2
所以 X 1 X 0 t0 P0 (1,1)T 0.2(1,1)T (0.8,1.2)T
X X P
Y f (X ) N 输出X
停止
例3.18 用最速下降法求解无约束优化问题：
x x x x x x min f (X ) 2 2 2
2
1
12
2
1
2
初始点 X 0 (1,1)T
,迭代终止准则为
f
(X k)
2
0.01
。
解：
f
(
X
)

4 2
1. 最速下降法原理 2. 最速下降法算法 3. 最速下降法性质与评价

最优化：最速下降法和Newton法

定理 3.1.1 设假设 2.4.1的条件成立 , 那么采用精确搜索 , 或 Armijo搜索或 Wolfe- P owell搜索的最速下降法产生的迭代序列{xk }满足 lim || f ( xk ) || 0
k
由前面的例子看到, 最速下降法的收敛速度至多是线性的, 具体见下面的两个定理.
第一节
最速下降法
最古老的优化方法，十九世纪中叶由Cauchy提出
1、思想：每次沿负梯度方向进行搜索
●
x*
xk 1
等值线(面)
●
xk
●
f ( xk )
负梯度方向也称为最速下降方向：
事实上，对任意p R n 且 || p || , 由Cauchy - Schwarz 不等式得 f ( xk ) T P - || f ( xk ) || || P || - || f ( xk ) || - f ( xk ) - f ( xk ) 当取p 时等号成立，即 p 是下列问题 || f ( xk ) || || f ( xk ) || 的解 min f ( xk ) T P
从上面的例子看到, 对于简单的二元二次函数极小化问题，最速下降法在有限次迭代并没有求出其精确最优解, 但能以较慢的速度无限接近最优解.
事实上，上面的例子刻画了最速下降法的所有收敛特征
3、最速下降法的收敛性全局收敛性
由于最速下降法的搜索方向与负梯度方向一致, 即 k 0, 且 || f ( xk ) || || d k || 所以, 由定理2.4.1 - 2.4.3, 我们很容易得到最速下降算法的全局收敛性.
2
max 其中 , 且max 和min分别是 f ( x * )的最大和最小特征值 . min

最速下降法

n

收敛性问题的基本概念最速下降法的迭代原理最速下降法的迭代步骤最速下降法的举例最速下降法的收敛结论
Байду номын сангаас
无约束问题4-4
1.收敛性问题的基本概念定义4-9
(k )
min f ( X ) n
X R
若序列 { X }，对于 0 ，存在正整数 N ( ),
(k ) (k ) k N 时，有 X X ，即 X X 0, 当 k
2.迭代原理 min f ( X ) X R
n
1 0 0 min f ( X 0 p 0 ) f ( X 0 0 p 0 ), X X 0 p X , p f ( X ), 0 1 1 1 1 1 min f ( X 1 p1 ) f ( X 1 p ), X 2 X 1 1 p1 X , p f ( X ), 0 k 1 k k k k k min f ( X k p k ) f ( X k k p k ), X X k p X , p f ( X ), 0
X (k ) X
X ( k 1) X
X ( k 2) X
X ( k 3) X
X ( k 4) X
0.1
0.09
0.05
0.02
0.01
无约束问题4-4
1.收敛性问题的基本概念定义4-10
若 X ( k ) X k 0,
( ) ( f ( X ) p )0 充分小时 0 结论： f ( X ( k ) )T p( k ) 0 时，p(k)是 f (X)在X(k) 处的下降方向。当
(k ) T (k )

最优化Armijo算法确定步长的最速下降法资料

最优化Armijo算法确定步长的最速下降法资料最速下降法是最优化算法中最简单、最基础的一种方法，但其收敛速度较慢且容易陷入局部最优解。

因此，在最速下降法的基础上，可以通过引入步长的方法来提高算法的收敛速度。

而Armijo算法就是一种常见的用于确定步长的方法。

最速下降法基础假设我们要最小化目标函数f(x)，那么最速下降法的思路就是从一个初始点x0开始，不断朝着负梯度方向进行迭代，直到找到最优解x∗，即：$x_{k+1} = x_k - \\alpha_k \ abla f(x_k)$其中，ablaf(x k)是f(x)在x k处的梯度，$\\alpha_k$ 是步长（也称为学习率），表示每次迭代的步长大小。

但这里还有一个问题：如何确定每次迭代的步长呢？Armijo算法Armijo算法是一种基于梯度下降法的步长确定方法。

它的思路是，每次迭代的步长不应该过大，否则容易导致超出收敛区域。

同时，步长也不应该过小，否则收敛速度会变得非常缓慢。

因此，步长的大小应该恰到好处，即在一定范围内找到一个最优的步长大小。

具体地，Armijo算法通过二分搜索的方法，在可行步长范围内找到一个最优的步长 $\\alpha_k$。

具体过程如下：1.首先初始化 $\\alpha_0$，并设定一些参数，如尝试步长大小t、可行步长下界 $\\tau$ 和函数下降的最小比例 $\\gamma$。

2.计算目标函数f(x k−t ablaf(x k))，以及根据一定准则确定下一个$\\alpha$。

3.如果 $f(x_k - \\alpha_k\ abla f(x_k))$ 函数值比f(x k)减小了一些比例$\\gamma$，则认为当前 $\\alpha_k$ 是可行的步长。

4.如果当前 $\\alpha_k$ 不是可行的步长，则将其折半，即 $\\alpha_k\\leftarrow \\alpha_k/2$，直到找到一个可行的步长为止。

最优化方法(刘)第四章

阻尼牛顿法收敛定理
定理2: 设 f ( x) 二阶连续可微，又设对任意的x0 ∈Rn , 存在常数m > 0, 使得 f ( x) 在 L ={x f (x) ≤ f (x0 )} 2 T 2 上满足： ∇ f ( x)µ ≥ m µ ,∀ ∈Rn , x∈L( x0 ) µ µ 则在精确线搜索条件下，阻尼牛顿法产生的点列 {xk } 满足： (1) 当{xk } 是有限点列时，其最后一个点为 f ( x) 的唯一极小点． (2)当{xk } 是无限点列时，收敛到 f (x) 的唯一极小点．
) x0 = (9,1
T
g0 = ∇ ( x0 ) = (9,9) f
T
T 7.2 7.2 g0 g0 x = x0 − T g0 = 1 −0.8 g1 = −7.2 g0 G 0 g T 9×0.82 g1 g1 x2 = x − T g1 = 1 2 (−1 ×0.82 g1 G 1 g )
9 1 0 x = x0 −G g0 = − 1 1 0 9
1 − 0 −1
9 0 = = x* 9 0
牛顿法收敛定理
定理1: 设 f ( x) 二次连续可微， *是 f ( x) 的局 x 部极小点， f (x* ) 正定．假定 f ( x) 的海色阵 ∇
gk →0 .
证明：对于最速下降法， k = 0, 由以上定理立得． θ
收敛性分析
定理2: 设 f ( x) 二次连续可微， ∇2 f ( x) ≤ M, 且其中 M是个正常数，对任何给定的初始点 x0, 最速下降算法或有限终止，或者lim f ( xk ) = −∞ ,
k→ ∞

最优化方3.3法最速下降法(梯度法)

例 3.4.4 用 Newton 法求解问题 min f (x) 4x12＋x22－x12x2
取初始点为 xA (1,1)T , xB (3, 4)T , xC (2, 0)T 。
min f (x) 4x12＋x22－x12x2
g
(
x)
8x1－2x1 x2 2 x2－x12
G(
x)
0.1273 0.0003 0.0000
1.3388 0.0511 0.0001
xk (0,0) 严格局部极小点
g
(
x)
8x1－2x1 x2 2x2－x12
G(0,0) 8 0 0 2
G(
x)
8－2x2 －2 x1
－2x1 2
解: (2)用 Newton 法得到得迭代点如表所示：
开域内有极小点 x*，设G* G(x*)正定，则当 x0与 x*充分
接近时，对一切k ，Newton 法有定义，且当xk 为无穷点列时，xk 二阶收敛于 x*，即hk 0且
f
( xk
)存在，所以有
fk fk1 0。（3.8）
用反证法。假设 gk 0不成立，则0 0及无穷多个 k ，使 gk 0。对这样的k ，有
gkT pk pk 0，
于是，由 Taylor 公式
f (xk pk ) f (xk ) g(k )T pk
f
(
xk
)
g
T k
pk
g(k ) gk T
最速下降法
k=k+1
x(1), ε >0, k=1
Yes
|| ▽f(x(k) ) ||< ε?
No
d(k)= －▽f(x(k) )
stop. x(k) –解

最优化算法最速下降法、牛顿法、拟牛顿法Python实现

最优化算法最速下降法、⽜顿法、拟⽜顿法Python实现---------------------------------------2020.9.23更新---------------------------------把 BFGS(x)改写了⼀下，变简洁了def BFGS(x): #拟⽜顿法epsilon, h, maxiter = 10**-5, 10**-5, 10**4Bk = np.eye(x.size)for iter1 in range(maxiter):grad = num_grad(x, h)if np.linalg.norm(grad) < epsilon:return xdk = -np.dot((np.linalg.inv(Bk)), grad)ak = linesearch(x, dk)x = x + dk*akyk = num_grad(x, h) -gradsk = ak*dkif np.dot(yk, sk) > 0:Bs = np.dot(Bk,sk)ys = np.dot(yk,sk)sBs = np.dot(np.dot(sk,Bk),sk)Bk = Bk - 1.0*Bs.reshape((n,1))*Bs/sBs + 1.0*yk.reshape((n,1))*yk/ysreturn x---------------------------------------2020.9.23更新---------------------------------只⽤到了numpy这⼀个库，只要安装有这个库应该都可以直接运⾏import numpy as npdef f(x): #⽬标函数x1 = x[0]x2 = x[1]y = 100*((x2 - x1**2)**2) + (x1-1)**2return ydef num_grad(x, h): #求梯度df = np.zeros(x.size)for i in range(x.size):x1, x2 = x.copy(), x.copy() #这⾥需要⽤到复制，⽽不能⽤赋值号（=），原因是Python⾥⾯=号只是取别名，不是复制（c/c++⾥⾯是）x1[i] = x[i] - hx2[i] = x[i] + hy1, y2 = f(x1), f(x2)df[i] = (y2-y1)/(2*h)return dfdef num_hess(x, h): #求hess矩阵hess = np.zeros((x.size, x.size))for i in range(x.size):x1 = x.copy()x1[i] = x[i] - hdf1 = num_grad(x1, h)x2 = x.copy()x2[i] = x[i] + hdf2 = num_grad(x2, h)d2f = (df2 - df1) / (2 * h)hess[i] = d2freturn hessdef linesearch(x, dk): #求步长ak = 1for i in range(20):newf, oldf = f(x + ak * dk), f(x)if newf < oldf:return akelse:ak = ak / 4 #迭代更新步长，步长可随意变换，保证newf⽐oldf⼩就可以了（如改为: ak=ak/2 也是可以的）return akdef steepest(x): #最速下降法epsilon, h, maxiter = 10**-5, 10**-5, 10**4for iter1 in range(maxiter):grad = num_grad(x, h)if np.linalg.norm(grad) < epsilon:return xdk = -gradak = linesearch(x, dk)x = x + ak * dkreturn xdef newTonFuction(x): #⽜顿法epsilon, h1, h2, maxiter = 10**-5, 10**-5, 10**-5, 10**4for iter1 in range(maxiter):grad = num_grad(x, h1)if np.linalg.norm(grad) < epsilon:return xhess = num_hess(x, h2)dk = -np.dot((np.linalg.inv(hess)), grad)x = x + dkreturn xdef BFGS(x): #拟⽜顿法epsilon, h, maxiter = 10**-5, 10**-5, 10**4Bk = np.eye(x.size)for iter1 in range(maxiter):grad = num_grad(x, h)if np.linalg.norm(grad) < epsilon:return xdk = -np.dot((np.linalg.inv(Bk)), grad)ak = linesearch(x, dk)x = x + dk*akyk = num_grad(x, h) -gradsk = ak*dkif np.dot(yk.reshape(1, grad.shape[0]), sk) > 0:'''第⼀种分步计算实现t0 = np.dot(Bk, sk)t1 = np.dot(t0.reshape(sk.shape[0], 1), sk.reshape(1, sk.shape[0]))temp0 = np.dot(t1, Bk)temp1 = np.dot(np.dot(sk.reshape(1, sk.shape[0]), Bk), sk)tmp0 = np.dot(yk.reshape(yk.shape[0], 1), yk.reshape(1, yk.shape[0]))tmp1 = np.dot(yk.reshape(1, yk.shape[0]), sk)Bk = Bk - temp0 / temp1 + tmp0 / tmp1'''#第⼆种直接写公式实现Bk = Bk - np.dot(np.dot(np.dot(Bk, sk).reshape(sk.shape[0], 1), sk.reshape(1, sk.shape[0])), Bk)/np.dot(np.dot(sk.reshape(1, sk.shape[0]), Bk), sk) + np.dot(yk.reshape(yk.shape[0], 1), yk.reshape(1, yk.shape[0])) / np.dot(yk.reshape(1, yreturn x#x0 = np.array([0.999960983973235, 0.999921911551354]) #初始解x0 = np.array([0.7, 0.9]) #初始解x = steepest(x0) #调⽤最速下降法print("最速下降法最后的解向量：",x)print("最速下降法最后的解：",f(x))print('')x = newTonFuction(x0) #调⽤⽜顿法print("⽜顿法最后的解向量：", x)print("⽜顿法最后的解：", f(x))print('')x = BFGS(x0) #调⽤拟⽜顿法print("拟⽜顿法最后的解向量：", x)print("拟⽜顿法最后的解：", f(x))print('')结果如下拟⽜顿法感觉弄⿇烦了，暂时也没想法改，先就这样吧。

最速下降法

随着人工智能、模糊控制、模式识别、人工网络等新技术的应用和发展。

可以让它们与广义预测控制相结合,建立高精度、多模态的预测模型。

使广义预测控制在异常情况下可以稳定运行,推进广义预测控制的进一步发展。

2.2.1最速下降法最速下降法是无约束最优化中是比较有效的方法,它是以d}=一可(x})作为下降方向的算法。

其迭代格式为xx+i=xx一。

*Of (xk)上式中,一般通过精确线搜索准则求得步长因子。

*,当然也不排除可以利用非精确线搜索准则来求得步长因子。

*。

不管最速下降法采取何种线搜索准则,它均具有全局收敛性,但是这也不能直接就认为最速下降算法就是一个良好的优化算法。

在实际试验中,有很多优化问题利用最速下降法并不是下降的特快,反而下将的十分缓慢。

这是因为出现了锯齿现象:就是在计算过程中,最速下降法开始几步还是挺快的,但是当目标函数f (x)的等高线接近于一个球的时候,就出现了类似锯齿现象,前进十分缓慢,降低了算法的效能。

2.2.12.2.2牛顿法牛顿法也是无约束最优化问题中的一种经典算法,它是利用目标函数.f (x)的二次泰勒展开式,并将二次泰勒展开式进行极小化。

其迭代格式为x}+}=xA十d}(2-5)其中步长因子。

、=l} d、为02f (x} )d + Of (xA ) = 0的解。

当目标函数f(x)是正定二次函数的时候,牛顿法可以一步达到最优解;当目标函数f (x)是非二次函数的时候,牛顿法经过有限次迭代之后就不能确保求得目标函数f (x)的最优解。

我们知道目标函数f (x)在极小点附近是很接近于二次函数的,所以,假如初始点非常靠近无约束最优化问题((1-1)的最优解x的时候,并且}Z.f (x.)正定的时候,那么牛顿法就会有很快的收敛速度,而由此算法产生的点列也具有了超线性收敛速度,同时还在一定条件下具有二次收敛性;假如初始点与无约束最优化问题(1-1)的最优解x’相距比较远的时候,这时的}Z.}(x})就不一定是正定的了,也就存在了一个问题,那就是此时的牛顿方向就不一定是下降方向,有可能是上升方向,此时由此算法产生的点列可能也就不收敛于无约束最优化问题((1-1)的最优解了。

最优化最速下降法

4、记 mk 是满足下列不等式的最小非负整数m.
f ( xk ? ? mdk ) ? f (xk ) ? ?? m gkT dk
5、令 ? k ? ? mk , xk ?1 ? xk ? ? k dk , k :? k ? 1 ，转1.
三、程序
1、最速下降法程序 ? grad.m
? function [x,val,k]=grad(fun,gfun,x0)
? for i=2:n
? h=subs(h,xx(i));
? end
? He=h;
四、实验数据
? 第一题函数： ? fun.m ? function f=fun(x) ? D=30; ? x1=0; ? for i=1:D ? x1=x(i).^2+x1; ? end ? f=x1;
第四题函数： function f=fun(x) f=0; for i=1:n-1
? 2、阻尼牛顿法
? 初始点需要足够“靠近”极小点，否则，有可能导致算法不收敛。由于实际问题的精确极小点一般是不知道的，因此，初始点的选取给算法的实际操作带来了很大的困难，为了克服这一困难，可引入线搜索技术以得到大范围收敛的算法，即所谓的阻尼牛顿法.给出一个基于Armijo搜索的阻尼牛顿法。
?
if(feval(fun,x0+rho^m*d)<feval(fun,x0)+sigma*rho^m*g'*d)
?
mk=m;break;
?
end
?
m=m+1;
? end
? x0=x0+rho^mk*d;
? k=k+1;
? end
? x=x0;
? val=feval(fun,x0);

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 2. 计算 gk f xk 。若 gk ，停算，输出Xk作为近似最优解。
• 3.取方向dk=-gk。
• 4.由线搜索技术确定步长因子 k 。
• 5.令
，转步长1。
xk1 : xk k dk , k : k 1,
2019/12/13
• 由式 dk f xk 得，
最优化—最速下降法
主讲人：王俊俊
最速下降法
最速下降法的由来最速下降法的方向选择
最速下降法的算法步骤
最速下降法的实例
LOGO
最速下降法的由来
LLOOGGOO
考虑无约束问题
min f x, x Rn
其中，函数法f(x)具有一阶连续偏导数。
人们在处理这类问题时，总希望从某一点出发，选择一个目标函数值下降最快的方向，以利于尽快达到极小点，基于此种愿望，早在1847年法国数学家Cauchy提出了最速下降法。后来，Curry等人作了进一步研究，得出现在众所周知的一种最基本算法。
2019/12/13
罗森布罗克方程的三维图
LOGO
• 它的全局最优点位于一个长长的、狭窄的、抛物线形状的、扁平的“山谷” 中。找到“山谷”并不难，难的是收敛到全局最优解（全局最优解在 (1,1) 处）。
2019/12/13
开始
给定初始点， x0 E，n 0
程序图
LOGO
求k 使其满足
最速下降法的由来
• 其主要思想
每次沿负梯度方向进行搜索
LOGO
2019/12/13
x*
●
x● k
x ● k 1
f (xk )
等值线(面)
最速下降法的方向选择
LLOOGGOO
最速下降法用负梯度为方向
dk f xk
作为搜索方向。设 f(x) 在XK附近连续可微，dk为搜索方向向量，
最速下降法的优缺点
LOGO
• 由于沿负梯度方向目标函数的最速下降性，很容易使人们误认为负梯度方向是最理想的搜索方向，最速下降法是一种理想的极小化方法。必须指出的是，某点的负梯度方向，通常只是在该点附近才具有这种最速下降的性质。在一般情况下，当用最速下降法寻找极小点时，其搜索路径呈直角锯齿状，在开头几步，目标函数下降较快；但在接近极小点时，收敛速度长久不理想了。特别适当目标函数的等值线为比较扁平的椭圆时，收敛就更慢了。优点是：程序简单，计算量小；并且对初始点没有特别的要求。
lim 0
f
xk
dk
那么 k 应该满足
'x
d d
f xk
dk k
f xk
k dk T dk
0
由此我们可以求出步长因子。
2019/12/13
LOGO
• 函数 f（x1,x2）=(1-x2)^2+100*(x2-x1^2)^2,它叫罗森布罗克方程。
gk f xk .由泰勒展开式得
f
xk
dk
f
xk

g
T k
d
k
,
0,
那么目标函数 f(x)在Xk处沿方向dk下降的变化率为
最速下降法的方向选择
LLOOGGOO
lim lim f xk dk f xk
g
T k
dk

0

0

Hale Waihona Puke gT kd
k

gk
dk cos
其中为gk与dk的夹角。要使得变化率最小，只有当cos值为-1时，才能达到，也即dk应取得负梯度方向。
J (a) J(a)
J(a)
ak
a
最速下降法的步骤
LOGO
• 1.选取初始点 x0 Rn ，容许误差 0 1 。令k:=1.
min
0
f
(xk
pk
)

f
(xk
k
pk )
k : 0 计算 pk f (xk )
令
xk1 xk k pk
是
pk
2019/12/13
否
输出： xmin xk
结束
matlab仿真实例
LOGO
2019/12/13
matlab仿真实例
LOGO
2019/12/13
LOGO
f xk 1T f xk 0
即新点xk+1处的梯度是正交的，也就是说，迭代点列所走
的路线是锯齿型的，故收敛速度是很慢的。
2019/12/13
步长因子
LOGO
• 步4中，步长因子 k 的确定即可以采用精确线搜索又可以采用非精确线搜索。
• 采用精确线搜索时
f xk
kdk
2019/12/13
x(2) O x(4) x(3)
LOGO
谢谢各位

最优化之最速下降法.

合集下载

最优化方法第二章_线搜索算法_最速下降法

最速下降法简介

最速下降法原理及例题实例

最优化问题——梯度下降法

最速下降法原理及例题实例

最优化方法-最速下降法

最速下降法-最优化方法

最优化：最速下降法和Newton法

最速下降法

最优化Armijo算法确定步长的最速下降法资料

最优化方法(刘)第四章

最优化方3.3法最速下降法(梯度法)

最优化算法最速下降法、牛顿法、拟牛顿法Python实现

最速下降法

最优化最速下降法

文档推荐

最新文档

最优化之最速下降法.

合集下载

最优化方法第二章_线搜索算法_最速下降法

最速下降法简介

最速下降法原理及例题实例

最优化问题——梯度下降法

最速下降法原理及例题实例

最优化方法-最速下降法

最速下降法-最优化方法

最优化：最速下降法和Newton法

最速下降法

最优化Armijo算法确定步长的最速下降法资料

最优化方法(刘)第四章

最优化方3.3法最速下降法(梯度法)

最优化算法最速下降法、牛顿法、拟牛顿法Python实现

最速下降法

最优化 最速下降法

文档推荐

最新文档

最优化最速下降法