BP算法的改进
- 格式:doc
- 大小:18.50 KB
- 文档页数:1
BP算法及BP改进算法BP算法通过不断调整网络的权重和偏置,以最小化网络输出与实际输出之间的误差。
算法包含两个主要步骤:前向传播和反向传播。
在前向传播阶段,输入信号通过神经网络的各个层,直至到达输出层。
每一层都对输入信号进行加权求和,并通过激活函数进行非线性映射,然后传递给下一层。
最终,网络将产生一个预测输出。
在反向传播阶段,算法计算输出误差,并根据该误差调整网络权重和偏置。
误差通过比较网络预测输出与实际输出之间的差异得到。
然后,误差从输出层向输入层反向传播,根据权重的贡献程度进行分配,并相应地更新权重和偏置。
尽管BP算法在训练神经网络方面非常成功,但也存在一些问题。
其中之一是局部极小值问题,即算法可能在梯度下降的过程中陷入一个局部最小值,并无法找到全局最小值。
为了解决这个问题,已经提出了一些BP的改进算法。
其中一种改进算法是Momentum算法。
Momentum算法在误差梯度的基础上引入了一个动量项,该项记录了前一次权重更新所带来的动量。
它可以帮助算法跳出局部最小值,并在梯度下降的过程中加速更新。
该算法通过在权重更新中添加当前梯度和上一次更新的动量的乘积,实现对网络优化的加速。
另一种改进算法是Adaptive Learning Rate算法。
传统的BP算法在每次权重更新中使用固定的学习率。
然而,不同的权重可能具有不同的学习速度要求。
Adaptive Learning Rate算法通过根据权重梯度的大小动态地调整学习率,以使网络能够更快地收敛。
还有一种改进算法是正则化算法,其中最常用的是L1和L2正则化。
正则化通过在误差函数中添加一个惩罚项,以限制权重的大小。
这有助于防止过拟合现象的发生,并提高网络的泛化能力。
除了这些改进算法,还有许多其他的技术被用于改进BP算法。
例如,一些算法结合了遗传算法和BP算法,以从初始权重的随机样本中找到最佳的。
还有一些算法,如RPROP和QuickProp,通过引入自适应的权重更新规则来加速训练过程。
BP神经网络算法及其改进的几个方法1 概述人工神经网络(Artificial Neural Networks,ANN),是基于人类大脑的生物活动所提出的,是一个模型。
它由众多节点通过一定的方式互联组成,是一个规模巨大、自适应的系统。
其中有一种学习算法是误差传递学习算法即BP 算法。
BP算法是人工智能最常用到的学习方法,从一定意义上来讲,BP算法的提出,终结了多层网络在学习训练算法上的空白史,是在实际应用中最有效的网络训练方法,对ANN的应用和发展起到了决定性的作用。
BP算法是使用从输出层得到的误差来估算前一层的误差,再利用该误差估算更前一层的误差。
依次进行,就会获得其他所有各层的估算误差。
这样就实现了将从输出层的得到误差沿着与输入信号传送相反的方向逐级向网络的输入端传递的过程[1]。
但是,BP算法也存在着不可忽视的缺陷。
基于此,该文总结介绍了BP的改进方法。
2 BP算法的基本思想2.1 BP算法的基本原理BP算法是有监督指导的算法,它的学习训练过程一般分为两步:首先是输入样本的正向传递;第二步误差的反向传递;其中信号正向传递,基本思想是样本值从输入层输入,经输入层传入隐藏层,最后通过输出层输出,中间层对样本数据进行处理操作,利用各层的权值和激活函数对数据进行操作然后在输出层获得输出[2];接下来就是反向传递,算法得到的实际输出值与期望目标输出之间必然会有误差,根据误差的大小来决定下一步的工作。
如果误差值较小满足训练的精度要求,则认为在输出层得到的值满足要求,停止训练;反之,则将该误差传递给隐藏层进行训练,按照梯度下降的方式,对权值和阈值进行调整,接着进行循环,直到误差值满足精度要求停止训练[3]。
3 BP算法的缺陷尽管BP算法有着显著的优点,但是在实际应用过程中,BP算法会出现很多问题。
尤其是下面的问题,对BP神经网络更好的发展有很大影响。
有的甚至会导致算法崩溃。
3.1 收敛速度的问题BP算法在进行训练学习时,收敛速度慢,特别是在网络训练达到一定的精度时,BP算法就会出现一个长时间的误差“平原”,算法的收敛速度会下降到极慢[4]。
BP算法的改进
附加动量法
附加动量法使网络在修正其权值时,不仅考虑误差在梯度上的作用,而且考虑在误差曲面上变化趋势的影响。
在没有附加动量的作用下,网络可能陷入浅的局部极小值,利用附加动量的作用有可能滑过这些极小值。
该方法是在反向传播法的基础上在每一个权值(或阈值)的变化上加上一项正比于前次权值(或阈值)变化量的值,并根据反向传播法来产生新的权值(或阈值)变化。
带有附加动量因子的权值和阈值调节公式为:
其中k为训练次数,mc为动量因子,一般取0.95左右。
附加动量法的实质是将最后一次权值(或阈值)变化的影响,通过一个动量因子来传递。
当动量因子取值为零时,权值(或阈值)的变化仅是根据梯度下降法产生;当动量因子取值为1时,新的权值(或阈值)变化则是设置为最后一次权值(或阈值)的变化,而依梯度法产生的变化部分则被忽略掉了。
以此方式,当增加了动量项后,促使权值的调节向着误差曲面
i将变得很小,于是,从而防止了的出现,有助于使网络从误差曲面的局部极小值中跳出。
根据附加动量法的设计原则,当修正的权值在误差中导致太大的增长结果时,新的权值应被取消而不被采用,并使动量作用停止下来,以使网络不进入较大误差曲面;当新的误差变化率对其旧值超过一个事先设定的最大误差变化率时,也得取消所计算的权值变化。
其最大误差变化率可以是任何大于或等于1的值。
典型的取值取1.04。
所以,在进行附加动量法的训练程序设计时,必须加进条件判断以正确使用其权值修正公式。
训练程序设计中采用动量法的判断条件为:
E(k)为第k步误差平方和。
V = net.iw{1,1}%输入层到中间层权值
theta1 = net.b{1}%中间层各神经元阈值
W = net.lw{2,1}%中间层到输出层权值
theta2 = net.b{2}%输出层各神经元阈值。