第3章神经网络3-径向基函数网络(n)
- 格式:doc
- 大小:424.00 KB
- 文档页数:8
径向基函数神经网络模型及其在预测系统中的应用传统的神经网络模型在处理非线性问题时存在一定的限制,而径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)模型则能够有效地处理这类问题。
本文将介绍径向基函数神经网络模型的基本原理,并探讨其在预测系统中的应用。
1. 径向基函数神经网络模型的基本原理径向基函数神经网络模型是一种三层前馈神经网络,包含输入层、隐含层和输出层。
该模型通过将输入向量映射到高维特征空间,并利用径向基函数对输入数据进行非线性变换。
其基本原理如下:1.1 输入层:输入层接收原始数据,并将其传递给隐含层。
1.2 隐含层:隐含层中的神经元使用径向基函数对输入数据进行非线性变换。
径向基函数通常采用高斯函数,其形式为:φ(x) = exp(-(x-c)^2/2σ^2)其中,x为输入向量,c为径向基函数的中心,σ为径向基函数的宽度。
隐含层神经元的输出由径向基函数计算得到,表示了输入数据距离每个径向基函数中心的相似度。
1.3 输出层:输出层根据隐含层的输出和相应的权值进行计算,并生成最终的预测结果。
2. 径向基函数神经网络模型在预测系统中的应用径向基函数神经网络模型在各种预测系统中具有广泛的应用,包括金融预测、气象预测、股票价格预测等。
2.1 金融预测径向基函数神经网络模型能够对金融市场进行有效预测,例如股票价格、外汇汇率等。
通过输入历史数据,可以训练神经网络模型,利用其中的非线性变换能力来预测未来的价格走势。
实验表明,基于径向基函数神经网络模型的金融预测系统能够提供较高的准确度和稳定性。
2.2 气象预测径向基函数神经网络模型在气象预测中的应用也取得了良好的效果。
通过输入历史气象数据,神经网络模型可以学习到不同变量之间的关系,并预测未来的天气情况。
与传统的统计模型相比,径向基函数神经网络模型能够更好地捕捉到非线性因素对气象变化的影响,提高了预测的准确性。
神经⽹络(NeuralNetwork)⼀、激活函数激活函数也称为响应函数,⽤于处理神经元的输出,理想的激活函数如阶跃函数,Sigmoid函数也常常作为激活函数使⽤。
在阶跃函数中,1表⽰神经元处于兴奋状态,0表⽰神经元处于抑制状态。
⼆、感知机感知机是两层神经元组成的神经⽹络,感知机的权重调整⽅式如下所⽰:按照正常思路w i+△w i是正常y的取值,w i是y'的取值,所以两者做差,增减性应当同(y-y')x i⼀致。
参数η是⼀个取值区间在(0,1)的任意数,称为学习率。
如果预测正确,感知机不发⽣变化,否则会根据错误的程度进⾏调整。
不妨这样假设⼀下,预测值不准确,说明Δw有偏差,⽆理x正负与否,w的变化应当和(y-y')x i⼀致,分情况讨论⼀下即可,x为负数,当预测值增加的时候,权值应当也增加,⽤来降低预测值,当预测值减少的时候,权值应当也减少,⽤来提⾼预测值;x为正数,当预测值增加的时候,权值应当减少,⽤来降低预测值,反之亦然。
(y-y')是出现的误差,负数对应下调,正数对应上调,乘上基数就是调整情况,因为基数的正负不影响调整情况,毕竟负数上调需要减少w的值。
感知机只有输出层神经元进⾏激活函数处理,即只拥有⼀层功能的神经元,其学习能⼒可以说是⾮常有限了。
如果对于两参数据,他们是线性可分的,那么感知机的学习过程会逐步收敛,但是对于线性不可分的问题,学习过程将会产⽣震荡,不断地左右进⾏摇摆,⽽⽆法恒定在⼀个可靠地线性准则中。
三、多层⽹络使⽤多层感知机就能够解决线性不可分的问题,输出层和输⼊层之间的成为隐层/隐含层,它和输出层⼀样都是拥有激活函数的功能神经元。
神经元之间不存在同层连接,也不存在跨层连接,这种神经⽹络结构称为多层前馈神经⽹络。
换⾔之,神经⽹络的训练重点就是链接权值和阈值当中。
四、误差逆传播算法误差逆传播算法换⾔之BP(BackPropagation)算法,BP算法不仅可以⽤于多层前馈神经⽹络,还可以⽤于其他⽅⾯,但是单单提起BP算法,训练的⾃然是多层前馈神经⽹络。
径向基函数(RBF)神经⽹络RBF⽹络能够逼近任意的⾮线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能⼒,并有很快的学习收敛速度,已成功应⽤于⾮线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。
简单说明⼀下为什么RBF⽹络学习收敛得⽐较快。
当⽹络的⼀个或多个可调参数(权值或阈值)对任何⼀个输出都有影响时,这样的⽹络称为全局逼近⽹络。
由于对于每次输⼊,⽹络上的每⼀个权值都要调整,从⽽导致全局逼近⽹络的学习速度很慢。
BP⽹络就是⼀个典型的例⼦。
如果对于输⼊空间的某个局部区域只有少数⼏个连接权值影响输出,则该⽹络称为局部逼近⽹络。
常见的局部逼近⽹络有RBF⽹络、⼩脑模型(CMAC)⽹络、B样条⽹络等。
径向基函数解决插值问题完全内插法要求插值函数经过每个样本点,即。
样本点总共有P个。
RBF的⽅法是要选择P个基函数,每个基函数对应⼀个训练数据,各基函数形式为,由于距离是径向同性的,因此称为径向基函数。
||X-X p||表⽰差向量的模,或者叫2范数。
基于为径向基函数的插值函数为:输⼊X是个m维的向量,样本容量为P,P>m。
可以看到输⼊数据点X p是径向基函数φp的中⼼。
隐藏层的作⽤是把向量从低维m映射到⾼维P,低维线性不可分的情况到⾼维就线性可分了。
将插值条件代⼊:写成向量的形式为,显然Φ是个规模这P对称矩阵,且与X的维度⽆关,当Φ可逆时,有。
对于⼀⼤类函数,当输⼊的X各不相同时,Φ就是可逆的。
下⾯的⼏个函数就属于这“⼀⼤类”函数:1)Gauss(⾼斯)函数2)Reflected Sigmoidal(反常S型)函数3)Inverse multiquadrics(拟多⼆次)函数σ称为径向基函数的扩展常数,它反应了函数图像的宽度,σ越⼩,宽度越窄,函数越具有选择性。
完全内插存在⼀些问题:1)插值曲⾯必须经过所有样本点,当样本中包含噪声时,神经⽹络将拟合出⼀个错误的曲⾯,从⽽使泛化能⼒下降。
径向基神经网络1985年,Powell提出了多变量插值的径向基函数(Radical Basis Function,RBF)方法。
1988年,Moody和Darken提出了一种神经网络结构,即RBF神经网络,属于前向神经网络类型,它能够以任意精度逼近任意连续函数,特别适合于解决分类问题。
RBF网络的结构与多层前向网络类似,它是一种三层前向网络。
输入层由信号源节点组成;第二层为隐含层,隐单元数视所描述问题的需要而定,隐单元的变换函数RBF是对中心点径向对称且衰减的非负非线性函数;第三层为输出层,它对输入模式的作用做出响应。
从输入空间到隐含层空间的变换是非线性的,而从隐含层空间的输出层空间变换是线性的。
RBF网络的基本思想是:用RBF作为隐单元的“基”构成隐含层空间,这样就可以将输入向量直接映射到隐空间。
当RBF的中心点确定以后,这种映射关系也就确定了。
而隐含层空间到输出空间的映射是线性的,即网络的输出是隐单元输出的线性加权和。
此处的权即为网络可调参数。
由此可见,从总体上看,网络由输入到输出的映射是非线性的,而网络的输出对可调参数而言却是线性的。
这烟大哥网络的权就可由线性方程直接解出,从而大大加快学习速度并避免局部极小问题。
一、RBF神经元模型径向基函数神经元的传递函数有各种各样的形式,但常用的形式是高斯函数(radbas)。
与前面介绍的神经元不同,神经元radbas的输入为输入向量p和权值向量ω之间的距离乘以阈值b。
径向基传递函数可以表示为如下形式:二、RBF网络模型径向基神经网络的激活函数采用径向基函数,通常定义为空间任一点到某一中心之间欧氏距离的单调函数。
径向基神经网络的激活函数是以输入向量和权值向量之间的距dist为自变量的。
径向神经网络的激活函数一般表达式为随着权值和输入向量之间距离的减少,网络输出是递增的,当输入向量和权值向量一致时,神经元输出1。
b为阈值,用于调整神经元的灵敏度。
利用径向基神经元和线性神经元可以建立广义回归神经网络,该种神经网络适用于函数逼近方面的应用;径向基神经元和竞争神经元可以组件概率神经网络,此种神经网络适用于解决分类问题。
第三章径向基函数网络 (44)3.1 径向基函数(Redial Basis Function,RBF) (44)3.2 径向基函数参数的选取 (46)c的选取 (46)3.2.1 基函数中心p3.2.2权系数 的确定 (47)3.3 高斯条函数 (48))(1)(ph Pp p λx g ϕ∑==第三章 径向基函数网络径向基函数网络利用具有局部隆起的所谓径向基函数来做逼近或分类问题。
它可以看作是一种前馈网络,所处理的信息在工作过程中逐层向前流动。
虽然它也可以像BP 网络那样利用训练样本作有教师学习,但是其更典型更常用的学习方法则与BP 网络有所不同,综合利用了有教师学习和无教师学习两种方法。
对于某些问题,径向基函数网络可能比BP 网络精度更高。
3.1 径向基函数(Redial Basis Function ,RBF )[Powell 1985]提出了多变量插值的径向基函数方法。
稍后[Broomhead 1988]成功地将径向基函数用于模式识别。
径向基函数可以写成||)1(||)(∑=-=Pp p c x p x g ϕλ (3.1.1) 其中N R x ∈表示模式向量;NP p p R c ⊂=1}{ 是基函数中心;j λ是权系数;ϕ是选定的非线性基函数。
(3.1.1)可以看作是一个神经网络,输入层有N 个单元,输入模式向量x 由此进入网络。
隐层有P 个单元,第p 个单元的输入为||||p p c x h -=,输出为)(p h ϕ。
输出层1个单元,输出为 。
假设给定了一组训练样本11},{R R y x N J j j j ⨯⊂=。
当j y 只取有限个值(例如,取0,1或±1)时,可以认为是分类问题;而当j y 可取任意实数时,视为逼近问题。
网络学习(或训练)的任务就是利用训练样本来确定输入层到隐层的权向量p c 和隐层到输出层的权系数p λ,使得J j y x g j j ,,1 ,)( == (3.1.2)为此,当P J =时,可以简单地令P p x c p p ,,1 , == (3.1.3)这时(3.1.2)成为关于{}p λ的线性方程组,其系数矩阵通常可逆,因此有唯一解(参见[MC])。
在实践中更多的情况是P J >。
这时, (3.1.2)一般无解, 只能求近似解。
我们将在下一节详细讨论这种情况。
常用的非线性基函数有以下几种:1) 高斯基函数 确定了}{p c 后,可以选取如下的高斯基函数来构造径向基函数:)()(1x x g Pp p p ∑==ϕλ (3.1.4a)式中∑==Pq q p p x R x R x 1)()()(ϕ (3.1.4b))2||||exp()(22pp p c x x R σ--= (3.1.4c)这里参数p σ是第p 个高斯基函数)(x R p 的“宽度”或“平坦程度”。
p σ越大,则以p c 为中心的等高线越稀疏,)(x R p 越平坦,对其它)(x q ϕ的影响也就越大。
p σ的一种选法是22||||1∑∈-=px ppp c x M θσ (3.1.5)即p θ类所含的样本点与中心p c 的平均距离越大, 则)(x R p 应该越平坦。
2) 薄板样条函数)lg()(2v v v =ϕ (3.1.6)3) 多二次函数0 ,)()(212>+=c c v v ϕ (3.1.7)4) 逆多二次函数0 ,)()(2/12>+=-c c v v ϕ (3.1.8)一般认为,非线性函数ϕ的具体形式对网络性能的影响不大。
RBF 网络与第一章讨论的多层前馈网络(MLP )一样,能以任意精度逼近相当广泛的非线形映射(例如参见[CL][LX])。
由(3.1.1)可以看出,每一个基函数||)(||p c x -ϕ 都可以(以2=P 为例)由平面上一族同心圆{}h c x R x r p n h =-∈ :来表示,每一个同心圆h r 上的点具有相同的函数值。
而整个RBF 网络不外乎是由P 族同心圆互相影响而形成的P 族等高线来表示。
因此,RBF 网络对如图3.1所示的分类问题特别有效(),(21x x x =)。
图3.1 适合于RBF 网络的分类问题3.2 径向基函数参数的选取3.2.1 基函数中心p c 的选取假设RBF 网络中隐单元的个数(即基函数的个数)P 已经确定,则决定网络性能的关键就是P 个基函数中心p c 的选取。
一种广泛应用的无教师学习算法是如下的k -均值聚类算法I :① 给定训练样本N J j j R x ⊂=1}{。
)(J P <② 将聚类中心}{p c 初始化。
(例如可选为P i i x 1}{=。
)③ 将J j j x 1}{=按距离远近向P i i c 1}{=聚类,分成P 组P p p 1}{=θ,即令*p j x θ∈ (3.2.1)若||||min ||||1*p j Pp p j c x c x -=-≤≤。
④ 计算样本均值,作为新的聚类中心(p M 是类p θ中样本的个数):∑∈=Pjx jpp xM c θ1, P p ,,1 = (3.2.2)⑤ 若新旧P p p c 1}{=相差很小,则停止。
否则转③。
K-均值聚类算法是循环地选取聚类中心p c 与聚类集合p θ的一个迭代过程。
(暂时)选定各中心p c 后,在步骤③中按距离远近将j x 向p c 聚类得到p θ应该是十分自然的。
而p θ确定后,对新的中心p c 与p θ中各个j x 的“总的距离”(即各个距离的平方和)∑∈-pj x p j c x θ2|||| (3.2.3)取极小,便得到确定新p c 的公式(3.2.2)。
这是一种竞争分类过程。
在步骤③中竞争p θ类资格获胜的各个j x 将对新的聚类中心p c 做出贡献。
下面我们给出另外一种K-均值聚类算法II :① 将聚类中心}{p c 初始化。
② 随机选取样本向量j x 。
③ 将j x 按距离远近向P i i c 1}{=聚类,即令p j x '∈θ (3.2.4)若||||min ||||1p j Pp p j c x c x -=-≤≤'。
④ 调整样本中心p c '(0>η是选定的学习速率):⎪⎩⎪⎨⎧'≠'=-+= , ),(p p c p p c x c c old poldp j old p new pη (3.2.5)⑤ 若新旧P p p c 1}{=相差很小,则停止。
否则转②。
K-均值聚类算法I 和II 分别是离线和在线学习算法。
下面我们来考虑隐单元个数P 的确定。
与第一章中BP 网络的隐层单元个数的确定类似,其原则应该是在满足精度要求的前提下,P 越小越好。
这不但减小网络成本,而且使逼近函数)(x g 减少不必要的震荡。
像确定BP 网络的隐单元个数一样,我们可以从大的单元数P 出发,逐步减小P ,直到精度要求不再满足为止。
也可以从较小的P 出发,逐步增加单元数,直到满足精度要求。
3.2.2 权系数λ的确定确定权系数λ时,通常要利用训练样本的理想输出作有教师学习。
一个简单办法是在确定}{p c 之后, 求如下误差函数关于),,(1P λλλ =的极小:∑=-=Jj j j x g y E 12))((21)(λ (3.2.6)这时,可以用最小二乘法或其它优化方法,例如梯度下降法。
为了减小推广误差, 我们可以进一步要求逼近函数)(x g 不要震荡得太厉害,或者说曲面)(x g 不要弯曲得太厉害。
注意到曲面的弯曲程度可以由曲率来描述,而曲率主要与二阶导数的大小有关。
为此, 定义训练样本集上的平均曲率为(用2n ∂表示对变量n x 的二阶导数)∑∑==∂=J j Nn j nx g JD 1212))((21)(λ (3.2.7)现在, 我们的任务成为:求P P R ∈=),,(1λλλ 使得下列函数取极小)()()(λμλλD E L += (3.2.8)这里0≥μ是一个适当的折衷参数, 需针对具体问题选定。
下面我们来推导(3.2.8)的解。
假设基函数)(h ϕ二次可微,并且下列极限存在:)(lim 0h h ϕδ''=→ (3.2.9)容易算得||||)(||)(||)(1p n p Pp p p n c x c x c x x g ---'=∂∑=ϕλ (3.2.10)其中n p c x )(-表示p c x -的第n 个分量。
对(3.2.10)再求导数得∑=---''=∂Pp p n p p p n c x c x c x x g 1222||||)(||)(||[)(ϕλ)]||||)(||||1||)((||32p np p p c x c x c x c x -----'+ϕ 关于n 求和便得∑∑==---'+-''=∂Pp p p p p N n n c x N c x c x x g 112]||||1||)(||||)(||[)(ϕϕλ (3.2.11)注意由罗必塔法则和(3.2.9)δϕϕ=''='→→1)(lim )(lim 00h h h h h因此(3.2.11)可以拓广定义到p c x =。
记,),,(1T J y y y = P J jp S S ⨯=)(, ||)(||p j jp c x S -=ϕ (3.2.12)P J jp Q Q ⨯=)(,⎪⎩⎪⎨⎧---'+-''==其它如果 ,||||1||)(||||)(||,p j p j p j p j jp c x N c x c x c x N Q ϕϕδ(3.2.13) 于是(3.2.8)可以写成矩阵形式 ])()[(21)(λλμλλλQ Q J S y S y L T T T +--= (3.2.14)令0/=∂∂λL ,得0)(=+--Q Q JS S y T T Tλμλ因此y S Q Q JS S T T T 1)(-+=μλ (3.2.15)注2.1 当样本数J 很大时, 为了减少计算量, 可以在(3.2.7)中只对少量“重要”的样本j 求和。
注2.2 也可以用最速下降法求误差函数的极小,来统一地确定},,{p p p c σλ等参数 (参见下节中(3.3.3))。
这时,径向基函数网络与BP 网络就很相像了。
3.3 高斯条函数典型的径向基函数(RBF )只对输入空间的一个很小的局部区域作出有效响应(当2||||p c x -较大时,)(x p ϕ接近于零)。
与此对照,Sigmoid 函数的响应域则是无穷大。
因此,RBF 对刻画函数的局部性质较为有效,而不适合于对函数的大范围逼近。