支持向量机与人工神经网络_艾娜
- 格式:pdf
- 大小:173.04 KB
- 文档页数:5
第19卷第5期 山东理工大学学报(自然科学版) Vol.19No.52005年9月 JournalofShandongUniversityofTechnology(Sci&Tech) Sep.2005
文章编号:1672-6197(2005)05-0045-05
支持向量机与人工神经网络
艾 娜,吴作伟,任江华
(北京交通大学机电学院,北京100044)
摘 要:支持向量机(SupportVectorMachine,SVM)是由Vapnik等人提出的一种基于统计
学习理论的新型机器学习算法;而人工神经网络(ArtificialNeuralNetwork,ANN)已经成功用于解决模式识别和任意非线性函数回归估计问题中.介绍了支持向量机与人工神经网络的
基本原理,并对二者进行了逼近方面的比较,结果表明,支持向量机作为一种新兴技术而具有
的独特的优越性.
关键词:支持向量机;人工神经网络;统计学习理论中图分类号:TP183文献标识码:A
Supportvectormachineandartificialneuralnetwork
AINa,WUZuo-wei,RENJiang-hua
(SchoolofMechanical&ElectricalEngineering,BeijingJiaotongUniversity,Beijing100044)
Abstract:Thesupportvectormachine(SVM),putforwardbysomeresearchersandVapnik,isa
newmachinelearningalgorithm,basedtheoreticallyonstatisticlearningtheory.Atthesametime,theartificialneuralnetwork(ANN)hasbeensuccessfullyappliedtosolveproblemssuchasmode
recognitionandregressionofnon-linerfunction.ThepaperintroducesthebasictheoryofSVMand
ANNinbrief.Inaddition,thepapercomparestheapproachabilityofSVMandANN,andthere-
sultsindicatethatSVM,asanewtechnique,hasmoresuperiorities.Keywords:SVM;ANN;statisticlearningtheory
自1943年心理学家McCulloch和数学家Pitts合作提出了第一个神经计算模型(MP模型),经历了兴
起、萧条、兴盛几个阶段的发展.从20世纪80年代初神经网络的研究再次复苏并形成热点以来,发展非常
迅速,从理论上对它的计算能力、对任意连续映射的逼近能力、学习理论以及动态网络的稳定性分析上都
取得了丰硕的成果.特别是应用上已迅速扩展到许多重要领域.20世纪的最后10年中,产生大量关于神经网络的论文,新的理论和实践工作层出不穷.20世纪90年代初期,Vapnik等人在基于统计学习理论的
基础上提出了一种新的机器学习方法即支持向量机(SupportVectorMachine,简称SVM)[1].
收稿日期:20050120作者简介:艾 娜(1979),女,硕士研究生. DOI牶牨牥牣牨牫牫牰牱牤j牣cnki牣sdgc牣牪牥牥牭牣牥牭牣牥牨牨1 支持向量机
1.1 最优超平面
考虑训练样本{(xidi)}Ni=1,用于分离的超平面形式的决策曲面方程是
WTX+b=0(1)
其中x∈Rn,di∈{-1,+1};W是可调的权值向量;b是偏值.
对于(1)式也可写成以下形式
WTXi+b≥0 当di=+1时(2)
WTXi+b≤0当di=-1时(3)对于一个给定的权值W和偏值b,由式(1)定义的超平面和最近的数据点之间的间隔被称为分离
边缘,用ρ表示.支持向量机的目标就是找到一个特殊的超平面,对于这个超平面分离边缘ρ最大.在
这个条件下,决策曲面称为最优超平面(optimalhyperplane)[1].距离这个最优超平面最近的异类向量就是所谓的支持向量(supportvector),支持向量于、与超平面的之间的距离最大(即边缘最大化),一组
支持向量可唯一的确定一个超平面.如图1所示.由于从支持向量到最优超平面的代数距离是
图1 最优超平面 r=1||W0| 若d(s)=+1(4)
r=-1||W0||若d(s)=-1(5)
式中,W0表示权值的最优值;加号表示支持向量在最优超平面的正面;
相反的减号表示支持向量在最优超平面的负面.因此由(4)(5)式可
知,支持向量间距为2||W0||,寻找超平面的问题可转化为求解以下二次
规划问题
Χ(w)=12WTW(6)
约束条件 di(WtXi+b)≥1 对I=1,2…,N(7)
1.2 支持向量机简介
支持向量机(supportvectormachine,简称SVM)是一种基于统计
学习理论的新型机器学习算法[2].统计理论是一种专门研究小样本情况下机器学习规律得基本理论和
数学框架,也是目前针对小样本统计和预测学习的最佳理论.它从理论上系统地研究了经验风险最小
化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则.
Vapnik等人从20世纪六七十年代开始致力于此方面的研究,到20世纪90年代中期,随着该理论的不
断发展和成熟,产生了基于统计学习理论体系的新的通用的机器学习方法,即支持向量机[3].
支持向量机即是通过就是通过某种事先选择的非线性映射,将输入向量映射到一个高维特征空间,
在这个空间构造最优分类超平面的实现过程.其基本思想如图2所示。
正如图所示,它形式上类似神经网络,输出是中间结点的线性组合,每个中间节点对应一个支持向量.
1.3 核函数
支持向量机中通过引入核函数(kernelfunction)将输入空间映射成高维的特征空间(Hilbert空
间),然后在特征空间中寻找最优超平面.核函数K满足:
K(xi,xj)=ψ(xi) ψ(xj).该过程可表述为:将输入向量x通过映射Rn→H映射到高维Hilbert空间中.核函数的引入绕过特征空间,直接在输入空间上求取,从而避免了计算非线性映射Χ[4].46山东理工大学学报(自然科学版)2005年
图2 支持向量机示意图目前常用的核函数有:1)多项式核函数
k(x,x′)=(
2)径向基核函数(RBF)
k(x,x′)=exp(-‖x-x′‖2/2σ2)3)样条函数
k(x,x′)=1+
-
16min(x,x′)3
4)B样条函数k(x,x′)=B2N+1(‖x-x′‖)
核函数的选择需要一定的先验知识,目前还没有一般性的结论.[1]
2 人工神经网络
人工神经网络(artificialneuralnetwork,ANN),亦称为神经网络(neuralnetwork,NN),是由大量
处理单元(神经元)广泛互连而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性.其中,神
经元的数学模型、神经网络的连接方式以及神经网络的学习方式是决定神经网络信息处理性能的三大
要素,对神经网络起至关重要的作用[5].大量神经元组成庞大的神经网络,才能实现对复杂信息的处理与存储,并表现出各种优越的特性.
神经网络的强大功能与其大规模并行互连、非线性处理以及互连结构的可塑性密切相关.因此必须按
一定规则将神经元连接成神经网络,并使网络中各种神经元的连接权按一定规则变化.生物神经网络由数以亿记的生物神经元连接而成,而人工神经网络限于物理实现的困难和为了计算简便,是由相对少
量的神经元按一定规律构成的网络.人工神经网络中神经元常称为节点或处理单元,每个节点均具有
相同的结构,其动作在时间上同步.
图3 神经元模型示意图神经元是生物神经系统的最基本单元,虽然其形状大小是多样的,但从功能结构角度而言,各个神经元是相似
的.人工神经元模型是生物神经元的数学抽象与模拟,它
从功能特性角度对生物神经元进行模拟,并形成人工神经网络的基本组成单位.人工神经元通常为多输入、单输出
的非线性单元,其数学模型如图3所示.
神经元模型有三个基本要素:
1)一组连接(对应于生物神经元的突触),连接强度由各连接上的权值表示,权值为正表示激活,为负表示抑制.
2)一个求和单元,用于求取各输入信号的加权和(线性组合).
3)一个非线性激活函数,起非线性映射作用并将神经元输出幅值限制在一定范围内(一般限制在(0,1)或(-1,1)之间)[6].人工神经网络的模型很多,目前应用较多的有:Elman网络、RBF网络和BP网络.它们都可以很
好地实现对多维非线性系统的映射功能,并且在实际工程中已得到广泛的应用[7].47第5期 艾 娜,等:支持向量机与人工神经网络3 支持向量机与人工神经网络
人工神经网络是目前研究较多的交叉学科,由于通过选择适当的隐单元数和网络层次,前馈网络能
以任意精度逼近非线性函数(Funahashi,1989),因此神经网络技术被广泛应用到工业过程的建模与控
制中,并取得了巨大成功.尽管如此,神经网络仍存在一些缺陷:
1)网络结构需要事先指定或应用启发算法在训练过程中修正,这些启发算法难以保证网络结构的
最优化;
2)网络权系数的调整方法存在局限性;
3)神经网络易陷入局部最优,有些甚至无法得到最优解;
4)过分依赖学习样本,即模型性能的优劣过分依赖于模型训练过程中样本数据,而大多数情况下,样本数据是有限的.除次,许多实际问题中的输入空间是高维的,样本数据仅是输入空间中的稀疏分
布,即使能得到高质量的训练数据,数据量必然很大.但是样本数要是很多的话,必然使训练时间大大
增加;
5)目前尚无一种理论能定量的分析神经网络的训练过程的收敛速度,及收敛速度的决定条件,并对
其加以控制;
6)神经网络的优化目标是基于经验的风险最小化,这就不能保证网络的泛化能力.
尽管存在以上问题,神经网络仍然取得了很多成功应用,其原因在于,神经网络的设计与设计者有
很大的关系.设计者若在网络设计过程中有效的利用了自己的经验知识和先验知识,可能会得到较理
想的网络结构.因此,神经网络系统的优劣是因人而异的[7].
支持向量机是以统计学理论为基础的[4],因而具有严格的理论和数学基础,可以不象神经网络的结
构设计需要依赖于设计者的经验知识和先验知识.支持向量机与神经网络的学习方法相比,支持向量
机具有以下特点:
1)支持向量机是基于结构风险最小化(SRM,structuralriskminimization)原则,保证学习机器具
有良好的泛化能力;
2)解决了算法复杂度与输入向量密切相关的问题;
3)通过引用核函数,将输入空间中的非线性问题映射到高维特征空间中在高维空间中构造线性函
数判别;
4)支持向量机是以统计学理论为基础的,与传统统计学习理论不同.它主要是针对小样本情况,且
最优解是基于有限的样本信息,而不是样本数趋于无穷大时的最优解;
5)算法可最终转化为凸优化问题,因而可保证算法的全局最优性,避免了神经网络无法解决的局部最小问题;
6)支持向量机有严格的理论和数学基础,避免了神经网络实现中的经验成分.
4 计算实例
BP网络是目前应用较广泛的人工神经网络之一,它可以以任意精度逼近任意的非线性函数[6].本
文就非线性函数逼近能力方面,对BP网络和支持向量机网络的仿真结果进行比较,结果表明,支持向
量机具有较强的逼近能力和较好的泛化能力.
设非线性函数y=cos(|x|)|x|,x∈[-3π,3π].函数的样本值根据式(8)选择.yi=y(xi)+ei(8)48山东理工大学学报(自然科学版)2005年