当前位置：文档之家› MOADA-SVR：一种基于支持向量回归的多元在线异常检测方法

MOADA-SVR：一种基于支持向量回归的多元在线异常检测方法

支持向量回归简介

支持向量回归简介人类通过学习，从已知的事实中分析、总结出规律，并且根据规律对未来的现象或无法观测的现象做出正确的预测和判断，即获得认知的推广能力。在对智能机器的研究当中，人们也希望能够利用机器（计算机）来模拟人的良好学习能力，这就是机器学习问题。基于数据的机器学习是现代智能技术中的重要方面，机器学习的目的是通过对已知数据的学习，找到数据内在的相互依赖关系，从而获得对未知数据的预测和判断能力，在过去的十几年里，人工神经网络以其强大的并行处理机制、任意函数的逼近能力，学习能力以及自组织和自适应能力等在模式识别、预测和决策等领域得到了广泛的应用。但是神经网络受到网络结构复杂性和样本复杂性的影响较大，容易出现“过学习”或低泛化能力。特别是神经网络学习算法缺乏定量的分析与完备的理论基础支持，没有在本质上推进学习过程本质的认识。现有机器学习方法共同的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设。但在实际问题中，样本数往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。与传统统计学相比, 统计学习理论(Statistical Learning Theory 或SLT ) 是一种专门研究小样本情况下机器学习规律的理论Vladimir N. Vapnik 等人从六、七十年代开始致力于此方面研究，到九十年代中期，随着其理论的不断发展和成熟[17] ，也由于神经网络等学习方法在理论上缺乏实质性进展, 统计学习理论开始受到越来越广泛的重视。统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中，有望帮助解决许多原来难以解决的问题（比如神经网络结构选择问题、局部极小点问题）等；同时, 在这一理论基础上发展了一种新的通用学习方法—支持向量机(Support Vector Machine 或SVM ) ，它已初步表现出很多优于已有方法的性能。一些学者认为，SVM 正在成为继神经网络研究之后新的研究热点，并将有力地推动机器学习理论和技术的发展。支持向量机（SVM ）是一种比较好的实现了结构风险最小化思想的方法。它的机器学习策略是结构风险最小化原则为了最小化期望风险，应同时最小化经验风险和置信范围）支持向量机方法的基本思想：（1 ）它是专门针对有限样本情况的学习机器，实现的是结构风险最小化：在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷，以期获得最好的推广能力；（2 ）它最终解决的是一个凸二次规划问题，从理论上说，得到的将是全局最优解，解决了在神经网络方法中无法避免的局部极值问题；（3 ）它将实际问题通过非线性变换转换到高维的特征空间，在高维空间中构造线性决策函数来实现原空间中的非线性决策函数，巧妙地解决了维数问题，并保证了有较好的推广能力，而且算法复杂度与样本维数无关。目前，SVM 算法在模式识别、回归估计、概率密度函数估计等方面都有应用，且算法在效率与精度上已经超过传统的学习算法或与之不相上下。

支持向量机及支持向量回归简介

3．支持向量机（回归） 3.1.1 支持向量机支持向量机（SVM ）是美国Vapnik 教授于1990年代提出的，2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器，是构造分类规则的通用方法。SVM 方法的贡献在于，它使得人们可以在非常高维的空间中构造出好的分类规则，为分类算法提供了统一的理论框架。作为副产品，SVM 从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用，因此，将神经网络的学习算法纳入了核技巧范畴。所谓核技巧，就是找一个核函数(,)K x y 使其满足(,)((),())K x y x y φφ=，代替在特征空间中内积(),())x y φφ（的计算。因为对于非线性分类，一般是先找一个非线性映射φ将输入数据映射到高维特征空间，使之分离性状况得到很大改观，此时在该特征空间中进行分类，然后再返会原空间，就得到了原输入空间的非线性分类。由于内积运算量相当大，核技巧就是为了降低计算量而生的。特别，对特征空间H 为Hilbert 空间的情形，设(,)K x y 是定义在输入空间 n R 上的二元函数，设H 中的规范正交基为12(),(),...,(), ...n x x x φφφ。如果 2 2 1 (,)((),()), {}k k k k k K x y a x y a l φφ∞ == ∈∑ ，那么取1 ()() k k k x a x φφ∞ ==∑ 即为所求的非线性嵌入映射。由于核函数(,)K x y 的定义域是原来的输入空间，而不是高维的特征空间。因此，巧妙地避开了计算高维内积 (),())x y φφ（所需付出的计算代价。实际计算中，我们只要选定一个(,)K x y ，

基于支持向量回归的行程时间预测算法

龙源期刊网 https://www.doczj.com/doc/6116616703.html, 基于支持向量回归的行程时间预测算法作者：邱淳风王珊王超群来源：《计算机时代》2014年第04期摘要：作为交通规划、运营和通行能力评估的重要指标，行程时间的预测对出行者的路线和时间点的选择，以及交通规划部门的信号控制策略有着重要的实际意义。对于高级交通诱导系统而言，行程时间预测是一项关键的研究内容。现有行程时间预测方法较少，且预测误差较大。为此，运用浮动车和微波雷达测速数据，提出了基于支持向量机解决行程时间预测的方法，并且与历史平均法进行了比较。在杭州市高架路线上的实验结果表明，所提方法的预测精度大幅度超过了历史平均法。关键词：支持向量机；行程时间；智能交通；历史平均中图分类号：TP391 文献标志码：A 文章编号：1006-8228（2014）04-40-03 Abstract： As an important indicator of transportation planning， operations and capacity assessment， the forecasted travel time has important practical meaning for the choice of route and timing， as well as for traffic signal control strategy of transportation planning department. For advanced transportation guidance systems， it is a key issue to predict travel times between pairs of points of interest. There are few travel time prediction methods with high probability of prediction error. In this paper， the speed data returned from probe vehicles and microwave radars is used to predict travel times based on support vector regression（SVR）， and the new algorithm is compared to the historical mean algorithm. The experimental results over elevatedroads in Hangzhou show that the SVR based algorithm significantly outperforms the historical mean algorithm. Key words： support vector machine； travel time； intelligent transportation； historical average 0 引言行程时间是交通规划、运营和通行能力评估的重要指标。基于预测的行程时间，出行者可以直观地进行路线选择或者出行时间点的选择，交通规划部门能够做出合理的信号控制策略。因此，准确预测行程时间具有重要的应用价值。支持向量机（SVM）[1]是Vapnik在1995年提出的，已经被广泛地应用到监督分类领域。因为该方法采用了结构风险最小化的设计，比起经验风险最小化方法，其泛化能力更强，因此往往表现出较强的测试精度。特别地，工程实践往往难以获得大量标注样本，而SVM在小样本学习问题上表现出较佳的性能。另外，SVM采用严格的数值计算方法，不会收敛到局部最小解。在智能交通领域，运用SVM解决交通状态评估的工作较多，并且能得到高精度的路况估计结果。

(完整版)支持向量回归机

3.3 支持向量回归机 SVM 本身是针对经典的二分类问题提出的，支持向量回归机（Support Vector Regression ，SVR ）是支持向量在函数回归领域的应用。SVR 与SVM 分类有以下不同：SVM 回归的样本点只有一类，所寻求的最优超平面不是使两类样本点分得“最开”，而是使所有样本点离超平面的“总偏差”最小。这时样本点都在两条边界线之间，求最优回归超平面同样等价于求最大间隔。 3.3.1 SVR 基本模型对于线性情况，支持向量机函数拟合首先考虑用线性回归函数 b x x f +?=ω)(拟合n i y x i i ,...,2,1),,(=，n i R x ∈为输入量，R y i ∈为输出量，即需要确定ω和b 。图3-3a SVR 结构图图3-3b ε不灵敏度函数惩罚函数是学习模型在学习过程中对误差的一种度量，一般在模型学习前己经选定，不同的学习问题对应的损失函数一般也不同，同一学习问题选取不同的损失函数得到的模型也不一样。常用的惩罚函数形式及密度函数如表3-1。表3-1 常用的损失函数和相应的密度函数损失函数名称损失函数表达式()i c ξ% 噪声密度 ()i p ξ ε -不敏感 i εξ 1 exp()2(1) i εξε-+ 拉普拉斯 i ξ 1 exp()2 i ξ- 高斯 212 i ξ 21 exp()22i ξπ -

标准支持向量机采用ε-不灵敏度函数，即假设所有训练数据在精度ε下用线性函数拟合如图（3-3a ）所示， ** ()()1,2,...,,0 i i i i i i i i y f x f x y i n εξεξξξ-≤+??-≤+=??≥? （3.11）式中，*,i i ξξ是松弛因子，当划分有误差时，ξ，*i ξ都大于0，误差不存在取0。这时，该问题转化为求优化目标函数最小化问题： ∑=++?=n i i i C R 1 ** )(21 ),,(ξξωωξξω （3.12）式（3.12）中第一项使拟合函数更为平坦，从而提高泛化能力；第二项为减小误差；常数0>C 表示对超出误差ε的样本的惩罚程度。求解式（3.11）和式（3.12）可看出，这是一个凸二次优化问题，所以引入Lagrange 函数： * 11 ****1 1 1()[()] 2[()]() n n i i i i i i i i n n i i i i i i i i i i L C y f x y f x ωωξξαξεαξεξγξγ=====?++-+-+-+-+-+∑∑∑∑ （3.13）式中，α，0*≥i α，i γ，0*≥i γ，为Lagrange 乘数，n i ,...,2,1=。求函数L 对ω， b ，i ξ，*i ξ的最小化，对i α，*i α，i γ，*i γ的最大化，代入Lagrange 函数得到对偶形式，最大化函数：

基于支持向量机回归模型的海量数据预测

２００７，４３（５）ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用１问题的提出航空公司在客舱服务部逐步实行“费用包干”政策，即：综合各方面的因素，总公司每年给客舱服务部一定额度的经费，由客舱服务部提供客舱服务，而客舱服务产生的所有费用，由客舱服务部在“费用包干额度”中自行支配。新的政策既给客舱服务部的管理带来了机遇，同时也带来了很大的挑战。通过“费用包干”政策的实施，公司希望能够充分调用客舱服务部的积极性和主动性，进一步改进管理手段，促进新的现代化管理机制的形成。为了进行合理的分配，必须首先搞清楚部门的各项成本、成本构成、成本之间的相互关系。本文首先对成本组成进行分析，然后用回归模型和支持向量机预测模型对未来的成本进行预测［１－３］，并对预测结果的评价和选取情况进行了分析。２问题的分析由于客舱服务部的特殊性，“费用包干”政策的一项重要内容就集中在小时费的重新分配问题上，因为作为客舱乘务员的主要组成部分—— —“老合同”员工的基本工资、年龄工资以及一些补贴都有相应的政策对应，属于相对固定的部分，至少目前还不是调整的最好时机。乘务员的小时费收入则是根据各自的飞行小时来确定的变动收入，是当前可以灵活调整的部分。实际上，对于绝大多数员工来说，小时费是其主要的收入部分，因此，用于反映乘务人员劳动强度的小时费就必然地成为改革的重要部分。现在知道飞行小时和客万公里可能和未来的成本支出有关系，在当前的数据库中有以往的飞行小时（月）数据以及客万公里数据，并且同时知道各月的支出成本，现在希望预测在知道未来计划飞行小时和市场部门希望达到的客万公里的情况下的成本支出。根据我们对问题的了解，可以先建立这个部门的成本层次模型，搞清楚部门的各项成本、成本构成、成本之间的相互关系。这样，可以对部门成本支出建立一个层次模型：人力资源成本、单独预算成本、管理成本，这三个部分又可以分别继续分层次细分，如图１所示。基于支持向量机回归模型的海量数据预测郭水霞１，王一夫１，陈安２ＧＵＯＳｈｕｉ－ｘｉａ１，ＷＡＮＧＹｉ－ｆｕ１，ＣＨＥＮＡｎ２１．湖南师范大学数学与计算机科学学院，长沙４１００８１２．中国科学院科技政策与管理科学研究所，北京１０００８０１．ＣｏｌｌｅｇｅｏｆＭａｔｈ．ａｎｄＣｏｍｐｕｔｅｒ，ＨｕｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｓｈａ４１００８１，Ｃｈｉｎａ２．ＩｎｓｔｉｔｕｔｅｏｆＰｏｌｉｃｙａｎｄＭａｎａｇｅｍｅｎｔ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１０００８０，ＣｈｉｎａＥ－ｍａｉｌ：ｇｕｏｓｈｕｉｘｉａ＠ｓｉｎａ．ｃｏｍＧＵＯＳｈｕｉ－ｘｉａ，ＷＡＮＧＹｉ－ｆｕ，ＣＨＥＮＡｎ．Ｐｒｅｄｉｃｔｉｏｎｏｎｈｕｇｅｄａｔａｂａｓｅｏｎｔｈｅｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｏｆｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２００７，４３（５）：１２－１４．Ａｂｓｔｒａｃｔ：Ａｓａｎｉｍｐｏｒｔａｎｔｍｅｔｈｏｄａｎｄｔｅｃｈｎｉｑｕｅ，ｐｒｅｄｉｃｔｉｏｎｈａｓｂｅｅｎｗｉｄｅｌｙａｐｐｌｉｅｄｉｎｍａｎｙａｒｅａｓ．Ｗｉｔｈｔｈｅｉｎｃｒｅａｓｉｎｇａｍｏｕｎｔｏｆｄａｔａ，ｐｒｅｄｉｃｔｉｏｎｆｒｏｍｈｕｇｅｄａｔａｂａｓｅｂｅｃｏｍｅｓｍｏｒｅａｎｄｍｏｒｅｉｍｐｏｒｔａｎｔ．Ｂａｓｅｄｏｎｔｈｅｂａｓｉｃｐｒｉｎｃｉｐｌｅｏｆｖｅｃｔｏｒｍａｃｈｉｎｅａｎｄｉｍ－ｐｌｅｍｅｎｔａｒｉｔｈｍｅｔｉｃ，ａｐｒｅｄｉｃｔｉｏｎｓｙｓｔｅｍｉｎｆｒａｓｔｒｕｃｔｕｒｅｏｎａｎａｉｒｃｏｍｐａｎｙｉｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｌａｓｔｌｙ，ｔｈｅｒｕｌｅｓｏｆｅｖａｌｕａｔｉｏｎａｎｄｓｅｌｅｃｔｉｏｎｏｆｔｈｅｐｒｅｄｉｃｔｉｏｎｍｏｄｅｌｓａｒｅｄｉｓｃｕｓｓｅｄ．Ｋｅｙｗｏｒｄｓ：ｐｒｅｄｉｃｔｉｏｎ；ｄａｔａｍｉｎｉｎｇ；ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ；ｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌ摘要：预测是很多行业都需要的一项方法和技术，随着数据积累的越来越多，基于海量数据的预测越来越重要，在介绍支持向量机基本原理和实现算法的基础上，给出了航空服务成本预测模型，最后对预测结果的评价和选取情况进行了分析。关键词：预测；数据挖掘；支持向量机；回归模型文章编号：１００２－８３３１（２００７）０５－００１２－０３文献标识码：Ａ中图分类号：ＴＰ１８基金项目：国家自然科学基金（ｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ．１０５７１０５１）；湖南省教育厅资助科研课题（ｔｈｅＲｅｓｅａｒｃｈＰｒｏｊｅｃｔｏｆＤｅｐａｒｔｍｅｎｔｏｆＥｄｕｃａｔｉｏｎｏｆＨｕｎａｎＰｒｏｖｉｎｃｅ，ＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ．０６Ｃ５２３）。作者简介：郭水霞（１９７５－），女，博士生，讲师，主要研究领域为统计分析；王一夫（１９７１－），男，博士生，副教授，主要研究领域为计算机应用技术，软件工程技术；陈安（１９７０－），男，副研究员，主要研究领域为数据挖掘与决策分析。１２

区域经济中长期预测的支持向量回归方法

２００６年４月系统工程理论与实践第４期文章编号：１０００．６７８８（２００６）０４．００９７—０７区域经济中长期预测的支持向量回归方法肖健华１’２，林健３，刘晋３（１．五邑大学智能技术与系统研究所，广东江门５２９０２０；２．北京航空航天大学经济管理学院，北京１０００８３；３．五邑大学管理学院，广东江ｆ－ｉ５２９０２０）摘要：分析了区域经济发展特性以及中长期经济预测的特点，对当前经济预测方法存在的不足进行了阐述，指出：由于区域经济系统中存在高度的非线性、耦合性和时变性，使得现有的经济预测方法难以胜任．介绍了支持向量回归算法，并在此基础上，提出了基于支持向量回归的方法对区域经济进行中长期预测的思路，并建立了相应的数学模型．以广东省江门市作为应用对象，说明了该模型的有效性．关键词：支持向量回归；统计学习理论；区域经济；中长期预测中图分类号：ＴＰｌ８１文献标识码：ＡＡＳＶＲ－－ｂａｓｅｄＭｏｄｅｌｆｏｒＲｅｇｉｏｎａｌＥｃｏｎｏｍｙＭｅｄｉｕｍ－－ｔｅｒｍａｎｄＬｏｎｇ?ｔｅｒｍＦｏｒｅｃａｓｔＸＩＡＯＪｉａｎ—ｈｕａｌ”，ＬＩＮＪｉａｎ３，ＬＩＵＪｉｎ３（１．ＩｎｓｔｉｔｕｔｅｏｆＩｎｔｅｌｌｉｇｅｎｔＴｅｃｈｎｏｌｏｇｙａｎｄＳｙｓｔｅｍｓ，ＷｕｙｉＵｎｉｖｅｒｓｉｔｙ，Ｊｉａｎｇｍｅｎ５２９０２０，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＥｃｏｎｏｍｉｃｓａｎｄＭａｎａｇｅｍｅｎｔ，ＢｅｉｈａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８３，Ｃｈｉｎａ；３．ＳｃｈｏｏｌｏｆＭａｎａｇｅｍｅｎｔ，ｗｕｙｉＵｎｉｖｅｒｓｉｔｙ，Ｊｉａｎｇｍｅｎ５２９０２０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｂａｓｅｄｏｎｔｈｅａｎａｌｙｓｉｓｏｆｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｒｅｇｉｏｎａｌｅｃｏｎｏｍｙａｎｄｆｏｒｅｃａｓｔｉｎｇｍｅｔｈｏｄｓｆｏｒｍｅｄｉｕｍ－ｔｅｒｍａｎｄｌｏｎｇ－ｔｅｒｍｅｃｏｎｏｍｉｃｄｅｖｅｌｏｐｍｅｎｔ，ｄｒａｗｂａｃｋｓｏｆｃｕｒｒｅｎｔｆｏｒｅｃａｓｔｉｎｇｍｅｔｈｏｄｓｗｅｒｅｅｘｐｌａｉｎｅｄａｓｔｈａｔｔｈｏｓｅｍｅｔｈｏｄｓａｒｅｎｏｔｓｕｉｔａｂｌｅｆｏｒｆｏｒｅｃａｓｔｉｎｇｍｅｄｉｕｍ－ｔｅｒｍａｎｄｌｏｎｇ—ｔｅｒｍｅｃｏｎｏｍｉｃｄｅｖｅｌｏｐｍｅｎｔｄｕｅｔｏｉｔｓｎｏｎｌｉｎｅａｒｉｔｙ，ｃｏｕｐｌｉｎｇａｎｄｍｅｄｉｕｍ—ｔｅｒｍｄｙｎａｍｉｃｉｔｙ．Ａｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎａｌｇｏｒｉｔｈｍｗａｓｂｅｅｎｉｎｔｒｏｄｕｃｅｄ，ａｎｄｔｈｅｎａｎｉｄｅａｏｆｆｏｒｅｃａｓｔｉｎｇａｎｄａｎｄａｍａｔｈｅｍａｔｉｃｍｏｄｅｌｂａｓｅｄｏｎｔｈｅｉｄｅａｗａｓｌｏｎｇ－ｔｅｒｍｒｅｇｉｏｎａｌｅｃｏｎｏｍｙｂａｓｅｄｏｎｔｈｅａｌｇｏｒｉｔｈｍｗａｓｅｘｐｌａｉｎｅｄｐｒｏｐｏｓｅｄ．Ａｔｌａｓｔ，ａｎｅｘｐｅｒｉｍｅｎｔｗａｓｃｏｎｄｕｃｔｅｄｔｏｖｅｒｉｆｙｔｈｅｐｒｏｐｏｓｅｄｍｏｄｅｌｏｎｔｈｅｅｃｏｎｏｍｉｃｄａｔａｓｅｔｏｆＪｉａｎｇｍｅｎ，Ｇｕａｎｇｄｏｎｇ．Ｋｅｙｗｏｒｄｓ：ｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎ（ＳＶＲ）；ｓｔａｔｉｓｔｉｃｌｅａｒｎｉｎｇｔｈｅｏｒｙ（ＳＬＴ）；ｒｅｇｉｏｎａｌｅｃｏｎｏｍｙ；ｍｅｄｉｕｍ－ｔｅｒｍ；ｌｏｎｇ—ｔｅｒｍｆｏｍｅａｓｔ１引言经济发展的中长期预测，一般是指五年以上经济发展趋势的预测，旨在为一个国家或一个区域的中远景规划提供科学的依据．就经济发展预测而言，与国家宏观经济发展规律相比，区域经济的发展存在自身的特点．首先是波动性大，而且所研究的区域越小波动性越大，有时甚至一个企业的兴衰、降雨量的多少等都可能对一个区域的经济发展产生很大的影响；其次是系统的相对独立性和开放流动性，单个区域的独立性相对较小，各个区域各有侧重，某个区域经济必然与其它的区域经济形成互补．当然，区域经济的发展预测也具备一般经济系统预测的共同特性…：非线性，区域经济系统是众多确定性因素和非确定性因素交互作用下的非线性系统；强耦合性，反映经济发展的各种指标、构成经济系统的各行业、各部门等无不密切关联，每一个指标或行业的变化都会导致其它指标或行业的变化；时变性，经收稿１３期：２００４—１０．１０资助项目：国家自然科学基金（７０４７１０７４）；中国博士后科学基金（２００５０３８０４２）作者简介：肖健华（１９７０一），男，汉族，江西永新人，博士后，副教授，主要研究方向：智能信息处理，复杂经济系统建模，Ｅ．ｍａｉｌ：ｊｉａｎｈｕａｘｉａｏ＠ｔｏｍ．ｃｏｍ；林健（１９５８一），男，汉族，福建福州人，博士生导师，五邑大学校长，主要研究方向为复杂系统建模与仿真；刘晋（１９５６一），女，湖北孝感人，博士，教授，主要研究方向为管理决策支持系统．

支持向量回归用于氨基酸描述符(doc 7页)

支持向量回归用于氨基酸描述符在肽QSAR建模中的性能评价（黑体三号、居中）应用化学2008级学号2008123 张明康（宋体小四号、居中）任课教师印家健副教授（宋体小四号、居中）摘要：（宋体小四号、加粗、顶格）采用支持向量回归方法用3个数据集来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择，采用留一法交叉检验的结果显示径向基核函数要好于多项式核函数和线性核函数；在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符，且在同一描述符的情况下SVR的预测效果要好于其它线性方法，说明SVR在肽QSAR模型构建中是一个可行的方法。（中文用楷体小四号、英文用Times New Roman小四号、两端对齐）关键词：（宋体小四号、加粗、顶格）肽，定量构效关系，核函数，支持向量回归，性能评价（楷体小四号、两端对齐）（关键词间，用逗号隔开）多肽具有高活性、高选择性及副作用小的特点,是维持生命过程中必不可少的物质,目前已成为药物研究的热点之一。在多肽类似物的研究和开发中,定量构效关系(Quantitative structure-activity relationships，QSAR)是一个重要的理论计算方法和常用手段。所谓多肽QSAR,就是用数学模式来表达多肽类似物的化学结构信息与特定的

生物活性强度间的相互关系[1,2]。多肽的化学结构描述符普遍采用氨基酸的结构描述参数去定量描述多肽的化学结构和性质，其基本思路是以多肽的最基本的结构信息——氨基酸序列为基础,对一系列多肽类似物中变化的氨基酸残基进行定量描述,并把氨基酸序列转换成结构描述符矩阵的一个向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有：基于实验的z-scales[1]、基于理论计算的ｔ-scales[3]、ISA(isotropic surface area)－ECI(electronic charge index)[4]、MS-WHIM scores[5]、PRIN[6]、c-scales[7]以及基于分子拓扑学的MHDV(molecular holographic distance vector)及其衍变的拓扑描述符[8-10]。在多肽QSAR数学模型方面，文献中常用的有多元线性回归（multiple linear regression, MLR）[10]、主成分回归（principal component regression, PCR）[8]、偏最小二乘（partial least squares，PLS）[1,4,5]和遗传算法与偏最小二乘法相结合（genetic algorithm-partial least squares，G/PLS）等方法[7]，但这些方法都是线性方法，且对高维、非线性、小样本问题的解析能力有限。目前，支持向量机[12]（support vector machine, SVM）已广泛的用于各学科领域[13-15],故我们尝试采用支持向量回归（support vector regression, SVR）[16]方法研究多肽QSAR 数学建模，分别用48个苦味二肽、58个ACE(angiotensin converting enzyme)抑制剂二肽和30个缓激肽增效剂五肽等作为数据集，采用留一法交叉检验来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择，结果显示径向基核函数要好于多项式核函数和线性核函数；在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符，且在同一描述符的情况下SVR的预测效果要好于G/PLS和PLS等方法，说明SVR在肽QSAR模型构建中是一种可行的方法。（中文用宋体小四号、英文用Times New Roman小四号、段前缩进2个汉字，两端对齐） 1 支持向量回归算法[12,15,17]及其实现（中文用宋体四号、英文用Times New Roman四号、加粗，顶格、两端对齐，序号后空1格，不用标点符号）近年来，有限样本情况下的机器学习理论研究逐渐成熟，形成了一个较完善的理论

支持向量机非线性回归通用MATLAB源码

支持向量机非线性回归通用MA TLAB源码支持向量机和BP神经网络都可以用来做非线性回归拟合，但它们的原理是不相同的，支持向量机基于结构风险最小化理论，普遍认为其泛化能力要比神经网络的强。大量仿真证实，支持向量机的泛化能力强于BP网络，而且能避免神经网络的固有缺陷——训练结果不稳定。本源码可以用于线性回归、非线性回归、非线性函数拟合、数据建模、预测、分类等多种应用场合，GreenSim团队推荐您使用。 function [Alpha1,Alpha2,Alpha,Flag,B]=SVMNR(X,Y,Epsilon,C,TKF,Para1,Para2) %% % SVMNR.m % Support Vector Machine for Nonlinear Regression % All rights reserved %% % 支持向量机非线性回归通用程序 % GreenSim团队原创作品，转载请注明 % GreenSim团队长期从事算法设计、代写程序等业务 % 欢迎访问GreenSim——算法仿真团队→ % 程序功能： % 使用支持向量机进行非线性回归，得到非线性函数y=f(x1,x2,…,xn)的支持向量解析式，% 求解二次规划时调用了优化工具箱的quadprog函数。本函数在程序入口处对数据进行了% [-1,1]的归一化处理，所以计算得到的回归解析式的系数是针对归一化数据的，仿真测 % 试需使用与本函数配套的Regression函数。 % 主要参考文献: % 朱国强,刘士荣等.支持向量机及其在函数逼近中的应用.华东理工大学学报 % 输入参数列表 % X 输入样本原始数据，n×l的矩阵，n为变量个数，l为样本个数 % Y 输出样本原始数据，1×l的矩阵，l为样本个数 % Epsilon ε不敏感损失函数的参数，Epsilon越大，支持向量越少 % C 惩罚系数，C过大或过小，泛化能力变差 % TKF Type of Kernel Function 核函数类型 % TKF=1 线性核函数，注意：使用线性核函数，将进行支持向量机的线性回归 % TKF=2 多项式核函数 % TKF=3 径向基核函数 % TKF=4 指数核函数 % TKF=5 Sigmoid核函数 % TKF=任意其它值，自定义核函数 % Para1 核函数中的第一个参数 % Para2 核函数中的第二个参数 % 注：关于核函数参数的定义请见Regression.m和SVMNR.m内部的定义 % 输出参数列表 % Alpha1 α系数 % Alpha2 α*系数 % Alpha 支持向量的加权系数（α－α*）向量

支持向量回归机

支持向量回归机 SVM 本身是针对经典的二分类问题提出的，支持向量回归机（Support Vector Regression ，SVR ）是支持向量在函数回归领域的应用。SVR 与SVM 分类有以下不同：SVM 回归的样本点只有一类，所寻求的最优超平面不是使两类样本点分得“最开”，而是使所有样本点离超平面的“总偏差”最小。这时样本点都在两条边界线之间，求最优回归超平面同样等价于求最大间隔。 3.3.1 SVR 基本模型对于线性情况，支持向量机函数拟合首先考虑用线性回归函数 b x x f +?=ω)(拟合n i y x i i ,...,2,1),,(=，n i R x ∈为输入量，R y i ∈为输出量，即需要确定ω和b 。图3-3a SVR 结构图图3-3b ε不灵敏度函数惩罚函数是学习模型在学习过程中对误差的一种度量，一般在模型学习前己经选定，不同的学习问题对应的损失函数一般也不同，同一学习问题选取不同的损失函数得到的模型也不一样。常用的惩罚函数形式及密度函数如表3-1。表3-1 常用的损失函数和相应的密度函数损失函数名称损失函数表达式()i c ξ 噪声密度 ()i p ξ ε -不敏感 i εξ 1 exp()2(1) i εξε-+ 拉普拉斯 i ξ 1 exp()2 i ξ- 高斯 212 i ξ 21 exp()22i ξπ -

标准支持向量机采用ε-不灵敏度函数，即假设所有训练数据在精度ε下用线性函数拟合如图（3-3a ）所示， ** ()()1,2,...,,0 i i i i i i i i y f x f x y i n εξεξξξ-≤+??-≤+=??≥? （）式中，*,i i ξξ是松弛因子，当划分有误差时，ξ，*i ξ都大于0，误差不存在取0。这时，该问题转化为求优化目标函数最小化问题： ∑=++?=n i i i C R 1 ** )(21 ),,(ξξωωξξω （）式（）中第一项使拟合函数更为平坦，从而提高泛化能力；第二项为减小误差；常数0>C 表示对超出误差ε的样本的惩罚程度。求解式（）和式（）可看出，这是一个凸二次优化问题，所以引入Lagrange 函数： * 11 ****1 1 1()[()] 2[()]() n n i i i i i i i i n n i i i i i i i i i i L C y f x y f x ωωξξαξεαξεξγξγ=====?++-+-+-+-+-+∑∑∑∑ （）式中，α，0*≥i α，i γ，0*≥i γ，为Lagrange 乘数，n i ,...,2,1=。求函数L 对ω， b ，i ξ，*i ξ的最小化，对i α，*i α，i γ，*i γ的最大化，代入Lagrange 函数得到对偶形式，最大化函数：

3.支持向量机(回归)

3.支持向量机(回归) 3.1.1 支持向量机支持向量机(SVM是美国Vapnik教授于1990年代提出的，2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器，是构造分类规则的通用方法。SVh方法的贡献在于，它使得人们可以在非常高维的空间中构造出好的分类规则，为分类算法提供了统一的理论框架。作为副产品，SVM从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用，因此，将神经网络的学习算法纳入了核技巧范畴。所谓核技巧，就是找一个核函数K(x, y)使其满足K(x,y) ( (x), (y))，代替在特征空间中内积((x), (y))的计算。因为对于非线性分类，一般是先找一个非线性映射将输入数据映射到高维特征空间，使之分离性状况得到很大改观，此时在该特征空间中进行分类，然后再返会原空间，就得到了原输入空间的非线性分类。由于内积运算量相当大，核技巧就是为了降低计算量而生的。特别，对特征空间H为Hilbert空间的情形，设K(x, y)是定义在输入空间 R n上的二元函数，设H中的规范正交基为1(x), 2(x),..., n(x), ...。如果 2 K(x, y) a k ( k(x), k(y)), k 1 那么取(x) 3k k(x)即为所求的非线性嵌入映射。由于核函数K(x,y)的定义k 1 域是原来的输入空间，而不是高维的特征空间。因此，巧妙地避开了计算高维内积((x), (y))所需付出的计算代价。实际计算中，我们只要选定一个K(x,y)，并不去重构嵌入映射(x) a k k(x)。所以寻找核函数K(x,y)(对称且非负) k 1