当前位置:文档之家› 基于KPLS特征提取下的FWLS-SVM回归方法

基于KPLS特征提取下的FWLS-SVM回归方法

东北大学硕士学位论文摘要基于KPLS特征提取下的FWLS—SⅥⅥ回归方法

摘要

在建立数学模型时,特征选择或特征提取是非常重要的。传统的PLS方法通过线性变换将原始观测值化为个数相同的一组新特征,也即每一个新特征都是原始特征的线性组合,然而特征的可理解性很差。此外,过高的特征空间维数会导致准确率下降。通过引入核函数,非线性PLS发展成为KPLS,它先把初始输入映射到高维特征空间,然后在高维特征空间中计算成分。利用KPLS对数据进行特征提取,可以在提取包含样本信息的成分时,清除数据的相关性和噪声,并且可以使样本空间的维数降低。

经过特征提取后,建立在大数定理基础之上的经典统计理论是先假设样本服从某一具体的分布函数。但在实际应用中,一方面样本数目是有限的;另一方面样本的分布往往是未知的。与经典统计理论相比,现代统计学习理论为解决有限样本学习问题提供了一个统一的框架。在此理论基础上发展了新的学习方法一SVM方法具有拟合精度高、选择参数少、推广能力强和全局最优等特点。

然而,传统的多VM方法是转化为求解带约束条件的凸二次规划问题,这是十分复杂的。此外,它还要求核函数正定。针对此,Suykcns等人提出了LS—SvM方法。该方法是把SVM的学习问题转化为线性方程组的求解问题,从而使计算复杂度大大降低。

传统的SVM方法和LS—SⅥⅥ方法都要求观测或实验数据必须是经典数据。但现实对象的描述大多具有模糊性。因此,本文对模糊数据进行处理,使LS—SⅥⅥ发展成为基于模糊数的LS—SⅥⅥ方法。从而使SVM方法在现实中得到广泛应用。

考虑到采集的样本之间的差异性,一些专家和学者提出了对不同的样本采用不同的惩罚权系数法。但是目前确定样本隶属度的方法基本上是基于距离来度量的。对样本间的关联程度很少涉及到。这里,把基于综合因素的模糊隶属度的确定方法进行推广。该方法不仅考虑了样本与类中心之间的关系,还考虑了类内各个样本之间的联系,有效地将支撑向量与噪声样本区分开来。

关键词:支撑向量机;支撑向量回归;偏最小二乘法;核函数;模糊隶属度

II

东北大学硕士学位论文第1章绪论

解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,在这一’理论基础上发展的新的通用学习方法一支撑向量机(SupportVectorMachine,SVM)[31方法具有拟合精度高、选择参数少、推广能力强和全局最优等特点。把SVM方法用于

函数逼近和回归估计,就得到相应的支撑向量回归(SupportVectorRegression,SVR)【4J。

传统的SVM方法最终都是转化为求解带有约束条件的凸二次规划问题,这种算法

是十分复杂的。此外,它还要求核函数正定。针对其不足,Suykens等人提出了新的SVM方法一最小二乘支撑向量机(LeastSquareSupportVectorMachine,LS—SⅥⅥ)。它把SVM的学习问题转化为线性方程组的求解问题,使计算复杂度大大降低,并且它对核

函数的要求降低了。

不管是传统的SVM方法还是Ls—sVM方法,它们对样本观测值的要求都很高。一方面是对输入、输出数据的要求,它们都必须是经典数据,然而在现实生活中我们对对象的描述大多具有模糊性。基于此,我们有必要引入基于模糊数的SVM及SVR。另一方面是基于观测到的样本集的“无知性”,平等地对待每一个样本,这必然会导致过学习现象,模糊加权最d,-乘支撑向量机(FuzzyWeightedLeastSquaresSupportVectorMachine,FWLS--SVM)正是基于这一点而提出的。与一般的WLS—SⅥ订相比,FWLS—SvM不仅考虑了样本与所在类中心的距离,还考虑了样本与所在类的样本之间的关联程度。

在建立模型问题时,特征选择或特征提取是尤为重要的,即从输入特征集合中选择某种评估标准最优的特征子集。随着样本数目的增大,所需的计算时间和存储空间都会大大增加。利用KPLS对数据进行特征提取,可以在提取包含样本信息的成分时,消除数据的相关性和噪声,并且使样本空间的维数降低。用KPLS提取的新特征作为FWLS—SVlⅥ的输入,从而可以有效解决回归问题。

综上,基于核的偏最小二乘特征提取的模糊加权最d'--乘SVM回归方法的提出可用下面的图来体现。

相关主题
文本预览
相关文档 最新文档