实验2分类预测模型_支持向量机
- 格式:docx
- 大小:3.91 MB
- 文档页数:11
实验报告实验名称:机器学习:线性支持向量机算法实现学员: 张麻子学号: *********** 培养类型:硕士年级:专业:所属学院:计算机学院指导教员:****** 职称:副教授实验室:实验日期:ﻬ一、实验目得与要求实验目得:验证SVM(支持向量机)机器学习算法学习情况要求:自主完成。
二、实验内容与原理支持向量机(Support Vector Machine,SVM)得基本模型就是在特征空间上找到最佳得分离超平面使得训练集上正负样本间隔最大。
SVM就是用来解决二分类问题得有监督学习算法。
通过引入了核方法之后SVM也可以用来解决非线性问题。
但本次实验只针对线性二分类问题。
SVM算法分割原则:最小间距最大化,即找距离分割超平面最近得有效点距离超平面距离与最大。
对于线性问题:假设存在超平面可最优分割样本集为两类,则样本集到超平面距离为:需压求取:由于该问题为对偶问题,可变换为:可用拉格朗日乘数法求解。
但由于本实验中得数据集不可以完美得分为两类,即存在躁点。
可引入正则化参数C,用来调节模型得复杂度与训练误差。
作出对应得拉格朗日乘式:对应得KKT条件为:故得出需求解得对偶问题:本次实验使用python编译器,编写程序,数据集共有270个案例,挑选其中70%作为训练数据,剩下30%作为测试数据。
进行了两个实验,一个就是取C值为1,直接进行SVM训练;另外一个就是利用交叉验证方法,求取在前面情况下得最优C值.三、实验器材实验环境:windows7操作系统+python编译器。
四、实验数据(关键源码附后)实验数据:来自UCI机器学习数据库,以Heart Disease数据集为例。
五、操作方法与实验步骤1、选取C=1,训练比例7:3,利用python库sklearn下得SVM()函数进行训练,后对测试集进行测试;2、选取训练比例7:3,C=np、linspace(0、0001,1,30)}。
利用交叉验证方法求出C值得最优解。
如何使用支持向量机进行多类别分类支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,广泛应用于分类和回归问题。
在分类问题中,SVM可以有效地处理二分类任务。
但在面对多类别分类问题时,需要采取一些特殊的策略来适应多类别情况。
本文将介绍如何使用支持向量机进行多类别分类。
1. 一对多(One-vs-Rest)策略一对多策略是最常用的多类别分类方法之一。
它将多类别问题转化为多个二分类问题。
对于有N个类别的问题,我们需要训练N个SVM模型,每个模型都将一个类别作为正例,其他类别作为负例。
在预测时,将样本输入到这N个模型中,选择输出概率最高的类别作为最终的分类结果。
这种策略的优点是简单易懂,容易实现。
同时,由于每个模型只需要区分一个类别和其他类别,相对于直接使用多类别分类模型,计算量较小。
然而,这种方法可能会出现类别不平衡的问题,即某些类别的样本数量较少,导致模型对这些类别的预测效果较差。
2. 一对一(One-vs-One)策略一对一策略是另一种常用的多类别分类方法。
它将多类别问题转化为多个二分类问题,每个二分类问题只涉及两个类别。
对于有N个类别的问题,我们需要训练N*(N-1)/2个SVM模型,每个模型都将两个类别作为正例和负例。
在预测时,将样本输入到这些模型中,通过投票或者加权投票的方式确定最终的分类结果。
相对于一对多策略,一对一策略的优点是可以避免类别不平衡的问题。
每个模型只需要区分两个类别,相对于直接使用多类别分类模型,计算量较小。
然而,这种方法的缺点是需要训练大量的模型,计算复杂度较高。
当类别数量较多时,训练时间和内存消耗可能会成为问题。
3. 多类别扩展除了以上介绍的一对多和一对一策略,还有一些其他方法可以用于多类别分类。
例如,多类别扩展方法将多类别问题转化为二分类问题,但是通过一些技巧将多个二分类模型组合起来。
常见的多类别扩展方法有Error-Correcting Output Codes (ECOC)和Directed Acyclic Graph(DAG)等。
地质灾害预测模型及其应用近年来,地质灾害频发,给人们的生产和生活造成了严重的影响。
为了提高预测地质灾害的可靠性和准确性,研究人员提出了许多地质灾害预测模型。
本文将介绍这些模型的基本原理和应用。
一、预测模型种类及其基本原理1. 支持向量机模型支持向量机模型是一种基于统计学习理论的分类方法,它的核心思想是将样本映射到高维空间中进行分类。
在这个高维空间中,线性可分的样本往往是可以通过分离超平面进行分类的。
但是在复杂的非线性问题中,样本往往不是线性可分的。
因此,支持向量机模型利用核函数将低维空间中的样本映射到高维空间,从而使得样本在高维空间中变得线性可分。
2. BP神经网络模型BP神经网络模型是一种常用的神经网络模型。
它的基本原理是通过学习算法来确定模型的结构和参数,从而实现非线性函数的逼近。
在地质灾害预测中,BP 神经网络模型可以通过输入不同的地质参数,预测发生地质灾害的可能性。
3. 遗传算法模型遗传算法模型是一种优化算法,它的基本原理是通过模拟自然界中的生物进化过程来搜索最优解。
在地质灾害预测中,遗传算法模型可以通过对地质参数进行优化,找到最优的预测方案。
与其他算法相比,遗传算法模型更加适用于复杂的非线性系统。
二、预测模型应用案例1. 云南滇中地区滑坡预测在云南地区,滑坡灾害频繁发生,给当地人民的生命财产带来了严重的威胁。
研究人员利用支持向量机模型对滑坡进行了预测。
通过收集云南滇中地区历史滑坡的信息和相关地质参数,建立了支持向量机模型。
实验结果表明,利用支持向量机模型可以对云南滇中地区滑坡进行准确的预测。
2. 四川汶川地震液化预测在汶川地震中,地表土层因为地震震动而失去稳定性,形成了大量的液化沙,给当地的救援工作带来了很大的困难。
研究人员利用遗传算法模型对汶川地震液化进行了预测。
通过收集历史液化事件的信息和相关地质参数,建立了遗传算法模型。
实验结果表明,遗传算法模型可以对汶川地震液化进行有效的预测和预防。
决策树、支持向量机、logistic、随机森林分类模型的数学公式决策树(Decision Tree)是一种基于树状结构进行决策的分类和回归方法。
决策树的数学公式可以表示为:对于分类问题:f(x) = mode(Y), 当节点为叶子节点f(x) = f_left, 当 x 属于左子树f(x) = f_right, 当 x 属于右子树其中,mode(Y) 表示选择 Y 中出现最频繁的类别作为预测结果,f_left 和 f_right 分别表示左子树和右子树的预测结果。
对于回归问题:f(x) = Σ(y_i)/n, 当节点为叶子节点f(x) = f_left, 当 x 属于左子树f(x) = f_right, 当 x 属于右子树其中,Σ(y_i) 表示叶子节点中所有样本的输出值之和,n 表示叶子节点中样本的数量,f_left 和 f_right 分别表示左子树和右子树的预测结果。
支持向量机(Support Vector Machine,简称 SVM)是一种非概率的二分类模型,其数学公式可以表示为:对于线性可分问题:f(x) = sign(w^T x + b)其中,w 是超平面的法向量,b 是超平面的截距,sign 表示取符号函数。
对于线性不可分问题,可以使用核函数将输入空间映射到高维特征空间,公式变为:f(x) = sign(Σα_i y_i K(x_i, x) + b)其中,α_i 和 y_i 是支持向量机的参数,K(x_i, x) 表示核函数。
Logistic 回归是一种常用的分类模型,其数学公式可以表示为:P(Y=1|X) = 1 / (1 + exp(-w^T x))其中,P(Y=1|X) 表示给定输入 X 的条件下 Y=1 的概率,w 是模型的参数。
随机森林(Random Forest)是一种集成学习方法,由多个决策树组成。
对于分类问题,随机森林的数学公式可以表示为:f(x) = mode(Y_1, Y_2, ..., Y_n)其中,Y_1, Y_2, ..., Y_n 分别是每个决策树的预测结果,mode 表示选择出现最频繁的类别作为预测结果。
第1篇一、实验背景随着大数据时代的到来,机器学习技术在各个领域得到了广泛应用。
本实验旨在通过实际操作,掌握机器学习建模的基本流程,包括数据预处理、特征选择、模型选择、模型训练和模型评估等步骤。
通过实验,我们将深入理解不同机器学习算法的原理和应用,提高解决实际问题的能力。
二、实验目标1. 熟悉Python编程语言,掌握机器学习相关库的使用,如scikit-learn、pandas等。
2. 掌握数据预处理、特征选择、模型选择、模型训练和模型评估等机器学习建模的基本步骤。
3. 熟悉常见机器学习算法,如线性回归、逻辑回归、决策树、支持向量机、K最近邻等。
4. 能够根据实际问题选择合适的机器学习算法,并优化模型参数,提高模型性能。
三、实验环境1. 操作系统:Windows 102. 编程语言:Python3.83. 机器学习库:scikit-learn 0.24.2、pandas 1.3.4四、实验数据本实验使用鸢尾花数据集(Iris dataset),该数据集包含150个样本,每个样本有4个特征(花瓣长度、花瓣宽度、花萼长度、花萼宽度)和1个标签(类别),共有3个类别。
五、实验步骤1. 数据导入与预处理首先,使用pandas库导入鸢尾花数据集,并对数据进行初步查看。
然后,对数据进行标准化处理,将特征值缩放到[0, 1]范围内。
```pythonimport pandas as pdfrom sklearn import datasets导入鸢尾花数据集iris = datasets.load_iris()X = iris.datay = iris.target标准化处理from sklearn.preprocessing import StandardScalerscaler = StandardScaler()X = scaler.fit_transform(X)```2. 特征选择使用特征重要性方法进行特征选择,选择与标签相关性较高的特征。
大数据分析中的预测模型研究一、引言随着互联网的快速发展和技术的进步,大数据已成为各个行业中不可忽视的重要资源。
大数据的崛起为企业和组织提供了更多优质的信息资源,但同时也带来了海量数据的处理问题。
为了更好地发掘和利用大数据中的信息,预测模型成为了大数据分析中非常重要的研究领域之一。
二、预测模型的概念与分类预测模型是指利用历史数据、统计方法和数学模型等手段,对未来的事件进行估计和预测的模型。
根据其应用领域和方法的不同,预测模型可以分为时间序列预测模型、回归预测模型、分类预测模型等。
1. 时间序列预测模型时间序列预测模型是根据时间序列的特点,采用一定的统计方法和模型来预测未来的数值。
常用的时间序列预测方法有移动平均法、指数平滑法和自回归移动平均模型等。
2. 回归预测模型回归预测模型是通过建立一个数学模型,利用历史数据中的变量之间的关系,来预测未来数值。
常用的回归预测方法有线性回归、逻辑回归和支持向量机等。
3. 分类预测模型分类预测模型是根据已知数据的特征,将其划分为不同的类别,并根据已知的分类规则,对未知数据进行分类。
常用的分类预测方法有决策树、朴素贝叶斯和神经网络等。
三、大数据分析中的预测模型应用大数据分析中的预测模型应用广泛,几乎涵盖了所有行业。
下面以金融行业和电商行业为例,介绍预测模型在大数据分析中的应用。
1. 金融行业金融行业是一个信息密集型行业,大量的金融数据对于决策者来说是非常宝贵的资源。
预测模型在金融行业中可以用来预测股市走势、利率波动、违约风险等。
通过对历史数据的分析和建模,预测模型可以帮助投资者制定有效的投资策略,降低风险。
2. 电商行业电商行业中的大数据包含了海量的用户行为和交易数据,借助预测模型,可以对用户的购买行为进行预测和分析,提升用户的购物体验和满意度。
另外,预测模型还可以用来预测产品的需求量、用户的流失情况等,为电商企业提供决策参考。
四、挑战与解决方案在大数据分析中应用预测模型时,面临着许多挑战。
第1 2章12.1 案例背景12.1.1 SVM概述支持向量机(Support Vector Machine,SVM)由Vapnik首先提出,像多层感知器网络和径向基函数网络一样,支持向量机可用于模式分类和非线性回归。
支持向量机的主要思想是建立一个分类超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化;支持向量机的理论基础是统计学习理论,更精确地说,支持向量机是结构风险最小化的近似实现。
这个原理基于这样的事实:学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于VC维数(Vapnik - Chervonenkis dimension)的项的和为界,在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。
因此,尽管它不利用问题的领域内部问题,但在模式分类问题上支持向量机能提供好的泛化性能,这个属性是支持向量机特有的。
支持向量机具有以下的优点:①通用性:能够在很广的各种函数集中构造函数;②鲁棒性:不需要微调;③有效性:在解决实际问题中总是属于最好的方法之一;④计算简单:方法的实现只需要利用简单的优化技术;⑤理论上完善:基于VC推广性理论的框架。
在“支持向量”x(i)和输入空间抽取的向量x之间的内积核这一概念是构造支持向量机学习算法的关键。
支持向量机是由算法从训练数据中抽取的小的子集构成。
支持向量机的体系结构如图12 -1所示。
图12-1 支持向量机的体系结构其中K为核函数,其种类主要有:线性核函数:K(x,x i)=x T x i;多项式核函数:K(x,x i)=(γx T x i+r)p,γ>0;径向基核函数:K(x,x i )=exp(-γ∥x −x i ∥2), γ>0;两层感知器核函数:K(x,x i )=tanh(γx T x i+r )。
1.二分类支持向量机C - SVC 模型是比较常见的二分类支持向量机模型,其具体形式如下:1)设已知训练集:T ={(x 1,y 1),…,(x i ,y i )}∈(X ×Y )ι其中,x i ∈X =R n ,y i ∈Y ={1,-1}( i =1,2,…,ι);x i 为特征向量。
SVM-⽀持向量机总结⼀、SVM简介(⼀)Support Vector Machine1. ⽀持向量机(SVM:Support Vector Machine)是机器学习中常见的⼀种分类算法。
2. 线性分类器,也可以叫做感知机,其中机表⽰的是⼀种算法。
3. 在实际应⽤中,我们往往遇到这样的问题: 给定⼀些数据点,它们分别属于两个不同的类。
我们现在要找到⼀个线性分类器把这些数据分成AB两类。
最简单的办法当然是,画⼀条线,然后将它们分成两类。
线的⼀侧,属于A类,另⼀侧,则属于B类。
SVM算法可以让我们找到这样⼀个最佳的线(超平⾯),来划分数据。
相⽐于KNN之类的算法,SVM算法只需要计算⼀次,得出最佳线(超平⾯)即可。
⾯对测试数据,只需要判断数据点落在线的哪⼀侧,就可以知道该数据点所属分类了。
⽐起KNN每次都需要计算⼀遍邻居点的分类,SVM算法显得简单⽆⽐。
(⼆)Sklearn参数详解—SVM1 sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', dual=True, tol=0.0001, C=1.0, multi_class='ovr', fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)penalty:正则化参数,L1和L2两种参数可选,仅LinearSVC有。
loss:损失函数,有‘hinge’和‘squared_hinge’两种可选,前者⼜称L1损失,后者称为L2损失,默认是是’squared_hinge’,其中hinge是SVM的标准损失,squared_hinge是hinge的平⽅。
dual:是否转化为对偶问题求解,默认是True。
实验2分类预测模型——支持向量机SVM一、 实验目的1. 了解和掌握支持向量机的基本原理。
2. 熟悉一些基本的建模仿真软件(比如SPSS 、Matlab 等)的操作和使用。
3. 通过仿真实验,进一步理解和掌握支持向量机的运行机制,以及其运用的场景,特别是在分类和预测中的应用。
二、 实验环境PC 机一台,SPSS 、Matlab 等软件平台。
三、 理论分析1. SVM 的基本思想支持向量机(Support Vector Machine, SVM ),是Vapnik 等人根据统计学习理论中结构风险最小化原则提出的。
SVM 能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数,其对独立的测试集仍能够得到较小的误差。
此外,支持向量机是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。
这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。
SVM 是从线性可分情况下的最优分类面发展而来的,其基本思想可用图1所示的二维情况说明。
图1最优分类面示意图图1中,空心点和实心点代表两类数据样本,H 为分类线,H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线,他们之间的距离叫做分类间隔(margin )。
所谓最优分类线,就是要求分类线不但能将两类正确分开,使训练错误率为0,而且还要使分类间隔最大。
前者保证分类风险最小;后者(即:分类间隔最大)使推广性的界中的置信范围最小,从而时真实风险最小。
推广到高维空间,最优分类线就成为了最优分类面。
2. 核函数ω支持向量机的成功源于两项关键技术:利用SVM 原则设计具有最大间隔的最优分类面;在高维特征空间中设计前述的最有分类面,利用核函数的技巧得到输入空间中的非线性学习算法。
其中,第二项技术就是核函数方法,就是当前一个非常活跃的研究领域。
核函数方法就是用非线性变换 Φ 将n 维矢量空间中的随机矢量x 映射到高维特征空间,在高维特征空间中设计线性学习算法,若其中各坐标分量间相互作用仅限于内积,则不需要非线性变换 Φ 的具体形式,只要用满足Mercer 条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。
常用的满足Mercer 条件的核函数有多项式函数、径向基函数和Sigmoid 函数等,选用不同的核函数可构造不同的支持向量机。
在实践中,核的选择并未导致结果准确率的很大差别。
3. SVM 的两个重要应用:分类与回归分类和回归是实际应用中比较重要的两类方法。
SVM 分类的思想来源于统计学习理论,其基本思想是构造一个超平面作为分类判别平面,使两类数据样本之间的间隔最大。
SVM 分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。
SVM 训练和分类过程如图2所示。
图2 SVM 训练和分类过程SVM 回归问题与分类问题有些相似,给定的数据样本集合为 x i ,y i ,…, x n ,y n 。
其中,x ix i ∈R,i =1,2,3…n 。
与分类问题不同,这里的 y i 可取任意实数。
回归问题就是给定一个新的输入样本x ,根据给定的数据样本推断他所对应的输出y 是多少。
如图3-1所示,“×”表示给定数据集中的样本点,回归所要寻找的函数 f x 所对应的曲线。
同分类器算法的思路一样,回归算法需要定义一个损失函数,该函数可以忽略真实值某个上下范围内的误差,这种类型的函数也就是 ε 不敏感损失函数。
变量ξ度量了训练点上误差的代价,在 ε 不敏感区内误差为0。
损失函数的解以函数最小化为特征,使用 ε 不敏感损失函数就有这个优势,以确保全局最小解的存在和可靠泛化界的优化。
图3-2显示了具有ε 不敏感带的回归函数。
oxy图3-1 回归问题几何示意图o xy图3-2回归函数的不敏感地四、实验案例与分析支持向量机作为一种基于数据的机器学习方法,成功应用于分类和预测两个方面。
本实例将采用支持向量机的分类算法对备件进行分类,以利于对备件进行分类管理,然后运用支持向量机的回归算法对设备备件的需求进行预测,以确定备件配置的数量。
1.基于SVM的设备备件多元分类设备备件通常可分为三种类型,即设备的初始备件、后续备件和有寿备件。
a)初始备件:是指设备在保证期内,用于保持和恢复设备主机、机载设备与地面保障设备设计性能所必需的不可修复件和部分可修复件。
该类设备是随设备一起交付用户的,其费用计入设备成本。
b)有寿设备:由于规定了寿命期限,因此这基本上是一个确定性的问题。
c)后续设备:由于备件供应保障的目标是使设备使用和维修中所需要的备件能够得到及时和充分的供应,同时使备件的库存费用降至最低。
因此,对于某种备件是否应该配置后续备件以及配置多少都需要慎重考虑。
对于某种备件是否应该配置后续备件,需要综合考虑多方面的因素。
首先,我们必须考虑部件的可靠性水平。
配置备件的根本原因也在于此。
如果可靠性水平不高,则工作部件容易出现故障,那么跟换时就需要用到备件,因此工作部件的可靠性水平是影响备件配置的一个重要因素。
其次,是故障件的可维修性水平。
故障件的可维修性水平越高,维修处理故障的时间越短,故障设备就能快速恢复工作状态;相反,如果故障件的可维修性差,则需要长时间来排除故障,为了保证设备的正常运行,只有进行换件处理,即依靠备件来接替工作。
最后,是经济方面的因素。
统计表明,高价设备的配件虽少,但是其费用却占总备件费用的很大一部分。
此外,还有一些其他方面的因素,如关键性等。
后续备件的配置涉及一个分类的问题,根据不同的类别,因采取不同的配置方式。
因此,这里使用SVM构建多元分类模型对齐进行分析。
对于备件的属性选择,主要考虑可靠性、维修性和经济性三种因素,分别选择平均故障间隔时间(MTBF)、平均维修时间(MTTR)和单价作为备件的三种属性。
因此,SVM的输入学习样本为三维,选取RBF径向基核函数作为样本向高维特征空间映射的核函数。
表1所示为8种备件样本的属性及其经验分类。
从表1中可以看出,对于1号分类,如R4,其显著特征是可靠性差,维修费时,但是价格便宜,需要而且适合大量配置后续备件;对于2号分类,如R2,其典型特征是可靠性高,很少发生故障,因此不需要配置后续备件;对于3号分类,如R3,其典型特征是可靠性不高,但是价格较为昂贵,因此只适合配置少量的后续备件;对于4号分类,如R7,无明显特征,属于一般后续备件,可以根据具体情况决定备件的配置数量。
通过SPSS的Clementine 12.0软件进行仿真步骤:(1).构建SVM模型。
图4-1输入为3变量:品种、MTBF、MTTR、价格,输出为分类号。
图4-2模型选择RBF核函数,参数设置:目标函数的正则化参数C=10,损失函数中的ε=0.1,核函数中的σ=0.1。
图4-3 (2).利用训练数据训练模型。
图4-4图4-5(3).利用学习好的支持向量机,对测试样本进行分类。
图4-6图4-7(4). 结果分析:a)分类结果与实际分类完全一致,可以认为采用支持向量机对设备备件的分类是有效的。
根据分类号可以得出结论:R9属于一般备件,可以根据实际需求配置后续备件,R10需要大量配置后续备件。
b)输入样本对结果影响较大,核函数选择对结果影响不大。
c)$SP-1.0表示数据项属于分类1的概率,系统将需要分类的数据项归类到$SP最大的类中。
所以$SP越大时,分类的置信度越高。
2.基于SVM的设备需求预测设备备件的供应保障是否得力直接影响设备的完好率,而过多的备件设置又会导致存储费用的增加,只有合理的配置备件才能在有限费用的情况下,最大限度地保障设备的供应。
因此,科学、合理、准确地预测设备需求是解决这一问题的关键。
这里依然采用支持向量机构建备件需求预测模型,以已有的成功案例作为学习样本,然后进行未知备件需求的预测。
需要特别指出的是,支持向量的三个参数需要在学习之前指定,他们是目标函数的正则化参数C,损失函数中的ε,核函数中的σ。
虽然有些启发式的算法可以获取这些参数值,但都不是最理想的。
其中,正则化参数C控制着经验风险和VC维的平衡,一般都取一个极大的数来降低误差,以取得对训练效果的较好的拟合;损失函数中的ε控制着拟合管道的宽度,也就是误差的边界;核函数中的σ控制着支持向量机对输入变量变化的敏感程度。
这里通过一个预测sinc函数的实验来分析三个参数对支持向量的影响。
在[-3,3]区间均匀选取51个值作为自变量xi 由y=sinc x i+νi(其中,νi是满足正太分布N(0,0.04)的随机干扰)得到51个样本点。
由于正则化参数C控制着经验风险和VC 维的平衡,因此这里不再对其进行分析,将其固定在100,主要分析参数ε和σ的选择对于支持向量机的样本学习和预测的影响。
先选定σ=1,分析ε的取值影响,然后根据前面得到的较好预测结果的ε值,选定ε=0.24,分析σ的取值影响,支持向量机的学习及预测结果如图3所示。
通过图5(a)、(b)比较可知,ε的选取与干扰的强弱有关,干扰越强,需要的ε也越大,反之ε越小。
因此,应尽量让更多的支持向量位于预测的管道壁上,而非管道壁外。
图5(c)(d)说明:核函数中的σ决定了SVM对训练样本输入变化的敏感程度,过大的σ会使SVM反应迟钝,不能随着输入的变化迅速调整;反之,过小的σ则对输入过于敏感,以至于干扰对SVM影响很大,甚至导致样本学习的失败。
最后,在确定了ε和σ之后,改变C的值,发现C在较大的区域内变动时,SVM的学习和预测结果没有很大的变化,这也表明ε和σ的选取是合适的。
但是,最好在此基础上适当减少C的值,避免过大的C引起经验误差和VC维失去平衡,导致VC维急剧增大,泛化能力下降。
正则化参数C,损失函数中的ε,核函数中的σ图5支持向量机的学习及预测结果基于支持向量机的设备备件预测模型建模的基本步骤如下:(1). 寻找与备件需求相关的各个影响因素的特征量。
影响备件需求的因素很多,如单台设备上拥有该种备件的数量,数量越大,那么发生故障的概率也就越大,对于这种备件的需求也就越大。
此外,场外能否完成故障件的修理,修复能力如何等,都对备件的需求产生不同程度的影响。
(2). 确定能够描述各个影响因素的说明性变量,即备件需求驱动因子。
说明性变量的确定原则为:该说明性变量合乎逻辑地和各个影响因素相关系;该说明性变量的变化引起备件需求变化具有一贯性;该说明性变量的量值在综合保障分析中容易确定。
(3). 采用支持向量机对样本进行学习,说明性变量是输入参数,备件需求量是输出。
(4). 输入新的备件需求情况样本或者已有备件在不同情况下的需求样本,利用学习好的支持向量机模型进行备件需求预测。
(5). 增添新样本到支持向量机进行学习,不断提高备件需求的预测精度。
针对某设备的某型号备件一直不能满足保障需求,可以根据其他成功实现保障的备件数据情况,对该备件的需求进行预测。