当前位置:文档之家› 粒子群优化的支持向量机在股票预测中的研究与应用

粒子群优化的支持向量机在股票预测中的研究与应用

广东工业大学

硕士学位论文

粒子群优化的支持向量机在股票预测中的研究与应用

姓名:郑艳清

申请学位级别:硕士

专业:计算机应用技术

指导教师:李代平

201205

(完整word版)支持向量机(SVM)原理及应用概述分析

支持向量机(SVM )原理及应用 一、SVM 的产生与发展 自1995年Vapnik (瓦普尼克)在统计学习理论的基础上提出SVM 作为模式识别的新方法之后,SVM 一直倍受关注。同年,Vapnik 和Cortes 提出软间隔(soft margin)SVM ,通过引进松弛变量i ξ度量数据i x 的误分类(分类出现错误时i ξ大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM 的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,Vapnik 等人又提出支持向量回归 (Support Vector Regression ,SVR)的方法用于解决拟合问题。SVR 同SVM 的出发点都是寻找最优超平面(注:一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。),但SVR 的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,Weston 等人根据SVM 原理提出了用于解决多类分类的SVM 方法(Multi-Class Support Vector Machines ,Multi-SVM),通过将多类分类转化成二类分类,将SVM 应用于多分类问题的判断:此外,在SVM 算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如,Suykens 提出的最小二乘支持向量机 (Least Square Support Vector Machine ,LS —SVM)算法,Joachims 等人提出的SVM-1ight ,张学工提出的中心支持向量机 (Central Support Vector Machine ,CSVM),Scholkoph 和Smola 基于二次规划提出的v-SVM 等。此后,台湾大学林智仁(Lin Chih-Jen)教授等对SVM 的典型应用进行总结,并设计开发出较为完善的SVM 工具包,也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM 是一个通用的SVM 软件包,可以解决分类、回归以及分布估计等问题。 二、支持向量机原理 SVM 方法是20世纪90年代初Vapnik 等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。 支持向量机的基本思想:首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输

实验2分类预测模型_支持向量机

实验2分类预测模型——支持向量机SVM 一、 实验目的 1. 了解和掌握支持向量机的基本原理。 2. 熟悉一些基本的建模仿真软件(比如SPSS 、Matlab 等)的操作和使用。 3. 通过仿真实验,进一步理解和掌握支持向量机的运行机制,以及其运用的场景,特别是 在分类和预测中的应用。 二、 实验环境 PC 机一台,SPSS 、Matlab 等软件平台。 三、 理论分析 1. SVM 的基本思想 支持向量机(Support Vector Machine, SVM ),是Vapnik 等人根据统计学习理论中结构风险最小化原则提出的。SVM 能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数,其对独立的测试集仍能够得到较小的误差。此外,支持向量机是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。 SVM 是从线性可分情况下的最优分类面发展而来的,其基本思想可用图1所示的二维情况说明。 图1最优分类面示意图 图1中,空心点和实心点代表两类数据样本,H 为分类线,H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线,他们之间的距离叫做分类间隔(margin )。所谓最优分类线,就是要求分类线不但能将两类正确分开,使训练错误率为0,而且还要使分类间隔最大。前者保证分类风险最小;后者(即:分类间隔最大)使推广性的界中的置信范围最小,从而时真实风险最小。推广到高维空间,最优分类线就成为了最优分类面。 2. 核函数 ω

支持向量机的成功源于两项关键技术:利用SVM 原则设计具有最大间隔的最优分类面;在高维特征空间中设计前述的最有分类面,利用核函数的技巧得到输入空间中的非线性学习算法。其中,第二项技术就是核函数方法,就是当前一个非常活跃的研究领域。核函数方法就是用非线性变换 Φ 将n 维矢量空间中的随机矢量x 映射到高维特征空间,在高维特征空间中设计线性学习算法,若其中各坐标分量间相互作用仅限于内积,则不需要非线性变换 Φ 的具体形式,只要用满足Mercer 条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。 常用的满足Mercer 条件的核函数有多项式函数、径向基函数和Sigmoid 函数等,选用不同的核函数可构造不同的支持向量机。在实践中,核的选择并未导致结果准确率的很大差别。 3. SVM 的两个重要应用:分类与回归 分类和回归是实际应用中比较重要的两类方法。SVM 分类的思想来源于统计学习理论,其基本思想是构造一个超平面作为分类判别平面,使两类数据样本之间的间隔最大。SVM 分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。SVM 训练和分类过程如图2所示。 图2 SVM 训练和分类过程 SVM 回归问题与分类问题有些相似,给定的数据样本集合为 x i ,y i ,…, x n ,y n 。其中, x i x i ∈R,i =1,2,3…n 。与分类问题不同,这里的 y i 可取任意实数。回归问题就是给定一个新的输入样本x ,根据给定的数据样本推断他所对应的输出y 是多少。如图3-1所示,“×”表示给定数据集中的样本点,回归所要寻找的函数 f x 所对应的曲线。同分类器算法的思路一样,回归算法需要定义一个损失函数,该函数可以忽略真实值某个上下范围内的误差,这种类型的函数也就是 ε 不敏感损失函数。变量ξ度量了训练点上误差的代价,在 ε 不敏感区内误差为0。损失函数的解以函数最小化为特征,使用 ε 不敏感损失函数就有这个优势,以确保全局最小解的存在和可靠泛化界的优化。图3-2显示了具有ε 不敏感带的回归函数。 o x y 图3-1 回归问题几何示意图 o x y 图3-2 回归函数的不敏感地

支持向量机数据分类预测

支持向量机数据分类预测 一、题目——意大利葡萄酒种类识别 Wine数据来源为UCI数据库,记录同一区域三种品种葡萄酒的化学成分,数据有178个样本,每个样本含有13个特征分量。50%做为训练集,50%做为测试集。 二、模型建立 模型的建立首先需要从原始数据里把训练集和测试集提取出来,然后进行一定的预处理,必要时进行特征提取,之后用训练集对SVM进行训练,再用得到的模型来预测试集的分类。 三、Matlab实现 3.1 选定训练集和测试集 在178个样本集中,将每个类分成两组,重新组合数据,一部分作为训练集,一部分作为测试集。 % 载入测试数据wine,其中包含的数据为classnumber = 3,wine:178*13的矩阵,wine_labes:178*1的列向量 load chapter12_wine.mat; % 选定训练集和测试集 % 将第一类的1-30,第二类的60-95,第三类的131-153做为训练集 train_wine = [wine(1:30,:);wine(60:95,:);wine(131:153,:)]; % 相应的训练集的标签也要分离出来 train_wine_labels = [wine_labels(1:30);wine_labels(60:95);wine_labels(131:153)]; % 将第一类的31-59,第二类的96-130,第三类的154-178做为测试集 test_wine = [wine(31:59,:);wine(96:130,:);wine(154:178,:)]; % 相应的测试集的标签也要分离出来 test_wine_labels = [wine_labels(31:59);wine_labels(96:130);wine_labels(154:178)]; 3.2数据预处理 对数据进行归一化: %% 数据预处理 % 数据预处理,将训练集和测试集归一化到[0,1]区间 [mtrain,ntrain] = size(train_wine); [mtest,ntest] = size(test_wine); dataset = [train_wine;test_wine]; % mapminmax为MATLAB自带的归一化函数 [dataset_scale,ps] = mapminmax(dataset',0,1); dataset_scale = dataset_scale';

基于机器学习的股票分析与预测模型研究

金融观察?一 基于机器学习的股票分析与预测模型研究① 姚雨琪 摘一要:近年来?随着全球经济与股市的快速发展?股票投资成为人们最常用的理财方式之一?本文研究的主要目标是利用机器学习技术?应用Python编程语言构建股票预测模型?对我国股票市场进行分析与预测?采用SVM与DTW构建股票市场的分析和预测模型?并通过Python编程进行算法实现? 本文对获取到的股票数据进行简单策略分析?选取盘中策略作为之后模型评估的基准线?分别选取上证指数二鸿达兴业股票二鼎汉股票数据利用已构建的支持向量机和时间动态扭曲模型在Python平台上进行预测分析?结果表明?对于上证指数而言?支持向量机预测下逆向策略更优?对于鸿达兴业股票和鼎汉股票而言?支持向量机预测下正向策略更优?基于时间动态扭曲算法的预测方法对于特定的股票有较高的精度和可信度?研究结论表明将机器学习运用于股票分析与预测可以提高股票价格信息预测的效率?保证对海量数据的处理效率?机器学习过程可以不断进行优化模型?使得预测的可信度和精度不断提高?机器学习技术在股票分析方面有很高的研究价值? 关键词:机器学习?股票预测?Python?SVM?DTW 中图分类号:F830.91一一一一一一文献标识码:A一一一一一一文章编号:1008-4428(2019)02-0123-02 一一一二引言 国外股票市场的股票分析预测开始得很早?研究者们将各种数学理论二数据挖掘技术等应用到股票分析软件中?并通过对历史交易数据的研究?从而得到股票的走势规律?近年来?由于现实中工作与研究的需要?机器学习的研究与应用在国内外越来越重视?机器学习可以在运用过程中依据新的数据不断学习优化?完善预测模型?将机器学习应用于股票市场的预测?从股票的历史数据中挖掘出隐藏在数据中的重要信息?这样既能够为股民们对股价预测研究提供理论支撑?又能够为公司的领导层提供决策支持?基于此?本文选择机器学习在股票分析中的应用作为研究方向?在机器学习及股票分析相关理论基础上?使用Python开发工具?并分别运用支持向量回归及时间动态扭曲进行预测? 二二相关技术与理论 (一)机器学习 机器学习是融合多领域技术的交叉学科?主要包括概率论与数理统计二微积分二线性代数二算法设计等多门学科?通过计算机相关技术自动 学习 实现人工智能?(二)股票分析方法 1.基本面分析 基本面分析指的是在分析股票市场供应和需求关系的相关因素(如宏观经济二政策导向二财务状况以及经营环境等)基础上确定股票的实际价格?从而预测股票价格的趋势?2.技术面分析 技术面分析指的是对股票图样趋势来分析和研究?来判断价格的走势? (三)基于Python的经典机器学习模型 1.支持向量机(SVM) 该模型最初用于分类?其最终目标是引入回归估计?建立回归估计函数G(x)?其中回归值与目标值之间的差值小于μ?同时保证该函数的VC维度最小?线性或非线性函数G(x)的回归问题可以转化为二次规划问题?并且获得的最优解是唯一的? 2.动态时间扭曲(DTW) 这是衡量时间序列之间的相似性的方法?并可以用在语音识别领域以判断两段声音是否表达了同一个意思?三二股票预测模型的构建 (一)确定初始指标 1.基于支持向量机确定指标 施燕杰(2005)利用支持向量机进行股票分析与预测?在多次反复尝试基础上提出了一系列的指标作为预测模型的输入向量?该指标能够有效地预测未来股价波动情况?本文在结合自身研究的基础上?对以上施燕杰提出的指标进行改进?在原有的指标基础上添加7日平均开盘价和7日平均收盘价?去除了成交额保留了成交量?最终建立如表1所示的20个初选指标? 表1一初选指标 变量X1X2X3X4X5X6X7X8X9X10含义 今日 开盘价 昨日 开盘价 前日 开盘价 7日平均 开盘价 今日 最高价 昨日 最高价 前日 最高价 7日平均 最高价 今日 最低价 昨日 最低价变量X11X12X13X14X15X16X17X18X19X20含义 前日 最低价 7日平均 最低价 今日 收盘价 昨日 收盘价 前日 收盘价 7日平均 收盘价 今日 成交量 昨日 成交量 前日 成交量 7日平均 成交量一一本文主要是进行股票分析与预测?因此在综合考虑各个 价格指标的基础上?本文选择选定时间段的下一日收盘价作为模型的输出向量? 2.基于动态时间扭曲确定指标 根据往常研究经验?我们将时间序列数据分成不同的期间?每个期间长度为5日?以每个时间段相邻每日收盘价涨跌率变化趋势为初始指标?选择时间序列期间下一日的收盘价与期间内最后一日收盘价涨跌率作为模型的输出向量?(二)选择样本 1.实验对象 本文在分别在主板市场二中小板市场和创业板市场中采取随机抽样的方法各随机选择一只股票数据作为研究对象?分别是上证指数二鸿达兴业股票二鼎汉股票? 2.样本规模 我们选取了2011年至2017年间上证指数1550条数据?2015年至2017年的鸿达兴业股票532条数据二鼎汉股票572 321 ①基金项目:江西财经大学第十三届科研课题立项?编号xskt18345?

支持向量机的实现

模式识别课程大作业报告——支持向量机(SVM)的实现 姓名: 学号: 专业: 任课教师: 研究生导师: 内容摘要

支持向量机是一种十分经典的分类方法,它不仅是模式识别学科中的重要内容,而且在图像处理领域中得到了广泛应用。现在,很多图像检索、图像分类算法的实现都以支持向量机为基础。本次大作业的内容以开源计算机视觉库OpenCV为基础,编程实现支持向量机分类器,并对标准数据集进行测试,分别计算出训练样本的识别率和测试样本的识别率。 本报告的组织结构主要分为3大部分。第一部分简述了支持向量机的原理;第二部分介绍了如何利用OpenCV来实现支持向量机分类器;第三部分给出在标准数据集上的测试结果。 一、支持向量机原理概述

在高维空间中的分类问题实际上是寻找一个超平面,将两类样本分开,这个超平面就叫做分类面。两类样本中离分类面最近的样本到分类面的距离称为分类间隔。最优超平面指的是分类间隔最大的超平面。支持向量机实质上提供了一种利用最优超平面进行分类的方法。由最优分类面可以确定两个与其平行的边界超平面。通过拉格朗日法求解最优分类面,最终可以得出结论:实际决定最优分类面位置的只是那些离分类面最近的样本。这些样本就被称为支持向量,它们可能只是训练样本中很少的一部分。支持向量如图1所示。 图1 图1中,H是最优分类面,H1和H2别是两个边界超平面。实心样本就是支持向量。由于最优超平面完全是由这些支持向量决定的,所以这种方法被称作支持向量机(SVM)。 以上是线性可分的情况,对于线性不可分问题,可以在错分样本上增加一个惩罚因子来干预最优分类面的确定。这样一来,最优分类面不仅由离分类面最近的样本决定,还要由错分的样本决定。这种情况下的支持向量就由两部分组成:一部分是边界支持向量;另一部分是错分支持向量。 对于非线性的分类问题,可以通过特征变换将非线性问题转化为新空间中的线性问题。但是这样做的代价是会造成样本维数增加,进而导致计算量急剧增加,这就是所谓的“维度灾难”。为了避免高维空间中的计算,可以引入核函数的概念。这样一来,无论变换后空间的维数有多高,这个新空间中的线性支持向量机求解都可以在原空间通过核函数来进行。常用的核函数有多项式核、高斯核(径向基核)、Sigmoid函数。 二、支持向量机的实现 OpenCV是开源计算机视觉库,它在图像处理领域得到了广泛应用。OpenCV 中包含许多计算机视觉领域的经典算法,其中的机器学习代码部分就包含支持向量机的相关内容。OpenCV中比较经典的机器学习示例是“手写字母分类”。OpenCV 中给出了用支持向量机实现该示例的代码。本次大作业的任务是研究OpenCV中的支持向量机代码,然后将其改写为适用于所有数据库的通用程序,并用标准数据集对算法进行测试。本实验中使用的OpenCV版本是,实验平台为Visual

支持向量机分类器

支持向量机分类器 1 支持向量机的提出与发展 支持向量机( SVM, support vector machine )是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学习问题的新工具,最初由V.Vapnik 等人在1995年首先提出,近几年来在其理论研究和算法实现等方面都取得了很大的进展,开始成为克服“维数灾难”和过学习等困难的强有力的手段,它的理论基础和实现途径的基本框架都已形成。 根据Vapnik & Chervonenkis的统计学习理论 ,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化 ( SRM,structural risk minimization)原则,而不是经验风险最小化原则,通俗地说就是应当使错误概率的上界最小化。SVM正是这一理论的具体实现。与传统的人工神经网络相比, 它不仅结构简单,而且泛化( generalization)能力明显提高。 2 问题描述 2.1问题引入 假设有分布在Rd空间中的数据,我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧,而属于另一类的数据均在超平面的另一侧。如下图。 比较上图,我们可以发现左图所找出的超平面(虚线),其两平行且与两类数据相切的超平面(实线)之间的距离较近,而右图则具有较大的间隔。而由于我们希望可以找出将两类数据分得较开的超平面,因此右图所找出的是比较好的超平面。 可以将问题简述如下: 设训练的样本输入为xi,i=1,…,l,对应的期望输出为yi∈{+1,-1},其中+1和-1分别代表两类的类别标识,假定分类面方程为ω﹒x+b=0。为使分类面对所有样本正确分类并且具备分类间隔,就要求它满足以下约束条件: 它追求的不仅仅是得到一个能将两类样本分开的分类面,而是要得到一个最优的分类面。 2.2 问题的数学抽象 将上述问题抽象为: 根据给定的训练集

支持向量机参数优化的一种新方法

小型微型计算机系统JournalofChineseComputerSystems2008年1月第1期V01.29No.12008 支持向量机参数优化的一种新方法 肇莹,刘红星,高敦堂 (南京大学电子科学与工程系。江苏南京210093) E-mail:xwhzy@sohu.com 摘要:支持向量机(SVM)的性能与SVM参数的选择有关.SVM参数的优化需要一个准则,本文提出了一种以原空间中样本到分类面的最短代数距离最大为准则的SVM参数优化方法.该方法旨在使SVM分类面在原空间中使样本“平分秋色”,更能体现SVM分类器的结构风险最一1、化的原则.算法简单、几何直观性好、易于实现.通过在双螺旋线样本和Iris样本集上所作测试证明了该方法的有效性. 关键词:支持向量机;参数优化 中图分类号:TPl8文献标识码:A文章编号:1000—1220(2008)01—0102—04 ANewMethodforSVMHyper—parametersOptimization ZHAOYing,LIUHong-xing,GAODun—tang (ElectronicScienceandEngineeringDepartment,NanjingUniversity,Nanjing210093,China) Abstract:TheperformanceofSupportVectorMachine(SVM)isdeterminedbyitshyper—parameters.Optimizingthehyper—parametersneedsacriterion.ThispaperpresentsanewSVMhyper—parametersoptimizationmethod,inwhichmaximizingtheminimumalgebraicdistancefromsamplestothecIass—separatinghyper—surfaceininput spaceistakenasthecriterion.The main purposeofthismethodisto’legand leg’thewholeoriginalinputspaceforallthesamples,anditsustainsthestructural riskminimizationprinciplebetter.Themethodissimple,geometricintuitiveandcanbeimplemented easily.Thefeasibilityofthemethodisdisplayedthroughexperimentsontwoclassicalbenchmarkclassificationproblems--TwoSpiralsProblem(TSP)andIrissamples. Keywords:SVM;hyper-parameteroptimization 1引言 支持向量机(SVM)的泛化性能不仅与核函数形式有关,而且与核函数的参数有关.图1是核函数选定为RBF形式、即K。,z,)一exp(一jL掣),而其核函数参数y分别取不同值时,双螺线问题(TSP)的SVM分类结果.图(a)中,y取值过大,使得样本在变换域空间中线性不可分;图(b)中,y (a)y一20时的SVM分类情况(b)y=0.01时的SVM分类情况 图1对TSP问题,选用RBF核函数 Fig.1ForTSPwithRBFkernelfunctionselected 收稿日期:2006—09?20收修改稿日期:2006—12—27基金项目;国家自然科学基金项目(60275041)资助.作者简介:肇莹,女,1973年生,博士研究生,讲师,研究方向为模式识别与人工智能}刘红星,男,1968年生,博士,教授,研究方向为模式识别与人工智能;高敦堂,男,1941 年生,教授,研究方向为人工智能.  万方数据

支持向量机在股票分析中的应用

1、问题的背景股票市场具有高收益与高风险并存的特性,人们一直都希望能够掌握其运行规律,并进行分析与预测。但是由于股票市场受到很多市场因素和非市场的影响,而且这些因素之间又有相互作用,因此要想建立一个模型来描述其内部相互作用的机理是非常困难的。从而这也成为证券分析研究领域的一个难题。股票价格的变化是非线性和时变的,支持向量机在股票分析中的应用 杨明海 信阳师范学院数学科学学院 464000 因此这些时间序列数据都是带有噪声的不稳定随机数据,从而使得用传统的统计方法来研究股票市场的运行规律已经不尽如人意。随着计算机科学的发展,把机器学习方法用在金融工程领域已经取得了很大的进展[1]。 当前很多模型的建立都要假定股票价 格序列具有某些非线性特征,这些假设或多或少的带有一些主观性。对于这类数据的预测很多研究者采用神经网络等方法来 做,但神经网络方法有着难以克服的一些 缺点,其网络结构需要事先指定或应用启 发式算法在训练过程中修正,这些启发式算法很难保证网络结构是最优的。另外神经网络易过学习和陷入局部最优的缺点也极大地限制其在实际中的应用。而支持向量机(SVM )它克服了神经网络的一些缺 点,如过学习,维数灾难,易陷入局部最优 等。而且支持向量机在实现金融时间序列 的预测[2]方面已有了一些探索性的研究,并在应用中取得了不错的表现。 2、支持向量机 20世纪60年代末,V a p n i k 和 Cervonenkis 建立了现代意义上的统计学习 理论[3],即是目前人们所称的V C 维理 论。1979年,在统计学习理论的VC 维理论 和结构风险最小化(SRM)准则的基础上, Vapnik 等人提出了一种新的机器学习算法 ——支持向量机(SVM)方法。支持向量机 方法根据有限样本的信息在模型的复杂性 (基于VC 维,即对特定训练集的训练精度)和学习能力(即由训练出的机器对测试数 据的识别能力)之间寻求最佳折衷,期望获 得最好的推广能力。大量的研究表明,作为 一种解决模式识别问题和非线性函数的回 归估计、预测等问题的新技术,SVM 无论 在模型拟合效果还是模型推广能力方面都 表现出了良好的性质。因此,它成为目前机 器学习领域的一个热门研究课题。当前对 SVM 的研究集中在训练算法的设计和应用 上。 支持向量机可以归结为解决一个二次规划问题(Quadratic Programming, QP ) [4]: 给定输入空间中训练样本:(1) SVM 是要得到下面的决策函数: (2)其中k(x i ,x j )是核函数,是每个样本对应的Lagrange 乘子,b 是阈值,是下面QP 问题的解:其中(核函数矩阵)是一个N ×N 的半正定矩阵,C 是正则化参数。 由于其坚实的理论基础,良好的泛化性能,简洁的数学形式,直观的几何解释 等特点,它在许多实际问题的应用中取得 了成功。本文用支持向量机方法对中国A 股市场深沪两市的部分部分股票进行分类 研究。 3、数值计算结果及分析3.1 实验数据由股票分析软件广发证券(至强版)下载了深沪股市几个交易日的数据,预处理如下: DATA1:选取2009年1月6号的1296只股票,以量比,换手率,内外比为因子,将涨幅大于一个百分点的股票归为+1类,跌幅大于一个百分点的归为-1类。将数据随机化后,选取1000个进行训练,296个进行测试。DATA2:选取2008年12月29号沪深两市共1192只股票,以每笔换手率,涨速,量比,总换手率,内外比,振幅为因子,将涨幅大于1.5个百分点的股票归

支持向量机(SVM)在作物需水预测中的应用研究综述

第卷第期农业水土工程研究进展课程论文V ol. Supp. . 2015年11月Paper of agricultural water and soil engineering progress subject Nov.2015 1 支持向量机(SVM)在作物需水预测中的应用研究综述 (1.中国农业大学水利与土木工程学院,北京,100083) 摘要:水资源的合理配置对于社会经济的发展具有重要意义。而在农业水资源的优化配置中常常需要提供精确的作物需水信息才能接下来进行水量的优化配置。支持向量机是基于统计学习理论的新型机器学习方法,因为其出色的学习性能,已经成为当前机器学习界的研究热点。但是目前对支持向量机的研究与应用大多集中在分类这一功能上,而在农业水资源配置中的应用又大多集中于预测径流量,本文系统介绍了支持向量机的理论与一些应用,并对支持向量机在作物需水预测的应用进行了展望。 关键词:作物需水预测;统计学习理论;支持向量机; 中图分类号:S16 文献标志码:A 文章编号: 0引言 作物的需水预测是农业水资源优化配置的前提和基础之一。但目前在解决数学模型中需要输入有预期的预测精度的数据时还是会遇到困难。例如,当大量的用水者的用水需求作为优化模型的输入时,预测精度太低时优化结果可能会出现偏差。此外,不确定性也存在于水的需求中,水需求受到一些影响因子和系统组成的影响(即人类活动,社会发展,可持续性要求以及政策法规),这不仅在不确定性因子间相互作用过程中使得问题更为复杂,也使得决策者在进行水资源分配过程中的风险增加。所以,准确的预测对水资源的需求对制定有效的水资源系统相关规划很重要。而提高需水量预测精度一直是国内外学术界研究难点和热点。 支持向量机(Support V ector Machine,SVM)是根据统计学理论提出的一种新的通用学习方法,该方法采用结构风险最小化准则(Structural Risk Minimization Principle),求解二次型寻优问题,从理论上寻求全局最优解,较好地兼顾了神经网络和灰色模型的优点[1][2],克服了人工神经网络结构依赖设计者经验的缺点,具有对未来样本的较好的泛化性能,较好解决了高维数、局部极小等问题[3]。目前,SVM已成功的应用于分类、函数逼近和时间序列预测等方面,并在水科学领域中取得了一些成果,Liong[4]已将SVM应用于水文预报,周秀平等[5]已将SVM应用于径流预测,王景雷等[6]亦已将SVM应用于地下水位预报。而需水预测问题本身也可以看作是一种对需水量及其影响因子间的复杂的非线性函数关系的逼近问题,但将SVM应用于作物需水预测的研究尚处于起步阶段。本文简要介绍支持向量机并对其研究进展进行综述,最后对未来使用支持向量机预测作物需水量进行展望。 收稿日期:修订日期:1支持向量机 1.1支持向量机国内外研究现状 自 1970 年以来,V apnik[1,2]等人发展了一种新的学习机——支持向量机。与现有的学习机包括神经网络,模糊学习机,遗传算法,人工智能等相比,它具有许多的优点:坚实的理论基础和较好的推广能力、强大的非线性处理能力和高维处理能力。因此这种学习方法有着出色的学习性能,并在许多领域已得到成功应用,如人脸检测、手写体数字识别、文本自动分类、非线性回归建模与预测、优化控制数据压缩及时间序列预测等。 1998年,Alex J. Smola[7]系统地介绍了支持向量机回归问题的基本概念和求解算法。Drucher[8]将支持向量机回归模型同基于特征空间的回归树和岭回归的集成回归技术bagging做了比较;Alessandro verri[9]将支持向量机回归模型同支持向量机分类模型和禁忌搜索(basic pursuit denoising)作了比较,并且给出了贝叶斯解释。通过分析得出了如下结论:支持向量机回归模型由于不依赖于输入空间的维数,所以在高维中显示出了其优越性。为了简化支持向量机,降低其复杂性,已有了一些研究成果。比如,Burges[10]提出根据给定的支持向量机生成缩减的样本集,从而在给定的精度下简化支持向量机,但生成缩减样本集的过程也是一个优化过程,计算比较复杂;1998年Scholkopf[11]等人在目标函数中增加了参数v以控制支持向量的数目,称为v-SVR,证明了参数v与支持向量数目及误差之间的关系,但支持向量数目的减少是以增大误差为代价的。Suykens等人[12]1999年提出的最小二乘支持向量机(LS-SVM)算法具有很高的学习效率,对大规模数据可采用共轭梯度法求解;田盛丰[13]等人提出了LS-SVM与序贯最优化算法(SMO)的混合算法。 1.2支持向量机在水资源领域研究现状

陈建隆粒子群优化算法及其应用研究

摘要 在智能领域,大部分问题都可以归结为优化问题。常用的经典优化算法都对问题有一定的约束条件,如要求优化函数可微等,仿生算法是一种模拟生物智能行为的优化算法,由于其几乎不存在对问题的约束,因此,粒子群优化算法在各种优化问题中得到广泛应用。 本文首先描述了基本粒子群优化算法及其改进算法的基本原理,对比分析粒子群优化算法与其他优化算法的优缺点,并对基本粒子群优化算法参数进行了简要分析。根据分析结果,研究了一种基于量子的粒子群优化算法。在标准测试函数的优化上粒子群优化算法与改进算法进行了比较,实验结果表明改进的算法在优化性能明显要优于其它算法。本文算法应用于支持向量机参数选择的优化问题上也获得了较好的性能。最后,对本文进行了简单的总结和展望。 关键词:粒子群优化算法最小二乘支持向量机参数优化适应度

目录 摘要................................................................................................................................................................... I 目录...................................................................................................................................................................... I I 1.概述.. (1) 1.1引言 (1) 1.2研究背景 (1) 1.2.1人工生命计算 (1) 1.2.2 群集智能理论 (2) 1.3算法比较 (2) 1.3.1粒子群算法与遗传算法(GA)比较 (2) 1.3.2粒子群算法与蚁群算法(ACO)比较 (3) 1.4粒子群优化算法的研究现状 (4) 1.4.1理论研究现状 (4) 1.4.2应用研究现状 (5) 1.5粒子群优化算法的应用 (5) 1.5.1神经网络训练 (6) 1.5.2函数优化 (6) 1.5.3其他应用 (6) 1.5.4粒子群优化算法的工程应用概述 (6) 2.粒子群优化算法 (8) 2.1基本粒子群优化算法 (8) 2.1.1基本理论 (8) 2.1.2算法流程 (9) 2.2标准粒子群优化算法 (10) 2.2.1惯性权重 (10) 2.2.2压缩因子 (11) 2.3算法分析 (12) 2.3.1参数分析 (12) 2.3.2粒子群优化算法的特点 (14) 3.粒子群优化算法的改进 (15) 3.1粒子群优化算法存在的问题 (15) 3.2粒子群优化算法的改进分析 (15) 3.3基于量子粒子群优化(QPSO)算法 (17) 3.3.1 QPSO算法的优点 (17) 3.3.2 基于MA TLAB的仿真 (18) 3.4 PSO仿真 (19) 3.4.1 标准测试函数 (19) 3.4.2 试验参数设置 (20) 3.5试验结果与分析 (21) 4.粒子群优化算法在支持向量机的参数优化中的应用 (22)

基于支持向量机回归模型的海量数据预测

2007,43(5)ComputerEngineeringandApplications计算机工程与应用 1问题的提出 航空公司在客舱服务部逐步实行“费用包干”政策,即:综合各方面的因素,总公司每年给客舱服务部一定额度的经费,由客舱服务部提供客舱服务,而客舱服务产生的所有费用,由客舱服务部在“费用包干额度”中自行支配。新的政策既给客舱服务部的管理带来了机遇,同时也带来了很大的挑战。通过“费用包干”政策的实施,公司希望能够充分调用客舱服务部的积极性和主动性,进一步改进管理手段,促进新的现代化管理机制的形成。 为了进行合理的分配,必须首先搞清楚部门的各项成本、成本构成、成本之间的相互关系。本文首先对成本组成进行分析,然后用回归模型和支持向量机预测模型对未来的成本进行预测[1-3],并对预测结果的评价和选取情况进行了分析。 2问题的分析 由于客舱服务部的特殊性,“费用包干”政策的一项重要内容就集中在小时费的重新分配问题上,因为作为客舱乘务员的主要组成部分—— —“老合同”员工的基本工资、年龄工资以及一些补贴都有相应的政策对应,属于相对固定的部分,至少目前还不是调整的最好时机。乘务员的小时费收入则是根据各自的飞行小时来确定的变动收入,是当前可以灵活调整的部分。实际上,对于绝大多数员工来说,小时费是其主要的收入部分,因此,用于反映乘务人员劳动强度的小时费就必然地成为改革的重要部分。 现在知道飞行小时和客万公里可能和未来的成本支出有关系,在当前的数据库中有以往的飞行小时(月)数据以及客万公里数据,并且同时知道各月的支出成本,现在希望预测在知道未来计划飞行小时和市场部门希望达到的客万公里的情况下的成本支出。 根据我们对问题的了解,可以先建立这个部门的成本层次模型,搞清楚部门的各项成本、成本构成、成本之间的相互关系。这样,可以对部门成本支出建立一个层次模型:人力资源成本、单独预算成本、管理成本,这三个部分又可以分别继续分层 次细分,如图1所示。 基于支持向量机回归模型的海量数据预测 郭水霞1,王一夫1,陈安2 GUOShui-xia1,WANGYi-fu1,CHENAn2 1.湖南师范大学数学与计算机科学学院,长沙410081 2.中国科学院科技政策与管理科学研究所,北京100080 1.CollegeofMath.andComputer,HunanNormalUniversity,Changsha410081,China 2.InstituteofPolicyandManagement,ChineseAcademyofSciences,Beijing100080,China E-mail:guoshuixia@sina.com GUOShui-xia,WANGYi-fu,CHENAn.Predictiononhugedatabaseontheregressionmodelofsupportvectormachine.ComputerEngineeringandApplications,2007,43(5):12-14. Abstract:Asanimportantmethodandtechnique,predictionhasbeenwidelyappliedinmanyareas.Withtheincreasingamountofdata,predictionfromhugedatabasebecomesmoreandmoreimportant.Basedonthebasicprincipleofvectormachineandim-plementarithmetic,apredictionsysteminfrastructureonanaircompanyisproposedinthispaper.Lastly,therulesofevaluationandselectionofthepredictionmodelsarediscussed. Keywords:prediction;datamining;supportvectormachine;regressionmodel 摘要:预测是很多行业都需要的一项方法和技术,随着数据积累的越来越多,基于海量数据的预测越来越重要,在介绍支持向量机基本原理和实现算法的基础上,给出了航空服务成本预测模型,最后对预测结果的评价和选取情况进行了分析。 关键词:预测;数据挖掘;支持向量机;回归模型 文章编号:1002-8331(2007)05-0012-03文献标识码:A中图分类号:TP18 基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.10571051);湖南省教育厅资助科研课题(theResearchProjectofDepartmentofEducationofHunanProvince,ChinaunderGrantNo.06C523)。 作者简介:郭水霞(1975-),女,博士生,讲师,主要研究领域为统计分析;王一夫(1971-),男,博士生,副教授,主要研究领域为计算机应用技术,软件工程技术;陈安(1970-),男,副研究员,主要研究领域为数据挖掘与决策分析。 12

支持向量机的快速优化算法

目录 摘要I Abstract II 目录IV 1引言1 1.1模式识别[35] (1) 1.1.1模式识别的概念 (1) 1.1.2模式识别的研究方法 (1) 1.1.3模式识别的发展和应用 (3) 1.2支持向量机[32] (3) 1.2.1支持向量机的理论背景 (4) 1.2.2SVM算法目前的研究现状 (5) 1.3本文研究内容 (5) 2背景知识7 2.1支持向量机 (7) 2.2其他分类器 (10) 2.2.1双支持向量机 (10) 2.2.2投影双支持向量机 (11) 2.2.3双参数间隔支持向量机 (11) 2.3对偶坐标下降算法 (12) 3clipDCD算法和加速clipDCD算法14 3.1clipDCD算法 (14) 3.2加速clipDCD算法 (15) 3.3问题实现 (16) 3.3.1终止条件 (16) 3.3.2收敛性 (16) III

3.3.3计算复杂度 (17) 3.3.4在线设置 (17) 4数值实验19 4.1实验模拟 (19) 4.2实验分析 (20) 5结论36参考文献37致谢40 IV

上海师范大学硕士学位论文第1章引言 第1章引言 1.1模式识别[35] 1.1.1模式识别的概念 在日常生活、学习和工作中,人们几乎无时无刻不在进行着模式识别(Pattern Recognition)活动。可以说,模式识别能力是我们人类所具有的最基本能力。如:人们经常要“看云识天气”,判断当天天气的冷与暖、晴与雨等。模式识别就是研究用计算机来实现人类模式识别能力的一门学科。如:文字识别、语音识别、图像识别都属于模式识别的范畴。按照广义的定义,模式就是一些供模仿用的完美无缺的样本。模式识别就是识别出特定客体所模仿的标准。其中客体是指具体的客体,是人们能用感官直接或间接接受的外界信息,如声音、文字、心电图、地震波等都是模式,而且像自然系统或人造系统中的某个系统状态等也都可以看做是模式。如医生给病人看病,首先需要根据病情做一些必要检验,根据各项检验指标做出病情的分类决策,上述过程就是一个模式识别过程。因此研究用计算机模拟人的识别能力,提出识别具体客体的基本理论与实用技术,这就是模式识别这一学科的研究内容。根据模式识别的研究内容,可以给出模式与模式识别的定义:把所见到的具体事物称为模式,而将它们归属的类别称为模式类,模式识别就是研究一些自动技术,利用这些技术,计算机自动地把待识别模式分到各自的模式类中。模式识别与人工智能都是研究让机器具有智能,即让机器做一些带“智能”的工作,因此这两门课是有密切关系的。从广义上说,模式识别属于人工智能的范畴,但由于历史的原因,它已经形成了独立的学科,有其自身的理论和方法。目前模式识别主要研究对事物的识别,俗称分类,并且识别的方法主要依靠对事物属性的度量值进行计算,从而达到对事物进行分类的目的。 1.1.2模式识别的研究方法 一个模式识别系统它主要由信息获取、预处理、特征提取与选择、分类器设计以及分类决策五大部分组成。下面对其进行简单的说明。 1.信息获取 为了使计算机能够对客体进行分类识别,必须首先将客体用计算机所接受的形式表示。目前计算机一般只能处理某种形式的电信号,而待识别的样本大多是非电信息,如灰度、色彩、声音等,所以需要将这些以各种不同形式表现的信息通过传感器转化成电信号,电信号再经过变换,最终转换成为能由计算机处理的数字量。通常从客体获得的信息有下列三种类型:(1)二维图像,如文字、指纹和照片等。(2)一维波形,如语音、机 1

最优化理论与支持向量机

最优化理论与支持向量机 摘要 近几年来, 机器学习方法得到了广泛的应用, 在其理论研究和算法实现方面都取得了重大进展成为机器学习领域的前沿热点课题. 支持向量机也受到广泛的关注, 它以统计学习为基础, 建立在计算学习理论的结构风险最小化原则之上, 具有简洁的数学形式, 已成为机器学习和数据挖掘领域的主要工具. 本文主要是对最优化理论的概述以及对支持向量机的简单介绍. 通过对最优化理论与支持向量机的学习, 进一步深入研究相关理论与实验知识. 关键词: 样本集 类标识 支持向量机 回归 1. 最优化理论 本学期主要学习了最优化的一些基本理论, 一类分类问题, 二类分类问题, 多类分类问题, 回归问题. 分类问题的主要思想是通过给定的样本集1,{()}n m i x y R R i i T =??=寻找一个定值函数:m f R R →. 以便利用f 来判断任一输入m i x R ∈的类标识. 另外, 分类问题根据数据样本的个数可分为一类分类问题, 二类分类问题, 多类分类问题. 根据定值函数的线性和非线性性, 可分为线性分类问题和非线性分类问题. 对于分类问题研究最多的是二类分类问题和多类分类问题. 近几年来, 机器学习方法得到了广泛的应用,在其理论研究和算法实现方面都取得了重大进展成为机器学习领域的前沿热点课题. 不少学者将机器学习的方法应用与机械产品寿命的预测, 而其中人工神经网络和支持向量机等方法在寿命预测中应用较多. 由于人工神经网络存在对样本数量与质量具有高依赖性, 且对于小样本情况易陷入局部最优等问题, 而以统计学理论为基础的支持向量机, 具有严格的理论和数学基础, 可以不像神经网络的结构设计需要依赖于设计者的经验知识和先验知识, 因此, 利用支持向量机理论实现趋势预测分析已成为研究新热点. 基于数据的机器学习是一种重要的知识发现方法, 是人工智能最具智能特征、最前言的研究领域之一. 机器学习主要研究计算机如何模拟或实现人类的学习能力, 以获取新的知识技能, 重新组织已有的知识结构, 使之不断改善自身的性能. 机器学习是人类智能的核心问题, 是使计算机具有人工智能的根本途径, 基于数据的机器学习问题作为人工智能研究领域的一个重要方面. 其研究的主要问题是从一组观测数据集出发, 得到一些不能通过原理分析而得到的规律, 进而利用这些规律对未来数据或无法观测到的数据进行预测和分析.迄今为止, 关于机器学习还没有一种被共同接受的理论框架, 关于其实现方法大致可以分为以下三种[1]. 第一种是经典的统计预测方法[2]. 现有机器学习方法共同的重要理论基础之一是统计学. 在这类方法中, 模型中参数的相关形式是已知的, 用训练样本来估计参数需要已知样本的分布形式, 因此具有很大的局限性. 另外传统的统计学研究的是样本数目趋于无穷大时的渐进理论, 但在实际问题中, 样本数量却是有限的, 因此一些理论上很优秀的学习方法在实际应用中可能表现的不尽人意.

相关主题
文本预览
相关文档 最新文档