一种基于支持向量机的蠓虫分类方法

格式：pdf
大小：176.27 KB
文档页数：2

下载文档原格式

/ 2

蠓虫分类问题的数学模型

蠓虫分类问题的数学模型摘要：本文针对Af和Apf两类蠓虫的分类问题分别利用马氏距离法、Fisher判别法和Bayes判别法建立了三个数学模型。

首先，利用马氏距离公式建立起样本到两类间距离公式，通过两个距离的大小，样本靠近哪个样本，则判给哪个样本。

再采用Fisher判别法，将所有可能组合构成的区域R n分成两个互不相交的部分，则未知类别的样品落在哪个部分，就判属于那一类。

建立此模型的主要目的就是为了将R n划分成两干个互相不重叠的部分，即找出区域分界面，在数学上就是找出曲面的函数，即判别函数。

最后，再结合实际情况，根据误判对损失的影响大小利用Bayes判别法对于以上建立的模型进行优化与改进，是各种损失按概率的加权求和达到最小1.问题重述两种蠓虫Af和Apf巳由生物学家W．L Grogan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分。

现测得6只Apf和9只Af 蠓虫的触角长度和翼长识别的依据是蠓虫的触角和翅膀的长度的数据（见下表），现在要根据数据,制定一种方法,正确区分两类蠓虫；并且将建立的模型将用于已知触角长和翼长三个待定的样本进行识别。

且在假设Af 是宝贵的传粉益虫，而Apf是某种疾病的载体的情2.模型的假设和符号的设定2.1.模型的假设（1）任意的触角长度和翼长属于Af和Apf的概率相等；（2）任意触角长度和翼长随机组合；（3）两类蠓虫总体都服从二维正态分布；（4）同一种误判造成损失相等； 2.2符号的说明（1）i G ：表示总体，i=1，2；（2）2(,)i d x G ：x 到i G 的马氏平方距离，i=1，2；（3）()i W x ：判别函数，i=1，2；（4）()i f x ：总体i G 的概率密度函数；（5）(|)c i j ：将来自j G 的样品误判来自于i G 后带来的损失。

其它需要用到的符号，在后面再做说明。

3.模型准备之所以将蠓虫归为同一类（Af 或Apf ），是因为它们之间有相同或相近之处，从指标上来讲大小比较接近。

毕业论文：基于支持向量机(SVM)的蘑菇毒性检测系统(终稿)-精品

目录摘要........................................................................................................................................ I I 关键词........................................................................................................................................ I I Abstract ...................................................................................................................................... I I Key Words .................................................................................................................................. I I 1引言.. (1)1.1研究意义 (1)1.2国内外研究情况 (1)2支持向量机理论 (3)2.1支持向量机基础理论 (3)2.2C-SVM算法及其变形算法 (7)2.3 V-SVM算法 (9)3 LIBSVM软件 (12)3.1LIBSVM软件简介 (12)3.2LIBSVM软件的使用方法 (12)3.3LIBSVM的工具包 (15)4 Qt图形库 (18)5 系统的设计与实现 (19)5.1分类问题的提出及SVM分类原理 (19)5.2支持向量机与蘑菇毒性分析相结合 (21)5.2.1 蘑菇毒性检测系统总体框架 (21)5.2.2 蘑菇物理属性的数据描述 (21)5.2.3 蘑菇属性数据学习模型的建立 (23)5.2.4 蘑菇毒性预测部分 (26)6 总结 (27)6.1结论 (27)6.2下一步工作 (28)参考文献 (29)致谢 (30)基于支持向量机（SVM）的蘑菇毒性检测系统摘要本文根据模式识别理论，对支持向量机的分类机制，核函数算法和松弛变量的定义进行了研究，采用了LIBSVM工具结合蘑菇毒性样本数据在linux下开发出了蘑菇毒性检测系统，该系统着重分析了样本数据的分割和参数变量的定义对分类精确率的影响。

1989A蠓虫分类问题-邓锐涛——大学生数学建模竞赛

题目：蠓虫分类问题如图1 生物学家格罗根和维尔特比较了蠓虫的触角和翅膀长度，分类出了两个品种的蠓虫Af和Apf。

比较蠓虫触角和翅膀的长度是蠓虫进行分类的关键。

（1）如果给定一只已知品种为af或apf的蠓虫，你将如何进行分类？（2）将你的分类方法应用于三个标本（标本记录为（触角长度，翅膀长度）），(1.24,1.80),(1.28,1.84),(1.40,2.04).（3）假设蠓虫Af对于植物授粉具有很大价值，蠓虫Apf却是一种降低免疫力的疾病的载体。

你是否会修改你的分类方法？如果是，你将会如何进行修改？1一种最佳的分类和分离：均值向量的推断摘要数值分类学中的一个常见的问题是寻找最佳分离种群并且在种群中对每一个个体进行分类的方法。

这类问题经常只有少量数据点，甚至数据中可能同时包含不同的种群。

W.L.Grogan和W.W.Wirth在1981年确定了15只蠓虫的分类，其中6型只Apf和9只Af。

我们的目标是要找到最好的划分这两种类型蠓虫的方法。

为了实现这个目标不仅需要大量使用多元统计分析还必须具备一定的创造力。

解决这个问题有三个重要的步骤。

首先，我们数值化描述蠓虫的特征（利用蠓虫的触角和翅膀长度），产生分离蠓虫种群的判别方法。

第二，我们确定未知种群的蠓虫的种类为APF或AF。

最后，我们考虑到总的误判概率，并修改我们的判别方法，以使误判的预期成本最小。

我们介绍Fisher判别法并在本问题中进行相应的变形处理。

本文中我们分析其划分蠓虫种群和分类新蠓虫的能力。

此外，我们还介绍其他方法，并讨论为什么我们发现他们不合适用于本问题。

我们使用Fisher判别方法对给定的蠓虫样本进行分类。

然后，我们调整方法使之符合不同的假设，如不同误判的成本和不同种群比例。

最后，我们评估了分类不当的可能性。

在分析种群比例和误判成本的各种假设的基础上，我们计算了划分种群的四条曲线。

假设不同种群的种群规模和误判成本都相同，Fisher判别法得到判别直1线y =0.8883x+0.6930。

蠓虫分类模型-7

模型的假设1、在问题一中，假设两类蠓虫的协方差矩阵是相等的；2、假设Apf 与Af 的总数相同或Apf 占总数的156，Af 占总数的159，这样在用贝叶斯判别法时，即可用按比例分配方法估计两个总体的先验概率；3、样本无性别差异。

4、触角长与翅长作为指标同样重要。

5、用触角长与翅长来判别蠓虫是充分的。

符号说明A………………………………………………Apf 类蠓虫B………………………………………………Af 类蠓虫m1………………………………………………A 类的均值向量m2………………………………………………B 类的均值向量S1………………………………………………A 类的协方差矩阵S2………………………………………………B 类的协方差矩阵n 1………………………………………………A 类样本的容量n 2………………………………………………B 类样本的容量模型的建立与求解1、问题一的建立与求解区分步骤：（1）利用Matlab 软件，画出两类蠓虫分布的散点图如下:1.1 1.15 1.2 1.25 1.3 1.35 1.4 1.451.5 1.55 1.61.61.651.71.751.81.851.91.9522.052.1图1 两类蠓虫分布的散点图Apf Af(2)由散点图我们可以画出两条斜线，由此区分两类蠓虫，如下所示：图2 用斜线区分两类蠓虫（3）由图我们可以区分出两类蠓虫2、问题二的建立与求解用马氏距离判别步骤：(1) 计算A、B两类的均值向量与协方差矩阵; m1=mean(A), m2=mean(B),S1=cov(A), S2=cov(B)；(2) 计算总体的协方差矩阵2)1()1(212 211-+-+-=nns nsns；( 3) 计算未知样本x到A,B两类马氏平方距离之差：d=(x-m1)S-1(x-m1)’- (x-m2)S-1(x-m2)’；(4) 若d<0,则x属于A类;若d>0,则x属于B类。

逻辑斯谛回归模型matlab蠓虫分类

逻辑斯谛回归模型matlab蠓虫分类逻辑斯谛回归模型是一种用于分类问题的机器学习算法。

在这篇文章中，我们将探讨如何使用逻辑斯谛回归模型来进行蠓虫分类。

蠓虫分类是一个重要的问题，特别是在农业和环境保护领域。

蠓虫是一种常见的害虫，它们会对作物和人类健康造成严重影响。

因此，准确地识别和分类蠓虫对于采取相应的控制措施至关重要。

逻辑斯谛回归模型是一种广泛应用于分类问题的机器学习算法。

它基于逻辑斯谛函数，通过对样本特征和标签之间的关系进行建模，来预测新样本的分类。

逻辑斯谛回归模型的优点在于它简单而高效，适用于处理大规模数据集。

在蠓虫分类问题中，我们首先需要收集关于蠓虫的特征数据。

这些特征可以包括蠓虫的体型大小、颜色、翅膀的形状等。

然后，我们需要对这些特征进行预处理，例如归一化或标准化，以便使它们具有相同的尺度和范围。

接下来，我们将数据集分为训练集和测试集。

训练集用于训练逻辑斯谛回归模型，而测试集用于评估模型的性能。

在训练阶段，我们将使用逻辑斯谛回归算法拟合训练集的特征和标签。

这样，模型就能够学习到特征和标签之间的关系，并能够进行准确的分类。

在测试阶段，我们将使用训练好的模型对测试集进行预测。

通过比较预测结果和真实标签，我们可以评估模型的准确性和性能。

常用的评估指标包括准确率、精确率、召回率和F1分数等。

这些指标可以帮助我们了解模型的分类能力和误差情况。

除了训练和测试阶段，还有一些其他的技术可以提高逻辑斯谛回归模型的性能。

例如，特征选择可以帮助我们选择最相关的特征，从而提高模型的分类准确性。

另外，正则化技术可以帮助我们控制模型的复杂度，防止过拟合问题的发生。

在实际应用中，逻辑斯谛回归模型可以与其他技术和方法相结合，形成更强大的分类系统。

例如，我们可以使用特征提取和特征工程技术来提取更有信息量的特征。

同时，我们还可以使用集成学习方法，如随机森林和梯度提升树，来进一步提高模型的性能和鲁棒性。

逻辑斯谛回归模型是一种强大的分类算法，可以应用于蠓虫分类等问题。

基于线性支持向量机的温室害虫智能识别系统

第 22卷第 12期2023年 12月Vol.22 No.12Dec.2023软件导刊Software Guide基于线性支持向量机的温室害虫智能识别系统刘豹1，李翌2，李峰2，鲍煦1（1.江苏大学计算机科学与通信工程学院，江苏镇江 212001；2.安利（中国）植物研发中心有限公司，江苏无锡 214000）摘要：针对温室现场采集的害虫粘虫板图像易受光照不均匀、灯光反射等干扰，从而影响识别精度的问题，基于图像分割算法与线性支持向量机构建一个温室害虫智能识别系统。

该系统利用Prewitt边缘检测二值图、Canny边缘检测二值图融合全局阀值分割的方法实现粘虫板图像中害虫区域的精准分割。

基于分割的害虫图像人工构建线性支持向量机的训练数据集，并根据飞虱、蓟马特征将单个样本特征提取扩充至12个；基于扩充的训练数据集构建基于线性支持向量机的害虫识别分类器，并使用梯度下降法进行模型训练。

实验结果表明，该系统可快速准确地实现粘虫板图像中害虫目标区域的分割，平均准确率为96.3%；针对分割后的图像，该系统可准确实现害虫识别，平均准确率为96.1%，其中飞虱、蓟马的识别准确率分别为95.4%、96.8%。

关键词：边缘检测；支持向量机；温室害虫；害虫识别DOI：10.11907/rjdk.222447开放科学（资源服务）标识码（OSID）：中图分类号：TP319 文献标识码：A文章编号：1672-7800（2023）012-0232-06Intelligent Identification System of Greenhouse Pests Based on LinearSupport Vector MachineLIU Bao1， LI Yi2， LI Feng2， BAO Xu1（1.School of Computer Science and Communication Engineering， Jiangsu University， Zhenjiang 212000， China；2.Amway （China） Plant Research and Development Center Co.， Ltd.， Wuxi 214000， China）Abstract：To address the issue of the susceptibility of insect pest and sticky insect board images collected on site in greenhouses to noise such as uneven lighting and light reflection， which affects recognition accuracy， an intelligent recognition system for greenhouse pests is built based on image segmentation algorithms and linear support vector machines. This system utilizes the fusion of Prewitt edge detection binary image and Canny edge detection binary image with global threshold segmentation to achieve precise segmentation of pest areas in sticky insect board images. Artificial construction of a linear support vector machine training dataset based on segmented pest images， and expansion of single sample feature extraction to 12 based on planthopper and thrip features； Construct a linear support vector machine based pest recognition clas‐sifier based on the expanded training dataset，and use gradient descent method for model training. The experimental results show that this method can quickly and accurately segment the pest target area in the sticky insect board image， with an average accuracy of 96.3%； For seg‐mented images， this method can accurately identify pests with an average accuracy of 96.1%， with recognition accuracy rates for planthoppers and thrips being 95.4% and 96.8%， respectively.Key Words：edge detection； support vector machines； greenhouse pest； pest identification0 引言农产品的产量和质量一直以来备受人们关注［1-2］。

基于支持向量机的害虫多维时间序列预测_向昌盛

第 10 期
向昌盛，等：基于支持向量机的害虫多维时间序列预测
·3695·
单一模型难以达到理想的测报结果。组合预测是近年发展起来的一种有效的预测方法，组合模型能够较大限度地利用样本的各种信息，比单个模型考虑问题更系统、更全面，在其他领域已经得到很好的应用，但在害虫预测中的应用还很少有报道［10］。
型的真实阶数；然后对变量采用逐步线性回归筛选，保留对预
测结果影响较大的变量；最后采用最小二乘法对模型参数进行
估计建模并预测，其预测流程如图 1 所示。
多维时间序列 F 测验模型定阶
预测结果一步预测参数估计
拓阶后的数据
逐步线性回归筛选变量保留变量
图 1 传统 CAR 预测流程图
1. 1. 3 CAR 和 SVM 组合算法基本思想 CAR 模型的定阶、变量筛选以及模型建立都是基于线性
| f（ x）－ y | ＜ ε
（ 2）
其中： ‖w‖2 为结构风险； ε 为不敏感损失函数参数，其取值大
小影响支持向量数目； C 为惩罚参数，控制对超出误差样本的
惩罚程度。引入非负松弛变量 ξ 和 ξ* ，用于度量 ε 不敏感带外的训
练样本的偏离程度，则式（ 1）的最优化问题变为
min
1 2
多年来，国内外学者利用回归分析［3］、灰色系统分析［4］和时间序列分析等［5］方法对害虫发生预测进行了大量的研究，为害虫有效性防治提供了指导作用，但由于害虫发生是一种非线性、非正态的复杂系统，其灾害的发生具有不均匀性、差异性、多样性、突发性、随机性等复杂特点，用传统统计回归法很难或确切地把害虫发生规律性完全表达出来，所以预测准确性

《2024年基于支持向量机的聚类及文本分类研究》范文

《基于支持向量机的聚类及文本分类研究》篇一一、引言在人工智能领域中，支持向量机（Support Vector Machine，SVM）被广泛应用于多个子任务，其中包括聚类和文本分类。

这两项任务不仅具有广阔的实用性，还在算法理论和实践中具有一定的研究价值。

本文将对基于支持向量机的聚类及文本分类进行研究，详细介绍SVM的原理和它在聚类及文本分类任务中的应用，并通过实证分析验证其效果。

二、支持向量机（SVM）原理介绍支持向量机是一种基于监督学习的机器学习算法，通过寻找能够将数据正确划分的超平面来构建模型。

其基本思想是在特征空间中找到一个分隔超平面，使得数据集中任意一点到该超平面的距离最大化。

对于文本分类和聚类任务，SVM通常利用核函数将原始文本数据映射到高维空间，以便更好地处理复杂的非线性问题。

三、基于支持向量机的聚类研究聚类是一种无监督学习任务，旨在将相似的数据点聚集在一起。

基于支持向量机的聚类方法通常采用核函数将数据映射到高维空间后，利用SVM的分类思想进行聚类。

具体而言，该方法通过计算数据点之间的相似度或距离来构建相似度矩阵或距离矩阵，然后利用SVM的优化算法对矩阵进行优化，最终得到聚类结果。

四、基于支持向量机的文本分类研究文本分类是一种常见的自然语言处理任务，主要用于将文本数据划分为不同的类别。

基于支持向量机的文本分类方法通过将文本数据转化为数值型特征向量，并利用SVM进行分类。

在这个过程中，SVM通过选择合适的核函数将文本数据映射到高维空间，从而更好地处理复杂的非线性问题。

此外，SVM还可以通过调整参数来优化模型的性能。

五、实证分析为了验证基于支持向量机的聚类和文本分类方法的有效性，本文采用真实数据集进行实验。

首先，我们使用SVM进行文本聚类实验，通过对比不同核函数和参数设置下的聚类效果，验证了SVM在文本聚类任务中的有效性。

其次，我们进行文本分类实验，通过对比SVM与其他常见分类算法的分类性能，验证了SVM在文本分类任务中的优越性。

基于SVM的储粮害虫图像识别分类

基于SVM的储粮害虫图像识别分类
张红涛;胡玉霞;毛罕平
【期刊名称】《农机化研究》
【年(卷),期】2008(000)008
【摘要】粮虫图像识别属于小样本、参数多和特征之间混合度大的分类问题,因此分类器的设计是自动检测系统的关键环节.为此,采用网格搜索法,以SVM交叉验证训练模型的识别率为判别准则,对支持向量机分类器的参数和进行优化.应用SVM 分类器对粮仓中危害严重的9类粮虫进行了自动分类,识别率达到93%以上.结果证实了基于SVM的分类器可进一步提高粮虫识别的精度.
【总页数】3页(P36-38)
【作者】张红涛;胡玉霞;毛罕平
【作者单位】江苏大学,现代农业装备与技术省部共建教育部重点实验室/江苏省重点实验室,江苏,镇江,212013;华北水利水电学院,电力学院,郑州,450011;郑州大学,电气工程学院,郑州,450001;江苏大学,现代农业装备与技术省部共建教育部重点实验室/江苏省重点实验室,江苏,镇江,212013
【正文语种】中文
【中图分类】S431.3;TP391.41
【相关文献】
1.基于扩展Shearlet变换、Krawtchouk矩和SVM的储粮害虫分类 [J], 吴一全;王凯;陶飞翔
2.基于改进算法的储粮害虫图像识别预处理 [J], 刘丽娟;刘仲鹏
3.一种基于三支决策SVM分类的图像识别方法 [J], 邵帅
4.基于三支决策与SVM分类的图像识别算法 [J], 罗琪
5.基于深度卷积神经网络的储粮害虫图像识别 [J], 程曦;吴云志;张友华;乐毅因版权原因，仅展示原文概要，查看原文内容请购买。

蠓虫识别的一个简便的数学模型

蠓虫识别的一个简便的数学模型
王友菁
【期刊名称】《南京林业大学学报：自然科学版》
【年(卷),期】1997(21)4
【摘要】建立了区分蠓虫两个相近品种的一个数学模型，这一模型在一定条件下更简单、有效。

【总页数】2页(P110-111)
【关键词】蠓虫识别;益虫;害虫;识别;数学模型;正态分布
【作者】王友菁
【作者单位】南京林业大学基础课部
【正文语种】中文
【中图分类】O21
【相关文献】
1.辨识数学模型的有效方法——脉冲法识别电液伺服阀数学模型的研究 [J], 花克勤
2.基于模糊模式识别的蠓虫分类数学模型 [J], 王琪
3.一种简便激光对中仪设计及其数学模型的研究 [J], 慕丽;王欣威
4.油藏类型识别的一个模糊数学模型 [J], 陈明强;葛家理
5.用判别分析进行识别的一个数学模型 [J], 杜院录
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4 ．结论
我们采用支持向量机的方法对两类蠓虫的分类问题建立一种数学模型，
图1
－２６８－
取值为ｘ１＝（１．１４，１．７８），ｘ２＝（１．１８，１．９６），ｘ３＝（１．２０，１．８６），ｘ４＝（１．２６，２．００），ｘ５＝（１．２８，２．００），ｘ６＝（１．３０，１．９６）；ｘ７＝（１．２４，１．７２），ｘ８＝（１．３６，１．７４），ｘ９＝（１．３８，１．６４），ｘ１０＝（１．３８，１．８２），ｘ１１＝（１．３８，１．９０），ｘ１２＝（１．４０，１．７０），ｘ１３＝（１．４８，１．８２），ｘ１４＝（１．５４，１．８２），ｘ１５＝（１．５６，２．０８）。将以上数据代入模型（２）中，同时选取参数Ｃ＝１０，利用Ｍａｔｌａｂ程序
将各样本点及上述分类函数利用Ｍａｔｌａｂ作出图形如图１所示。从图示可以看出，黑点为６只Ａｐｆ类，红点为９只Ａｆ类，蓝色的分类线将它们完全分开。并且，有三个新的个体，以圆圈表示，两只为Ａｐｆ类，一只为Ａｆ类，分类线也恰好将它们分开。因此，此方法的回验正确率为１００％，可信度较高。
Feng Zengzhe1 Wang Qing1 Wang Changyuan1 Tian Yingjie2 １．ＩｎｆｏｒｍａｔｉｏｎａｎｄＥｎｇｉｎｅｅｒＳｃｈｏｏｌｏｆＴａｉｓｈａｎＭｅｄｉｃａｌＣｏｌｌｅｇｅ，Ｓｈａｎｄｏｎｇ，Ｔａｉａｎ，Ｃｈｉｎａ，２７１０１６２．ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，ＲｅｓｅａｒｃｈＣｅｎｔｅｒｏｎＤａｔａＴｅｃｈｎｏｌｏｇｙａｎｄＫｎｏｗｌｅｄｇｅＥｃｏｎｏｍｙ，Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，１０００８０
( w • xi ) + b －１ ≥ ０，ｉ＝１，ｎ（１）ｙｉ＝ …
此时分类间隔等于 2 / w ，使间隔最大等价于使 w 2 最小。满足条件（１）且使
1 w 2
2
最小的分类面叫做最
优分类面，Ｈ１、Ｈ２上的训练样本点就称为支持向量。但当线性不可分时，如果坚持用超平面进行分化，则必须“软化”对间隔的要求，这导致如下优化问题：
2 ．模型建立
ＳＶＭ是从线性可分情况下的最优分类线发展而来的，所谓最优分类线就是要求分类线不但能将两类正确分开（训练错误率为０），而且使分类间隔最大。分类线方程为ｘ・ｗ＋ｂ＝０，我们可以对它进行归一化，使得对线性可分的样本集（ｘｉ，ｙｉ），ｉ＝１， …ｎ， x ∈ R d ，满足
得到该问题的一个分类函数。通过数值实验证实，该方法分类的正确率较高。
ξ i ≥ 0, i = 1,2,...l
利用Ｌａｇｒａｎｇｅ优化方法可以把上述最优分类面问题转化为其对偶问题，即：
参考文献［１］ＡｎｃｏｎａＮｅｔａｌ．ＢａｌｌｄｅｔｅｃｔｉｏｎｉｎｓｔａｔｉｃｉｍａｇｅｓｗｉｔｈＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＩｍａｇｅａｎｄＶｉｓｉｏｎＣｏｍｐｕｔｉｎｇ，２００３（２１）：６７５－６９２．［２］边肇祺，张学工．模式识别［Ｍ］．北京：清华大学出版社，２０００．［３］ＢｕｒｇｅｓＪ．Ｃ．．ＡＴｕｔｏｒｉａｌｏｎＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＤａｔａｍｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，１９９８，２（２）：１２１－１６７［４］邓乃扬，田英杰．数据挖掘中的新方法—支持向量机［Ｍ］．北京：科学出版社，２００４．［５］ＳｃｈｏｋｏｐｆＢ，ｅｔａｌ．Ｉｎｐｕｔｓｐａｃｅｖｅｒｓｕｓｆｅａｔｕｒｅｓｐａｃｅｉｎｋｅｒｎｅｉ－ｂａｓｅｄｍｅｔｈｏｄｓ［Ｊ］．ＩＥＥＥＴｒａｎｓ．ＮｅｕｒａｌＮｅｔｗｏｒｋｓ．１９９９，１０（９）：１０００－１０１７．［６］ＶａｐｎｉｋＶ．ＴｈｅＮａｔｕｒｅｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，１９９５．［７］赵静，但琦．数学建模与数学实验［Ｍ］．第二版．北京：高等教育出版社，２００３．［８］赵文霞．基于模糊示例学习的蠓虫分类规则的设计［Ｊ］．保定师范专科学校学报，２００４，１７（２）：１０－１３．［９］ＺｈａｎｇＣｈｕｎｈｕａ，ＴｉａｎＹｉｎｇｊｉｅ，ＺｈａｎｇＹｕｅｆｅｎｇ．ＡｎＩｍｐｒｏｖｅｍｅｎｔｔｏｔｈｅＴｈｅｏｒｅｔｉｃａｌＦｏｕｎｄａｔｉｏｎｏｆＳｕｐｐｏｒｔＶｅｃｔｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．运筹学学报，２００４，８（２）：６６－７１．［１０］张莉，周伟达，焦李成．核聚类算法［Ｊ］．计算机学报，２００２，２５（６）：５８７－５９０．
作者简介冯增哲，男，３４岁，汉族，山东泰安人，讲师，硕士，主要研究方向：最优化理论与方法，支持向量机。
s.t.
∑ yα
i =1 i
l
i
= 0 （２）
求解得：ａ＝（ａ１，ａ２，…，ａ１５）＝（９．６６９７，１０，０，１０，１０，１０，１０，１０，０，１０，１０，０，０，０，９．６６９７）；然后利用模型求解权系数得ｗ＝（ｗ１，ｗ２，）＝（－７．２６１３，３．４９９１）；再求分类阈值得ｂ＝２．９７６９。从而，我们求得该问题的一个线性分类函数为：
（３）式中的求和实际上只对支持向量进行。ｂ＊是分类阈值，可以用任一个支持向量（满足（１）中的等号）求得，或通过两类中任意一对支持向量取中值求得。这就是支持向量机。
3 ．模型应用
设６只Ａｐｆ为正类，即ｙｉ＝１，ｉ＝１，２，…，６，９只Ａｆ类为负类，即ｙｉ＝１，ｉ＝７，８，…，１５。同时ｘ
摘
要
1 ．引言
问题选自美国大学生数学建模竞赛的一个题目—蠓的分类，其大意是：生物学家Ｗ．Ｌ．Ｇｒｏｇａｎ和Ｗ．Ｗ．Ｗｉｒｔｈ试图将两种蠓虫Ａｆ和Ａｐｆ进行鉴别，给出了９只Ａｆ和６只Ａｐｆ的触角长度和翅膀长度的数据（见表１）。已知Ａｆ是宝贵的传粉益虫，Ａｐｆ是某种疾病的载体，要求建立一种模型，正确区分两类蠓虫。关是毒蠓，所以本文识别原则的目标是：最大限度的消灭Ａｐｆ，在此基础上，最大限度地保护Ａｆ，因此，对蠓虫群体的识别模型的确定具有重要的意义。本文基于支持向量机模型，给出一种新的蠓虫的分类方法，这对消灭害虫，保护益虫，保持农
表 1 蠓虫样本集
－２６７－
基础及前沿研究
中国科技信息2007年第4期
CHINA SCIENCE AND TECHNOLOGY INFORMATION Feb.2007
min
l 1 2 w + C ∑ξi 2 i =1 s.t . yi ((w ⋅ xi + b) ≥ 1 − ξ i , i = 1,2,...l .
业生态平衡，有一定的意义。
讨论两类蠓虫的分类问题。利用极大化 “间隔 ”的思想，将分类问题转化为一个二次规划及其对偶规划问题，即支持向量机算法。通过求解此数学规划，得到一线性分类函数。基于该算法，通过给定的蠓虫的样本集，建立上述分类模型，求得一个线性分类函数，为蠓虫的正确分类提供了一个较可靠的方法。关键词支持向量机；模式识别；蠓虫分类；分类函数中图分类号：Ｏ２２，Ｑ９６ Abstract Ｔａｌｋｅｄａｂｏｕｔｔｈｅｐｒｏｂｌｅｍｏｆｔｗｏｋｉｎｄｓｏｆｍｉｄｇｅｓ’ ｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｕｓｉｎｇｔｈｅｍａｘｉｍｉｚｅｍａｒｇｉｎｔｈｏｕｇｈｔ，ｔｒａｎｓｆｏｒｍｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｉｎｔｏａｑｕａｄｒａｔｉｃｐｒｏｇｒａｍｍｉｎｇａｎｄｉｔｓｄｕａｌｐｒｏｂｌｅｍ，ｎａｍｅｌｙｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅａｌｇｏｒｉｔｈｍ．Ａｌｉｎｅａｒｃｌａｓｓｉｆｉｃａｔｉｏｎｆｕｎｃｔｉｏｎｃａｎｂｅｏｂｔａｉｎｅｄｂｙｓｏｌｖｉｎｇｔｈｅｍａｔｈｐｒｏｇｒａｍｍｉｎｇ．Ｂｕｉｌｔｕｐｔｈｅａｂｏｖｅ－ｍｅｎｔｉｏｎｅｄｍｏｄｅｌｂｙｔｈｅｇｉｖｅｎｍｉｄｇｅｓ’ ｓａｍｐｌｅｓｅｔｂａｓｅｄｏｎｔｈｅａｌｇｏｒｉｔｈｍ，ａｎｄｇｏｔａｌｉｎｅａｒｃｌａｓｓｉｆｉｃａｔｉｏｎｆｕｎｃｔｉｏｎ．Ｉｔｐｒｏｖｉｄｅｄａｒｅｌｉａｂｌｅｍｅｔｈｏｄｆｏｒｍｉｄｇｅｓ’ ｃｏｒｒｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ． Key words ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ；ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ；ｍｉｄｇｅｓｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｃｌａｓｓｉｆｉｃａｔｉｏｎｆｕｎｃｔｉｏｎ．
基金项目：国家自然科学基金(10601064)
一种基于支持向量机的蠓虫分类方法
冯增哲 1 王清 1 王昌元 1 田英杰 2 １．泰山医学院信息工程学院２７１０１６２．中国科学院数据技术与知识经济研究中心１０００８０
A Classification Method of Midges Based on Support Vector Machine
y = sgn(−7.2613 x1 + 3.4491x2 + 2.9769)
0 ≤ α i ≤ C , i = 1, 2,...l.
ａ
ｉ