基于支持向量机的代谢网络特征分析
- 格式:pdf
- 大小:206.62 KB
- 文档页数:2
工程技术 计算机光盘软件与应用 Computer CD Software and Applications 2012年第4期
基于支持向量机的代谢网络特征分析
努尔艾合买提・尕依提
(新疆教育学院,乌鲁木齐830043)
摘要:把细胞内所有生化反应表示为一个网络指为代谢网络,是所有参与代谢过程的化合物之间以及所有催化酶之
间的相互作用的反映,是抽象表达对细胞的代谢。在不同的物种中都含有大量的代谢翻译,却代谢网络是高度保守的。要
了解包括代谢系统在内的许多自然、社会系统都起着重要的作用,所以要对于复杂网络进行研究并掌握它们的规律意义很
大。利用代谢网络对微生物的耐热性进行分类研究对认识和利用细胞代谢过程有很大的帮助,从而促进发酵工程、制药工
业等产业的发展。
关键词:支持向量机;分类;代谢网络特征
中图分类号:TP183 文献标识码:A 文章编号:1007-9599(2012)04—0074—02
Metabolic Network Characteristics Analysis Based on Support Vector Machine
Nueraihemaiti’Gayiti
(XinJiang Education Institute,Urumqi 830043,China)
Abstract:The intracellular biochemical reaction in the metabolic network as a network.is a reflection of the interactions
between al1 the compounds involved in metabolic processes as well as all catalytic enzyme.is all abstract expression of cell
metabolism.Contain a 1arge number of metabolic translation,but the metabolic network is highly conserved in different species.To
understand the metabolic system,including many natural and social systems play an important role,SO for complex network
research and mastery of their law meaning.The heat resistance of the metabolic network of microorganisms to classify research on
the awareness and use of cell metabolic processes are of great help,SO as to promote the development of fermentation engineering,
the pharmaceutical industry and other industries.
Keywords:Support vector machine;Classification;Metabolic network characteristics
一
、
耐热性及不耐热性微生物分类的意义 人们为了揭示这些不同的系统所共有的一些特性,通过对取 自不同领域的许多真实网络的统计和分析,以微生物的52个网络 特征作为研究对象,采用支持向量机的方法分析这些网络特征, 通过对不同界的微生物特征比较,确定细菌、古细菌和真菌在进 化上的特点,从而得出不同生长条件下微生物代谢网络的差异以 及这些差异与功能的关系。 二、支持向量机在分类中的优势 支持向量机是根据统计学习理论Vapnik等于1995年首先提 出的-- ̄oo机器学习方法。它在解决小样本、非线性及高维模式识 别中表现出许多特有的优势,在生物学方面,它已经显示出巨大 的应用潜能,如预测真核生物RNA剪切位点,蛋白质折叠识别, 蛋白质相互作用预测,蛋白质二级结构预测,微阵列表达数据评 估,蛋白质四级结构分类,检测蛋白质同源性,预测蛋白质亚细 胞定位。 人工神经网络是类似于大脑神经突触联接的结构进行信息处 理的一种应用数学模型。人工神经网络等方法的原则前提是以经 验风险最小化,这样该类方法只有在样本数趋向于无穷大时其性 能才有理论上的保证。SVM方法的最大特点是包含了Vapnik等提 出的结构风险最小化原则,它不仅要求用最优分类面方式将各类 无错误的分开,而且要使类间间隔最大,从而保证真实风险最小。 SVM方法最初是从线性可分情况下提出来的。由于实际中还存在 线性不可分的问题,因此SVM方法可扩展到了求解非线性分类的 问题。基本思想是: 设包含n个样本的训练集(xi,yi)∈Rd×{±1),通过非线性 映射g:=(gl,g2,…)将输入向量xi变换到一个高维特征空间的 向量g(xi),然后在这个新空间求取最优分类面,这种非线性映射 是通过定义适当的内积函数实现的。构建在特征空间的最优超平 面可以表达为: 特征空间是HiIbert空间。在该空间的变换中,它只涉及核函 数的内积运算,不需要明确知道g(x)是什么 通过适当选取满足Mercer条件的核函数K,就可设法将输入 空间中线性不可分的样本在高维特征空间中线性分开或接近线性
分开。(1)式可改写为:
系数i可由求解下列优化问题得到[4]:
其约束为:
如果训练向量xi对应a i>O,那么它就是支持向量,Ⅱ0由支
持向量(X S,Y S)确定:
(6)式中C为正实数,考虑可能存在一些样本不能正确被分
类而引入的松驰变量控制参数,它起控制错分样本的惩罚程度。
三、分类数据的分析过程
本项目中使用的数据的原样本集是743个微生物,但能用于
支持向量机的符合标准的只有460个,按耐热与不耐热区分,其
中有不耐热的397个,耐热的63个。比例接近6比i。怎样合理
的分配训练集与预测集,对于模型的准确建立有很大影响。
数据归一化方法是对数据常做的一种处理方法。数据归一化
处理把所有数据转化为[0,1](或其它的数值)之间的数,其目
的是取消各维数据间数据级差别,避免因为输入输出数据数量级
差别较大而造成的预测或分类预测较大。所以对数据要进行归一
化处理。
四、Libsvm工具箱介绍
对一般的工程技术人员说利用支持向量机所涉及数学知识,
这样一般人员使用支持向量机处理问题就困难、难度大。国际上
的一些研究者为了方便工程技术人员的使用,他们把研究成果公
布在网络上,免费提供给工程技术人员使用,便于研究和应用。
对于工程技术人员,不必花费大量的时间理解SVM算法深奥的数
学原理和计算机程序设计。
LibSVM是台湾大学林智仁(Lin Chih—Jen)等开发设计的一
个简单、易于使用、快速、有效的SVltl模式识别与回归的软件程
序,它不但提供了编译好的基于Windows操作系统的执行文件,
还提供了有关的软件程序源代码,方便改进、修改以及在其他操
作系统上应用。
我们把464条数据的22个重要特征进行分类学习和预测。
首先在Matlab2OlOa下安装1ibsvm软件,根据1ibsvm要求
--——
74--——
2012年第4期
计算机光盘软件与应用
Computer CD Software and Appl i cat ions 工程技术
把数据按libsvm格式准备好,并找出参数C和g的局部最优值。
数据的抽取方式、学习样本和测试数据的数量对最后的预测 结果准确率影响较大,所以进行不同的抽取方式和比例进行实验。 下面460条数据的22个字段(特征)进行数据分析实验。 五、对不同比例的数据用寻优函数进行实验 460条数据中随机抽取学习和测试数据。Libsvm工具箱的要 求准备数据,数据归一化用Libsvm工具箱中的scaleForSVM()
函数,归一化范围[0,1]之间。Libsvm工具箱中的SVMcgForClass
()寻优函数找出合适的核函数和。
我们采用SVMcgForClass()函数
表5.1数据测试的实验结果表
采用的LibSVM 学习数据 测试数 学习和测 学习 学习样本 测试样本 全局数据预
序号 (随机抽 据(随机 试数据比 C的值 g的值 寻优函数 准确率 预测率 预测率 测率
取) 抽取) 例
l SVMcgForC1ass() 23l 229 1: 1 147.0334 1.741l 87.4459% 95.2381% 85.1528% 9O.2l74%
2 SVMcgF0rClass() 309 151 2: l 16 9.1896 86.7314% 96.4401% 83.4437% 92.1739%
3 SVMcgForC1ass() 346 114 3: 1 147.0334 0.5743 86.7052 89.0173% 86.8421% 88.4783%
4 SVMcgForC1ass() 369 91 4:l 1.7411 48.5029 88.0759 97.O190% 84.6154% 94.5652%
六、对数据分类结果的分析 由上面可以看出在对数据进行训练选择耐热性和不耐热性的 微生物的比例的时候,可以看出当二者比例为3:1的时候,所得 到的结果较为理想,由此,我们可以确定训练集的比例。但是得 到的全部数据预测率仅为86.9565%,这个预测率还不是很理想。 所以接下来要介绍的就是关于支持向量机的参数c和G的取 值优化问题。 七、支持向量机的参数c和G的取值优化 关于svm参数的优化选取,国际上并没有公认统一的最好的 方法,目前常用的方法是让C和g在一定的范围内取值,对于取 定的c和g训练集作为原始数据集利用k-cv方法得到在此组c 和g下训练验证分类准确率,最终取使得训练集验证分类准确率 最高的那组C和g作为最佳的参数。根据分析结果图,c和g的 值分别在2 1——2 10,2 7——2 7范围的学习率比较高。经 过1ibsvm的网格划分寻优sVMcgForc1ass()函数,学习率可以 使达到,85——95%,预测率最高是95.5%以上。寻找的是C和g 局部的最优值。我们用数据按顺序抽取做训练,虽然局部测试率 较高,但是对全局数据的预测率还是不高,所以我们按照以上的 C和g的值范围内用随机抽取数据的方式来进行实验。根据得到 的c和g的局部最优值,是否对全局数据适合,对总数据进行预
测,根据预测结果在判断c和g的值满足要求。以上的实验对全
局数据预测结果可以达到90%以上。
八、结论
对以上的问题可以用台湾大学林智仁(Lin Chih—Jen)等开
发设计的Libsvm工具箱中的SVMcgForClass()寻优函数找出合
适的核函数和,根据分析结果图,缩小搜索范围来找到最优值,
因此得到较高分类结果,我们从以上可以看到,首先用
sVMcgF0rC1ass()寻优函数的默认值来寻优,然后根据分析结果
图缩小范围参数来得到较好的罚参数c和核函数参数g的最优值。
参考文献:
…1白鹏,张喜斌,张斌等编著.支持向量机理论及工程应用实例
西安Ⅱ1.西安电子科技大学出版社,2008,8
【2]MMATLAB中文论坛编著,MATLAB神经网络3o个案例分
析.北京『l1_北京航空航天出版社M2010M4
[作者简介]努尔艾合买提・尕依提(1976一)维吾尔族,男,
新疆米泉人,新疆教育学院招生与就业办公室,工程师,江南大
学物联网工程学院计算机技术专业在职在读研究生。
(上接第62页)
值。因此,失效专利也是一种创新资源,辽宁省应采取必要措施
加大对其的开发利用力度。
(一)对失效专利信息进行进一步的深加工
失效专利数量庞大,内容繁杂,企业直接应用起来难度较大,
因此建议依托省直相关公益性院所(如辽宁省科学技术情报研究
所)的研究力量,对每年出版的《中国失效专利光盘数据库》和
《中国失效专利说明书全文》进行详细加工,形成失效专利信息
深加工产品,为企业利用失效专利做好铺垫。 (二)出台相关的鼓励政策 企业是失效专利发挥价值的主要载体,因此建议政府在相关 计划中适当考虑资助利用失效专利进行生产研发的项目,对于通 过失效专利的二次开发形成的新专利、新成果、新产品等,要采 取适当的奖励或免税等措施,以提高企业利用失效专利的积极性。 (三)对国外失效专利的利用要制度化、长期化 辽宁一直以来都十分注重先进技术的引进,但对国外失效专 利则缺乏关注。因此建议对国外失效专利的利用进行制度化建设, 将其作为辽宁省科技创新体系的一个有机组成部分。制度化建设 包括机构设置、法规确立、人才培养、资源库建设等一整套法律 事务和研究开发工作,是一项具有开创性的长期工作。 五、开发利用失效专利需要注意的问题 (一)法律风险 . 失效专利虽然不受法律保护,但是在实际应用中可能会产生 侵权问题,主要是因为在确定专利是否为失效专利的过程中因为 各国法律不同以及在专利权确定过程中存在的各种特殊情况造成 的 。因此在开发利用失效专利前,要进行详细的分析和调查, 必要时要咨询相关法律机构,在明确其确实为失效专利的情况下 再进行相关开发工作。 (二)市场风险 企业要在对市场前景进行充分分析的基础上选择失效专利进 行开发,同时也要结合企业自身的消化吸收能力,盲目开发失效 专利也会造成企业资源的浪费,甚至对企业的长远发展不利。 六、结论 企业是开发利用失效专利的主体,政府要在各个方面鼓励企
业的参与积极性,同时为企业创造良好的开发利用环境,使失效
专利成为辽宁省技术创新的重要资源。
参考文献:
[1】韩兵兵.失效专利应用研究.江苏大学学位论文,2010,6:9
[2】杨海.论我国企业对国外失效专利的利用.企业管理
[HI.2006,5:219—221.
【3】凌美秀,李雯.失效专利的获取与利用.高校图书馆工作【H】.
2007,2:61-64
[作者简介]
曹猛(1974.7-),男,内蒙古自治区通辽人,工学硕士,副
研究员;研究方向:科技成果转化与技术转移。
王莹(1982.3-),女,辽宁省沈阳人,农学硕士,助理研究
员;研究方向:区域科技发展战略。
孔祥瑞(1975.7一),男,辽宁省海城人,经济学硕士,助理
研究员;研究方向:区域科技创新体系建设。