当前位置:文档之家› 基于支持向量机方法的HERG钾离子通道抑制剂分类模型

基于支持向量机方法的HERG钾离子通道抑制剂分类模型

基于支持向量机方法的HERG钾离子通道抑制剂分类模型
基于支持向量机方法的HERG钾离子通道抑制剂分类模型

基于支持向量机方法的HERG 钾离子通道抑制剂分类模型

李平2

谈宁馨2饶含兵1

李泽荣1,*陈宇综3

(1四川大学化学学院,成都610065;2

四川大学化学工程学院,成都610065;

3

Department of Pharmacy,National University of Singapore,Singapore 117543)

摘要:对human ether -a -g ò-g òrelated genes(HERG)钾离子通道(钾通道)抑制剂,计算了表征分子组成、电荷分布、

拓扑、几何结构及物理化学性质等特征的1559个分子描述符,采用Fischer Score(F -Score)排序过滤和Monte Carlo 模拟退火法相结合从中筛选与HERG 钾通道抑制剂分类相关的分子描述符.采用支持向量机(SVM)方法,分别以IC 50=1.0、10.0μmol ·L -1为分类标准,建立了三个分类预测模型.对367个训练集分子,用五重交叉验证,得到正、负样本的平均预测精度分别为84.8%-96.6%、80.7%-97.7%,其总的平均预测精度为87.1%-97.2%,优于其它文献报道结果.对97个外部测试集分子,所建三个模型的总样本预测精度在67.0%-90.1%之间,接近或优于其它文献报道结果.关键词:支持向量机;HERG 钾通道抑制剂;

Monte Carlo 模拟退火法

中图分类号:O641

Classification Models for HERG Potassium Channel Inhibitors

Based on the Support Vector Machine Approach

LI Ping 2

TAN Ning -Xin 2

RAO Han -Bing 1

LI Ze -Rong 1,*

CHEN Yu -Zong 3

(1College of Chemistry,Sichuan University,Chengdu 610065,P.R.China ;2College of Chemical Engineering,Sichuan University,

Chengdu 610065,P.R.China ;3Department of Pharmacy,National University of Singapore,Singapore 117543)

Abstract :We calculated 1559molecular descriptors including constitutional,charge distribution,topological,geometrical,and physicochemical descriptors to characterize the molecular structure of human ether -a -g ò-g òrelated genes (HERG)potassium channel inhibitors.A hybrid filter/wrapper approach combing the Fischer Score (F -Score)and Monte Carlo simulated annealing was used to select molecular descriptors relevant to the discrimination of HERG potassium channel inhibitors.Three classification models with threshold values of IC 50=1.0,10.0μmol ·L -1,respectively,were built using the support vector machine (SVM)approach.Models developed from 367training set molecules were validated through 5-fold cross -validation (CV)and the average prediction accuracies were 84.8%-96.6%,80.7%-97.7%,and 87.1%-97.2%for the positive,negative,and overall samples,respectively,which showed better performance than models previously reported in literature.Overall prediction accuracies for the three models using an external test set of 97molecules were between 67.0%and 90.1%,which were close to or better than the results reported in literature.

Key Words :Support vector machine;

HEGR potassium channel inhibitor;

Monte Carlo simulated annealing

[Article]

https://www.doczj.com/doc/6f12915942.html,

物理化学学报(Wuli Huaxue Xuebao )

Acta Phys.-Chim.Sin .,2009,25(8):1581-1586

Received:February 20,2009;Revised:April 20,2009;Published on Web:June 1,2009.*

Corresponding author.Email:lizrscu@https://www.doczj.com/doc/6f12915942.html,;Tel:+86-28-85406139

鬁Editorial office of Acta Physico -Chimica Sinica

HERG 基因编码的钾离子通道存在于人类心室和心房肌细胞中,其HERG 通道编码心脏快速延迟整流钾电流I Kr ,为心肌细胞动作电位三相复极期的主要外向钾电流,在心脏动作电位复极化过程中发

挥着重要作用[1].此外,快速延迟整流钾通道(I Kr /HERG 通道)是III 类抗心律失常药物的作用靶点,被某些药物作用时,会引起长QT 间期综合征(LQTS),进而导致尖端扭转性室性心动加速(TdP,Torsade de

August 1581

Acta Phys.-Chim.Sin.,2009Vol.25

Pointes),甚至猝死[2].因此,药物通过阻滞HERG通道产生心律失常的不良反应已成为药物开发中一个必须考虑的问题.

药物从研发到上市的过程非常漫长,其中很多化合物因为药物吸收、分布、代谢、排泄及毒性(ADMET)性质不佳而被中止开发,给制药企业造成巨大的经济损失.目前很多公司运用高通量筛选的方法和虚拟ADMET预测的方法以降低药物研发后期的风险性.具有HERG阻滞活性的部分药物,其化学结构具有多样性,如能借助计算机模拟技术对新化学实体是否具有致心律失常的不良反应进行有效的预测和筛选,这将为新药的设计和研究中避免心律失常的不良反应产生指导作用.近年来,有一些关于药物对HERG钾通道抑制活性的虚拟预测方法的报道,例如定量构效关系(QSAR)[3-7]和分类方法[1,8],包括朴素贝叶斯(naive bayes)[9]、决策树(decision tree)[10]、随机森林(random forests)[11]、偏最小二乘(PLS)[11,12]和SVM[12-15]等方法.然而,这些研究大多使用结构差异性小的数据组构建的分类模型,其应用范围有限;有的模型虽用了结构差异性大的数据组,结果却不很理想.因此,为了提高模型的预测精度,拓宽模型的应用范围,有必要详细研究如何使用结构差异性大的数据组来构建分类预测模型.

1原理与方法

1.1数据收集

所研究的化合物包含两个部分:训练集和外部测试集.训练集含367个结构多样性的化合物,其实验半数抑制浓度IC50数据来自文献[3],列于附表S1(见Supporting Information,在物理化学学报网站上可免费下载).该文献共提供了371个HERG钾通道抑制剂,其中有两个(附表S1中No.277(RP58866)和No.290(terikalant)[3])化合物为旋光异构体,由于本文的分子描述符中没有包含区别旋光异构体的描述符,所以本研究仅保留了其中一个,即terikalant.另外,附表S1中145号、238号和246号化合物[3] (分别为dofetilide N-acetyl,N-demethylerythromycin, noracetylmethadone),因不清楚其结构,所以本文数据集中也没有包含这三个化合物.在分类模型的建立中,需根据化合物IC50大小将数据集中化合物分类为有活性化合物和无活性化合物.本文采用与文献[3]相同的分类标准,即IC50=1.0、10.0μmol·L-1为阈值,构造了三个分类模型:模型I,按IC50=1.0μmol·L-1为标准,有118个化合物IC50<1.0μmol·L-1,被划分为活性化合物,有249个化合物IC50≥1.0μmol·L-1,被划分为非活性化合物;模型II,按IC50= 10.0μmol·L-1为标准,有229个化合物IC50<10.0μmol·L-1,被划分为活性化合物,有135个化合物IC50≥10.0μmol·L-1,被划分为非活性化合物;模型III,同时采用IC50=1.0μmol·L-1和IC50=10.0μmol·L-1为分类标准,将IC50<1.0μmol·L-1的化合物划分为活性化合物,而将IC50>10.0μmol·L-1的化合物划分为非活性化合物,这样,数据集中有118个化合物被划分为活性化合物,132个化合物作为被划分为非活性化合物.对每一个模型,分别使用五重交叉方法进行模型验证,即将所有数据随机地分成样本数目相等(或近似相等)的五组,每次取其中的四组用于训练模型,称为训练集,剩余的一组用于测试模型的预测精度,称为测试集,如此交替反复五次,使每一组依此用作测试集.外部测试集为从文献[16-19]中收集的97个新化合物(列于附表S2,见Supporting Information),用于衡量由训练集建立模型的预测能力.

所有分子的稳定结构均用Hyperchem7.0[20]中的MM+分子力场优化得到.

1.2分子描述符

分子描述符用本小组自行编制的MODEL[21]软件计算.此软件可以计算3778个描述符,共有六类,分别为组成描述符、电荷相关描述符、物理化学性质描述符、拓扑描述符、几何描述符和量子化学描述符.为了节约计算时间和成本,本文未包含量子化学描述符.因而,对每个分子计算了1559个描述符,包括21个组成描述符、19个电荷相关描述符、2个物理化学性质描述符、471个拓扑描述符和1046个几何描述符.

1.3描述符筛选方法

由于所计算的1559个描述符并非都与分子的所研究的活性相关,且描述符之间可能存在线性相关,因此,有必要从中选择恰当的描述符子集以使所建立的模型具有最优的预测能力.本文采用一套混合描述符筛选方法来寻找最佳的描述符子集.其步骤如下.

(1)预处理.首先,如果有90%样本的同一个描述符值是相同的,而这些样本的活性又具有显著区别,显然,这个描述符对区别分子的活性无效,将它删除.其次,如果对任意一个描述符,遍及所有的样

1582

No.8李平等:基于支持向量机方法的HERG钾离子通道抑制剂分类模型

本计算该描述符的相对标准偏差,如果小于0.05,则删除该描述符.最后,如果两个描述符的Pearson相关系数[22]大于0.9,则说明这两个描述符高度相关,删除其中之一描述符.

(2)描述符排序.经过预处理后的描述符,按照Fischer Score(F-Score)[23]值递减的顺序排序.F-Score 值(F(i))是单个描述符的分辨能力的简单度量,定义为,

F(i)=(μ+i-μ-i)2

(σ+i+σ-i)2

(1)其中μ+i和μ-i分别是第i个描述符的正、负样本的平均值,σ+i和σ-i分别是它们的标准偏差.某个描述符的F-Score值越大,它的分辨能力就越强.筛选步骤如下:①计算每一个描述符的F-Score值;②将所有描述符按照F-Score值从大到小的顺序排序;③用五重交叉方法得到SVM模型平均推广误差,并优化模型参数σ,使SVM模型平均推广误差最小;

④删除最后10个描述符,回到第③步,直至推广误差最小.由此,得到按F-Score值过滤的优化描述符子集及其对应的优化σ值.

(3)Monte Carlo模拟退火算法.模拟退火算法是一种物理模拟过程,在此,运用蒙特卡洛模拟退火法(MC-SA)结合SVM,文献[24]有类似的描述.可以简要概括步骤如下:①给定高斯核函数的初值σ;

②给定模拟初始温度T;③随机选择一组描述符子集作为初始解;④用五重交叉验证计算SVM模型的平均总预测精度作为适应度函数Q old;⑤对描述符子集给一随机微扰,得到一新描述符子集,按照上述方法获得新的适应度函数Q new;⑥如果Q oldQ new,则以概率P=e-(Q old-Q new)/T接受为新描述符子集;⑦回到步骤⑤,直到达到此温度下的最大平衡步数;⑧降低模拟退火温度T,回到步骤③,直到达到最低模拟退火温度;⑨系统地调整σ值,返回步骤②,直至得到最大平均总的预测精度.由此,可得最佳描述符子集和对应的σ值,给出最终的SVM-MC模型.

1.4SVM方法

SVM是Vapnik等在20世纪90年代提出的一种学习算法,文献[25]中有详细介绍,在此仅简述.对于两类分类问题,给定一训练集{(x i,y i),i=1,2,…, n},其中y i∈{-1,+1},表示任一样本x i的分类标识,如果训练集是线性可分的,SVM就是寻求超平面,

f(x)=w·x+b=0(2)其中,“·”是点积,w是n维向量,b为偏移量.使正样本(y i=+1)和负样本(y i=-1)可分,且使其边界上的点到该超平面的距离最大.这可以转化为以下条件w·x i+b≥+1(y i=+1)和w·x i+b≤-1(y i=-1)(3)

限制下求函数ψ(w,b)=1

2

||w||2的最小值.Lagrange 乘数法可得解

w=

i

Σαi y i x i(4)

αi是Lagrange乘子,(4)式满足限制条件

i

Σαi y i=0,并有最优分类决策函数

f(x)=sgn(w·x+b)=sgn

i

Σαi y i(x i·x)+

ΣΣb(5)

式(5)中sgn为符号函数.由于很多两类情形并非线性可分,为此,SVM将样本点x通过函数准(x)投影到高维空间以使其线性可分.但SVM并非直接引入准(x),而是通过核函数K(x i,x)方法间接引入的: K(x i,x)=准(x i)·准(x)(6)其分类决策函数变为:

f(x)=sgn

i

Σαi y i K(x i,x)+

ΣΣb(7)

核函数K(x i,x)可以有多种形式,本文使用Gaussian 核函数,即

K(x i,x)=exp-||x i-x||2/2σ

ΣΣ

2(8) SVM模型参数σ的选择是通过最小化推广误差进行的.

1.5结果评价

采用广泛使用的预测正确率[26]来评估分类模型的预测能力,模型的敏感性SE=TP/(TP+FN)用于评估正样本的预测正确率,专一性SP=TN/(TN+FP)用于评估负样本的预测正确率,Q用于评估总样本的预测正确率,表达式如下:

Q=TP+TN(9)其中,TP、TN、FP、FN分别代表预测正确的正样本数、预测正确的负样本数、预测错误的正样本数以及预测错误的负样本数.

2结果与讨论

2.1SVM模型的预测结果

根据不同的分类标准,分别建立了模型I、模型

1583

Acta Phys.-Chim.Sin.,2009

Vol.25

II 和模型III 三个模型.首先对每个分子计算了1559个描述符以表征其结构.然后,经预处理、过滤筛选和模拟退火筛选,分别建立分类模型.变量筛选对模型预测精度的影响列于表1,最终筛选出的描述符列于附表S3(见Supporting Information).从表1可见,经预处理后,三个模型的描述符的数目分别从1559个减小到633、631和617个.结果表明:在最初计算的1559个描述符中,大量描述符信息含量低或与其它描述符高度相关,经预处理即可去掉.经过预处理,用五重交叉验证得到的三个模型,正样本的平均预测正确率分别为63.7%、84.7%、84.8%,负样本的平均预测正确率分别为88.3%、63.0%、84.0%,总的预测正确率分别为80.4%、76.6%、84.4%.经过描述符按F -Score 排序并过滤后,模型I 、II 、III 的描述符数目分别由633个减少到118个,631个减少到95个,617个减少到166个.正样本的预测正确率分别为72.9%、83.0%、89.9%;负样本的预测正确率分别为88.8%、72.6%、92.4%,总的预测正确率为83.7%、79.1%和91.2%.可见无论正、负样本预测正确率,还是总样本预测正确率都有所提高.结果表明,排序过程在描述符的选择中起了重要的作用,能大大减少描述符的数目,有利于提高模型建立的效

率.然而,描述符的数目仍然很大,因此,采用Monte Carlo 模拟退火法进一步筛选描述符,最终模型I 、II 、III 的描述符数目分别分为42、25、40个,这三个模型的正样本的预测正确率分别为84.8%、90.8%、96.6%,负样本的预测正确率分别为92.8%、80.7%、97.7%,总样本的预测正确率分别是90.2%、87.1%、97.2%.研究结果表明,变量选择在简化模型的同时明显地提高了各模型的预测精度,最后的SVM -MC 模型具有良好的预测能力.对模型I 、II 、III 其五重交叉验证平均预测精度对正样本在84.8%-96.6%范围,负样本在80.7%-97.7%范围,总样本在87.1%-97.2%范围.而且,值得注意的是,模型III 具有优良的预测能力,其正、负样本的预测精度分别为96.6%和97.7%,优于其它文献报道的最好结果[3].

同时,从这三个模型的所有化合物及所筛选的分子描述符出发,并固定以上交叉验证优化得到的模型参数σ,分别建立模型,并计算含97个化合物的外部测试集的预测精度,得到三个训练模型总的预测精度分别为67.0%、85.5%、90.1%.模型I 结果接近文献[14]结果,而模型II 、III 结果明显优于文献[14]结果.

2.2与文献报道结果[3,14]比较

表1变量筛选对SVM 性能的影响

Table 1

Effect of feature selection on the performance of SVM

a)step 1:preprocessing,step 2:ranking and backward selection,step 3:Monte Carlo simulated annealing;b)optimized values for the exponent of the Gaussian kernel of SVM;c)CV set:cross -validation set;

d)SE:sensitivity;e)SP:specificity;f)Q :overall prediction accuracy

Step a Number of descriptor(σb )CV set c

Prediction accuracy

SE d (%)SP e (%)Q f (%)I

II

III

I

II III I II III I II III 1

633(19.0)631(13.0)617(20.0)

175.087.091.792.074.188.986.582.290.2258.389.179.294.063.096.382.479.588.2345.887.075.092.066.780.877.079.578.0469.674.087.080.063.073.176.769.979.6569.686.791.383.748.280.879.272.285.7average

63.784.784.888.363.084.080.476.684.42118(8.5)95(8.5)166(10.0)179.289.1100.094.074.192.689.283.696.1275.080.483.386.070.4100.082.476.792.2362.584.875.090.085.288.581.184.982.0469.678.395.780.077.892.376.778.193.9578.382.295.793.955.688.588.972.291.8average

72.983.089.988.872.692.483.779.191.2342(6.0)25(3.5)40(9.0)187.593.595.896.085.2100.093.290.498.0287.587.095.890.081.596.389.284.996.1370.893.595.896.081.5100.087.889.098.0482.689.195.786.085.2100.084.987.798.05

95.7

91.1

100.0

95.9

70.4

92.3

95.8

83.3

95.9average 84.890.896.692.880.797.790.287.1

97.2

1584

No.8

李平等:基于支持向量机方法的HERG 钾离子通道抑制剂分类模型

将本文建立的SVM -MC 模型,与文献报道的

采用其它机器学习方法建立的模型所得的预测结果进行比较,有助于检测本研究的模型精度是否与其它模型的精度处于相似的水平.但是,值得注意的是,由于使用不同的样本、分子描述符、分类方法和参数以及验证的方法,将不同模型的预测结果进行直接比较是不恰当的.无论如何,可以进行尝试性比较,以便对HERG 钾通道抑制剂预测精度的大致水平,进行粗略的评价.本研究结果与文献结果[3,14]比较列于表2.由表2可知,本研究的SVM -MC 模型的预测结果无论是交叉验证结果还是外部测试结果,都接近或优于文献[3,14]报道结果,尤其是模型III,明显优于文献[3,14]报道的结果.因此,本研究的SVM -MC 模型有助于HERG 钾通道抑制剂先导化合物的筛选.

3结论

在一个差异性较大的HERG 钾通道抑制剂数据集的基础上,从一个大的分子描述符集合出发,经描

述符的预处理、按F -Score 排序过滤和Monte Carlo 模拟退火法的筛选,建立了按不同IC 50为分类标准的分类预测模型.结果表明,在去除多余的描述符和提高SVM 模型的预测能力方面,本文所提出的描述符选择方法是很有效的,在简化模型的同时模型的预测能力可显著提高.通过本研究建立的SVM -MC 模型与文献报道结果比较表明,SVM -MC 模型用于预测化合物的HERG 钾通道抑制活性有较好的预测能力,从而可用于从化合物数据库进行虚拟筛选,有助于发现潜在的HERG 钾通道抑制剂.总之,采用SVM 构建了较高精度的HERG 钾通道抑

制剂鉴别模型.

Supporting Information Available:

Table S1listed 367

HERG potassium channel inhibitors in the training set with their experimental HERG IC 50value (μmol ·L -1),therapeutic area,and cell line.Table S2listed 97compounds in the external testing set with their experimental HERG IC 50value (μmol ·L -1).The selected molecular descriptors by the three models were listed in Table S3.Table S4listed 1559molecular descriptors.This information is available free of charge via the internet at https://www.doczj.com/doc/6f12915942.html,.

References

1Roche,O.;Trube,G.;Zuegge,J.;Pflimlin,P.;Alanine,A.;Schneider,G.ChemBioChem ,2002,3:455

2Trudeau,M.C.;Warmke,J.W.;Ganetzky,B.;Robertson,G.A.Science ,1995,269:92

3Thai,K.M.;Ecker,G.F.Bioorg.Med.Chem .,2008,16:41074

Cianchetta,G.;Li,Y.;Kang,J.;Rampe,D.;Fravolini,A.;Cruciani,G.;Vaz,R.J.Bioorg.Med.Chem.Lett .,2005,15:36375

Coi,A.;Massarelli,I.;Murgia,L.;Saraceno,M.;Calderone,V.;Bianucci,A.M.Bioorg.Med.Chem .,2006,14:3153

6Aptula,A.O.;Cronin,M.T.SAR QSAR Environ.Res .,2004,15:399

7Keseru,G.M.Bioorg.Med.Chem.Lett .,2003,13:27738Chen,X.;Li,H.;Yap,C.W.;Ung,C.Y.;Jiang,L.;Cao,Z.W.;Li,Y.X.;Chen,Y.Z.Cardiovasc.Hematol.Agents Med.Chem .,2007,5:11

9Sun,H.M.ChemMedChem ,2006,1:315

10Gepp,M.M.;Hutter,M.C.Bioorg.Med.Chem .,2006,14:532511

Gavaghan,C.L.;Arnby,C.H.;Blomberg,N.;Strandlund,G.;Boyer,https://www.doczj.com/doc/6f12915942.html,put.Aided Mol.Des .,2007,21:18912Song,M.;Clark,M.J.Chem.Inf.Model .,2006,46:39213Yap,C.W.;Cai,C.Z.;Xue,Y.;Chen,Y.Z.Toxicol.Sci .,2004,

79:17014

Tobita,M.;Nishikawa,T.;Nagashima,R.Bioorg.Med.Chem.

a)10-fold cross -validation;b)LOO cross -validation;c)5-fold cross -validation;d)TdP -and non -TdP -causing agent,unavailable IC 50values;e)result for compounds with IC 50<1.0μmol ·L -1and IC 50>10.0μmol ·L -1only

表2文献[3,14]和本文中HERG 抑制剂分类模型的预测精度比较

Table 2Comparison of the prediction accuracies of different classification models for HERG

inhibitors from literature [3,14]and this work

Study Method Threshold (μmol ·L -1)Training set

External testing Compd.SE(%)SP(%)Q (%)Compd.Q (%)Ref.[14]SVM 40.07397.087.095.0a 827d 67.0-78.01.07386.093.090.0a

827d

67.0-78.0Ref.[3]

Bayes

1.022370.093.085.0b

5884.010.0

22390.068.083.0b 5878.0active(<1.0),inactive(>10.0)

15095.080.087.0b,e

5886.0this work SVM -MC 1.036784.892.890.2c

9667.010.0

36490.880.787.1

c

9785.5active(<1.0),inactive(>10.0)

250

96.6

97.7

97.2c,e

71

90.1

1585

Acta Phys.-Chim.Sin.,2009Vol.25

Lett.,2005,15:2886

15Leong,M.K.Chem.Res.Toxicol.,2007,20:217

16Duncton,M.A.J.;Chekler,E.L.P.;Katoch-Rouse,R.;Sherman,

D.;Wong,W.C.;Smith,L.M.;Kawakami,J.K.;Kiselyov,A.S.;

Milligan,D.L.;Balagtas,C.;Hadari,Y.R.;Wang,Y.;Patel,S.N.;

Rolster,R.L.;Tonra,J.R.;Surguladze,D.;Mitelman,S.;Kussie,

P.;Bohlen,P.;Doody,J.F.Bioorg.Med.Chem.,2009,17:731

17Kawai,M.;Ando,K.;Matsumoto,Y.;Sakurada,I.;Hirota,M.;

Nakamura,H.;Ohta,A.;Sudo,M.;Hattori,K.;Takashima,T.;

Hizue,M.;Watanabe,S.;Fujita,I.;Mizutani,M.;Kawamura,M.

Bioorg.Med.Chem.Lett.,2007,17:5558

18Berglund,S.;Egner,B.J.;Gradén,H.;Gradén,J.;Morgan,D.G.

A.;Inghardt,T.;Giordanetto,F.Bioorg.Med.Chem.Lett.,2008,

18:4859

19Guay,D.;Boulet,L.;Friesen,R.W.;Girard,M.;Hamel,P.;Huang, Z.;Laliberté,F.;Laliberté,S.;Mancini,J.A.;Muise,E.;Pon,D.;

Styhler,A.Bioorg.Med.Chem.Lett.,2008,18:5554

20Hyperchem release7.0(Beta1.04),software available at http:// https://www.doczj.com/doc/6f12915942.html,

21Li,Z.R.;Han,L.Y.;Xue,Y.;Yap,C.W.;Li,H.;Jiang,L.;Chen, Y.Z.Biotechnol.Bioeng.,2007,97:389

22Yang,C.W.;Su,J.Y.;Tsou,A.P.;Chau,G.Y.;Liu,H.L.;Chen,

C.H.;Chien,C.Y.;Chou,https://www.doczj.com/doc/6f12915942.html,mun.,

2005,330:489

23Fisher,R.A.Annals of Eugenics,1936,7:179

24Ajmani,S.;Jadhav,K.;Kulkarni,S.A.J.Chem.Inf.Model.,2006, 46:24

25Czerminski,R.;Yasri,A.;Hartsourgh,D.Quant.Struct.-Act.

Relat.,2001,20:227

26Bhasin,M.;Zhang,H.;Reinherz,E.L.;Reche,P.A.FEBS Lett., 2005,579:4302

1586

支持向量机分类器

支持向量机分类器 1 支持向量机的提出与发展 支持向量机( SVM, support vector machine )是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学习问题的新工具,最初由V.Vapnik 等人在1995年首先提出,近几年来在其理论研究和算法实现等方面都取得了很大的进展,开始成为克服“维数灾难”和过学习等困难的强有力的手段,它的理论基础和实现途径的基本框架都已形成。 根据Vapnik & Chervonenkis的统计学习理论 ,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化 ( SRM,structural risk minimization)原则,而不是经验风险最小化原则,通俗地说就是应当使错误概率的上界最小化。SVM正是这一理论的具体实现。与传统的人工神经网络相比, 它不仅结构简单,而且泛化( generalization)能力明显提高。 2 问题描述 2.1问题引入 假设有分布在Rd空间中的数据,我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧,而属于另一类的数据均在超平面的另一侧。如下图。 比较上图,我们可以发现左图所找出的超平面(虚线),其两平行且与两类数据相切的超平面(实线)之间的距离较近,而右图则具有较大的间隔。而由于我们希望可以找出将两类数据分得较开的超平面,因此右图所找出的是比较好的超平面。 可以将问题简述如下: 设训练的样本输入为xi,i=1,…,l,对应的期望输出为yi∈{+1,-1},其中+1和-1分别代表两类的类别标识,假定分类面方程为ω﹒x+b=0。为使分类面对所有样本正确分类并且具备分类间隔,就要求它满足以下约束条件: 它追求的不仅仅是得到一个能将两类样本分开的分类面,而是要得到一个最优的分类面。 2.2 问题的数学抽象 将上述问题抽象为: 根据给定的训练集

植物钾的吸收与调节(综述)

河北科技师范学院 本科毕业论文文献综述植物钾的吸收与调节 院(系、部)名称:生命科技学院 专业名称:农业资源与环境 学生姓名:高丹 学生学号:0114070105 指导教师:刘微 2010年 5 月 25 日 河北科技师范学院教务处制

摘要 钾是植物生长发育所必需的矿质元素之一。钾吸收调控在生理学及分子生物学方面已取得了很多研究成果,综述了近年来钾素的吸收、影响因素及其调控三个方面的研究进展。 关键词:钾;吸收;影响因素;调节 钾是植物生长发育所必须的矿质营养元素之一,钾离子广泛分布于植物各组织器官中,是植物体内含量最丰富的一价阳离子。钾元素在植物生长过程中起着非常重要的作用,它参与植物生长发育中许多重要的生理生化过程。钾在植物体内无有机化合物,主要以离子形态和可溶性盐存在,或者吸附在原生质表面上。植物体内钾离子浓度往往比其它离子高,而且远远高于外界环境中的有效钾浓度[1]。全世界130 亿公顷土壤中,受到养分胁迫的占22.5%,仅有10.1%是无胁迫或轻度胁迫的土壤,其中在养分胁迫中约有40%的土壤缺钾[2]。中国1/3 左右耕地缺钾或严重缺钾,在热带和亚热带地区土壤缺钾现象尤为严重[3]。而钾作为品质元素,对于提高作物产量、改善作物品质起着非常重要的作用。近几年来,钾肥价格飙升,从而使土壤缺钾成为制约中国农业生产的严重问题之一。 1 K+的生理功能 K+是植物细胞中含量最丰富的阳离子之一,对生物体具有重要的生理功能。土壤中增施钾肥能显著影响树体的生长,增加植物组织中K+ 含量,对生长的影响系数为0. 709 ,对树体整体影响系数为0. 56[4]。K+ 能促进细胞内酶的活性。细胞内有50 多种酶或完全依赖于K+ ,或受K+ 的激活,如丙酮酸激酶、谷胺合成酶、62磷酸果糖激酶等都能被K+ 激活[5]。K+ 对酶的激活同其他一价阳离子一样都是通过诱导酶构象的改变,使酶得以活化,从而提高催化反应的速率,在某些情况下K+ 能增加酶对底物的亲和力,K+ 对膜结合A TP酶也有激活作用,K+ 可能参与tRNA 与核糖体结合过程中的几个步骤,参与蛋白质的合成[6]。K+ 在细胞内外不同浓度的分布是形成细胞跨膜电势的一个重要原因。作为植物细胞中最丰富的阳离子,K+ 是平衡负电荷的主要阳离子因而对阴离子(如NO-3 、苹果酸根等)的长距离运输也十分重要[7]。K+ 能调节植物体的许多生理功能,如增强植物光合作用,增强植株体内物质合成和转运,提高能量代谢等。在非盐生植物中,K+ 在细胞的渗透调节中起着重要作用,如气孔保卫细胞中的K+ 与相伴随的阴离子浓度变化是引起气孔运动的主要原因[8]。 酚类物质与植物病害的关系密切,近年来国内外的研究十分活跃。酚类物质是植物重要的次生代谢物质,参与许多生理过程如氧化还原反应、木质化形成、刺激反应和对毒素活性的反应等[9]。酚类物质中的肉桂酸、香豆素、咖啡酸、阿魏酸、绿原酸等单元酚都

支持向量机模型的研究与设计

百度文库- 让每个人平等地提升自我 支持向量机实验模型的研究与设计 用户手册 1.简介 本模型是基于SVM(即支持向量机)的机器学习模型,能够将线性可分的和非线性可分的两种情况下的两类数据集进行分类,并对分类结果进行分析。用户可以选择装载已有的数据进行分类,也可以手动创建两类数据集进行分类。用户根据要分类的数据集,从两个训练算法中选择适当的训练算法,并且从三个核函数中选择适当的核函数对数据集进行分类。 2.系统要求 操作系统方面:Windows 98,Windows NT,Windows ME,Windows 2000, Windows XP及Windows 2003系统; 应用软件方面:必须安装MATLAB 或以上版本 3.使用说明 (1)首先运行或者文件,进入模型主界面,如下图: 用户在进入实验前必须先按“设置路径”按钮设置路径,然后就可以通过“进入支持向量机模型”按钮进入模型。

百度文库- 让每个人平等地提升自我(2)进入支持向量机机器学习模型后,界面如下图:用户可以通过各个按钮对模型进行操作 (3)装载或创建数据 a.通过“装载数据”按钮装载数据,用户选择数据所在的文件 b.通过“创建数据”按钮创建数据

百度文库- 让每个人平等地提升自我 可以创建线性可分数据集如下: 可以创建非线性可分数据集如下: C.装载数据或创建数据后的界面上显示数据点,如下图:

百度文库- 让每个人平等地提升自我 (4)通过“训练SVM”按钮对数据集进行分类 在此仅介绍了对线性可分数据集分类的情况,对其他的数据集,操作也跟如下类似。在数据集线性可分情况下,使用不同算法的分类结果: 选择SMO训练算法和Linear核函数的分类结果: (5)通过“重新设置”按钮,重新选择SMO训练算法和Polynomial核函数的分类结果

(数学建模教材)31第三十一章支持向量机

第三十一章 支持向量机 支持向量机是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学习问 题的新工具,最初由 V.Vapnik 等人提出,近几年来在其理论研究和算法实现等方面都 取得了很大的进展,开始成为克服“维数灾难”和过学习等困难的强有力的手段,它的 理论基础和实现途径的基本框架都已形成。 §1 支持向量分类机的基本原理 根据给定的训练集 l T = {(x 1,y 1 ), (x 2 ,y 2 ),L ,(x l ,y l )}∈ ( X ? Y ) , 其中 x ∈ X = R n , X 称为输入空间,输入空间中的每一个点 x 由 n 个属性特征组成, i i n y i ∈Y = {-1,1},i = 1,L ,l 。寻找 R 上的一个实值函数 g (x ) ,以便用分类函数 f (x ) = sgn( g (x )), 推断任意一个模式 x 相对应的 y 值的问题为分类问题。 1.1 线性可分支持向量分类机 考虑训练集 T ,若 ?ω ∈ R n , b ∈ R 和正数 ε ,使得对所有使 y = 1 的下标 i 有 i (ω ? x i ) + b ≥ ε(这里 (ω ? x i ) 表示向量 ω 和 x i 的内积),而对所有使 y i = -1 的下标 i 有 (ω ? x i ) + b ≤ -ε ,则称训练集 T 线性可分,称相应的分类问题是线性可分的。 记两 类样本集分别为 M = {x i | y i = 1, x i ∈T }, M = {x i | y i = -1, x i ∈T }。定义 M + 的凸包 conv(M + ) 为 + - ? N + N + ? conv(M + ) = ?x = ∑λ x | ∑ λ λ ≥ 0, j = 1,L , N + ; x ∈ M + ←, = 1, j j j j j ? ↑ j =1 j =1 M - 的凸包 conv(M - ) 为 ? N - N - ? conv(M - ) = ?x = ∑λ x | ∑λ λ ≥ 0, j = 1,L , N - ; x ∈ M - ←. = 1, j j j j j ? ↑ j =1 j =1 其中 N + 表示 + 1 类样本集中样本点的个数, N - 表示 - 1类样本集中样本点的个数,定 理 1 给出了训练集 T 线性可分与两类样本集凸包之间的关系。 定理 1 训练集 T 线性可分的充要条件是, T 的两类样本集 M + 和 M - 的凸包相 离。如下图所示 图 1 训练集 T 线性可分时两类样本点集的凸包 证明:①必要性 -762-

支持向量机数据分类预测

支持向量机数据分类预测 一、题目——意大利葡萄酒种类识别 Wine数据来源为UCI数据库,记录同一区域三种品种葡萄酒的化学成分,数据有178个样本,每个样本含有13个特征分量。50%做为训练集,50%做为测试集。 二、模型建立 模型的建立首先需要从原始数据里把训练集和测试集提取出来,然后进行一定的预处理,必要时进行特征提取,之后用训练集对SVM进行训练,再用得到的模型来预测试集的分类。 三、Matlab实现 3.1 选定训练集和测试集 在178个样本集中,将每个类分成两组,重新组合数据,一部分作为训练集,一部分作为测试集。 % 载入测试数据wine,其中包含的数据为classnumber = 3,wine:178*13的矩阵,wine_labes:178*1的列向量 load chapter12_wine.mat; % 选定训练集和测试集 % 将第一类的1-30,第二类的60-95,第三类的131-153做为训练集 train_wine = [wine(1:30,:);wine(60:95,:);wine(131:153,:)]; % 相应的训练集的标签也要分离出来 train_wine_labels = [wine_labels(1:30);wine_labels(60:95);wine_labels(131:153)]; % 将第一类的31-59,第二类的96-130,第三类的154-178做为测试集 test_wine = [wine(31:59,:);wine(96:130,:);wine(154:178,:)]; % 相应的测试集的标签也要分离出来 test_wine_labels = [wine_labels(31:59);wine_labels(96:130);wine_labels(154:178)]; 3.2数据预处理 对数据进行归一化: %% 数据预处理 % 数据预处理,将训练集和测试集归一化到[0,1]区间 [mtrain,ntrain] = size(train_wine); [mtest,ntest] = size(test_wine); dataset = [train_wine;test_wine]; % mapminmax为MATLAB自带的归一化函数 [dataset_scale,ps] = mapminmax(dataset',0,1); dataset_scale = dataset_scale';

离子通道研究进展

离子通道研究进展 陆亚宇(江苏教育学院生物系) 指导老师:戴谷(江苏教育学院生物系) 摘要:随着对离子通道研究的逐步深入, 各种研究方法都暴露出一定的局限性. 目前, 对于离子通道的研究工作进入了一个新阶段,即对不同方法的综合应用阶段,这不仅有助于人们在分子水平上认识离子通道的结构和功能的关系,也为不同领域的科学家提供了更多的合作机会.首先介绍了离子通道理论及实验研究方法, 并分析了各种研究方法综合应用的必要性,展望了这一领域的发展前景及其所面临的挑战性问题.并介绍最新的全自动膜片钳技术及其最新进展,它具有直接性、高信息量及高精确性的特点。近来在多个方面作出新的突破,如高的实验通量表现,较高的自动化程度、良好的封接质量、微量加样等。目前,该技术在以离子通道为靶标的药物研发,药物毒理测试以及虚拟药筛等方面有广阔的应用前景。全文对全自动膜片钳仪器的原理和技术细节作简单介绍。并简单介绍最新的关于K+通道在烟草中的发现,并对利用现代生物技术手段提高烟叶含钾量进行了展望。 关键字:离子通道; 实验方法; 全自动膜片钳;钾离子通道 前言: 细胞是通过细胞膜与外界隔离的,在细胞膜上 有很多种离子通道(如右图),细胞通过这些 通道与外界进行离子交换。离子通道在许多细 胞活动中都起关键作用,它是生物电活动的基 础,在细胞内和细胞间信号传递中起着重要作 用。随着基因组测序工作的完成,更多的离子 通道基因被鉴定出来,离子通道基因约占 1 . 5% ,至少有400个基因编码离子通道。相应的 由于离子通道功能改变所引起的中枢及外周疾 病也越来越受到重视。 离子通道的实验研究最初主要来源于生理学实 验。1949~1952年, Hodgkin等发展的“电压钳 技术” 为离子通透性的研究提供技术条件。60 年代中期,一些特异性通道抑制剂的发现为离 子通道的研究提供有力武器。1976年Neher和 Sakmann发展的膜片钳技术直接记录离子单通 道电流,为从分子水平上研究离子通道提供直 接手段。80年代中期,生化技术的进步,分子生物学以及基因重组技术的发展,使人们能够分离纯化许多不同的通道蛋白,直接研究离子通道的结构与功能关系。 通道结构和功能的研究日益成为电生理学、分子生物学、生物化学、物理学等多学科交叉的热点问题.对离子通道进行研究,传统的实验方法是电压钳技术、膜片钳技术等电生理学研究方法[; 传统的理论方法主要包括PNP模型和布朗动力学模型, 伴随计算机技术的迅猛发展和X 射线晶体衍射图谱技术在离子通道研究中的应用, 以及Mackinnon 等用X 射线晶体衍射技术成功解析出多个高分辨率离子通道三维空间结构,使得人们得以使用分子动力学模拟和量子化学计算等模拟在分子水平认识离子通道结构和功能的关系;随着分子生物学快速发展,又出现了定点突变技术、人工膜离子通道重建技术等实验技术手段本文中,笔者将

用于分类的支持向量机

文章编号:100228743(2004)0320075204 用于分类的支持向量机 黄发良,钟 智Ξ (1.广西师范大学计算机系,广西桂林541000;  2.广西师范学院数学与计算机科学系,广西南宁530001) 摘 要:支持向量机是20世纪90年代中期发展起来的机器学习技术,建立在结构风险最小化原理之上的支持向量机以其独有的优点吸引着广大研究者,该文着重于用于分类的支持向量机,对其基本原理与主要的训练算法进行介绍,并对其用途作了一定的探索. 关键词:支持向量机;机器学习;分类 中图分类号:TP181 文献标识码:A 支持向量机S VM (Support Vector Machine )是AT&T Bell 实验室的V.Vapnik 提出的针对分类和回归问题的统计学习理论.由于S VM 方法具有许多引人注目的优点和有前途的实验性能,越来越受重视,该技术已成为机器学习研究领域中的热点,并取得很理想的效果,如人脸识别、手写体数字识别和网页分类等. S VM 的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界. 1 基本原理 支持向量机理论最初来源于数据分类问题的处理,S VM 就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin 尽可能最大. 设输入模式集合{x i }∈R n 由两类点组成,如果x i 属于第1类,则y i =1,如果x i 属于第2类,则y i =-1,那么有训练样本集合{x i ,y i },i =1,2,3,…,n ,支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来,通常分为两类情况来讨论,(1)线性可分,(2)线性不可分. 1.1 线性可分情况 在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为: w ?x +b =0(1) 其中,“?”是点积,w 是n 维向量,b 为偏移量. 最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面.最优超平面可以通过解下面的二次优化问题来获得: min <(w )= 12‖w ‖2(2) Ξ收稿日期:2004202206作者简介:黄发良(1975-),男,湖南永州人,硕士研究生;研究方向:数据挖掘、web 信息检索. 2004年9月 广西师范学院学报(自然科学版)Sep.2004 第21卷第3期 Journal of G u angxi T eachers Education U niversity(N atural Science Edition) V ol.21N o.3

ATP敏感性钾通道

摘要: ATP敏感性钾通道(ATP-sensitive potassium channel,KATP)于1983年由Noma首先在豚鼠的心肌细胞上发现,其特征是通道活性随胞内ATP浓度升高而被显著抑制。KATP通道现已证明多种组织细胞包括人的心肌细胞存在该通道,尤其在心肌缺血、室性心动过速、心衰的情况下,是重要的心脏保护因子,对于指导临床药物治疗、靶点的选择上具有重要的指导价值,本文将具体阐述KATP在心肌中的分布及生理功能。 关键词:ATP敏感性钾通道;电生理特性;生理功能 分子生物学研究表明,K ATP通道是两个亚基构成的复合体,即内向整流钾通道(inwardl y-rectifying potassium channel,Kir)和ATP结台蛋白超家族成员磺酰脲类受体(sultfo nylurea receptor,SUR), Kir亚基有Kir6.1和Kir6.2,形成通道的离子孔道;SUR 又分为SUR1和SUR2(SUR2A,SUR2B),调节K ATP的功能及药物和ATP对通道的敏感性。不同的K ir亚基和SUR亚基相互结合,形成了不同组织K ATP分子结构的多样性,而分子结构的不同又决定了不同组织K ATP功能特征的复杂性。日前认为,心肌细胞K ATP是由Kir6.2和SUR2A组成;胰腺口细胞K ATP由Kir6.2和SUR1组成;血管平滑肌K ATP由Kir6.1和SUR2B组成。但P u等[1]敲除小鼠心肌细胞SUR2亚基上的NBD1区即格列苯脲的作用位点,仍能用免疫组织化学、共沉淀和PCR技术证实存在NBD2和格列苯脲敏感的K+通道,这说明心肌细胞膜上的K A TP通道有不同的种类组合。K ATP的功能取决于SUR和Kir亚基的分子连接方式。 1 K ATP的分布及电生理特性 Morrissey等[2]研究鼠心脏K ATP通道每个亚基的分布,结果发现Kir6.1 在心室肌细胞,冠状动脉平滑肌和内皮细胞中有表达,内皮毛细血管中也有Kir6.1 蛋白表达。 Kir6.2 主要在心室肌和内皮细胞中表达,而平滑肌细胞中没有表达。SUR1 在心室肌细胞表面强表达(但是冠脉系统中无表达), 而SUR2 主要在心肌和冠状动脉血管(主要是小血管)表达。在离体心室肌细胞T管中Kir6.2 和SUR2 共表达,在肌纤维上Kir6.1 和 SUR1亚基强表达。Singh等[3]通过共聚焦显微镜和亚细胞结构分离的方法亦发现Kir6.2 and SUR2A 大都分布在心肌上,大多数Kir6.1分布在细胞内,从而推断心肌K ATP是Kir6.2/SUR2A组成的低聚体。在T管内是SUR2B占优势。尽管Kir6.0亚基不在个别横纹肌表达,作者推断T小管类似心肌K ATP由Kir6.2/SUR2B组成,至今认为Kir6.2是心肌KATP的主要成分,Kir6.0亚基和相对含量较少的Kir6.1亚基在个别膜表面分布。 K ATP的主要特性有:①与细胞膜内、外K+浓度密切相关。K ATP通道对K+有高度的选择性通透作用,而对Na+的通透性极低。在心肌细胞膜,当电位为0,膜内、外K+浓度差为140 mmol·L-1时,K ATP单通道电导为80S。在血管平滑肌细胞膜内K+浓度为120 mmol·L-1,膜外为60 mmol·L-1时,K ATP单通道电导为130 s,高于心肌细胞。②通道的活性受细胞内的A TP浓度调节。与电压依赖型的钾离子通道不同,K ATP通道不受细胞膜电压的调节。③ K ATP通道受G蛋白的调节。激活细胞内的G蛋白,可以拮抗ATP对通道的抑制作用,使K ATP通道开放。 2 K ATP 的生理功能 2.1 心肌缺血的保护因子 在正常心脏组织中,K ATP通道由于细胞内高浓度ATP而处于抑制关闭状态,并不参与动作电位的形成和兴奋收缩偶联,在缺血的情况下([ATP]i 较低时)K ATP开放,缩短动作电位时程,K+外流,加速复极,使动作电位平台期缩短,电压依赖型钙离子通道活性下降,Ca2

hERG K+通道电流和药理学特性(Molecular Devices)

应用文献 IonFlux system 应用之一: hERG K +通道电流和药理学特性 简介 HERG (human ether-a go-go-related gene) K + 通道在心脏中高表达,是心肌动作电位三期快速复极化电流(IK r )的主要组成部分(Curran ‘95; Sanguinetti ‘95)。hERG 突变引起的功能缺失常伴随一些遗传性长QT 综合症(LQTS) 并且会增加发生严重的室性心律失常, 扭转性实行心动过速 (Tanaka ‘97; Moss ‘02)的风险。HERG 钾离子通道被作用于心脏或非作用于心脏的药物抑制,都被证实有非常大的可能性出现获得性药物诱导的长QT 综合症(LQTS),甚至导致猝死(V andenberg, Walker & Campbell ‘01)。实际上,hERG 钾离子通道被抑制引起的副作用是近年来药物撤市的主要原因,因而药物作用于外源性表达于哺乳动物细胞的hERG 通道的体外效应评价已被 国际药品注册协调会议(International Conference on Harmonization )推荐作为临床前安全性评价工作的一部分(ICHS7B Expert Working Group, ‘02)。 hERG 钾离子通道药物效应评价的金标准方法是手动膜片钳记录。然而,这种低通量、高成本的方法在大量的安全性筛选实验中非常受限制。近年来,全自动膜片钳技术发展越来越成熟,可以获得高通量的、可与手动膜片钳记录结果相媲美的数据。IonFlux? 系统结合了读板机的便捷和传统膜片钳技术的优秀性能。本文主要利用IonFlux 系统记录了在哺乳细胞中表达的hERG 电流以及一些阳性抑制剂对hERG 阻断效应的药理学特性分析。 材料和方法 细胞 实验中使用G418筛选的稳定表达hERG 通道的CHO 细胞(Millipore PrecisION? hERG-CHO Recombinant Cell Line, Cat# CYL3038)。细胞培养在含10%胎牛血清的Glutamax DMEM/F12 培养基 (Gibco, Cat# 11320) ,加有1% 青霉素-链霉素以及500 μg/mL G418。实验前至少提前24小时将细胞转移至30℃培养箱中,或传代后一直放置在30℃培养箱中。细胞密度不能超过90%。收集细胞时,使用Detachin (Genlantis, San Diego, CA, Cat# T100100)消化细胞,冲洗并轻柔吹打,最后细胞悬浮在细胞外液中,浓度为每毫升2-5百万个细胞。 溶液和化合物 细胞外液成分(ECS )含有(mM ):NaCl 145, KCl 4, MgCl 2 1, CaCl 2 2, HEPES 10, 葡萄糖 10,用NaOH 调pH 至7.4 。细胞内液成分(ICS )含有(mM ):KCl 120, HEPES 10, Na 2ATP 4, EGTA 10, CaCl 2 5.374, MgCl 2 1.75,用KOH 调pH 至7.2。 hERG 抑制剂购自Sigma 。化合物第一步全部溶于DMSO 中,制成高浓度的母液(10-50 mM ),然后按照浓度梯度和最终外液中的终浓度的倍数关系进行下一步的稀释,因而最终相应的DMSO 浓度为(0.1- 0.3%)。DMSO 溶液(0.1- 0.3%)作为阴性对照的记录始终开始于抑制剂作用之前, 且规定不能对电流幅度的影响超过10%。 Figure 1. IonFlux 高通量全自动膜片钳系统,采用“读板机”式模式,简化了工作流程、增加了实验通量。系统配有16通道和64通道两种型号,每天可以记录获取10,000 个数据点。

SPSS Modeler 支持向量机模型评估银行客户信用

Modeler 支持向量机模型评估银行客户信用 本文要介绍的预测分析模型是“支持向量机模型”,我们将为大家简要介绍支持向量机模型的理论,然后结合IBM SPSS Modeler 产品详细讲述如何利用支持向量机模型来解决客户的具体商业问题—银行如何评估客户信用 银行典型案例 商业银行个人信用评估就是根据个人信息和借贷记录等历史数据,判断个人信用,它是保证信贷安全的重要一环。但是商业银行用于信用评估的数据往往具有特性不稳定,历史样本容量较小,指标较多,呈明显的非正态分布。这些特点导致很难利用一般的统计技术进行有效的评估。支持向量机模型( 简称SVM) 能够很好的处理此类数据,进行有效的信用评估。本文介绍了SVM 的基本概念以及Modeler 中使用SVM 进行信用评估的基本步骤和方法,并对结果进行分析和应用 支持向量机模型简介 支持向量机(Support Vector Machine, 简称SVM) 是一项功能强大的分类和回归技术,可最大化模型的预测准确度。与其他常用模型不同,SVM 一个优势就是能很好的处理小样本,高维数,非正态的数据。 SVM 的工作原理是将原始数据通过变换映射到高维特征空间,这样即使数据不是线性可分,也可以对该数据点进行分类。之后,使用变换后的新数据的进行预测分类。例如,图 1 中的数据点落到了两个不同的类别中,可以用一条曲线分隔这两个类别。对数据使用某种数学函数变换后,可以用超平面定义这两个类别之间的边界。 图 1. 数据变换后线性可分示意图

用于变换的数学函数称为核函数。IBM SPSS Modeler 中的SVM 支持下列核函数类型: ?线性 ?多项式 ?径向基函数(RBF) ?Sigmoid 如果数据的线性分隔比较简单,则建议使用线性核函数。在其他情况下,应当使用其他核函数。在所有情况下,最好尝试使用不同的核函数,才能从中找出最佳模型,因为每一个函数均使用不同的算法和参数。 回页首 使用IBM SPSS Modeler 支持向量机模型评估客户信用 IBM SPSS Modeler 中的SVM 提供了可视化的操作方法,具有界面友好,操作方便的特点。此节,介绍如何使用IBM SPSS Modeler SVM 评估客户信用。操作步骤分为: ?创建基本流(Modeler Stream),建立模型;

离子通道与癫痫

离子通道与癫痫 发稿时间:2010-3-14 摘要:离子通道在调解神经元的兴奋性方面有十分重要的作用。离子通道与癫痫关系的研究日益受到重视。本文在这里着重阐述了几种目前研究较多的离子通道与癫痫的关系、离子通道基因突变与癫痫方面的研究。随着对离子通道与癫痫关系的研究,开发出许多专门针对离子通道的药物,在这里也简要介绍了这些药物的研究进展。离子通道是所有真核生物细胞维持正常生理功能必须的一大类跨膜蛋白,是大脑思维、心脏跳动以及肌肉收缩等细胞电兴奋产生和传导的基础。对于兴奋的细胞,离子通道负责其膜电位的静息和兴奋。近年来随着分子生物学和膜电钳电生理技术的发展,许多编码离子通道蛋白的基因己被克隆、表达和定性。过去几年来的研究也不断证实和发现离子通道的遗传缺陷和许多神经系统遗传性疾病和遗传易感性疾病之间有着密切的关系。癫痫是其中的疾病之一,癫痫的特征是中枢神经元兴奋性升高,其中最主要的特征是一些中枢神经元会作爆发式放电。近年来研究较多的有钠、钾、钙、氯、氢等离子通道。其与癫痫的关系现分别讨论如下。 1.钾离子通道良性新生儿家族性惊厥(Benign Familial)是一种常染色体显性遗传病,与KCNQ2和KCNQ3通道基因突变有关。KCNQ2和KCNQ3钾离子通道分别由位于染色体20q13?3的EBN1和位于8q24的EBN2表达[1]。通过对家系的研究表明,KCNQ2上的基因缺陷包括两个错义突变,两个框移突变,一个剪切位点突变。这些突变有的在碳氮末端,有的在膜孔域。而KCNQ3上的基因缺陷仅有一个在膜孔域第177位点上由甘氨酸取代缬氨酸的错义突变。这些突变会影响钾离子通道的功能,导致膜复极化时程变长,神经兴奋性增强。另外,有研究表明,KCNQ2和KCNQ3通道亚基可形成异四聚体共同参与M电流的形成[2]。M电流是一种慢激活/失活的钾电流,它在决定电活性阈值及突触传入的反应中起重要的作用。KCNQ2或KCNQ3的基因突变导致M通道的功能下降,钾离子流减少或消失,受累神经元因此可兴奋性增强,引起癫痫。KCNA1基因编码电压门控Kv1?1通道的α亚单位,它位于染色体12P13上。其突变可导致发作性共济失调Ⅰ(EAⅠ)。EAⅠ为一种遗传性小脑及周围神经电压门控性钾离子通道病。有数据表明:EAⅠ的患者患癫痫的比例高出正常人10倍[3]。说明Kv1?1为癫痫的侯选基因之一。其致病机制可能为突变亚单位对钾离子通道有负性作用,延迟了神经元的复极化,因此易化了动作电位的产生和传导,降低了癫痫的发作阈值。GIRK2突变与癫痫发作有关。在GIRK2亚单位膜孔域上的突变导致蛋白质分子构型改变,使通道失去了对钾离子的选择性,也失去了对G 蛋白βγ二聚体的敏感性,这种突变通道还可导致wv小鼠脑颗粒细胞的死亡。死亡原因为失去GIRK2介导的钾离子电流而不是非选择性的其他正电流的表达。KCNAB2基因定位在1p36上,它编码电压门控钾离子通道β亚单位蛋白Kvβ2。它与1p36缺失综合征中的癫痫表型有关。1p36缺失综合征主要表现为智力障碍并发癫痫发作、听力丧失、发育迟缓、口唇裂等。Kvβ亚单位在钾离子通道早期的生物合成、稳定及Kv1α亚单位的表达中起一定的作用。Kvβ亚单位由至少三个基因表达KC-NAB1,KCNAB2,KCNAB3。在哺乳动物的大脑中,KC-NAB2表达的Kvβ2占主导地位。所以Kvβ2表达水平的下降会减少膜的功能性钾离子通道,进而减少钾离子流,这可能会增加动作电位的时程,导致钙离子内流增多,神经递质释放增加,进一步导致神经元的过度兴奋,癫痫发作的阈值降低。[4]2钠通道和癫痫1997年,Sheaffer等发现了一个遗传性癫痫家族。这个家族的5代人共60个体中有23人患有癫痫。表现为伴有高热惊厥的癫痫综合征(general-ized epilepsywith febrile seizures plus)。Mulley等研究发现此家族的染色体19上的基因突变导致了癫痫,并且认为这个突变的基因是电压依赖性钠通道β1辅基的基因SCN1B。哺乳动物脑组织钠通道含有α和β1辅基。β1辅基是一种膜蛋白,有一个小的胞内域、一个穿膜结构和一个大的胞外域,可以调节通道开关的速率。突变导致了辅基上的一个氨基酸发生改变,使钠通道的开关速率变慢[5]。体外实验发现,人类

支持向量机SVM分类算法

支持向量机SVM分类算法 SVM的简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。 以上是经常被有关SVM 的学术文献引用的介绍,我来逐一分解并解释一下。 Vapnik是统计机器学习的大牛,这想必都不用说,他出版的《Statistical Learning Theory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质,就在于统计机器学习能够精确的给出学习效果,能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比,传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统完全成了一种技巧,一个人做的结果可能很好,另一个人差不多的方法做出来却很差,缺乏指导和原则。所谓VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC维越高,一个问题就越复杂。正是因为SVM关注的是VC维,后面我们可以看到,SVM解决问题的时候,和样本的维数是无关的(甚至样本是上万维的都可以,这使得SVM很适合用来解决文本分类的问题,当然,有这样的能力也因为引入了核函数)。 结构风险最小听上去文绉绉,其实说的也无非是下面这回事。 机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不知道的(如果知道了,我们干吗还要机器学习?直接用真实模型解决问题不就可以了?对吧,哈哈)既然真实模型不知道,那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。比如说我们认为宇宙诞生于150亿年前的一场大爆炸,这个假设能够描述很多我们观察到的现象,但它与真实的宇宙模型之间还相差多少?谁也说不清,因为我们压根就不知道真实的宇宙模型到底是什么。 这个与问题真实解之间的误差,就叫做风险(更严格的说,误差的累积叫做风险)。我们选择了一个假设之后(更直观点说,我们得到了一个分类器以后),真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本集上轻易达到100%的正确率,在真实分类时却一塌糊涂(即所谓的推广能力差,或泛化能力差)。此时的情况便是选择了一个足够复杂的分类函数(它的VC维很高),能够精确的记住每一个样本,但对样本之外的数据一律分类错误。回头看看经验风险最小化原则我们就会发现,此原则适用的大前提是经验风险要确实能够逼近真实风险才行(行话叫一致),但实际上能逼近么?答案是不能,因为样本数相对于现实世界要分类的文本数来说简直九牛

实验四-支持向量机教学文案

实验四-支持向量机

实验四:支持向量机 班级姓名学号指导老师 一.实验目的 1.了解基有关支持向量机的基本原理 2.能够使用支持向量机的代码解决分类与回归问题 3.了解图像分类的基本原理 二、实验的硬件、软件平台 硬件:计算机 软件:操作系统win10 应用软件:Java 三、实验原理 四、1. LIBSVM 使用方法简介 五、LibSVM是以源代码和可执行文件两种方式给出的。如果是Windows系列操作系统,可以直接使用软件包提供的程序,也可以进行修改编译;如果是Unix类系统,必须自己编译。 六、LIBSVM 在给出源代码的同时还提供了Windows操作系统下的可执行文件,包括:进行支持向量机训练的svmtrain.exe;根据已获得的支持向量机模型对数据集进行预测的svmpredict.exe;以及对训练数据与测试数据进行简单缩放操作的svmscale.exe。它们都可以直接在DOS 环境中使用。如果下载的包中只有C++的源代码,则也可以自己在VC等软件上编译生成可执行文件。七、 八、2. LIBSVM 使用的一般步骤是: 九、1)按照LIBSVM软件包所要求的格式准备数据集; 十、2)对数据进行简单的缩放操作; 十一、3)考虑选用RBF 核函数; 十二、4)采用交叉验证选择最佳参数C与g ; 十三、5)采用最佳参数C与g 对整个训练集进行训练获取支持向量机模型; 十四、6)利用获取的模型进行测试与预测。 十五、 十六、3. LIBSVM使用的数据格式 十七、1)训练数据和检验数据文件格式如下: 十八、

基于支持向量机方法的HERG钾离子通道抑制剂分类模型

基于支持向量机方法的HERG 钾离子通道抑制剂分类模型 李平2 谈宁馨2饶含兵1 李泽荣1,*陈宇综3 (1四川大学化学学院,成都610065;2 四川大学化学工程学院,成都610065; 3 Department of Pharmacy,National University of Singapore,Singapore 117543) 摘要:对human ether -a -g ò-g òrelated genes(HERG)钾离子通道(钾通道)抑制剂,计算了表征分子组成、电荷分布、 拓扑、几何结构及物理化学性质等特征的1559个分子描述符,采用Fischer Score(F -Score)排序过滤和Monte Carlo 模拟退火法相结合从中筛选与HERG 钾通道抑制剂分类相关的分子描述符.采用支持向量机(SVM)方法,分别以IC 50=1.0、10.0μmol ·L -1为分类标准,建立了三个分类预测模型.对367个训练集分子,用五重交叉验证,得到正、负样本的平均预测精度分别为84.8%-96.6%、80.7%-97.7%,其总的平均预测精度为87.1%-97.2%,优于其它文献报道结果.对97个外部测试集分子,所建三个模型的总样本预测精度在67.0%-90.1%之间,接近或优于其它文献报道结果.关键词:支持向量机;HERG 钾通道抑制剂; Monte Carlo 模拟退火法 中图分类号:O641 Classification Models for HERG Potassium Channel Inhibitors Based on the Support Vector Machine Approach LI Ping 2 TAN Ning -Xin 2 RAO Han -Bing 1 LI Ze -Rong 1,* CHEN Yu -Zong 3 (1College of Chemistry,Sichuan University,Chengdu 610065,P.R.China ;2College of Chemical Engineering,Sichuan University, Chengdu 610065,P.R.China ;3Department of Pharmacy,National University of Singapore,Singapore 117543) Abstract :We calculated 1559molecular descriptors including constitutional,charge distribution,topological,geometrical,and physicochemical descriptors to characterize the molecular structure of human ether -a -g ò-g òrelated genes (HERG)potassium channel inhibitors.A hybrid filter/wrapper approach combing the Fischer Score (F -Score)and Monte Carlo simulated annealing was used to select molecular descriptors relevant to the discrimination of HERG potassium channel inhibitors.Three classification models with threshold values of IC 50=1.0,10.0μmol ·L -1,respectively,were built using the support vector machine (SVM)approach.Models developed from 367training set molecules were validated through 5-fold cross -validation (CV)and the average prediction accuracies were 84.8%-96.6%,80.7%-97.7%,and 87.1%-97.2%for the positive,negative,and overall samples,respectively,which showed better performance than models previously reported in literature.Overall prediction accuracies for the three models using an external test set of 97molecules were between 67.0%and 90.1%,which were close to or better than the results reported in literature. Key Words :Support vector machine; HEGR potassium channel inhibitor; Monte Carlo simulated annealing [Article] https://www.doczj.com/doc/6f12915942.html, 物理化学学报(Wuli Huaxue Xuebao ) Acta Phys.-Chim.Sin .,2009,25(8):1581-1586 Received:February 20,2009;Revised:April 20,2009;Published on Web:June 1,2009.* Corresponding author.Email:lizrscu@https://www.doczj.com/doc/6f12915942.html,;Tel:+86-28-85406139 鬁Editorial office of Acta Physico -Chimica Sinica HERG 基因编码的钾离子通道存在于人类心室和心房肌细胞中,其HERG 通道编码心脏快速延迟整流钾电流I Kr ,为心肌细胞动作电位三相复极期的主要外向钾电流,在心脏动作电位复极化过程中发 挥着重要作用[1].此外,快速延迟整流钾通道(I Kr /HERG 通道)是III 类抗心律失常药物的作用靶点,被某些药物作用时,会引起长QT 间期综合征(LQTS),进而导致尖端扭转性室性心动加速(TdP,Torsade de August 1581

相关主题
文本预览
相关文档 最新文档