当前位置：文档之家› 支持向量回归用于氨基酸描述符(doc 7页)

支持向量回归用于氨基酸描述符(doc 7页)

支持向量回归用于氨基酸描述符在肽QSAR建模中的性能评价

（黑体三号、居中）

应用化学2008级学号2008123 张明康（宋体小四号、居中）

任课教师印家健副教授（宋体小四号、居中）

摘要：（宋体小四号、加粗、顶格）采用支持向量回归方法用3个数据集来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择，采用留一法交叉检验的结果显示径向基核函数要好于多项式核函数和线性核函数；在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符，且在同一描述符的情况下SVR的预测效果要好于其它线性方法，说明SVR在肽QSAR模型构建中是一个可行的方法。（中文用楷体小四号、英文用Times New Roman小四号、两端对齐）

关键词：（宋体小四号、加粗、顶格）肽，定量构效关系，核函数，支持向量回归，性能评价（楷体小四号、两端对齐）（关键词间，用逗号隔开）

多肽具有高活性、高选择性及副作用小的特点,是维持生命过程中必不可少的物质,目前已成为药物研究的热点之一。在多肽类似物的研究和开发中,定量构效关系(Quantitative structure-activity relationships，QSAR)是一个重要的理论计算方法和常用手段。所谓多肽QSAR,就是用数学模式来表达多肽类似物的化学结构信息与特定的

生物活性强度间的相互关系[1,2]。

多肽的化学结构描述符普遍采用氨基酸的结构描述参数去定量描述多肽的化学结构和性质，其基本思路是以多肽的最基本的结构信息——氨基酸序列为基础,对一系列多肽类似物中变化的氨基酸残基进行定量描述,并把氨基酸序列转换成结构描述符矩阵的一个向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有：基于实验的z-scales[1]、基于理论计算的ｔ-scales[3]、ISA(isotropic surface area)－ECI(electronic charge index)[4]、MS-WHIM scores[5]、PRIN[6]、c-scales[7]以及基于分子拓扑学的MHDV(molecular holographic distance vector)及其衍变的拓扑描述符[8-10]。

在多肽QSAR数学模型方面，文献中常用的有多元线性回归（multiple linear regression, MLR）[10]、主成分回归（principal component regression, PCR）[8]、偏最小二乘（partial least squares，PLS）[1,4,5]和遗传算法与偏最小二乘法相结合（genetic algorithm-partial least squares，G/PLS）等方法[7]，但这些方法都是线性方法，且对高维、非线性、小样本问题的解析能力有限。

目前，支持向量机[12]（support vector machine, SVM）已广泛的用于各学科领域[13-15],故我们尝试采用支持向量回归（support vector regression, SVR）[16]方法研究多肽QSAR 数学建模，分别用48个苦味二肽、58个ACE(angiotensin converting enzyme)抑制剂二肽和30个缓激肽增效剂五肽等作为数据集，采用留一法交叉检验来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择，结果显示径向基核函数要好于多项式核函数和线性核函数；在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符，且在同一描述符的情况下SVR的预测效果要好于G/PLS和PLS等方法，说明SVR在肽QSAR模型构建中是一种可行的方法。（中文用宋体小四号、英文用Times New Roman小四号、段前缩进2个汉字，两端对齐）

1 支持向量回归算法[12,15,17]及其实现

（中文用宋体四号、英文用Times New Roman四号、加粗，顶格、两端对齐，序号后空1格，不用标点符号）近年来，有限样本情况下的机器学习理论研究逐渐成熟，形成了一个较完善的理论

体系—--统计学习理论[17]。支持向量机是Vapnik等人根据统计学习理论提出的一种新的模式识别方法，它是建立在统计学理论VC维（Vapnik-Chervonenks dimension）理论和结构风险最小原理（structural risk minimization inductive principle）基础上的，能较好地解决小样本、非线性、高维数等实际问题，并成功地解决了过拟合的控制问题，提高了算法的预报能力，并成功的应用于分类、函数逼近和时间序列预测等方面。而肽生物活性值的预测问题也可以看作是一种对活性值与其影响因子之间复杂的非线性函数关系的逼近问题，因此我们尝试将支持向量回归应用于肽活性值的预测建模并利用SVR方法来评价各氨基酸描述符在肽QSAR模型中的建模能力，以及分析多肽中各氨基酸性质对其活性值的影响。利用MATLAB语言及所带的优化工具箱可以很容易的实现上述算法。

2数据来源及处理

2.15个重要的氨基酸描述符（中文用宋体小四号、英文用Times New Roman小四号、加粗，顶格、两端对齐，序号间用圆点隔开，最后空1格，不再用标点符号）

利用SVR模型对氨基酸描述符作肽QSAR预测性能的评价，选用的5个氨基酸描述符见表1，其中code为20个天然氨基酸的单字母符。

（表格采用三线表）（表题：中文用宋体五号、英文用Times New Roman五号、加粗，居中，表序后空1格，不用标点符号）（英文表题：Times New Roman五号、加粗，居中，表序后空2格，不用标点符号）

表15个氨基酸描述

符的数值

Table1 numerical value of five amino acid

descriptors

CODE z-scales c-scales ISA-ECI MS-WHIM PRIN Z1 Z2 Z3 C1 C2 C3 1 2 1 2 3 1 2 3

A 0.07 -1.73 0.09 -10.86 -4.42 -0.92 62.93 0.05 -0.73 0.2 -0.62 -1.02 -7.99 0.77

R 2.88 2.52 -3.44 12.33 9.68 -7.55 52.98 1.69 -0.22 0.27 1.00 -8.43 10.18 0.78

N 3.22 1.45 0.84 -2.49 6.57 2.43 17.87 1.31 0.14 0.2 -0.66 -8.00 0.33 -2.46

D 3.64 1.13 2.36 -3.18 8.31 5.46 18.46 1.25 0.11 -1.00 -0.96 -10.27 -0.38 -2.71

C 0.71 -0.97 4.13 -7.06 1.25 2.63 78.51 0.15 -0.66 0.26 -0.27 5.73 -3.30 -8.14

Q 2.18 0.53 -1.14 1.84 6.98 0.35 19.53 1.36 0.3 1.00 -0.3 -7.40 2.52 -0.92

E 3.08 0.39 -0.07 0.92 8.88 4.44 30.19 1.31 0.24 -0.39 -0.04 -8.82 1.43 -1.35

G 2.23 -5.36 0.3 -14.99 -2.54 1.97 19.93 0.02 -0.31 -0.28 -0.75 -4.64 -10.72 1.75

H 2.41 1.74 1.11 4.98 -4.48 4.2 87.38 0.56 0.84 0.67 -0.78 -0.93 3.33 -2.24

I -4.44 -1.68 -1.03 0.32 -4.02 -6.38 149.77 0.09 -0.91 0.83 -0.25 11.12 -1.95 1.82

L -4.19 -1.03 -0.98 0.41 -4.54 -6.56 154.35 0.1 -0.74 0.72 -0.16 9.40 -1.56 1.89 K 2.84 1.41 -3.14 5.14 4.11 -6.12 102.78 0.53 -0.51 0.08 0.6 -8.50 7.27 3.87 M -2.49 -0.27 -0.41 1.56 0.45 -3.22 132.22 0.34 -0.7 1.00 -0.32 7.88 0.31 -2.56

F -4.92 1.3 0.45 6.62 -6.97 2.68 189.42 0.14 0.76 0.85 -0.34 11.51 2.66 -0.48

P -1.22 0.88 2.23 -5.04 -4.65 -1.52 122.35 0.16 -0.43 0.73 -0.6 -1.36 -3.44 9.00 S 1.96 -1.63 0.57 -8.47 1.64 2.35 19.75 0.56 -0.8 0.61 -1.00 -6.60 -5.25 -1.13 T 0.92 -2.09 -1.4 -5.2 -0.82 -0.1 59.44 0.65 -0.58 0.85 -0.89 -4.09 -3.39 0.17 W -4.75 3.65 0.85 16.56 -8.23 6.03 179.16 1.08 1.00 0.98 -0.47 11.92 7.92 1.25 Y -1.39 2.32 0.01 10.36 -2.08 4.51 132.16 0.72 0.97 0.66 -0.16 4.80 6.33 0.05 V -2.69 -2.53 -1.29 -3.73 -5.14 -4.72 120.91 0.07 -1.00 0.79 -0.58 7.70 -4.27 0.63 …………………………………………………………

…………………………………………………………

…………………………………………………….

3结果与讨论

在SVR模型中，通过依次去掉肽链中的每个氨基酸的z-scales中的一个值，根据模型LOO-CV法的PRESS值的大小可以判断每个氨基酸对此类肽类似物生物活性的影响。为此，以每去掉一个z-scales的模型（5个参数）的PRESS与原模型（6个参数）的PRESS的差值为纵坐标，以依次去掉z-scales中的一个值的顺序为横坐标作图（图2、图4、图6）。由于z1主要和氨基酸的亲水性有关、z2同氨基酸的立体大小有关和z3主要氨基酸的电性参数有关[5]。所以，由图2可知，PRESS在依次分别去掉第一、二位氨基酸的z1时升高很多，说明苦味二肽的活性主要与两个位置的疏水性性质有关，这与文献相一致[4]；PRESS在依次分别去掉第一、二位氨基酸的z2时略有升高，苦味二肽的活性主要与两个位置的立体大小性质弱相关；去掉z3时几乎没有变化，表明与其电性性质无关。

-2

0246810

12141

amino acid sequence

△p r e s s

（图题：中文用宋体五号、英文用Times New Roman 五号、加粗，居中，序序后空1格，不用标点符号）（英文图题： Times New Roman 五号、加粗，居中，图序后空2格，不用标点符号）

（图注：中文用宋体五号、英文用Times New Roman 五号，居中） ………………………………………………………………

…………………………………………..

……………………………………. ……………………………………….

参考文献（中文用宋体四号加粗，顶格、左端对齐，不用序号）

[1]（Times New Roman 五号、后空1格，不用标点符号） Hellberg S ，Sjostroem M ，Skagerberg B ，et al. Peptide quantitative structure-activity re lationships,a multivariate approach [J].J.Med Chem ，1987,30：1126－1135.

图2 48个苦味二肽PRESS 差值与去掉氨基酸性质位置 Figure 1 Plot of △PRESS and removed amino acid

(完整word版)支持向量机(SVM)原理及应用概述分析

支持向量机（SVM ）原理及应用一、SVM 的产生与发展自1995年Vapnik (瓦普尼克)在统计学习理论的基础上提出SVM 作为模式识别的新方法之后，SVM 一直倍受关注。同年，Vapnik 和Cortes 提出软间隔(soft margin)SVM ，通过引进松弛变量i ξ度量数据i x 的误分类(分类出现错误时i ξ大于0)，同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数)，SVM 的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程；1996年，Vapnik 等人又提出支持向量回归 (Support Vector Regression ，SVR)的方法用于解决拟合问题。SVR 同SVM 的出发点都是寻找最优超平面(注：一维空间为点；二维空间为线；三维空间为面；高维空间为超平面。)，但SVR 的目的不是找到两种数据的分割平面，而是找到能准确预测数据分布的平面，两者最终都转换为最优化问题的求解；1998年，Weston 等人根据SVM 原理提出了用于解决多类分类的SVM 方法(Multi-Class Support Vector Machines ，Multi-SVM)，通过将多类分类转化成二类分类，将SVM 应用于多分类问题的判断：此外，在SVM 算法的基本框架下，研究者针对不同的方面提出了很多相关的改进算法。例如，Suykens 提出的最小二乘支持向量机 (Least Square Support Vector Machine ，LS —SVM)算法，Joachims 等人提出的SVM-1ight ，张学工提出的中心支持向量机 (Central Support Vector Machine ，CSVM)，Scholkoph 和Smola 基于二次规划提出的v-SVM 等。此后，台湾大学林智仁(Lin Chih-Jen)教授等对SVM 的典型应用进行总结，并设计开发出较为完善的SVM 工具包，也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM 是一个通用的SVM 软件包，可以解决分类、回归以及分布估计等问题。二、支持向量机原理 SVM 方法是20世纪90年代初Vapnik 等人根据统计学习理论提出的一种新的机器学习方法，它以结构风险最小化原则为理论基础，通过适当地选择函数子集及该子集中的判别函数，使学习机器的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器，对独立测试集的测试误差仍然较小。支持向量机的基本思想：首先，在线性可分情况下，在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下，加入了松弛变量进行分析，通过使用非线性映射将低维输

支持向量机分类器

支持向量机分类器 1 支持向量机的提出与发展支持向量机( SVM, support vector machine )是数据挖掘中的一项新技术，是借助于最优化方法来解决机器学习问题的新工具，最初由V.Vapnik 等人在1995年首先提出，近几年来在其理论研究和算法实现等方面都取得了很大的进展，开始成为克服“维数灾难”和过学习等困难的强有力的手段，它的理论基础和实现途径的基本框架都已形成。根据Vapnik & Chervonenkis的统计学习理论 ,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化 ( SRM,structural risk minimization)原则,而不是经验风险最小化原则,通俗地说就是应当使错误概率的上界最小化。SVM正是这一理论的具体实现。与传统的人工神经网络相比, 它不仅结构简单,而且泛化( generalization)能力明显提高。 2 问题描述 2.1问题引入假设有分布在Rd空间中的数据，我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧，而属于另一类的数据均在超平面的另一侧。如下图。比较上图，我们可以发现左图所找出的超平面（虚线），其两平行且与两类数据相切的超平面（实线）之间的距离较近，而右图则具有较大的间隔。而由于我们希望可以找出将两类数据分得较开的超平面，因此右图所找出的是比较好的超平面。可以将问题简述如下：设训练的样本输入为xi，i=1，…，l，对应的期望输出为yi∈{+1，-1}，其中+1和-1分别代表两类的类别标识，假定分类面方程为ω﹒x+b=0。为使分类面对所有样本正确分类并且具备分类间隔，就要求它满足以下约束条件：它追求的不仅仅是得到一个能将两类样本分开的分类面，而是要得到一个最优的分类面。 2.2 问题的数学抽象将上述问题抽象为：根据给定的训练集

生物信息学复习题及答案

生物信息学复习题名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。 Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。值：得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。 10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。 13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

氨基酸用途说明

甘氨酸产品描述：分子式C2H5NO2 性状白色斜晶系或六方晶系晶体，或结晶性粉末。无臭，有特殊甜味，味觉阈值0.13%。熔点232-236度。（产生气体并分解）。水溶液呈微酸性（PH值5.5-7.0）.易溶于水(25g/100ml,25度).极难溶于乙醇(0.06g/100g无水乙醇).不溶于丙酮、乙醚等有机溶剂。用途1 调味与丙氨酸合用于含醇饮料，添加量：葡萄酒0.4%，威士忌酒0.2%，香槟酒1.0%。其他如粉末汤料约添加2%；酒糟腌的食品1%。由于其能一定程度呈虾、墨鱼味，可用于调味酱。 2 对枯草杆菌及大肠杆菌的繁殖有一定抑制作用。故可用于鱼糜制品、花生酱等的防腐剂。添加量1%-2%。 3 缓冲作用因甘氨酸为具有氨基和羧基的两性离子，故有很强的缓冲性。对食盐和醋等的味感能起缓冲作用。添加量为盐腌品的0.3%-0.7%，酸渍品0.05%-0.5%。 4 抗氧化作用（利用其金属螯合作用）添加于奶油、干酪、人造奶油、牛乳制品等可延长保存期3-4倍。为使焙烤食品中的猪油稳定，可添加葡萄糖2.5%和甘氨酸0.5%。速煮面用的小麦粉中添加0.1%-0.5%，同时可起调味作用。医药上用作制酸剂（胃酸过多症）、肌肉营养失调治疗剂、解毒剂等。亦为苏氨酸等氨基酸的合成原料。 5 按我国GB2760-96规定可用作香料。 DL-丙氨酸产品描述：分子式C3H7NO2 性状无色至白色无臭针状结晶或结晶性粉末。有甜味。味觉阈值在0.06%.由水-乙醇液重结晶者为斜方晶系,由水重结晶者为针状结晶或结晶性粉末.5%水溶液的PH值5.5-7.0.约为295-300度熔化并分解.化学性质稳定.遇亚硝酸可转化为L-乳酸.易溶于水(16.72g/100ml,25度).微溶于乙醇.无旋光性. 用途营养增补剂。调味料，包括下述若干方面。 1．增强化学调味料的调味效果2.改善人工甜味剂的味感3.改善有机酸的酸味4.提高腌制效果5.提高含醇饮料的质量6.防止油类氧化7.改善浸渍品的风味8.合成清酒的调味料 L-丙氨酸产品描述：分子式C3H7NO2 性状白色无臭结晶性粉末。有特殊甜味，甜度约为蔗糖的70%。200度以上开始升华，

支持向量机及支持向量回归简介

3．支持向量机（回归） 3.1.1 支持向量机支持向量机（SVM ）是美国Vapnik 教授于1990年代提出的，2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器，是构造分类规则的通用方法。SVM 方法的贡献在于，它使得人们可以在非常高维的空间中构造出好的分类规则，为分类算法提供了统一的理论框架。作为副产品，SVM 从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用，因此，将神经网络的学习算法纳入了核技巧范畴。所谓核技巧，就是找一个核函数(,)K x y 使其满足(,)((),())K x y x y φφ=，代替在特征空间中内积(),())x y φφ（的计算。因为对于非线性分类，一般是先找一个非线性映射φ将输入数据映射到高维特征空间，使之分离性状况得到很大改观，此时在该特征空间中进行分类，然后再返会原空间，就得到了原输入空间的非线性分类。由于内积运算量相当大，核技巧就是为了降低计算量而生的。特别，对特征空间H 为Hilbert 空间的情形，设(,)K x y 是定义在输入空间 n R 上的二元函数，设H 中的规范正交基为12(),(),...,(), ...n x x x φφφ。如果 2 2 1 (,)((),()), {}k k k k k K x y a x y a l φφ∞ == ∈∑ ，那么取1 ()() k k k x a x φφ∞ ==∑ 即为所求的非线性嵌入映射。由于核函数(,)K x y 的定义域是原来的输入空间，而不是高维的特征空间。因此，巧妙地避开了计算高维内积 (),())x y φφ（所需付出的计算代价。实际计算中，我们只要选定一个(,)K x y ，

多肽定量构效关系与分子设计

多肽定量构效关系与分子设计丁俊杰　丁晓琴3 　赵立峰　陈冀胜 (北京药物化学研究所　北京102205) 摘　要　综述了多肽定量构效关系和计算机辅助多肽分子设计方法的最新进展,重点介绍了多肽定量构效关系研究中的化学结构定量描述符和建立数学模型的统计方法,并对模拟肽学和虚拟组合多肽库在多肽分子设计中的应用进行了简要的论述。关键词　多肽定量构效关系　遗传算法　人工神经网络　模拟肽学　虚拟组合多肽库中图分类号:Q516;O641　文献标识码:A 文章编号:10052281X (2005)0120130207 The Polypeptide Q SAR and Computer 2Aided Molecular Design Ding Junjie Ding Xiaoqin 3 　Zhao Lifeng Chen Jisheng (Beijing Institute of Pharmaceutial Chemistry ,Beijing 102205,China ) Abstract The advances in polypeptide QS AR and com puter 2aided m olecular design are reviewed.The chemical structure descriptors and statistical method of mathematical m odeling in the polypeptide QS AR study are introduced in de 2tail.The application of peptidomimetics and virtual combinatorial peptide library in the com puter 2aided polypeptide de 2sign are brielfly described. K ey w ords polypeptide QS AR ;genetic alg orithm ;artificial neural netw orks ;peptidomimetics ;virtual combina 2torial peptide library 收稿:2003年11月,收修改稿:2004年7月　3通讯联系人　e 2mail :dingxq @https://www.doczj.com/doc/b17619113.html, 多肽是维持生命过程中必不可少的物质,由于它们具有高活性、高选择性以及副作用小等特点,现已逐渐成为药物研究的热点之一。对肽类药物的研究开发及先导化合物的发现,至今仍是一件耗资巨大但效率很低的工作。造成这种状况的一个主要原因就是缺乏深入的理论指导和先进的分子设计方法,因此迫切需要新的理论方法和多肽分子设计技术的出现。近年来,以各种理论计算方法和分子模拟技术为基础的计算机辅助分子设计,在各种肽类化合物的研究开发中得到了广泛的应用。利用计算机分子图形学、分子动力学和量子化学等进行构象分析,寻找多肽及类似物的药效团,进行二维和三维的定量构效关系(QS AR )研究,及应用各种分子设计方法,设计有较高活性的肽类和非肽模拟物,已成为国际上十分活跃的研究领域。一、多肽的定量构效关系研究在多肽类似物的研究和开发中,定量构效关系是一个重要的理论计算方法和常用手段。所谓多肽的QS AR ,就是用数学模式来表达多肽类似物的化学结构信息与特定的生物活性强度间的相互关系。多肽的QS AR 研究方法同其它药物的QS AR 研究方法一样,基本上可分为以下5个步骤[1] :(1)选择和设计一系列多肽类似物;(2)类似物的化学结构的定量描述;(3)合成设计化合物并进行生物活性的测定;(4)建立数学模型,确定化学结构与生物活性之间的函数关系;(5)新类似物的活性预测以及新的高活性类似物的设计。近年来,多肽的QS AR 研究主要集中在如下两个方面:多肽的化学结构定量描述符的研究和建立QS AR 数学模型的统计方法。第17卷第1期2005年1月化　学　进　展 PROG RESS I N CHE MISTRY Vol.17No.1 　Jan.,2005

支持向量机的实现

模式识别课程大作业报告——支持向量机（SVM）的实现姓名：学号：专业：任课教师：研究生导师：内容摘要

支持向量机是一种十分经典的分类方法，它不仅是模式识别学科中的重要内容，而且在图像处理领域中得到了广泛应用。现在，很多图像检索、图像分类算法的实现都以支持向量机为基础。本次大作业的内容以开源计算机视觉库OpenCV为基础，编程实现支持向量机分类器，并对标准数据集进行测试，分别计算出训练样本的识别率和测试样本的识别率。本报告的组织结构主要分为3大部分。第一部分简述了支持向量机的原理；第二部分介绍了如何利用OpenCV来实现支持向量机分类器；第三部分给出在标准数据集上的测试结果。一、支持向量机原理概述

在高维空间中的分类问题实际上是寻找一个超平面，将两类样本分开，这个超平面就叫做分类面。两类样本中离分类面最近的样本到分类面的距离称为分类间隔。最优超平面指的是分类间隔最大的超平面。支持向量机实质上提供了一种利用最优超平面进行分类的方法。由最优分类面可以确定两个与其平行的边界超平面。通过拉格朗日法求解最优分类面，最终可以得出结论：实际决定最优分类面位置的只是那些离分类面最近的样本。这些样本就被称为支持向量，它们可能只是训练样本中很少的一部分。支持向量如图1所示。图1 图1中，H是最优分类面，H1和H2别是两个边界超平面。实心样本就是支持向量。由于最优超平面完全是由这些支持向量决定的，所以这种方法被称作支持向量机（SVM）。以上是线性可分的情况，对于线性不可分问题，可以在错分样本上增加一个惩罚因子来干预最优分类面的确定。这样一来，最优分类面不仅由离分类面最近的样本决定，还要由错分的样本决定。这种情况下的支持向量就由两部分组成：一部分是边界支持向量；另一部分是错分支持向量。对于非线性的分类问题，可以通过特征变换将非线性问题转化为新空间中的线性问题。但是这样做的代价是会造成样本维数增加，进而导致计算量急剧增加，这就是所谓的“维度灾难”。为了避免高维空间中的计算，可以引入核函数的概念。这样一来，无论变换后空间的维数有多高，这个新空间中的线性支持向量机求解都可以在原空间通过核函数来进行。常用的核函数有多项式核、高斯核（径向基核）、Sigmoid函数。二、支持向量机的实现 OpenCV是开源计算机视觉库，它在图像处理领域得到了广泛应用。OpenCV 中包含许多计算机视觉领域的经典算法，其中的机器学习代码部分就包含支持向量机的相关内容。OpenCV中比较经典的机器学习示例是“手写字母分类”。OpenCV 中给出了用支持向量机实现该示例的代码。本次大作业的任务是研究OpenCV中的支持向量机代码，然后将其改写为适用于所有数据库的通用程序，并用标准数据集对算法进行测试。本实验中使用的OpenCV版本是，实验平台为Visual

氨基酸概述

第三节氨基酸氨基酸是一类具有特殊重要意义的化合物。因为它们中许多是与生命活动密切相关的蛋白质的基本组成单位，是人体必不可少的物质，有些则直接用作药物。 α-氨基酸是蛋白质的基本组成单位。蛋白质在酸、碱或酶的作用下，能逐步水解成比较简单的分子，最终产物是各种不同的α-氨基酸。水解过程可表示如下：蛋白质→月示→胨→多肽→二肽→α-氨基酸由蛋白质水解所得到的α-氨基酸共有20多种，各种蛋白质中所含氨基酸的种类和数量都各不相同。有些氨基酸在人体内不能合成，只能依靠食物供给，这种氨基酸叫做必需氨基酸（见表18-3，*）。一、氨基酸的构造、构型及分类、命名（一）氨基酸的构造和构型分子中含有氨基和羧基的化合物，叫做氨基酸。由蛋白质水解所得到的α-氨基酸，可用通式表示如下：除甘氨酸（R=H）外，所有α-氨基酸中的α碳原子均是手性碳，故有D型与L型两种构型。天然氨基酸均为L-氨基酸。 L-氨基酸（二）α-氨基酸的分类和命名氨基酸有脂肪族氨基酸、芳香族氨基酸和杂环氨基酸。在α-氨基酸分子中可以含多个氨基和多个羧基，而且氨基和羧基的数目不一定相等。因此，天然存在的α-氨基酸常根据其分子中所含氨基和羧基的数目分为中性氨基酸、碱性氨基酸和酸性氨基酸。所谓中性氨基酸是指分子中氨基和羧基的数目相等的一类氨基酸。但氨基的碱性和羧基的酸性不是完全相当的，所以它们并不是真正中性的物质，只能说它们近乎中性。分子中氨基的数目多于羧基时呈现碱性，称为碱性氨基酸；反之，氨基的数目少于羧基时呈现酸性，称为酸性氨基酸。

氨基酸的系统命名方法与羟基酸一样，但天然氨基酸常根据其来源或性质多用俗名。例如胱氨酸是因它最先来自尿结石；甘氨酸是由于它具有甜味而得名（见表18-3）。表18-3 常见的α-氨基酸

CADD药物信息学基本知识

药物信息学初步 1药物信息学： a药物信息学是有关药物研究和开发过程中所涉及的大量小分子、大分子及其相互作用信息的学科。 b药物信息学，简单说来就是化学信息学和生物信息学的加和。 c也包括类药性、药物代谢动力学性质和毒性预测、药靶预测、高内涵筛选及代谢模型等综合信息在新药发现和发展中的整合、分析和应用。 2化学信息学与生物信息学 ?化学信息学（Chemoinformatics，Chemical Informatics），简而言之，一切与小分子化合物有关的计算机操作和运算都属于化学信息学的研究范畴，包括小分子的结构、构象、能量、性质等，也包括小分子与大分子的相互作用，还包括小分子的设计。 ?化学信息学的研究已有较长的历史，比如1960年代出现的QSAR，但作为学科名词1998年才首次出现。 ?与之相对的是生物信息学（Bioinformatics或Biological Informatics）。生物信息学是随着人类基因组计划的实施而出现的，最初仅是指对基因组序列的比较分析。但现在已发展到既对生物大分子的序列、也对生物大分子的结构、构象进行研究。针对生物大分子结构、功能等的计算研究，叫做计算生物学（Computational Biology）。 3 化学信息学在药物设计中的主要应用 ●虚拟组合化学库的设计； ●化合物数据库的相似性分析与多样性分析； ●化合物数据库的类药性分析、ADMET性质预测； ●化合物数据库的虚拟筛选； ●。。。 4 为什么要进行ADMET预测 ●ADMET是候选药物临床研究失败的主要原因（占60%）。 ●ADMET评估已成药物研发的关键，需尽早进行。 ●由于ADMET涉及药物体内过程，因此评估非常困难。 ●实验评价ADMET缺点：代价大、周期长，一般在临床前研究阶段才开始进行，且动物数据与人体数据并不完全一致。 ●计算机预测ADMET优点：代价低、速度快，可以在化合物合成之前进行，也可以与先导物优化一起进行，这样可将理论上具有不良ADMET性质的分子尽早排除，从而降低失败率。 5 ADMET预测的基本要求 ●要有大量可靠的实验数据供使用； ●要有合适的方式对分子结构进行表达； ●要有合适的建模方法及评价指标。 6 常规ADMET预测方法 ●分子结构采用分子描述符进行表达；分子描述符与性质之间采用统计回归分析方法建立预测模型。 ●存在的问题：分子描述符是间接描述分子，具有计算繁杂、数据可能不准确，数量众多而难以取舍，模型可解释性差等问题。 7 基于子结构模式识别的ADMET预测方法 ●新方法：分子结构采用分子指纹进行表达；分子指纹与性质之间采用机器学习方法建立预测模型。 ●优点：跳过分子描述符而直接从分子结构出发来预测分子性质，提高了预测精度；采用信息增益技术识别关键子结构，建立的模型具有可解释性；等等。 8生物信息学在药物设计中的应用 ●药物作用新靶标的发现与确证： ?人体内靶标 ?病原体内靶标 ●蛋白质序列比较、分析；蛋白质结构相似性比较、同源蛋白的识别。 ●蛋白质二级结构与三维结构的预测。 9 序列比对(sequence alignment) ●序列比对指将两个或多个序列排列在一起，标明其相似之处。序列中可以插入间隔（通常用短横线“-”表示）。

氨基酸滋味概述

氨基酸滋味概述 IMB standardization office【IMB 5AB- IMBK 08- IMB 2C】

氨基酸滋味概述 2012级13班孙雨辰 “凡是可以食用的东西，都有自己的味道。” ----------------《现代生物化学》大米的香味与胱氨酸有关，啤酒的苦味与其存在有三个支链的氨基酸有关。 -----------------于自然P8 二十种必须氨基酸是指甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸这二十种组成人体蛋白质的氨基酸。 1.甘氨酸：甘氨酸有独特的甜味，能缓和酸、碱味，掩盖食品中添加糖精的苦味并增强甜味。人体若摄入甘氨酸的量过多，不仅不能被人体吸收利用，而且会打破人体对氨基酸的吸收平衡而影响其它氨基酸的吸收，导致营养失衡而影响健康。以甘氨酸为主要原料生产的含乳饮料，对青少年及儿童的正常生长发育很容易带来不利影响。 2.丙氨酸: 预防肾结石、协助葡萄糖的代谢，有助缓和低血糖，改善身体能量。用于合成新型甜味剂及某些手性药物中间体的原料。

3.缬氨酸: 本品为白色结晶或结晶性粉末；无臭，味微甜而后苦。在水中溶解，在乙醇中几乎不溶。 4.亮氨酸: 亮氨酸一般多用于面包、面类制品。配制氨基酸输液及综合氨基酸制剂，降血糖剂，植物生长促进剂。可用作香料，可改善食品风味。为白色结晶或结晶性粉末；无臭，味微苦。 5.异亮氨酸: 菱形叶片状或片状晶体，味苦。熔点：284摄氏度。溶于水，微溶于乙醇。 6.苯丙氨酸: 常温下为白色结晶或结晶性粉末固体，减压升华，溶于水，难溶于甲醇、乙醇、乙醚。苯丙氨酸广泛用于医药和阿斯巴甜的主要原料。 7.脯氨酸: 白色结晶或结晶性粉末或无色针状结晶，含一个结晶水。微臭，味微甜。 8.色氨酸: 为白色或微黄色结晶或结晶性粉末；无臭，味微苦。水中微溶，在乙醇中极微溶解，在氯仿中不溶，在甲酸中易溶，在氢氧化钠试液

生物信息学

第一章生物信息学：是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等相互渗透而形成的交叉学科。是应用计算机技术和信息论方法采集、储存、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息，以帮助了解生物学和遗传学信息的科学. 基因组信息学是生物信息学的核心。生物信息学研究的目标：通过认识生命的起源，进化，遗传，和发育的本质，破译隐藏在DNA序列中的遗传语言，并揭示基因组信息结构的复杂性及遗传语言的根本规律，以及人体生理和病理过程的分子基础，为人类疾病的诊断，预防和治疗提供最合理且有效的方法和途径‘ 生物信息学研究内容： 1 生物信息的收集，储存，管理和提供 2 基因组序列信息的提取和分析 3 生物信息分析技术和方法的研究开发分析工具和实用软件 4 功能基因组相关信息分析 5 生物大分子结构模拟和药物模拟第二章表达序列标签(EST)：是随机选取的cDNA克隆的部分序列，即一个EST就是对应于某一种mRNA的一个cDNA克隆的一段序列。一般长度为300-500bp，经一定方法定位后转变为STS。EST可用于全长基因的克隆、基因定位、基因表达、基因结构等的分析。测序标签位点（STS）：一段长度约200-300bp的特定的DNA序列，每个STS序列位点对于基因组中一个单独的位置。来源于EST序列和随机序列等。是由PCR方法确定的单拷贝序列。作图时，相当于一个路标。蛋白质工程（protein engineering）：运用蛋白质结构的详细信息、重组DNA技术，对蛋白质分子进行重新设计，从而定向的改造蛋白质的性质，使其具有人们希望的优良性质，甚至创造不存在的蛋白质。主要目的是通过改造编码蛋白质基因中的DNA顺序，或设计合成新的基因，经过宿主细胞的表达获得被改造了的新的蛋白质。蛋白质组（proteome)：对应于基因组的概念，指有一个细胞或一个组织的基因所表达的全部相应的蛋白质。蛋白质组是一个动态的概念：1、和基因不一样，不同组织和不同发育时期都不一样。2、基因在转录后，还有一系列修饰，翻译等过程都可以影响蛋白质的表达。因此通过对蛋白质组的研究，在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题与人类健康和疾病相关的生物医学问题。

生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。二、问答题 1）生物信息学与计算生物学有什么区别与联系 2）试述生物信息学研究的基本方法。 3）试述生物学与生物信息学的相互关系。 4）美国国家生物技术信息中心（NCBI）的主要工作是什么请列举3个以上NCBI 维护的数据库。￥ 5）序列的相似性与同源性有什么区别与联系 6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7）简述BLAST搜索的算法。 8）什么是物种的标记序列 9）什么是多序列比对过程的三个步骤 10）简述构建进化树的步骤。 11）简述除权配对法（UPGMA）的算法思想。 12）简述邻接法（NJ）的算法思想。 13）简述最大简约法（MP）的算法思想。 14）简述最大似然法（ML）的算法思想。 ? 15）UPGMA构树法不精确的原因是什么 16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。 17）试述DNA序列分析的流程及代表性分析工具。 18）如何用BLAST发现新基因 19）试述SCOP蛋白质分类方案。 20）试述SWISS-PROT中的数据来源。 21）TrEMBL哪两个部分 22）试述PSI-BLAST 搜索的5个步骤。[ 3）三、操作与计算题 1）如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息： LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

基于支持向量机的分类方法

基于支持向量机的分类方法摘要：本文首先概述了支持向量机的相关理论，引出了支持向量机的基本模型。当训练集的两类样本点集重合区域很大时，线性支持向量分类机就不适用了，由此介绍了核函数相关概念。然后进行了核函数的实验仿真，并将支持向量机应用于实例肿瘤诊断，建立了相应的支持向量机模型，从而对测试集进行分类。最后提出了一种支持向量机的改进算法，即根据类向心度对复杂的训练样本进行预删减。 1、支持向量机给定训练样本集1122{[,],[,], ,[,]}()l l l T a y a y a y Y =∈Ω?L ，其中n i a R ∈Ω=，Ω是输入空间，每一个点i a 由n 个属性特征组成，{1,1},1,,i y Y i l ∈=-=L 。分类就是在基于训练集在样本空间中找到一个划分超平面，将不同的类别分开，划分超平面可通过线性方程来描述： 0T a b ω+= 其中12(;;;)d ωωωω=K 是法向量，决定了超平面的方向，b 是位移项，决定了超平面与原点之间的距离。样本空间中任意点到超平面的距离为|| |||| T a b r ωω+=。支持向量、间隔：假设超平面能将训练样本正确分类，即对于[,]i i a y T ∈，若1i y =+，则有 0T i a b ω+>，若1i y =-，则有0T i a b ω+<。则有距离超平面最近的几个训练样本点使得 11 11 T i i T i i a b y a b y ωω?+≥+=+?+≤-=-? 中的等号成立，这几个训练样本点被称为支持向量；两个异类支持向量到超平面的距离之和2 |||| r ω=被称为间隔。支持向量机基本模型：找到具有最大间隔的划分超平面，即 ,2max ||||..()1,1,2,...,b T i i s t y a b i m ωωω+≥= 这等价于 2 ,||||min 2..()1,1,2,...,b T i i s t y a b i m ωωω+≥= 这就是支持向量机（SVM ）的基本模型。支持向量机问题的特点是目标函数2 ||||2 ω是ω的凸函数，并且约束条件都是线性的。

某大学药物设计课件

第五章药物发现的虚拟筛选方法
Virtual screening in drug discovery
1

第一节概述
化合物库匹配计算
搜寻标准 (提问结构)
命中结构 Hits
搜寻的基本要素：
搜寻标准；化合物库；计算方法
2

二类基本方法：类基本方法：
直接法基于靶点结构的基于分子对接（docking-based)的
间接法基于配体相似性（ligand similarity-based）的基于药效基团（pharmacophore-based)的基于药效基团（的
3

合成化合物库天然化合物库
化合物数据库
组合化合物库药物分子库类药性化合物库
生物大分子数据库
核酸分子库蛋白质分子库
4

化学信息和生物信息计算机系统
—— 利用计算机信息处理系统对分子（小分子及生物大分子）（2D及3D）及相关信息（性质、来源、用途）进行分析、储存、检索和传递等处理分析储存检索和传递等处理
小分子化合物匹配计算生物大分子
化学信息学
命中结构
生物信息学
5

第二节化学信息处理
化学信息学 Chemoinformatics，chemical informatics， Chemoinformatics chemical informatics Cheminformatics， chemi-informatics 利用计算机信息处理技术对化学分子结构和相关信息进行管的种综合性技术和学科和相关信息进行管理的一种综合性技术和学科应用化学信息学可促进化学信息的获取、转化与共享
6

氨基酸滋味概述

能被人体吸收利用，而且会打破人体对氨基酸的吸收平衡而影响其它氨基酸的吸收，导致营养失衡而影响健康。以甘氨酸为主要原料生产的含乳饮料，对青少年及儿童的正常生长发育很容易带来不利影响。 2. 丙氨酸: 预防肾结石、协助葡萄糖的代谢，有助缓和低血糖，改善身体能量。用于合成新型甜味剂及某些手性药物中间体的原料。 3. 缬氨酸: 本品为白色结晶或结晶性粉末；无臭，味微甜而后苦。在水中溶解，在乙醇中几乎不溶。 4. 亮氨酸: 亮氨酸一般多用于面包、面类制品。配制氨基酸输液及综合氨基酸制剂，降血糖剂，植物生长促进剂。可用作香料，可改善食品风味。为白色结晶或结晶性粉末；无臭，味微苦。 5. 异亮氨酸: 菱形叶片状或片状晶体，味苦。熔点：284摄氏度。溶于水，微溶于乙醇。 6. 苯丙氨酸: 常温下为白色结晶或结晶性粉末固体，减压升华，溶于水，难溶于甲醇、乙醇、乙醚。苯丙氨酸广泛用于医药和阿斯巴

随机森林与支持向量机分类性能比较

随机森林与支持向量机分类性能比较黄衍，查伟雄（华东交通大学交通运输与经济研究所，南昌 330013）摘要：随机森林是一种性能优越的分类器。为了使国内学者更深入地了解其性能，通过将其与已在国内得到广泛应用的支持向量机进行数据实验比较，客观地展示其分类性能。实验选取了20个UCI数据集，从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行，得到的结论可为研究者选择和使用分类器提供有价值的参考。关键词：随机森林；支持向量机；分类中图分类号：O235 文献标识码： A Comparison on Classification Performance between Random Forests and Support Vector Machine HUANG Yan, ZHA Weixiong (Institute of Transportation and Economics, East China Jiaotong University, Nanchang 330013, China)【Abstract】Random Forests is an excellent classifier. In order to make Chinese scholars fully understand its performance, this paper compared it with Support Vector Machine widely used in China by means of data experiments to objectively show its classification performance. The experiments, using 20 UCI data sets, were carried out from three main aspects: generalization, noise robustness and imbalanced data classification. Experimental results can provide references for classifiers’ choice and use. 【Key words】Random Forests; Support Vector Machine; classification 0 引言分类是数据挖掘领域研究的主要问题之一，分类器作为解决问题的工具一直是研究的热点。常用的分类器有决策树、逻辑回归、贝叶斯、神经网络等，这些分类器都有各自的性能特点。本文研究的随机森林[1]（Random Forests，RF）是由Breiman提出的一种基于CART 决策树的组合分类器。其优越的性能使其在国外的生物、医学、经济、管理等众多领域到了广泛的应用，而国内对其的研究和应用还比较少[2]。为了使国内学者对该方法有一个更深入的了解，本文将其与分类性能优越的支持向量机[3]（Support Vector Machine，SVM）进行数据实验比较，客观地展示其分类性能。本文选取了UCI机器学习数据库[4]的20个数据集作为实验数据，通过大量的数据实验，从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行比较，为研究者选择和使用分类器提供有价值的参考。 1 分类器介绍 1.1 随机森林随机森林作为一种组合分类器，其算法由以下三步实现： 1. 采用bootstrap抽样技术从原始数据集中抽取n tree个训练集，每个训练集的大小约为原始数据集的三分之二。 2. 为每一个bootstrap训练集分别建立分类回归树（Classification and Regression Tree，CART），共产生n tree棵决策树构成一片“森林”，这些决策树均不进行剪枝（unpruned）。在作者简介：黄衍（1986-），男，硕士研究生，主要研究方向：数据挖掘与统计分析。通信联系人：查伟雄，男，博士，教授，主要研究方向：交通运输与经济统计分析。 E-mail: huangyan189@https://www.doczj.com/doc/b17619113.html,.

氨基酸习题

生化测试一：氨基酸一、填空题 1.氨基酸的结构通式为。 2.氨基酸在等电点时，主要以_____________离子形式存在，在pH>pI 的溶液中，大部分以______ 离子形式存在，在pH