当前位置:文档之家› 生物信息学医学数据

生物信息学医学数据

生物信息学医学数据
生物信息学医学数据

生物信息学在医学数据分析中的应用

1.前言

随着信息技术的飞速发展,医疗数据以爆炸般的速度积累增长,特别是临床医疗数据的大量积累,但是如何有效的整合和利用这些数据进行科学研究,这就对有效数据的管理和挖掘提出了更高的要求。

近年来,数据挖掘得到迅速发展,并逐渐应用到现实生活中,在分类分析方面表现相当出色,因此,已有专家将数据挖掘技术与基因表达数据分类问题相结合,发掘基因之间的关联联系,基因表达正常与非正常的活动范围,由此来理解基因表达的内在规律[1],给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题:

一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中,有的甚至存在于医生手写的随访记录本当中,这样分散存在的数据不利于收集、整合与分析。

二是以往的临床科学研究都是以手工的方式去收集和整合数据,数据的可靠性和准确性得不到保证,而且容易产生数据丢失。与此同时,人工收集数据工作量大,数据采集速度慢、试验周期长的状况,这对临床科研数据的统计和分析结果的准确性提出来质疑。

三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中,效率滞后,容易影响科研进度。

针对上述几个问题,为确保收集数据的准确性、有效性和完整性,以便进行统计分析,基于临床科研的数据管理系统应运而生。

2. 支持向量机在医疗数据中的应用

在疾病检测中,单一的生理信息不足以反映人体的健康状况,因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种,甚至几十种理化指标。医生综合这些检测的数据,根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然,这种诊断是主观性的,对同一个人,有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型,并将这种模型在计算机上实现,利用这一模型可以帮助医生对待测人体做出更客

观、准确和及时的诊断[2]。用于建立模型的方法很多,其中支持向量机是近年来发展迅速的一种理论统计方法。

支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法,是贝尔实验室研究人员Vapnik等人在统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生了重大影响[3,4]。支持向量机是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,在模式识别、信号处理、函数逼近等领域得到了应用[5,6],表现出了很好的泛化能力。目前,支持向量机作为小样本学习的最佳理论,越来越多的应用于智能医学数据分析领域,成为当前智能医疗诊断研究的热点。其基本原理如下:

支持向量机通过对待分类数据进行用核函数定义的非线性特征影射¢(x):R n→Z,将其映射到某一更高维特征空间Z中,从而能够线性可分,然后在新的特征空间Z中构造最优分类超平面,形成样本分类的决策规则(图1)。最优分类平面不仅要保证将两类样本错分个数最少,还要求分类间隔最大。错分个数最少保证了经验风险最小,从而使真实风险最小。但在一般情况下,这种低维向高维的变换,可能会比较复杂,不容易实现。考虑最优分类函数只涉及样本之间的内积运算,这样在高维空间也只需内积运算:而这种高维运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换的形式。根据泛函的有关理论,只要一种核函数K(x,y)满足Mercer条件[7],它就对应某一变换空间中的内积。因此在最优分类面中采用适当的核函数就可以实现某非线性变换后的线性分类,而计算的复杂度却没有增加。

图1 支持向量机原理[7]

应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数灾难、产生局部极小点及高维特征等问题,而且在小样本条件下仍然具有良好的推广能力,因而成为智能技术研究的新的热点[9]。SVM在模式识别、回归分析、和概率密度估计等机器学习方面获得了较好的效果,并且已经应用于文本识别、非线性回归建模、生物信息学领域等实际问题中[10,11,12]。

2.1支持向量机在心脏病中的应用

利用SVM等对多生理样本信息进行融合处理,从而形成一种判断模型,根据模型可以对新加的数据做出某种判别。这种判别的能力好坏不仅取决于原始样本数据数量、完整性等,还和建立模型的工具方法有直接的关系。SVM具有良好的泛化性能、结构简单,因此是建立医疗诊断模型的有效方法。如今SVM 广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。可以相信以SVM建立的医疗模型将会成为辅助医疗诊断的重要工具,应当引起相关领域研究人员的高度重视。但在诊断中由于病人存在个体的差异和诊断数据本身的噪声和非线性等,所以要准确的诊断是困难的。而改进的支持向量机,能够去除噪声和孤立点,提高了分类的准确率,其优良特性表明本算法在医疗诊断中具有很大的应用潜力。

在对心脏病数据进行分类时,支持向量机算法相对于其他算法的优势主要表现在以下两个方面:

(1)支持向量机分类器通过求解一个凸二次规划得到,二次规划所得的解

是唯一的且为全局最优解,这样不存在局部极值问题;

(2)支持向量机分类器只由少数支持向量确定,且将非线性问题的求解转化为计算确定的核函数。

徐义田[13]等通过运用结构风险最小化原理和聚类原理,将支持向量机中有监督的分类算法与统计中无监督的聚类算法有机结合起来,对线性可分与线性不可分两种情况分别建立了无监督的分类模型。模型的求解转化为一个二次规划问题,同时此模型也适合于多分类情况。在应用到心脏病的医疗诊断中,准确率为88.5%,明显优于其他诊断方法。有文献[14]报道,利用心电图特征,如各个波形的问期、幅值等信息作为分类依据,采用支持向量机和高阶统计量的方法对心律异常的心拍进行分类。苏枫[15]等通过采用支持向量机SVM 和Adaboost 分类算法,设计高精度的分类模型和分期模型,发现结合Adaboost 和SVM 两种机器学习模型,能为心力衰竭的诊断及分期提供较准确的模型。费胜巍[16]针对SVM 参数选取困难的难题,提出基于PSO的SVM参数优化方法,提出了基于PSO-SVM的心律失常诊断方法,通过PSO优化的SVM分类器具有较高的分类精度,并通过诊断实例证明了其可行性和正确性。

本研究通过检测80例先天性心脏病患者与80例健康对照者的cTnI、hs-CRP、BNP、Lp(a)水平,结果表明病例组的cTnI、hs-CRP、BNP、Lp(a)水平显著高于对照组,差异具有统计学意义。以cTnI、hs-CRP、BNP、Lp(a)四个血清指标建立的支持向量机先天性心脏病诊断模型,经测试结果准确率为85%,同徐义田[13]等报道研究一致。

2.2 支持向量机在结直肠癌中的应用

针对当前医疗领域数据挖掘中分类方法效率低以及分类准确率低等问题,以特征基因选择为主要研究内容,以有效提高基因表达谱分类方法准确性为目标,研究基因表达数据的数据挖掘方法,为肿瘤识别及基因表达数据特征分类提供技术支持,对致病基因与癌症关系的正确理解、肿瘤特征基因的选择和分类,具有重要的理论意义和临床应用价值。

大肠癌是发病率最高的恶性肿瘤之一,早期大肠癌手术后的5年存活率超过90%,晚期癌手术后则低于10%,建立有效的大肠癌筛查与早期诊断方法,以实现早期治疗成为提高患者生存率的关键[17]。Furey等[18]以结肠癌为研究对象,通

过计算信噪比提取特征基因,应用支持向量机的方法分析特征基因表达数据,建立肿瘤预测模型。对结肠癌数据提取了2000个特征基因,在62个样本中预测模型正确分类了56个样本,分类的正确率为90.3%。

Ramaswamy等[18]分析了涵盖14种肿瘤的144个样本的基因表达数据,使用支持向量机方法提取特征基因,并用此方法建立肿瘤预测模型。Zhang等[20]在统一处理中把基因选择和癌的分类、获取高准确率同时实现。采用的算法为SCAD SVM(smoothly clipped absolute deviation)。

在国外,从20世纪90年代末开始,包括Science在内的国际著名期刊陆续发表的论文中公布了许多有价值的研究成果。支持向量机针对基因表达数据的研究,各方面涉及较多,如基因分类、基因功能分类及特征提取等,表明支持向量机技术在信息学中的应用日趋成熟。

K-ras基因野生型大肠癌患者的抗表皮生长因子受体对结直肠癌(epidermal grow th factor receptor,EGFR) 治疗效果好,因此K-ras 基因检测有利于筛选出抗EGFR药物治疗有效的大肠癌患者,从而实现大肠癌患者的个体化治疗,延长患者的生存期,并大大降低治疗的毒性和不必要的费用[21],因此建立了一种基于最小二乘支持向量机数学模型的大肠癌K-ras基因突变预测方法就显得至关重要。将LS-SVM应用大肠癌K-ras基因突变的预测,模型针对训练集的预测正确率达到100%,说明模型的内推能力很强,对检验集的预测正确率达到79.40%, 虽没有测试集的效果好,但是其方差较小,说明模型的稳定性还是很高的。造成测试集效果没有训练集高的原因可能是模型的参数选取和样本K-ras突变量较少,应用LS-SVM 预测模型预测大肠癌K-ras基因突变是可行的,如果再与测序的结果相印证,就大大提高对突变能检测的信度[22]。

目前,已有的血清肿瘤标志物对结直肠癌诊断过程中大都特异性低、灵敏性差,但非特异性的血清肿瘤标记物对结直肠癌早期癌诊断以及预后监测仍具有一定的临床价值【23】。在统计学中,用来作为衡量某特征特异性的方法有很多,目前用的最多的是距离度量。距离度量也可称作“离散度准则”、“类别可分离判据”。距离作为统计模式识别中的一个重要概念,主要包括巴氏距离、欧氏距离和马氏距离,而巴氏距离往往用于基因表达谱特征的分析,不管是维数高还是维数低的数据都较为适用,其应用范围较广。

本研究结果表明,当采用12个指标联合建立SVM模型时,模型分类的准确度为73.33%,不够理想。联合CEA、NSE、CYFRA21-?、AFP、CA724等7项指标建立SVM模型,判别准确率可达86.67%。这表明,选用过多的指标联合鉴别结直肠肿瘤的良恶性,可能会由于指标冗余而干扰其中有用指标判别的效果,造成判别准确率的降低。本研究采用巴氏距离判别法可以有效筛选出特异性较高的指标,联合特异性较高的指标可以建立准确率较高的SVM诊断模型。

当采用巴氏距离最高的4个指标:CEA、NSE、CA724、AFP建立SVM模型时,模型的判别准确度为80%,反低于联合7个指标建立的模型准确度。这表明,选用的指标并不是越少越好,指标过少可能会导致判别结果不稳定,出现一定的偶然性。

3. BP神经网络在医疗数据中的应用

BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各个神经元,最后传递到输出层神经元,经处理后完成正向传播处理过程,由输出层向外界输出信息处理结果。实际输出与期望输出不符时,进入误差的反向传播阶段。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,一直进行到网络输出的误差减少到可以接受的程度。BP神经网络结构如图2[24]所示:

图2 BP神经网络结构

BP神经网络主要包括输入层,隐含层和输出层三个组成部分。输入层和输出层各为一层,根据所研究问题的复杂程度和样本量的大小,隐含层可以是单层也可以是多层。上图所示为隐含层包含二层的BP神经网络模型。

神经网络是一个具有高度非线性的超大规模连续时间动力系统。是由大量的处理单元(神经元)广泛互连而形成的网络。它是在现代神经科学研究成果的基础上提出的,反映了脑功能的基本特征。但它并不是人脑的真实描写,而只是它的某种抽象、简化与模拟。网络的信息处理由神经元之间的相互作用来实现;知识与信息的存储表现为网络元件互连问分布式的物理联系;网络的学习和计算决定于各神经元连接权的动态演化过程。因此神经元构成了网络的基本运算单元。每个神经元的输入信号是所有与其相连的神经元的输出信号加权后的和,而输出信号是其净输入信号的非线性函数。根据网络拓扑结构和学习规则,可将人工神经网络分为多种类型,如不含反馈的前向神经网络、层内有相互结合的前向网络、反馈网络、相互结合型网络等。

BP神经网络不需要精确的数学模型,对自变量和因变量没有任何假设要求,自变量和变量可以是连续也可以是离散,而且BP神经网络具有很强的容错性和

联想记忆功能[25]。理论上讲,一个训练好的BP神经网络能逼近任何自变量和因

变量之间的函数关系,BP经网络通过模拟人的智能行为可以处理一些复杂、不确定、非线性的问题,所以说BP神经网络为解决没有先验知识、模糊的、复杂的、非线性的问题提供了一个全新而且有效的途径。

由于人工神经网络是基于对人脑组织结构、活动机制的初步认识而提出的一种新型信息处理体系,因此它可以呈现出人脑的许多特征,并且具有人脑的一些基本功能。

(1)并行分布处理:人工神经网络是由大量简单处理元件相互连接构成的高度并行的非线性系统,具有大规模并行性处理特征。虽然每个处理单元的功能十分简单,但大量简单处理单元的并行活动使网络呈现出丰富的功能并具有较快的速度。一个神经网络可存储多种信息,其中每个神经元的连接权中存储的是多种信息的一部份。当需要获得已存储的知识时,神经网络在输入信息激励下采用“联想”的办法进行记忆,因而具有联想记忆功能。神经网络内在的并行性与分布性表现在其信息的存储与处理都是空间上分布、时间上并行的。

(2)自学习、自组织与自适应性:当外界环境发生变化时,神经网络能在外部刺激下按一定规则调整神经元之间的突触连接,调整结构参数,逐渐建立起新的神经网络。

(3)鲁棒性:神经网络有很好的鲁棒性,一方面,由于信息的分布式存储,当网络中部分神经元损坏时不会对系统的整体性能造成影响,这一点就象人脑中每天都有神经细胞正常死亡而不会影响大脑的功能一样:另一方面,当输入模糊、残缺或变形的信息时,神经网络能通过联想恢复完整的记忆,从而实现对不完整输入信息的正确识别。

(4)分类与识别:人工神经网络对外界输入样本具有很强的识别与分类能力。对输入样本的分类实际上是在样本空间找出符合分类要求的分割区域,由于神经网络可以很好地解决对非线性曲面的逼近,因此比传统的分类器具有更好的分类与识别能力[26]。

3.1 BP神经网络在心脏病中的应用

心脏病(heartdisease)位居世界卫生组织列出的人类健康“十大杀手”之榜首,全世界每年有数百万人死于心脏病。在我国,每年有几十万人死于心脏病。由于心脏病的病理形态、功能改变和临床表现等方面可涉及多系统、多脏器,往往又

有各种并发症和伴发症存在,而且疾病表征还具有模糊性、不确定性和游走性等特点,因此心脏病的准确诊断一直是医学临床上的一个重点和难点,用人工智能方法建立心脏病决策支持系统就具有重要的临床意义。在我国,心脏病以高血压性心脏病、冠状动脉粥样硬化性心脏病、风湿性心脏病、慢性肺原性心脏病和先天性心脏病这五种心脏病最为常见,对人们健康危害也最大。因此,本章采用人工神经网络方法,构建了一个基于人工神经网络的诊断决策支持系统来鉴别诊断这五种常见的心脏病。

根据遗传算法的基本原理和方法,对基本遗传算法进行了改进,并将遗传算法与神经网络BP算法相结合,构建了一个基于混合遗传算法医学诊断决策支持系统,将该系统用于心脏病的辅助诊断中,实验结果表明,本章构建的混合遗传算法医学诊断决策支持系统不仅能对五种常见心脏病有较好的分类识别能力,表现出良好的心脏病临床决策支持能力。根据遗传算法可以挖掘属性对象内部关系的特性,我们还探索了疾病的重要诊断参量的提取方法。

全国总体手术构成:先心病居首位( 60%-65%),瓣膜病次之( 2O%-25%),冠心病外科第3位(10%-2O%),我国每年超过150,000病人进行心脏手术,有8,000,000心脏病人需要进行心脏手术治疗。针对中国心胸外科发展趋势和现状,如果能不断提高诊断水平、增强风险意识,将会造福更多的心胸疾病患者。

传统心脏病诊断方法医生根据患者病史、病状、检查结果,并用所学病理知识和经验进行综合分析得出诊断结果。随着人工智能技术的发展,为避免人为和主观因素,得到更为准确和客观的心脏诊断结果。本文拟采用神经网络技术,使用克利夫兰诊所基金会提供的疾病数据,分别建立BP、RBF和LVQ神经网络三种诊断方案,应用于心脏病诊断。

文献[27]利用室性早搏心拍和室上性早搏心拍的小波特征形态和RR间期参

数作为BP神经网络的输入,实现了正常、室性早搏和室上性早搏的识别。文献[28]利用心电波形的四阶回归模型系数作为BP网络的输入层,可用来识别正常心拍、房性早搏以及室性期前收缩。文献[29]利用BP神经网络进行心拍分类。但BP神经网络存在两个重要问题:收敛速度慢和目标函数存在局部最小点。文献[30,31]中采用了遗传算法(genetic algorithm,GA)来优化BP网络,实现了正常心拍、左束支阻滞、室性早搏等心律失常的分类,取得了一定的效果。李刚[32]等

人在BP网络训练之前引入LADT压缩算法对心电数据进行处理,与传统的BP 神经网络相比,其训练、测试速度与分类精度有很大的提高。而本研究纳入所有4个参数,建立BP神经网络,对训练好的网络分两步进行测试,首先对训练样本进行测试,先天性心脏病病例的正确检出率为100%,误诊率为0,进一步对于测试集样本正确检出率为100%。

3.2 BP神经网络在结直肠癌中的应用

结直肠癌是世界上最常见的恶性肿瘤之一,其发病率分别居男、女性恶性肿瘤的第3和第2位,死亡率居世界恶性肿瘤的第4位[33]。近年来,随着我国经济的发展,居民饮食结构和生活方式发生了明显改变,结直肠癌发病率在快速上升,有研究表明20世纪90年代与70年达相比,我国城市结直肠癌发病率上升了31.95%,农村增加了8.51%,2005年因结直肠癌死亡人数较1991年增加70.7%,平均每年增长4.7%[34]。有研究发现,结直肠癌发病率在我国天津、上海等大城市已居于男性第3位,女性第2位[35]。结直肠癌是一种预后较差的恶性肿瘤,尽管临床诊治水平在不断提高,但结直肠癌患者的预后状况仍然不乐观,5年生存率徘徊在50%左右[36,37]。

在临床实践中,临床医生经常需要根据某些危险因素判断患某种疾病的可能性以及判断患者的生存时间或者预后等,传统统计学方法在预后研究中有一定的局限性,而BP神经网络可以用于预后研究,在大肠癌预后研究中,BP神经网路在模型拟合和预测方面都取得较好效果,且BP神经网络与Logistic回归模型性能比较显示:在大肠癌预后研究中,BP神经网络不论是在模型拟合还是前瞻性预测方面都优于传统统计学方法Logistic回归模型[38]。

BP神经网络对资料不作任何假设,输出变量可以是分类型变量也可以是连续型变量,因而可以用于肿瘤患者术后生存期的预测。贺佳等[39]采用BP神经网络方法预测肝癌患者的术后无瘤生存期,结果显示,网络的回代贡献率83.94%,网络对检验集的贡献率为71.11%,经检验,预测值与实际值相符(P=0.692)。赵振[40]的研究结果显示BP神经网络预测肝转移患者术后生存期与实际结果相比没有显著性差异。陈权[41]通过用BP神经网络训练,效果虽不太理想,但依然能够进行有效预测,预测结果与实际结果间没有显著性差异(t=0.576,P>0.574),研究结果表明BP神经网络能有效应用于结直肠癌患者术后生存期的预测。姚尧

之[42]研究表明,在对大肠癌早期荧光光谱数据进行处理后,通过BP神经网络进行癌组织与非癌组织识别,识别准确率较高,这对推动大肠早癌诊断进入临床运用具有较好的作用。

本研究中,纳入12个血清指标建立的BP神经网络,对训练好的网络进行测试,测试分两部分进行。首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊率为0,进一步对于50例测试集样本正确检出率为100%。纳入AUC 面积在0.8以上的9个指标:CEA、CA50、HSP60、CYFRA21-1、TPA、CA242、CA724、CA125、UGT1A8,建立的BP神经网络,对训练好的网络分2部分进行测试,首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊率为0,进一步对于50例测试集样本正确检出率为100%。纳入AUC面积在0.9以上的指标CEA、CA50、HSP60、CYFRA21-1、TPA、CA242、UGT1A8,建立的BP 神经网络,对训练好的网络分两部分进行测试,首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊率为0,进一步对于50例测试集样本,有48例预测正确,2例预测失败,正确检出率为98%,误诊率为2%。结果表明,BP 神经网络建立的诊断模型在结直肠癌的诊断中准确率高,具有很好的应用前景。

4. Logistic回归分析在医疗数据中的应用

Logistic 回归分析是Cox于1970年最早提出的一种概率模型,属于概率型非线性回归,主要用于处理因变量是分类型变量的资料,它巧妙的避开了分类型变量的分布问题,转化为研究因变量取某一值时的概率,因变量取某一值时相应概率的取值范围为0-1,弥补了线性回归和广义线性回归分析不能处理因变量为分类型变量的缺陷,使得近年来Logistic回归模型被广泛应用于医学研究的各个领域,如流行病学、病因学研究、病例对照研究、临床诊断的判别模型以及治疗效果的评价等。Logistic回归分析在单独面对医学领域日益庞大和复杂多变的数据信息时,往往受到一定的限制,无法使数据信息得到充分利用,应用不当还会得出错误结论。因此,随着统计学方法的不断发展,Logistic回归分析在医学研究的文献资料中常常不再单独出出现,而是与其它方法相互结合,充分利用资料中的信息,进而得出相对准确的结论。

Logistic回归分析因变量最常见的类型为二值变量,如阳性与阴性,生存与死亡,有效与无效等;此外,Logistic回归分析还常用于处理因变量为多分类变

量或有序变量的资料。Logistic回归分析对自变量类型没有要求,自变量可以为

连续变量,也可以为分类变量或有序变量。Logistic回归模型用公式表示如下:

式中β0为常数项,又称为截距,βi为回归系数,X为回归方程的自变量,P表示在m个自变量的作用下,因变量取某一值时的概率,范围为0-1。回归系数β

表示在其他自变量不变,X i每改变一个单位时Logit P 的改变量,标准化偏回归i

系数是评价影响因素作用大小的指标,与相对危险度(RR)或比值比(OR)呈对应关系,OR=exp(βi),当发病率很低时,OR≈RR。发病率较低的疾病,如恶性肿瘤,比值比可以作为相对危险度的估计值。

Logistic回归模型是一种概率模型,适合于病例-对照组研究、随访研究和横断面研究,且结果发生的变量必须是二分的或多项分类。Logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。

4.1 Logistic回归分析在先天性心脏病中的应用

先天性心脏病(congenital heart disease,CHD) 即指先天性心血管疾病, 是由于心脏、血管在胚胎发育过程中的障碍所至的心脏、血管形态结构、功能、代谢上的异常。研究表明,71%的CHD患儿可存活到生育年龄以后。可见CHD已成为影响我国儿童身心健康及人口生存质量的重大公共卫生问题,给社会和个人带来了沉重的经济和精神负担。对于CHD的病因,目前较普遍的观点认为CHD 的发生绝大多数是遗传因素和环境因素相互作用的结果,即多因子遗传疾病或多基因遗传疾病,强调在内在多基因遗传基础上,胚胎在心管、血管形成过程中遇到各种外界环境致畸原所触发而引起的,约占CHD的80% -90%[43,44]。同时,CHD 危险因素、统计分布存在国家和地域性差异。利用单因素条件Logistic回归可对可能的影响因素进行初选、数据结构分析和适当的变量函数转换。然后对初选的可疑危险因素进行共线性诊断,改进变量间的共线性关系后用多因素条件Logistic逐步回归作进一步筛选,建立并评价先天性心脏病影响因素的最优回归模型。

本研究通过Logistic回归分析表明cTnI、BNP、Lp(a)等血清指标均与先天性心脏病具有显著的相关关系,联合诊断时cTnI、BNP、Lp(a)三者两两结合与先天性心脏病相关,联合检测ROC曲线结果表明cTnI、BNP、Lp(a)三者两两结合的AUC均大于0.9,具有较高的诊断价值。

4.2 Logistic回归分析在结直肠癌中的应用

结直肠癌是常见的消化道恶性肿瘤,其发病率和病死率均较高,充分了解结直肠癌的预警症状、掌握结直肠癌的发病特点和临床特征是及时诊断并制定有

效治疗方案的基础,因此可采用Logistic回归分析对结直肠癌各临床特征与诊断关系进行预测。梁君林等[45]通过应用单因素和多因素Logistic回归分析,对结直肠癌根治术后患者的临床病例资料进行回归分析,淋巴结转移(数目或部位)和肿瘤分化程度是影响Dukes C期结直肠癌术后复发转移最重要的独立因素,对于判断预后、指导术后治疗及随访方案的制订具有重要作用。李增军等[46]研究报道,Logistic回归分析显示,淋巴结转移、肠壁浸润深度是影响结直肠癌术后复发转移重要的预后因素。屠世良[47]通过Logistic分析得出的与直肠癌淋巴结转移相关因素按密切程度依次递减为:浸润深度、大体类型、分化程度、肿瘤大小,这对术后复发的防治提供了理论依据。

本研究第二章利用Logistic回归分析和ROC曲线分析两种方法,从CEA、HSP60、CYFRA21-1、TPA、AFP、CA199、CA242、CA50、CA724、CA125、CA153和UGT1A8等12个结直肠癌肿瘤标志物指标中,筛选出CEA、CA199和HSP60三个指标,纳入Logistic回归模型,该模型的AUC为0.906,明显高于三种肿瘤标志物任一指标的AUC,但该诊断模型的准确率(82.67%)低于联合CEA、NSE、CYFRA21-?、AFP、CA724等7项指标建立的SVM模型(86.67%)。顾平等【48】应用Logistic回归分析筛选出诊断价值较高的结直肠癌肿瘤标志物,然后采用ROC曲线探讨了CEA、CA199及CA50在结直肠癌中的诊断价值,结果发现:结直肠癌-良性结直肠病中,CA50的曲线下面积(AUC)要高于CA199的AUC,而CEA、CA50两项联合诊断结直肠癌的AUC(0.875)均高于单项检测及CEA、CA199、CA50三项联合诊断的AUC(0.604),由结果可知Logistic回归分析作为一种统计学方法手段,可以提高诊断的特异性和灵敏度,这与国外研究报道一致[49]。

近年来,快速发展的信息技术与现代医学越来越紧密地结合在一起,产生

的生物医学信息处理技术特别是计算机辅助诊断模型的建立在疾病的诊断及预后评估中得到了很好的应用。

目前,生物医学信息处理主要包括医学图像及数据处理与分析、计算机辅助诊断与治疗系统、医学信号的检测与处理和基于基因技术的生物信息学。本文中以相关血清标记物为参数基于SVM、BP神经网络及Logistic回归分析建立的诊断模型,在先天性心脏病和结直肠癌的诊断中均表现出了较好的应用效果,与先前的研究表现出了一致性。表明生物信息学作为一门崭新的综合性学科,在医学应用上有着广阔的空间和前景。

[1] Chen R, Jiang Q, Yuan H,et al. Mining Association Rules in Analysis of Transcription Factors Essential to Gene Expressions[J]. Atlantic Symposium on Computational Biology and Genome Information System & Technology, March 2001.

[2] 李新胜.等. 生理信息融合技术的研究进展[J]. 生物医学工程学杂志,2000:17 ( 4 ):464-468.

[3] 左森,郭晓松.基于支持向量机的实时路面检测算法[J].计算机工程,2007,33(4):225-227.

[4] Xue Wang,Daowei Bi,8heng Wang.Fault Recognition with Labeled Multi—category Support Vector Machine[J].IEEE Transaction on Neural Computation,2007,24(27):567-571.

[5] Vapnik VN. An overview of statistical learning theory[J]. IEEET rans Neural Netw ork,1999,10 (5):988-999.

[6] Vapnik VN. The Nature of Statistical earning theory [M]. New York: Springer- Verlag, 1999.

[7] Vapnik V. The nature of statistical learn in g theory. New York: Springer-V erlag, 1995.

[8] 范子雄,向平等.支持向量机在心脏病诊断中的应用[J].科学技术与工程,2006,6(1):56-63.

[9] Nello C, John ST. 李国正等译.支持向量机导论[M]. 第1版.北京:电子工业出版社, 2004, 24-45.

[10] 刘阳.基于SVM的蛋白质相互作用位点的预测研究[D]. 上海:上海大学硕士

学位论文,2006.

[11] 杨铁建. 基于支持向量机的数据挖掘技术研究[D]. 西安:西安电子科技大学, 2006.12.

[12] Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. The 10th European Conference on Machine Learning, Chemists, DE, 1998, V ol.1398, 137-142.

[13] 徐义田, 王来生等.基于SVM的分类算法与聚类分析[J]. 烟台大学学报(自然科学与工程版, 2004, 17(1):10-13.

[14] BesrourR, Lachiri Z. ECG beat classifier using support vector machine. IEEE Inform Commun Technol. 2008; 3: 1-5.

[15] 苏枫,张少衡等.基于机器学习分类判断算法构建心力衰竭疾病分期模型[J].中国组织工程研究, 2014,18(49): 7938-7942.

[16] 费胜巍. 基于ECG信号的健康监测与诊断系统研究[D]. 上海: 上海交通大学, 2009. 11

[17] Weinberg DS. In the clinic:colorectal cancer screening. Ann Intern Med, 2008, 148( 3): ITC2-1-I TC2-16.

[18] Terrence S, Nello C, Nigel D, et al. Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarray Expression Data[J].Bioinformatics, 2000, V ol. 16 No.10: 906-914.

[19] Sridhar Ramaswamy, Pablo Tamayo,Ryan Rifkin, et al.Multiclass cancer diagnosis using tumor gene expression signatures[J]. PNAs. 2001,V ol.98,No. 26: 15149-15154.

[20] Z Hao.A Jeongyoun. L Xiaodong. Gene selection using support vector machines with non-convex penalty[J]. Bioinformatics.V ol.00 No.00 2005 Page1-8.

[21] Ma W W, Adjei AA . Novel agents on the horizon for cancer therapy. CA Cancer J Clin, 2009, 59( 2): 111-137.

[22] 单连峰, 李新等. 基于最小二乘支持向量机的大肠癌K-ras基因突变预测[J].山西医药杂志.2011,40(4):339-340.

[23]

[24] 陈权.BP神经网络在结直肠癌预后研究中的应用[D].武汉:华中科技大学.2011.12.

[25] 邓伟, 金丕焕. 人工神经网络及其在预防医学中的应用[J]. 中国公共卫生, 2002, 18(10): 1265-1267.

[26] R.O.Duda,P.E.Hart and D.G.Strok.Pattern Classification(second edition).Wiley.2001.

[27] Ince T ,Kiranyaz S, Gabbouj M. A generic and robust system for automated patient-specific classification of ECG signals. IEEE Trans Biomed Eng 2009; 56(5):1415-1426.

[28] Srinivasan N. Autoregressive modeling and classification of cardiac arrhyth mias Proc EMBS/BMES. 2002; 2: 1405-1406.

[28] 张泾周, 李陈, 李婷, 等. 基于神经网络的心电信号分类方法研究[J].中国医疗器械杂志, 2008, 32(3): 183-186.

[30] Osowski S, Siroic R. Genetic Algorithm of Integration of Ensemble of Classifiers in Arrhythmia Recognition. International Instrumentation and Measurement Technology Conference. Singapore. 2009.

[31] Gacek A, Pedrycz W. A genetic segmentation of ECG signals. IEEE Biomed Eng. 2003; 10(5O): 1203-1208.

[32] 李刚, 叶文宇, 何峰等. 基于LADT-BP算法的心电图快速分析[J].中国生物医学工程学报, 2001,20(2): 127-131.

[33] Ferlay J, Shin HR, Bray F, et al. Estimates of worldwide burden of cancer in 2008: GLOBOCAN 2008. [J]. International Journal Of Cancer, 2010, 127(12): 2893-2917.

[34] Richie JP, Catalona WJ, Ahmann FR, et al. Effect of patient age on early detection of prostate cancer with serum prostate-specific antigen and digital rectal examination. [J]. Urology, 1993, 42(4): 365-374.

[35] Catalona WJ, Smith DS, Ornstein DK. Prostate cancer detection in men with serum PSA concentrations of 2.6 to 4.0 ng/mL and benign prostate examination:Enhancement of specificity with free PSA measurements. [J]. JAMA, 1997,277(18): 1452-1455.

[36] Elter M, Schulz-Wendtland R, Wittenberg T. The prediction of breast cancer biopsy outcomes using two CAD approaches that both emphasize an intelligible decision process. [J]. Medical Physics, 2007, 34(11):4164-4172.

[37] Lee HJ, Hwang SI, Han SM, et al. Image-based clinical decision support for transrectal ultrasound in the diagnosis of prostate cancer: comparison of multiple logistic regression, artificial neural network, and support vector machine. [J]. European Radiology, 2010, 20(6):1476-1484.

[38] 温变珍. BP神经网络在大肠癌预后分析中的应用[D].山西: 山西医科大学,2010.5

[39] 贺佳, 张智坚,贺宪民. 肝癌术后无瘤生存期的人工神经网络预测[J]. 数理统计与管理, 2002,21(4):14-16.

[40] 赵振. Cox 比例风险模型与BP 神经网络在肝移植受体预后分析中的应用

[D]. 硕士毕业论文, 四川大学, 2006.

[41] 陈权.BP神经网络在结直肠癌预后研究中的应用[D].武汉: 华中科技大学, 2011.12

[42] 姚尧之.基于神经网络的大肠早癌诊断系统研究[D]. 长沙: 中南大学, 2007.

[43] 唐胜才. 先天性心脏病的病因[J].中级医刊, 1995, 30( 2) :4-61

[44] 毛霞综述, 马沛然审校.先天性心脏病的病因与发病机理研究概况[J].陕西医学杂志, 1996, 25( 12) : 732-7341

[45] 梁君林, 万德森, 潘志忠等.Dukes C期结直肠癌根治术后复发转移因素的L ogistic回归分析[J]. 实用癌症杂志, 2003,18(5):495-497.

[46] 李增军,孙燕来等.结直肠癌根治术后复发转移相关因素分析[J].山东大学学报(医学版), 2007,45(8): 849-851.

[47] 屠世良, 叶再元等. 结直肠癌淋巴结转移的规律及其影响因素[J].中华胃肠外科杂志, 2007,10(3): 57-260.

[48]

[49] Ferraris R, Senore C Fracchia M: SCORE Working Group, Italy. Predictive value of rectal bleeding for distal colonic neoplastic lesions in a screened population. Eur J Cancer, 20 04, 40 ( 2): 24 5-252.

生物信息学

1.1简述DNA双螺旋结构模型要点 a.DNA两条链逆平行、围绕同中心轴右手螺旋的双链结构,双螺旋结构的直径为2.0nm,螺距为3.4nm。 b.脱氧核糖和磷酸基团构成亲水性骨架位于双螺旋结构的外侧,疏水碱基位于螺旋内侧。每周约10个碱基。 c.两条链借助彼此之间的的氢键结合在一起。AT配对有两个氢键GC配对有三个氢键。每两个碱基对之间的相对旋转角度为36° d.双螺旋结构的表面形成了一个大沟(major groove)和一个小沟(minor groove)。 1.2 名词解释:DNA的变性与复性;DNA分子杂交 DNA的变性:在某些理化因素作用下,DNA双链解开成两条单链的过程。DNA变性的本质是双链间氢键的断裂。 DNA的复性:当变性条件缓慢地除去后,两条解离的互补链可重新配对,恢复原来的双螺旋结构,这一现象称为DNA复性(renaturation) 。 DNA分子杂交:热变性的DNA在缓慢冷却过程中,具有碱基序列互补的不同DNA之间或DNA与RNA之间形成杂环双链的现象称为核酸分子杂交。 1.3 简述核酸分子杂交技术 不同种类的DNA单链分子或RNA分子放在同一溶液中,只要两种单链分子之间存在着一定程度的碱基配对关系,在适宜的条件可以在不同的分子间形成杂化双链(heteroduplex)。这种杂化双链可以在不同的DNA与DNA之间形成,也可以在DNA和RNA分子间或者RNA与RNA 分子间形成。这种现象称为核酸分子杂交 1.4生物体内氨基酸有180多种,组成蛋白质的氨基酸只有(20)种,都是(α-氨基酸)。 1.5 写出氨基酸的结构通式 1.6名词解释:氨基酸的等电点 氨基酸的等电点:调节氨基酸溶液PH值,使氨基酸溶液中的氨基和羧基的解离度完全相等,即氨基酸所带静电荷为0,在电场中既不向阴极移动,也不向阳极移动,此时,氨基酸溶液的PH 值称为该氨基酸的等电点,以符号PI表示。 2.1 Sanger通过氨基酸与(2,4-二硝基氟苯(DNFB))反应测定了胰岛素的序列。 2.2 Edman反应是指用(苯异硫氰酸酯(PITC))与氨基酸的氨基发生反应来测定多肽序列的。 2.3名词解释:肽键与肽平面 肽键:氨基酸与氨基酸之间脱水缩合之后形成肽链其中一个氨基酸上的氨基与另一个氨基酸上的羟基脱水缩合后形成的就叫肽键即-CO-NH-. 肽平面:与肽键相关的6个原子共处于一个平面,称为酰胺平面或肽平面。 肽键具有一定程度的双键性质,参与肽键的六个原子C、H、O、N、Cα1、Cα2不能自由转动,位于同一平面,此平面就是肽平面,也叫酰胺平面。 2.4详细叙述蛋白质的分子结构。 一级结构:组成蛋白质多肽链的线性氨基酸序列。 二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠。 三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。 2.5 蛋白质二级结构的有哪几种?

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学医学数据

生物信息学在医学数据分析中的应用 1.前言 随着信息技术的飞速发展,医疗数据以爆炸般的速度积累增长,特别是临床医疗数据的大量积累,但是如何有效的整合和利用这些数据进行科学研究,这就对有效数据的管理和挖掘提出了更高的要求。 近年来,数据挖掘得到迅速发展,并逐渐应用到现实生活中,在分类分析方面表现相当出色,因此,已有专家将数据挖掘技术与基因表达数据分类问题相结合,发掘基因之间的关联联系,基因表达正常与非正常的活动范围,由此来理解基因表达的内在规律[1],给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题: 一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中,有的甚至存在于医生手写的随访记录本当中,这样分散存在的数据不利于收集、整合与分析。 二是以往的临床科学研究都是以手工的方式去收集和整合数据,数据的可靠性和准确性得不到保证,而且容易产生数据丢失。与此同时,人工收集数据工作量大,数据采集速度慢、试验周期长的状况,这对临床科研数据的统计和分析结果的准确性提出来质疑。 三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中,效率滞后,容易影响科研进度。 针对上述几个问题,为确保收集数据的准确性、有效性和完整性,以便进行统计分析,基于临床科研的数据管理系统应运而生。 2. 支持向量机在医疗数据中的应用 在疾病检测中,单一的生理信息不足以反映人体的健康状况,因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种,甚至几十种理化指标。医生综合这些检测的数据,根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然,这种诊断是主观性的,对同一个人,有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型,并将这种模型在计算机上实现,利用这一模型可以帮助医生对待测人体做出更客

生物信息学数据库或软件

一、搜索生物信息学数据库或者软件 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库有GenBank,EMBL,DDB等,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank ,欧洲分子生物学实验室的EMBL-Bank(简称EMBL),日本遗传研究所的DDBJ 蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等, 蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等, 三维结构数据库有PDB,NDB,BioMagResBank,CCSD等, 与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等, 与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等, 文献数据库有Medline,Uncover等。 另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。 二、搜索生物信息学软件 生物信息学软件的主要功能有: 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间; 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能; 蛋白高级结构预测。 如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。 NCBI的网址是:https://www.doczj.com/doc/2118141446.html,。 Entrez的网址是:https://www.doczj.com/doc/2118141446.html,/entrez/。 BankIt的网址是:https://www.doczj.com/doc/2118141446.html,/BankIt。 Sequin的相关网址是:https://www.doczj.com/doc/2118141446.html,/Sequin/。 数据库网址是:https://www.doczj.com/doc/2118141446.html,/embl/。

生物信息学复习题及答案

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学在医学领域的应用研究现状

生物信息学在医学领域的应用研究现状 摘要生物信息学是研究生物信息处理(采集、管理和分析应用),并从中提取生物学新知识的一门科学,它连接生物数据和医学科学研究。生物信息数据库几乎覆盖了生命科学的各个领域,截止至2010年,总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。 关键词生物信息学,医学,应用 前言据统计,生物学信息正以每14个月翻一倍的速度增长。随着基因组及蛋白质序列数据库的快速增长,以及从这些序列中获取最大信息的需求,生物信息学(bioinformatics)作为一门独立学科应运而生。简言之,生物信息学就是利用计算和分析工具去收集、解释生物学数据的学科。生物信息学是一门综合学科,是计算机科学、数学、物理、生物学的结合。它对于管理现代生物学和医学数据具有重大意义,其研究成果将对人类社会和经济产生巨大推动作用。生物信息学的基础是各种数据库的建立和分析工具的发展。 数据库 迄今为止,生物学数据库总数已达500个以上。归纳起来可分为4大类:即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库,以及以上述3类数据库和文献资料为基础构建的二级数据库。 生物信息学在临床医学上的应用 1.疾病相关基因的发现:很多疾病的发生与基因突变或基因多态性有关。发 现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。目前发现新基因的主要方法有多种:(1)基因的电脑克隆:所谓基因的“电脑克隆”, 就是以计算机和互联网为手段,发展新算法,对公用、商用或自有数据库中存储的表达序列标签(express sequence tags,EST)进行修正、聚类、拼接和组装, 获得完整的基因序列, 以期发现新基因。(2)通过多序列比对从基因组DNA 序列中预测新基因[1]:从基因组序列预测新基因,本质上是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。(3)发现单核苷酸多态性[2]:现在普遍认为SNPs研究是人类基因组计划走向应用的重要步骤。这主要是因为SNPs将提供一个强有力的工具,用于高危群体的发

生物信息学在生物医学文献中自动提取疾病相关信息的运用

生物信息学在生物医学文献中自动提取疾 病基因点突变信息的运用 生物信息学(Bioinformatics)一词由美籍学者林华安博士(Hwa A.Lim)首先创造和使用。生物信息学是多学科的交叉产物,涉及生物、数学、物理、计算机科学、信息科学等多个领域。狭义的讲,生物信息学是对生物信息的获取、存储、分析和解释;计算生物学则是指为实现上述目的而进行的相应算法和计算机应用程序的开发。这两门学科之间没有严格的分界线,统称为生物信息学。生物医学研究的重要目标就是找到突变和相应的疾病表型。但是大多数的疾病相关的突变数据都以文本的形式埋藏在生物医学文献之中,缺乏必要的结构来便于检索和查找。 信息的快速更新和持续增长的文献储存使得提取这些突变信息变得困难。蛋白质和DNA的突变信息储存在像Mendelian inheritance in man(OMIM)和Swiss-Prot 等数据库中。数据挖掘的方法从这些数据库中提取突变信息可以达到0.98的准确性,但是还没有正确的自动转到疾病相关的突变的方法。现有算法可以实现鉴定点突变(比如MutationFinder)或者突变和其相关的基因以及蛋白质的名称(比如MEMA和MuteXe)。大多数“突变+基因”的方法可以通过各自不同的界面和算法来实现对点突变信息的表述和文本数据收集。比如:Mutation Grab采用基于图表的(Graph based)的方法,而MutationMiner采用结构可视化的方法来表现。但是所有方法都关注于提取点突变和相关基因的正确性。 新的高效的从生物医学文献中鉴别点突变以及他们和疾病表型的关系。结合了数据挖掘(data mining)和序列分析(sequence analysis)来鉴定点突变和相关疾病。采用PubMed引擎来从MEDLINE中检索一系列摘要。将词汇索引控制在MEDLINE's Medical Subject Heading (MeSH)。根据MeSH提交一个简单的查询“mutation"然后下载所有可用的摘要,为XML格式。用MetaMap来鉴定疾病 状态。在生物领域中,最大的词汇资源为United Medical Language System (UMLS)Metathesaurus。MetaMap是专门发现Metathesaurus中的生物医学实体的软件。用MetaMap来鉴定题目和摘要中的疾病的名称。其方法如下:(1) EMU突变抽取工具被用来从突变疾病相关的文库中来鉴定和检索突变。同时也从文本中识别基因的名称。(2)应用一个过滤器(SEQ_Filter)来排除所有氨基酸和报道的相关蛋白序列中的不同的突变。(3) SEQ前后的结果可以人为建立一个全注释的疾病突变数据库。 首先,用EMU来鉴定基因信息。在生物医学文献中,基因和蛋白质的记录没有一个标准的形式。所以自动抽取基因和蛋白质信息是在数据挖掘上的一个很大的挑战。我们采用在内部词典中来进行字串查找(string look up)来确的基因的名字。使用Human Gnome Organization(HUGO)和National Center for Biotechnology Information (NCBI)的数据库来进行。所有和密码子一样的基因名称被除去了。其次,用SEQ_Filter来过滤氨基酸位置上不一致的突变。对于在摘要中鉴定的基因名称和突变,都可以在NCBI中查找了相应的蛋白质信息。对于每个蛋白质,根据相应位置上的突变来确定野生型的氨基酸。如果在突变位置的野生型氨基酸(或者突变型)至少有一个相关的蛋白质,那么基因和突变之间的联系证明是有效的。最后,建立黄金标准(gold standards)。和疾病基因相

生物信息学在医学领域的应用前沿

生物信息学在医学领域的应用前沿 摘要:生物信息学是有生命科学、信息学、数学、物理、化学等学科相互交融而形成的新兴学科。生物信息数据库几乎覆盖了生命科学的各个领域,截止至2010年,总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。 关键词:生物信息学;医学;基因;应用 生物信息学是20世纪80年代以来随着人类基因组生命科学与信息科学以及数学、物理、化学等学科相互交融而形成的新兴学科,是当今最具发展前途的学科之一。人类基因组计划的顺利推进产生了海量基因数据,这些数据中蕴藏着丰富的生物学内涵,如果能充分挖掘并加以利用,可能揭示出很多对人类有用的信息。生物信息学已经成为生物学、医学、农学、遗传学、细胞生物学等学科发展的强大推动力量。随着生物信息学研究的深入与发展,它已不断渗透到医学领域的研究中。近年来,伴随着对基因组的研究不断深入,部分应用领域取得了令人瞩目的突破,其潜在的经济利益更是吸引了众多国家、企业及大量科研人员投入到相关研究中,生物信息学得到了迅猛的发展。 一、主要数据库 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。截止至2010年,生物信息数据库总数已达1230个。生物信息数据可可分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释,如Genbank数据库、SWISS-PROT数据库;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理,如人类基因组图谱库GDB。 在医学领域中常用的生物信息数据库主要有:核酸类数据库,如NCBI核苷酸序列数据库(Gen Bank )、欧洲核苷酸序列数据库(EMBL)、日本DNA 数据库(DDB)等;蛋白相关数据库,如蛋白质数据库(SWISS-PROT)、蛋白质信息资源库(HR)、Entrez 的蛋白三维结构数据库(MMDB)、蛋白质交互作用数据库(DIP)等;疾病相关数据库,包括综合临床数据库,如NCBI疾病基因数据库、Gene Cards等;遗传性疾病数据库,如遗传性疾病数据库(GDB)、人类遗传性疾病数据库(Gene Dis)等;肿瘤相关数据库,如肿瘤基因组解剖工程(CGAP)等;心血管疾病相关数据库,如心血管疾病相关生物医学数据库(Cardio)、心脏疾病计划及临床决策支持系统(HDP &CDM)等;免疫性疾病数据库,如免疫功能分子数据库( HMM)、免疫缺陷资源库(IDR)等;药物相关数据库,如药物和疾病数据库(Drugs)、FDA药品评审与研究中心(CDER)等。 二、生物信息学在医学领域的应用 2.1 生物信息学在医学基础研究中的应用 2.1.1 新基因的发现与鉴定 疾病的发生发展与特异基因的改变有关,鉴定与疾病相关的基因是科学家在积极探索的一个方向,对治疗某些疑难杂症带来新的契机。发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。现在很多疾病的致病基因已经发现,包括癌症、肥胖、哮喘、心脑血管病等,其中与癌症相关的原癌基因约有1000个,抑癌基因约有100个。 目前发现新基因的主要方法有以下3种:①通过多序列比对从基因组DNA序列中预测新基因,其本质是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。②基因的电子克隆,即以计算机和互联网为手段,通过发展新算法,对生物信息数据库中存储的表达序列标签进行修正、聚类、拼接和组装,获得完整的基因序列,以期发现新基因。③发现单核苷酸多态性。 例如,2010年我国学者通过生物信息学EST 拼接技术,RT-PCR等技术,克隆出30个人类未知功能的新基因,并通过生物信息学分析该基因

浅谈生物信息学在生物医药方面的应用

浅谈生物信息学在生物医药方面的应用 生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。是结合了计算机科学、数学和生物学的一门多学科交叉的学科。它依赖计算机科学、工程和应用数学的基础,依赖实验和衍生数据的大量储存。他将各种各样的生物信息如基因的DNA序列、染色体定位、基因产物的结构和功能及各种生物种间的进化关系等进行搜集、分类和分析,并实现全生命科学界的信息资源共享。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧

生物信息学常用核酸蛋白数据库

(1)GenBank https://www.doczj.com/doc/2118141446.html,/ (2)dbEST (Database of Expressed Sequence Tags) https://www.doczj.com/doc/2118141446.html,/dbEST/index.html (3)UniGene 数据库 https://www.doczj.com/doc/2118141446.html,/UniGene/ (4)dbSTS (Database of Sequence Tagged Sites) https://www.doczj.com/doc/2118141446.html,/dbSTS/index.html (5)dbGSS (Database of Genome Survey Sequences) https://www.doczj.com/doc/2118141446.html,/dbGSS/index.html (6)HTG (High-Throughput Genomic Sequences) https://www.doczj.com/doc/2118141446.html,/HTGS/ (7)基因组数据库 https://www.doczj.com/doc/2118141446.html,/sites/entrez?db=genome (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库https://www.doczj.com/doc/2118141446.html,/sites/entrez?db=snp (9)EMBL (European Molecular Biology Laboratory) https://www.doczj.com/doc/2118141446.html,/embl (10)DDBJ (DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/Welcome-e.html 启动子(11)EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 2、蛋白质数据库 https://www.doczj.com/doc/2118141446.html,/swissprot (2)TrEMBL (Translation of EMBL) https://www.doczj.com/doc/2118141446.html,/swissprot/ (3)PIR (Protein Information Resource) https://www.doczj.com/doc/2118141446.html, (4)PRF (Protein Research Foundation) http://www.prf.or.jp/en/os.html (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp (6)Prosite https://www.doczj.com/doc/2118141446.html,/prosite 3、结构数据库 (1)PDB (Protein Data Bank) https://www.doczj.com/doc/2118141446.html, (2)NDB(Nucleic Acid Database) https://www.doczj.com/doc/2118141446.html,/ (3)DNA-Binding Protein Database https://www.doczj.com/doc/2118141446.html,/ (4)SWISS-3D IMAGE http://www.expasy.ch/sw3d/

生物信息学复习总结

生物信息期末总结 1.生物信息学(Bioinformatics)定义:(第一章)★ 生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。 (或:) 生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(NSFC) 2. 科研机构及网络资源中心: NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心; EMBnet:欧洲分子生物学网络; EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所; ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System) Bioinformatics Links Directory; PDB (Protein Data Bank); UniProt 数据库 3. 生物信息学的主要应用: 1.生物信息学数据库;2.序列分析;3.比较基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性。 4.什么是数据库:★1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。 (记录record、字段field、值value) 2、生物信息数据库应满足5个方面的主要需求: (1)时间性;(2)注释;(3)支撑数据;(4)数据质量;(5)集成性。 3、生物学数据库的类型:一级数据库和二级数据库。 库等;DDBJ核酸库和EMBL数据库、Genbank(国际著名的一级核酸数据库有. 蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等。) ★4、一级数据库与二级数据库的区别: 1)一级数据库: 包括:a.基因组数据库----来自基因组作图; b.核酸和蛋白质一级结构序列数据库; c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自X-衍射和核磁共振结

生物信息学在医学上的应用

生物信息学在医学上的应用 Bioinformatics application in medicine 【摘要】:生物信息学是利用计算和分析工具收集、解释生物学数据的学科,其基础是4大类生物学数据库。生物信息学在疾病相关基因的发现、新的药物分子靶点的发现、创新药物设计以及基因芯片的设计与数据处理等医学应用研究方面将发挥重要作用。 【abstract 】: bioinformatics is use of calculation and analysis tools of data collection, explain biology subject, the foundation is four major categories biology database. Bioinformatics in disease genes found new drugs, the molecular target discovery, innovative drug design and gene chip design and data processing and other medical application research will play an important role. 【关键词】:医学信息学计算机生物学 【key words 】: medical informatics computational biology 【正文】:生物信息学(Bioinformatics)是上个世纪8O年代以来随着人类基因组 计划的启动而兴起的集生命科学、计算机科学和信息科学为一体的交叉学科。是用数理和信息科学的理论、观点和方法去研究生命现象,对呈现指数增长的DNA 和蛋白质的序列和结构等生物学数据进行收集、整理、储存、发布、提取、加工分析和研究,达到认识生命起源、遗传和发育的本质的目的。现已成为生物学、医学、农学遗传学和细胞生物学等学科的强大推动力量。当前生物信息学的主要任务包括以下几个方面: ①基因组相关信息的收集、存储、管理与提供。②新基因的发现与鉴定。⑧非编码区信息结构分析。④生物进化的研究。⑤完整基因组的比较研究。⑥基因组信息分析方法的研究。⑦大规模基因功能表达谱分析。⑧蛋白质末端序列、分子空间的预测、模拟和分子设计。⑨药物设计等。为此生命科学家们在不断地生产和更新以数据库和软件为主的各种生物信息工具。本文就生物信息学在医药学方面的应用状况和前景做一讨论。 (一)、生物技术制药 生物技术药物或称生物药物是集生物学、医学、药学的先进技术为一体,以组合化学、药学基因(功能抗原学、生物信息学等高技术为依托,以分子遗传学、分子生物、生物物理等基础学科的突破为后盾形成的产业。现在,世界生物制药技术的产业化已进入投资收获期,生物技术药品已应用和渗透到医药、保健食品和日化产品等各个领域,尤其在新药研究、开发、生产和改造传统制药工业中得到日益广泛的应用,生物制药产业已成为最活跃、进展最快的产业之一。 目前生物制药主要集中在以下几个方向: 1、肿瘤在全世界肿瘤死亡率居首位,美国每年诊断为肿瘤的患者为100万,死于肿瘤者达54.7万。用于肿瘤的治疗费用1020亿美元。肿瘤是多机制的复杂疾病,目前仍用早期诊断、放疗、化疗等综合手段治疗。今后10年抗肿瘤

比较齐全的生物信息学常用网站

生物信息学机构 NCBI https://www.doczj.com/doc/2118141446.html,/ International Nucleotide Sequence Database Collaboration. https://www.doczj.com/doc/2118141446.html,/collab/ EBI https://www.doczj.com/doc/2118141446.html,/ USDA https://www.doczj.com/doc/2118141446.html,/ Sanger Centre https://www.doczj.com/doc/2118141446.html,/ 北京大学生物信息学中心 https://www.doczj.com/doc/2118141446.html, 核苷酸数据库 GenBank https://www.doczj.com/doc/2118141446.html,/ dbEST https://www.doczj.com/doc/2118141446.html,/dbEST/index.html dbSTS https://www.doczj.com/doc/2118141446.html,/dbSTS/index.html dbGSS https://www.doczj.com/doc/2118141446.html,/dbGSS/index.html Genome (NCBI) https://www.doczj.com/doc/2118141446.html,/entrez/query.fcgi?db=Geno me dbSNP https://www.doczj.com/doc/2118141446.html,/SNP/ HTGS https://www.doczj.com/doc/2118141446.html,/HTGS/ UniGene https://www.doczj.com/doc/2118141446.html,/UniGene/ EMBL核苷酸数据库 https://www.doczj.com/doc/2118141446.html,/embl Genome (EBI) https://www.doczj.com/doc/2118141446.html,/genomes/ 向EMBL数据库提交序列 https://www.doczj.com/doc/2118141446.html,/embl/Submission/webin.html DDBJ http://www.ddbj.nig.ac.jp/ Plant R gene database https://www.doczj.com/doc/2118141446.html,/rgenes 启动子数据库 Eukaryotic promoter database http://www.epd.isb-sib.ch http://www.genome.ad.jp/dbget/dbget2.html 转录因子数据库 FRANSFAC http://transfac.gbf.de ooTFD https://www.doczj.com/doc/2118141446.html, 基因分类数据库 Gene Ontology (GO) https://www.doczj.com/doc/2118141446.html,

相关主题
文本预览
相关文档 最新文档