当前位置:文档之家› 生物信息学发展概况及研究进展

生物信息学发展概况及研究进展

生物信息学发展概况及研究进展
生物信息学发展概况及研究进展

生物信息学发展概况及研究进展

韩龙生物化学与分子生物学2010200531

1 概述

生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴的边缘学科,它以核酸和蛋白质为主要研究对象,以数学、计算机科学为主要研究手段,对生物学实验数据进行获取、加工、存储、检索与分析,从而达到揭示数据所蕴含的生物学意义的目的[1]。

生物信息学的发展大致经历了前基因组时代、基因组时代和后基因组时代。目前,它的主要研究内容已经从对DNA和蛋白质序列比较、编码区分析、分子进化转移到大规模的数据整合、可视化,转移到比较基因组学、代谢网络分析、基因表达谱网络分析、蛋白质技术数据分析处理、蛋白质结构与功能分析以及药物靶点筛选等[1]。在后基因组时代的今天,生物信息学已经成为目前极其热门的系统生物学研究的重要手段。

利用各种功能的软件系统平台,目前生物信息学方法主要通过序列比对与分析、功能基因组与基因表达数据的分析、蛋白质结构预测以及基于结构的药物设计等方面应用于各个生命科学研究领域。

1.1序列比对与分析

序列比对是生物信息学的基础,是比较两个或两个以上符号序列的相似性或不相似性。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BLAST和FASTA;两个以上序列的多重序列是生物信息学中尚未解决的一个NP完全的组合优化问题,是目前研究的热点[2]。比较经典的算法有SAGA算法[3]、CLUSTAL算法以及隐马尔可夫模型(Hidden Markov Models,HMM)多重序列比对算法,另外,如Notredame等[4]开发的T-Coffee算法、Timo等[5]设计的Kalign算法、张琎等[6]设计的基于GC-GM多序列比对穷举遗传算法,是通过穷举某个特定范围内的所有序列的长度取值,来确定最终最佳比对长度的一种多序列比对算法。这些算法已应用于各种多序列比对软件,并在应用中不断得到优化。

1.2 功能基因组学

在后基因时代的今天,基因组学的研究已从结构基因组学(Structural genomics)转向功能基因组学(Functional genomics)[1] 。功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因功能、认识基因与疾病的关系、掌握基因的产物及其在生命活动中的作用。基因的时空差异表达是功能基因组学研究的理论基础。

经典的减法杂交、差式筛选、cDNA替代差异分析以及mRNA差异显示等技术已被广泛应用于鉴定和克隆差异表达的基因。近年来应用较热的主要是基因表达系列分析(Serial analysis of gene expression,SAGE)、cDNA微阵列(cDNA microarray)和DNA芯片(DNA chip)等差异表达分析技术。如由Liang和Pardee等发明的差异显示反转录PCR(Differential display-reverse transcriptase PCR,DDRT-PCR)技术[8]。

1.3 蛋白质结构预测

蛋白质结构预测是生物信息学的重要应用,分为二级结构预测和空间结构预测。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其他结构,常用的方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型法可以完成所有蛋白质10%到30%的空间结构预测工作[7]。目前尚没有普遍可行的方案实现蛋白质结构的准确预测,大多数方案为启发式的。

1.4 基于结构的药物设计

基于生物大分子结构的药物设计是生物信息学研究的热点。利用现有的海量生物数据进行潜在药物靶点定位是生物信息学药物设计的主要策略。目前研究比较热的是计算机辅助药物设计(Computer aided drug design)。计算机辅助药物设计就是通过模拟和计算受体与配体的这种相互作用,进行先导化合物的优化设计,大致包括活性位点分析法、数据库搜索、全新药物设计。目前活性位点分析软件主要有DRID、GREEN、HSITE等[7]。通过搜索数据库来获得药物靶点是其中一个手段,主要分为基于配体的方法和基于受体的分析方法;另外,全新药物设计的方法越来越受到人们的重视,现已开发出一批实用性较强的软件,主要有LUDI[9]、Leapfrog [10]、GROW、SPROU等,其中LUDI最为常用。

2 生物信息学的研究方法

生物信息学是计算机科学、数学和生物学界面的一门多学科的交叉学科。生物信息学数据库主要分为两大类,包括基本数据库和二级数据库。基本数据库是对原始生物实验数据进行简单的整理和归类。主要包括核酸数据库,如GenBank、EMBL、DDBJ等;基因组数据库,如GDB、GenCards等;蛋白质序列数据库,如SWISS-PROT、PRI、TrEMBL 等;蛋白质结构数据库PDB。二级库是在一级库的基础上,结合工作的需要将部分数据从一级库中取出,经过重新组合(包括一定的修正或调整)而成的数据库。由于其专一性强,数据量相对较少,但质量

高,数据库结构设计精制。目前生物信息学的研究对象主要是核酸序列和蛋白质序列,其主要任务是分析研究序列数据库中所含的各种信息,特别是DNA序列中的遗传及调控信息以及研究蛋白质序列与结构及功能的关系16。

GenBank(https://www.doczj.com/doc/6017258523.html,/genbank)是由位于Bethesda 的美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)成立和维护的DNA和RNA序列数据库,是国际核酸序列数据库合作项目的一部分,它与欧洲分子生物学实验室(Europena Molecular Biology Laboratory,EMBL)(https://www.doczj.com/doc/6017258523.html,/)和日本核酸序列数据库(DNA DataBank of Japan,DDBJ)(http://www.ddbj.nig.ac.jp/)一起构成当今世界上最权威最广泛的核酸序列数据库。收录的序列包括基因组DNA序列、互补脱氧核糖核酸(complementary deoxyribonucleic acid,cDNA)序列、表达序列标签(expressed sequence tags EST)序列、序列标签位点(sequence tagged site,STS)、载体序列以及专利序列等,每条记录都有编码(coding sequence,CDS)特征的注释,还包括氨基酸的翻译。它是一个有来自于16500多种生物且以每月2000多种新物种的速度增长的巨大核酸数据库。具体访问GenBank的方式可通过Entrez搜索引擎、基本局部比对搜索工具(Basic Local Alignment Search Tool ,BLAST)进行序列同源性搜索、dbEST搜索以及dbSTS 搜索。每种搜索方式又可以通过关键词、作者、GenBank接受号、种类分类等进行查询。

SWISS-PROT(https://www.doczj.com/doc/6017258523.html,/sprot/sprot-top.html)蛋白序列数据库是由日内瓦大学医学生物化学系与EMBL于1987年共同开发维护,现由EMBL的分支机构欧洲生物信息学研究所(European Bioinformatics Institute,EBI)进行维护,旨在向基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质序列的最新信息。SWISS-PROT 涉及已知蛋白质的功能、序列、结构域的结构、翻译后修饰及其位点、突变体等。具体访问SWISS-PRO时,可通过关键词、SWISS-PROT接受号、作者等方式进行查询。为了保持高质量的注解,使序列尽快地有效变得至关重要。因此,TrEMBL于1996年成立,它是对SWISS-PROT的计算机注解的补充,这样使SWISS-PROT 蛋白质序列数据库变得更加充实和重要。

PDB(https://www.doczj.com/doc/6017258523.html,)创建于1971年。其是美国自然科学基金会、能源部和国立卫生研究院共同投资,由美国布鲁克海文国家实验室(Brookhaven National Laboratory)建立的,主要由X射线晶体衍射和核磁共振测得的生物大分子的三维结构所组成的全世界最完整的蛋白质结构数据库。它位于美国结构生物信息学联合研究

所(Research Collaboratory for Structural Bioinformatics,RCSB),受美国国家科学基金等7种政府基金的资助。PDB主要可应用于蛋白质结构预测和结构同源性比较,是进行生物分子结构研究的基本数据依据。

3 生物信息学展望

近两年来的生物信息学研究论文统计结果分析表明,在后基因组时代,生物信息学的主要研究内容已经从对DNA和蛋白质序列进行比较,编码区分析,分子进化转移到大规模的数据整合,可视化,转移到比较基因组学,代谢网络分析,基因表达谱网络分析,蛋白质组技术数据分析处理,蛋白质结构与功能分析以及药物靶点筛选等,分别与功能基因组,蛋白质组,结构基因组等研究领域互相配合,紧密相关,成为目前极其热门的系统生物学研究的重要的基石[17]。生物信息学的前景是诱人的,是我们了解生命科学的一个简单快速的手段作为一个数学、计算机和生物的交叉学科,数学、计算机学科的发展对于生物信息学的发展是至关重要的。在生物信息学发展的过程中,面对越来越庞大的数据的积累,如何去挖掘这些数据的信息,以及数据库的维持和建立和相关软件的研发的利用,都将左右着生物信息学的发展。像目前对于蛋白质或RNA 的高级结构还很难预测,而且对于不同的软件得出的结论也缺乏一致性,生物信息学所研究的结果也许并不能反应生物的真实信息,如何提高它的可信度和准确性也是研究人员所要思考的。虽然软件的使用是快捷的,但是它并不是万能的,在生物信息学探索的道路中还有很多盲区,探索才刚刚开始[18]。

参考文献

[1]Roos D S.Bioinformatics-Trying to Swim in a Sea of Data[J].Sciences,2001,291(5507):1260-1261.

[2]Demkin V V.Bioinformatic analysis of nucleotide sequences records retrieved from GenBank[J].Mol Gene Mikrobiol Virusol,2009,2:36-39.

[3]Notredame C,Higgins D G.SAGA:sequence alignment by genetic algorithm[J].Nucleic Acids Res,1996,24(8):1515-1524.

[4]Notredame C,Higgins D G,Heringa J.T-Coffee:A novel method for fast and accurate multiple sequence alignment[J]. J Mol Bio,2000,302(1):205-217.

[5]Lassmann T,Sonnhammer E.Kalign-an accurate and fast multiple sequence alignment algorithm[J].BMC Bioinformatics,2005,6(1):298.

[6]张琎,张远.基于GC-GM的多序列比对穷举遗传算法[J]. 计算机应用,2010,30(1):146-149.

[7]冯思玲.生物信息学技术研究[J].信息技术,2009,5:20- 22.

[8]高锐,臧春龙,张传东.功能基因组学研究进展[J].畜牧兽医科技信息,2008,3:12-20.

[9]Bohm H J.LUDI:rule-based automatic design of new substituents for enzyme inhibitor leads[J].J Comput Aided Mol Des,1992,6(6):593-606.

[10]Xiao M J,Huang L S,Dong Q F,et al.Leapfrog:Optimal Opportunistic Routing in Probabilistically Contacted Delay Tolerant Networks[J].J Comput Sci Technol,2009,24(5): 975-986.

[11]赵振宇, 卢., 陈菊祥,侯立军,胡国汉,骆纯, 基于生物信息学技术筛选影响胶质母细胞瘤化疗敏感性相关基因的研究. 现代生物医学进展2011,11(19), 3601-3604.

[12]邹清华, 张., 蛋白质组学的相关技术及应用. 生物技术通讯2003,14(3), 210-213.

[13]宏, 肖. 杰. 吴. 王. L. J. 徐., 花生profilin蛋白的生物信息学分析. 免疫学杂志2011,27 (2), 158-161.

[14]南岩东, 杨., 田应选, 霍淑芬, 杜洁, 金发光, 基于鸟枪法蛋白质组学和生物信息学技术对肺鳞癌表达蛋白质谱的分析. 西安交通大学学报(医学版) 2011,32 (1), 10-17.

[15]何庆丰, 日本血吸虫尾蚴弹性蛋白酶结构的生物信息学分析. 中国病原生物学杂志2011,6 (2), 136-140.

[16]刁雪涛, 张., 宋洁,金梅, 生物信息学研究进展. 安徽农学通报2008, 14 (22), 160-1162.

[17]郑国清, 张., 段韶芬,徐丽敏, 生物信息学的形成与发展. 河南农业科学2002,2002 (11), 4-7.

[18]何懿菡, 孙. 坤., 生物信息学研究进展. 青海师范大学学报(自然科学版) 2011,2011 (3), 69-72.

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

生物信息学现状与展望

研究生课程考试卷 学号、姓名: j20112001 苗天锦 年级、专业:2011生物化学与分子生物学 培养层次:硕士 课程名称:生物信息学 授课学时学分: 32学时 2学分 考试成绩: 授课或主讲教师签字:

生物信息学现状与展望 摘要:生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。 关键词:生物信息学;生物信息学背景;发展前景 一、生物信息学概述 1.生物信息学发展历史 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。 研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构(双螺旋)。Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA 聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。Meselson与Stahl (1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

生物信息学研究进展-推荐下载

生物信息学研究进展 制药工程121班 张明星 12773009 摘要:生物信息学是生物技术的核心,是一门由生物、数学、物理、化学、计算机科 学、信息科学等多学科交叉产生的新兴学科。本文介绍了生物信息学的概念、经历阶 段以及生物信息学的主要研究内容等,论述生物信息学发展的现状以及它的未来发展趋 势。以求我们对生物信息学有更深入的了解。 关键词:生物信息学;新兴学科;现代信息技术;研究进展 21世纪是生命科学的时代,也是信息科学的时代。从20世纪80年代末开始,生 物信息学这一多学科交叉产生的新兴学科蓬勃发展,并日渐成为21世纪自然科学的核 心领域[1]。作为多学科结合的综合性学科,生物信息学通过信息学、统计学、化学、 物理学、计算机等手段对人类基因组计划及其相关衍生计划所产生的海量数据进行科 学的分析,极大地提高了研究效率,缩短了研究时间,在当今遗传资源争夺、分秒必 争的残酷竞争中生物信息学逐渐承担起越来越重要的角色。 1.研究意义 生物信息学是当今生命科学的重要领域之一,也是21世纪给自然科学带来革命性 变革的热门领域之一。分子生物学在20世纪后半叶发展迅速,生物分子水平的技术发 展和研究手段高度自动化,使得众多物种从细菌到人类的基因和蛋白质数据正在以科 学史上从未有过的高速度增长[2]。生物信息学的成果不仅对相关基础学科起到巨大的 推动作用,而且还将对医药、卫生、食品、农林牧业等产生巨大的影响,引发新的产 业革命。各国政府和工业界对此极为重视,投入了大量资金。欧美各国及日本相继成 立了生物信息研究机构和生物信息数据中心,通过计算机网络使得各国生物信息资源 实现共享[3]。另外,生物信息学对未来军事和国防的影响也不容忽视。因此对生物信 息学的研究十分必要。 2.经历阶段 生物信息学自产生以来,大致经历了前基因组时代、基因组时代和后基因组时代 、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。在管路敷设过程中,要加强看护关于管路高中资料试卷连接管口处理高中资料试卷弯扁度固定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术包含线槽、管架等多项方式,为解决高中语文电气课件中管壁薄、接口不严等问题,合理利用管线敷设技术。线缆敷设原则:在分线盒处,当不同电压回路交叉时,应采用金属隔板进行隔开处理;同一线槽内,强电回路须同时切断习题电源,线缆敷设完毕,要进行检查和检测处理。、电气课件中调试对全部高中资料试卷电气设备,在安装过程中以及安装结束后进行 高中资料试卷调整试验;通电检查所有设备高中资料试卷相互作用与相互关系,根据生产工艺高中资料试卷要求,对电气设备进行空载与带负荷下高中资料试卷调控试验;对设备进行调整使其在正常工况下与过度工作下都可以正常工作;对于继电保护进行整核对定值,审核与校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料试卷试验方案以及系统启动方案;对整套启动过程中高中资料试卷电气设备进行调试工作并且进行过关运行高中资料试卷技术指导。对于调试过程中高中资料试卷技术问题,作为调试人员,需要在事前掌握图纸资料、设备制造厂家出具高中资料试卷试验报告与相关技术资料,并且了解现场设备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况,然后根据规范与规程规定,制定设备调试高中资料试卷方案。 、电气设备调试高中资料试卷技术电力保护装置调试技术,电力保护高中资料试卷配置技术是指机组在进行继电保护高中资料试卷总体配置时,需要在最大限度内来确保机组高中资料试卷安全,并且尽可能地缩小故障高中资料试卷破坏范围,或者对某些异常高中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并且拒绝动作,来避免不必要高中资料试卷突然停机。因此,电力高中资料试卷保护装置调试技术,要求电力保护装置做到准确灵活。对于差动保护装置高中资料试卷调试技术是指发电机一变压器组在发生内部故障时,需要进行外部电源高中资料试卷切除从而采用高中资料试卷主要保护装置。

生物信息学完整版

一、名词解释 1. 生物信息学: 1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科; 2)它综合运用了数学、计算机学和生物学的各种工具来进行研究; 3)目的在于阐明大量生物学数据所包含的生物学意义。 2. BLAST(Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具 意译:基于局部序列排比的常用数据库搜索工具 含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库 3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。 4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特 定位置最常见的残基之外,它们不能表示任何概率信息。 5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合 来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。 6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 非信息位点:对于最大简约法来说没有意义的点。 8. 标度树:分支长度与相邻节点对的差异程度成正比的树。 9. 非标度树:只表示亲缘关系无差异程度信息。 10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其 他任何节点。 11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种, 可以在无根树中指派根节点。 12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基 因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。 13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。 14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法 和数据本身的分析方法。 15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个 预定义的类目中。 16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通 过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。 17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定 义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。 18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量 的准确确定成为可能。 19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。 20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。 21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致 药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

生物信息学试题

华中农业大学研究生课程考试试卷(B) 考试科目名称:生物信息学考试时间:2011年6月15日备注:所有答案均要写在答题纸上,否则,一律无效。 提示:(1)2小时答题时间;(2)课堂开卷,独立完成;(3)答题简明扼要 1.请查询序列AK101913(GenBank注册号)的相关信息并回答下列问题:(1)若用限制性内切酶PstΙ消化这条序列,可以得到几个片段?(4分) (2)该序列编码的蛋白质有多少个氨基酸?哪种氨基酸所占比例最高?等电点是多少?是否糖蛋白质?如果是糖蛋白,请给出具体类型及糖基化位点。(10分)(3)请分析该序列编码蛋白的保守结构域,根据你的分析,该蛋白可能具有什么样的生物学功能?(6分) 2.任选一种基因结构分析工具,预测序列J04982(GenBank注册号)的基因结构及其编码产物的理化性质。请注明分析工具的名称,以及是否采用某一物种的数据作为参照。 (1)根据你所选用的分析方法,这条序列编码多少个基因?分别包含有多少个exon?预测基因(如有多个基因请注明是第几个基因)是否有转录起点和PolyA加尾信号? 分析结果是否与GenBank提供的注释信息相符合?(10分) (2)预测的第一个基因编码的蛋白质是否包含有信号肽(注明切割位点)和跨膜区域(注明跨膜区)?预测该蛋白的亚细胞定位。(10分) 注:3a、3b任选一题 3a.RZ220是水稻分子标记遗传连锁图上的一个分子标记,请回答下列有关问题:(1)这个分子标记/位点被定位于水稻的第几号染色体?在你检索的网站(请注明网址)多少水稻的遗传连锁图使用了该分子标记?请列出分子标记遗传连锁图的名称及 其类型(Map Type)(10分) (2)RZ220属于什么类型的分子标记?指出一个与该标记连锁或附近的QTL(注明其编号),并说明该QTL控制什么性状,列出定位该QTL的研究的相关文献。(10分) 3b.BM6506是羊分子标记遗传连锁图上的一个分子标记或位点,请回答下列有关问题:(请注明分析方法名称) (1)这个分子标记/位点被定位于羊的第几号染色体?(4分) (2)在SM1分子标记遗传连锁图上与这个分子标记/位点紧密连锁(两侧)的分子标记/位点的名称是什么?这个分子标记/位点在SM1分子标记遗传连锁图上的遗传位置 是多少?(8分) (3)列出一篇与该标记相关的文献及其在PubMed中的PMID号。(8分) 4.分析六条蛋白质序列(BAF63641、ABO31104、ACO11338、ABH07379、AAF65254、AAB38498)的同源性并回答下列问题(请注明分析方法名称): (1)哪两条序列的进化关系最近,一致性(Identity)是多少?相似度(Similarity/Positive)是多少?(10分)

生物信息学考试试卷

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA 序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

相关主题
文本预览
相关文档 最新文档