当前位置：文档之家› 生物信息学复习资料全

生物信息学复习资料全

一、名词解释(31个)

1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程

息的存贮、信息的涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、

实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组

序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树

状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该

是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度）

6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会

进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。（来自百度）

7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的

核苷酸或氨基酸字符串。

8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止

密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度）

9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区

域，折叠得较为紧密，各行其功能，称为结构域。

10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空

位并进行罚分，以控制空位插入的合理性。（来自百度）

11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分

cDNA的3’或5’端序列。（来自文献）

12.Gene Ontology 协会：

13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编

码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单

的归类整理和注释

15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋

白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。

16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所

占的比例。

17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将

同所查序列作一对一地核酸序列比对。（来自百度）

18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐

一地同每条所查序列作一对一的序列比对。（来自百度）

19.Blastx：是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列

（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。（来自百度）

20.Tblastn：是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库

中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。（来自百度）

21.Tblastx：是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核

酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。（来自百度）

22.KEGG：京都基因与基因组百科全书，是系统分析基因功能、基因组信息的

数据库，它整合了基因组学、生物化学以及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体网络进行研究。

23.ChIP-Seq：就是通过高通量测序对ChIP所得到的序列进行测序，从而进行

蛋白和DNA相互作用相关研究。

24.分子生物网络：

25.蛋白质相互作用（PPI）：是指蛋白质分子之间的相关性，并从生物化学、信

号转导和遗传网络的角度研究这种相关性。

26.高通量测序：一次性对几百万到十亿条DNA分子进行并行测序，又称为下

一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。

27.比较蛋白质组学：即对模式生物或重要生命过程的蛋白质组学特征进行比

较。

28.NCBInr：

29.GT-AG结构：

30.Entrez检索系统：面向生物学家的数据库查询系统，其特点之一是使用十分

方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本，用户可以从一个数据库直接转入另一个数据库。

31.系统生物学：是从系统水平来理解生物学系统，利用一系列的原理与方法学

来研究分子行为与系统特性与功能的关系，通过计算生物学来定量阐明和预测生物的功能、表型和行为。

二、选择题（30个）

1.下面哪种数据库源于mRNA信息（A）：A. dbEST、B. PDB、C. OMIM、

D. HTGS

2.如果我们试图做蛋白质亚细胞定位分析，应使用（）。A.NDB数据库、B.PDB

数据库、C.GenBank数据库、D.SWISS-PROT数据库

3.PIR是（）。A.核酸数据库、B.mRNA数据库、C.启动子数据库、D.蛋白质

数据库

4.以下哪一项不属于启动子研究围？（）A.CpG 岛预测、B.转录起始点预测、

C.糖基化修饰、

D.甲基化检测

5.HTGS的含义是（C）。A.表达序列标签、B.序列标签位点、C.高通量基因组

序列、D.人工合成序列

6.STS的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序

列、D.人工合成序列

7.HGP是（C）。A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基

因组计划、D.水稻基因组计划

8、下列中属于一级蛋白质结构数据库的是：（）A. EMBL、B. DDBJ、C. PDB、

D.SWISS-PROT

9．BLAST教案所程序中，哪个方法是不存在的？（）A. BLASTP、B. BLASTN、C. BLASTX、D. BLASTQ

10．人类基因组的结构特点不包括：（）

A. 基因进化、

B. 基因数目、

C.基因重复序列、

D. 基因组复制

11、下列哪个选项不是微阵列实验设计的容？（）

A. 贝叶斯网络法、

B. 对照组的选择、

C. 重复样本的使用、

D. 随机化原则

12、构建序列进化树的一般步骤不包括. （）

A. 建立DNA文库、

B. 建立数据模型、

C. 建立取代模型、

D. 建立进化树

13、在Genbank数据库中，生物学工作者向其提交数据有两种方式，其中用于提交少量数据的是基于Web方式的（）。 A. BankIt、B. Sequin、C. Version、

D. Matrix

14、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于蛋白质序列数据库？（） A. PIR 、B. Uniprot、 C. SWISS-PROT、 D. OMIM

15、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于核酸列数据库？（）A. Genbank、B. GenPept、C. EMBL、D. DDBJ

16、（）是NCBI提供的集成检索工具，通过一次检索可查询NCBI多个子数据库中的相关信息。 A. Retrieve、B. SRS、C. Entrez、D. PIR

17、Entrez数据库中的剪贴板的容量是（）。A.500条记录、B.1000条记录、C.5000

条记录、D.10000条记录

18、蛋白质信号肽的预测工具有（）。A.nnpredict、B.PredictProtein、C.SingalD、

D.SingalP

19、Bioinformatics的含义是（）。A. 生物信息学、B. 基因组学、C. 蛋白质组学、D. 表观遗传学

20、目前应用于基因芯片表达数据统计分析的主要方法是（）。A. 卡方检验、

B. 相关分析、

C. 聚类分析、

D. 正态性分布检验

21、NCBI中人类无冗余基因数据库是（）。A. UniGene、B. UniPro、C. UniRef、

D. URF

22、基本局部比对搜素工具是（）。A. Mega、B. ClustalW、C. BLAST、

D. GCG

23、根据研究发现，人类基因组中真正编码蛋白质的区域仅占DNA 序列的（）。

A.1-2%、

B.3-5%、

C.5-10%、

D.10-20%

24、被誉为“生物信息学之父”的科学家是（）。A. Dulbecco、B. Sanger、C.吴瑞、D. 林华安

25、多序列比对工具是（）。A. BLAST、B. ClustalW、C. Mega、D. GCG

26、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现？（）

A. 以彩色小方块阵列表示、

B. 以蜂窝形状表示、

C. 以黑白圆点表示、

D. 以彩色线条表示

27、HTGS的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列

28、accession number的含义是（）。A.登录号、B.算法、C.比对、D.类推

29、（）是欧洲分子生物学网EMBLnet的主要检索工具，也是一个开放的数据

查询系统。A. Query 、B. SRS、C. PDB、D. PIR

30、数据挖掘的四个步骤不包括下列哪个. （）A. 数据选择、B. 数据转换、C. 数据记录、D. 结果分析

三、是非题（16个）

1、生物学就是实验科学，所有的研究结论从实验中来，于实验中得到验证。

2、比较是科学研究中最常见的方法，在生物信息学研究中，比对是最常用和最经典的研究手段。

3、两个蛋白质序列相似性超过30%就是同源蛋白。

4、蛋白质序列相似性指一级序列中氨基酸残基相同。

5、蛋白质序列相似性指氨基酸残基具有相似特性. 侧链基团大小电荷性、疏水性等相同。

6、核酸序列相似性指序列中相同碱基所占的比例。

7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。

8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。

9、相似性是指一种很直接的数量关系，无需实验验证。

10、相似性是指一种很直接的数量关系，也需实验验证。

11、不同种属间的同源序列称为直向同源序列。

12、不同种属间的同源序列称为共生同源序列。

13、所谓局部比对，即分析两个序列是否有局部序列的相似。

14、所谓整体比对，即找出两个序列全长的最优比对结果。

15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。

16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。

四、问答题（15个）

1、生物信息学的发展经历了哪几个阶段

2、序列的相似性与同源性有什么区别与联系？

3、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？

4、生物信息学的主要研究领域。

5、初级数据库、二级数据库的概念，说出几个数据并说明包含什么数据。

6、简述高通量测序的应用围

7、简述系统发生分析步骤

8、说出至少一种蛋白质结构数据库和一种可视化工具。

9、Entrez集成于哪个数据库平台？主要功能是什么？在应用中可以访问哪些子数据库（请列举5个以上）？

10、试述SWISS-PROT中的数据来源

11、分子生物网络可以分成哪几类？简单介绍。

12、常用的蛋白质互作数据库有哪些？

13、试述蛋白质三维结构预测的三类方法

14、国际上权威的核酸序列数据库有那些？

15、生物分子数据类型有哪些？

五、论述题（4个）

1、假设你克隆得到了一段未知的DNA序列，从你学习到的生物信息学分析方法和软件，设计一个流程来分析该基因的功能和家族分类。

2、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？

3、谈谈生物信息学在药物设计中的应用

4、什么是系统生物学？系统生物学的研究包括哪些环节？

生物信息学软件及使用概述

生物信息学软件及使刘吉平 liujiping@https://www.doczj.com/doc/2f18257840.html, 用概述生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念：科，它将数学和计算机知识应用于生物学，以获取、加工、存储、分类、检索与分析生物大分子的信息，从而理解这些信息的生物学意义。生物秀-专心做生物！ w w w .b b i o o .c o m

分析和处理实验数据和公共数据，生物信息学软件主要功能 1.2.提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测（三维建模，目前研究的焦点和难点）生物秀-专心做生物！ w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据，加快研究进度，缩短科研时间 ?核酸：序列同源性比较，分子进化树构建，结构信息分析，包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框（ORF ），蛋白编码区（CDS ）及外显子预测、RNA 二级结构预测、DNA 片段的拼接； ?蛋白：序列同源性比较，结构信息分析（包括Motif ，限制酶切点，内部重复序列的查找，氨基酸残基组成及其亲水性及疏水性分析)，等电点及二级结构预测等等； ?本地序列与公共序列的联接，成果扩大。生物秀-专心做生物！ w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。狭义：生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则是指遗传信息从传递给，再从RNA传递给，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较序列比较的根本任务是：（1）发现序列之间的相似性；（2）辨别序列之间的差异目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系 7、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 8、基因识别基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。 9、系统发生学系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

计算机在生物信息学中的应用_王帆

2012年第35期生物信息学是利用计算机为工具，用数学及信息科学的理论和方法研究生命现象，对生物信息进行收集、加工、存储、检索和分析的科学。生物信息学的核心是基因组信息学，基因组学是研究生物基因组和如何利用基因的一门学问，该学科提供基因组信息以及相关数据系统，试图解决生物、医学和工业领域的重大问题。对于基因组学研究所产生的大量数据必须借助于先进的计算机技术收集和分析处理这些生物学信息，因此计算机科学为生物信息学的研究和应用提供了非常好的支撑。 1.序列比对序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性，进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能，也可以通过序列的相似性判别序列之间的同源性，推测序列之间的进化关系。序列比对是生物信息学的基础，非常重要。序列比对中最基础的是双序列比对，双序列比较又分为全局序列比较和局部序列比较，这两种比较均可用动态程序设计方法有效解决。在实际应用中，某些在生物学上有重要意义的相似性不是仅仅分析单条序列，只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时，我们可能想知道序列的哪些部分是相似的，哪些部分是不同的，进而分析蛋白质的结构和功能。为获得这些信息，我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等，这些算法都可以通过计算机得以解决。 2.数据库搜索随着人类基因组计划的实施，实验数据急剧增加，数据的标准化和检验成为信息处理的第一步工作，并在此基础上建立数据库，存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据，通过对这些数据按一定功能分类整理，形成了数以百计的生物信息数据库，并要求有高效的程序对这些数据库进行查询，以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库，一级数据库直接来源于实验获得的原始数据，只经过简单的归类整理和注释；二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。分子生物学的三大核心数据库是GenBank 核酸序列数据库，SWISS-PROT 蛋白质序列数据库和PDB 生物大分子结构数据库，这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构，破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐，对于大量的实验结果必须利用计算机进行自动分析，以此来寻找数据之间存在的密切关系，并且用来解决实际中的问题。 3.基因组序列分析基因组学研究的首要目标是获得人的整套遗传密码，要得到人的全部遗传密码就要把人的基因组打碎，测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA 序列的，建立快速而又准确的DNA 序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列，人们比较关心的是从序列中找到基因及其表达调控信息，比如对于未知基因，我们就可以通过把它与已知的基因序列进行比较，从而了解该基因相关的生理功能或者提供疾病发病机理的信息，从而为研发新药或对疾病的治疗提供一定的依据，使我们更全面地了解基因的结构，认识基因的功能。因此，如何让计算机有效地管理和运行海量的数据也是一个重要问题。 4.蛋白质结构预测蛋白质是组成生物体的基本物质，几乎一切生命活动都要通过蛋白质的结构与功能体现出来，因此分析处理蛋白质数据也是相当重要的，蛋白质的生物功能由蛋白质的结构所决定，因此根据蛋白质序列预测蛋白质结构是很重要的问题，这就需要分析大量的数据，从中找出蛋白质序列和结构之间存在的关系与规律。蛋白质结构预测分为二级结构预测和空间结构预测，在二级结构预测方面主要有以下几种不同的方法：①基于统计信息；②基于物理化学性质；③基于序列模式；④基于多层神经网络；⑤基于图论；⑥基于多元统计；⑦基于机器学习的专家规则；⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST 、FASTA 、CLUSTALW 产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上，但二级结构预测的准确性还有待提高。在实际进行蛋白质二级结构预测时，往往会把结构实验结果、序列比对结果、蛋白质结构预测结果，还有各种预测方法结合起来，比较常用的是同时使用多个软件进行预测，把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式，它们是构成蛋白质高级结构的基本要素，常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕，折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系，预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步，蛋白质折叠问题是非常复杂的，这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有：同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法，结果都是预测，采用不同的算法，可能产生不同的结果，因此还需要研究新的理论计算方法来预测蛋白质的三维结构。图4.1蛋白质结构（下转第100页）计算机在生物信息学中的应用王帆刘帅（长春工程学院计算机基础教学中心吉林长春 130012）【摘要】生物信息学是一门新兴的、正在迅速发展的交叉学科，它不仅对认识生物体的起源与进化研究有重要意义，而且还可以为人类诊断疾病及物种的改良提供一定的理论依据。生物研究过程中产生的海量数据又需要具有数据处理和分析能力的大容量、高性能的超级计算机的支持，因此计算机技术在生物信息学的研究中显得尤为重要，本文就简单介绍了计算机在生物信息学研究中的哪些方面起到了不可忽略的作用。【关键词】生物信息学；计算机科学；基因组学作者简介：王帆(1980—)，男，长春人，毕业于长春理工大学，本科学历，信息与计算科学专业。刘帅(1979—)，女，长春人，东北师范大学硕士研究生，主要研究方向为计算机软件与理论。 ◇高教论述◇

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用生物信息学（bioinformaLics）是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象，以数学、信息学、计算机科学为主要手段，对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析，从中获得基因的编码、凋控、遗传、突变等知识；研究核酸和蛋白质等生物大分子的结构、功能及其相互关系；研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。从生物信息学研究的具体内容上看，生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。针对蛋白质序列的分析，可以预测出蛋白质的许多物理特性，包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测，三维结构预测等。生物信息学中的主要方法有：序列比对，结构比对，蛋白质结构的预测，构造分子进化树，聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法，查询生物分子信息数据库，取得相应的序列数据，通过序列比对，找出特征序列，作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面，即探针的设计和探针在芯片上的布局，必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理，给出实验结果，并运用生物信息学方法对实验进行可靠性分析，得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中，将基因芯片数据与公共数据库进行链接，利用数据挖掘方法，揭示各种数据之间的关系。生物信息学在人类基因组计划中也具有重要的作用。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显得尤其突出。人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含6千多个基因，大约60％是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之，生物信息学不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长，这更离不开利用生物信息学进行各类数据的分析和解释，研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列，是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列，是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学基本知识

1.DNA:遗传物质(遗传信息的载体) 双螺旋结构,A,C,G,T四种基本字符的复杂文本 2.基因（Gene）：具有遗传效应的DNA分子片段 3.基因组(Genome)：包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR一个物种中所有基因的整体组成 4.人类基因组：3.0×109bp模式生物 5.HGP的最初目标通过国际合作，用15年时间(1990～2005)至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其它生物进行类似研究。 6.HGP的终极目标阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱（genetic map）又称连锁图谱(linkage map)，它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。 8.遗传连锁图：通过计算连锁的遗传标志之间的重组频率，确定它们的相对距离，一般用厘摩（cM，即每次减数分裂的重组频率为1%）表示。 9.物理图谱（physical map）是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10.转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11.序列图谱:随着遗传图谱和物理图谱的完成，测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12.大规模测序基本策略逐个克隆法：对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装（公共领域测序计划）全基因组鸟枪法：在一定作图信息基础上，绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序，利用超级计算机进行组装（美国Celera公司） 13.基因识别（gene identification）是HGP的重要内容之一，其目的是识别全部人类的基因。基因识别包括：识别基因组编码区识别基因结构基因识别目前常采用的有二种方法：从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。 14.基因组多态性（Polymorphism）:是指在一个生物群体中，同时和经常存在两种或多种不连续的变异型或基因型（genotype）或等位基因（allele），亦称遗传多态性（genetic

生物信息学名词解释

1.计算生物信息学（Computational Bioinformatics）是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科，以生物数据作为研究对象，研究理论模型和计算方法，开发分析工具，进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术：在测序过程中对每个碱基判读两遍，从而减少原始数据错误，提供内在的校对功能。代表测序方法：solid 测序。 4.焦磷酸测序法：焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如：454测序仪：用蛋白质序列查找核苷酸序列。 :STS是序列标记位点（sequence-tagged site）的缩写，是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断，一般长200bp －500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时，当各个实验室发表其DNA测序数据或构建成的物理图时，可用STS来加以鉴定和验证，并确定这些测序的DNA片段在染色体上的位置；还有利于汇集分析各实验室发表的数据和资料，保证作图和测序的准确性。 :表达序列标签技术（EST，Expressed Sequence Tags）EST技术直接起源于人类基因组计划。：生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理，剔除冗余部分，将同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的转录图谱。UniGene除了包括人的基因外，也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框（ORF，open reading frame )是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验：只有分子钟的，没听过分子钟检验。一种关于分子进化的假说，认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学基本分析

核酸序列的基本分析运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit（版本7.0.5.3）软件对基因做酶切谱分析。碱基同源性分析运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下：https://www.doczj.com/doc/2f18257840.html,/BLAST/ 参数选择：Translated query-protein database [blastx]；nr;stander1 开放性阅读框（ORF）分析利用NCBI的ORF Finder程序对基因做开放性阅读框分析，网址如下： https://www.doczj.com/doc/2f18257840.html,/projects/gorf/orfig.cgi 参数选择：Genetic Codes：1 Standard 对蛋白质序列的结构功能域分析运用简单模块构架搜索工具（Simple Modular Architecture Research Tool,SMART）对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立，其中集成了大部分目前已知的蛋白质结构功能域的数据。网址如下：http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析参数选择：Search Database：CDD v2.07－11937PSSM Expect：0.01 Filter：Low complexity Search mode：multiple hits 1－pass 同源物种分析用DNAMAN软件将蛋白质序列相关基因序列比对，根据结果绘出系统进化树，并进行分析。蛋白质一级序列的基本分析运用BioEdit（版本7.0.5.3）软件对基因ORF翻译的蛋白的一些基本性质，对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析信号肽预测利用丹麦科技大学（DTU）的CBS服务器蛋白质序列的信号肽（signal peptide）预测，进入Prediction Serves 页面。网址如下：http://www.cbs.dtu.dk/services/SignalP/ 参数选择： Eukaryotes；Both；GIF (inline)；Standard；疏水性分析利用瑞士生物信息学研究所（Swiss Institute of Bioinformatics，SIB）的ExPASy服务器上的ProtScale程序对ORF 翻译后的氨基酸序列做疏水性分析网址如下： https://www.doczj.com/doc/2f18257840.html,/cgi-bin/protscale.pl 参数选择：

生物信息学基础知识

分子生物学基础知识太仓生命信息研究所 2011-7

前言本文仅适用于对非生物专业的员工进行基础知识普及。如有深入学习的要求，请选用正规权威教材。本教材以蛋白质、DNA、RNA、复制、转录和翻译为主要讲解内容，目的是帮助员工理解在工作中会遇到的常见生物学概念及术语目录前言 (2) 目录 (2) 蛋白质 (3) 1. 什么是蛋白质 (3) 2. 蛋白质的3D结构 (5) DNA (7) 1. DNA的组成—4种碱基 (7) 2. DNA的复制 (8) 3. DNA转录为RNA (9) 4. mRNA翻译成氨基酸序列 (11)

蛋白质 1.什么是蛋白质蛋白质是由20中基本氨基酸链接而成的，生物体的大部分是有蛋白质构成的。每种氨基酸由4部分组成：碳原子C，羧基coo-，氨基H3N和R group。 20中氨基酸按照不同的排列和不同的长度，就形成了蛋白质。不同的R group把氨基酸分为5类：无极性脂肪类R Group：

芳香类R Group 有极性，无电荷R Group

正电荷R Group 负电荷R Group 2.蛋白质的3D结构氨基酸链在三维空间里呈现出一定的结构。各个氨基酸分子于相邻的氨基酸之间有氢键连接。一级结构：氨基酸的排列顺序，可以用氨基酸的缩写在书面上表达。氨基和羧基之间的氢键使得单个的氨基酸分子能够链接起来。

二级结构：单条氨基酸链所形成的2D形态。常见的有Alpha helix Beta sheet。 Alpha helix：氨基酸分子按顺时针或逆时针的方向螺旋上升。 Beta sheet：多条氨基酸分子链并列在一起。三级结构：氨基酸链在各个方向的形态综合在一起。

生物信息学基本知识

1. DNA: 遗传物质(遗传信息的载体)à双螺旋结构,A, C, G, T四种基本字符的复杂文本 2. 基因（Gene）：具有遗传效应的DNA分子片段 3. 基因组(Genome)：包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR 一个物种中所有基因的整体组成 4. 人类基因组：3.2×109 bp 5.HGP的最初目标通过国际合作，用15年时间(1990～2005)至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其它生物进行类似研究。 6.HGP的终极目标阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱（genetic map）又称连锁图谱(linkage map)，它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。 8. 遗传连锁图：通过计算连锁的遗传标志之间的重组频率，确定它们的相对距离，一般用厘摩（cM，即每次减数分裂的重组频率为1%）表示。 9. 物理图谱（physical map）是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10. 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11. 序列图谱:随着遗传图谱和物理图谱的完成，测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12. 大规模测序基本策略逐个克隆法：对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装（公共领域测序计划）全基因组鸟枪法：在一定作图信息基础上，绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序，利用超级计算机进行组装（美国Celera公司） 13. 基因识别（gene identification）是HGP的重要内容之一，其目的是识别全部人类的基因。基因识别包括：识别基因组编码区识别基因结构基因识别目前常采用的有二种方法：从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。 14. 基因组多态性（Polymorphism）:是指在一个生物群体中，同时和经常存在两种或多种不连续的变异型或基因型（genotype）或等位基因（allele），亦称遗传多态性（genetic

生物信息学分析方法

核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词：核酸序列蛋白质序列分析软件在获得一个基因序列后，需要对其进行生物信息学分析，从中尽量发掘信息，从而指导进一步的实验研究。通过染色体定位分析、内含子／外显子分析、ORF分析、表达谱分析等，能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等，识别调控区的顺式作用元件，可以为基因的调控研究提供基础。通过蛋白质基本性质分析，疏水性分析，跨膜区预测，信号肽预测，亚细胞定位预测，抗原性位点预测，可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白，这对确定实验研究方向有重要的参考意义。此外，通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等，尽量挖掘网络数据库中的信息，可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接，放在北京大学人类疾病基因研究中心网站（https://www.doczj.com/doc/2f18257840.html,/science/bioinfomatics.htm）,可以直接点击进入检索网站。下面介绍其中一些基本分析。值得注意的是，在对序列进行分析时，首先应当明确序列的性质,是mRNA序列还是基因组序列？是计算机拼接得到还是经过PCR扩增测序得到？是原核生物还是真核生物？这些决定了分析方法的选择和分析结果的解释。（一）核酸序列分析 1、双序列比对（pairwise alignment）双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置，它是用计算机进行序列分析的强大工具，分为全局比对和局部比对两类，各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式（heuristic）的算法，因此并没有最优值。根据比对的需要，选用适当的比对工具，在比对时适当调整空格罚分（gap penalty）和空格延伸罚分（gap extension penalty），以获得更优的比对。除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外，我们还推荐使用EMBOSS软件包中的Needle软件（http://bioinfo.pbi.nrc.ca:8090/EMBOSS/），和Pairwise BLAST （https://www.doczj.com/doc/2f18257840.html,/BLAST/）。以上介绍的这些双序列比对工具的使用都比较简单，一般输入所比较的序列即可。（1）BLAST和FASTA FASTA（https://www.doczj.com/doc/2f18257840.html,/fasta33/）和BLAST （https://www.doczj.com/doc/2f18257840.html,/BLAST/）是目前运用较为广泛的相似性搜索工具。这两

启动子生物信息学分析软件

https://www.doczj.com/doc/2f18257840.html,/seq_tools/promoter.html 2. PlantCARE（plant cis-acting regulatory elements）, a database of plant cis-acting regulatory elements http://bioinformatics.psb.ugent.be/webtoo ls/plantcare/html/ 3. promoter 2.0 prediction server http://www.cbs.dtu.dk/services/Promoter/ 4. 启动子分析网址: 1 https://www.doczj.com/doc/2f18257840.html,/seq_tools/promoter.html 2 http://alggen.lsi.upc.es/recerca/menu_recerca.html 3 http://www.cbs.dtu.dk/services/Promoter/ 4 https://www.doczj.com/doc/2f18257840.html,/~molb470/ ... s/solorz/index.html 5 https://www.doczj.com/doc/2f18257840.html,/molbio/proscan/ http://bip.weizmann.ac.il/toolbo ... ters.html#databases https://www.doczj.com/doc/2f18257840.html,/seq_tools/promoter.html https://www.doczj.com/doc/2f18257840.html,.sg/promoter/CGrich1_0/CGRICH.htm https://www.doczj.com/doc/2f18257840.html,/pub/programs.html#pmatch https://www.doczj.com/doc/2f18257840.html,.hk/~b400559/arraysoft_pathway.html#Promoter http://www.dna.affrc.go.jp/PLACE/signalup.html http://intra.psb.ugent.be:8080/PlantCARE/ http://www.cbs.dtu.dk/services/Promoter/ https://www.doczj.com/doc/2f18257840.html,/molbio/proscan/ https://www.doczj.com/doc/2f18257840.html,/molbio/signal/ https://www.doczj.com/doc/2f18257840.html,/thread-41571-1-1.htm 常用启动子分析网址： http://bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html#databas es

生物信息学常用工具

常用DNA和蛋白质序列数据分析工具： ●序列比对工具： a)BLAST： ●网络比对，包括基础的Blast比对、参数、特殊Blast如PSI-Blast、Blast2 等； ●本地比对，包括程序下载、安装、数据库的下载及格式化、Blast程序的运行等。 b)多序列比对ClustalX（Windows系统）包括程序下载、安装、及程序的运行、结果的输入输出等。 ●真核生物基因结构的预测： a)基因可读框的识别： Genescan； CpG岛、转录终止信号和启动子区域预测； CpGPlot； POLYAH； PromoterScan； b)基因密码子偏好性： CodonW； c)采用mRNA序列预测基因： Spidey； d)ASTD数据库 ●分子进化遗传分析工具 ●MEGA；

●Phylip； ●蛋白质结构和功能预测 a)一级结构 ProtParam蛋白质序列理化参数检索； ProtScale蛋白质疏水性分析； COILS卷曲螺旋预测； b)二级结构 PredictProtein蛋白质结构预测； PSIPRED不同蛋白质结构预测方法； c)InterProScan: 模式和序列谱研究 Prosite：蛋白质结构域、家族和功能为点数据库； Pfam：蛋白质家族比对和HMM数据库； BLOCK：模块搜索数据库； SMART：简单模块架构搜索工具； TMHMM：跨膜结构预测工具； d)三级结构 Swiss-Model Workspace: 同源建模的网络综合服务器； Phyre：线串法预测蛋白质折叠； HMMSTR/Rosetta：从头预测蛋白质结构； Swiss-PdbViewer：分子建模和可视化工具；序列模体的识别和解析； MEME程序包； ●蛋白质谱数据分析

常用生物信息学软件

常用生物信息学软件一、基因芯片 1、基因芯片综合分析软件。 ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件，不仅可以进行图像分析，还可以进行数据处理，方便protocol的管理功能强大，商业版正式版：6900美元。 Arraypro 4.0 Media Cybernetics公司的产品，该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者，相信arraypro也不会差。 phoretix? Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写，是一个用JA V A语言写的应用程序，界面清晰漂亮，用来分析微矩阵（microarray）实验获得的基因表达数据，需要下载安装JA V A运行环境JRE1.2后(5.1M)后，才能运行。 2、基因芯片阅读图像分析软件 ScanAlyze 2.44 ，斯坦福的基因芯片基因芯片阅读软件，进行微矩阵荧光图像分析，包括半自动定义格栅与像素点分析。输出为分隔的文本格式，可很容易地转化为任何数据库。 3、基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇（Cluster）分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写，微矩阵显著性分析软件，EXCEL软件的插件，由Stanford大学编制。 4．基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JA V A语言的系统树生成软件，接收Cluster生成的数据，比Treeview 增强了某些功能。 5．基因芯片引物设计 Array Designer 2.00 DNA微矩阵（microarray）软件，批量设计DNA和寡核苷酸引物工具三、序列综合分析 V ector NTI Suite 8.0 不喜欢装备各种专业性强的软件，而希望用一个综合性的软件代替的同志可以选择本软件。本阶段的大部分功能它都有。该软件具体特有良好的数据库管理（增加、修改、查找），对要操作的数据放在一个界面相同的数据库中统一管理。软件中的大部分分析可以通过在数据库中进行选定（数据）->分析->结果（显示、保存和入库）三步完成。在分析主界面，软件可以对核酸蛋白分子进行限制酶分析、结构域查找等多种分析和操作，生成重组分子策略和实验方法，进行限制酶片段的虚拟电泳，新建输入各种格式的分子数据、

生物信息学入门知识

生物信息学入门知识生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门学科。首先是研究遗传物质的载体DNA及其编码的大分子蛋白质，以计算机为其主要工具，发展各种软件，对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究，目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质，破译隐藏在DNA序列中的遗传语言，揭示人体生理和病理过程的分子基础，为人类疾病的预测、诊断、预防和治疗提供最合理和有效的途径。生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量，也是药物设计、环境监测的重要组成部分。近年来，蛋白质结构数据的快速增长，使蛋白质三维结构的处理分析也归入到生物信息学的范畴。国际上有三大一级生物信息数据库，即美国国家信息中心 (National Center of Biotechnology Information, NCBI)的Gen Bank(http:/ / www. nchi. nlm. nih. gov/ web/Gen Bank/ imdex. html)、欧洲分子生物学室验室(European Molecular Biology L aboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的 EM-BL (http:// www.ebi. https://www.doczj.com/doc/2f18257840.html,/ databases/ index.html)和日本 DNA数据库 (DNA Data Bank of Japan, DDBJ) (http:/ / www.ddbj.nig.ac.jp/ )。随着生物信息学 (Bioinformatics)的发展，通过检索数据库进行核酸序列同源性检索，电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用，已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。一、生物信息学相关网站生物信息学与生物计算：http://bioinformatics.weizmann.ac.il/ 这是生物信息学和生物计算学的网站，由Weizmann科学研究所，生物服务部和Crown人类基因组学中心支持。研究领域主要涵盖序列分析，蛋白质组学和基因组学等。该网站提供了数据库，电子论坛，教育，新闻，软件，招聘启事等。该网站还提供了相关链接，包括欧洲分子生物学以色列国家网点，以色列国家基因组基础设施实验室以及国际生物信息学合作中心。生物信息学专题：https://www.doczj.com/doc/2f18257840.html,/bioinformatics/bioinfo.htm 中国科学院上海生命科学研究院生物信息中心的网站中的生物信息学专题提供与生物信息学有关的新闻信息，生物信息学文献的介绍（包括的课题例如：鉴别肿瘤的亚型，细菌中的基因转移，生物钟与微阵列--哺乳动物的基因组有节奏，混乱的DNA区分人类与黑猩猩等等），相关软件下载，与数据库的链接。生物信息学专业网：https://www.doczj.com/doc/2f18257840.html,/ 生物信息学专业网旨在收集、整理与生物信息学相关的信息和资源。它的站点提供最近新闻；与生物科学相关的论文；与生物信息学相关的数据库，软件，公司，大学和期刊；工具的介绍，例如：序列逆向查询系统。生物信息学组织：https://www.doczj.com/doc/2f18257840.html,/ 生物信息学组织是生物信息学学科的综合性网站。其涉及的内容有新闻、事件提醒、会议消息、免费FTP工具下载、论文、URL推荐、演示幻灯片等。此外，其还拥有有关生物信息学

生物信息学_复习题及答案(打印)

一、名词解释： 1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。 3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。 4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。 5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。 6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。） 19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。 21.有根树：能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。 23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。