当前位置:文档之家› 生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)

名词解释或辨析。

1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。

2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。

5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间

相同碱基或氨基酸残基序列所占比例的大小。当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。如果两条系列有一个共同进化的祖先,那么他们是同源的。这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。

1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。

2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变。

3.电子克隆:是近年来发展起来的一门快速克隆基因的新技术,其核心技术是利用生物信息学技术的组装延伸ESTs序列,获得基因的部分乃至全长cDNA序列进一步利用RT_PCR的方法进行克隆分析、验证。

4.CDS和cDNA

cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。

CDE序列:编码序列,从起始密码子到终止密码子的所有序列。

5.有义链和无义链:正义链,负义链一般是指的DNA 的两条链。与mRNA序列相同的那条就是正义链或有义链,与它互补的也就是翻译出它的那条是编码链或负义链或反义链或模板链或无义链。

判断

1.生物信息学可以理解为生命科学中的信息科学(√)

2.DNA分子和蛋白质分子都含有进化信息。(√)

3.目前生命科学研究的重点和突破点已完全转移到

生物信息学上,已不需要实验做支撑。(×)

4.基因组与蛋白质组一样,都处于动态变化之中。(×)

5.生物信息学的发展大致经历了:前基因组时代,基因组时代和后基因组时代。(√)

6.蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。(×)

7.生物信息学中研究的生物大分子主要是脂类和多糖。(×)

8.一个数据库记录由两部分构成:原始序列数据及其注释。(√)

9.SWISS-PROT是目前国际上比较权威的核酸序列数据库。(×)

10.生物信息学中一级数据库与二级数据库之间并无明确的界限。(√)

1.生物信息学可以简单的理解为利用计算机进行生

命科学的研究。(×)

2.生物信息学的研究范围不包括新药研究和生物进化。(×)

3.DNA携带有进化信息,而蛋白质则不携带进化信息。(×)

4.中心法则中遗传信息的传递只能是单向的。(×)

5.DDBJ是重要的蛋白质结构数据库。(×)

6.一个数据库记录一般由两部分组成:原始序列数据及其注释。(√)

7.一级数据库与二级数据库之间并无明确的界限。(√)

8.相似性和同源性为同一个概念。(×)

9.蛋白质三维结构都是静态的,在行驶功能的过程中其结构不会改变。(×)

10.生物信息学的发展大致经历了:前基因组时代,基因组时代和后基因组时代。(√)简答题。

1、生物信息学的主要研究内容是什么?

①生物分子数据的收集与管理。②数据库搜索及序列

比较。③基因组序列分析。④基因表达数据的分析与

处理。⑤蛋白质结构预测。

2.生物信息学在基因芯片中的应用有哪些?①确定

芯片检测目标②芯片设计③实验数据管理与分析。

3.简要介绍GenBank中的DNA序列格式。

GenBank数据库(包括NCBI核酸和蛋白质序列数据

库)中条目格式如下:给出描述每一个系列的信息,

包括文献参考、系列的功能信息、mRNA和编码区域的

位置,以及重要突变的位置。这些序列信息以字段的

形式进行组织,每一行最前端都有一个标识符。在某

些条目中,标识符可能缩写成两个字母(例如RF代

表reference),某些字段可能还有次级字段。计算

机程序中的序列条目位于标识符ORIGIN和//之间。

4国际上权威的核酸序列数据库有哪些?

①欧洲分子生物学实验室的EMBL②美国生物技术信

息中心的GenBank。③日本遗传研究所的DDBJ。

5.序列分析的任务和目的分别是什么?

任务:①发现序列之间的相似性②辨别序列之间的差

异。目的:①相似序列:相似的结构,相似的功能。

②判别序列之间的同源性。③推测序列之间的进化关

系。

简答题

2.生物信息学数据库的要求和基本特征是什么?

应满足的要求:(1)时效性。(2)注释。(3)支

撑数据。(4)数据质量。(5)集成性。

特征:(1)数据库的更新速度不断加快数据量成指

数增长趋势。(2)数据库使用频率增长更快。(3)

数据库的复杂程度不断增加。(4)数据库网络化。

(5)面向应用。(6)先进的软硬件配置。

3.简要介绍FASTA序列格式

FASTA 序列格式包括三个部分:(1)在注释行的第

一列用字符“>”标识,后面是序列的名字和来源;

(2)标准的单字符标记的序列。(3)可选的“*”

表示序列的结束,它可能出现也可能不出现。但它是

许多序列分析程序正确读取序列所必须

的。FASTA格式是序列分析软件最常用的格式。

这种格式提供了从一个窗口到另一个窗口非常方便

的拷贝途径,因为序列中没有数字或其他非字符。

FASTA序列格式和蛋白质信息资源NBRF格式很相似。

4.什么是基因识别。

基因识别,是生物信息学的一个重要分支,使用生物

学实验或计算机等手段识别DNA序列上的具有生物学

特征的片段。基因识别的对象主要是蛋白质编码基

因。也包括其他具有一定生物学功能的因子,如RNA

基因和调控因子。

论述题。

1、生物序列相似性搜索的blast程序blastn、

blastp、blastx、Tblastn、Tblastx各自有何区别

和用途?

Blastp:①检测序列:蛋白质。②数据库类型:蛋白

质。③方法:用检测序列蛋白质搜索蛋白质序列数据

库。

Blastn:①检测序列:核酸。②数据库类型:核酸。

③方法:用检测序列核酸搜索核酸序列数据库。

Blastx①检测序列:核酸。②数据库类型:蛋白质。

③方法:将核酸序列按6条链翻译成蛋白质序列后搜

索蛋白质序列数据库。

Tblastn①检测序列:蛋白质。②数据库类型:核酸。

③方法:用检测系列蛋白质搜索由核酸序列数据库按

6条链翻译成的蛋白质序列数据库。

Tblastx①检测序列:核酸②数据库类型:核酸③方

法:将核酸序列按6条链翻译成蛋白质序列后搜索由

核酸序列数据库按6条链翻译成的蛋白质序列数据

库。

2.掌握蛋白质结构有什么意义,为什么要进行蛋白质

结构预测?

(1)研究蛋白质的结构意义重大,分析蛋白质结构、

功能及其关系是蛋白质组计划中的一个重要组成部

分。研究蛋白质结构,有助于了解蛋白质的作用,了

解蛋白质如何行使其生物功能,认识蛋白质与蛋白质

(或其他分子)之间的相互作用,这无论是对于生物

学还是对于医学和药学,都是非常重要的。(2)对

于未知功能或者新发现的蛋白质分子,通过结构分

析,可以进行功能注释,指导设计进行功能确认的生

物学实验。通过分析蛋白质的结构,确认功能单位或

者结构域,可以为遗传操作提供目标,为设计新的蛋

白质或改造已有蛋白质提供可靠的依据,同时为新的

药物分子设计提供合理的靶分子结构。

2.简述人类基因组计划与生物信息学之间的相互促

进关系。

人类基因组计划是美国在1990年提出实施的一项伟

大的科学计划,与阿波罗登月计划、曼哈顿原子弹计

划统称为人类自然科学史上的三大计划。自实施以

来,该计划在世界各国引起了很大反响。在人类基因

组计划中,人们准备用15年时间,投入30亿美元完

成人类全部24条染色体中的3×109个碱基对

(bp,base pair)的序列测定,其主要任务包括

作图(遗传图谱、物理图谱的建立及转录图谱的绘

制)、测序和基因识别,还包括模式生物(如大肠杆

菌、酵母、线虫、小鼠等)基因组的作图和测序,以

及信息系统的建立。随着人类基因组计划的提出和实

施,实验数据和可利用信息急剧增加,人类基因组计

划提供了以往不可想象的巨量的生物学信息资源。基

因组信息的收集、储存、分发、分析显得越来越紧迫

和重要,信息的管理和分析成为人类基因组计划实施

过程中的一项重要工作,人类基因组计划向信息学提

出了巨大的挑战。值得庆幸的是,人类基因组计划一

开始就与计算机技术信息、高速公路同步发展,信息

技术为生物信息学的发展提供了非常好的条件,为生

物信息学的研究和应用提供了非常好的支撑。生物信

息学与人类基因组计划紧密结合,互相渗透,生物信

息学成为基因组计划不可分割的一部分。事实证明,

人类基因组计划在生物信息学的支持下,前进步伐大

大加快,已经提前完成计划,功能基因组研究也已经

全面展开。而人类基因组计划反过来又大大促进了生

物信息学的发展,HGP丰富了生物信息学的研究内容

促进生物信息学新思想新方法的产生,生物信息学在

最近十年迅速发展的历程证明了这一点。

名词解释或辨析。

1.生物信息学:生物信息学是包含生物信息的获取、

处理、贮存、分发、分析和解释的所有方面的一门学

科,它综合运用数学、计算机科学和生物学的各种工

具进行研究,目的在于了解大量的生物学意义。

2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA

等的生物芯片。利用这类芯片与标记的生物样品进行

杂交,可对样品的基因表达谱生物信息进行快速定性

和定量分析。

3.人类基因组计划:HGP,是一项规模宏大,跨国跨

学科的科学探索工程。其宗旨在于测定组成人类染色

体(指单倍体)中所包含的30亿个碱基对组成的核苷

酸序列,从而描绘人类基因组图谱,并且辨识其载有

的基因及其序列,达到破译人类遗传信息的最终目

的。

4.中心法则:分子生物学的基本法则,是1958年由

克里克(Crick)提出的遗传信息传递的规律,包括

由DNA到DNA的复制,由DNA到RNA的转录和由RNA

到蛋白质的翻译等过程。20世纪70年代逆转录酶的

发现,表明还有由RNA逆转录形成DNA的机制,是对

中心法则的补充和丰富。

5.相似性和同源性:相似性(similarity)和同源性

(homology)是两个完全不同的概念。同源序列是指

从某一共同祖先经过趋异进化而形成的不同序列。相

似性是指序列比对过程中检测序列和目标序列之间

相同碱基或氨基酸残基序列所占比例的大小。当两条

序列同源时,他们的氨基酸或核苷酸序列通常有显著

的一致性(identity)。如果两条系列有一个共同进

化的祖先,那么他们是同源的。这里不存在同源性的

程度问题,两条序列要么是同源的要么是不同源的。

1.生物信息学:综合计算机科学、信息技术和数学的

理论和方法来研究生物信息的交叉学科。包括生物学

数据的研究、存档、显示、处理和模拟,基因组遗传

和物理图谱的处理,核苷酸和氨基酸序列分析,新基

因的发现和蛋白质结构的预测等。

2.蛋白质组:指由一个基因组,或一个细胞、组织表

达的所有蛋白质。蛋白质组的概念与基因组的概念有

许多差别,它随着组织、甚至环境状态的不同而改变。

3.电子克隆:是近年来发展起来的一门快速克隆基因

的新技术,其核心技术是利用生物信息学技术的组装

延伸ESTs序列,获得基因的部分乃至全长cDNA序列

进一步利用RT_PCR的方法进行克隆分析、验证。

4.CDS和cDNA

cDNA序列:互补DNA序列,指的是mRNA为在逆转录

酶的作用下将形成DNA的过程。

CDE序列:编码序列,从起始密码子到终止密码子的

所有序列。

6.有义链和无义链:正义链,负义链一般是指的DNA

的两条链。与mRNA序列相同的那条就是正义链或有

义链,与它互补的也就是翻译出它的那条是编码链或

负义链或反义链或模板链或无义链。

判断

1.生物信息学可以理解为生命科学中的信息科学

(√)

2.DNA分子和蛋白质分子都含有进化信息。(√)

3.目前生命科学研究的重点和突破点已完全转移到

生物信息学上,已不需要实验做支撑。(×)

4.基因组与蛋白质组一样,都处于动态变化之中。

(×)

5.生物信息学的发展大致经历了:前基因组时代,基

因组时代和后基因组时代。(√)

6.蛋白质三维结构都是静态的,在行使功能的过程中

其结构不会改变。(×)

7.生物信息学中研究的生物大分子主要是脂类和多

糖。(×)

8.一个数据库记录由两部分构成:原始序列数据及其

注释。(√)

9.SWISS-PROT是目前国际上比较权威的核酸序列数

据库。(×)

10.生物信息学中一级数据库与二级数据库之间并无

明确的界限。(√)

1.生物信息学可以简单的理解为利用计算机进行生

命科学的研究。(×)

2.生物信息学的研究范围不包括新药研究和生物进

化。(×)

3.DNA携带有进化信息,而蛋白质则不携带进化信息。

(×)

4.中心法则中遗传信息的传递只能是单向的。(×)

5.DDBJ是重要的蛋白质结构数据库。(×)

6.一个数据库记录一般由两部分组成:原始序列数据

及其注释。(√)

7.一级数据库与二级数据库之间并无明确的界限。

(√)

8.相似性和同源性为同一个概念。(×)

9.蛋白质三维结构都是静态的,在行驶功能的过程中

其结构不会改变。(×)

10.生物信息学的发展大致经历了:前基因组时代,

基因组时代和后基因组时代。(√)

简答题。

1、生物信息学的主要研究内容是什么?

①生物分子数据的收集与管理。②数据库搜索及序列

比较。③基因组序列分析。④基因表达数据的分析与

处理。⑤蛋白质结构预测。

2.生物信息学在基因芯片中的应用有哪些?①确定

芯片检测目标②芯片设计③实验数据管理与分析。

3.简要介绍GenBank中的DNA序列格式。

GenBank数据库(包括NCBI核酸和蛋白质序列数据

库)中条目格式如下:给出描述每一个系列的信息,

包括文献参考、系列的功能信息、mRNA和编码区域的

位置,以及重要突变的位置。这些序列信息以字段的

形式进行组织,每一行最前端都有一个标识符。在某

些条目中,标识符可能缩写成两个字母(例如RF代

表reference),某些字段可能还有次级字段。计算

机程序中的序列条目位于标识符ORIGIN和//之间。

4国际上权威的核酸序列数据库有哪些?

①欧洲分子生物学实验室的EMBL②美国生物技术信

息中心的GenBank。③日本遗传研究所的DDBJ。

5.序列分析的任务和目的分别是什么?

任务:①发现序列之间的相似性②辨别序列之间的差

异。目的:①相似序列:相似的结构,相似的功能。

②判别序列之间的同源性。③推测序列之间的进化关

系。

简答题

2.生物信息学数据库的要求和基本特征是什么?

应满足的要求:(1)时效性。(2)注释。(3)支

撑数据。(4)数据质量。(5)集成性。

特征:(1)数据库的更新速度不断加快数据量成指

数增长趋势。(2)数据库使用频率增长更快。(3)

数据库的复杂程度不断增加。(4)数据库网络化。

(5)面向应用。(6)先进的软硬件配置。

3.简要介绍FASTA序列格式

FASTA 序列格式包括三个部分:(1)在注释行的第

一列用字符“>”标识,后面是序列的名字和来源;

(2)标准的单字符标记的序列。(3)可选的“*”

表示序列的结束,它可能出现也可能不出现。但它是

许多序列分析程序正确读取序列所必须

的。FASTA格式是序列分析软件最常用的格式。

这种格式提供了从一个窗口到另一个窗口非常方便

的拷贝途径,因为序列中没有数字或其他非字符。

FASTA序列格式和蛋白质信息资源NBRF格式很相似。

4.什么是基因识别。

基因识别,是生物信息学的一个重要分支,使用生物

学实验或计算机等手段识别DNA序列上的具有生物学

特征的片段。基因识别的对象主要是蛋白质编码基

因。也包括其他具有一定生物学功能的因子,如RNA

基因和调控因子。

论述题。

1、生物序列相似性搜索的blast程序blastn、

blastp、blastx、Tblastn、Tblastx各自有何区别

和用途?

Blastp:①检测序列:蛋白质。②数据库类型:蛋白

质。③方法:用检测序列蛋白质搜索蛋白质序列数据

库。

Blastn:①检测序列:核酸。②数据库类型:核酸。

③方法:用检测序列核酸搜索核酸序列数据库。

Blastx①检测序列:核酸。②数据库类型:蛋白质。

③方法:将核酸序列按6条链翻译成蛋白质序列后搜

索蛋白质序列数据库。

Tblastn①检测序列:蛋白质。②数据库类型:核酸。

③方法:用检测系列蛋白质搜索由核酸序列数据库按

6条链翻译成的蛋白质序列数据库。

Tblastx①检测序列:核酸②数据库类型:核酸③方

法:将核酸序列按6条链翻译成蛋白质序列后搜索由

核酸序列数据库按6条链翻译成的蛋白质序列数据

库。

2.掌握蛋白质结构有什么意义,为什么要进行蛋白质

结构预测?

(1)研究蛋白质的结构意义重大,分析蛋白质结构、

功能及其关系是蛋白质组计划中的一个重要组成部

分。研究蛋白质结构,有助于了解蛋白质的作用,了

解蛋白质如何行使其生物功能,认识蛋白质与蛋白质

(或其他分子)之间的相互作用,这无论是对于生物

学还是对于医学和药学,都是非常重要的。(2)对

于未知功能或者新发现的蛋白质分子,通过结构分

析,可以进行功能注释,指导设计进行功能确认的生

物学实验。通过分析蛋白质的结构,确认功能单位或

者结构域,可以为遗传操作提供目标,为设计新的蛋

白质或改造已有蛋白质提供可靠的依据,同时为新的

药物分子设计提供合理的靶分子结构。

2.简述人类基因组计划与生物信息学之间的相互促

进关系。

人类基因组计划是美国在1990年提出实施的一项伟

大的科学计划,与阿波罗登月计划、曼哈顿原子弹计

划统称为人类自然科学史上的三大计划。自实施以

来,该计划在世界各国引起了很大反响。在人类基因

组计划中,人们准备用15年时间,投入30亿美元完

成人类全部24条染色体中的3×109个碱基对

(bp,base pair)的序列测定,其主要任务包括

作图(遗传图谱、物理图谱的建立及转录图谱的绘

制)、测序和基因识别,还包括模式生物(如大肠杆

菌、酵母、线虫、小鼠等)基因组的作图和测序,以

及信息系统的建立。随着人类基因组计划的提出和实

施,实验数据和可利用信息急剧增加,人类基因组计

划提供了以往不可想象的巨量的生物学信息资源。基

因组信息的收集、储存、分发、分析显得越来越紧迫

和重要,信息的管理和分析成为人类基因组计划实施

过程中的一项重要工作,人类基因组计划向信息学提

出了巨大的挑战。值得庆幸的是,人类基因组计划一

开始就与计算机技术信息、高速公路同步发展,信息

技术为生物信息学的发展提供了非常好的条件,为生

物信息学的研究和应用提供了非常好的支撑。生物信

息学与人类基因组计划紧密结合,互相渗透,生物信

息学成为基因组计划不可分割的一部分。事实证明,

人类基因组计划在生物信息学的支持下,前进步伐大

大加快,已经提前完成计划,功能基因组研究也已经

全面展开。而人类基因组计划反过来又大大促进了生

物信息学的发展,HGP丰富了生物信息学的研究内容

促进生物信息学新思想新方法的产生,生物信息学在

最近十年迅速发展的历程证明了这一点。

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.doczj.com/doc/b16619991.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学数据库或软件

一、搜索生物信息学数据库或者软件 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库有GenBank,EMBL,DDB等,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank ,欧洲分子生物学实验室的EMBL-Bank(简称EMBL),日本遗传研究所的DDBJ 蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等, 蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等, 三维结构数据库有PDB,NDB,BioMagResBank,CCSD等, 与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等, 与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等, 文献数据库有Medline,Uncover等。 另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。 二、搜索生物信息学软件 生物信息学软件的主要功能有: 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间; 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能; 蛋白高级结构预测。 如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。 NCBI的网址是:https://www.doczj.com/doc/b16619991.html,。 Entrez的网址是:https://www.doczj.com/doc/b16619991.html,/entrez/。 BankIt的网址是:https://www.doczj.com/doc/b16619991.html,/BankIt。 Sequin的相关网址是:https://www.doczj.com/doc/b16619991.html,/Sequin/。 数据库网址是:https://www.doczj.com/doc/b16619991.html,/embl/。

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

生物信息学复习资料 整理(双语)

基因表达gene expression:是基因中的DNA序列生产出蛋白质的过程。步骤大致从DNA 转录成mRNA开始,一直到对于蛋白质进行后转译修饰为止。 基因水平转移horizontal gene transfer:指生物将遗传物质传递给其他细胞而非其子代的过程,基因水平转移是一个重要的现象。 人工神经网络(Artificial Neural Networks)人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。 序列比对sequence alignment:序列比对指将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。在比对中,错配与突变相应,而空位与插入或缺失对应。 可变剪接alternative splicing :通过不同的剪接位点,从一个单独的前体mRNA生成两个或多个mRNA成熟分子的现象。 启动子(promotor): 指一段能使基因进行转录的DNA序列。启动子可以被RNA聚合酶辨认,并开始转录。在RNA合成中,启动子可以和决定转录开始的转录因子产成相互作用,继而控制细胞开始转录翻译蛋白质。 增强子Enhancer:是DNA上一小段可与转录因子蛋白结合的区域,结合之后,基因的转录作用将会加强。强化子可能位于基因上游,也可能位于下游。 分支约束法branch and bound method :一种对最大简约树进行逐层搜索的智能高效的方法,包括两个步骤:一、将上边界确定为数据集的最大简约树的长度;二、每次增加一个分支,逐步生成一棵树,以此描述部分被考虑序列的相互关系。 趋同演化(Convergency):在演化生物学中指的是两种不具亲缘关系的动物长期生活在相同或相似的环境,或曰生态系统中,它们因应需要而发展出相同功能的器官的现象。 Chou-Fasman 参数Chou-Fasman parameter:表示与α螺旋、β折叠以及发夹环各个位置相关的氨基酸二级结构经验观察趋势的一系列数值参量。 位置特异性打分矩阵position-specific scoring matrix:一个矩阵,矩阵中的每一个数表示某个特定的氨基酸占据多序列比对中某个位置的频率。 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。 系统生物学system biology:是一个试图整合不同层次信息以理解生物系统如何行使功能的学术领域。通过研究某生物系统各不同部分之间的相互关系和相互作用(例如,与细胞信号传导,代谢通路,细胞器,细胞,生理系统与生物等相关的基因和蛋白网络),系统生物学期望最终能够建立整个系统的可理解模型。

生物信息学考试试卷

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA 序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系? 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么? 7)简述BLAST搜索的算法。 8)什么是物种的标记序列? 9)什么是多序列比对过程的三个步骤? 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么? 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因? 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分? 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学 本科生版 期末考试试题(机考)

暨南大学考试试卷 注意: 1. 本考试只有相对正确的答案,无论你如何作答,只要写出足够强的论证的理由和过程来 支撑你的观点,并且不违反课程内讲授的基本原理,即算正确。 2. 考试形式为机考,请自备电脑。回答可直接写在本文件里,要写出过程和明确的结论。 最终答卷以PDF形式现场提交以避免乱码和篡改,文件名请统一命名为“学号-姓名.pdf”,例如2013042213-张三.pdf。不按此格式命名文件名者将一律没有成绩! 3. 考试完毕,请用U盘将写好的报告PDF文档拷到监考老师的电脑上,或于考试结束后 15分钟内发邮件至zhanggong@https://www.doczj.com/doc/b16619991.html,,注明主题“期末考试”。 4. 本试卷分为4小题,各题分数分别为20、30、30、20 分,满分100分。 人卵细胞受精到胚胎发育极早期,经历如下阶段: -卵细胞(oocyte) -前核(pronuclei) -受精卵(zygote) -2-细胞期 -4-细胞期 -8-细胞期 -桑椹胚(morula) 为研究在发育过程中的转录调控,研究者对以上时期的细胞进行了单细胞测序。测序仪使用Illumina HiSeq-2000,采用双端100nt测序方式。测序数据的第一端用FANSe2算法云分析平台进行一键式定量分析,得到28个基因表达定量文件(*_SVmerge.txt)。请通过推理和分析,回答以下问题: 1.真核生物中,同一个基因往往可以通过可变剪切的方式,生成若干个不同的 剪切变体。请问云平台分析的这批数据,是如何处理同一基因的不同剪切变体的?这种测序方式有没有可能定量不同的剪切变体?为什么?

暨南大学《生物信息学(本科生版)》试卷考生姓名、学号: 2.Oocyte, zygote, pronuclei, morula阶段都做了生物学重复,请问其重复性好不 好?如果不好,有哪些因素会造成重复性不好?会不会影响结论? 3.发育生物学课本上就已经说道,2-细胞期、4-细胞期、8-细胞期的每一个细胞 都不一样。受精卵已有植物极和动物极之分,在第一次卵裂的2-细胞期中,植物极和动物极被分开;然后继续进行两次纵向卵裂,形成上部4个动物极细胞和下部8个植物极细胞。将来动物极细胞发育成外胚层,植物极细胞发育成内胚层。也就是说,一个胚胎的若干个细胞之间就有不同,其转录组应该有不同。那么,同期的细胞之间差异大,还是不同期之间差异大?这些差异是由发育阶段所致,还是由于单细胞测序的随机性误差所致? 4.哪些基因是“管家基因”(housekeeping gene),哪些基因是只在未受精卵细胞中 有表达的?这两部分基因的mRNA长度分布有没有统计学意义上的差别? (RefSeq-RNA数据库里面所有的mRNA序列都在Human_hg19_refMrna20150317.fa文件中)

相关主题
文本预览
相关文档 最新文档