生物信息学数据库答案[1]
- 格式:doc
- 大小:84.50 KB
- 文档页数:8
生物信息学(bioinformatics):是一门交叉学科,它包含了生物信息的获取,处理,存储,分发,分析和解释等在内的所以方面,它综合运用数学,计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
目的:揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。
方法:主要有创建一切适用于基因组信息分析的新方法,改进现有的理论分析方法,发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具等。
应用:生物信息的存储与获取,序列比对,测序与拼接,基因预测,生物进化与系统发育分析,蛋白质结构预测,RNA结构预测,分子设计与药物设计,代谢网络分析,基因芯片,DNA计算等。
1.1.3生物信息学的研究内容
1、序列比对(Alignment)。
2、结构比对。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。
3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。
4、计算机辅助基因识别(仅指蛋白质编码基因)。
5、非编码区分析和DNA语言研究,是最重要的课题之一。
6、分子进化和比较基因组学,是最重要的课题之一。
7、序列重叠群(Contigs)装配。
8、遗传密码的起源。
9、基于结构的药物设计。10、其他。如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。
3、开放式阅读框(ORF):是基因的起始密码子开始到终止密码子为止的一个连续编码的序列。
5、中心法则:包括DNA的自我复制,转录形成RNA并翻译成蛋白质,RNA的自我复制和逆转录的过程。
6序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
6、算法分析:评价一个算法的优劣,通过时间复杂度和空间复杂度来确定。
7、数据库管理系统:(database management system,DBMS)对DB进行管理的系统工程,提供DB的建立、查询、更新以及各种数据控制能。
8、数据库:统一管理的相关数据的集合。
9、搜索软件:对内容进行筛选,从中选择出符合用户的检索要求的内容同时进行分级排序,将结果显示出来。
10、人类基因组计划(HGP):是对人类24条染色体上的3X109个碱基对(base pair,bp)序列进行测定,完成图谱绘制、测序、基因识别,及信息系统的建立。
一、名词解释:
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
3一级数据库(一次数据库):基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。
二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。
序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)
19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94
1、GenBank:是美国国家生物技术信息中心管理的核酸序列数据库,汇集并注释了所有公开的核酸序列。
2、ORF:一组连续的含有三联密码子的能够被翻译成为多肽链的DNA序列。它由起始密码子开始,到终止密码子结束。
3、CDS:是编码一段蛋白产物的序列。
4、BLAST:是一个基于局部比对的序列相似性搜索工具。
5、EST:(表达序列标签)就是cDNA的一个片段,即一个基因编码序列的一小段。
6、PDB:(蛋白质结构数据库)是美国国家实验室创建并管理的收录生物大分子晶体结构的数据库。
7、Homology:(同源性)
8、Similarity:(相似性)
9、Orthologous:(直向同源、垂直同源)描述在不同物种中来自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能没有。
10、Entrez:是NCBI网站的数据库查询系统,它集成了文献数据库、核酸序列数据库、结构数据库、基因图谱数据库,是有效利用NCBI数据库资源的工具。
11、EMBL:是欧洲分子生物学实验室创建的核酸序列数据库。
12、DDBJ:日本国立遗传研究所创建的核酸序列数据库。
13、SCOP:英国医学研究委员会的分子生物学实验室创建的收录蛋白质结构域的数据库。
7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98
14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。