生物信息学第二章分子生物信息数据库
- 格式:ppt
- 大小:1.87 MB
- 文档页数:3
生物信息学知识点总结分章第一章:生物信息学概述生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研究生物系统的结构、功能和演化等方面的问题。
生物信息学的发展可以追溯到20世纪70年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的重要工具。
生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物学等。
生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。
第二章:生物数据库生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。
生物数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。
常用的生物数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。
生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。
第三章:序列分析序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜索和分析。
常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。
序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研究的基础工具之一。
第四章:结构分析结构分析是生物信息学研究的另一个重要内容,主要应用于蛋白质、核酸等生物分子的三维结构预测、模拟和分析。
常用的结构分析工具包括Swiss-Model、Modeller、Phyre2等,这些工具可以帮助研究人员预测蛋白质或核酸的三维结构,分析结构的稳定性、功能和相互作用等特性。
结构分析在蛋白质结构与功能研究、蛋白质药物设计等方面发挥着重要作用,为生物信息学研究提供了重要的技术支持。
第二章:生物分子数据库1.生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。
初(一)级数据库贮存原始的生物数据,如DNA 序列,由晶体衍射(Crystallography)获得的蛋白质结构等。
二级数据(衍生数据库)是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD 和蛋白质一般结构或功能模体(motif)数据库PROSITE。
2.核酸数据库:(1)DNA 序列构成了初级数据库的主体部分。
目前国际上有3个主要的DNA序列公共数据库:EMBL,GenBank(NCBI)和DDBJ。
这3个大型数据库于1988 年达成协议,组成合作联合体。
它们每天交换信息,并对数据库DNA 序列记录的统一标准达成一致。
每个机构负责收集来自不同地理分布的数据,然后来自各地的所有信息汇总在一起,3 个数据库共同享有并向世界开放,故这3 个数据库又被称为公共序列数据库。
所以从理论上说,这3 个数据库所拥有的DNA 序列数据是完全相同的。
(2)第二个主要的初级数据源来自各种基因组计划。
一些基因组计划已经完成,如真核生物酵母, 原肠生物和3个原核生物流感嗜血杆菌、和大肠杆菌等。
这些计划的大部分信息在EMBL中均可找到。
3.核酸序列数据库格式:(1)每个序列由被称为平面文件的文本记录代表;(2)GenBank/GenPept (useful for scientists);FASTA (the simplest format);ASN.1 (抽象语法符号)& XML (useful for programmers)(3)EMBL和GenBank数据库的主要内容和格式:序列名称、长度、日期;序列说明、编号、版本号;物种来源、学名、分类学位置;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列(每行60个碱基)【header,feature table,sequence】4.蛋白质数据库:(1)蛋白质序列数据库:SWISS-PROT 和PIR 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL 和GenBank 数据库上均建立了镜像 (mirror) 站点。