生物信息学认识
- 格式:doc
- 大小:68.50 KB
- 文档页数:11
生物信息学概念与主要内容生物信息学是一门交叉学科,它综合运用了生物学、计算机科学、数学和统计学等多个学科的理论和方法,来研究和分析生物分子(如 DNA、RNA 和蛋白质)的结构、功能、演化以及它们之间的相互关系。
生物信息学的主要内容包括以下几个方面:1. 基因组学:基因组学是生物信息学的核心领域之一。
它涉及基因组的测序、组装、注释和比较分析。
通过基因组学的研究,可以了解生物体的基因组结构、基因功能、基因表达调控等信息。
2. 转录组学:转录组学关注的是转录水平上基因表达的研究。
它包括对 RNA 转录本的测序、表达量分析、差异表达基因的鉴定等。
转录组学有助于理解基因在不同条件下的表达模式和调控机制。
3. 蛋白质组学:蛋白质组学研究蛋白质的表达、结构、功能和相互作用。
它包括蛋白质的鉴定、定量分析、蛋白质-蛋白质相互作用网络的构建等。
蛋白质组学对于揭示蛋白质的功能和生物学过程具有重要意义。
4. 生物信息学算法和工具:生物信息学涉及到大量的数据处理和分析,因此需要开发各种算法和工具来处理和解读生物数据。
这些工具包括序列比对算法、基因注释工具、蛋白质结构预测算法等。
5. 数据库和知识库:生物信息学依赖于各种生物数据库和知识库,这些数据库存储了大量的生物分子数据、文献信息和实验结果。
例如,基因组数据库(如 GenBank)、蛋白质数据库(如 PDB)等。
6. 系统生物学:系统生物学是将生物信息学与系统科学相结合的学科领域。
它旨在研究生物系统中各个组成部分之间的相互作用和调控机制,从而构建生物系统的模型和网络。
总的来说,生物信息学为生物研究提供了强大的计算和数据分析工具,帮助科学家更好地理解生物分子的结构、功能和相互关系,进而推动生命科学的发展。
什么是生物信息学生物信息学是一门综合性的学科,是应用计算机、数学、物理、化学、生物学等学科知识,研究生命系统中信息的采集、存储、管理、处理、分析、应用和传播的一门学科。
它是以高通量技术、计算机辅助技术和统计学方法为基础,研究生物学信息的获取、处理和应用,为生命科学的研究和应用提供支持和服务。
生物信息学涉及的范围非常广,包括基因组学、蛋白质组学、代谢组学、表观基因组学、转录组学、系统生物学等多个方面。
生物信息学的发展始于20世纪70年代,并在21世纪经历了爆发式的发展,随着人类基因组计划等生物学研究的迅速发展,生物信息学逐渐成为生命科学领域中的重要分支和研究热点。
生物信息学通过从大量的生物学数据中提取信息,探索诸如基因功能、蛋白质相互作用、新药开发、疾病诊断和治疗、生命演化等诸多方面的问题。
生物信息学的主要研究内容包括:1.基因组学:对生物体基因组的序列和结构进行分析和解读,探究基因与性状、疾病的关系。
2.转录组学:对生物体转录产物实现高通量测序和分析,分析在不同生理和病理状态下基因的表达模式,在分子机制上研究调控基因表达的过程。
3.蛋白质组学:研究蛋白质组在不同生理和病理状态下的变化及其功能,寻找与疾病相关的蛋白质标志物,以及蛋白质相互作用、修饰和结构等方面的特征。
4.代谢组学:对生物体在代谢通路中产生的化合物进行鉴定和定量,研究代谢组在不同生理和病理状态下的变化及其与人类健康的关系。
5.系统生物学:通过对生物体多维度数据的集成分析,建立生物体系的数学计算模型,从宏观和微观两个层次深入研究生物体系的整体特征和生命规律。
生物信息学在基础研究和应用领域均有重要的意义和价值。
在基础研究方面,生物信息学可以加速基因定位、基因功能解析、进化研究等过程。
在应用方面,生物信息学可以为新药研发、疾病预测、定制医疗等提供技术支持。
生物信息学的应用还包括医学、农业、食品、环保等多个领域。
尽管生物信息学已经发展成为一门独立的学科,但与生命科学的其他领域仍存在密切的联系。
生物信息学的基本概念和技术生物信息学是他卫生医疗、农业种植、环境保护等方面的一个新兴学科,是应用计算机科学、统计学和生物学等知识,研究生物的基因、蛋白质、基因组和表达及其相关信息的一个综合性、交叉性学科。
生物信息学的主要研究内容包括基因组学、转录组学、蛋白质组学、代谢组学等。
本文将重点对生物信息学的基本概念和技术进行介绍。
一、生物信息学的基本概念1. 基因组学基因组学是生物信息学的一个重要分支,是研究生物基因组组成以及基因组结构和功能的学科。
基因组是指定义生物遗传信息总体的基因及其调控区域,包括DNA的全套本体以及其中有关基因编码的蛋白质和RNA的信息。
基因组学主要包括基因序列测定、基因变异的检测和鉴定、基因调控区域的研究等。
2. 转录组学转录组学研究的是细胞或者组织细胞内所有基因的信息表达模式和规律,包括轻量级、重量级RNA的结构、功能和表达差异。
转录组学的研究方法包括基于RNA测序技术的定量和基因表达分析、转录因子分析、芯片技术等。
3. 蛋白质组学蛋白质组学是以蛋白质为研究对象,探讨蛋白质的种类、品质和数量,以及其在细胞和生物体内的作用、相互作用等问题。
蛋白质组学主要包括蛋白质质谱学、二维电泳技术等。
4. 代谢组学代谢组学是指在全体生物组织和细胞水平上,系统地研究代谢产物谱、代谢途径、代谢物代谢酶和代谢控制等方面的科学。
代谢组学是从代谢物的角度来理解生物体的状态,代谢组学主要采用高通量技术,如质谱分析,核磁共振(NMR)技术等。
二、生物信息学的技术1. DNA测序技术DNA测序是分析DNA序列的基础技术,是基因组和转录组学、蛋白质组学和代谢组学研究的重要前提。
DNA测序的技术不断更新,测序平台主要分为第二代和第三代测序技术,其中第二代测序技术是基于测量表明目标分子序列的合成以及检测分子中不同碱基的不同光学或电性质的方法,而第三代测序技术是通过读取单个分子的序列,并识别单个核苷酸以测定DNA序列。
医学生物信息学知识点医学生物信息学是将生物信息学的原理、方法和技术应用于医学领域的一门交叉学科。
它通过对生物学、计算机科学和统计学等领域的研究,旨在解决与医学相关的生物信息数据存储、分析和解释的问题。
本文将介绍医学生物信息学的一些基本知识点。
第一部分:基础概念1.1 生物信息学的定义医学生物信息学是一门研究如何获取、存储、分析和解释与医学相关的生物信息数据的学科。
它涵盖了基因组学、蛋白质组学、代谢组学等多个领域,旨在帮助我们更好地了解生物体内复杂的分子机制,并为疾病的诊断和治疗提供支持。
1.2 基因组学基因组学是研究生物体基因组全貌的学科。
它通过解析基因组中的DNA序列,研究基因的组成、结构和功能,以及基因与它们之间的关联。
基因组学在医学领域中的应用包括寻找致病基因、预测个体的疾病易感性等。
1.3 蛋白质组学蛋白质组学是研究生物体蛋白质组成和功能的学科。
它通过分析蛋白质的结构、功能和相互作用,探索蛋白质在生物体内的作用机制。
蛋白质组学在医学领域的应用包括研究疾病的蛋白质标志物、筛选药物靶点等。
1.4 代谢组学代谢组学是研究生物体代谢产物组成和变化的学科。
它通过分析生物体代谢产物的谱图和定量测定,以及与基因表达、蛋白质组成等的关联,揭示生物体代谢网络的特征和调控机制。
代谢组学在医学领域中的应用包括疾病诊断、药物研发等。
第二部分:方法和技术2.1 基因测序技术基因测序技术是获取生物体DNA序列信息的关键技术。
目前广泛应用的基因测序技术包括Sanger测序、高通量测序(如Illumina、Ion Torrent等),以及第三代测序技术(如PacBio、Nanopore等)。
这些技术的不断发展和普及,为医学生物信息学的发展提供了强大的数据支持。
2.2 蛋白质组学技术蛋白质组学技术主要包括蛋白质分离、质谱分析和蛋白质定量等。
常用的蛋白质分离方法有凝胶电泳、液相色谱等;质谱分析方法包括质子化电喷雾质谱、MALDI-TOF质谱等;蛋白质定量方法有标记和非标记两种方式。
对生物信息学的认识和看法生物信息学是一门涉及生物学、计算机科学和数学等多学科的交叉学科。
它通过收集、存储、分析和解释生物学数据,为生命科学领域的研究提供了强大的工具和方法。
在生命科学研究中,生物信息学已经成为不可或缺的一部分。
生物信息学的主要任务是处理和分析生物大数据。
随着科技的进步,生物学数据的量和复杂程度不断增加,而生物信息学通过高通量测序技术、基因芯片技术等手段,可以快速、准确地获取大量生物学数据,比如基因序列、蛋白质结构和功能、代谢通路等。
这些数据的收集和处理,为生物学研究提供了更广阔的视角和更多的思路,使得研究人员可以更深入地了解生命的本质。
生物信息学的应用范围非常广泛。
在生物医学领域,生物信息学可以帮助医生对疾病进行更准确的诊断和治疗。
比如,通过对基因组、转录组和蛋白质组数据的分析,可以为疾病的分子诊断和治疗提供更好的依据。
在农业领域,生物信息学可以帮助农民选择适合生长环境的作物和动物品种,并控制它们的生长和发育过程。
在环境保护领域,生物信息学可以帮助我们更好地了解生物多样性和生态系统结构,为环境保护提供更有针对性的方案。
生物信息学作为一门新兴学科,也面临着一些挑战。
首先,生物信息学需要处理庞大的数据集,这需要高效的计算和存储设备。
其次,生物信息学需要高水平的人才,他们需要既有生物学的专业知识,又要具备计算机科学和数学等相关领域的知识。
此外,生物信息学需要不断更新和完善算法和工具,以适应不断变化的生物数据。
生物信息学是一个非常重要的交叉学科,它为生命科学研究提供了强有力的支撑。
随着科技的不断进步,生物信息学的应用前景将会更加广阔。
我们有理由相信,在未来的某一天,生物信息学将成为生命科学领域中最重要的一支力量。
生物信息学专业认识简介生物信息学是一门跨学科的科学领域,涉及生物学、计算机科学、统计学和数学等多个学科。
生物信息学专业的培养目标是培养具备生物学、计算机科学和统计学等方面的知识和技能,能够应用信息技术解决生物学问题的专门人才。
本文将介绍生物信息学专业的基本知识和职业发展前景。
专业知识生物学基础生物信息学专业的学生需要具备扎实的生物学基础知识。
他们需要了解细胞结构与功能、基因组学、遗传学、分子生物学等方面的内容。
生物学基础知识是生物信息学研究的基础,也是进行生物信息学数据分析的前提。
计算机科学生物信息学专业的学生还需要具备计算机科学方面的知识。
他们需要学习计算机基础知识,包括数据结构、算法设计与分析、数据库原理、编程语言等方面的内容。
计算机科学的知识可以帮助生物信息学专业的学生熟练运用生物信息学工具和软件进行数据分析和模拟。
统计学和数学生物信息学专业的学生需要具备统计学和数学方面的知识。
他们需要学习统计学基本知识、数理统计、数值计算方法、线性代数等方面的内容。
统计学和数学的知识可以帮助生物信息学专业的学生进行数据统计分析和模型构建。
职业发展前景生物信息学专业的毕业生可以在多个领域找到就业机会。
以下是一些常见的职业发展方向:生物信息分析师生物信息分析师主要负责生物数据的分析和解释。
他们使用生物信息学工具和软件对生物学数据进行处理和分析,提出相关结论和建议。
生物信息分析师可以在生物制药公司、研究机构、医院等单位就业。
生物信息工程师生物信息工程师主要应用工程技术和生物信息学知识开发和维护生物信息学数据库和软件工具。
他们可以设计和开发生物信息学软件、数据库和分析工具,为生物学研究提供技术支持。
生物信息工程师可以在生物科技公司、学术机构、医院等单位就业。
生物信息学研究员生物信息学研究员主要进行生物信息学领域的研究工作。
他们可以根据研究的领域进行生物信息学算法和模型的开发,探索生物学问题的解决方案。
生物信息学研究员可以在研究机构、大学、生物技术公司等单位从事科研工作。
生物信息学概论引言生物信息学是一个跨学科领域,综合了生物学、计算机科学和统计学的原理和方法。
它通过处理和分析大量的生物数据来解决生物学问题。
生物信息学在基因组学、蛋白质组学、代谢组学等领域都起着重要作用。
本文将介绍生物信息学的基本概念、技术和应用。
生物信息学的基本概念生物信息学的核心概念是将生物学数据与计算机科学和统计学方法相结合。
生物学数据可以包括基因序列、蛋白质结构、代谢通路等。
计算机科学和统计学方法则用于处理和分析这些数据。
生物信息学的目标是从生物学数据中提取有用的信息,从而加深对生物系统的理解。
生物信息学的基本任务包括生物数据的收集、存储、管理和分析。
生物数据的收集可以通过实验室技术如DNA测序、质谱分析等获得。
收集到的数据需要进行格式转换和标准化,以便于存储和分析。
存储和管理生物数据需要高效的数据库和文档管理系统。
生物数据的分析可以使用各种统计学和机器学习算法来识别生物学特征和解释生物学现象。
生物信息学的技术和工具生物信息学使用了许多技术和工具来处理和分析生物学数据。
以下是一些常见的生物信息学技术和工具:1. 基因组学分析基因组学分析是生物信息学的重要领域之一。
它主要研究基因组的结构和功能。
常用的基因组学分析技术包括基因组序列比对、基因预测、基因表达分析等。
常用的基因组学工具包括BLAST、GeneMark、TopHat等。
2. 蛋白质组学分析蛋白质组学分析研究蛋白质的结构和功能。
它可以通过质谱分析等技术来识别和鉴定蛋白质。
常用的蛋白质组学工具包括MASCOT、Proteome Discoverer等。
3. 代谢组学分析代谢组学研究生物体内代谢产物的数量和种类。
它可以通过质谱分析和核磁共振等技术来分析代谢产物。
常用的代谢组学工具包括MetaboAnalyst、XCMS等。
4. 网络分析网络分析研究生物系统中的相互作用关系。
这些关系可以通过基因调控网络、蛋白质相互作用网络等来表示。
常用的网络分析工具包括Cytoscape、STRING等。
生物信息学的概念
生物信息学是一门研究生物学中生物信息的获取、存储、处理和分析的学科。
生物信息学与生物学、计算机科学和数学等多个学科紧密相连,利用计算机和统计学等工具来研究生物学中的大量数据。
生物信息学的研究领域很广泛,包括基因组学、蛋白质组学、转录组学、代谢组学等。
生物信息学研究的主要目标是通过处理和分析数据来理解生物学的基本过程和机制,例如基因功能、蛋白质结构和功能、生物进化等。
生物信息学中的常见方法和技术包括序列比对、基因预测、蛋白质结构预测、基因表达分析、代谢通路分析等。
在生物信息学研究中,大数据是一个重要的特征。
生物学领域产生了大量的数据,如基因序列、蛋白质序列、基因表达水平、基因调控网络等。
这些数据的规模庞大,需要使用计算机和数学方法来进行高效的存储、处理和分析。
生物信息学所使用的计算工具和算法不仅可以加快数据处理的速度,还可以提高数据分析的准确性。
生物信息学在许多领域都有广泛的应用。
在医学领域,它可以用来研究疾病的基因变异、药物靶点的发现等。
在农业领域,它可以用来预测农作物的抗病性、改良植物基因、提高农作物产量等。
在生物多样性研究中,生物信息学可以帮助识别和分类物种,研究物种分布和迁移等。
此外,生物信息学还可以应用于环境保护、生物安全、食品工业等领域。
总之,生物信息学是一门集生物学、计算机科学和数学等多个学科知识于一体的交叉学科,利用计算机和统计学等工具来处理和分析生物学中的大量数据,为生物学研究提供了强大的工具和方法。
浅谈生物信息学一、生物信息学产生的背景有人说,基于序列的生物学时代已经到来,尽管对“序列生物学”这一提法可能有所争议,但是今日像潮水般涌现的序列信息却是无可争辩的事实。
自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。
迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。
至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。
它预示着完成人类基因组计划已经指日可待。
截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。
在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更快捷。
可以预计,今后DNA序列数据的增长将更为惊人。
生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。
此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。
基于cDNA 序列测序所建立起来的EST数据库其纪录已达数百万条。
在这些数据基础上派生、整理出来的数据库已达500余个。
这一切构成了一个生物学数据的海洋。
可以打一个比方来说明这些数据的规模。
有人估计,人类(包括已经去世的和仍然在世的)所说过的话的信息总量约为5唉字节(1唉字节等于1018字节)。
而如今生物学数据信息总量已接近甚至超过此数量级。
这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。
数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。
与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。
一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。
这就构成了一个极大的矛盾。
这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。
美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
生物信息学这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现要早的多。
鉴于这两门学科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。
生物信息学是二十世纪80年代末随着基因组测序数据迅猛增加而逐渐形成的一门交叉学科。
随着生物学和医学的迅速发张,特别市人类基因组计划的顺利推进,产生了海量的生物学数据,特别是生物分子数据的积累速度在不断地快速增加。
这些数据具有丰富的内涵,其中隐藏着丰富的生物学知识。
充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,这将是生物学家和数学家所面临的一个严峻的挑战。
生物信息学是为迎接这种挑战而发展起来的一个交叉学科。
二、基因库生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。
研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。
1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。
与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。
1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。
DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。
这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。
他们的理论奠定了分子生物学的基础。
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。
DNA的复制需要一个DNA作为模板。
Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。
Crick 于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。
限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。
2001年2月,,人类基因组工程测序的完成,使生物信息学走向了一个高潮。
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。
毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科。
粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。
基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。
了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。
它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。
生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
《Nucleic Acids Research》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。
迄今为止,生物学数据库总数已达500个以上。
在DNA序列方面有GenBank、EMBL和DDBJ等。
在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。
在蛋白质和其它生物大分子的结构方面有PDB等。
在蛋白质结构分类方面有SCOP和CATH等。
基因组数据库是分子生物信息数据库的重要组成部分。
基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、生物学、农业等有关的研究机构和大学。
基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。
小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。
随着资源基因组计划的普遍实施,几十种动物、植物基因组数据库也纷纷上网,如英国Roslin研究所的ArkDB包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库,美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(Tilapia)、青鳉鱼(Medaka)、鲑鱼(Salmon)等鱼类基因组数据库。
英国谷物网络组织(CropNet)建有玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草(Forage)、玫瑰等基因组数据库。
除了模式生物基因组数据库外,基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等各种数据库。
美国基因组研究所TIGR的TDB数据库包括DNA及蛋白质序列、基因表达、细胞功能以及蛋白质家族信息等,并收录有人、植物、微生物等的分类信息,是一套大型综合数据库。
此外,该数据库还包括一个模式生物基因组信息库,收录了TIGR世界各地微生物基因组信息,包括致Lyme病螺旋体(B. Burgdorferi)、流感嗜血菌(H. Influenzae)、幽门螺杆菌(H. Pylori)和生殖道支原体(M. genitalium)等,以及寄生虫数据库(T. brucei P. falciparum),人、鼠、水稻、拟南芥(A. Thaliana)等基因组信息资源,其中有些数据可以由TIGR的FTP站点下载。
GenBank核酸序列数据库涵盖了从完整基因组到单个基因等序列数据及部分注释信息,称一次数据库。
此外,还有些更有针对性的基因组资源,或称专用数据库。
这些专用数据库既包括了上述一次数据库的部分数据,也包括从其它数据库资源获得的信息或交叉链接。
这种专门数据库主要分为两大类,一类是模式生物基因组数据库,另一类则与特殊的测序技术有关。
这类数据库尽管也包含序列数据,但它们的特色主要是为某一特定的模式生物提供一个完整的数据资源,如酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thaliana)、幽门螺杆菌(Helicobacter pylori)等。
这些数据库从各个不同层次上搜集整理有关信息,以便对某个模式生物全基因组有一个更加完整的了解。
四、生物信息学的主要研究内容生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。
1、序列比对(Alignment)基本问题是比较两个或两个以上符号序列的相似性或不相似性。
序列比对是生物信息学的基础,非常重要。
两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BALST和FASTA,可以免费下载使用。
这些软件在数据库查询和搜索中有重要的应用。