生物信息学概论-1
- 格式:ppt
- 大小:5.17 MB
- 文档页数:17
第一章 生物信息学通论我们处在一个激动人心的时代——基因组时代。
科学的进步已使人类可以窥探生命的秘密,甚至包括人类自身。
人类基因组在世纪之交被人类自己破译了。
这部由30亿个字符组成的人类遗传密码本已活生生地摆在了我们面前。
于此同时,来自其它生物的基因组信息源源不断从自动测序仪中涌出,堆集如山,浩如烟海。
这些海量的生物信息是用特殊的“遗传语言”——DNA的四个碱基字符(A、T、G和C)和蛋白质的20个氨基酸字符(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V)——写成。
我们身处急速上涨的数据海洋中,我们如何避免生物信息的没顶之灾呢?一叶轻舟也许可以救命!生物信息学便是我们找到的这样一条“轻舟”,而且我们已在这条轻舟上安装了诸如卫星定位系统等先进的电子设备。
也许在不久的将来,人类会造就一艘永不沉没的航空母艇……生物信息学是一门年青的学科,学科虽然年青,但它充满挑战、机遇且引人入胜。
第一节 生物信息与生物信息学一、迅速膨胀的生物信息近20年来,分子生物学发展的一个显著特点是生物信息的剧烈膨胀,且迅速形成了巨量的生物信息库。
这里所指的生物信息包括多种数据类型,如分子序列(核酸和蛋白质),蛋白质二级结构和三维结构数据、蛋白质疏水性数据等等。
由实验获得的大量核酸序列和三维结构数据被存在数据库中,这些数据库就是所谓的初级数据库(primary databases);那些由原始数据分析而来的诸如二级结构、疏水位点和功能区(domain)数据,则组成了所谓的二级数据库(secondary databases)。
那些由核酸数据库序列翻译而来的蛋白质序列数据组成的蛋白质数据库,也应被视为二级数据库。
生物信息的增长是惊人的。
近年来,核酸库的数据每10个月左右就要翻一翻,2000年底,数据库数据则达到了创记录的100亿个记录,大量生物(甚至包括我们人类自身)的整个基因组序列被测定完成或正在进行中,遍布世界各地研究实验室的高通量大型测序仪在日夜不停地运转,每天都有成千上万的数据被源源不断地输入相应的生物信息库中。
1 概述当前人类基因组研究已进入一个重要时期,2000年将获得人类基因组的全部序列,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。
到1999年12月15日发布的第115版为止,GenBank中的DNA碱基数目已达46亿5千万,DNA序列数目达到535万;其中EST序列超过339万条; UniGene的数目已达到7万个;已有25个模式生物的完整基因组被测序完成,另外的70个模式生物基因组正在测序当中;到2000年1月28日为止,人类基因组已有16%的序列完成测定,另外37.7%的序列已经初步完成;同时功能基因组和蛋白质组的大量数据已开始涌现。
如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。
生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。
基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。
了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。
它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。
生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。
弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。
生物信息学概论 陈新 生命科学学院2001年10月(一)、概述 (3)(二)、生物信息学发展 (3)1.生物信息学的诞生和发展 (3)2.生物信息学的国内外现状 (4)(三)、生物信息学的主要研究内容 (14)一、基因组相关信息的收集、储存、管理与提供 (14)二、新基因的发现、鉴定 (14)****BLAST简介 (14)三、非编码区信息结构分析 (21)四、生物进化的研究 (21)五、完整基因组的比较研究 (21)六、基因组信息分析方法研究 (22)七、大规模基因功能表达谱的分析 (22)八、蛋白质分子空间结构预测、模拟和分子设计 (22)1.蛋白质分子模型的建立与显示 (23)2.蛋白质结构预测 (23)3、蛋白质分子模拟软件 (25)九、药物设计 (25)1、蛋白质改性和分子设计 (25)2、基于生物大分子结构的药物设计 (26)3、药物设计中理论方法 (28)(四)、展望 (29)(一)、概述生物信息学是在数学、计算机科学和生命科学的基础上形成的一门新型交叉学科,是指为理解各种数据的生物学意义,运用数学、计算机科学与生物学手段进行生物信息的收集、加工、储存、传播、分析与解析的科学。
近年来随着快速序列测定、基因重组、基因芯片,多维核磁共振等技术的应用,生物学实验数据呈爆炸趋势增长,同时计算机和国际互联网络的发展使对大规模数据的贮存、处理和传输成为可能。
作为一门新的学科领域,它是将基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。
它由相互依赖、相互渗透的两个研究领域组成,即构筑现代生物学所必需的信息基础研究,以及旨在解析基本生物学问题的基于计算机技术的基础生物学研究。
因此,在基因组研究时代,基因组信息学、蛋白质的结构模拟以及药物设计必将有机的结合在一起,它们是生物信息学的三个重要组成部分。
生物信息学更多的具备研究领域的特征,而非一套完整的科学概念和原理,因而具有独特的开放性和应用途径的多样性等特征。
生物信息学概论
生物信息学是一门生物学、计算机科学和统计学交叉的新兴学科,利
用计算机科学、统计学和生物学等领域的技术手段,研究生物学中的信息
问题。
生物信息学的发展得益于计算机技术的迅速发展和基因组学的大规
模进展,是推动生命科学发展和实现个性化医学的关键技术之一。
生物信息学的研究内容主要包括基因组学、转录组学、蛋白质组学、
代谢组学、系统生物学和生物信息学软件等方面。
其中,基因组学是生物
信息学的核心内容,研究的是基因组的结构、功能和进化等问题。
转录组
学是研究基因的转录和表达的分子生物学学科,蛋白质组学是研究所有蛋
白质的表达和功能,代谢组学研究的是生物体内代谢产物的组成和代谢活动。
系统生物学则是研究生物体系统级的调控规律和功能。
生物信息学也是个充满挑战和机遇的领域。
生物物种之间的差异和基
因组的复杂性,给生物信息学的研究和应用带来了很大的挑战。
目前生物
信息学面临着数据管理、数据标准化、数据挖掘和信息整合等方面的挑战。
同时,在生物信息学应用中,还有重要的伦理和法律问题等等。
总之,生物信息学不仅是一个新兴专业,也是生命科学与计算机科学、统计学等交叉领域的典型代表,它将成为解决许多生命科学研究的重要工具,对医学、农业等领域的发展也将产生深远影响。