生物信息学的研究现状及其发展问题的探讨_朱杰

  • 格式:pdf
  • 大小:175.48 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生 物 信 息 学 China Journal of Bioinformatics 专论与综述
生物信息学的研究现状及其发展问题的探讨
朱 杰
(陕西师范大学物理学与信息技术学院生物物理研究室 西安 710062)
摘要 :结合生物信息学产生的历史条件 ,对生物信息学的定义进行了介绍 ;归纳总结了现代生物信息表述 、采集 、储存 、传递 、 检索的表现形式 - 生物学数据库的分类与分布 ;着重介绍了生物信息学的主要研究内容和基本的分析方法 ,阐明了生物信息 的分析和解读模式 ;强调了生物信息学与其他相关学科的相关性 ,提出了生物信息学发展的一些亟待解决的问题及其相应的 解决方案 。 关键词 :生命科学 ; 生物信息学 ; 数据库 ; 相关性 中图分类号 :Q61 文献标识码 :A 文章编号 :1672 - 5565 (2005) - 04 - 185 - 04
1 86 生 物 信 息 学 第 3Hale Waihona Puke Baidu卷
其相互关系等知识 ;在大量信息和知识的基础上 ,探 索生命起源 、生物进化以及细胞 、器官和个体的发 生 、发 育 、病 变 、衰 亡 等 生 命 科 学 中 的 重 大 问 题[2 - 3] 。
收稿日期 :2005 - 01 - 09 ;修回日期 :2005 - 02 - 22 基金项目 :国家自然科学基金资助项目 (No. 20272035) ;教育部科学技术研究重点项目 (No. 104167) . 作者简介 :朱杰 (1980 - ) ,男 ,土家族 ,湖南张家界人 ,硕士 ,助研 ,陕西物理学会会员 ,主要从事分子生物物理与理论生物物理研究 。
2 生物学数据库简介
近年来随着大量生物学实验数据的积累 ,众多 的生物学数据库也相继出现 ,它们各自按照一定的 标准收集和处理生物学实验数据 ,并提供相关的数 据查询 、处理等服务 。而数据库的类型则几乎覆盖 了生命科学的各个领域[3] 。国际上主要的 DNA 序 列 数 据 库 有 GenBank , EMBL , DDJ B , ES Tdb , OMIM , GDB , GSDB 等 ;蛋白质一级结构数据库有 SWISS - PRO T , PIR , O WL , ISSD , MI PS 等 ;蛋白 质二级结构数据库有 PROSI TE , BLOCKS , PRIN TS 等 ;蛋白质和其他生物大分子的三维结构数据库有 PDB , NDB , CCSD 等 ;与蛋白质结构分类有关的数 据库有 SCO P , CATH , FSS P 等[5] 。
1 生物信息学的基本范畴
“生物信息学”是英文单词“Bioinformatics”的中 文译名 ,它是由美国学者 Lim 在 1991 年发表的文章 中首次使用的[4] 。生物信息学是它包含了生物信息 的获取 、处理 、储存 、分析和解释等在内的所有方面 的一门交叉学科 ,它综合运用数学 、计算机科学和生 物学的各种工具进行研究 , 目的在于了解和阐明大 量生物学数据所包含的生物学意义 。具体来讲 ,生 物信息学是把核酸 、蛋白质等生物大分子数据库作 为主要研究对象 ,用数学 、计算机科学等为主要研究 手段 ,对巨量生物学原始实验数据进行存储 、管理 、 注释 、加工 ,使之成为具有明确生物学意义的生物信 息 ;通过对生物信息的查询 、搜索 、比较 、分析 ,从中 获取基因编码 、基因调控 、核酸和蛋白质结构功能及
第 4 期 朱杰 :生物信息学的研究现状及其发展问题的探讨 18 7
级结构预测有两种策略 :以单一序列为基础和以多重 序列对齐为依据的分析方法 。常用的三级结构预测方 法有同源模建和穿针引线算法 。
4 生物信息学的研究热点
生物信息学的研究内容几乎涵盖了生命科学的 各个领域 ,它的发展给生命科学研究带来重大的变 革 。生物信息学的发展将对生命科学本身的发展产 生革命性的影响 ,其研究成果将大大地促进生命科 学其他研究领域的进步[4] 。生物信息学是目前基因 组学 、蛋白组学 、生物芯片等生命科学前沿研究领域 发展的直接推动力 。基因组学 、蛋白组学 、分子进 化 、生物芯片等成为了现代生物信息学研究的热点 内容 。 4. 1 基因组学研究
3. 1 序列比对预测法 序列比对是以核酸和蛋白质序列为依据 ,来比
较两个或两个以上核酸或蛋白质在碱基 (A , T , C , G) 、氨基酸 (20 个氨基酸) 水平上的相似性和不相似 性 。序列比对是生物信息学最基本的分析方法 。常 用的 序 列 比 对 方 法 有 两 两 序 列 比 对 和 多 序 列 比 对[7] 。两两序列比对是比较两序列之间的相似性区 域和保守位点来寻找两序列可能存在的历史进化关 系 。两两序列比对又分为总体序列比对和局部序列 比对 。两个序列的比对有较成熟的动态规划算法 : 总体序列比对是以 Needleman - Wunsch 的算法为 理论体系发展的完善的比对方法 ;当两个序列总体 并不很相似 ,但某些局部片段相似性较高时 , Smith - Waterman 算法是解决局部比对的好算法 ,局部序 列比对正是以 Smith - Waterman 动态规则算法为理 论依据的比对方法 。多序列比对是以两两序列比对 为基础 ,逐步优化两条或多条序列比对结果的方法 , 其目的是建立两条以上序列可能存在的进化关系 。 最常见的多序列比对方法有 Pileup 算法和 Clustalw 算法[8] 。 3. 2 结构比对预测法
3 生物信息学的基本分析方法
随着生物信息的急剧增长 ,如何从浩瀚的数据 库中获取有用信息 ,怎样处理提取的数据 ,进而从中 获得与生物结构 、功能相关的信息是一个使理论生 物学家感到棘手的难题[2 - 3] 。借助于计算机科学 、 信息科学及其它学科的共同参与 ,人们发展了生物 信息的多种分析方法 ,其中最基本的方法有序列对 比 、结构对比及功能对比预测法等 。
Abstract : Introduced the definition of bioinformatics through the developing history of bioinformatics ; summarized the sorts and distribution of
the biological database which is the tool of the modern biological information to be expressed , collected , deposited , transferred and searched on
近年来人类基因组计划和其它物种基因组计划 的启动和实施 ,使人类在生命科学领域尤其是核酸 和蛋白质等生物大分子的序列 、结构与功能等领域 迅速积累了大量数据 。人们渴求新知的愿望促使人 们去挖掘这些巨量数据[1] 。与此同时 ,以计算机技 术和网络技术为代表的信息科学也在近些年得到了 迅猛的发展 ,使巨量数据的分析 、处理与传输成为可 能[2] 。20 世纪 90 年代初 ,由生命科学和信息技术等 学科相结合特别是由分子生物学与计算机信息处理 技术紧密结合而形成的新兴交叉学科 - 生物信息学 应运而生 ,并大大推动了相关研究的开展 。生物信 息学的形成和发展对目前在全球范围内广泛开展的 各物种的基因组学 、蛋白组学 、信息科学 、计算机与 网络技术 、新药开发等多个领域将产生重大影响 ,并 将成为 21 世纪生命科学的基石[3] 。
上述这些数据库只是对原始生物学实验数据进 行简单的整理和归类 ,可称它们为基本数据库 ;随着 生物数据库在种类和数量上的急剧增长 ,其复杂程 度也不断增加 ,这就对数据库的管理带来了挑战 ,一 些将多个基本数据库整合在一起提供综合服务的二 次数据库便出现了 ,常用的有 UniGene , Trans Fac , EPD , Prosite , Prints , Pfam , Blocks , Profiles , DSS P , PubMed 等数据库 。这样用户可以方便地进 行多个数据库的多种查询 。现在大多数数据库能实 现自动投送数据 、在线查询 、在线计算和空间结构的 可视化浏览等多种功能[6] 。目前 ,几乎所有这些数 据库对学术研究部门或人员来说都是免费的 ,可以 免费下载或提供免费服务 。
某种生物的全部遗传构成被称为该种生物的基 因组 。基因组学的实质就是分析和解读核酸序列中 所表达的结构与功能的生物信息 。这方面的研究已 成为生物信息学的主要研究内容之一 ,生物信息学 也成为基因组研究中必不可少的工具 。生物信息学 在基因组和蛋白组研究中所起的作用主要有 : (1) 基 因组信息结构的计算分析 ; (2) 模式生物全基因组信 息结构的比较研究 ; (3) 功能基因组的相关信息分 析 。其中 ,序列基因组学主要研究测序和核苷酸序 列 ;结构基因组学着重于遗传图谱 、物理图谱和测序 等方面的研究 ;功能基因组学则研究以转录图为基 础的基因组表达图谱 ;比较基因组学的研究内容包 括对不同进化阶段基因组的比较和不同种群和群体 基因组的比较[3 ,12] 。在人类基因组中 ,编码部分仅 占总序列的 3 - 5 % ,其它通常称为“垃圾 DNA”。但 DNA 序列作为一种遗传语言 ,不仅体现在编码序列 之中 ,还隐含在非编码序列之中 ,因而分析非编码区 DNA 序列则需要大胆的想象和崭新的研究思路与方 法。 4. 2 蛋白组学研究
internet. Stressed the main contents and the basic analysis methods of bioinformatics , and illustrated the unscrambling model in biological infor2 mation ; and emphasized the pertinence between bioinformatics and other subjects ; and ended with the author’s personal opinions and sugges2
Bioinformatics’status in quo and its development in the f uture
ZHU Jie
( Biophysics Lab , College of Physics and Information Technology , Shaanxi Normal University , Xi’an 710062 , China)
tions to the development of bioinformatics. There are great potential in the newly and growing field.
Key words :Life Science ;Bioinformatics ;Database ;Pertinence
结构对比的基本问题是比较两个或两个以上蛋 白质分子空间结构的相似性或不相似性 ;蛋白质结 构预测包括 2 级和 3 级结构预测[9] 。从方法学上来 看有演绎法和归纳法两种途径 。前者主要是从一些 基本原理或假设出发来预测和研究蛋白质的结构和 折叠过程 。后者主要是从观察和总结已知结构的蛋 白质结构规律出发来预测未知蛋白质的结构 。以核 酸和蛋白质的序列为基础 ,来预测其生物学结构 ,是 生物信息学的核心研究内容[10] 。基于核酸序列的 预测分析方法就是以核酸序列为基础 ,来分析预测 其功能基因的位置 。其分析内容常常包括 :密码子 的偏向 、内部重复序列 、特殊位点 、编码蛋白区和二 级结构的预测 。 3. 3 功能比对预测法
组成蛋白质的氨基酸序列不仅决定着蛋白质的三 维结构 ,而且也决定着它的功能[3] 。首先以蛋白质的序 列为依据 ,来预测蛋白质的物理性质 ,如分子量、等电 点 、亲水性和疏水性 、跨膜区域 、信号肽和蛋白定位等 。 蛋白质的功能预测是以目的蛋白为线索力图发现它和 功能已知蛋白质的相似性 。蛋白质的功能预测主要侧 重在序列同源性和功能区序列的保守性[11] 。蛋白质二