当前位置:文档之家› 生物信息学

生物信息学

生物信息学
生物信息学

https://www.doczj.com/doc/727443154.html,/bioinplant/
《生物信息学札记》
樊龙江
第一章 生物信息学通论
我们处在一个激动人心的时代——基因组时代。科学的进步已使人类可以窥探生 命的秘密,甚至包括人类自身。人类基因组在世纪之交被人类自己破译了。这部由 30 亿个字符组成的人类遗传密码本已活生生地摆在了我们面前。于此同时,来自其它生 物的基因组信息源源不断从自动测序仪中涌出,堆集如山,浩如烟海。这些海量的生 物信息是用特殊的“遗传语言”——DNA 的四个碱基字符(A、T、G 和 C)和蛋白质的 20 个氨基酸字符(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y 和 V)— —写成。 《科学》 Science)在 2001 年 2 月 16 日人类基因组专刊上配发了一篇题为“生 ( 物信息学:努力在数据的海洋里畅游”(Roos DS.Bioinformatics—Trying to swin in a sea of data.Science,2001,291:1260-1261)的文章。文章写道: “我们身处急 速上涨的数据海洋中…,我们如何避免生物信息的没顶之灾呢?”一叶轻舟也许可以 救命!生物信息学便是我们找到的这样一条“轻舟” ,而且我们已在这条轻舟上安装了 诸如卫星定位系统等先进的电子设备。也许在不久的将来,人类会造就一艘永不沉没 的航空母艇……生物信息学是一门年青的学科,学科虽然年青,但它充满挑战、机遇 且引人入胜。
第一节
一、迅速膨胀的生物信息
生物信息与生物信息学
近 20 年来,分子生物学发展的一个显著特点是生物信息的剧烈膨胀,且迅速形成 了巨量的生物信息库。这里所指的生物信息包括多种数据类型,如分子序列(核酸和蛋 白质),蛋白质二级结构和三维结构数据、蛋白质疏水性数据等等。由实验获得的大量 核酸序列和三维结构数据被存在数据库中,这些数据库就是所谓的初级数据库 (primary databases);那些由原始数据分析而来的诸如二级结构、疏水位点和功能区 (domain)数据,则组成了所谓的二级数据库(secondary databases)。那些由核酸数据 库序列翻译而来的蛋白质序列数据组成的蛋白质数据库,也应被视为二级数据库。 生物信息的增长是惊人的。 近年来, 核酸库的数据每 10 个月左右就要翻一翻, 2000 年底, 数据库数据则达到了创记录的 100 亿个记录, 大量生物(甚至包括我们人类自身) 的整个基因组序列被测定完成或正在进行中,遍布世界各地研究实验室的高通量大型 测序仪在日夜不停地运转,每天都有成千上万的数据被源源不断地输入相应的生物信 息库中。同时,由这些原始数据分析加工而来的蛋白质结构等数据信息也被世界各地 的分子生物学、生物信息学等学科领域专家输入二级数据库中。图 1.1 显示出了各种 生物信息的同步增长状况。 迅速膨胀的生物信息给科学家们提出了一个新问题:如何有效管理、准确解读、 充分使用这些信息?
1

https://www.doczj.com/doc/727443154.html,/bioinplant/
《生物信息学札记》
樊龙江
图 1.1 各类生物信息的同步增长状况。图中依次为核酸序列(GenBank) 、蛋白质序列(PDB) 、蛋白 质序列(SWISS-PROT)和文献数量增长幅度(引自 NCBI,2000) 。
二、生物信息学的概念
生物信息学便是在生物信息的急剧膨胀的压力下诞生了。 一般意义上,生物信息学是研究生物信息的采集、处理、存储、传播、分析和解 释等各方面的一门学科,它通过综合利用生物学、计算机科学和信息技术而揭示大量 而复杂的生物数据所赋有的生物学奥秘。具体而言,生物信息学作为一门新的学科领 域,它是把基因组 DNA 序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋 白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组 信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的 3 个重要组成部分。 从生物信息学研究的具体内容上看,生物信息学应包括这 3 个主要部分:(1)新算法和 统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 Claverie (2000)的一段英文描述如下: “Bioinformatics is the science of using information to understand biology. It’s the discipline of obtaining information about genomic or protein sequence data. This may involve similarity searches of databases, comparing your unidentified sequence to the sequences in a database, or making predictions about the sequence based on current knowledge of similar sequences.” 生物信息学最初更多地是关注数据库,那些数据库存储着来自基因组测序计划完 成的序列数据。目前生物信息学已今非昔比,它所关注的是各类数据,包括生物大分 子的三维结构、代谢途径和基因表达等等。生物信息学最使人们感兴趣的是它利用计
2

https://www.doczj.com/doc/727443154.html,/bioinplant/
《生物信息学札记》
樊龙江
算方法分析生物数据,如根据核酸序列预测蛋白质序列、结构、功能的算法等。虽然 这些预测还不是非常精准,但是当可靠的实验数据还无法得到的情况下,这这一预测 可以作为一盏路灯,指示你应如何开展实验。
图 1-2 生物信息学“路线图” 。取自http://www.kisac.ki.se/。
生物信息学的诞生和发展最早可以追溯到上个世纪的 60 年代,波林(Pauling)分 子进化理论的出现,已预示着生物信息学的来临。而真正意义上的“生物信息学 (Bioinformatics)”一词的出现则是 1990 年(见:“A term coined in 1990 to define the use of computers in sequence analysis” (Claverie, 2000),据说是由出生在 马来西亚的美籍学者林华安(Hwa A. Lim)首次使用的(郝柏林和张淑誉,2002) 。 虽然生物信息学的历史并不长,但正象生物信息的迅猛发展一样,生物信息学已 发展了大量独具学科特色的分析方法和分析软件。例如,当获得了大量序列数据以后, 我们现在已能进行序列家族或同源性分析;进行序列的聚类,建立进化树并确定序列 间的进化关系;进行代谢途径相关基因的同源性分析,以及获取其它生物代谢途径的 相关信息等。分析软件更是层出不穷,通过网络可以搜索到大量的相关信息。这些软 件很多已成为商业化产品,但很多软件是可以免费获取的。这些分析软件(见附录)已
3

https://www.doczj.com/doc/727443154.html,/bioinplant/
《生物信息学札记》
樊龙江
成为生物信息学最重要的研究手段,是生物学家获取信息的重要途径和生物信息学显 示其价值的窗口。
图 1.3 美国国家生物技术信息中心(NCBI)网站数据分析工具网页。图中包括 BLAST、COG、ORF finder、Electronic PCR 等工具软件。
生物信息学还有另一个经常被使用的名字: “计算生物学”(computational biology),此外“计算分子生物学”(computational molecular biology)和“生物分 子信息学”(biomolecular informatics)等也被使用过。但严格意义上说,计算生物 学的范围应更宽泛些[见“Strictly speaking, bioinformatics is a subset of the large field of computational biology, the application of quantitative analytical techniques in modeling biological system.” (Gibas and Jambeck, 2001)]。 正确认识和理解生物信息学这门新学科非常重要,它有助于该学科的科学研究和 学习。 《Bioinformatics》杂志的一篇社论文章(2000,vol 16 no.3,其翻译稿见庞洪 泉和樊龙江,生物技术通报,2002,2:47-52),评析了人们对生物信息学的一些不 正确的认识:(1)“人人可以从事生物信息学研究” 。这一认识的根源来自对生物信息 学的 2 个误解,一是生物信息学研究不需大量经费投入,因为有如此多的数据资源, 只要找本生物学教科书,有台电脑并连到国际网上,人人可以从事生物信息学研究; 二是生物信息学的软件是免费的。殊不知生物信息的巨量特征目前向计算机提出了严 峻的考验,而一台大型新型计算机可能要以千万甚至亿元计算,同时大量先进、最新 的生物信息学分析软件包都是商业化产品,不付钱难以到;(2)“你最终还是需要具体 的实验” 。实验生物学家非常羡慕生物信息学家,认为“他们只是敲敲键盘,然后便是 写论文” ,他们的研究结果只是一种试验结果的预测,是对实验研究的一种“支持” 。 在分子生物学研究中,固定的模式应是先有某一假设,然后用某一实验去验证或支持
4

https://www.doczj.com/doc/727443154.html,/bioinplant/
《生物信息学札记》
樊龙江
这一最初的猜测。在生物信息学研究中,也同样进行着这一模式:有一无效假设(例如 某一序列在数据库中没有同源序列),然后进行实验(如搜索数据库)并验证,拒绝或接 受无效假设(如该序列的确有或无同源序列)。这是一个标准的假设—实验模式。在其 它学科中,计算科学已被作为深入理解科学问题的重要手段,而在生物学领域还没有 形成这样的共识;(3)“生物信息学是门新技术,但只是一门技术而已” 。由此把生物 信息学定位为一门新的应用学科。正如前面所说,虽然生物信息学是一门新学科,但 在 60-70 年代,该学科最重要的一些算法便已被提出,生物计算和理论研究便形成雏 形。把生物信息学仅仅作为一门应用技术,是从信息学移植来的技术应用于生物学科 领域,这是一个致命的误解。生物信息学实际是一门充满丰富知识内涵的学科,它有 很多尚待解决的科学问题。这些问题包括生物学方面的(如分子的功能如何进化)和计 算方面的(如数据库系统间如何最有效地协同)。生物信息学不仅仅是一个技术平台, 它同样需要周详的实验计划和准确的操作,同样需要丰富的想象和一瞬即逝的运气。
第二节
生物信息学发展简史
表 1.2 列出了生物信息学最近几十年的主要事件。这些事件大多是在“生物信息 学”(bioinformatics)一词出现前便发生了。纵观生物信息学的发展历史,可将它分 为 3 个主要阶段: (1)萌芽期(60-70 年代): Dayhoff 的替换矩阵和 Neelleman-Wunsch 以 算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列比较。它 们的出现,代表了生物信息学的诞生(虽然“生物信息学”一词很晚才出现),以后的 发展基本是在这 2 项内容上不断改善;(2)形成期(80 年代):以分子数据库和 BLAST 等相似性搜索程序为代表。1982 年三大分子数据库的国际合作使数据共享成为可能, 同时为了有效管理与日俱增的数据,以 BLAST、FASTA 等为代表工具软件和相应的新算 法大量被提出和研制,极大地改善了人类管理和利用分子数据的能力。在这一阶段, 生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位;(3)高速发 展期(90 年代-至今):以基因组测序与分析为代表。基因组计划,特别是人类基因组计 划的实施,分子数据以亿计;基因组水平上的分析使生物信息学的优势得以充分表现, 基因组信息学成为生物信息学中发展最快的学科前沿。Phred-Phrap-Consed 系统软件 包自 1993 年出现, 1995 年已广泛应用于鸟枪法测序中序列的碱基识别、 拼装和编辑等, 是目前人类基因组等测序计划的主要应用软件,与 BLAST 一起在人类基因组计划的研 究历史中占有一席之地(见 Science 2001 年 2 月 16 日人类基因组专刊“A history of Human Genome Project”一文)。在此阶段,生物信息学已成为举世瞻目、竞相发展的 热点学科。GenBank 等数据库中数据的增长在近十年来呈直线上升趋势(图 1.1),这条 曲线很容易就使我们联想到生物信息学的发展历程,可以说,这条曲线便是生物信息 学近十余年发展的写照。生物信息学在近十余年间经历了长足的发展,并迅速成为生 命科学新的生长点。人类基因组计划的实施和生物医药工业的介入是生物信息学迅猛 发展的主要推动力。 英 国 剑 桥 大 学 出 版 社 出 版 的 《 Bioinformatics 》 期 刊 (https://www.doczj.com/doc/727443154.html,)是目前世界最知名生物信息学的学术期刊之 一,它的前身是《Computer Applications in the Bioscience》(CABIOS),1998 年更 名为《Bioinformatics》 。该杂志主要发表计算分子生物学、生物数据库和基因组生物 信息学方面的文章。 另外带有生物信息学字样的杂志还有 《Applied Bioinformatics》 、 《Briefings in Bioinformatics》《Journal of bioinformatics and computational 、 biology 》 《 Genomics, proteomics & bioinformatics 》 《 Proceedings / IEEE 、 、
5

2 -. - - - - - - - - - - - - - - 1 - 生物信息学数据库 分子生物学数据令人惊愕的数据积累以及它们内部神秘而精细的作用模式的揭示形 成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数 据 , 并提供相关的数据查询、 数据处理的服务。随 着因 特网 的普及 , 这 些数 据库大 多可 以 通过网络访问或者通过网络下载。 一般而言 , 这些生物信息数据库可以分为一级数据库和二级数据库 : 一级数据库的数 据直接来源于实验获得的原始数据 , 只经过简单的归类整理和注释 ; 二级数据库则在一级 数据库、 实验数据和理论分析的基础上针对特定目标衍生而来 , 是对生物学知识和信息的 进一步整理。一级和二级数据库之间存在着本质 的差 别 , 一级 数据库 记录 实验结 果和 一 些初步的解释 , 而更进一步分析工作的结论 只能从 二级 数据 库中查 找到 ; 因 此 , 使 用数 据 库时 , 对数据库要正确 定位。 国际 上著 名的 一 级核 酸数 据库 有 GenBank 数据 库、 MBL E 核酸库和 DDBJ 库等 ; 蛋白质序列数据库有 SWISS-P RO T、 R 等 ; 蛋白 质结构 库有 PDB PI 等。国际上二级生物学数据库非常多 , 它们因针对不同的研究内容和需要而各具特色 , 如 人类基因组图谱库 GDB、 录因 子 和结 合位 点库 T RANSF AC、 白 质 结构 家 族分 类 库 转 蛋 SCOP , 等等。 图 2 .1 充分地展示生物信息学数据库不同的数据来源以及它们之间复杂的关联。
图 2 .1 分子生物学数据类型 , 它们之间的复杂关系构成了各数据库的数据源

2 .1 . 1 核酸数据库
在本章 , 我们主要介绍核酸数据库 , 它们储存 什么 , 怎 样从 中获取 信息 以及检 索结 果 的解释。 据保守估计 , 目前世界上平均每一分钟 就有 一个序 列增 加到 核酸序 列数 据库中。 为 了从飞速增长的序列数据库中 , 更高效地提 取信息 , 建 立生 物信息 中心 , 通 过互联 网实 现 全球范围内的信息共享已成为必然。欧美各国及日本等国家相继成立了生物信息资源和 研究中心。首先介绍美 国 的国 家生 物技 术信 息 中心 ( National Cen ter for Bio technology Information , NCBI) , 它 成立 于 1988 年 11 月 4 日 , 由 参议 员 Claude Pepper 提 案立 法 通 过 , 以促进在生物医学研究中对计算机化信 息处 理方法 的应 用。美国 国家 生物技 术信 息 中心开展的主要工作有 : 在分子水平上应用数学和计算科学的方法研究基础生物、 医学问 题 ; 为科学界和医学界开发、 维护和分享一系列 的生物 信息 学数据 库 ; 开发 和促进 生物 信 息学数据库、 数据的存储、 交换以及生物学命名规则的标准化。美国国家生物技术信息中 心于 1992 年 10 月开始负责维护 GenBank 核酸序列数据库 , 同时也维护一系 列其他的 相 关数据库 , 如在线人类孟德尔遗传数据库 ( on line M endelian i nheritance i n m an , O MI M ) 、 三维蛋白质结构的分子模型数据库 ( t he molecu la r model dat abase, MMDB ) 、 人类基因 组 基因图谱 数 据 库 等。其 中 , GenBank 与 欧 洲 生 物 信 息研 究 所 ( European Bioinformatics Institu te , EBI ) 的 欧 洲 分 子 生 物 学 实 验 室 ( European Molecular Biology Laborat ory , EMBL ) 核酸数据库、 日本国立遗传学研究所 ( National Instit u te of Genetics ) 的日本 DN A 数据库 ( DN A Dat a Bank of Japan , DDBJ) 一起构成了国际核酸序列数据库合作计划。 这三大数据库从 1982 年开始合作 , 每个数据库都搜集和处理各自区域内的科学家所 提供的新序列数据以及 相关 生物 学信 息。比 如 , E MBL 搜 集欧 洲的 , GenBank 则 搜集 美 国的。 这些数据库每隔 24h 均对各自搜集的新 序列进 行同 步更新。 因此 , 除了 24h 之内 还 没有交换的数据 , 它们 所储 存的 数据 都 是一 样的。所 以 , 如 果需 要最 新 和最 准 确的 信 息 ( 比如这些数据将用于发表 ) , 就必须搜索更新最快的数据库。
1. GenBank数据库
本章 我们 将 经 常 使 用到 GenBank 的 数 据 库。当 然 也 可 以使 用 3 个 数 据 库 中 的 任 何一个作为数据来源 , 因 为 它 们 的内 容 完 全 一 致。读 者 可 以仔 细 检 查 一 下 三 大 数 据 库 给出的结果是否一致。 在网 络 上 , GenBank 的 查 询 比 E MBL 和 DDBJ 的 查询 更 方 便 快 捷。GenBan k 的WW W 地址为 : www .ncbi .n lm .nih .gov/ genbank/ 。 GenBan k 库包含所有已知的核 酸序 列和 蛋 白质 序列 以及 与它 们 相关 的文 献著 作 和 生物学注释。它 的 数 据 直 接 来 源 于 测 序 工 作 者提 交 的 序 列 和 由 测 序 中 心 提 交 的 大 量 EST 序列及其他测序数据以及与 其他数 据机 构协 作交 换数 据 而来 的数 据。 GenBank 的 数据可以从 NCBI 的 F T P 服务器上免费下载完整的库或下载积累的新数据。 NCBI 还提 供广泛的数据查询、 序列相似性搜索以及其他分析服务 , 用户可以从 NCBI 的 主页上找 到 这些服务。 22

GenBan k 库里的数 据来 源于约 100 000 个物种 , 其中 56 % 是人 类的基 因组 序列 ( 所 有序列中的 34 % 是人类的 E ST 序列 ) 。每条 GenBank 数据记录包含对序列的简要描述、 它的科学命名、 物种分类名称、 参考文献、 列特 征表以 及序 列本 身。序列 特征表 里包 含 序 对序列生物学特征注释 , 如编码区、 转录单元、 重复区域、 突变位点或修饰位点等。所有数 据记录被划分在若干个文件里 , 如细菌类、 病毒类、 灵长类、 啮齿类以及 ES T 数据、 基因 组 测序数据、 大规模基因组序列数据等 16 类文件 , 其中 EST 数据等又被各自分成若干个 文 件。由此产生了数据 库格 式 的 概 念。对 “格 式” 个 词 我 们 并不 陌 生 , 实 际上 就 是 对 信 这 息描述的统一规范。在 没 有 一个 标 准 化 组 织规 范 统 一 的 情况 下 , 开 发者 对 生 物 信 息 使 用的不同需求以及生 物 信 息 学 的迅 猛 发 展 , 使 得 生 物 信 息格 式 变 得 十 分多 样 化。 由 于 GenBan k所收集的序列记录来自世界 各地 , 最 初其格 式和 注解 也是五 花 八门 , 从 1986 年 起 , GenBank、 EMBL 和 DDBJ 共同努 力 , 形 成了 今 天的 GenBank 格式。 这里 , 我们 将 颇 费笔墨来分析介绍不同的生物信息学格式 , 尤 其是一 些最 为广 泛采用 的和 最便于 人阅 读 的格式 , 而稍微提及一些更为先进、 易于计算机处理的格式。熟悉生物信息学数据库文件 格式有几个 好处 : ( 1 ) 可 以熟练地 使用数据 库 , 并对数据 库中的 信息有明 确的了 解 , 易 于 从数据中提取信息 ; ( 2) 方便地进行数据格式的 转化 , 以适 应不 同生物 信息 学分析 工具 的 要求 ; ( 3) 能迅速熟悉生物信息学中使用的一些基本概念。
2 .1 . 2 数据库格式
现在 , 我们就开始研究一些特定的格式。
1. FASTA格式
首先 , 看一个最简单的格式 : F AST A 格式。图 2 .2 是一个 F AST A 文件的例子 :
> g i | 1293613 | gb | U49845 .1 | SC U49845 S acc ha rom yces cerev isia e T CP1-be ta ge ne , pa rt ial cd s; a nd A xl2p ( AX L2 ) and Re v7p ( R E V7) g en es , comp let e cds G A T CC TC CA T A T A C AA C GG T A TC T CC A CC TC A GG T T T A GA TC TC A A C AA C GG AA CC A T T G CCG A C A T G AG A CA G T T A GG T A TC G T C GAG AG T T A C AAG C T A AA A C GAG C AG T AG TC AG C TC T G C A T CT GA AG CC GC T G A AG T T CT A CT AA GGG T GG A T AA C A T C A T CC G T G C AA GA CC A AG AA CC G CC A A T A GA C AA C A T A T G T AA C A T A T T T A GGA T A T A CC TC GA A AA T AA T A AA CC G CC A C A CT G TC A T T A T T A T A A T TAG A AA C AG AA C G C AA AA A T T A T CC A CT A T A T A A T T CA A AGA C G CG A AA AA A AA AG AA C A A CG C G TC ATAG AA C T T T T GG C A AT T C GC G T C A C AA A T A A A T T T T GG C A A CT T A T G T T T CC T CT T CG AG C AG T A CT C GAG CC CT G TC T CA AG AA T G T AA T A A T A CC C A TC G T AGG T A T GG T T AA AG A T AG C A T CT CC A C AA C CT C AA AG C TC CT T G CC GA GA G TC G CCC T …… ( 为节 省页面 , 该 序列 没有完 全列 出 )
图 2 .2 F AST A 文件示意图
那么 , 什么是 F AST A 格式呢 ? FAS T A 格式将一个 DN A 或者蛋白质序 列表示为 一 个带有一些标记的核苷酸或氨基酸字符串。其中 , 大于号 ( > ) 表示一个新文件的开始 , 除 此之外 , FAS T A 格式并没有什么特殊的要求。因此 , 在上例中 , 起始部分的序列注释 gi | “ 1293613 | gb | U 49845 .1 | SCU49845 Saccharom y ces cerev isi ae TC P1-beta gene, par tial cds; and A xl2p ( AXL2 ) and Rev7p ( RE V7) genes , complet e cds” 可以被去除掉。当然 , 23

续表 限 定 词 / provi ral / rearr ang ed 含 义 整合在基因组中的前病毒 如果序列是 DN A 并来 源于免 疫球蛋白 家族 , 则 表示 该序列 来源于重排 DN A 重复序列 指明 重 复 区 域 的 重 复 元 件 构成 同一物种的不同血清学特征 获得序列的物种性别 指明 来 源 物 种 保 存 于 什 么 地方 获得序列的菌株 获得序列的来源物种的亚种 获得序列组织库 指明 物 种 的 来 源 特 性 是 否 是 转基因受体 标明 序 列 中 未 按 指 定 密 码 子 表翻译的氨基酸的位置 转座子 获得序列的生物变种 限 定 词 / pseudo / r eplace = 假基因 表明特 性 间 的 间 隔 序 列 已 被 替换 重复序列的组织方式 获得序列的分子类型 含 义
/ rp t_family = / rp t_unit =
/ rp t_ typ e = / seque nced_ m- ol = / serovar = / s pecific_host = / sta nda rd_na- me = / s ub_ clone = / s ub_ str ain = / tis sue_ t ype = / t ransla tion =
/ serot ype = / sex = / sp ecimen _ vou- che r = / st rain = / sub_s pecies = / tiss ue_ lib = / t ransgenic
同一原核生物的血清学特征 获得序列的天然宿主 特性的通用名称
获得序列的亚克隆 获得序列的来源微生物亚种 获得序列组织类型 按通用 或 指 定 的 密 码 子 表 翻 译的氨基酸序列 描述在 翻 译 中 与 通 用 密 码 表 不同的密码表 表明该 特 性 在 其 他 检 索 中 也 被使用 病毒颗粒
/ t ransl_ exce- pt = / t ransposon = / variety =
/ t ransl_ ta ble =
/ usedin = / virion
在 GBFF 文件的最后 , 以类似于 F AST A 格式的方式给出了所记录的序列。至此 , 即 已大致地介绍了 GBFF 的文件格式和其中所涉及的各个方面。 在仔细地阅读上面的文字 之后 , 相信数据库格式不会再构成我们使用它的障碍。虽然数据库格式仍处在发展之中 , 但 GBFF 毕竟是核苷酸和蛋白质序列数据库最常用的数据格式。正确地理解数据库格式成分 的含义, 知道从中如何提取生物学知识, 对于我们在数据库中进行检索和使用不同的工具进 行生物信息学分析都具有十分重要的意义, 这也正是作者如此多费笔墨的原因所在。
2 -. - -序列数据库检索 2- -----------随着一级、 二级数据库数量的增加 , 以及按 不同需 求组 织信息 的各 类数 据库的 出现 , 对不同数据库的信息进行检索并对相关的信 息进行 整合 的问题 就凸 显出 来。因此 , 许 多 数据库在生物学的共同基础上 , 开发出不同的查询方法 , 通过选择合适的查询方法可以直 接查询与某一特殊的生物实体有关的所有信 息 , 而不必 依次 查询 分类的 数据 库。这种 查 询系统在 NCBI 中 叫做 En tr ez, 在 E MBL 中叫 做 SR S ( sequence ret rieval system , S RS ) , 两者执行相似的功能。 33

2 .2 . 1 En t r ez
Ent rez 是 NCBI 为用户提供整合的访问序列、 定位、 分类及结构数据的搜索和检索 的 系统 , 是一个用以整合 NCBI 数据库中 信息的 搜寻 和检索 的工 具 , 包括 核酸序 列、 蛋白 质 序列、 蛋白质三维结构、 基因组图谱 和通 过 P ubMed 检索 的 ME DLI NE。 其中 , En t rez 可 以整合检索的序列数据库包 括 GenBank 、 MBL、 E DDBJ、 RefSeq、 PIR-In ternational、 RF、 P Swis s-P rot 和 PDB 等。 En tr ez 有两个显著的特点 : 第一是对每个数据库中的 记录都预 先 做相似性比较 , 产生一个列 表 , 包 括序 列、 构和 M EDLIN E 文献 记录 等信 息 ; 第 二是 对 结 某个数据库的记录与其他数据库的相关记录做了链接 , 使对不同数据库的访问得以整合 , 所以 , En tr ez 是通过相近性和硬连接来提供集 成的信息 检索。 En t rez 可以 用很广 泛的 文 本方式搜索 , 比如作 者名字、 杂志 名字、 基因或 蛋白名、 物种、 一的检索 号 ( 如 : acces sion 单 number、 序列 ID、 PubMed ID、 DLI NE U ID ) 和 其他 的术 语 , 因 此 , Ent r ez 是一 个强 大 ME 的检索相关序列、 结构和参考文献的信息检索工具 ( 见图 2 .14 ) 。
图 2 .14 E nt rez 以核苷酸序列数据为中心 , 对人类孟德尔遗传数据、 文献数据、 全文 电子文献、 蛋白质三维结构、 蛋白质序列、 分类学数据、 遗传图谱和 基因组图谱加以集成 , 本图指明了这些数据间的关联
图 2 .14 给出了 Ent rez 是怎样在不同的数据库之间发生关联的。 En t rez 能检索一 些 什么数 据库呢 ? 使用 En t rez 查询 可以通 过两 种界 面进行 : 一 种是 Net work En t rez” 它 “ , 是基于客户-服务器方式来实现 的 ; 另一 种 是使 用网 页浏 览器 的 WWW 界 面。以 En t rez 的 WW W 检索界面为例 ( 见图 2 .15) 。
图 2 .15 E nt rez 的 WW W 检索界面。图中给出了可供检索的数据库
34

3 -. - - - - - - - - - - - - - - 1 - 蛋白质数据库介绍 蛋白质分子是生物体执行功能的重要分子 , 许多生物功能最终都要依赖于蛋白质 , 而 非基因来直接完成的 , 如分子的运输、 信号的传导、 结构的组成、 生化反应 , 等等 , 所以蛋白 质分子中所蕴涵的生物信息种类繁多 , 信息复杂。只有充分研究这些信息 , 才可能从这些 信息中提炼出每种功能所具有的共性及相同信息中所包含的功能 , 将这些信息标准化 , 建 立模型 , 同时研究出信息在不同生物或者不同状态下的特殊性 , 能更充分地认识这些生物 信息 , 建立更具有代表性的模型。面对如此庞大的信息量 , 光具有分子生物学以及其他生 物学领域的知识是无法完成的。作为信息的一种 , 生物信息必须有相应的信息处理系统 , 因此大量数据的处理自然需要计算机运算完成 , 所以 运用 计算 机学科 所具 有的算 法对 蛋 白质生物信息进行处理将成为生物信息学的主 要手段 , 而 通过 网络上 大型 计算机 对网 上 所具有的现成的生物信息数据库中的数据进行处理、 输出 , 也因其方便快捷成为现阶段生 物信息学的重要手段。 蛋白质内在的生物信息千差万别 , 有的信息是用于识别的 , 有的信息是用于生化反应 的 , 有些蛋白质是信息的 传递 者 , 有 些蛋 白质 是信 息 的制 造者 , 有 的 却是 信息 的 执 行者。 如此多的表现形式 , 究其本质 , 蛋白质的功能主要是由它的结构所决定的。蛋白质的结构 主要分为四级 , 一级结构、 二级结构、 三级结构以及四级结构。依据这种结构层次 , 将蛋白 质数据库分为 : 蛋白质序列数据库 , 如 PIR、 WISS-P RO T 、 S NCBI , 这些数据库的数据主 要 以蛋白 质的 序 列为 主 , 并赋 予 相应 的 注 释 ; 蛋 白质 模 体及 结 构 域数 据 库 , 如 P ROSI T E、 Pfa m , 这些数据库主要收集了蛋白 质的 保守 结构 域和 功能 域 的特 征序 列 ; 蛋 白质 结构 数 据库 , 如 PDB 等 , 这些数据库主要以蛋 白质的 结构 测量数 据为 主 ; 蛋白 质分类 数据 库 , 如 SCOP、 T H 、 CA FSSP 等 , 这其中又有以序列比较为基 础的序 列分类数 据库 以及以 结构 比 较为基础的结构分类数据库之分。这些数据库种类有差别 , 但内部是相互联系的 , 每个数 据库都有指针指向其他数据库 , 而且数据库之间的序列以及相应的结构是共享的 , 同一种 蛋白质依次会出现在不同的数据库 , 这样的数 据沟通 有助 于更 深层地 挖掘 蛋白质 的内 在 生物信息 , 这些数据库是融序列信息的索取、 处理、 存储、 输出于一身的。 随着网络资源的日益丰富 , 蛋白质数据库 不论其 数据 为何 种形式 , 都 具备 3 种 功能 : 第一、 对数据的注释 ( annot ation ) 功能。 所有 提交 到数 据 库的 数据 都 要 由作 者 或数 据 库 管理人员进行注释方能发布。第二、 对数 据的检索 ( search ) 功能。数据 经注释之 后 , 访 问

者就可以通过数据库网页上提供的搜索引擎 进行搜 索 , 找到 自己 所需的 蛋白 质信息。 第 三、 对数据的生物信息分析 ( analysis ) 功 能。访问 者一 旦找到 感兴 趣的蛋 白质 , 就 可以 运 用数据库提供的生物信息分析工具对蛋白质序 列的未 知数 据进行 预测 , 如 预测蛋 白质 的 理化性质 , 预测蛋白质的二级结构 , 多重序列比对 , 等等 , 因此通过网上资源对蛋白质的生 物信息做出比较完整的分析是可以做到的。
3 .1 . 1 蛋白质序列数据库
随着 H GP 计划的不断深入以及 测 序技 术的 不断 进步 , 蛋白 质序 列信 息 也成 指数 级 增长 , 蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源 , 并辅 以序列来源、 序列发布 时间、 列参 考文 献、 列特 征等 内容 加以 注 释 , 最终 形 成数 据 文 序 序 件 , 存放于数据库。目前规模比较大的综合型 蛋白质序 列数据库 有 : PIR、 SWISS-P RO T/ TrE MBL 等。
1)
IR(pro t e i n i nforma t i on r esour ce, PIR)和 PSD(pro t e i n sequence da t abase, PSD)
PI R 的建立源于 20 世纪 60 年代 Ma rgar et O . Dayhoff 从事的蛋 白质 进化关 系的 研 究工作 , 起初的想法是通过对蛋白质序列信 息资源 全面、 质、 高 合理的 编制 来协助 计算 生 物学以及 基 因 组 学 的 研 究。 现 在 PIR 由 美 国 国 家 生 物 医 学 研 究 基 金 支 助 , 隶 属 于 Georgeto wn 大 学 医 学 中 心。 由 PIR、 PS ( Munich Information Cen ter for P rotein MI Sequence, M IPS) 以及 JI PSD ( Japan In terna tional Prot ein Sequence Database , JIPSD ) 协 作建立并维护的 PIR 国际蛋白质序列数据 库 ( PSD ) , 它是 目前 国际上 最大 的公共 蛋白 质 序列数据库 , 它的网址是 : pir .georget ow n .edu/ pir www ( 见图 3 .1 ) 。
图 3. 1 PIR 数据库的网页
102

PI R-PSD 是一 个综 合 全 面的、 非冗 余 的、 业 注释 的、 专 分类 完 整的 蛋 白质 序 列 数 据 库。PI R-PSD 的序列来自于将 GenBank/ EMBL/ DDBJ 三大数 据库的编 码序列的 翻译 而 成的蛋白质序列、 发表的文献中的序列和用户直接提交的序列。目前已经是 71 .03 版本 , 包含 283 138 条蛋白质序列 ( 至 2002 年 2 月 ) 。以 PIR-PSD 为 基础 , PIR 还衍 生出 PIR- NR EF、 ROClas s 以及其他 PIR 辅助数据库 , 为基因组学和 蛋白质 组学提供 了从序列 到 iP 结构直至功能的完整分析工具。 iP roClas s 数据库是用于 描 述蛋 白 质家 族 之 间的 关 系以 及 结构/ 功 能 特征 的 综 合 资 源 , 收录了包括 SWISS-P RO T 和 PIR 数据库的 320 000 多条蛋 白质序 列 , 共 计 36 000 多 个超家族 , 100 000 个蛋白质家族 , 3 600 个功 能 域 , 1 300 结构 模体 , 280 个 翻 译后 修饰 位 点 , 另外还有 45 个生物数据库的超链接。此数据库是由 Or acle 8i 系统 支持的 , 用于蛋 白 质的结构分类注释以及其他的基因组学、 蛋白质组学的研究。 PI R-N REF ( non-redundan t reference protein database, N REF ) 数据库 是为了 更好 地 收集蛋白质序列以跟上大规模基因组测序计划的步伐。数据库包括了 PIR-PSD、 SWISS- RefSeq、 GenPept 和 PDB 的所有序列 , 共 100 多个物种的 899 346 条序 P RO T、T rE MBL、 列 ( 至 2002 年 2 月 ) , 其中还有 70 多个全基 因组。来 自不 同数 据库的 同种 生物的 相同 蛋 白质在 PIR-NRE F 数据库中只有一条记 录 , 条目中 记录 了不 同数 据 库的 ID 号以 及蛋 白 质的序列、 物种和综合文献等。网页提供了蛋白质 ID 号搜索、 文本搜索、 全数据库序列搜 索以及物种特异性序列搜索 ( BL AST , 肽段 比对以 及模 型比对 ) 等多种 方法 进 入数 据库 , 同时还可 以在 ft p 网站 上免 费下 载 XM L 数 据文件 和 FAS T A 格式 的序 列文 件。表 3. 1 列举了不同数据库中在一个相同时期的信息量。
表 3 .1 不同数据库的信息量 数 据 库 PIR SW ISS-PRO T T r EMBL Gen Pep t RefSeq P DB 版 本 71 .03 40 .10 19 .7 128 .0 日 期 15-Feb-2002 11-Feb-2002 08-Feb-2002 15-Feb-2002 22-Feb-2002 15-Feb-2002 条 目 283 138 105 224 591 058 983 271 302 747 17 320
此外 , PIR 还有文献提交及检索引擎用于提交和搜索 与 PIR-PSD 蛋白质 序列相关 的 文献 ; PIR-ASDB 数据库用 于 收 录 PIR-PSD 数 据 库 蛋 白 质 序 列 之 间 的 相 似 信 息 ; IESA ( in tegr ated environment for sequence analysis , IESA ) 序列综合分析平台用于提供序列浏 览、 全文本搜索、 合 序 列 分 析 工 具 ( BL AST 、 AST A、 型 比 对、 重 序 列 比 对 ) 以 及 综 F 模 多 PI R 相似性高级搜索工具 ; PIR-NRL3 D 数据库用于 PIR 中蛋 白质的 序列 及其 在 PDB 数 据库 结构 数 据 的 注 释 ; R ESID 数据 库 用 于 注 释蛋 白 质 翻 译 后修 饰 位 点 的 数 据 库 ; PIR- A L N 数据库 用 于 PIR 中 蛋 白 质 序 列 比 对 的 数 据 库。 当 然 P IR 还 单 独 提 供 BLAS T、 F AST A、 模型比对、 M M 结构 域/ 结构 组件搜 索、 ustal W 和 S sear sh 序 列比对、 族 H Cl 家 鉴定工具 GeneF IND/ ProClass 等多种生物信息分析工具。 103

2) S WISS PROT TrE BL数据库 (w w. expasy .org/ swi s spro t ) - / M w
SWISS-P RO T 数据库是经注释的蛋白质数据库 , 始建于 1986 年 , 现在由 瑞士生物 信 息研 究 所 ( Swis s In stit ut e of Bioi nform atics , SIB ) 和 欧 洲 生 物 信 息 研 究 所 ( European Bioi nforma tics Instit u te, EBI) 共同维护 ( 见图 3 .2 ) 。 它是 ExP ASy 网 站 的一 部 分 , 数 据 库由蛋白质序列条目构 成 , 每个 条目 包含 蛋 白质 序列、 用文 献信 息、 类学 信 息、 释 引 分 注 等 , 注释中包括蛋白质的功能、 转录后修饰位点、 特殊位点和区域、 二级结构、 四级结构、 与 其他序列的相似性、 序列残缺与疾病的关 系、 序列 变异体 等信 息。至 2002 年 2 月 21 日 , SWISS-P RO T 颁布了第 40 .11 版的序 列 , 共 105 322 条 , SWISS-P RO T 尽 可 能减 少了 冗 余序列 , 并同 时 与 其 他 30 多 个 数 据 库 建 立 了 交 叉 引 用。 T rE MBL 数 据 库 是 SWISS- P RO T 数据库的一个由计算机 自动注 释的 增补版 , 它 包含 了 E MBL 中 所有 由编 码 DN A 翻译而 成 但 还 没 有 整 合 到 S WISS-PRO T 数 据 库 中 的 蛋 白 质 , 目 前 已 经 是 第 19 .8 版 (2002 年 2 月 ) , 共包含了 594 940 条序列。
图 3 .2 SWISS-PROT 主页
进入 SWISS-P RO T 的方式 : 序列 提取 系 统 ( S RS ) 方 式 , 进 入 SWISS-P RO T、 TrE M- BL 和其 他数据 库 ; 全文 搜索 方式 ; 高 级搜索 方式 ; 浏 览物种 分类 ; 用 入口 号或者 ID 号 进 入 ; 通过相应描述进入 ; 通过检 索作 者名 进入 ; 通过 引用 文献 进入 ( 只限 SWISS-P RO T ) ; 通过 SWISS-P RO T/ T r E MBL 条目列表等。 同时 , S WISS-PRO T 还提供各种文件帮助以及下载服务。
104

3 .1 . 2 模体以及结构域数据库
1) 蛋白质模体数据库
( 1) PROSI TE 蛋白质家族及结构域数据库 ( www .expasy .or g/ p rosit e ) /
P ROSI T E 是一个蛋白质家族和结构域数据库 ( 见图 3 .3 ) , 它也是 Ex PASy 网站的 一 部分。大量不同的蛋白质可以通过序列相似性归 于数 目有 限的家 族中 , 属 于一个 特殊 家 族的蛋白质或者结构域、 有共同的功能并且 可能 起源于 同一 个祖 先。很明 显在蛋 白质 进 化过程中 , 蛋白质某些部分序列的保守性要比其他的序列强 , 这些序列对于维持蛋白质功 能或者三维结构是至关重要的。通过分析家族中蛋白质序列里的可变和不可变区域就可 以找到区别于非家族成员的特征标志序列 , 这 就 好 比 指纹 用 于 判 断 个人 身 份 一 样 , 通 过 这些 标志序 列可 以 将 未 知 的 新 序 列 归 入 一 个 特 定 的 家 族 甚 至 同 时 可 以 预 测 其 功 能 。 P ROSI T E 数 据库收集了有显著生 物学 意 义的 蛋白 质位 点序 列、 白 质 特征 序 列谱 库 以 蛋 及序列模型 , 并能依据这些特征属性快速可靠 地鉴定 出一 个未 知功能 蛋白 质序列 属于 哪 个蛋白质家族 , 即使在蛋白质序列相似性很低的情况下 , 也可以通过搜索隐含的功能结构 模体 ( motif) 来鉴定 , 因此是 有效 的序列 分析 数据库。 P ROSI T E 中 涉及的 序 列模 式包 括 酶的催化位点、 配体结 合位 点、 金属 离子 结合 位 点、 二硫 键、 小分 子或 者 蛋白 质 结合 区 域 等 , 此外 P ROSI T E 还包括由多序列比对构建的序 列表谱 ( profile ) , 能 更敏 感地发 现序 列 中的信息。
图 3 .3 PROSI T E 网页
目前 P ROSI T E ( 至 2002 年 2 月 ) 已经是 第 17 .4 版 , 包含 1 121 条 文件 , 描述 了包 括 序列模式、 序列特征表谱等共 1 517 条 , 和 S WISSPRO T 一 样 , 进入该 数据 库的方 式有 多 种。此外数据库还提供了各种文件说明用以帮助用户使用数据库。同时数据库提供了序 列分析工具 : ① Scan Prosite 是用于搜索所提交的 序列 数据 是否 包含 P ROSI T E 数 据 库中 的序 列 模式或者 SWISS-P RO T 数据库中已提交的序列模式 ; 105

② MotifScan 用于查找未知序列中所有可能的已知结构组件 , 数据库包括 P ROSI T E 序列表谱、 ROSI T E 模式、 m 收集的隐马尔可夫模式 ( H MM ) 。 P Pfa (2 ) P RIN T S Finge rprint Database ( www .bioinf .man .ac .uk/ dbrowser/ P RIN TS/ ) 这个数据库包含 1 500 个蛋白质指纹图谱 , 编码 9 136 个单一模体。指纹图谱是用来 描述蛋白 质家 族特征 的一 组保守 模体 组合 , 是 通过对 SWISS-P RO T / T rE MBL 数据 库 进行重复扫描产生的 , 通 常模 体 是不 重叠 的 , 而且 尽 管有 些模 体有 可能 在 三维 空间 里 相 邻 , 但是在序列中都有可能间隔很远。指纹图 谱比单 个的 模体 表示蛋 白质 折叠及 其功 能 的能力更强而且也更加灵活 , 甚至可以通过相 邻模体 的突 变对 蛋白质 折叠 及其功 能的 关 键残基进行充分地分析。 指纹图谱定义的 出 发 点 是 对 一 些 同 源 蛋 白 质 的 比 对 , 相 关 网 址 是 : h tt p :/ / bioinf . man .ac .uk/ dbbrowser/ P RIN TS/ prints man .h t ml。在初始比对中 , 首先是 针对少 量家 族 中的成员序列进行的 , 一旦一个模体或一组模体得到确定 , 就可以在局部比对中得到一个 保守区域。比对出每一个模体都进行单独的数据 库搜 索并 击中一 组序 列 , 这些都 对应 一 个模体。然后对这些序列进行分析 , 建立相关性 , 来决定数据库中的哪些序列和指纹图谱 中的所有因子都匹配 , 哪些只和部分匹配。只 有序列 和所 有模 体都匹 配的 序列才 是真 的 匹配。如果这种搜索做的比较好的话 , 就可以 得到比 初始 比对 包含更 多序 列的真 正的 模 体组。增加的序列数据用来产生另外比对 的模 体组 , 再 对数据 库进 行搜索— —如 果蛋 白 — 质家族很大 , 在下一次搜索之前就要去掉多余的模体 , 这样的搜索工作一直要重复到连续 的搜索的结果是相同的才停止 , 而最后得到的模 体就产生 了可以进 入 P RI N TS 数据库 的 精确的指纹图谱。 好的指纹图谱可以找到 OWL 中所有 的正 确匹 配序列 , 这 些图 谱都有 精 确的 区别 模 体的阈值 , 有很少的或没有背景噪音。只是有时这种阈值很难确定 , 这种情况主要出现在 蛋白质亚家族的鉴定中 , 一般一段序列的亚集是由指纹图谱的一部分鉴别出来的 , 但同时 也可能是由于仅使用了指纹图谱中 2~3 个的模体进行搜索导致的 , 因此给阈值的设定增 加了困难 , 所以指纹图谱的区别能力随其中含有的模体的数目而增加。
( 3) BLOCKS ( www .blocks .fhcrc .org/ )
BLOCKS 是通过 一 些 高 度 保 守 的 蛋 白 质 区 域 比 对 出 来 的 无 空 位 的 片 段。Blocks WW W 服务器 , 是 Fr ed H u tchinson 癌症研究中心提供的序列搜索服务 , In ter Pro 数据 库 是作为 Blocks 数据库蛋白质家族的来源 , 是通过查找 In ter Pro 数据库中高度保守的蛋 白 质区域产生的 , 由 Blocks 生 成器 形成的模块 ( block) , 同时运用 PSI-BLAST 搜 索 Blocks + 和 prin ts 数据库以及 NCBI 的 IM PA LA 对数据库进行搜索 , 最后综合构建成的。服务 器 提供 BLOCK Sear ch、 Get Block s 和 Block Maker 工 具用 以检 测和 鉴 定 蛋白 质 模体 及 同 源性。
2) 蛋白质结构域数据库
(1 ) 蛋白质家族 序列 比 对 以及 隐 马尔 可 夫模 式 数 据库 P fa m ( protein families data- base of alignments and H MM s) Pfa m 是 蛋白 质 家 族 序 列比 对 以 及 隐 马尔 可 夫 模 式 数据 库 ( 见 图 3 .4 ) , 其 网 址 是 : 106

ww w .sanger .ac .uk/ Softwa re/ Pfam/ i ndex .sh t ml。为了使数据全 面而 且精 确 , 数 据库 采 用半自动方式处理提交的数据。数据库中的每个 家族 可以 查看多 重序 列比对、 白质 结 蛋 构域构造、 结构 域 的物 种 分 布 情 况、 知 蛋 白质 的 三 维 结 构和 其 他 数 据 库。 目 前 Pfa m 已 7. 0 版收录了 3 360 个家族 ( 2002 年 2 月 ) 。 Pfa m 家族 主要 有两个 部分 : Pfam-A 家族 是 基于序列比对以及 H M M ER2( ht t p :/ / hmm er .w ustl .edu/ ) 软件 搜索 的隐 马 尔可 夫模 型 基础上形成的 , 占 SWISS-P RO T 和 T rEMBL 数据库蛋白质的 69 % ; Pfam-B 则是从 Pro- Dom 数据库中挑选 出 来 的 小 的蛋 白 质 家 族 , 这 些 家 族 与 Pfam-A 中 的 不 同 , 占 SWISS- P RO T 和 T rE MBL 数据库蛋白质的 16 % , 这些多重比对的质量相对比较差。
图 3 .4 Pfam 的主页
每个家族都有以下信息 : ① 基本比对 : 是 手工 编 辑 的 多 重序 列 比 对 , 提 供 的 数 据 库 序 列 都 是 具 有 家 族 代 表 性的 ; ② 隐马尔可夫模型 : 是从基本比对中衍生出来的 , 用于发现新结构域 ; ③ 全比对 : 通过 2 次隐马尔可夫模式自动将结构域的所有样本序列进行比较 ; ④ 注释 : 包括结构域的简要介绍、 m 的特殊数据、 Pfa 其他相关数据资源。
( 2) 蛋白质结构域数据库 ProDom
P roDom 蛋白质结构域数据库数据是由来自 S WISS-P RO T 数据库中的 9 600 个同源 结构域构成 , 并通过 DOM A IN ER 程序自动编辑生成 390 个蛋白质家族 , 服务器为用户提 供序列相似性搜 索 , 同时 还 有 提 供 来自 S WISS-PRO T 所 有 相 关 结 构域 的 多 序 列 比 对。 其网址是 : h tt p :/ / prodes .tou louse .inra .fr/ prodom/ doc/ prodom .h t ml。
( 3) SMART
SMA RT 是一个简单的结构研究工具 , 可对可转移的遗传因子进行鉴定和注 解 , 以 及
107

分析结构域结构 , 可以检测出 500 多个参与信号传导、 胞外和染色体相关蛋白质的结构域 家族 , 对这些结构域又在系统进化树分布、 功能 分类、 三级 结构 和重要 的功 能残基 方面 做 了注解。其网址是 : s mar t .embl-heidelbe rg .de/ 。
( 4) InterPro
一个有关蛋白质家族、 结构域和功能 位点的联 合资源 文档。建 立在 Pfam、 RIN T S、 P P ROSI T E、 roDom、 P SMAR T 和 最新 的 S WISS-PRO T + TrE MBL 数 据 的基 础上。 已 包 含有 3 915 个条目、 991 个结构域、 845 个家 族、 个重 复序列 和 15 个 翻译后 修饰 位 有 2 64 点。其网址是 : www .ebi .ac .uk/ in terpro/ 。
3) 蛋白质结构数据库和结构分类数据库
( 1) PDB( protein data bank , PDB)
PDB 是于 1971 年在布鲁克海文国 家实 验室 ( BM L ) 中 创建 的 , 起 初用 于 收集 生物 大 分子的晶体结构。随着研究方法的发展以及数据共享方式的变化逐步发展成为一个国际 上公认的惟一的生物大分子结构数据 库。目前 PDB 数据 库的 维护由 结构 生物信 息学 研 究合作组织 ( R CSB) 负责。 PDB 包括 了蛋 白 质、 核酸、 蛋白 质-核酸 复 合 体以 及 病毒 等 生 物大分子结构数据 , 主要是蛋白质结构数据 , 这些数据来源于几乎全世界所有从事生物大 分子结构研究的研究机构 , 并由 RCSB 维护和注释 , 平均每天有 50~ 100 个分子结构被提 交 ( 见图 3. 5 ) , 迄今 (2002 年 2 月 ) 共收录 17 443 条分子结 构信息 ( 见表 3 .2) 。 PDB 网 址 是 : www .r csb .org/ pdb/ 。
图 3. 5 近 30 年已知结构与未知结构序列的比较 表 3 . PDB 结构分布情况 2 蛋白质、 多肽和病毒 X 射线衍射 N MR( 核磁共振 ) 理论模型 共计 13 160 2 154 321 15 635 蛋白质-核酸复合体 635 79 24 738 核酸 602 422 28 1052 糖类 14 4 0 18 共计 14 411 2 659 373 17 443
108

PDB 的每个结构 由以 下 几条 信 息 组成 : ① 序列 信 息 ; ② 原 子 坐 标 ; ③ 分 子 结 晶 条 件 ; ④通过多种方法计算的三 维结构 近似 值 ; ⑤衍生 的几 何数 据 ; ⑥ 结构 因 数 ; ⑦三 维 结构立体图像 ; ⑧与其他数据资源的链接。但是由于历史原因有很多数据仍不规范。 进入 PDB 可以通过主页上搜 索窗口 ( 见图 3 .6 ) , 搜索 内容可 以是 分子 名称、 PDB 的 序列号 (4 个字符 ) 等 , 也可 以通 过 高级 检 索 : ① Sea rchLite 搜 索关 键 词 ; ② Sear ch Fields 用户自定义搜索 ; ③Stat us Sear ch 未公布的数据搜索。RCSB 的主 服务器和 世界各地 的 镜像服务器提供数据库的 检索 和 下载 服务 及关 于 PDB 数 据文 件 格式 和 其他 文 档 说明。 下载的数据可以用 Rasmol 等软件在计算机上按 PDB 文件显示生物大分子的三维结构。
图 3. 6 PDB 主页
( 2) CAT H 数据库
CA T H 数据库 [ O rengo et a l ., 1997] 是一个新的对蛋白质结构域进行等级分类的数 据库 , 它通过半自动的方法对布鲁克海文蛋白 质数据 库中 的单 一或者 多结 构域蛋 白质 结 构进行等级分类 , 非 蛋白质结 构、 模型以及 纯 alphaC 结构 都没有归 在 CA T H 中 , 而且 收 集的蛋白质晶体结构或者核 磁共 振 结构 的分 辨率 都要 求 小于 0 .3 nm。分 类按 照 4 个 水 平 : 簇 ( clas s( C ) ) , 构件 ( arch itect ure ( A ) ) , 拓扑结构 ( topology( T ) ) 和同源超家族 ( homol- ogous superfamily ( H ) ) , 这些层次的内容 通常用 文字 和数 字加以 表示 , 与 酶学代 号很 相 似 , 具体的分类问题 将在 后 面章 节 讨 论。CA T H 数据 库 的网 址 是 : www .biochem .ucl . ac .uk/ bs m/ cat h new/ index .h t ml。 (3 ) SCOP 蛋 白 质 结 构 分 类 数 据 库 ( st ruct ural classification of pro tein database, SCOP ) scop .mrclmb .ca m .ac .uk/ scop/ index .h t ml 现有的结构和序 列自 动 分 析 工 具并 不 能 确 定 蛋白 质 所 有 的 结构 及 进 化 上 的关 系 , SCOP 对蛋白质的分类是通过蛋白 质结构 的可 视化检 测和 结构 比较来 进行 的 , 并 由一 些 辅助工具使分类工作可行性更高 , 更具有普遍性 , 但是由于数据库中所有条目并不是按同 109

源性进行分类的 , 有的是按单个结构域进行 的 , 有的是 按多 个结构 域进 行的 , 加上 缺少 理 论指导 , 从而使分类这份工作更具有挑战性。蛋白质分类即要反映结构与进化之间关系 , 这种关系在分类的很多水平上都能体现 , 主要是 在家 族、 超家族、 折叠子 三个 水平上。 这 些分类层次的界定多少具有一定的主观因素 , 因 此是需 要不 断改 进的。所 以很多 研究 者 把更多的注意力放在基于结构进化树等较高水平的分类。 蛋白质结构分类数据库 详细 描述 了已 知的 蛋 白质 结构 之 间的 关 系 , 是 由英 国 M RC 分子生物学实验室和剑桥蛋白质工程中心建立的。数据库提供了详细全面的关于蛋白质 结构和进化关系。分类基于家族、 超家 族、 折叠 子、 四个 层面。 SCOP 提 供 一个 非冗 余 簇 的 AS TRA IL 序列库 , 这个库通常被用来评估各种序列比对算法。此 外 , SCOP 还提供 一 个 PDB-ISL 中介序列库 , 通过与这个 库中序 列的 两两 比对 , 可以 找到 与未 知 结构 序列 远 缘的已知结构序列。现在 SCOP 颁布了第 1 .57 版 , 收录 了 PDB 的 14 729 条记录 , 35 条 文献 , 35 685 个结构域 ( 不包括核酸、 理论模 式 ) 。数据 库有 两种搜 索方 式 , 一个是 同源 性 搜索 , 用于搜索与提交数据相似的所有蛋白 质 ; 另一个 是关 键词搜 索 , 用于 搜索与 关键 词 相关的蛋白质。 (4 ) FSSP 基于蛋白质结构-结构 比对的折 叠分类 ( fold clas sification based on struc- t ure-struct ure alignment of pro teins , FSSP ) FSSP 数据库是由 Sande r 研究组运用 DA LI 结构比对程序开发的 , 它以 PDB 非冗 余 数据库作为数据源 , 进行彻底、 全面的三级结构 比较 , 而且 数据 库的升 级以 及维护 都是 由 DALI 搜索引擎支持的。其网址是 : www .ebi .ac .uk/ dali fssp/ 。 /
3 -. - - - - - - - - - - - - 2 - 蛋白质序列分析 3.2.1 蛋白质序列信息的获取
对蛋白质序列进行分析 , 首先应该学会如何获取蛋白质序列 , 蛋白质序列的来源方式 主要有以下 3 种 :
1) 直接测序
目前随着生物技术的不断发展 , 蛋白质测序方法也日渐形成体系 , 除了使用比较传统 的 Edman 降解法及其衍变法、 固相测序等 , 近几年产生蛋白质组学的新方法 , 例如运用 质 谱仪以及根据事先构建好的肽库图谱分析蛋 白质序 列 , 从而 获得 蛋白质 序列 等。总而 言 之 , 蛋白质直接测序程序复杂 , 费用昂贵 , 目前并不是常用的蛋白质序列获取方式。
2) 翻译编码的 D A序列 N
各种生物基因组测序计划的开展为基因组学 和蛋 白质 组学的 发展 提供了 依据 , 由 于 DNA 测序目前已非常成熟 , 所以通过翻译编码的 DNA 获得 相应的 蛋白质序 列是常用 来 得到未知蛋白质序列的方法 , 将 DN A 翻译成蛋白质主要有以下几个步骤 : (1 ) 找 到 DNA 的 开 放 阅读 框 , 这 是 DNA 序 列 中编 码 蛋 白 质 的部 分 , 对 于 未 知 的 DNA 序列 , 有 很 多生 物 信息 软 件 , 如 GCG、 Vect or N TI 等 都可 以 进行 开 放 阅读 框 的 查 找 , 此外 , NCBI 提供了网上在线的开放阅读框查找程序— — — “OR F Finde r” ; 110

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能 4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能 一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局 部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应 该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说:A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐 渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法:A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)D. 非加权平均法(UPGMA) 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是:A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是:A. 软件太难使用■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许 多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以:A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp:A. 20000■. 200000 C. 2000000 D. 20000000

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学课程设计

生物信息学课程设计报告 题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因 专业:生物技术 班级:11-2 学号:11114040235 姓名:邹炜球 指导教师:马超 广东石油化工学院生物工程系 2013年 12 月 21 日

摘要 生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。 关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录 1绪论 (4) 1.1生物信息学的发展概况 (4) 1.2生物信息学的发展展望 (4) 2 课题设计内容 (5) 2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列 为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6) 2.2以设计内容1为目标序列进行BLAST分析 (7) 2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9) 2.4以8条基因序列进行多序列比对 (10) 2.5依照设计内容4构建系统发育树 (10) 2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12) 参考文献 (16)

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

最新生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系? 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么? 7)简述BLAST搜索的算法。 8)什么是物种的标记序列? 9)什么是多序列比对过程的三个步骤? 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么? 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因? 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分? 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

生物信息学中的机器学习方法

生物信息学中的机器学习方法 摘要:生物信息学是一门交叉学科,包含了生物信息的获取、管理、分析、解释和应用等方面,兴起于人类基因组计划。随着人类基因组计划的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的分支就是系统生物学。本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若干应用。 关键词:生物信息学;机器学习;序列比对;人类基因组;生物芯片 1.相关知识 1.1 生物信息学 生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。 生物信息学主要有三个组成部分:建立可以存放和管理大量生物信息学数据的数据库;研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。 生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。 目前的生物信息学研究,已从早期以数据库的建立和DNA序列分析为主的阶段,转移到后基因组学时代以比较基因组学(comparative genomics)、功能基因组学(functional genomics)和整合基因组学(integrative genomics)为中心的新阶段。生物信息学的研究领域也迅速扩大。生物信息学涉及生物学、计算机学、数学、统计学等多门学科,从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上,我们今天正需要具备各种背景知识、才能和研究思路的研究人员,集思广益

最新生物信息学学习心得

生物信息学学习心得 第一篇:生物信息学 生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一熟悉生物信息学网站及其数据的生物学意义 实验目的:

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、sble、中科院北京基因组研究所、北大生物信息 学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathatdb格式化库文件,并输入blast命令进行计算,获得结果文件。 实验内容: 1. 向网上blast服务器提交序列,得到匹配结果; 2. 本地使用blast,格式化库文件,输入命令行得到匹配结果;

生物信息学课程大纲

《生物信息学》课程大纲 一、课程目标 1.学科素养:生物信息学的基本研究方法,并能掌握应用其中的一些常用方法,以提高学生的科研能力,领会采用信息学技术去分析和探索大量核酸和蛋白质序列所蕴藏的生命意义的基本思路。(支撑毕业要求 3-1) 2.交流合作:理解团队学习的重要性,具有团队协作精神,掌握沟通合作技能,具有小组互助和协作学习体验。(支撑毕业要求 8-1) 3.交流合作:具有小组互助和协作学习体验,具备与学校领导、同事、学生、家长及社区沟通交流的知识与技能。(支撑毕业要求 8-3)

二、课程目标与毕业要求的对应关系 三、教学内容、重难点和课时安排 1.第一章生物信息学概论(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点(二)教学内容 1、生物信息学的概念和发展历史(支撑课程目标1) 2、生物信息学的生物学基础(支撑课程目标1) 3、生物信息学的计算机和网络基础(支撑课程目标1) 4、生物信息学的数学基础(支撑课程目标1) 5、生物信息学的产业化(支撑课程目标1) 6、生物信息学研究内容和发展前景展望(支撑课程目标1)

(三)本章重难点 ※生物信息学的数学基础、生物信息学的计算机和网络基础 第二章分子生物学数据库(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、生物学数据库概述(支撑课程目标1) 2、核苷酸序列与基因组数据库(支撑课程目标1) 3、蛋白质序列与模式、同源性数据库(支撑课程目标1) 4、结构数据库(支撑课程目标1) 5、基因和分子的互作和代谢途径信息数据库(支撑课程目标1) 6、RNA核苷酸序列数据库(支撑课程目标1) 7、其它遗传学与分子生物学资源(支撑课程目标1) 8、数据库中存在的问题及使用注意事项(支撑课程目标1) (三)本章重难点 ※蛋白质序列与模式、同源性数据库;基因和分子的互作和代谢途径信息数据库;RNA 核苷酸序列数据库 第三章序列比对与数据库检索(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、序列比对概述(支撑课程目标1) 2、双序列比对(支撑课程目标1) 3、比对的统计学显著性(支撑课程目标1) 4、多序列比对(支撑课程目标1) 5、数据库搜索(支撑课程目标1) 6、基因组长序列比对(支撑课程目标1) (三)本章重难点 ※双序列比对、数据库搜索 第四章核酸序列的信号和功能识别(4学时)

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

《生物信息学》教学大纲

《生物信息学》教学大纲 Bioinformatics 课程编码:27A11708 学分:1.5 课程类别:专业任选课 计划学时:24 其中讲课:20 上机:4 适用专业:生物技术专业、药学专业 推荐教材:薛庆中著,《DNA和蛋白质序列数据分析工具》,科学出版社,2014年。 参考书目:张成岗著,《生物信息学方法与实践》,科学出版社,2005年。 课程的教学目的与任务 本课程的教学目的是引导学生初步了解生物信息学的基本研究内容与研究方法以及生物信息在多学科领域的应用。使学生掌握生物信息学的基本术语、基本原理、基本研究方法、重要核酸和蛋白质数据库等。掌握指定的基于互联网的常用生物信息学软件的基本操作使用方法。要求学生通过基于问题和任务的学习方式,初步具备解决简单生物信息学问题的研究能力。 课程的基本要求 通过本课程的学习,要求学生1. 掌握该领域的基本知识。2. 掌握指定数据库与软件的应用。3.课程的主要任务包括一次期末考试和多次的章节作业以及课程问题讨论等。 4.培养与引导学生采用生物信息学实际操作能力、以期后期能用于相应领域的研究工作中。 各章节授课内容、教学方法及学时分配建议(含课内实验) 第一章:绪论建议学时:2 [教学目的与要求] 掌握专生物信息学产生背景、概念及研究内容;介绍常用的核酸、蛋白质数据库介。 [教学重点与难点] 掌握生物信息学概念机研究内容,熟悉常用数据库的使用。 [授课方法] 课堂讲授结合上机操作 [授课内容] §1.1生物信息学的产生背景,概念 生物信息学的发展简史 生物信息学的不同定义 §1.2生物信息学的研究内容及常用的核酸、蛋白质数据库介绍 生物信息学的而研究内容 常用的核酸数据库 常用的蛋白质数据库

相关主题
文本预览
相关文档 最新文档