生物信息学 第二章 GenBank序列数据库
- 格式:doc
- 大小:63.50 KB
- 文档页数:18
genbank格式解读
GenBank是一个用于存储和分享生物信息数据的数据库,它包含了大量的
DNA序列、蛋白质序列和其他生物学信息。
GenBank格式是一种用于描述这些生
物信息数据的标准格式。
GenBank格式包含了多个部分,每个部分提供了不同的信息。
以下是GenBank
格式的主要部分:
1. LOCUS:这部分包含了序列的名称、长度和描述信息。
它告诉我们序列的
基本属性。
2. DEFINITION:在这部分,我们可以找到对序列的简要描述,包括它的来源、功能和重要性等信息。
3. ACCESSION:这部分提供了序列的唯一标识符,以便于搜索和引用。
4. VERSION:这部分包含了序列的版本号,表示数据的更新和修订历史。
5. FEATURES:这是一个关键部分,描述了序列中的各个功能区域和特征,如
基因、启动子、编码区等。
6. ORIGIN:这部分包含了序列的碱基序列,以及用于排列序列的行号。
通过解读GenBank格式,我们能够获取到序列的基本信息、描述、标识符和功能区域等重要内容。
这对于了解和研究生物信息非常有帮助。
需要注意的是,GenBank格式并不限于DNA和蛋白质序列,它还可以包含其
他类型的生物信息数据,比如RNA序列、基因组装序列等。
因此,掌握GenBank格式的解读方法,对于生物信息学研究人员和生命科学领域的专业人士来说,是非常重要的。
通过准确理解和解读GenBank格式,我们能
够更好地挖掘和利用这些宝贵的生物信息资源,为生物学研究作出贡献。
GenBankDNA序列库编辑:刘慧萍陈梅红GenBank简介GenBank检索与查询方式向GenBank递交数据GenBank 概况(/Web/Genbank/index.html)•GenBank 是什么?GenBank 是NIH 的基因序列数据库,是所有公开的DNA序列的集合(NucleicAcids Research 1998 Jan 1;26(1):1-7). 截至1998年12月,GenBank大约收集了2,162,000,000 个碱基、3,044,000 个序列。
作为示例,你可以察看一下neurofibromatosis gene的纪录。
也可以阅读关于当前版本的Genbank的完整的release notes(发布说明)。
每两个月会发布一个新的版本(release)。
GenBank 也是国际核酸序列数据库协作(International Nucleotide Sequence DatabaseCollaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本DNA 数据库(DNA DataBank of Japan (DDBJ)),欧洲分子生物学实验室(the European Molecular Biology Laboratory (EMBL))和NCBI的GenBank ,这三个组织每天都交换数据。
•向GenBank提交数据许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息(submission of sequence information),因为这样的话,一个序列访问号码(accession number)就可以出现在文章中。
NCBI有一个WWW形式的表格叫做BankIt,它提供了一种快速而简便的序列提交方法。
另一种方法是使用Sequin,NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件,可以从FTP获得它,使用Sequin 时,用于直接提交的输出文件可以通过E-mail 发送到NCBI,也可以将数据文件拷贝到软盘上邮寄给NCBI。
GenBankDNA序列库编辑:刘慧萍陈梅红GenBank简介GenBank检索与查询方式向GenBank递交数据GenBank 简况<)•GenBank 是什么?GenBank 是 NIH 的基因序列数据库,是所有公开的DNA序列的集合 (Nucleic Acids Research 1998 Jan 1。
26(1>:1-7>. 截至1998年12月,GenBank大约收集了2,162,000,000 个碱基、3,044,000 个序列。
作为示例,你可以察看一下neurofibromatosis gene的纪录。
也可以阅读关于当前版本的Genbank的完整的release notes <发布说明)。
每两个月会发布一个新的版本< release)。
GenBank 也是国际核酸序列数据库协作<International Nucleotide Sequence DatabaseCollaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本DNA数据库<DNA DataBank of Japan (DDBJ>),欧洲分子生物学实验室< theEuropean Molecular Biology Laboratory (EMBL>)和 NCBI的GenBank ,这三个组织每天都交换数据。
•向GenBank提交数据许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息<submissionof sequence information),因为这样的话,一个序列访问号码 <accession number)就可以出现在文章中。
NCBI有一个WWW形式的表格叫做 BankIt,它提供了一种快速而简便的序列提交方法。
另一种方法是使用 Sequin,NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件,可以从FTP获得它,使用Sequin时,用于直接提交的输出文件可以通过 E-mail 发送到NCBI,也可以将数据文件拷贝到软盘上邮寄给NCBI。
第二章GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。
但是如果我们能够了解这些序列是如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。
GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。
每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。
这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。
目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。
这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。
GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。
所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
这一章描述GenBank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。
关于序列数据库,前人已经作了大量的工作,具体可参见(Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。
所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。
出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。
genbank名词解释
GenBank名词解释:
GenBank是一个公共数据库,用于存储和共享生物学序列信息,包括DNA序列、RNA序列和蛋白质序列等。
它是全球最大的基因序列数据库之一,由美国国
家生物技术信息中心(National Center for Biotechnology Information,NCBI)维护
和管理。
GenBank的创建目的是为了促进科学研究和生命科学领域的进展。
它为科学家、研究人员和学术机构提供了一个集中存储和查询生物学序列数据的平台。
科研人员可以通过GenBank找到已经发布的序列数据,从而进行相关研究和分析。
GenBank包含了来自各种生物物种的序列数据,包括人类、动物、植物、微生
物等。
这些序列有时是基因组的完整组成部分,有时是特定基因的片段。
科学家将自己的研究成果上传到GenBank,以便与他人分享和交流。
GenBank中的每个序列都有一个唯一的标识号,称为Accession号,用于确保
数据的唯一性和可追溯性。
这些数据还包括序列的描述信息、来源、相关文献等。
科研人员可以使用关键词、序列特征等方式进行搜索和筛选,以找到他们感兴趣的序列数据。
GenBank的数据是公开的,任何人都可以免费访问和使用。
这使得科学家们能
够更好地共享和利用基因序列数据,推动生命科学研究的进展,并为解决许多生物学问题提供了重要的资源。
总之,GenBank是一个重要的生物信息学工具,为全球科学家提供了一个方便
的平台来存储、共享和查询生物学序列数据。
它的建立和运行有助于推动生物学领域的研究和发展。
genbank序列格式名词解释GenBank是一个全球性的生物信息学数据库,为研究人员提供了查找、分享和下载生物序列和相关注释的平台。
在GenBank中,序列的存储和检索是基于特定格式而进行的。
其中,GenBank格式是最常见的格式之一。
在这篇文章里,我们将解释一些与GenBank格式相关的术语。
1. 序列:GenBank序列是由核苷酸(DNA或RNA)组成的线性字符串序列。
序列被存储为一个文本字符串,每个字符表示一个核苷酸。
同时,标准的IUPAC化学符号用于表示每个核苷酸的亚基。
2. 特征:序列中的生物信息可以由多种特征表达,称为特征(feature)。
不同的特征可以包括基因结构、启动子、编码蛋白质的密码子序列和翻译位点,以及其他类型的注释信息。
3. 序列版本:每个序列在GenBank中都有一个唯一的版本号。
序列版本可以反映序列的更新历史。
每次出现更新时,会为该序列添加一个新的版本号,并记录它与之前版本的不同之处。
4. 序列范围:序列范围是指序列中包含的起始和结束位置。
在GenBank中,序列的范围可以有两种表示方法:线性或圆形。
线性序列的范围从1开始,直到序列的长度。
对于圆形序列,序列起始点与终止点相连,因此在确定序列范围时,必须指定序列起始点。
5. 基因符号:GenBank将基因编码序列(coding sequence)称为CDS,其内部的密码子序列将基因定义为特征之一。
每个CDS都有一个唯一的标识符,称为“基因名”(gene name)。
这些基因名可以赋予给多个相关的特征。
6. 参考文献:GenBank序列中的参考文献目录提供了该序列的来源和相关引用信息。
这些文献可以是原始研究论文、综述或公共数据库。
7. 序列来源:为了更好地了解序列特征的来源和治愈病情,GenBank序列中包含了对序列来源的注释。
这些信息通常包括序列组装和质控的详细信息,例如测序平台、单个或多个组装版本,序列的化学方法和读写技术。
一、GenBank序列条目的概述GenBank是一个公共数据库,收录了全球范围内大量的生物学序列信息。
这些序列包括了DNA序列、RNA序列以及蛋白质序列等。
GenBank数据库的建立旨在为科研人员提供一个信息共享的评台,以便更好地开展生物信息学研究和基因组学研究。
二、GenBank序列条目的结构GenBank序列条目通常由多个部分组成,主要包括以下几个方面的信息:1. LOCUS部分:该部分包括了序列的名称、长度、分子类型以及其他相关的信息。
2. DEFINITION部分:该部分包括了对序列的简要描述。
3. ACCESSION部分:该部分包括了序列的访问编号,用于标识该序列在数据库中的唯一性。
4. VERSION部分:该部分包括了序列的版本信息,用于标识同一序列的不同版本。
5. KEYWORDS部分:该部分包括了序列的关键词信息,便于用户进行检索和分类。
6. SOURCE部分:该部分包括了序列的来源信息,例如该序列来自哪种生物体。
7. ORGANISM部分:该部分包括了序列的生物学分类信息,例如属、种、亚种等信息。
8. REFERENCE部分:该部分包括了与该序列相关的文献引用信息。
9. FEATURES部分:该部分包括了序列的特征信息,例如基因的编码区域、启动子区域等。
10. BASE COUNT部分:该部分包括了序列中各种碱基的数量统计信息。
11. ORIGIN部分:该部分包括了序列的具体碱基序列信息。
三、GenBank序列条目的应用GenBank数据库中的序列信息对于生物学领域的研究具有重要意义。
科研人员可以通过GenBank数据库快速获取到所需的生物学序列信息,从而开展基因功能研究、进化分析、生物信息学分析等工作。
GenBank数据库也为生物学领域的大数据分析提供了重要的数据支持,有利于推动生物学研究的发展。
四、GenBank序列条目的质量保证为了确保GenBank数据库中的序列信息的准确性和可靠性,数据库管理人员会对提交的序列信息进行严格的筛选和审核。
genbank使用方法-回复使用GenBank的步骤及方法GenBank是一个公共的DNA和RNA序列数据库,由美国国立生物技术信息中心(NCBI)维护和管理。
它为全球科研人员提供了一个共享和访问遗传信息的平台。
在本文中,我们将一步一步介绍如何使用GenBank数据库。
第一步:访问GenBank网站首先,在您的网页浏览器中输入"第二步:注册GenBank账号如果您还没有GenBank账号,您需要先注册一个账号。
点击网页右上方的"Sign In"按钮,然后选择"Register for an NCBI account"。
填写所需信息并创建一个新账号。
第三步:搜索DNA或RNA序列一旦您登录了GenBank账号,您可以使用搜索栏输入想要获得的DNA 或RNA序列的名称、关键词或序列标识符。
点击"Search"按钮开始搜索。
第四步:浏览搜索结果GenBank将根据您的搜索条件提供一系列匹配的结果。
您可以根据文章标题、序列长度、申请人等标准查看和筛选搜索结果。
点击每个搜索结果可以查看更多详细信息,如序列特征、注释和相关文章等。
第五步:下载序列数据一旦您找到了您想要的序列,您可以下载相关的序列数据。
在搜索结果页面上,您可以看到一个"Send to:"栏,里面有多个选项供您选择,包括"File"、"Text"和"Clipboard"。
选择您喜欢的选项,并点击相关按钮下载序列数据。
第六步:分析序列数据下载的序列数据可以用于各种生物信息学分析,如序列比对、蛋白质结构预测和基因功能注释等。
您可以使用各种生物信息学软件来执行这些分析,并根据您的研究目的进行解释和研究。
第七步:提交序列数据如果您有新的DNA或RNA序列数据,并希望将其存储在GenBank数据库中供他人使用,您可以将其提交给GenBank。
一前言Genbank核酸序列数据库是由美国国立生物技术信息中心(NCBI)建立和维护的。
它包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
它的数据直接来源于测序工作者提交的序列。
EMBL数据提交方式主要有三种,即通过Webin、Sequin或 Data Submission Form三种方式提交数据,目前EMBL数据库已停止接受email 格式的提交方式。
日本DNA数据库DDBJ(DNA Data Bank of Japan),于1984年建立,是世界三大DNA 数据库之一。
二本论2 Genbank简介Genbank核酸序列数据库是由美国国立生物技术信息中心(NCBI)建立和维护的。
它包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。
2.1GenBank的序列提交提交序列有两种方式,一个是在线的页面提交序列bankit,另一个是通过NCBI的Sequin 软件提交序列。
Sequin也是一种很好的利用了NCBI数据模型ASN.1编辑工具。
BankIt 用于一条或者少数条提交的基于WWW的提交工具软件,适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用于BankIt提交。
BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。
并且在提交前用 VecScreen 去除载体。
1、进入GenBank /genbank/ 点击BankIt2、在BankIt使用的时候先进行注册,点击右上角的Sign in to NCBI,在如果使第一次使用则需要注册,点击Register for an account, 如果已经创建用户名,则输入用户名、密码直接登录即可。
GenBank是一种DNA序列数据库,它存储了来自各种生物物种的DNA序列数据。
GenBank 的数据以一种特定的格式存储,称为GenBank格式。
GenBank格式包含了DNA序列的各种元数据信息,例如序列的来源、物种、长度、起始和终止位置等。
此外,GenBank格式还包含了序列的注释信息,例如基因编码的蛋白质序列、基因组区域的注释信息等。
GenBank格式的具体内容包括以下几个部分:
1. 序列信息:包括序列的名称、来源、物种、长度、起始和终止位置等信息。
2. 序列描述:包括序列的序列描述、序列的注释信息等。
3. 序列质量控制:包括序列的质量控制信息,例如序列的质量分数、序列的GC含量等。
4. 序列比对:包括序列与其他序列的比对信息,例如序列的相似度、比对结果等。
5. 引用文献:包括序列的引用文献信息,例如文献的标题、作者、期刊等。
总之,GenBank格式是一种标准化的DNA序列数据格式,它包含了各种元数据和序列信息,为研究人员提供了一个方便的平台来共享和分析DNA序列数据。
第二章GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。
但是如果我们能够了解这些序列是如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。
GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。
每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。
这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。
目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。
这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。
GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。
所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
这一章描述GenBank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。
关于序列数据库,前人已经作了大量的工作,具体可参见(Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。
所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。
出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。
核苷酸序列是查询核苷酸数据库以及蛋白质数据库时的主要出发点,并且目前有一种趋势,将核苷酸数据库介入到蛋白质数据库的管理之中(正如我们下面将要看到的那样)。
这并不奇怪,因为数据库维护者与数据提交者之间的直接通讯将有利于保证数据的真实性与准确性(提交者需要一个检索号,并且他们想要得到他们添加到数据库中的新记录)。
在很多情况下,这种对数据的关注意味着提供适当的信息来注释CDS(coding sequence:编码序列),并告诉我们如何得到翻译产物。
这种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的Entrez之中,在GenBank的管理之中,以及在GenPept格式记录的生成过程之中。
在欧洲,EBI的工作人员统一维护管理Swiss-Prot和TREMBL,这些工作人员也负责EMBL核苷酸数据库的管理工作。
还有Amos Bairoch和他在日内瓦大学的研究组。
(见本章后的列表)。
尽管如此,建立核苷酸和蛋白质数据库的初衷还是有区别的。
本章还初步讨论了将在第六章详细描述的数据模型。
这一章主要是从GenBank flatfile的角度介绍序列数据,但必须明确的是,“flatfile”(不论是GenBank, EMBL, Swiss-Prot或PIR),都只是ASN.1报告的一个方面。
而ASN.1才是代表了NCBI数据模型的语言。
GenBank 以DNA为核心,包含了许多计算生物学资源。
历史上,蛋白质数据库先于核苷酸数据库。
在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoffet al., 1965)。
这一蛋白质数据库后来成为PIR(George et al., 1997)。
这本书为今天整个生物信息学界日常工作所依赖的计算生物学资源播下了种子。
这个在1965年可以很容易地存放在一张软盘上的数据集(尽管那时并不存在软盘这种存储介质),是一小群人多年的工作成果。
今天,任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。
最早的DNA序列数据库于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。
(见图2.1)。
R. Cook-Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。
此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。
两个中心都致力于发展输入方式,这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。
日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。
在1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。
现在三个中心都收集直接提交的数据,并在三者之间发布。
这样,任何一个中心都拥有并发布所有的序列数据。
这种方式下每条记录只被生成这条记录的数据库所拥有,也就是说只有生成这条记录的数据库可以对记录进行更新,这就防止了“更新冲突”。
否则如果每个数据库都可以修改任一条记录,并覆盖其他数据库的数据,就必定会发生错误。
近年来的安排保证了没有一个数据库可以覆盖其他数据库更新的记录。
所有的序列数据库也都是计算生物学中心,并且越发表明序列数据不能简单地由自动化方式来生成。
每个数据库都成为了一个中心,在那里生成序列数据,并由生物学家进行验证,同时还开发一些利用这些信息的工具(例如NCBI的Entrez,见第5章,以及EBI现在正在开发的SRS)。
很明显的一点是一些专职的,介入到收集数据、提供发现与检索工具,并且作为研究机构来研究新算法、发掘公共数据库并在最高水平进行科学活动的机构将能够最大限度地服务于用户群体。
在这一环境下,知识被最高效率地获取与共享,并且新的研究与理解这样大量数据的方法也不断涌现。
这一章的着重介绍GenBank核苷酸数据库,GenBank是包含了三个重要蛋白质数据库(Swiss-Prot, PIR和PDB)的一系列数据库中的一个。
这一系列数据库中的每一个都对数据库现在和将来的使用方法产生了或产生过重大影响。
PDB 是关于核酸和蛋白质结构的数据库,将在第三章中详细介绍。
Swiss-Prot和PIR 可以称为二级数据库,它比已经存在于一级数据库中的数据提供了更多的信息。
Swiss-Prot和PIR中的蛋白质序列主要来源于核苷酸数据库,另外一小部分是直接向Swiss-Prot提交的(这些蛋白质是直接测序的)或者是从公开发表的论文中搜索到的。
这里没有详细讨论这些情况,我们建议读者通过其他途径了解更多的详情(Bairoch and Apweiller, 1997; George et al., 1997)。
需要注意的是,如同在第六章和第十四章中一样,这里的“GenBank”指的是DDBJ/EMBL/GenBank。
DDBJ和EMBL核苷酸数据库与GenBank紧密合作,逐日交换数据。
他们从不同的地点,用不同的格式发布同样的信息。
他们也都是提供其他数据、工具和服务的研究机构。
这些虽然从理论上是无关的活动,但实际上很难分开。
例如,Entrez(见第5章)是NCBI的一个计划,它包含了GenBank 数据在其中。
但Entrez和GenBank(都是NCBI的产品)从本质上是不同的,前者是一个信息检索系统,而后者是一个Entrez从中进行检索的数据库。
一级和二级数据库一级和二级数据库之间存在着本质的差别。
序列数据库对科学界最重要的贡献就是这些序列本身。
一级数据库记录了实验结果,以及一些初步的解释。
而更进一步分析工作的结论只能从二级数据库中查找到。
一级数据库中的核苷酸序列记录是从直接实验得到的,这些记录是对存在于某个实验室的试管中的生物分子测序的结果。
它们不代表共有序列(虽然是多次读取同一克隆,或相同的基因来源),它们也不代表一些计算机生成的字符串。
这在序列分析的解释中很重要,也意味着在大多数情况下一个给定的序列就是研究者所需要的全部。
每一个这样的DNA或RNA序列都将被注释以描述对实验结果的分析,这一分析阐明了为什么这一序列会被这样确定。
在DNA序列记录中的一种常见的注释是编码序列(CDS)。
大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。
这在实验、计算以及相似性比对工作中占有很大的比重。
这并行于赋予一个产物名称,或者功能说明(通过对相似性比对的分析)。
这一方法很有效,但也有误导的可能。
DNA,RNA 和蛋白质序列都是计算分析工作的对象,它们是一级数据库中有价值的成分。
那些在DNA序列记录的基础上进行计算、分析或其他工作的研究者通常认为他们所处理的是原始信息。
但是在很多情况下,氨基酸序列从某种程度上说是解释的结果,而并非是直接测序得到的。
这样,在使用和说明由这些序列得到的结果时就需要格外小心。
由mRNA序列数据推导出蛋白质序列通常并不难,但必须选择正确的启始编码子。
对于原核生物或低等真核生物序列的注释通常相对简单,但研究者同样需要注意避免缺少注释或增加不必要的注释。
(见第10章以及Cannon et al., 1997)。
将序列标记为CDS通常需要格外小心,因为这是蛋白质数据库全自动或半自动生成的开始步骤。
格式与内容:计算机与人数据库被用来存放原始数据,以及一系列附加的注释。
不同的检索工具和程序利用了这些信息中的不同部分。
纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。
最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBank flatfile,见附录2.1和2.2,这是一种人可以阅读的ASN.1版本)。
这些记录还有二进代码版,更加紧凑,计算机处理也更快。
但不幸的是,由于历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。
(但我们并未放弃尝试,见第3、6、14章)。
GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和GBFF极大通用性的重要原因。
作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。
这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据:>L04459*******************或同样的,一个蛋白质记录:>P31373*******************FASTA格式广泛应用于许多分子生物学软件包之中。
作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。
标记符��上面第一个例子开始部分的L04459��后面是大写或小写字母的DNA序列,通常60个字符一行(但这并非是标准规定)。