第六章 NCBI数据模型
- 格式:doc
- 大小:68.50 KB
- 文档页数:17
第二章GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。
但是如果我们能够了解这些序列是如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。
GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。
每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。
这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。
目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。
这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。
GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。
所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
这一章描述GenBank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。
关于序列数据库,前人已经作了大量的工作,具体可参见(Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。
所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。
出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。
NCBI_功能详细介绍GenBank Overview基本信息什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。
每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez 搜索字段的交叉索引。
访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez 和BLAST可以通过Query 和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。
公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
公布通知,旧- 同上相同,是过去公布的统计。
遗传密码- 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除载体)Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
第六章NCBI数据模型前言数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。
尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。
通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。
这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。
显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。
八年前,NCBI介绍了一种新的序列相关信息模型。
这种新模型使基于Entrez系统的完整数据库GenBank的建立以及相应的软件得到快速的发展。
该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第5章)。
该模型的优点对生物学家使用Entrez有很大的帮助。
但是很少有生物学家了解该模型的基础。
当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数据,且模型本身更好理解的实际数据模型。
这一章不深入讨论细节,只介绍一些实用的索引及NCBI模型所起的作用。
模型的一些例子GenBank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。
限定符/translation="MLLYY"描述了将CDS特征翻译成的氨基酸顺序。
其它的DNA特征(例如mat-肽)有时被GenBank 数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。
相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。
NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。
NCBI使用方法默认分类 2008-03-24 15:14 阅读2903 评论12字号:大中小NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心[url]/[/url]NCBI是NIH的国立医学图书馆(NLM)的一个分支。
NCBI提供检索的服务包括:1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。
Gen Bank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。
它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。
这三个组织每天交换数据。
其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。
2.Molecular Databases(分子数据库):Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。
Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。
Structure(结构)-——关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。
MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。
Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。
其目的是为序列数据库建立一个一致的种系发生分类学。
3.Literature Databases(文献数据库)(1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。
美国国立医学图书馆(NLM)于1988年11月4日建立国家生物技术信息中心(National Center of Biotechnology Information,简称NCBI)。
该中心的主要任务为:为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息。
NCBI首先创建GenBank数据库,在重点开发GenBank的同时,又于1991年开发了Entrez 数据库检索系统。
该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE 有关序列的文献信息,并通过相关链接,将他们有机地结合在一起。
PubMed一个关于生物医药科学的检索系统,包括引用、摘要和杂志的索引术语。
它包括直接由出版商提供给NCBI 的文献引用以及链接到在出版商网址上的全文的URLs。
PubMed 包括MEDLINE 和PREMEDLINE的完整内容。
它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。
因此PubMed 是比MEDLINE的更大的集合。
Books同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed-生物医药书目数据库。
这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。
目前收录的书有: Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Publishing.Nucleotide该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。
⽣物数据库介绍——NCBINCBI(National Center for Biotechnology Information,美国国家⽣物技术信息中⼼)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源。
NCBI资源包括Entrez、Entrez编程组件、MyNCBI、PubMed、PudMed Central、PubReader、Gene、the NCBI Taxonomy Browser、BLAST、Pimer-Blast、COBALT、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、dbVar、Epigenomics、the Genetic Testing Registry、Genome和相关⼯具、⽐对查看器、跟踪存档、Sequence Read Archive、BioProject、BioSample、ClinVar、MedGen、HIV-1/⼈类蛋⽩质相互作⽤数据库、Gene Expression Omnibus、Probe、Online Mendelian Inheritance in Animals、the Molecular Modeling Database、the Conserved Domain Database、the Conserved Domain Architecture Retrieval Tool、Biosystem、Protein Clusters and thePubChem suite of small molecule databases,所有这些资源可以在NCBI主页找到。
Databases⼀个提供有关基因组组装结构,装配名称和其他元数据,统计报告以及基因组序列数据链接等信息的数据库。
⼀个有关培养物、动植物样本和其他⾃然样本的精选元数据集。
记录显⽰样本状态,有关馆藏的机构的信息,以及NCBI中相关数据链接。
第六章NCBI数据模型前言数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。
尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。
通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。
这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。
显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。
八年前,NCBI介绍了一种新的序列相关信息模型。
这种新模型使基于Entrez系统的完整数据库GenBank的建立以及相应的软件得到快速的发展。
该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第5章)。
该模型的优点对生物学家使用Entrez有很大的帮助。
但是很少有生物学家了解该模型的基础。
当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数据,且模型本身更好理解的实际数据模型。
这一章不深入讨论细节,只介绍一些实用的索引及NCBI模型所起的作用。
模型的一些例子GenBank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。
限定符/translation="MLLYY"描述了将CDS特征翻译成的氨基酸顺序。
其它的DNA特征(例如mat-肽)有时被GenBank 数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。
相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。
NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。
翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。
和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。
这样,用BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。
一组DNA序列和由它翻译的蛋白质被称为核酸—蛋白质组,它是NCBI为使用这些数据的中间数据。
GenBank数据格式只是人类可读的一种特殊数据形式。
它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为中心的视角)。
Entrez的目标是更直接的反映数据的低层结构。
由BLAST实现的从GenBank到蛋白质序列的翻译实际上是从蛋白质—核酸组得到蛋白质序列。
Part A:LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2.ACCESSION U17993NID g727256KEYWORDS .SEGMENT 1 of 3…LOCUS RNKOR2 658bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3.ACCESSION U17994NID g727257KEYWORDS .SEGMENT 2 of 3…LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and completecds.ACCESSION U17995NID g727258KEYWORDS .SEGMENT 3 of 3Part B:LOCUS RNKOR 6463bp DNA ROD 25-MA-1995DEFINITION Rattus norvegicus kappa opioid receptor gene. ACCESSION ZZ123456NID g2182225KEYWORDS .SOURCE Norway rat.ORGANISM Rattus norvegicusEukauyotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus.REFERENCE 1 (base 1 to 1757)AUTHORS Yakovlev, A.G., Krueger, K.E. and Faden,A.I.TITLE Structure and expression of a rat kappa opioid receptor gene JOURNAL J. Biol. Chem.270, 641-6424(1995)MEDLINE 95204422PUBMED 7896774REFERENCE 2 (bases 1 to 1757)AUTHORS Yakovlev,A.G.TITLE Direct SubmissionJOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown University School of Medicine, Neurology, 3900 Reservoir Rd., Washington, DC 20007, USAFEATURES Location/QualifiersSource 1..1757/organism=”Rattus norvegicus”/strain=”Sprague-Dawley”/sex=”maile”CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048)图6.1 A:从GenBank中一条记录的部分。
GenBank格式仅仅指出了记录是有顺序的序列的一部分;它不提供关于其他部分是什么或它们之间如何联系的。
完整的该记录见/htbin-post/Entrez/query?uid=2182225&form=6&d b=n&Dopt=gB:新的CON中片段代表,新的GenBank格式的延续,容许片段记录之间建立联系,CONTIG行可以包含单个序列,已知长度的间隔,未知长度的间隔。
尽管这种格式中没有特征及序列,但每个组成成分仍以传统格式表达。
GenBank格式也隐藏了一些DNA序列的多序列性。
例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测序的。
这时候在GenBank的数据中会有三条记录,每一个对应一个外显子。
没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA序列隔断)。
在GenBank 格式中,这时会有SEGMENT行指出第一个记录是SEGMENT 1 of 3、第二个记录是SEGMENT 2 of 3、第三个记录是SEGMENT 3 of 3,但这仅告诉使用者这是一些没有确定顺序的片段(图6.1A)。
从整个GenBank角度来看,使用一种被称为LOCUS的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如RNKOR1,RNKOR2,RNKOR3。
显然当LOCUS名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。
况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。
因为在EMBI序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。
NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。
其包含的元素不是A,G,C,T,而是由怎样从其它序列构造的方法组成。
所以以上面的例子为例,片段序列将包含:RNKOR1-200bp间隔-RNKOR2-未知长度的间隔-RNKOR3。
该片段序列和其他记录一样有自己的名称(RNKOR)、序列号、特征、位点和注解。
通常我们将这种形式的存储方式称为包含RNKOR1、RNKOR2、RNKOR3、所有中间联系和特征的序列RNKOR片段集。
当GenBank以核酸-蛋白质组形式发行时,片段集被分成多条记录,片段集就消失了。
然而从Entrez图的视角看片段集,片段集象一条线将它的组分连接在一起。
DDBJ/EMBL/GenBank最近同意了一种方法用于代表构造结构,它将被放在新的CON分割中(图6.1B)。
不同于GenBank格式,NCBI片段序列不要求片段间有间隙,事实上片段可以重叠。
这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是Entrez 基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。
NCBI软件工具包(Ostell,1996:见本章末尾的内部资源)包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。
这为图象视角、GenBank结构视角、FASTA视角或对离散数据进行全染色体分析提供了可能。
这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。
在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。
ASN.1处理方法NCBI数据模型经常被提到或和“NCBI ASN.1”或“ASN.1数据模型”混淆。
Abstract Syntax Notation 1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。
说一个数据模型是用ASN.1写的就象一个计算机程序是用C或FORTRAN写的,指明了语言而不是指程序本身。
从特殊的以DNA为中心的视角来看,熟悉的GenBank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。
从这个简单的形式看,我们创造了一系列的人可读的格式如Entrez,GenBank和BLAST数据库。
没有这些一般意义上的格式的存在,Entrez (见第5章)中相邻或连接关系的存在是不可能的。
这一章是关于NCBI数据的结构和内容以及它作为生物药学数据库和工具的作用。