GenBank数据库检索及其应用
- 格式:doc
- 大小:38.00 KB
- 文档页数:13
GenBank Overview基本信息• 什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。
每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
• 纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
• 访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
• 增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
• 公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
• 公布通知,旧- 同上相同,是过去公布的统计。
• 遗传密码- 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)• 关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
• BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除载体)• Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
GenBank Overview基本信息•什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。
每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
GenBank属于一个序列数据库的国际合作组织,包括EMBL 和DDBJ。
•纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
•访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
•增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
•公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
•公布通知,旧- 同上相同,是过去公布的统计。
•遗传密码- 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)•关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
• BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除载体)• Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
NCBI的检索NCBI包括五个部分,第一部分是欢迎进入NCBI,包括NCBI的最新信息、计划与活动、读者来信、服务地址和用户评论等。
第二部分是基因序列数据库(GenBank),包括基因库概述、检索与投稿。
第三部分是数据库服务,包括免费的PubMed检索、Entrez检索、BLAST序列族性检索、电子邮件服务(详见本章第四节)、匿名FTP服务。
第四部分是NCBI的其它资源。
GenBank的检索在NCBI主页的第二部分点击“Searching GenBank”,即可进入GenBank的检索屏幕。
NCBI•提供了五种检索,即Entrez浏览检索、BLAST序列类似性检索、dbEST检索、dbSTS•检索和文本检索(Text Searching)。
一、Entrez浏览检索1.Entrez检索的数据库及其检索信息Entrez浏览器(Entrez Browser)可以检索以下与NCBI•链接的基因序列数据库的分子生物数据和书目文献资料。
••••(1) GenBank、EMBL、DDBJ中的DNA序列;••••(2) SWISS-PROT、PIR、PRF、PDB中的蛋白质序列以及DNA序列数据库中翻译的蛋白质序列;••••(3) 基因和染色体图像数据;••••(4) PDB以及收入NCBI分子模型数据库(MMDB)的蛋白质三维结构;••••(5) 通过PubMed检索Medline和PreMedline数据库。
••••2.Entrez检索功能••••Entrez提供了以下三种检索功能。
••••(1)自由词检索功能••••用户可以通过文本词、关键词、截词、期刊名或文献的作者检索Entrez数据库。
截词用*号,期刊名必须用Medline刊名缩写,作者姓名必须是姓在前,名在后,用首字母缩写。
••••(2)索引词表(List Terms)检索功能••••索引词表检索是当你键入检索词,Entrez•在你选定的字段中显示从该检索词开始的一个索引词表窗口,这时,你可以选择一个或几个词进行检索,这对单词拼写不准确时非常有用。
genbank名词解释
GenBank名词解释:
GenBank是一个公共数据库,用于存储和共享生物学序列信息,包括DNA序列、RNA序列和蛋白质序列等。
它是全球最大的基因序列数据库之一,由美国国
家生物技术信息中心(National Center for Biotechnology Information,NCBI)维护
和管理。
GenBank的创建目的是为了促进科学研究和生命科学领域的进展。
它为科学家、研究人员和学术机构提供了一个集中存储和查询生物学序列数据的平台。
科研人员可以通过GenBank找到已经发布的序列数据,从而进行相关研究和分析。
GenBank包含了来自各种生物物种的序列数据,包括人类、动物、植物、微生
物等。
这些序列有时是基因组的完整组成部分,有时是特定基因的片段。
科学家将自己的研究成果上传到GenBank,以便与他人分享和交流。
GenBank中的每个序列都有一个唯一的标识号,称为Accession号,用于确保
数据的唯一性和可追溯性。
这些数据还包括序列的描述信息、来源、相关文献等。
科研人员可以使用关键词、序列特征等方式进行搜索和筛选,以找到他们感兴趣的序列数据。
GenBank的数据是公开的,任何人都可以免费访问和使用。
这使得科学家们能
够更好地共享和利用基因序列数据,推动生命科学研究的进展,并为解决许多生物学问题提供了重要的资源。
总之,GenBank是一个重要的生物信息学工具,为全球科学家提供了一个方便
的平台来存储、共享和查询生物学序列数据。
它的建立和运行有助于推动生物学领域的研究和发展。
genbank使用方法-回复使用GenBank的步骤及方法GenBank是一个公共的DNA和RNA序列数据库,由美国国立生物技术信息中心(NCBI)维护和管理。
它为全球科研人员提供了一个共享和访问遗传信息的平台。
在本文中,我们将一步一步介绍如何使用GenBank数据库。
第一步:访问GenBank网站首先,在您的网页浏览器中输入"第二步:注册GenBank账号如果您还没有GenBank账号,您需要先注册一个账号。
点击网页右上方的"Sign In"按钮,然后选择"Register for an NCBI account"。
填写所需信息并创建一个新账号。
第三步:搜索DNA或RNA序列一旦您登录了GenBank账号,您可以使用搜索栏输入想要获得的DNA 或RNA序列的名称、关键词或序列标识符。
点击"Search"按钮开始搜索。
第四步:浏览搜索结果GenBank将根据您的搜索条件提供一系列匹配的结果。
您可以根据文章标题、序列长度、申请人等标准查看和筛选搜索结果。
点击每个搜索结果可以查看更多详细信息,如序列特征、注释和相关文章等。
第五步:下载序列数据一旦您找到了您想要的序列,您可以下载相关的序列数据。
在搜索结果页面上,您可以看到一个"Send to:"栏,里面有多个选项供您选择,包括"File"、"Text"和"Clipboard"。
选择您喜欢的选项,并点击相关按钮下载序列数据。
第六步:分析序列数据下载的序列数据可以用于各种生物信息学分析,如序列比对、蛋白质结构预测和基因功能注释等。
您可以使用各种生物信息学软件来执行这些分析,并根据您的研究目的进行解释和研究。
第七步:提交序列数据如果您有新的DNA或RNA序列数据,并希望将其存储在GenBank数据库中供他人使用,您可以将其提交给GenBank。
GenBank Overview基本信息• 什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。
每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。
GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
• 纪录样本- 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
• 访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
• 增长统计- 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
• 公布通知,最新- 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
• 公布通知,旧- 同上相同,是过去公布的统计。
• 遗传密码- 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
(向)GenBank提交(数据)• 关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
• BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除载体)• Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
GenBank数据库检索及其应用xGenBank数据库检索及其应用――Entrez检索功能重庆医科大学图书馆李轶简介GenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库.GenBank数据库的数据来源有三种:1,直接来源于测序工作者提交的序列;2,与其它数据机构协作交换的数据;3,美国专利局提供的专利数据.NCBI网站网址:GenBank和PubMed(序列数据)检索的比较:1,GenBank的检索结果是序列及其注释信息;PubMed的检索结果是与序列数据相关的文献信息.2,GenBank数据更新早于PubMed,GenBank数据库的检全率高于PubMed.3, GenBank可对序列数据进行限制检索,而PubMed只能对文献,杂志,作者等进行限制检索,因而GenBank数据库的检准率也高于PubMed.检索界面简介基本检索输入框基本检索界面:执行检索按钮基本检索输入框基本检索界面:ras[GENE]点击进入跨库检索跨库检索界面:ras[GENE]执行检索按钮跨库检索界面:点击进入GenBank数据库GenBank数据库界面:GenBank数据库界面:点击进入核苷酸序列数据库检索界面GenBank数据库界面:特征栏提供辅助检索功能核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(五)范围检索(三)序列长度检索(四)分子重量检索简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算检索限定词:1,基因名称的检索限定词:[GENE]2,生物体名称的检索限定词:[ORGN]3,作者姓名的检索限定词:[AUTH]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索特殊标志符的格式(核酸序列) :2,GenBank/EMBL/DDBJ序列接受号:(1)1个字母+5个阿拉伯数字e.g.:U12345(2)2个字母+6个阿拉伯数字e.g.:AY123456,Af1234561,序列辨认号(GI):一串阿拉伯数字e.g.:6995995(1)mRNA 记录(NM_*):e.g.:NM_000492(2)基因组DNA重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域(NG_*):e.g.:NG_000019(5)从人类基因组序列注释,加工得到的序列模型记录(XM,XP,or XR_*):e.g.:XM_000483特殊标志符的格式(核酸序列):3,RefSeq(Reference Sequence)序列接受号:特殊标志符的格式(核酸序列):4 , PDB序列接受号:1个阿拉伯数字+3个字母e.g.:1TUP序列接受号的检索限定词为[ ACCN]or[ACCESSION] AF123456[ACCN]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(三)序列长度检索1510[SLEN]序列长度的检索限定词:[SLEN]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(三)序列长度检索(四)分子重量检索2009[MOLWT]分子重量的检索限定词:[MOLWT]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(五)范围检索(三)序列长度检索(四)分子重量检索范围检索:中间用冒号连接1,序列接受号范围检索:AF114696:AF114714[ACCN]2,序列长度范围检索:3000:4000[SLEN]3,分子重量范围检索:2002:2009[MOLWT]4,日期范围检索:2005/01:2006/09/26[MDAT]or[PDAT]简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)检索史管理(History)剪贴板管理(Clipboard)详细匹配过程(Details)限制检索预检索/索引检索检索史管理剪贴板管理详细匹配过程简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)限制检索界面:限制检索界面:核苷酸序列数据库分为三个子数据库:EST :表达序列标记数据库GSS :基因组测序序列数据库CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:限制检索界面:限制检索界面:检索结果显示界面:限制检索范围限制检索(Limits):限制检索范围ras排除某种类型的序列限制分子类型限制分子类型限制基因位点限制基因位点限制序列片段的显示限制序列片段的显示限制数据来源限制数据来源限制数据修订日期限制数据修订日期简介检索入口基本检索功能特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)预检索/索引检索界面:hepatitis b索引检索输入框索引检索按钮索引检索按钮序列特性关键词索引ras[GENE]序列特性关键词索引简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)检索史管理(History)剪贴板管理(Clipboard)详细匹配过程(Details)penicillin-bindingmycobacterium tuberculosis#8 AND #4penicillin-binding AND mycobacterium tuberculosis[ORGN] 简介检索入口基本检索功能特征栏辅助检索检索结果的显示检索结果显示界面:选择检索结果的显示格式选择检索结果的显示格式选择检索结果的显示格式摘要格式:联接Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:GenBank记录中特性表中的主要关键词:增强子enhancer无法用信号特性关键词描述的信号序列misc_signalRNA转录本的剪切识别位点polyA_signal已识别为基因或已命名的序列区域gene核糖体结合位点RBS修饰过的核苷酸modified_base真核启动子的GC盒GC_signal包含稳定突变的序列variation原核启动子的Pribow盒-10_signal该序列对以前的版本做过修订old_sequence原核启动子中的-35框-35_signal序列不能确定的区域unsure真核启动子的TATA盒TATA_signal同一序列在不同的研究中在位点或区域上有差异conflict真核启动子上游的CAAT盒,与RNA结合相关CAAT_signal序列特性无法用特性表关键词描述的序列misc_difference转录起始区promoter生物学特性无法用特性表关键词描述的序列misc_feature解释关键词解释关键词加工和修饰rRNA的小核RNAsnoRNA3'非翻译区外显子3'UTRexon小核RNAsnRNA5'非翻译区5'UTR解释关键词解释关键词小细胞质RNAscRNA前体转录本中被剪切掉的3'端序列3' clip转运RNAtRNA前体转录本中被剪切掉的5'端序列5'clip核糖体RNArRNA信使RNAmRNARNA转录本的多聚腺苷酸化位点polyA_site前体RNAprecursor_RNA内含子intron初始转录本prim_transcript编码成熟肽的序列mat_peptide无法用RNA关键词描述的转录物或RNA产物misc_RNA转运蛋白编码序列transit_peptide双链DNA复制起始区rep_origin编码信号肽的序列sig_peptide转录终止序列terminator蛋白质编码序列CDS与转录终止有关的序列attenuator通过重组所消除的DNAiDNA基因组中所包含的重复序列repeat_region无法用重组特性关键词描述的重组事件misc_recomb编码免疫球蛋白的可变区的序列V_ segment测序标签位点STS编码免疫球蛋白的可变区N末端的序列V_ region蛋白质结合区protein_bind免疫球蛋白重链的开关区S_ region复制,转录的引物结合位点primer_bind插入重排免疫球蛋白片段间的核苷酸N_ region无法描述的核酸序列结合位点misc_binding免疫球蛋白重链,轻链以及T细胞α,β,γ的结合链J_ segment卫星重复序列Satellite免疫球蛋白重链的可变区,T细胞受体β链D_segment长末端重复序列LTR免疫相关蛋白上的不变区C_region单个的重复元件repeat_unitimmunoglobulin_related解释关键词解释关键词线粒体中DNA中的取代环D_loop发夹结构stem_loop无法用结构关键词描述的核酸序列高级结构或构型misc_structure解释关键词解释关键词GenBank记录中特性表中的限定词:其他数据库信息的交叉索引号/db_xref=获得序列的细胞类型/cell_type=DNA复制方向/direction=已被引用的参考文献数/citation=序列直接从环境材料中获得而没有指明来源物种/environmental_sample=获得序列的克隆文库/clone_lib=DNA样本的来源国/country=嵌合范围/bound_moiety=相对于序列第一个碱基,编码序列密码子的偏移量/codon_start=给定基因的等位基因/allele=含义限定词含义限定词序列产物的酶学编号/EC_number=获得序列的细胞器/organelle=指出与参考密码子不同的密码子/codon=评论及附加信息/note=序列编码产物的名称/product=如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA /germlinetRNA反义密码子的位置及它所编码的氨基酸/anticodon=序列来源于某种插入元件/insertion_seq=获得序列的细胞系/cell_line=序列来源的生物个体/isolate=获得序列的染色体/chromosome=为扩增序列来源物种所用的实验室宿主/lab_host=获得序列的克隆子/clone=指明DNA来源于染色体分化的大核期/macronuclear获得序列的群体变异种名称/pop_variant=在种群中发生变异的频率/frequency=描述PCR的反应条件/PCR_conditi-ons=指明DNA序列未按通常的生物学规律翻译,如RNA编辑/exception=含义限定词含义限定词序列特性所导致的表型/phenotype=指出在记录中的来源特性在其他物种中还有不同的来源特性/focus获得序列的质粒名称/plasmid=序列所代表的功能/function=蛋白质的检索号/protein_id=序列来源于某种物种的单倍体/haplotype=整合在基因组中的前病毒/proviral描述序列来源物种的生理,环境和地理信息/isolation_sou-rce=如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA /rearranged序列特性的俗名/label=从5'→3'注明遗传元件的顺序/number=序列来源于某种生物的特定发育阶段/dev_stage=提供测序用遗传物质的物种的科学名称/organism=序列特性来源于实验还是推理/evidence=被修饰碱基的简写/mod_base=所获序列植物的栽培变种/cultivar=相关特性在基因图谱上的位置/map=区分内含子剪切位点和"5'-GT.AG-3'"剪切位点/cons_splice=含义限定词含义限定词特性的通用名称/standard-name=指明物种的来源特性是否是转基因受体/transgenic获得序列的亚克隆/sub_clone=标明序列中未按指定密码子表翻译的氨基酸的位置/transl_except=重复序列的组织方式/rpt_type=指明来源物种保存于什么地方/specimen_vou-cher=获得序列的分子类型/sequenced_m-ol=获得序列的菌珠/strain=同一原核生物的血清学特征/serovar=获得序列的来源物种的亚种/sub_species=获得序列的天然宿主/specific_host=获得序列组织库/tissue_lib=假基因/pseudo同一物种的不同血清学特征/serotype=表明特性间的间隔序列已被替换/replace=获得序列的物种性别/sex=获得序列的生物变种/variety=指明重复区域的重复元件构成/rpt_unit=转座子/transposon=重复序列/rpt_family=含义限定词含义限定词描述在翻译中与通用密码表不同的密码表/transl_table=表明该特性在其他检索中也被使用/usedin=病毒颗粒/virion获得序列组织类型/tissue_type=按通用或指定的密码子表翻译的氨基酸序列/translation=获得序列的来源微生物亚种/sub_strain=含义限定词含义限定词FASTA格式:图解显示:图解显示:多态性碱基序列修订记录:序列修订记录:序列修订记录:序列修订记录:。