NCBI中各个符号代表的意思
- 格式:pdf
- 大小:406.98 KB
- 文档页数:16
NCBI简介及序列编号说明一:ncbi简介ncbi的genbank与ddbj(dnadatabankofjapan)、embl的ebi数据库共同组成国际dna数据库,每日都交换更新数据和信息,并主持两个国际年会-国际dna数据库咨询会议和国际dna数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。
genbank存有源自于70,000多种生物的核苷酸序列。
每条纪录都存有编码区(cds)特征的注解,还包括氨基酸的译者。
(就是美国国家生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)创建的dna序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划(benson等,1998)。
entrez是美国国家生物技术信息中心所提供的在线资源检索器。
该资源将genbank序列与其原始文献出处链接在一起。
entrez是由ncbi主持的一个数据库检索系统。
它包括核酸,蛋白以及medline文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个dna序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。
)ddbj主要向研究者搜集dna序列信息并剥夺其数据读取号,信息来源主要就是日本的研究机构,亦拒绝接受其他国家递交国书的序列。
ebi的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端科技成果向工业界的转化;⑸协调欧洲生物数据的提供。
refseq就是ncbi数据库的参照序列。
refseq资料库就是ncbi将genbank的序列再搞详尽整理的non-redundent序列资料库,它的序列格式和genbank几乎完全相同,但因为就是全然相同的单一制资料库,为与genbank区别,refseq的accessionnumber格式和genbank相同。
GenBank 中字符的意思Nucleotide数据库分为三个子数据库:·EST 表:达序列标记数据库·GSS 基:因组测序序列数据库·C oreNucleotide : 包含所有未被以上两个子数据库收录的核苷酸序列●MeSH: 查询缩写基因的全称3、 RefSeq(Reference Sequence)序列接受号:(1) mRNA 记录( NM_* ) :e.g.:NM_000492(2)基因组的DNA 重叠群( NT_* ) :e.g.:NT_000347(3)完整的基因组或染色体(NC_*) :e.g.:NC_000907(4)基因组的局部区域(NG_*) :e.g.:NG_000019(5)从人类基因组注释、加工得到的序列模型(XM, XP, or XR_* ):e.g.:XM_000483● GenBank 记录中特性表中的主要关键词:关键词解释关键词解释misc_feature生物学特性无法用特性promoter转录起始区表关键词描述的序列misc_difference序列特性无法用特性表CAAT_signal真核启动子上游的 CAAT 关键词描述的序列盒 ,与 RNA 结合相关conflict同一序列在不同的研究TATA_signal真核启动子的TATA盒中在位点或区域上有差异unsure序列不能确定的区域-35_signal原核启动子中的 -35 框old_sequence该序列对以前的版本做-10_signal原核启动子的Pribow 盒过修订variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点gene已识别为基因或已命名polyA_signal RNA 转录本的剪切识别的序列区域位点misc_signal无法用信号特性关键词enhancer增强子描述的信号序列关键词解释关键词attenuator与转录终止有关的序列CDSterminator转录终止序列sig_peptide rep_origin双链 DNA 复制起始区transit_peptidemisc_RNA无法用 RNA 关键词描述的mat_peptide转录物或 RNA 产物解释蛋白质编码序列编码信号肽的序列转运蛋白编码序列编码成熟肽的序列prim_transcript初始转录本intron内含子precursor_RNA前体 RNA polyA_site RNA 转录本的多聚腺苷酸化位点mRNA信使 RNA rRNA核糖体 RNA5’ clip前体转录本中被剪切掉的tRNA转运 RNA5’端序列3’ clip前体转录本中被剪切掉的scRNA小细胞质 RNA3’端序列5’ UTR5’非翻译区snRNA小核 RNA3’ UTR3’非翻译区snoRNA加工和修饰rRNA 的小exon外显子核 RNA关键词解释关键词解释immunoglobulin_related repeat_unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序列D_segment免疫球蛋白重链的可变Satellite卫星重复序列区,T 细胞受体β链J_ segment免疫球蛋白重链、轻链以misc_binding无法描述的核酸序列及 T 细胞α、β、γ的结结合位点合链N_ region插入重排免疫球蛋白片段primer_bind复制、转录的引物结间的核苷酸合位点S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区V_ region编码免疫球蛋白的可变区STS测序标签位点N 末端的序列V_ segment编码免疫球蛋白的可变区misc_recomb无法用重组特性关键的序列词描述的重组事件repeat_region基因组中所包含的重复序iDNA通过重组所消除的列DNAmisc_structure无法用结构关键词描述的stem_loop发夹结构核酸序列高级结构或构型D_loop线粒体中 DNA 中的取代环◆GenBank 记录中特性表中的限定词:限定词含义限定词含义/allele=给定基因的等位基/codon_start=相对于序列第一个碱因基,编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA 样本的来源国/cell_type=获得序列的细胞类/db_xref=其他数据库信息的交型叉索引号/citation=已被引用的参考文/direction=DNA 复制方向献数/clone_lib=获得序列的克隆文/environmental_sample=序列直接从环境材料库中获得而没有指明来源物种限定词含义限定词含义/exception=指明 DNA 序列未按通常的/PCR_conditi-ons=描述 PCR的反应条件生物学规律翻译,如RNA编辑/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名称/germline如果序列是 DNA 并来源于/product=序列编码产物的名称免疫球蛋白家族,则表示该序列来源于未重排DNA/insertion_seq=序列来源于某种插入元件/anticodon=tRNA 反义密码子的位置及它所编码的氨基酸/isolate=序列来源的生物个体/cell_line=获得序列的细胞系/lab_host=为扩增序列来源物种所用/chromosome=获得序列的染色体的实验室宿主/macronuclear指明 DNA 来源于染色体分/clone=获得序列的克隆子化的大核期/note=评论及附加信息/codon=指出与参考密码子不同的密码子/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号/sub_strain=获得序列的来源微生物亚/transl_table=描述在翻译中与通用密种码表不同的密码表/tissue_type=获得序列组织类型/usedin=表明该特性在其他检索中也被使用/translation=按通用或指定的密码子表/virion病毒颗粒翻译的氨基酸序列限定词含义限定词含义/cons_splice=区分内含子剪切位点和/map=相关特性在基因图谱上的“ 5-GT‘.AG-3' ”剪切位点位置/cultivar=所获序列植物的栽培变种/mod_base=被修饰碱基的简写/dev_stage=序列来源于某种生物的特/number=从 5’→ 3’注明遗传元件的定发育阶段顺序/evidence=序列特性来源于实验还是/organism=提供测序用遗传物质的物推理种的科学名称/focus指出在记录中的来源特性/phenotype=序列特性所导致的表型在其他物种中还有不同的来源特性/function=序列所代表的功能/plasmid=获得序列的质粒名称/haplotype=序列来源于某种物种的单/protein_id=蛋白质的检索号倍体/isolation_sou-rce=描述序列来源物种的生/proviral整合在基因组中的前病毒理、环境和地理信息/label=序列特性的俗名/rearranged如果序列是 DNA 并来源于免疫球蛋白家族,则表示该序列来源于重排 DNA限定词含义限定词含义/rpt_family=重复序列/transposon=转座子/rpt_unit=指明重复区域的重复元件/variety=获得序列的生物变构成种/serotype=同一物种的不同血清学特/pseudo假基因征/sex=获得序列的物种性别/replace=表明特性间的间隔序列已被替换/specimen_vou-cher=指明来源物种保存于什么/rpt_type=重复序列的组织方地方式/strain=获得序列的菌珠/sequenced_m-ol=获得序列的分子类型/sub_species=获得序列的来源物种的亚/serovar=同一原核生物的血种清学特征/tissue_lib=获得序列组织库/specific_host=获得序列的天然宿主/transgenic指明物种的来源特性是否/standard-name=特性的通用名称是转基因受体/transl_except=标明序列中未按指定密码/sub_clone=获得序列的亚克隆子表翻译的氨基酸的位置◆BLAST1.blastn (nucleotide blast) 是核酸序列到核酸库中的一种查询。
GeneBank序列注释说明GeneBank格式的序列中,有一些注释很难弄明白它的意思,通过搜索,终于找到了其原始的解释说明。
现以NM_005715为一个简单的例子(##后面为说明)。
LOCUS NM_005715 4396 bp mRNA linear PRI 27-JUN-2012 ##说明accession num、序列长度和最后更新日期DEFINITION Homo sapiens uronyl-2-sulfotransferase (UST), mRNA. ##序列所在基因功能描述ACCESSION NM_005715 ##accession numVERSION NM_005715.2 GI:194578911##accession版本号和所在基因GI号KEYWORDS .SOURCE Homo sapiens (human) ##序列来源,即序列所在物种ORGANISM Homo sapiens ##序列物种生物学分类Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;Catarrhini; Hominidae; Homo.REFERENCE 1 (bases 1 to 4396) ##参考文献序号AUTHORS Uher,R., Perroud,N., Ng,M.Y., Hauser,J., Henigsberg,N., Maier,W., ##参考文献作者Mors,O., Placentino,A., Rietschel,M., Souery,D., Zagar,T.,Czerski,P.M., Jerman,B., Larsen,E.R., Schulze,T.G., Zobel,A.,Cohen-Woods,S., Pirlo,K., Butler,A.W., Muglia,P., Barnes,M.R.,Lathrop,M., Farmer,A., Breen,G., Aitchison,K.J., Craig,I.,Lewis,C.M. and McGuffin,P.TITLE Genome-wide pharmacogenetics of antidepressant response in the ##参考文献标题GENDEP projectJOURNAL Am J Psychiatry 167 (5), 555-564 (2010) ##参考文献发表的杂志PUBMED 20360315 ##在pubmed数据库中序号REMARK GeneRIF: Clinical trial and genome-wide association study ofgene-disease association, gene-environment interaction, andpharmacogenomic / toxicogenomic. (HuGE Navigator)REFERENCE 2 (bases 1 to 4396)AUTHORS Trynka,G., Zhernakova,A., Romanos,J., Franke,L., Hunt,K.A.,Turner,G., Bruinenberg,M., Heap,G.A., Platteel,M., Ryan,A.W., deKovel,C., Holmes,G.K., Howdle,P.D., Walters,J.R., Sanders,D.S.,Mulder,C.J., Mearin,M.L., Verbeek,W.H., Trimble,V., Stevens,F.M.,Kelleher,D., Barisani,D., Bardella,M.T., McManus,R., van Heel,D.A.and Wijmenga,C.TITLE Coeliac disease-associated risk variants in TNFAIP3 and RELimplicate altered NF-kappaB signallingJOURNAL Gut 58 (8), 1078-1083 (2009)PUBMED 19240061REMARK GeneRIF: Observational study of gene-disease association. (HuGENavigator)REFERENCE 3 (bases 1 to 4396)AUTHORS Xu,D., Song,D., Pedersen,L.C. and Liu,J.chondroitin sulfate 2-O-sulfotransferaseJOURNAL J. Biol. Chem. 282 (11), 8356-8367 (2007)PUBMED 17227754REMARK GeneRIF: analysis of differences and similarities various residuesplay in the biological roles of the HS-2OST and CS-2OST enzymesREFERENCE 4 (bases 1 to 4396)AUTHORS Ohtake,S., Kimata,K. and Habuchi,O.TITLE Recognition of sulfation pattern of chondroitin sulfate by uronosyl2-O-sulfotransferaseJOURNAL J. Biol. Chem. 280 (47), 39115-39123 (2005)PUBMED 16192264REMARK GeneRIF: 2OST transfers sulfate preferentially to the GlcA residuelocated in a unique sequence, -GalNAc(4SO(4))-GlcA-GalNAc(6SO(4))-.REFERENCE 5 (bases 1 to 4396)AUTHORS Mungall,A.J., Palmer,S.A., Sims,S.K., Edwards,C.A., Ashurst,J.L.,Wilming,L., Jones,M.C., Horton,R., Hunt,S.E., Scott,C.E.,…………TITLE The DNA sequence and analysis of human chromosome 6JOURNAL Nature 425 (6960), 805-811 (2003)PUBMED 14574404REFERENCE 6 (bases 1 to 4396)AUTHORS Kobayashi,M., Sugumaran,G., Liu,J., Shworak,N.W., Silbert,J.E. andRosenberg,R.D.TITLE Molecular cloning and characterization of a human uronyl2-sulfotransferase that sulfates iduronyl and glucuronyl residuesin dermatan/chondroitin sulfateJOURNAL J. Biol. Chem. 274 (15), 10474-10480 (1999)PUBMED 10187838COMMENT V ALIDA TED REFSEQ: This record has undergone validation orpreliminary review. The reference sequence was derived fromAI570697.1, DB496757.1, BC093668.1, AB020316.1 and CA842761.1.On Jul 29, 2008 this sequence version replaced gi:5032218.Summary: Uronyl 2-sulfotransferase transfers sulfate to the2-position of uronyl residues, such as iduronyl residues indermatan sulfate and glucuronyl residues in chondroitin sulfate(Kobayashi et al., 1999 [PubMed 10187838]).[supplied by OMIM, Mar2008].##RefSeq-Attributes-START##Transcript_exon_combination_evidence :: AB020316.1, AK292922.1[ECO:0000332]##RefSeq-Attributes-END##PRIMARY REFSEQ_SPAN PRIMARY_IDENTIFIER PRIMARY_SPAN COMP41-248 DB496757.1 18-225249-1537 BC093668.1 1-12891538-4015 AB020316.1 1345-38224016-4396 CA842761.1 1-381 cFEA TURES Location/Qualifierssource 1..4396 ##序列范围/organism="Homo sapiens" ##物种/mol_type="mRNA" ##序列类型/db_xref="taxon:9606" ##物种编号/chromosome="6" ##所在染色体/map="6q25.1" ##所在染色体区域gene 1..4396 ##包括在基因中的序列范围/gene="UST" ##基因名称/gene_synonym="2OST" ##基因名称别名/note="uronyl-2-sulfotransferase" ##基因名称说明/db_xref="GeneID:10090" ##在GeneBank中的ID号/db_xref="HGNC:17223" ##在HGNC数据库中的ID号/db_xref="HPRD:10298" ##在HPRD数据库中的ID号/db_xref="MIM:610752" ##在MIM数据库中的ID号##有关种物种的数据库代号说明我会另外说明exon 1..543 ##一个外显子在序列中的区域/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign" ##外显子得到的比对所用工具/number=1STS 249..1540 ##STS(sequence target site),在基因组中唯一存在的序列,用来作序列标记/gene="UST"/gene_synonym="2OST"/db_xref="UniSTS:485655" ##在UniSTS数据库中ID号misc_feature 249..251 ##生物学上有特殊意义,但区别于其它标记的区域/gene="UST"/gene_synonym="2OST"/note="upstream in-frame stop codon"##序列说明CDS 297..1517 ##编码区/gene="UST"/gene_synonym="2OST"/note="dermatan/chondroitin sulfate 2-sulfotransferase" ##编码产物说明/codon_start=1/product="uronyl 2-sulfotransferase" ##编码产物/protein_id="NP_005706.1" ##蛋白ID/db_xref="GI:5032219"/db_xref="CCDS:CCDS5213.1" ##CCDS数据库ID/db_xref="GeneID:10090"/db_xref="HGNC:17223"/db_xref="MIM:610752"/translation="MKKKQQHPGGGADPWPHGAPMGGAPPGLGSWKRRVPLLPFLRFSLRDYGFCMA TLLVFCLGSLLYQLSGGPPRFLLDLRQYLGNSTYLDDHGPPPSKVLPFPSQVVYNRVGKCGSRTVVLLLRILSEKHGFNLVTSDIHNKTRLTKNEQMELIKNISTAEQPYLFTRHVHFLNFSRFGGDQPVYINIIRDPVNRFLSNYFFRRFGDWRGEQNHMIRTPSMRQEERYLDINECILENYPECSNPRLFYIIPYFCGQHPRCREPGEW ALERAKLNVNENFLLVGILEELEDVLLLLERFLPHYFKGVLSIYKDPEHRKLGNMTVTVKKTVPSPEA VQILYQRMRYEYEFYHYVKEQFHLLKRKFGLKSHVSKPPLRPHFFIPTPLETEEPIDDEEQDDEKWLEDIYKR" ##翻译的氨基酸序列misc_feature 444..506/gene="UST"/gene_synonym="2OST"/inference="non-experimental evidence, no additionaldetails recorded"/note="propagated from UniProtKB/Swiss-Prot (Q9Y2C2.1);transmembrane region"exon 544..587/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign"/number=2exon 588..743/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign"/number=3exon 744..823/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign"/number=4exon 824..977/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign"/number=5exon 978..1075/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign"/number=6exon 1076..1233/gene="UST"/gene_synonym="2OST"/number=7exon 1234..4391/gene="UST"/gene_synonym="2OST"/inference="alignment:Splign"/number=8STS 4236..4336/gene="UST"/gene_synonym="2OST"/standard_name="D6S1148E"/db_xref="UniSTS:83075"ORIGIN1 ggcgcggcgg ggcgcggggc gtggggacgc tagcgggcgc cggacgggcg cggcgccccg61 tcacgggcag cgccccgaac cggggccgga cacctcggcc gctcgggccg cggcggcggg………….还有很多在此例子中没有出现,现按字母顺序做一个汇总,方便大家查阅。
GenBank 中字符的意思Nucleotide 数据库分为三个子数据库:·EST :表达序列标记数据库·GSS :基因组测序序列数据库·CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列●MeSH: 查询缩写基因的全称3、RefSeq(Reference Sequence)序列接受号:(1)mRNA 记录(NM_*):e.g.:NM_000492(2)基因组的DNA重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域(NG_*):e.g.:NG_000019页脚内容1(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*):e.g.:XM_000483●GenBank记录中特性表中的主要关键词:关键词解释关键词解释misc_feature生物学特性无法用特性表关键词描述的序列promoter转录起始区misc_difference序列特性无法用特性表关键词描述的序列CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关conflict同一序列在不同的研究中在位点或区域上有差异TATA_signal真核启动子的TATA盒unsure序列不能确定的区域-35_signal原核启动子中的-35框old_sequence该序列对以前的版本-10_signal原核启动子的Pribow页脚内容2做过修订盒variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点gene已识别为基因或已命名的序列区域polyA_signal RNA转录本的剪切识别位点misc_signal无法用信号特性关键词描述的信号序列enhancer增强子关键词解释关键词解释attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列rep_origin双链DNA复制起始区transit_peptide转运蛋白编码序列misc_RNA无法用RNA关键词描述的转录物或RNA产物mat_peptide编码成熟肽的序列页脚内容3prim_transcript初始转录本intron内含子precursor_RNA前体RNA polyA_site RNA转录本的多聚腺苷酸化位点mRNA信使RNA rRNA核糖体RNA5’clip前体转录本中被剪切掉的5’端序列tRNA转运RNA3’ clip前体转录本中被剪切掉的3’端序列scRNA小细胞质RNA5’UTR5’非翻译区snRNA小核RNA3’UTR exon 3’非翻译区外显子snoRNA加工和修饰rRNA的小核RNA关键词解释关键词解释immunoglobulin_related repeat_unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序列页脚内容4D_segment免疫球蛋白重链的可变区,T细胞受体β链Satellite卫星重复序列J_ segment免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链misc_binding无法描述的核酸序列结合位点N_ region插入重排免疫球蛋白片段间的核苷酸primer_bind复制、转录的引物结合位点S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区V_ region编码免疫球蛋白的可变区N末端的序列STS测序标签位点V_ segment编码免疫球蛋白的可变区的序列misc_recomb无法用重组特性关键词描述的重组事件repeat_region基因组中所包含的重复序列iDNA通过重组所消除的DNAmisc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D_loop线粒体中DNA中的取代页脚内容5环◆GenBank记录中特性表中的限定词:限定词含义限定词含义/allele=给定基因的等位基因/codon_start=相对于序列第一个碱基,编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA样本的来源国/cell_type=获得序列的细胞类型/db_xref=其他数据库信息的交叉索引号/citation=已被引用的参考文献数/direction=DNA复制方向/clone_lib=获得序列的克隆文库/environmental_sample=序列直接从环境材料中获得而没有指明来源物种限定词含义限定词含义/exception=指明DNA序列未按通常的生物/PCR_conditi-ons=描述PCR的反应条件学规律翻译,如RNA编辑页脚内容6/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名称/germline如果序列是DNA并来源于免疫/product=序列编码产物的名称球蛋白家族,则表示该序列来源于未重排DNA/insertion_seq=序列来源于某种插入元件/anticodon=tRNA反义密码子的位置及它所编码的氨基酸/isolate=序列来源的生物个体/cell_line=获得序列的细胞系/chromosome=获得序列的染色体/lab_host=为扩增序列来源物种所用的实验室宿主/clone=获得序列的克隆子/macronuclear指明DNA来源于染色体分化的大核期/note=评论及附加信息/codon=指出与参考密码子不同的密码子/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号/sub_strain=获得序列的来源微生物亚种/transl_table=描述在翻译中与通用密码页脚内容7表不同的密码表/tissue_type=获得序列组织类型/usedin=表明该特性在其他检索中也被使用/translation=按通用或指定的密码子表翻译的氨基酸序列/virion病毒颗粒限定词含义限定词含义/cons_splice=区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点/map=相关特性在基因图谱上的位置/cultivar=所获序列植物的栽培变种/mod_base=被修饰碱基的简写/dev_stage=序列来源于某种生物的特定发育阶段/number=从5’→3’注明遗传元件的顺序/evidence=序列特性来源于实验还是推理/organism=提供测序用遗传物质的物种的科学名称/focus指出在记录中的来源特性在/phenotype=序列特性所导致的表型页脚内容8其他物种中还有不同的来源特性/function=序列所代表的功能/plasmid=获得序列的质粒名称/protein_id=蛋白质的检索号/haplotype=序列来源于某种物种的单倍体/isolation_sou-rce=描述序列来源物种的生理、环/proviral整合在基因组中的前病毒境和地理信息/label=序列特性的俗名/rearranged如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA限定词含义限定词含义/rpt_family=重复序列/transposon=转座子/variety=获得序列的生物变种/rpt_unit=指明重复区域的重复元件构成/serotype=同一物种的不同血清学特征/pseudo假基因页脚内容9/sex=获得序列的物种性别/replace=表明特性间的间隔序列已被替换/rpt_type=重复序列的组织方式/specimen_vou-cher=指明来源物种保存于什么地方/strain=获得序列的菌珠/sequenced_m-ol=获得序列的分子类型/sub_species=获得序列的来源物种的亚种/serovar=同一原核生物的血清学特征/tissue_lib=获得序列组织库/specific_host=获得序列的天然宿主/standard-name=特性的通用名称/transgenic指明物种的来源特性是否是转基因受体/sub_clone=获得序列的亚克隆/transl_except=标明序列中未按指定密码子表翻译的氨基酸的位置◆BLAST1.blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。
NCBI格式的鼎力路测log中字段的意思在进行路测的过程中,我们常常会遇到NCBI格式的鼎力路测log,其中包含了各种字段的信息。
针对这些字段,我们有必要了解它们的具体含义,以便更好地分析和利用这些数据。
下面我们将对NCBI格式的鼎力路测log中的字段意思进行解析。
1. 时间字段(Time)在NCBI格式的鼎力路测log中,时间字段记录了数据采集的时间点。
这一字段通常以年-月-日时:分:秒的格式表示,例如“2022-01-01 12:00:00”。
通过时间字段,我们可以了解数据采集的时间范围,从而进行时序分析。
2. 经度和纬度字段(Longitude, Latitude)经度和纬度字段记录了数据采集点的地理位置信息。
这些字段通常以浮点数的形式表示,例如“经度: 120.12345, 纬度: 30.67890”。
通过经纬度字段,我们可以将路测数据地理位置化,从而进行空间分析和地图可视化。
3. 测量数值字段(Measurement)测量数值字段记录了路测数据的具体数值。
这些字段的含义和表示形式会根据具体的路测项目和测量指标而有所不同,例如信号强度、传输速率、延迟等。
通过测量数值字段,我们可以了解不同地点和时间点的路测数据表现,从而进行数据分析和性能评估。
4. 路测场景字段(Scene)路测场景字段记录了数据采集时的路测场景信息。
这些信息可以包括室内、室外、城市、郊区等不同的路测环境。
通过路测场景字段,我们可以对不同场景下的路测数据进行对比和分析,从而进行场景优化和适配性评估。
5. 信号类型字段(Signal Type)信号类型字段记录了路测数据所对应的信号类型信息。
这些信息可以包括2G、3G、4G、5G等不同的通信网络类型,以及不同的频段和技术标准。
通过信号类型字段,我们可以对不同的信号类型进行特性分析和性能评估,从而进行网络规划和优化。
6. 设备信息字段(Device Info)设备信息字段记录了数据采集时所使用的设备信息。
NCBI简介简介⼤型数据库分成若⼲⼦库,有许多好处。
⾸先,可以把数据库查询限定在某⼀特定部分,以便加快查询速度。
其次,基因组计划快速测序得到的⼤量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放⽮”。
GenBank将这些数据按⾼通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed SequenceTags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。
尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。
可通过Entrez数据库查询系统对GenBank进⾏查询。
这个系统将核酸、蛋⽩质序列和基因图谱、蛋⽩质结构数据库整合在⼀起。
此外,通过该系统的⽂献摘要数据库MEDLINE,可获取有关序列的进⼀步信息。
在万维⽹上,进⼊NCBI的主页,可以⽤BLAST程序对GenBank数据库进⾏未知序列的同源性搜索(详见第六章)。
完整的GenBank数据库包括序列⽂件,索引⽂件以及其它有关⽂件。
索引⽂件是根据数据库中作者、参考⽂献等⼦段建⽴的,⽤于数据库查询。
GenPept是由GenBank中的核酸序列翻译⽽得到的蛋⽩质序列数据库,其数据格式为FastA。
GenBank 曾以CD-ROM光盘的形式分发,价格⽐较便宜。
随着数据库容量的增长,⼀套最新版的GenBank需要12张光盘存放,不仅⽣产成本很⾼,也不便于使⽤。
现在,光盘分发的⽅式已经停⽌,可以通过⽹络下载GenBank数据库。
GenBank中最常⽤的是序列⽂件。
序列⽂件的基本单位是序列条⽬,包括核⽢酸碱基排列顺序和注释两部分。
⽬前,许多⽣物信息资源中⼼通过计算机⽹络提供该数据库⽂件。
下⾯,我们介绍序列⽂件的结构。
序列⽂件由单个的序列条⽬组成。
序列条⽬由字段组成,每个字段由关键字起始,后⾯为该字段的具体说明。
一步一步教你使用NCBI 查找DNA、mRNA、cDNA、Protein、promoter、引物设计、BLAST序列比对等作者:urbest2007-8-1苏州大学生命科学学院最近看到很多战友在论坛上询问如何查询基因序列、如何进行引物设计、如何使用BLAST进行序列比对……,这些问题在NCBI上都可以方便的找到答案。
现在我就结合我自己使用NCBI的一些经历(经验)跟大家交流一下BCBI的使用。
希望大家都能发表自己的使用心得,让我们共同进步!我分以下几个部分说一下NCBI的使用:Part one 如何查找基因序列、mRNA、PromoterPart two 如何查找连续的mRNA、cDNA、蛋白序列Part three 运用STS查找已经公布的引物序列Part four 如何运用BLAST进行序列比对、检验引物特异性特别感谢本版版主,将这个帖子置顶!从发帖到现在,很多战友对该帖给与了积极的关注,在此向给我投票的(以及想给我投票却暂时不能投票的)各位战友表示真诚的感谢,谢谢各位战友!请大家对以下我发表的内容提出自己的意见。
关于NCBI其他方面的使用也请水平较高的战友给予补充First of all,还是让我们从查找基因序列开始。
第一部分 利用Map viewer查找基因序列、mRNA序列、启动子(Promoter)下面以人的IL6(白细胞介素6)为例讲述一下具体的操作步骤1.打开Map viewer页面,网址为:/mapview/index.html 在search的下拉菜单里选择物种,for后面填写你的目的基因。
操作完毕如图所示:2.点击“GO”出现如下页面:3.在步骤二图示的右下角有一个Quick Filter,下面是让你选择的几个复选框,在Gene 前面的小方框里打勾,然后点击Filter. 出现下图:说明一下:1、染色体的红色区域即为你的目的基因所处位置。
2、下面参考序列给出了三个,是不同的部门做出来的,经我验证,序列有微小的差异,但总体来说基本相同。
ncbi蛋白序列号-回复NCBI蛋白序列号: 介绍与应用探索引言:在当今信息化时代,生物学领域的研究越来越依赖于大量的基因和蛋白序列数据。
为了更好地管理和共享这些数据,许多数据库应运而生。
其中,国家生物技术信息中心(National Center for Biotechnology Information,简称NCBI)扮演着重要角色。
NCBI是美国国家科学基金会(NSF)下的一个组成部分,提供许多生物信息学数据库和工具,其中蛋白序列号是其中之一。
第一部分: 什么是NCBI蛋白序列号?NCBI蛋白序列号是一种用于唯一标识蛋白序列的编号系统。
它由NCBI根据一系列标准和算法来生成,并广泛应用于生物学研究中。
NCBI 蛋白序列号的标识形式为"gi 数字字母"格式,其中的数字部分是一个唯一的整数,用于表示该蛋白序列在NCBI数据库中的唯一标识符。
第二部分: NCBI蛋白序列号的生成过程生成NCBI蛋白序列号的过程可以分为以下几个步骤:1. 数据收集: 首先,NCBI从全球各种来源收集蛋白质序列数据。
这些数据可能来自科学文献、基因组项目或其他数据库。
2. 序列比对: 在数据收集之后,NCBI对蛋白质序列进行比对,以确定相似性和同源性。
这一步骤通常使用BLAST等序列比对工具进行。
3. 序列注释: 接下来,NCBI对蛋白质序列进行注释,将其与相关信息(如功能、结构等)进行关联。
这一步骤通常使用标准的生物信息学注释方法。
4. 序列编号: 最后,根据一系列规则和算法,NCBI为每个蛋白序列生成一个唯一的标识号。
这个标识号就是NCBI蛋白序列号。
第三部分: NCBI蛋白序列号的应用NCBI蛋白序列号在生物学研究中有着广泛的应用。
以下是一些常见的应用场景:1. 序列查询: 研究人员可以使用NCBI蛋白序列号在NCBI数据库中快速找到特定的蛋白序列。
这对于查找特定蛋白的功能、研究其结构和比较序列变异等都非常有帮助。
如何看懂NCBIBLAST输出结果NCBI BLAST(Basic Local Alignment Search Tool)是一种用于比较生物序列之间的相似性的工具。
BLAST将一个查询序列与一个目标数据库中的序列进行比对,并输出比对结果。
下面将介绍如何看懂NCBI BLAST输出结果。
BLAST报告的不同部分提供了关于比对结果的详细信息。
以下是BLAST输出结果中的重要部分:1.查询信息:在输出结果的第一部分,会显示关于查询序列的信息,如查询序列的名称、长度以及描述。
这些信息可以帮助确认你是否正确提交了查询序列。
2.数据库信息:在查询信息的下方,输出结果会提供关于目标数据库的信息,包括数据库的名称、大小以及参与比对的序列数目。
这些信息可以帮助你了解比对参考的范围和样本数目。
3.参数信息:BLAST在进行比对时使用了一系列的参数,这些参数可以影响比对的灵敏度和特异性。
输出结果会显示用于比对的参数信息,包括比对算法、匹配得分、不匹配得分、开始扣分以及扩展扣分等。
这些参数提供了对比对结果的解释依据。
4.结果摘要:在参数信息的下方,会显示一个结果摘要表,提供了与查询序列最相似的多个数据库序列的信息。
这些信息包括数据库序列的名称、长度、比对得分以及比对的e值。
e值是一个表示比对结果的统计显著性的指标,越小表示比对结果越显著。
这些信息可以帮助你快速了解最相关的序列。
5.序列比对信息:在结果摘要之后,会显示每个比对的详细信息。
比对信息包括目标序列的名称和描述、比对长度、匹配得分、比对得分、e值以及比对图形。
比对图形以垂直线表示查询和目标序列之间的匹配,帮助你在比对中可视化相似区域。
6.比对统计信息:在序列比对信息之后,会显示比对的统计信息。
这些统计信息包括查询序列的覆盖率、比对序列的覆盖率以及总体比对得分。
这些信息对比对结果的解释和评估非常重要。
7.结果解释:在比对统计信息之后,会提供进一步解释和分析比对结果的信息。
ncbi中查找基因序列的方法和三个号码一.例子:查找酿酒酵母(Saccharomyces cerevisiae)里的海藻糖合成酶基因(tps1)即可出现很多条目,找到Saccharomyces cerevisiae的就是NC_001134了,点击后就进入该基因所在染色体的界面了,再在“编辑”中“查找”tps1就可以看该基因所在的位置,再点击CDS或者GeneID:852423都可以出现相关链接!当然,如果你在文献查到目的蛋白的序列号如NP_009684.1或者GeneID:852423,那分别在Search后选择Protein或者Gene也可以出现相关链接!二.基因CDS区界面的3个号码/entrez/viewer.fcgi?val=50593115&from=488899&to=490386& view=gbwithparts找到后,我发现该界面有3个标记,一个是NC_001134 ,其次是gi:50593115,最后是FEATURES中的gene中的/db_xref= “GeneID:852423”,他们分别是什么号码,用在什么地方呢?尝试中,终于发现,在Search“Nucleotide”或者“Core Nucleotide”时,for后面是NC_001134,最终go 到该基因所在染色体全长序列的信息,所以NC_001134应该是该染色体的登录号吧?在Search“Nucleotide”或者“Core Nucleotide”时,for后面是50593115,最终go到该基因所在染色体全长序列的信息,所以50593115应该是该染色体的号吧?在Search“Gene”时,for后面是852423,最终go到该基因的信息,所以852423应该是该基因的登录号吧?所以我们如果要记住目的基因在ncbi中的位置就记住这个GeneID!其他像NP_009684当然是基因编码的蛋白质的登录号啦,不说了。
1 Feature RenderingThis section covers features that use generic feature rendering settings. The features (SNPs, structural variants, clone placements, and segmental duplications) that require special handling are covered in the later sections. 1.1 Feature Color CodeFeature typeColor Visual ExamplesGene GreenRNA BlueCoding region RedAll other featuresBlack1.2 Special Rendering StylesFor features with special attributes, special rendering will be applied.1.2.1 Genes marked as pseudo Settings Visual Effect Visual ExamplesAll features areshown in one genegroup Stripes over green gene barGene bar is hidden Green stripe background Gene bar and genelabel are hiddenGreen stripe background1.2.2 Features with exception text Exception ExampleVisual Effect Visual ExamplesMismatch in transcription Shaded background Mismatch fortranslation Shaded backgroundUnclassifiedtranscription discrepancyShaded background1.2.3 Feature location marked as partial Example Visual Effect Visual ExamplesPartial startBlack “<<” or “>>”at 5’ endPartial stopBlack “<<” or “>>”at 3’ endPartial start and stopBlack “<<” and “>>” at both ends1.2.4 Features marked as partial Example Cases Visual EffectVisual ExamplesExample includes a partial feature (marked as white “<<” and “>>”) and features with partial stop (marked as black “>>”)White “<<” and “>>” at both ends1.3 Feature DecorationsDifferent feature decoration styles are solely for offering different ways of visualization. The exact same feature can be rendered using each of the five existing styles.Décor Styles Visual EffectVisual ExamplesDefaultSolid bars for feature intervals or exons, and solid lines for intronsArrowsArrows at both ends showing the strand, and lighten bars for intronsSquare anchorSquare for feature start, arrow for feature stop, dash lines for intronsCircle anchorCircle for feature start, arrow for feature stop, dash lines for intronsFancyCircle for mRNA start only, square for other features start except for gene and CDS, arrow for feature stop, lighten bars for mRNA introns, and canted lines for CDSintronsNote: the glyphs representing feature start and stop will be rendered only when their sizes can fit into the first and last intervals.2Gene Model FeaturesA Gene Model is a feature group that contains four main features: gene, mRNA, CDS andExon. The group may also contain SNP and other features that are projected from mRNA and CDS products.2.1 Gene Model RenderingRendering Options Visual ExamplesShow allShow all transcripts and CDSs,no gene barMerge transcript and CDS pairs,no gene barMerge all transcripts and CDSs,no gene barShow on single line with exonstructureGene bar onlyWith SNP features projectedfrom mRNA and CDS productsWith other features projectedfrom mRNA and CDS products2.2 Special Rendering for CDS FeaturesWhen zoomed into the sequence level, both annotated protein sequence and translated protein sequence are shown for CDS features.2.3 Feature RulerFor a selected RNA or CDS feature, a feature ruler will be show with the feature’s localcoordinate.3Clone Placement Features3.1 Clone DisplayDisplay DescriptionUnique, concordant,Real endsMultiple,concordant, RealendsUnique not Set,Concordant, RealendsUnique, discordant,Real endsMultiple, discordant,Real endsUnique not set,discordant, RealendsUnique, Concordant not set, Real endsMultiple, Concordant not set, Real endsUnique not set, Concordant not set, Real endsUnique, Concordant, One virtual endMultiple, Concordant, One virtual endUnique not set, Concordant, One virtual endUnique, Discordant, One virtual endMultiple, Discordant, One virtual endUnique not set, Discordant, One virtual endUnique, Concordant not set, One virtual endMultiple, Concordant not set, One virtual endUnique not set, Concordant not set, One virtual endClone with no end, no strandClone with no end, plus strandClone with no end, no strand, multiple, concordant not setClone with no end, plus strand, discordant, unique not set4SNP Features4.1 Color CodeVariation Type ColorSingle Nucleotide Polymorphism RedDeletion/Insertion Polymorphism Blue Heterozygous Variation, undefined at nucleotide level GoldenShort Tandem Repeat (microsatellite) Polymorphism YellowNamed Variation (insertion/deletion polymorphism ofHunter Greennamed repetitive element)Sequence Scanned for Variation, but none observed BlackMixed Variation (cluster contains submissions from 2 orGreenmore allelic classes)MNP (multiple nucleotide polymorphism with alleles ofGraycommon length > 1)4.1.1 Visual Examples4.2 Shape CodeA SNP can be represented by either a hollow or a solid rectangle. A solid rectanglemeans that this particular SNP has a weight of 1, and a hollow rectangle indicates aweight of 2 or more.SNP Map weight info (the number of times a SNP maps to the genome contig (1-10))1 hits genome once (on the same chromosome),annotated on NT_ contigs2 hits genome twice, annotated on NT_ contigs withwarning3 hits genome 3-9 times, not annotated10 hits 10+ times on genome, not annotated(taken from SNP documentation at /snp ) 4.3 SNP Bins For Clinical AssociationsColor DescriptionLight Green No SNPs in this bin have an allelemarked “Probable Pathogenic” or“Pathogenic”Light Purple At least one SNP in this bin has anallele marked “Probable Pathogenic”;none are “Pathogenic”Purple At least one SNP in this bin has anallele marked “Pathogenic”4.4 SNP Bins for Association ResultsThe color represents the highest p-value in that bin.p-Value Range Color<2 Teal2-3 Sky Blue3-4 Blue4-5 Green5-6 Yellow6-7 Orange >7Red5 Structural Variants5.1 Common RenderingThere are four common scenarios for most variants (either SVs or SSVs) as shown in the table below. However, mixed cases with a defined breakpoint at one end and an undefined breakpoint range at the other end are possible as well. Here, we use CNV (SV) as examples:Breakpoint Type Rendering Visual ExamplesWith breakpoint resolution Fully saturated colorWith defined breakpointrange Transparent color for breakpoint rangesWith undefined breakpoint, but knownouter bound Triangles pointing toward each otherWith undefined breakpoint, but knowninner bound Triangles pointing awayfrom each other5.2 Variant Types Variant TypeColorCommentVisual ExamplesCNV BlackFour common cases, plus CNV with all insertion SSVs, CNV with all Loss SSVs, CNV with mixed SSVsOtherBlack with patternFour common cases5.3 Allele TypesNote: the first variant shown in all screenshots in this section is the parent variant (either CNV SV or Other SV) Allele TypeVariant TypeColorVisual ExamplesGain CNV BlueLoss CNVRedNote: The last one is a Loss variant with allele_lengthComplexCNV/O therLight azureUnknown CNV GreyInsertion CNV Tangerine yellowInversion Other Light violet with patternLoss of HeterozygozityOther Blue with patternEverted Other Deep brown with patternUniparental DisomyOther Cyan with patternTranslocationOther Light indigo with pattern5.4 Rendering Styles for Linked Structural Variants Group5.4.1 Default rendering with both parent and children shown5.4.2 Rendering with supporting variants in a packed formIf there are multiple types in the supporting variants, multiple colors will be usedto reflect the corresponding allele type.Click and select the packed feature bar to show all the supporting variants.5.4.3 Superimpose all supporting variants over the parent variantThe supporting variants are superimposed on top of the parent variant with theshortest variants on the top. The colors reflect the corresponding allele type.Click and select the packed feature bar to show all variants.6Segmental DuplicationsIdentity Attribute Color Example> 99.0 Orange> 98.0 Yellow> 90.0 Grey<= 90.0 Black7Alignments7.1 Alignment in Different Mode7.1.1 With Score Coloration Disabled7.1.2 With Score Coloration Enabled7.2 Alignment Score ColorationThere are four possible aligned-types: match, mismatch, gap (deletion), and insertion.The visual representations for all four different glyphs are illustrated in the table blow,and as well as in the screenshots.Align-type Zoomed-out View Zoomed-in ViewMatch Grey bar Grey backgroundMismatch Red vertical bar Red backgroundGap Red thin horizontal bar Red thin horizontal barInsertion Blue vertical bar Blue hourglass with a bar on both top and bottom proportional to insertion bases7.3 Non-consensus splice site7.4 Unaligned tailsThe numbers above the box show the number of unaligned bases.Unaligned Tail Type Visual ExamplesPolyAOther7.5 Mate Pair Alignment7.6 Multi-alignment7.7 Smeared Alignment7.8 Alignment statisticsThis option displays statistics at a given base position across all related alignments that have coverage at that base. The statistics include individual counts for A, G, T, C and Gap. Several other statistics can be derived with a known reference sequence base, including: matches, mismatches and total alignment count. There are eight different combinations of rendering with these three settings: Content (A/T/G/C/Gaps orMatches/Mismatches/Gaps), Data type (Count or Percentage), and Display (Bar graph or Smear table). Here are several examples.7.8.1 Zoomed-out view of a bar graph with match/mismatch/gap count7.8.2 Zoomed-in view of a smear table with A/G/T/C/Gap count7.8.3 Zoomed-in view of a bar graph with A/G/T/C/Gap count8Sequence TrackThe grey bar represents the sequence track in zoomed-out viewIn zoomed-in view, both original sequence (top) and the complementary sequence (bottom) are shown.9Segment MapDepending on the sequence type, a sequence may have scaffold (contig) map, and/or tiling path (component map).9.1 Segment Color CodeSegment Type Finished Draft WGS Other Gap Color Blue Orange Green Grey Black9.2 Scaffold Map Example9.3 Tiling Path (Component Map) Example10Six-frame translations11Label PlacementThere are four global options regarding label placement: default, side label, top label, and no label. ‘Default’ may mean different settings for different objects. For example, default label placement for alignments is top labeling, but default setting for features is side labeling.11.1 Side Label vs. StrandIn side labeling mode, the label is always placed at object’s 5’ side.11.2 ExamplesLabel PlacementVisual ExamplesDefaultAlignment (top):Component (inside):Features (side):Side LabelTop LabelNo Label。