核酸数据库
- 格式:doc
- 大小:768.00 KB
- 文档页数:9
一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的资料查找,数据分析的工具。
那么NCBI 数据如何使用,新手入门一步一步教你认识和使用NCBI数据库。
一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。
创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。
除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。
目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。
1 NCBI最新进展1.1 PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。
其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。
而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。
现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。
核酸数据库使用说明1.高级查询 (1)2.限定词说明 (1)3.显示格式说明 (2)3.1.Summary格式 (2)3.2.FASTA格式 (3)3.3.GenBank格式和GenBank(full)格式 (4)4.数据下载流程 (5)5.数据提交 (5)6.附录 (5)6.1.基因结构和功能的探索 (5)2009年9月18日普通核酸数据库中存储了大量公共核酸序列资源,包括含有编码区的mRNA,含有一个或多个基因的基因组DNA片段以及rRNA基因簇。
数据库中的序列由使用者提交,并且只能由序列的提交者进行修改。
文献的作者对序列和数据库中的说明拥有最终解释权。
1.高级查询在首页上点击“数据资源”按钮,选择“普通核酸数据库”进入蛋白质数据库主页。
在核酸数据库主页的左侧栏点击“高级检索”,进入如下图的高级检索页面:核酸数据库的高级检索可以最多使用三个限定词来进行更精确的检索,三个限定词之间可以用“AND”和“OR”相连接,其中“AND”表示查询的结果中必须包含它所连接的两个关键词,“OR”表示查询的结果中至少包含它所连接的关键词中的一个。
搜索项在左侧的限定词框中可以选择的限定词包括:CAC、Comments、Accession、Definition、Keyword、Organism、Gene、Protein、Author、Title、Journal、Medline/Pubmed ID、Molecule和Sequence Length。
其中Molecule和Sequence Length可以进行范围查询。
2.限定词说明核酸数据库中有关的限定词说明如下:限定词描述CAC国内用户提交的数据编号Comments对该序列的简短注释Accession核酸数据库的序列或记录唯一的接收编号Definition 描述了序列的生物特性,一般包括生物体,产品名称,基因标志,分子类型和是否为完成片段Keyword与其它数据库专用词汇有关的索引名词Organism与蛋白质或核酸序列有关的物种的学名和通用名Gene基因的普通名称和标准名称Protein Name蛋白质的标准名称Author所有参考信息中的作者名Title 描述了序列的生物特性,一般包括生物体,产品名称,基因标志,分子类型和是否为完成片段Journal发表数据的杂志名称Medline/PubmedIDMedline的唯一编号或Pubmed编号Molecule Type包括4中类型:Nucleotide,CoreNucleotide,EST and GSS.Sequence Length序列长度3.显示格式说明核酸数据库的搜索结果显示有Summary、FASTA、GenBank和GenBank(full)四种格式,利用搜索结果页面上的“显示”按钮可以在这四种格式之间相互切换。
NCBI的BLast最好生物核酸的数据库NCBI是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。
所有的NCBI数据库和软件工具可以从WWW或FTP来获得。
NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI的BLast种类介绍? Gapped BLAST (2.0)—一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。
统计有效性的评估是基於使用随机序列的优先模拟。
在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。
? QBLAST —一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。
这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。
到1999年秋季,QBLAST系统用於所有的BLAST搜索。
? PSI-BLAST —位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。
这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。
? PHI-BLAST —模式发现迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
ncbi使用指导摘要:一、NCBI简介1.NCBI的定义和作用2.NCBI的主要数据库二、NCBI数据库使用指导1.基因数据库a.基因序列数据库b.基因表达数据库2.蛋白质数据库a.蛋白质序列数据库b.蛋白质结构数据库3.核酸数据库a.核酸序列数据库b.核酸变异数据库4.文献数据库a.PubMedb.基因组数据库三、NCBI工具使用指导1.BLAST2.Entrez3.RefSeq4.dbSNP四、NCBI的高级功能1.基因变异分析2.基因表达数据分析3.蛋白质结构预测正文:CBI(National Center for Biotechnology Information,美国国家生物技术信息中心)是一个提供生物信息学资源的公共数据库,为全球科研人员提供免费的生物信息学资源。
NCBI的主要数据库包括基因数据库、蛋白质数据库、核酸数据库和文献数据库。
在基因数据库方面,NCBI收录了大量基因序列数据,包括基因组、转录组、单细胞测序等。
此外,还提供了基因表达数据库,可以查询基因在不同组织、不同发育阶段、不同生理条件下的表达水平。
在蛋白质数据库方面,NCBI收录了大量的蛋白质序列和结构信息。
蛋白质序列数据库包括TrEMBL、Swiss-Prot等,结构数据库包括PDB(Protein Data Bank)。
在核酸数据库方面,NCBI收录了大量的核酸序列数据,包括基因组、转录组、突变组等。
此外,还提供了核酸变异数据库,包括SNP(单核苷酸多态性)、CNV(拷贝数变异)等变异信息。
在文献数据库方面,NCBI提供了PubMed,这是一个收录了大量生物医学相关文献的数据库。
此外,还有基因组数据库和dbSNP等特殊文献数据库。
为了方便用户使用这些数据库,NCBI提供了一系列工具。
其中,BLAST (Basic Local Alignment Search Tool)是一种用于序列比对的算法,可以帮助用户找到相似的序列。
一些计算化学相关的免费的在线数据库、分子结构库及工具1 在线信息数据库部分√ SDBS光谱数据库:http://riodb01.ibase.aist.go.jp/sdbs/cgi-bin/direct_frame_top.cgi简介:很好的有机化合物光谱数据库,包含六类光谱:EI-MS、FT-IR、H-NMR、C13-NMR、ESR、Raman。
含3万余个化合物,其中以商业化学试剂为主,约2/3是6碳至16碳的化合物。
数据大部分是其自行测定的,并不断添加。
可以通过化合物、分子式、分子量、CAS/SDBS 注册号、元素组成、光谱峰值位置/强度方式搜索。
生物核磁共振数据库:http://bmrb.protein.osaka-u.ac.jp/depositCRYSTAL程序基组数据库:/~mdt26/crystal.html√ 计算化学比较和基准数据库(CCCBDB):简介:此数据库包括各种量子化学方法、各种基组下对不同分子的各种属性的计算结果,也包含实验数据。
可用来对比不同方法计算结果优劣,此数据库内容在不断增加。
√ 量化频率计算校正因子:/vibscale.asp简介:实际上就是CCCBDB的一个子页面,比较重要故单独列出。
IUPAC金属络合物稳定常数数据库:注:需要付费,可免费下载试用版。
√ NIST化学数据库:/chemistry简介:是美国国家标准与技术研究院NIST的基于Web的物性数据库。
输入分子查找条件,可获得分子量、CAS登记号、各种热力学数据、谱图等信息,部分分子包含3D结构。
RESP ESP charge DDataBase(REDDB):/REDDB/index.php 简介:分子的RESP电荷的数据库Uppsala Electron Density Server:http://eds.bmc.uu.se/eds简介:用于评价蛋白质数据库中晶体结构电子密度。
输入pdb ID(比如1cbs)进入后可以对各种内容做图。
核酸数据库有哪些?核酸序列数据库在生物科学和生物信息学领域中扮演着重要的角色。
无论是基因组注释、生物多样性研究、功能预测和基因表达分析还是药物研发和疾病研究,核酸序列数据库为生物科学和生物信息学研究提供了宝贵的资源,帮助研究人员理解生物的遗传信息、功能和进化关系,推动生物医学研究和药物研发的进展。
但需要注意的是,核酸数据库有很多种类,除了常用的BioXFinder、GenBank、EMBL(European Molecular Biology Laboratory)、DDBJ(DNA Data Bank of Japan)等核酸数据库,研究人员通常会使用多个数据库来获取更全面和准确的数据。
此外,还有其他一些重要的核酸序列数据库,如RefSeq、UniProt等,它们在特定领域或特定类型的序列数据上具有特殊的优势。
为此笔者通过网站数据调研,找出了核酸数据库应用最为广泛的TOP60数据库,并对前面几个应用做了深层次优缺点对比,供大家作为选用依据(不分排名先后)。
1.BioXFinderBioXFinder是国内第一个也是目前唯一国内中英双版的生物数据库,是一款针对生物科研工作者的综合性生物数据检索及分析平台,汇集了核酸、蛋白、蛋白结构、代谢通路和信号通路信息,同时集成了BLAST、生存分析、基因ID转换等生信分析工具。
用户可高效的搜寻到自己想要的信息,并且在无代码的情况下完成生信分析。
2.GenBankGenBank是最早建立的核酸序列数据库之一,拥有丰富的序列数据资源,涵盖了广泛的物种和基因组。
提供了详细的注释信息,包括基因的位置、结构、功能以及相关的文献引用。
支持多种查询和下载方式,方便用户获取所需的数据。
缺点是由于数据量庞大,有时查询和下载速度可能较慢。
注释信息的质量和一致性可能存在一定的变化,因为数据的提交来自不同的实验室和研究机构。
3.EMBLEMBL是一个国际性的核酸序列数据库,与GenBank和DDBJ合作共享数据。
一些计算化学相关的免费的在线数据库、分子结构库及工具1 在线信息数据库部分ChemSpider小分子信息整合数据库:简介:是当前众多的在线分子数据库的信息整合,便于用户搜索,数据来自200种数据库。
根据分子俗名、系统命名、Smile/InChI字符串、注册号、分子式等方式搜索,会列出分子平面结构、实验测定和实时估算的理化性质(含LogP等)、毒性、分子简介、Smile/InChI/InChIKey字符串、在其它分子数据库中的编号和链接、相关文章及专利、同义词、相关蛋白质、NMR/IR光谱图等,某些分子还可以链入web CSD获得三维结构。
√ SDBS光谱数据库:http://riodb01.ibase.aist.go.jp/sdbs/cgi-bin/direct_frame_top.cgi简介:很好的有机化合物光谱数据库,包含六类光谱:EI-MS、FT-IR、H-NMR、C13-NMR、ESR、Raman。
含3万余个化合物,其中以商业化学试剂为主,约2/3的数据是6碳至16碳的化合物。
数据大部分是其自行测定的,并不断添加。
可以通过化合物、分子式、分子量、CAS/SDBS注册号、元素组成、光谱峰值位置/强度方式搜索。
生物核磁共振数据库:http://bmrb.protein.osaka-u.ac.jp/depositCRYSTAL程序基组数据库:/~mdt26/crystal.htmlTURBOMOLE程序基组数据库:/TURBOMOLE_BASISSET_LIBRARY/tbl.html√ 计算化学比较和基准数据库(CCCBDB):简介:此数据库包括各种量子化学方法、各种基组下对不同分子的各种属性的计算结果,也包含实验数据。
可用来对比不同方法计算结果优劣,此数据库内容在不断增加。
√ 量化频率计算校正因子:/vibscale.asp简介:实际上就是CCCBDB的一个子页面,比较重要故单独列出。
IUPAC金属络合物稳定常数数据库:注:需要付费,可免费下载试用版。
生物科学09 0909503127 陈晓敏
一、
1、GenBank 数据库
GenBank是NIH遗传序列数据库(/),它收集了可以公开获得的DNA 序列和注释。
该数据库的容量以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。
目前拥有来自47,000个物种的30亿个碱基。
GenBank核酸序列数据库涵盖了从完整基因组到单个基因等序列数据及部分注释信息,称一次数据库。
此外,还有些更有针对性的基因组资源,或称专用数据库。
这些专用数据库既包括了上述一次数据库的部分数据,也包括从其它数据库资源获得的信息或交叉链接。
这种专门数据库主要分为两大类,一类是模式生物基因组数据库,另一类则与特殊的测序技术有关。
这类数据库尽管也包含序列数据,但它们的特色主要是为某一特定的模式生物提供一个完整的数据资源,如酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thaliana)、幽门螺杆菌(Helicobacter pylori)等。
这些数据库从各个不同层次上搜集整理有关信息,以便对某个模式生物全基因组有一个更加完整的了解。
2、EMBL
(/embl/)是欧洲主要的核苷序列收集单位。
这个数据库是由欧洲生物信息中心EBI(欧洲分子生物学实验室(EMBL)在德国 Heidelberg 的站点)维护的。
核苷数据来自基因组测序中心、个别科学家、欧洲专利局、以及跟合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。
为了达到最佳的同步性,每天在DDBJ/EMBL/GenBank之间都要交换最新的数据。
用户只要进入任意一个数据库都能得到最新数据。
这三个数据库之间坚持统一的文件指导方针,它规范了数据库登录的内容和语法。
这种指导方针确保了这些数据库的信息以一种格式便捷的交换,它与当今的生物信息学软件兼容,反映了分子生物学领域的发展。
EMBL建立于1980年,它保存的数据信息是发表在科学文献上序列信息的两倍。
普通的文章可以通过
互联网提交电子版本。
现在,大量的数据是由主要的测序中心提交的,比如:Sanger测序中心。
在过去的11个月中,EMBL的数据库信息增长了两倍,在2009年4月29号它保存了248,758,013,991条记录。
3、BioSino
中国科学院上海生命科学研究院生物信息中心的网站,它的主要任务是维护我国的核酸序列公共数据库,提供包括各种链接的生物学导航信息。
4、SWISS-PROT
网址:http://www.expasy.ch/sprotSWISS-PROT蛋白序列数据库,由日内瓦大学医学生物化学系(the Department of Medical Biochemistry of the University of Geneva )与EMBL(European Molecular Biology Laboratory,欧洲分子生物学实验室)共同维护,是欧洲最主要的蛋白序列数据库,世界两大蛋白序列数据库之一。
5、PDB
网址:/pdb/home/home.do蛋白质结构数据库(Protein Data Bank,简称PDB)是美国纽约Brookhaven国家实验室于1971年创建的。
为适应结构基因组和生物信息学研究的需要,1998年10月由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformat-ics,简称RCSB)。
PDB数据库改由RCSB管理,目前主要成员为拉特格斯大学(Rutgers University)、圣地亚哥超级计算中心(San Diego Supercomputer Cen-ter,简称SDSC)和国家标准化研究所(National Insti-tutes of Standards andTechnology,简称
NIST)。
和核酸序列数据库一样,可以通过网络直接向PDB数据库提交
数据。
PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。
6、EMBnet
网址:/欧洲分子生物学信息网。
建立于1988年,在荷兰注册。
中国在1996年加入其成员国,EMBnet的中国节点设在北京大学生物信息中心PKUCBI。
7、CBI
北京大学生物信息中心网址: CBI成立于1997年3月,它是EMBnet的中国节点,也是亚太生物信息网APBionet的中国节点。
从PKUCBI可以直接进入EMBnet的主页
和若干个重要的生物信息数据库的镜像数据库。
8、PROSITE
数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列
应该属于哪一个蛋白质家族。
有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列
与profile的相似性。
PROSITE的主页上提供各种相关检索服务。
二、感想
经过这一次的生物信息实验课,本人认为学校的电脑设备严重降低我们的学习效率,浪费了老师和众多学生的宝贵时间,还有浪费电资源。
本人认为,最根本最长远的解决办法更新实验用的计算机,当然,如果这个行不通的话也可以把作业布置好让学生课后自己完成,这样不单节省了学生的时间,也节省了老师的时间和精力,节省资源。
本人知道,这些事情老师都很尽心尽力想为学生着想,但是这些也由
不得老师的决定,所以无论如何,还是谢谢老师,老师辛苦了!。