NCBI资源的使用及进化树的构建
- 格式:ppt
- 大小:4.79 MB
- 文档页数:48
一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的资料查找,数据分析的工具。
那么NCBI 数据如何使用,新手入门一步一步教你认识和使用NCBI数据库。
一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。
创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。
除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。
目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。
1 NCBI最新进展1.1 PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。
其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。
而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。
现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。
一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TR EEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。
四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW 、NJPLOT等软件打开编辑。
NCBI资源介绍及使用手册NCBI 资源介绍本文目录:NCBI(美国国立生物技术信息中心) 简介NCBI 站点地图NCBI癌症基因组研究NCBI-Coffee BreakNCBI-基因和疾病NCBI-UniGeneCluster of Orthologous Groups of proteins(COG)介绍Gene Expression Omnibus (GEO)介绍LocusLink介绍关于RefSeq:NCBI参考序列NCBI(美国国立生物技术信息中心)简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。
通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。
阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。
数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。
挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
国立中心的建立后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。
NCBI是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
它的使命包括四项任务:建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
应用PHYLIP构建进化树的完整详细过程一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST 获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TREEIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)Y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4Y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。
三、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeiew里看;也可以不改文件扩展名,直接用treeiew、PHYLODRAW、NJPLOT等软件打开编辑。
如何用MEGA5.0和Clustalx1.83构建进化树MEGA是一个关于序列分析以及比较统计的工具包,从3.1版本到后来的4.0版本一直都广为大家熟悉,现在推出了Mega5.0版本。
功能比以前多有改进。
现主要介绍使用Mega 5.0构建系统进化树的方法。
供大家参考。
用MEGA构建进化树有以下步骤:1、测序:将克隆扩增测序得到的16S rDNA序列进行测序。
2、NCBI上做Blast/blast/Blast.cgi找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后寻找相似性最高的细菌,通常把该属的序列(Fasta格式文件)下载下来,或点击GenBank登录号,复制FSA TA 格式,整合在一个*.txt文档中(单独建立一个文件夹存放,后面的很多文件会自动装入该文件夹),如>XXXXAGGCTTAACACA TGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCG GACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACA TTCCGAAAGGA A TGCTAA TACCGCA TACGCCCTACGGGGGAAAGCAGGGGA TCTTCGGACCTTGCGCTAA TAGA TGAGCCTAAGTCGGA TTAGCTAGTTGGTGGG>gi|289469964|gb|GU388381.1| Acinetobacter tandoii strain DSM 14970 16S ribosomal RNA gene, partial sequenceACTTAGCGGCGGACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACA TTCCGAAAGGGA TGCTAA TACCGCA TACGCCCTACGGGGGAAAGCAGGGGA TCTTCGG ACCTTGCGCTAA TAGA TGAGCCTAAGTCGGA TTAGCTAGTTGGTGGGGTAAAGGCCTAC CAAGGCGACGA TCTGTAGCGGGTCTGAGAGGA TGA………………………….参考序列选择注意事项:1、不选非培养(unclutured)微生物为参比;2、不选未定分类地位的微生物,最相近的仅作参考;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。
极为详细的建树方法,新手入门推荐生物进化树的构建目录前言 (2)一、 NCBI (6)二、 Mega (9)三、 DNAMAN (15)四、DNAStar (18)五、 Bio edit (21)前言1.背景资料进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。
在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。
所以,进化树简单地表示生物的进化历程和亲缘关系。
已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。
归纳总结生物进化的总趋势有以下几类:①结构上:由简单到复杂②生活环境上:由水生到陆生③进化水平上:由低等到高等一般来说,进化树是一个二叉树。
它由很多的分支和节点构成。
根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。
而物种之间的进化关系则用节点之间的连线表示。
内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。
在同一个进化树中,分类单元的选择应当标准一致。
进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。
进化树一般有两种:有根树和无根树。
有根树有一个鲜明的特征,那就是它有一个唯一的根节点。
这个根节点可以理解为所有其他节点的共同祖先。
所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。
无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。
但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。
无根树有根树放射树分子进化树(以分子数据为依据构建的进化树)不仅精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异(小至一个氨基酸或一个核昔酸差异),而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代,这对进化论的研究而言无疑是一场革命。
序列比对,构建进化树1从NCBI上下载某个基因在其他物种的序列比如,下载caveolin基因在其他物种的序列NCBI地址:/在search一栏的下拉列表中选择Nucleotide,for后面的一栏中输入自己要查询的基因。
完毕,点击GO确认。
可得到一下结果:每一条记录分别是某个物种的caveolin的序列,以第10条记录为例,称为GenBank 登录号。
为拉丁文的人类的字母,表示物种,表示基因名称(caveolin基因家族共有3个主要基因,分别称为1,2,3)表示此序列为cDNA,不含内含子。
下图中的NEXT表示翻页,查看剩余的记录。
打开第10条记录可看到下图:现在你需要保存下来得就是上面的这一串(碱基)核酸序列。
复制黏贴(包括上面表示顺序的数字)到TXT文本中备用。
打开DNAMAN软件,左上角点击file-new,出现下图:可以把先前从NCBI下载的序列(保存到TXT文本中得)复制到箭头指示处,得到:并按照上图左上角file-save as(注意此文件得保存名称为保存的此物中得名称),已上是DNAMAN软件中seq序列格式的保存方法。
2 序列编辑和比对(DNAMAN软件)你们实验PCR得到的序列只是某个基因上的一部分,所以为了进行不同物种间的比对,要把下载下来的其他物种的某个基因的序列进行删减,以使两段基因是大约相同长度的片段进行比对。
以人类caveolin1基因为例说明一下。
按照1,2,3得顺序依次打开,得到下图:点击上图中的1,你会得到下图,点击2是清楚所有刚才选进比对的序列(为了重新选择序列),3是有选择的删除某个序列。
当然,把你的所有准备的序列保存好以后,从查找范围这个下拉列表中寻找你要比对的序列。
可以按住ctrl点击你要比对的几个序列(同时选中)选完点击打开。
再点下图中得确定键。
得到下图:找好这两个物种重合的那个核苷酸的序号(前后两段都是),然后打开你保存的seq格式的序列,数出刚才比对重合部分的后端的碱基数,把这个碱基后面的序列删掉,再用此方法把比对重合部分前段得序列删掉,保存。