实验二 序列相似性查询工具的使用
- 格式:doc
- 大小:501.50 KB
- 文档页数:5
实验二-核酸及蛋白质序列的比对实验二核酸及蛋白质序列的比对姓名:班级:序号:指导老师:一、实验内容利用检索出的蛋白质和核酸序列进行序列比对并进行分子进化树分析。
二、实验步骤键入上次实验获得的phyA的核酸序列编号(NM_100828),获得核酸及蛋白质序列。
利用blastx程序寻找与phyA蛋白质序列相似性的序列→选择下列序列:sorghum propinquum(高粱);zea mays(玉米);水稻;大豆;arabidopsis thaliana(拟南芥);cyrtosia septentrionalis(血红肉果兰)→点击get select sequence按钮显示序列为纯文本格式文件→分别命名为各自的文件名保存在本地电脑上备用。
在数字基因网/找到dnaman及clustalx软件安装并进行多序列比对及分子进化树分析。
利用ebi上提供多序列比对工具再作一次比对/clustalw/。
选作核酸序列的比对5、打开ncbi主页点击BLAST→学习网页左侧的BLAST FAQS及program guide三、作业1、绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。
2、根据你所学生物分类的知识,试解释该分子进化树的合理性①拟南芥:植物界种子植物门被子植物门双子叶植物纲十字花目十字花科鼠耳芥属(拟南芥属)②大豆:植物界种子植物门被子植物亚门双子叶植物纲豆目蝶形花科大豆属③血红肉果兰:植物界种子植物门被子植物亚门百合纲百合目兰科树兰亚科肉果兰属④水稻:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科稻属⑤玉米:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科玉米属⑥高粱:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科高粱属经过对比可得下列同源性关系高粱玉米水稻拟南芥大豆血红肉果兰与前面的同源树对比基本相似,说明软件分析结果与实际相符3、找出一条可能的保守序列(多条蛋白共同的氨基酸序列)。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
BLAST种类及使用方法BLAST(Basic Local Alignment Search Tool)是一种常用的生物信息学工具,用于在数据库中和比对生物序列。
BLAST工具有多种不同的变体,每种都有不同的用途和适用范围。
下面将介绍几种常见的BLAST工具及其使用方法。
1.BLASTN:BLASTN用于比对核酸序列(DNA或RNA)。
它可以识别相似的核酸序列,并计算相似度和比对长度。
通过对两个序列之间的匹配和错配进行比较,BLASTN可以找到最佳的比对结果。
BLASTN对于找到相似的基因和寻找保守序列非常有用。
使用方法:a.输入待比对的核酸序列。
b.选择合适的数据库(如NCBI的NR数据库)。
c.选择期望的输出格式。
d.运行BLASTN比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
2.BLASTP:BLASTP用于比对蛋白质序列。
它可以找到相似的蛋白质序列,并计算相似度和比对长度。
BLASTP通过比较两个蛋白质序列之间的氨基酸匹配和错配来找到最佳的比对结果。
BLASTP对于找到相似的蛋白质序列、预测蛋白质结构和功能非常有用。
使用方法:a.输入待比对的蛋白质序列。
b. 选择合适的数据库(如NCBI的RefSeq数据库)。
c.选择期望的输出格式。
d.运行BLASTP比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
3.BLASTX:使用方法:a.输入待比对的核酸序列。
b. 选择合适的数据库(如NCBI的RefSeq数据库)。
c.选择期望的输出格式。
d.运行BLASTX比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
4. BLAST2Seq:使用方法:a.输入两个待比对的生物序列。
b.选择合适的数据库(如NCBI的NR数据库)。
c.选择期望的输出格式。
d. 运行BLAST2Seq比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
5.tBLASTn:tBLASTn用于比对核酸序列,并将其翻译成六个阅读框的蛋白质序列,然后与蛋白质序列进行比对。
BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。
•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。
首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。
最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。
•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。
因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。
IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。
图片来自MOOC。
BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
寻找重复序列的方法
寻找重复序列的方法可以采用多种方法,包括简单的文本搜索、更复杂的算法和软件工具。
以下是一些常见的方法:
1. 文本搜索:在纯文本编辑器或代码编辑器中手动搜索重复的序列。
这种方法简单,但对于大规模数据集或复杂的重复模式可能不适用。
2. 使用生物信息学软件:针对基因组数据分析,有许多专门用于寻找重复序列的生物信息学软件和工具,如Tandem Repeats Finder (TRF)、MREPS、BLAST等。
这些工具可以根据特定的参数和算法,更精确地检测和识别重
复序列。
3. 编写脚本或程序:使用编程语言(如Python、Perl或R)编写脚本或程
序来分析数据并查找重复序列。
这种方法需要一定的编程技能,但可以根据具体需求定制算法和搜索策略。
4. 使用在线服务或数据库:一些在线服务或数据库专门用于查找重复序列,如RepeatMasker、RepeatProteinMasker等。
这些工具基于已知的重复
序列数据库,可以快速检测和注释重复序列。
5. 比较基因组学方法:通过比较不同物种或同一物种不同个体之间的基因组序列,可以识别和定位重复序列。
这种方法通常需要使用专门的比较基因组学软件或工具,如Mauve、Progressive Mauve等。
在应用这些方法时,需要根据具体的数据类型、规模和目标来选择最适合的方法。
同时,对于复杂的数据集,可能需要结合多种方法来全面准确地识别重复序列。
blast使用指南Blast使用指南Blast(Basic Local Alignment Search Tool)是一种常用于生物信息学研究中的序列比对分析工具。
它可以根据输入的查询序列,在数据库中搜索相似序列,并给出比对结果。
本文将为大家提供一份Blast使用指南,帮助大家更好地使用Blast进行序列比对分析。
一、什么是Blast?Blast是一种基于局部比对算法的工具,它可以在大规模的数据库中快速搜索相似的序列。
通过比对查询序列和数据库中的序列,Blast 可以找到相似度较高的序列,从而推测它们之间的功能和结构的相似性。
二、Blast的使用步骤1. 准备查询序列在使用Blast之前,首先需要准备查询序列。
查询序列可以是DNA 序列或蛋白质序列,可以通过实验测序或从已有的数据库中获取。
确保查询序列的准确性和完整性非常重要,因为查询序列的质量将直接影响到Blast的结果。
2. 选择合适的Blast程序和数据库Blast有多个版本和程序可供选择,根据具体的研究目的和需求,选择合适的Blast程序和数据库非常重要。
常用的Blast程序包括Blastn(用于DNA序列比对)、Blastp(用于蛋白质序列比对)等。
数据库则可以选择NCBI的nr数据库、UniProt数据库等。
3. 运行Blast程序在选择好Blast程序和数据库后,可以通过命令行或图形界面来运行Blast程序。
对于初学者来说,推荐使用图形界面,因为图形界面更直观、易于操作。
在运行Blast程序时,需要输入查询序列文件和选择合适的参数设置,如比对算法、期望阈值、返回结果的数量等。
4. 解读Blast结果Blast运行完毕后,会生成一个结果文件。
这个结果文件包含了查询序列和数据库中相似序列的比对结果。
通过分析比对结果,可以了解到查询序列与数据库中序列的相似性程度、可能的功能和结构等信息。
需要注意的是,Blast结果并不是绝对准确的,需要结合实验数据和其他信息进行综合分析。
实验二序列相似性搜索软件—BLAST的使用一、实验目的:掌握序列相似性查询工具—BLAST使用方法和技巧,理解与序列相似性查询相关的几个基本概念。
二、实验原理:BLAST是基本的局部对位排列搜索工具,它通过搜索序列数据库来找出最优的无空位局部对比,从数据库中找出与查询序列的某些子序列相似的子序列。
三、实验器材:计算机,NCBI、EMBL生物信息学数据库的核苷酸序列、BLAST序列相似性搜索软件。
四、实验内容:应用上次或本次实验查找到的不同物种的不同基因组的核苷酸序列,在NCBI数据库中进行核苷酸序列的BLAST相似性搜索。
五、实验步骤:1、打开NCBI网站的主页,然后点击网页左侧工具栏中的Sequence analysis项,进入到序列分析的主页面。
2、然后点击序列分析工具栏中的BLAST选项,进入相似性搜索的界面,然后选择核苷酸序列搜索软件BLASTn。
3、在进入核苷酸序列相似性搜索的界面后,在界面上Enter Query Sequence后面的方框中输入需要进行相似性搜索的序列,然后点击BLAST检索按钮,就可以进行搜索。
4、在进入搜索结果的界面后,就可以得到搜索结果的可视化图像和搜索得到的相关序列。
六、实验要求:每个组每个同学至少用4条核苷酸序列进行BLAST相似性搜索。
将相似性搜索结果中的可视化图像和搜索的相关序列拷贝下来作为实验内容。
七、实验结果:例1:(物种名、基因名)实验结果:1. (冬虫夏草,18S-ITS1-5.8S-ITS2-28S)Legend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHQ918290.1Paecilomyces sinensis 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence11221122 98% 0.0 100%Sequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHM135164.1Paecilomyces sp. SJL0906 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence10811081 98% 0.0 97%AB044644.1 Paecilomyces sp. 97014 gene for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 26S rRNA, partial and complete sequence 10771077 98% 0.0 97%AY491998.1Paecilomyces sp. NSP-2003 18S ribosomal RNA gene, partial sequence; intern al transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence10381038 96% 0.0 97% 2. (枯草杆菌,16s)Distribution of 107 Blast Hits on the Query SequenceLegend for links to other resources: UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession Description Max score Total score Q uery coverage E value Max ident Links HQ731481.1 Bacillus subtilis strain G1 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ232423.1 Bacillus tequilensis strain A-21 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ687501.1 Bacillus subtilis strain KJB06-35 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ625387.1 Bacillus subtilis subsp. spizizenii strain RRLKE2 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ327126.1 Bacillus subtilis strain TP-Snow-C17 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%3. (松材线虫,18S-ITS1-5.8S-ITS2-28S)Distribution of 120 Blast Hits on the Query SequenceLegend for links to other resources: UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksJF317234.1Bursaphelenchus xylophilus isolate 121AD 18S ribosomal RNA gene, partial sequence; internal transcribed spacer1, 5.8S ribosomal RNA gene, and internal transcr ibed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16621662 100% 0.0 100%JF317232.1Bursaphelenchus xylophilus isolate 4049 18S ribosomal RNA gene, partial sequence; internal transcribed spacer1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16621662 100% 0.0 100%JF317233.1Bursaphelenchus xylophilus isolate 39906 18S ribosomal RNA gene, partial sequence; internal tr anscribed spacer1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16271627 100% 0.0 99%EU259322.1Bursaphelenchus xylophilus strain XM_1 18S ribosomal RNA gene,partial sequence; internal transcribed spacer 1,5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence16271627 100% 0.0 99%AM157747.1Bursaphelenchus xylophilus 18S rRNA gene (partial), ITS1, 5.8S rRNA gene, ITS2 and 28S rRNA gene (partial), strainPT1w16181618 100% 0.0 98%JF317229.1Bursaphelenchus xylophilus isolate CA 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1,5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence16061606 100% 0.0 98%4. (蛹虫草,18S-ITS1-5.8S-ITS2-28S)Distribution of 100 Blast Hits on the Query SequenceLegend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHM135161.1Cordyceps militaris strain JM0807 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8Sribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence10671067 100% 0.0 100%AB070375.2Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence, strain:IFO3037710611061 100% 0.0 99%EU273506.1Cordyceps militaris isolate XSD-27 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8Sribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosom al RNA gene, partialsequence10581058 100% 0.0 99%AB233336.1Cordyceps militaris genes for 18S ribosomal RNA, internal transcribed spacer 1, 5.8S ribosomal RNA, internaltranscribed spacer 2, 28S ribosomal RNA, partial and complete sequence, strain: BCMU CM1610581058 100% 0.0 99% AB070374.2Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence, strain:IFO978710581058 100% 0.0 99% AB027379.1 Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence 10581058 100% 0.0 99%。