当前位置:文档之家› Mega软件的使用

Mega软件的使用

Mega软件的使用
Mega软件的使用

MEGA软件的使用

引言

现代分子生物学所积累的数据库(如美国国家生物信息中心建立的GeneBank等)隐含着大量的生物系统学和生物进化的有用信息。计算机软件是挖掘这些知识宝藏的最有效的工具,而且这些数据库不断快速扩展,信息量十分庞大。因此,如果没有计算机软件的帮助,我们简直无法开战分子系统学和分子进化方面的研究工作。同样,这些数据分析方法和软件在古DNA研究中是必不可少的。

因为有着坚实的分子进化和人类遗传学基础,序列比对分析已经成为重构物种和基因家族进化历史,估算分子进化速率、推断基因和基因组进化过程中自然选择力量的强度等的必不可少的方法和手段。计算机的应用和统计学的介入大大简化这些工作。在这些背景下,Sudhir Kumar、Koichiro Tamura和Masatonshi Nei 和在上世纪九十年代初就发展了Mega遗传分析软件,并不断改进。现在公布了3.0版,增添很多新功能,并使软件使用者能在线取得帮助。

Mega(Molecular Evolutionary Genetics Analysis)是一个界面友好、操作简便、功能强大的分子进化遗传分析软件,也是文献中经常用到的分析软件。尤其是,Mega的新版本对使用界面做了优化,并有改进了许多统计学和遗传学算法,其支持的文件格式很多,而且可以直接从测序图谱中读取序列。另外,Mega 软件还内嵌了一个Web浏览器,能直接登录NCBI网站。

Mega软件操作起来很方便,其界面与传统的Windows程序界面很像,即使初学者也很易上手。

Mega软件功能十分强大,尤其在计算遗传距离、构建分子系统树方面。Mega 软件提供多种计算距离的模型,包括Jukes-Cantor距离模型、Kimura距离模型、Equal-input距离模型、Tamura距离模型、HEY距离模型、Tamura-Nei距离模型、General reversible距离模型、无限制距离模型等。Mega软件可以计算个体之间的遗传距离,还可估算群体间的遗传差异,及群体间的净遗传距离;而其还可以估算一个群体或整个样本的基因分歧度的大小。另外Mega还提供了多种构建分子系统树的方法,包括算术平均的不加权对群法(UPGMA,unweighted pair group method with arithmetic mean),邻接法(NJ,Neighbor-Joining),最大简约法(MP,Maximum Parsimony)、最小进化法(ME,Minimum Evolution)等。在此基础上,Mega软件还提供了对已构建系统树的检验,包括自展法(Bootstrap Method)检验和内部分支检验等。在对于自然选择方面,Mega软件提供了Codon-Based Z 检验、Codon-Based Fisher`s 原样检验t和Tajima中性检验三种方法。总之,Mega 软件提供了构建分子系统树,进行系统发育分析各个方面的计算和分析。

本章将以古DNA数据分析为例,介绍Mega软件的基本原理和方法、使用和操作、以及相关结果的分析。

Mega软件包的下载网址为:https://www.doczj.com/doc/442260877.html,

Mega软件输入数据的格式

Mega软件输入数据的格式比较简单,在众多遗传学分析软件中是比较容易制作的一种。

首先,如果输入数据是一般的DNA或RNA序列,则有如下要求:1)文件扩展名以*.meg或*.txt结尾都行;2)输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA”;3)“TITLE”位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。在与“Title”同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略。4)在“#MEGA”和“TITLE”之后,在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5)在每个数据(或每条序列)的名字之前应该有一个“#”,名字的下一行是具体的序列。在同一个数据文件里,不能出现数据名相同的序列。在数据名及具体序列中,空格和TAB是被忽略的。6)在同一数据文件内,所有序列的长度应该保持一致,否则,程序不能执行。7)对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?”表示,比对时的空缺位点可以用“—”表示。下边是一个数据文件示例:

Fig

其次,如果输入数据是遗传距离矩阵,则要求如下:1)前4点要求同对上述DNA 序列的要求相同;2)在每个距离矩阵的名字之前应该有一个“#”,每个名字占一行;先列出距离矩阵的名字,然后再给出距离矩阵;3)距离矩阵有两种形式,下三角和上三角。下边是一个数据文件示例:

下图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。

再次,如果数据是测序图谱的形式,直接导入即可。下图是测序图谱示例:

Fig

MEGA界面及操作

Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。

1、数据的录入及编辑

Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据格式等等。而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。

首先,打开Mega程序,有如下图所示的操作界面:

Fig

单击工具栏中的“File”按钮,会出现如下图所示的菜单:

Fig

从上图可以看出,下拉菜单有“Open Data”(打开数据)、“Reopen Data”(打开曾经打开的数据,一般会保留新近打开的几个数据)、“Close Data”(关闭数据)、“Export Data”(导出数据)、“Conver To MEGA Format”(将数据转化为MEGA 格式)、“Text Editor”(数据文本编辑)、“Printer Setup”(启动打印)、“Exit”(退出MEGA程序)。单击“Open Data”选项,会弹出如下菜单:

Fig

浏览文件,选择要分析的数据打开,单击“打开”按钮,会弹出如下操作界面:

Fig

此程序操作界面,提供了三种选择数据选择:Nucleotide Sequences(核苷酸序列)、Protein Sequences(蛋白质序列)、Pairwise Distance(遗传距离矩阵)。根据输入数据的类型,选择一种,点击“OK”即可。如果选择“Pairwise Distance”,则操作界面有所不同;如下图所示:

Fig

根据遗传距离矩阵的类型,如果是下三角矩阵,选择“Lower Left Matrix”即可;如果是上三角矩阵,选择“Upper Right Matrix”即可。点击“OK”按钮,即可导入数据。如果是核苷酸数据,则读完之后,会弹出如下对话框:

Fig

如上图,如果是编码蛋白质的核苷酸序列,则选择“Yes”按钮;如果是不编码蛋白质的核苷酸序列,则点击“No”按钮。之后,会弹出如下操作窗口:

Fig

此作界面的名称是“Sequence Data Explorer”,在其最上方是工具栏“Data”、“Display”、“Highlight”等,然后是一些数据处理方式的快捷按钮,在操作界面的左下方是每个序列的名称。显示序列占了操作界面的绝大部分,与第一个序列相同的核苷酸用“.”表示,发生变异的序列则直接显示。

如果在弹出的对话框中,点击“OK”,即选择输入的数据是编码蛋白质的DNA序列。那么会再弹出如下对话框:

Fig

此操作界面提供了多种生物的遗传密码方式的选择,如Vertebrate Mitochondrial(脊椎动物线粒体)、Invertebrate Mitochondrial(非脊椎动物线粒体)、Yeast Mitochondrial(酵母线粒体)等等。

点击此操作界面的“Add”按钮,可以添加密码子表格,其编辑界面如下图所示:

Fig

通过此操作界面可以创建、修改密码子表格。点击“OK”按钮可以返回“Select Genetic Code”操作界面。

点击“Select Genetic Code”操作界面的“Delect”按钮,可以删除一个密码子表。

点击“Select Genetic Code”操作界面的“Edit”按钮,可以对已经存在的密码子表格。其操作界面与“Genetic Code Table”相同。

点击“Select Genetic Code”操作界面的“View”按钮,可以浏览选中的密码子表格。

点击“Select Genetic Code”操作界面的“Statistics”按钮,可以统计密码子表格的一些信息,如每种密码子的频率、同义位点数、非同义位点数等。

点击点击“Select Genetic Code”操作界面的“OK”按钮,会弹出如上图所示的“Sequence Data Explorer”操作界面。如果点击“Cancel”按钮,也会弹出此操作界面,但是此时会把数据默认为非编码的DNA序列。

单击“Sequence Data Explorer”操作界面工具栏的“Data”按钮,有如下图所示的下拉菜单:

Fig

下拉菜单有六个选项:“Write Data To File”(将数据转到文件中,利用此选项可以把Mega数据格式的数据转化成其它格式)、“Translate/Untranslate”(是否翻译,这个选项只有所分析的DNA序列是编码序列时才被激活)、“Selcet Genetic Code Table”(选择遗传密码表,这个选项只有所分析的DNA序列是编码序列时才被激活)、“Setup/Selcet Genes&Domains”(选择或设置基因或结构域)、“Setup/Select Taxa&Group”(对数据进行分组)、“Quit Data Viewer”(退出此浏览框)。

单击“Write Data To File”选项,会弹出如下对话框:

Fig

Title框显示的内容是数据文件中“TITLE”之后的内容。Description框显示的内容是数据文件中对整体数据描述的内容。

Format选项提供一个下来菜单,通过此下拉菜单可以把数据转化为MEGA 格式、Nexus(PAUP4.0)格式,PHYLIP3.0格式、Nexus(PAUP3.0/MacClade)格式。

Writing site numbers 选项也提供一个下拉菜单,通过此下来菜单可以把给每个核苷酸标序号,“None”为不显示序号,“For each site”为每个位点显示序号,“At the end of line”在每一行行末显示序号。

Missing Data and alignment gaps选项也提供了一个下拉式菜单,这个菜单包括:“Include sites with miss/ambiguous data gaps”(显示缺失位点及模糊位点以及空缺)、“Exclude sites with miss/ambiguous data gaps”(不显示缺失位点及模糊位点以及空缺)、“Exclude sites with miss/ambiguous data only”(仅不显示缺失位点及模糊位点)、“Exclude sites with alignment gaps only”(仅不显示比对是的空缺部分)。

如上述操作界面中的选项,点击“OK”按钮,会弹出如下界面:

Fig

此操作界面中的文字可以拷贝到文本文档中。如果在“Squence Data Explorer”操作界面的工具栏中选择“Highlight”中的“Varible sites”选项,则单击“Write Data To File”选项,会弹出如下对话框:

Fig

我们会发现与上述“Exporting Sequence Data”操作界面相比,在最下方增加了一个“Selceted sites to Include”下拉菜单框,此框包含:All sites(所有位点)、“Only highlighted sites”(只显示相互之间有变异的位点)、“Only unhighlighted sites”(只显示相互之间无变异的位点)三个选项。如上图中的操作界面中的选项,点击“OK”按钮,则会弹出如下对话框:

Fig

可以看出,在此操作界面中,仅显示了有变异的位点。这样的数据形式在转

化成“NetWork”遗传分析软件所需的数据格式时很方便。

单击“Sequence Data Explorer”操作界面的工具栏中“Data”中的“Setup/Selcet Genes&Domains”选项,会弹出如下对话框:

Fig

通过此操作界面可以检测、确定、选择结构域,为某些位点添加标签等。这个操作界面包括两大部分:“Define/Edit/Select”和“Site Labels”。通过操作界面中“Genes/Domain”的子菜单“Data”可以设置,起始位点和末位点。通过“Codon Start”选项,可以选择编码的起始位置。在操作界面下端有一排按钮:“Add Gene”、“Add Domain”、“Delete/Edit”、“Expand”。通过“Add Gene”按钮可以添加或插入一个新的基因,通过“Add Domain”按钮可以添加或插入一个新的结构域,通过“Delete/Edit”按钮可以对数据进行编辑和删除,通过“Expand”可以展开数据,或仅显示第一水平的数据。

点击“Site Labels”按钮,上述操作界面变为如下图所示:

Fig

点击上述操作界面中的“Close”按钮,返回“Sequence Data Explorer”操作界面。选择工具栏“Data”下拉菜单中的“Setup/Select Taxa&Groups”选项,弹出如下图所示操作界面:

Fig

如上图操作界面,点击“New Group”按钮可以创建一个新的组,点击“Delete Group”按钮可以删除一个已经存在的组,在操作界面的中间竖排有五个按钮,

同最上端两个按钮可以把数据移入或移出一个选定的组,点击第三个按钮可以对选定的组进行重新命名,点击“+”按钮可以创建一个新的组,点击“—”按钮可以删除一个已经存在的组。注意,组的名字不能与任何一个样本重名。点击“Close”按钮,

“Sequence Data Explorer”操作界面。点击此操作界面中的“Display”按钮,会弹出如下操作菜单:

Fig

从上述操作界面图看,下拉菜单共有:“Show Only Selected Sequences”(仅显示选中的序列)、“Use Identical Symbol”(利用同一标记符号)、“Color Cells”(色彩单元)、“Sort Sequences”(序列分类)、“Restore Input Order”(恢复输入序列的顺序)、“Show Sequence Names”(显示序列名字)、“Show Group Names”(显示序列所在的组的名字)和“Change Font”(改变字体)八个选项。

选择“Show Only Selected Sequences”选项,只有被选中的序列才会在界面中显示,不过软件默认的是所有输入的序列都是被选中的,不过软件使用者是可以修改哪些序列被选中。

选择“Use Identical Symbol”选项,那么与第一个序列相同的核苷酸将用“.”显示,与之相比,发生变异的核苷酸才以“A、T、C、G”的形式显示。

选择“Color Cells”选项,不同的核苷酸将用不同的颜色显示,如下图所示。“Sort Sequences”选项有四个子选项:“By Sequence Name”(通过序列名字排列)、“By Group Name”(通过组的名字排列)、“By Group&Sequence Name”(通过组和序列的名字排列)、“As per Taxa&Group Organizer”()。

选择“Restore Input Order”选项,则序列排列顺序恢复到与输入数据文件中的顺序一样。

选择“Show Sequence Names”选项,则每个序列的名字被显示。选择“Show Group Names”,则每个序列所在的组的名字将被显示。

选择“Change Font”选项,可以改变序列名字、组名及其序列本身的字体大小及颜色,默认的字体大小是“小五”,默认的字体颜色是黑色,默认的字型是

常规,无下划线、删除线。

Fig

点击“Sequence Data Explorer”操作界面的“Highlight”选项,会有如下图所示的下拉菜单选项:

Fig

由上图可以看出,“Highlight”的下拉菜单共有七个选项:“Conserved Sites”(C,保守位点)、“Variable sites”(V,变异位点)、“Parsim-Info sites”(P,简约信息位点)、“Singleton sites”(S,单独位点)、“0-fold Degenerate sites”(0,未简并位点)、“2-fold Degenerate sites”(2,2倍简并位点)、“4- fold Degenerate sites”(4,4倍简并位点);其中后三个选项,只有在输入的序列是编码序码时才被激活。

选择“Conserved Sites”选项,所有的保守位点,即没有发生变异的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“Variable sites”选项,所有的变异位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“Parsim-Info sites”选项,所有简约变异位点(即变异至少包括两种类型的核苷酸或氨基酸)将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“Singleton sites”选项,单突变(变异至少包括两种类型的核苷酸或氨基酸,而且在所有样本中仅发生一次)的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“0-fold Degenerate sites”选项,那些所有突变都是非同义突变的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。

选择“2- fold Degenerate sites”选项,那些在所有突变中同义突变占1/3的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。

选择“4- fold Degenerate sites”选项,那些所有突变全部是同义突变的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。

点击“Sequence Data Explorer”操作界面的“Statistics”选项,会有如下图所示的下拉菜单选项:

Fig

从上图可以看出,此下拉菜单总共有六个选项:“Nucleotide Composition”(核苷酸组成)、“Nucleotide Pair Frequence”(核苷酸配对频率)、“Codon Usage”(密码子使用)、“Amino Acid Composition”(氨基酸组成)、“Use All Selected Sites”(利用所有选择的位点)、“Use Only Highlighted Sites”(仅利用突出显示的位点)。

选择“Nucleotide Composition”选项,可以计算得到,每条序列中A、T、C、G及U的百分含量,以及总的核苷酸个数,还可以得到整个数据中A、T、C、G及U的百分含量。如果数据是编码蛋白质的DNA序列,那么还可以得到每种核苷酸在密码子各个位置的比例。

选择“Nucleotide Pair Frequence”选项,可以计算DNA序列中核苷酸配对的频率。这个选项有两个子菜单:“Directional(16 Pairs)”和“Undirectional(10 Pairs)”。一个是有方向性的,一个是没有的。

选择“Codon Usage”选项,能够统计出每种密码子的使用频率。

选择“Amino Acid Composition”选项,能够统计出每条序列中各种氨基酸的组成百分含量,以及总的氨基酸个数。还可以计算出整个数据中每种氨基酸的组成百分含量。此选项只有在输入数据是氨基酸的条件下才被激活。

选择“Use All Selected Sites”选项,在计算统计时,可以利用所有被选中的位点。

选择“Use Only Highlighted Sites”选项,在计算分析时,仅利用那些被突出显示的位点进行计算。

在菜单栏的下方是一些常用的快捷方式,如下图示:

Fig

上图图标中,所对应的操作从左到右依次是:“Write Data To File”(将数据

转到文件中)、“Setup/Select Taxa&Group”(对数据进行分组)、“Setup/Selcet Genes&Domains”(选择或设置基因或结构域)、“Use Identical Symbol”(利用同一标记符号)、“Color”(进行色彩设置)、“Conserved Sites”(C,保守位点)、“Variable sites”(V,变异位点)、“Parsim-Info sites”(P,简约信息位点)、“Singleton sites”(S,单独位点)、“0-fold Degenerate sites”(0,未简并位点)、“2-fold Degenerate sites”(2,2倍简并位点)、“4- fold Degenerate sites”(4,4倍简并位点)、将核苷酸序列翻译为蛋白质序列。

点击“Sequence Data Explorer”界面的“Data”下拉菜单中的“Quit Data Viewer”选项,即可关闭此操作界面,返回到Mega操作的主界面。

2、遗传距离的计算

2.1 遗传距离模型的选择

点击Mega操作主界面的“Distances”按钮,会弹出一个下拉菜单。如下图所示:

Fig

从上图易知,此菜单包括如下选项:“Choose Model”(选择模型,即选择计算遗传距离的模型)、“Compute Pairwise”(计算遗传配对差异)、“Compute Overall Mean”(计算包括所有样本在内的平均遗传距离)、“Compute With Group Means”(计算组内平均遗传距离)、“Compute Between Groups Means”(计算组间平均遗传距离)、“Compute Net Between Groups Means”(计算组间平均净遗传距离)、“Compute Sequence Diversity”(计算序列分歧度)。

“Compute Sequence Diversity”选项包括四个子菜单:“Mean Diversity Within Subpopulations”(亚群体内部平均序列多态性)、“Mean Diversity for Entire Population”(整个人群平均序列多态性)、“Mean Interpopulaional Diversity”(群体内部平均序列多态性)、“Coefficient of Differentiation”(遗传变异系数)。

点击“Choose Model”选项,会弹出如下操作界面:

Fig

从上述操作界面可以看出,通过此对话框可以选择计算遗传距离的模型等。

“Data Type”显示数据的类型:Nucleotide(Coding)(编码蛋白质的DNA 序列)、Nucleotide(不编码蛋白质的DNA序列)、Amino Acid(氨基酸序列)。

通过“Model”选项可以选择,计算遗传距离的距离模型。点击“Model”一行末端的按钮会弹出一选择栏。

Fig

如上图所示,对于非编码的核苷酸序列Mega程序提供了八种距离模型:“Number of Difference”(核苷酸差异数)、“P-distance”(P距离模型)、“Jukes-Cantor”(Jukes和Cantor距离模型)、“Kimura 2-Parameter”(Kimura双

“Tamura 3-parameter”

(Tamura

(Tajima和Nei距离模型)、

参数模型)、

“Tajima-Nei”

三参数模型)、“Tamura-Nei”(Tamura和Nei距离模型)、“LogDet(Tamura kumar)”(对数行列式距离模型)。

对于编码的核苷酸序列,其遗传距离模型如下图所示:

mega使用手册

MEGA软件的使用 引言 现代分子生物学所积累的数据库(如美国国家生物信息中心建立的GeneBank等)隐含着大量的生物系统学和生物进化的有用信息。计算机软件是挖掘这些知识宝藏的最有效的工具,而且这些数据库不断快速扩展,信息量十分庞大。因此,如果没有计算机软件的帮助,我们简直无法开战分子系统学和分子进化方面的研究工作。同样,这些数据分析方法和软件在古DNA研究中是必不可少的。 因为有着坚实的分子进化和人类遗传学基础,序列比对分析已经成为重构物种和基因家族进化历史,估算分子进化速率、推断基因和基因组进化过程中自然选择力量的强度等的必不可少的方法和手段。计算机的应用和统计学的介入大大简化这些工作。在这些背景下,Sudhir Kumar、Koichiro Tamura和Masatonshi Nei 和在上世纪九十年代初就发展了Mega遗传分析软件,并不断改进。现在公布了3.0版,增添很多新功能,并使软件使用者能在线取得帮助。 Mega(Molecular Evolutionary Genetics Analysis)是一个界面友好、操作简便、功能强大的分子进化遗传分析软件,也是文献中经常用到的分析软件。尤其是,Mega的新版本对使用界面做了优化,并有改进了许多统计学和遗传学算法,其支持的文件格式很多,而且可以直接从测序图谱中读取序列。另外,Mega 软件还内嵌了一个Web浏览器,能直接登录NCBI网站。 Mega软件操作起来很方便,其界面与传统的Windows程序界面很像,即使初学者也很易上手。 Mega软件功能十分强大,尤其在计算遗传距离、构建分子系统树方面。Mega 软件提供多种计算距离的模型,包括Jukes-Cantor距离模型、Kimura距离模型、Equal-input距离模型、Tamura距离模型、HEY距离模型、Tamura-Nei距离模型、General reversible距离模型、无限制距离模型等。Mega软件可以计算个体之间的遗传距离,还可估算群体间的遗传差异,及群体间的净遗传距离;而其还可以估算一个群体或整个样本的基因分歧度的大小。另外Mega还提供了多种构建分子系统树的方法,包括算术平均的不加权对群法(UPGMA,unweighted pair group method with arithmetic mean),邻接法(NJ,Neighbor-Joining),最大简约法(MP,Maximum Parsimony)、最小进化法(ME,Minimum Evolution)等。在此基础上,Mega软件还提供了对已构建系统树的检验,包括自展法(Bootstrap Method)检验和内部分支检验等。在对于自然选择方面,Mega软件提供了Codon-Based Z 检验、Codon-Based Fisher`s 原样检验t和Tajima中性检验三种方法。总之,Mega 软件提供了构建分子系统树,进行系统发育分析各个方面的计算和分析。 本章将以古DNA数据分析为例,介绍Mega软件的基本原理和方法、使用和操作、以及相关结果的分析。 Mega软件包的下载网址为:https://www.doczj.com/doc/442260877.html,

Mega软件的使用

Mega软件输入数据的格式 Mega软件输入数据的格式比较简单,在众多遗传学分析软件中是比较容易制作的一种。 首先,如果输入数据是一般的DNA或RNA序列,则有如下要求:1)文件扩展名以*.meg或*.txt结尾都行;2)输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA”;3)“TITLE”位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。在与“Title”同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略。4)在“#MEGA”和“TITLE”之后,在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5)在每个数据(或每条序列)的名字之前应该有一个“#”,名字的下一行是具体的序列。在同一个数据文件里,不能出现数据名相同的序列。在数据名及具体序列中,空格和TAB是被忽略的。6)在同一数据文件内,所有序列的长度应该保持一致,否则,程序不能执行。7)对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?”表示,比对时的空缺位点可以用“—”表示。下边是一个数据文件示例: Fig 其次,如果输入数据是遗传距离矩阵,则要求如下:1)前4点要求同对上述DNA序列的要求相同;2)在每个距离矩阵的名字之前应该有一个“#”,每个名字占一行;先列出距离矩阵的名字,然后再给出距离矩阵;3)距离矩阵有两种形式,下三角和上三角。下边是一个数据文件示例: Fig 下图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。 Fig 再次,如果数据是测序图谱的形式,直接导入即可。下图是测序图谱示例: Fig MEGA界面及操作 Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。 1、数据的录入及编辑 Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据

mega的使用

MEGA的使用 产生背景及简介 随着不同物种基因组测序的快速发展,产生了大量的DNA序列信息,这时就需要一种简便而快速的统计分析工具来对这些数据进行有效的分析,以提取其中包含的大量信息。MEGA就是基于这种需求开发的。MEGA 软件的目的就是提供一个以进化的角度从DNA和蛋白序列中提取有用的信息的工具,并且,此软件可以免费下载使用。 现在我们使用的是MEGA4的版本。它主要集中于进化分析获得的综合的序列信息。使用它我们可以编辑序列数据、序列比对、构建系统发育树、推测物种间的进化距离等。此软件的输出结果资源管理器允许用户浏览、编辑、打印输入所得到的结果而且所得到的结果具有不同形式的可视化效果。此外,该软件还能够得出不同序列间的距离矩阵,这是他不同与其他分析软件的地方。在计算矩阵方面有一些自己的特点: 1.推测序列或者物种间的进化距离 2.根据MCL(Maximum Composite Likeliood method)的方法构建系统发育树 3.考虑到了不同碱基替换的不同的比率,考虑到了碱基转换和颠换的差别。 4.随时可以使用标注:所以的结果输入都可以使用标注,而且标注的内容 可以被保存,复制。 具体使用 我们以分析20个物种的血红蛋白为例来具体说明此软件的具体使用情况。一.启动程序 1.运行环境:在Windows 95/98, NT, ME, 2000, XP, vista等操作系统下均可使用。 2.下载安装:可以直接登陆https://www.doczj.com/doc/442260877.html,进行下载安装,另外还可以 从https://www.doczj.com/doc/442260877.html,/tools/phylogeny.php中的链接进去。 3.双击桌面快捷方式图标,进入主界面;或者从开始菜单,单击图标启 动。 二.序列分析。 1.启动

MEGA软件的使用

MEGA软件的使用 Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。 1、数据的录入及编辑 Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据格式等等。而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。 首先,打开Mega程序,有如下图所示的操作界面: 单击工具栏中的“File”按钮,会出现如下图所示的菜单: 从上图可以看出,下拉菜单有“Open Data”(打开数据)、“Reopen Data”(打开曾经打开的数据,一般会保留新近打开的几个数据)、“Close Data”(关闭数据)、“Export Data”(导出数据)、“Conver To MEGA Format”(将数据转化为MEGA格式)、“Text Editor”(数据文本编辑)、“Printer Setup”(启动打印)、“Exit”(退出MEGA程序)。单击“Open Data”选项,会弹出如下菜单:

浏览文件,选择要分析的数据打开,单击“打开”按钮,会弹出如下操作界面: 此程序操作界面,提供了三种选择数据选择:Nucleotide Sequences(核苷酸序列)、Protein Sequences(蛋白质序列)、Pairwise Distance(遗传距离矩阵)。根据输入数据的类型,选择一种,点击“OK”即可。如果选择“Pairwise Distance”,则操作界面有所不同;如下图所示: 根据遗传距离矩阵的类型,如果是下三角矩阵,选择“Lower Left Matrix”即可;如果是上三角矩阵,选择“Upper Right Matrix”即可。点击“OK”按钮,即可导入数据。如果是核苷酸数据,则读完之后,会弹出如下对话框:

MEGA使用说明书

MEGA软件构建系统发育树 摘要:以白色念珠菌属下面的十个种的18s RNA 为例,构建系统发育树来说明MEGA 软件的使用方法。 1背景简介 1.1 MEGA(分子进化遗传分析) MEGA 的全称是Molecular Evolutionary Genetics Analysis。MEGA is an integrated tool for automatic and manual sequence alignment, inferring phylogenetic trees, mining web-based databases, estimating rates of molecular evolution, and testing evolutionary hypotheses. MEGA 可用于序列比对、进化树的推断、估计分子进化速度、验证进化假说等。MEGA 还可以通过网络(NCBI)进行序列的比对和数据的搜索。 最新版本:MEGA 5.1 Beta (软件开发者建议其结果不用于发表文章) 建议下载版本:MEGA 5.05 for Windows and Mac OS。 MEGA 5 has been tested on the following Microsoft Windows? operating systems: Windows 95/98, NT, 2000, XP, Vista, version 7, Linux and Mac OS [1]. MEGA 5.05 可免费下载,只需输入名字及有效,下载会发送至,点击可下载。1.2 系统发育树定义 系统发育树(英文:Phylogenetic tree)又称为演化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法(cladogram)。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间) 1.3 系统发育树的分类 根据有根和无根来区分:树可分为有根树和无根树两类。有根树是具有方向的

运用mega5构建系统发生进化树.

1.准备序列文件 准备fasta格式序列文件(fasta格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align,选择Edit/Build Alignment,选择Create a new alignment,点击OK。

这时需要选择序列类型,核酸(DNA)或氨基酸(Protein)。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit,选择Insert Sequence From File,选择序列文件(可多选)。

序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK,开始多序列比对。

比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas

3.构建系统进化树 多序列比对窗口,点击Data,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes或No。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3、1就是一个关于序列分析以及比较统计得工具包,其中包括有距离建树法与MP建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机得Web数据库检索。下载后可直接使用,主要包括几个方面得功能软件:i)DNA与蛋白质序列数据得分析软件。ii)序列数据转变成距离数据后,对距离数据分析得软件。iii)对基因频率与连续得元素分析得软件。iv)把序列得每个碱基/氨基酸独立瞧待(碱基/氨基酸只有0与1得状态)时,对序列进行分析得软件。v)绘制与修改进化树得软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤: 1、16S rDNA测序与参考序列选取 从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库比对,找到相似度最高得几个序列,确定一下您分离得细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定您分离得到得就就是Blast到得那个,然后找一到两个同科得,再找一到两个同目得,再找一到两个同纲得细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGATAGGACCTCGGGA TGCATGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124、1| Rhodococcus sp、Atl25 16S ribosomal RNAgene,partial sequence CGATTAGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGGGTGA TCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGAT >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGA CGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGATAACTCCGG GAAACCGGGGCTAATACCGGATAACATTTTGAACTGCATGGTTCGAAATTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498、1|Bacillus cereus partial16S rRNA gene, strainTMW 2、383 GA TGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAATGGATTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGA TAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACYGCA TGGTTC…………………………、 …………………………、 参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属得前提下,优先选择16S rDNA全长测序或全基因组测序得种;d,每个种属选择一个参考序列,如果自己得序列中同一属得较多,可适当选择两个参考序列。 2、序列比对

Arduino Mega 2560使用手册..

来源:https://www.doczj.com/doc/442260877.html,/ Arduino Mega2560 简介 Arduino Mega2560也是采用USB接口的核心电路板,它最大的特点就是具有多达54路数字输入输出,特别适合需要大量IO接口的设计。Mega2560的处理器核心是ATmega2560,同时具有54路数字输入/输出口(其中16路可作为PWM输出),16路模拟输入,4路UART接口,一个16MHz晶体振荡器,一个USB口,一个电源插座,一个ICSP header 和一个复位按钮。Arduino Mega2560也能兼容为Arduino UNO设计的扩展板。Arduino Mega2560已经发布到第三版,与前两版相比有以下新的特点: 在AREF处增加了两个管脚SDA和SCL,支持I2C接口;增加IOREF 和一个预留管脚,将来扩展板将能兼容5V和3.3V核心板。 改进了复位电路设计。 USB接口芯片由ATmega16U2替代了ATmega8U2。

概要 ?处理器 ATmega2560 ?工作电压 5V ?输入电压(推荐) 7-12V ?输入电压(范围) 6-20V ?数字IO脚 54 (其中16路作为PWM输出)?模拟输入脚 16 ?IO脚直流电流 40 mA ? 3.3V脚直流电流 50 mA

?Flash Memory 256 KB (ATmega328,其中8 KB 用于bootloader) ?SRAM 8 KB ?EEPROM 4 KB ?工作时钟 16 MHz 电路图和PCB ?电路图https://www.doczj.com/doc/442260877.html,/en/uploads/Main/arduino-mega2560 -schematic.pdf ?硬件设计文件(Eagle文件)https://www.doczj.com/doc/442260877.html,/en/uploads/Main/arduino-mega25 60-reference-design.zip ?引脚图https://www.doczj.com/doc/442260877.html,/en/Hacking/PinMapping2560 电源 Arduino Mega2560可以通过3种方式供电,而且能自动选择供电方式 ?外部直流电源通过电源插座供电。 ?电池连接电源连接器的GND和VIN引脚。 ?USB接口直接供电。 电源引脚说明

MEGA使用图解

用MEGA2做进化树的步骤(图示) 1、打开程序 如下图所示: 2、MEGA2只能打开meg格式的文件,但是它可以把其他格式的多序列比对文件转换过来,我们在这里用aln格式(Clustal的输出文件)转换meg文件。点File:Convert to MEGA Format...打开转换文件对话框 如下图所示:

3、选择文件和转换文件对话框,选择aln文件,点OK 如下图所示: 4、转换好的meg文件,点存盘保存meg文件,meg文件会和aln文件保存在同一个目录 如下图所示: 5、关闭转换窗口,回到主窗口,现在点面板上的“Click me to activate a data file”打开刚才的meg 文件 如下图所示:

6、选择meg文件,点“打开” 如下图所示: 7、程序会自动识别序列的类型,如果识别错误,请手工选择数据类型。然后点OK就行了如下图所示:

8、数据输入之后的样子,窗口下面有序列文件名和类型 如下图所示: 9、现在终于可以开始做Bootstrap验证和进化树了,MEGA的主要功能就是做Bootstrap验证的进化树分析,Bootstrap验证是对进化树进行统计验证的一种方法,可以作为进化树可靠性的一个度量。各种算法虽然不同,但是操作方法基本一致,我们在此以UPGMA方法为例进行演示。点下图所示的菜单项。 如下图所示:

10、...会弹出如下的对话框,在此你可以选择计算参数。 如下图所示: 11、Distance Options标签页中的Models可以下拉,其中有若干个计算距离的方法可以选择,在此默认泊松校验(Poisson Correction)作为计算距离的方法。 如下图所示:

Mega软件的使用

MEGA软件的使用 Mega软件输入数据的格式 Mega软件输入数据的格式比较简单,在众多遗传学分析软件中是比较容易制作的一种。 首先,如果输入数据是一般的DNA或RNA序列,则有如下要求:1)文件扩展名以*.meg或*.txt结尾都行;2)输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA”;3)“TITLE”位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。在与“Title”同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略。4)在“#MEGA”和“TITLE”之后,在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5)在每个数据(或每条序列)的名字之前应该有一个“#”,名字的下一行是具体的序列。在同一个数据文件里,不能出现数据名相同的序列。在数据名及具体序列中,空格和TAB是被忽略的。6)在同一数据文件内,所有序列的长度应该保持一致,否则,程序不能执行。7)对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?”表示,比对时的空缺位点可以用“—”表示。下边是一个数据文件示例: Fig 其次,如果输入数据是遗传距离矩阵,则要求如下:1)前4点要求同对上述DNA序列的要求相同;2)在每个距离矩阵的名字之前应该有一个“#”,每个名字占一行;先列出距离矩阵的名字,然后再给出距离矩阵;3)距离矩阵有两种形式,下三角和上三角。下边是一个数据文件示例:

Fig 下图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。 Fig 再次,如果数据是测序图谱的形式,直接导入即可。下图是测序图谱示例:

mega使用教程

MEGA的主界面: 使用步骤 1. 序列导入 可以通过Data导入数据也可以通过file导入数据。 如果打开的文件是比对结果,选择Analyze;如果打开的文件是序列文件,选择Align。 另外双击这些后缀名文件即可自动导入序列,导入后会弹出MEGA比对界面。

如果fasta 序列导入报错,多是因为序列长度不同导致: 如果序列长度不同,可以采用新建文件,将序列文件导入的方法。 步骤:Align → Edit/Build Alignment → create a new alignment → Data → open → Retrieve sequences from File

将复制输入的序列另存输出看看。 步骤:data → Export alignment → fasta format 序列长度都被用横线补齐了。 2. 多序列比对

选择muscle或者clustalw进行比对:clustalw 一般用于DNA ,muscle多用于蛋白。 在比对之前需先选中要进行比对的序列(Shift),还可以对序列或者序列名进行编辑(双击)。比对参数选择:

保存比对文件,进化树分析提供数据。

一般导出的比对结果保存为fasta格式,或者直接点击保存按钮将结果,保存为二进制的mas或meg文件。 3. 构建进化树 导入数据:将刚刚另存的meg 文件重新导入到mega程序中(直接拖入工作界面),并选择构建进化树。 参数选择:参数设置,Bootstrap method一般选择1000~1500;第一次绘图时建议选择500,这样运行速度会比价快,结果合适再调至1000重新进行进化分析。

Mega的使用以及进化树的绘制

MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。如图: 2. 打开MEGA软件,选择"Alignment" - "Alignment Explorer/CLUSTAL",在对话框中选择Retrieve sequences from a file, 然后点OK,找到准备好的序列文件并打开,如图: 。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐,对齐过程需要一段时间,对齐完成后,最好将序列两端切齐,选择两端不齐的部分,单击右键,选择delete即可,如图: 。

4. 关闭当前窗口,关闭的时候会提示两次否保存,第一次无所谓,保存不保存都可以,第二次一定要保存,保存的文件格式是.meg。根据提示输入Title,然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开,选择Yes,如图: 。 5. 回到MEGA主窗口,在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”,打开一个窗口,里面有很多参数可以设置,如何设置这些参数请参考详细的MEGA说明书,不会设置就暂且使用默认值,

不要修改,点击下面的Compute按钮,系统进化树就画出来了,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”,

MEGA4的中文使用说明

MEGA4的中文使用说明 产生背景及简介 随着不同物种基因组测序的快速发展,产生了大量的DNA 序列信息,这时就需要一种简便而快速的统计分析工具来对这些数据进行有效的分析,以提取其中包含的大量信息。MEGA 就是基于这种需求开发的。MEGA 软件的目的就是提供一个以进化的角度从DNA 和蛋白序列中提取有用的信息的工具,并且,此软件可以免费下载使用。 现在我们使用的是 MEGA4 的版本。它主要集中于进化分析获得的综合的序列信息。使用它我们可以编辑序列数据、序列比对、构建系统发育树、推测物种间的进化距离等。此软件的输出结果资源管理器允许用户浏览、编辑、打印输入所得到的结果而且所得到的结果具有不同形式的可视化效果。此外,该软件还能够得出不同序列间的距离矩阵,这是他不同与其他分析软件的地方。在计算矩阵方面有一些自己的特点: 1. 推测序列或者物种间的进化距离 2. 根据MCL(Maximum Composite Likeliood method)的方法构建系统发育树 3. 考虑到了不同碱基替换的不同的比率,考虑到了碱基转换和颠换的差别。 4. 随时可以使用标注:所以的结果输入都可以使用标注,而且标注的内容可以被保存,复制。 具体使用 我们以分析 20 个物种的血红蛋白为例来具体说明此软件的具体使用情况。 启动程序 1. 运行环境:在Windows 95/98, NT, ME, 2000, XP, vista 等操作系统下均可使用。 2. 下载安装:可以直接登陆https://www.doczj.com/doc/442260877.html, 进行下载安装,另外还可以从https://www.doczj.com/doc/442260877.html,/tools/phylogeny.php 中的链接进去。 3. 双击桌面快捷方式图标, 进入主界面;或者从开始菜单,单击图标启动。 序列分析 1.启动 单击后,会出现如下界面:

相关主题
文本预览
相关文档 最新文档