基因家族分析套路.docx

  • 格式:docx
  • 大小:655.07 KB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因家族分析套路(一)近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);

一、基本分析内容

⏹数据库检索与成员鉴定

⏹进化树构建

⏹保守domain和motif分析.

⏹基因结构分析.

⏹转录组或荧光定量表达分析.

二、数据库检索与成员鉴定

1、数据库检索

1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了

⏹Brachypodiumdb:

⏹Rice?Genome?Annotation?Project?:.

2)已鉴定的家族成员获取。

? ? ??如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找:

???a.?NCBI:?nucleotide?and?protein?db.

2、比对工具。一般使用blast和hmmer,具体使用命令如下:

⏹Local?BLAST

formatdb–i?db.fas–p?F/T;

blastall–p?blastp(orelse)?–i?known.fas–d?db.fas–m?8?–b?2(or?else)?e?1e-5?–

o?alignresult.txt.

-b:output?two?different?members?in?subject?sequences?(db).

⏹Hmmer?(hidden?Markov?Model)?search.?Thesame?as?PSI-BLAST?in?function.?It?has?a

?higher?sensitivity,?but?the?speed?islower.

Command:

3、过滤。

⏹Identity:?至少50%.

⏹Cover?region:?也要超过50%或者蛋白结构域的长度.

⏹EST?支持

⏹?Blast?and?Hmmer同时检测到

4、通过上述操作获得某家族的所有成员

基因家族分析套路(二)

本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。

一、构建进化树的基本步骤

1、多序列比对.?Muscle?program.

3、算法选择。三种.?NJ,?ML?and?BI.

4、软件选

二、具体步骤

?2.1?多序列比对。一般采用muscle。因

为?MUSCLE?is?one?of?the?best-performing?multiple?alignment?programs?acc ording?to?published?benchmark?tests,?with?accuracy?and?speed?that?are?con sistently?better?than?CLUSTALW.

2.2?模型选择。

对于用蛋白序列构建进化树的可以采用下面命令:

???java??-Xmx250m??-classpath??path/ProtTest.jar??prottest.ProtTest??-i?align mfile.phy.

运行结果如下图

?

注意:

1)“.Phy”?format.?Only?allow?ten?charaters.注意名字不能重复相同。2)AIC:?Akaike?Information?Criterion?framework.

3)Gamma?distribution?parameter?(G):?gamma?shape.

3)proportion?of?invariable?sites:?I.

2.3 构建进化树

2.3.1?意义:

a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为?MEKK,?Raf?and?ZIK三个亚家族.

b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近

c?基因家族复制分析。研究基因家族复制事件(duplication?events),两种复制事件类型常采用的标准:

Tandem?duplication:?Identity?and?cover?region?more?than?70%?and?tightly?li nked?(Holub,?2001).

2.3.2?进化树。

一般ML树比较准确,但应结合方法,如NJ树,相互验证。

2.3.3?进化部分分析:KaKs计算

a.?ParaAT:?ParaAT.pl-h?test.homologs?-n?test.cds?-a?test.pep?-p?proc?–f?axt?–k?-o?output

c.分歧时间计算:Divergenttime(T)?calculation.

????T=Ks/2λ.?λ?:?mean?5.1-7.1×10-9??.

d. Ka/Ks意义:

? Ka/Ks=1.中性进化。.

? Ka/Ks<>

?Ka/Ks>1.正选择。

Positively?selected?genes?and?produce?fitness?advantagemutations?to?evolve ?new?functions.

基因家族分析套路(三)

本节主要讲基因结构分析套路

1、Motif分析

使用软件MEME,命令如下:

??meme?sample.fa?-dna?–

revcomp?-nmotifs?10??-mod?zoops?-minw?6-maxw?50>meme_htmlFormat.ht ml

2、基因结构分布图

用法如下: