基因家族分析套路

格式：doc
大小：3.22 MB
文档页数：19

下载文档原格式

/ 19

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基因家族分析套路（一）

近年来，测序价格的下降，导致越来越多的基因组完成了测序，在数据库中形成了大量的可用资源。如何利用这些资源呢？今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析（现在这一领域可是很热奥）；

一、基本分析容

⏹数据库检索与成员鉴定

⏹进化树构建

⏹保守domain和motif分析.

⏹基因结构分析.

⏹转录组或荧光定量表达分析.

二、数据库检索与成员鉴定

1、数据库检索

1）首先了解数据库用法，学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了

⏹Brachypodiumdb:/

⏹TAIR:/

⏹Rice Genome Annotation Project ：/.

⏹Phytozome:/

⏹Ensemble:/genome_browser/index.html

⏹NCBI基因组数据库：/assembly/?term=

2）已鉴定的家族成员获取。

如何获得其他物种已发表某个基因家族的所有成员呢，最简单的就是下载该物种蛋白序列文件（可以从上述数据库中下载），然后按照文章中的ID，找到对应成员。对于没有全基因组鉴定的，可以下列数据库中找：

a. NCBI: nucleotide and protein d

b. EBI: .ebi.a

c. UniProtKB:/uniprot/

2、比对工具。一般使用blast和hmmer，具体使用命令如下：

⏹Local BLAST

formatdb–i db.fas–p F/T；

blastall–p blastp(orelse) –i known.fas–d db.fas–m 8 –b 2(or else ) e 1e-5 –o alignresult.txt.

-b:output two different members in subject sequences (db).

⏹Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in funct

ion. It has a higher sensitivity, but the speed islower. Command:

hmmbuild--informatafaknown.hmmalignknown.fa;

hmmsearchknown.hmmdb.fas>align.out.

3、过滤。

⏹Identity: 至少50%.

⏹Cover region: 也要超过50%或者蛋白结构域的长度.

⏹domain: 必须要有完整的该蛋白家族的。工具

pfamdb (/) 和

NCBI Batch CD- search. (/Structure/bwrpsb/bwrpsb .cgi).

⏹EST 支持

⏹ Blast and Hmmer同时检测到

4、通过上述操作获得某家族的所有成员

基因家族分析套路（二）

本次主要讲解在基因家族分析类文章中，进化部分分析的容。主要是进化树的构建与分析。

一、构建进化树的基本步骤

１、多序列比对. Muscle program.

２、Model 选择. 分别针对蛋白序列和核酸序列的模型选择程序。

ProtTest program for protein and ModelTest or Jmodetlest for DNA(user .qzone.qq./58001704/blog).

３、算法选择。三种. NJ, ML and BI.

４、软件选

择。 MEGA (bootstrap least 1000 replicates), phyML and Mrbayes (user. qzone.qq./58001704/main).

５、进化树修

饰. MEGA: view->options and subtree-> draw options. Also can be decor ated in word (user.qzone.qq./58001704/main)

二、具体步骤

2.1 多序列比对。一般采用muscle。因

为 MUSCLE is one of the best-performing multiple alignment programs a ccording to published benchmark tests, with accuracy and speed that a re consistently better than CLUSTALW.

2.2 模型选择。

对于用蛋白序列构建进化树的可以采用下面命令：

java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alignmfile.phy.

运行结果如下图

注意：

1）“.Phy” format. Only allow ten charaters.注意名字不能重复相同。2）AIC: Akaike Information Criterion framework.

3）Gamma distribution parameter (G): gamma shape.

3）proportion of invariable sites: I.

2.3 构建进化树

基因家族分析套路

相关主题

文档推荐

最新文档