利用 agriGO 网络服务进行 GO 富集分析
- 格式:pdf
- 大小:2.68 MB
- 文档页数:9
go富集展示方法Go enrichment display method is an essential technique in the field of bioinformatics. It helps researchers to understand the biological significance of a set of genes or proteins. By analyzing the functions and pathways that are over-represented in a specific gene list, researchers can gain insight into the underlying mechanisms of a biological process or disease.富集分析展示方法是生物信息学领域中的一项重要技术。
它帮助研究人员理解一组基因或蛋白质的生物学意义。
通过分析一个特定基因列表中过度表达的功能和途径,研究人员可以深入了解生物过程或疾病的潜在机制。
There are several different ways to visually display the results of a go enrichment analysis. One common method is to create a scatterplot, where each point represents a gene or protein and is plotted based on its enrichment score and significance. This allows researchers to quickly identify which genes or pathways are most enriched in their dataset.有几种不同的方式来可视化展示富集分析的结果。
OSTools-GO富集分析⼯具的使⽤与解读详细教程第⼀列为GO term的ID,点击GO ID,可显⽰这个GO term包含的所有基因:再点击这个GO ID,就可以链接到 官⽹,可以查看GO的具体信息。
第⼆列为GO term的功能描述;第三列前⾯的数字为差异表达基因中富集到这个GO term的基因数,后⾯的数字为差异表达基因的总数;第四列前⾯的数字为背景基因中富集到这个GO term的基因数,后⾯的数字为背景基因的总数;第五列为P value,即计算第三列的百分⽐与第四列的百分⽐相⽐,是否有显著差异。
我们将⼩于0.05的P value标红显⽰;第六列为多重检验校正后的Q value,也是把⼩于0.05的Q value标红显⽰。
这些GO term是按照P value从⼩到⼤排列的,⽅便⽼师找差异富集结果。
如在这个例⼦中,microtubule-based process为在差异基因中富集最显著的GO term,说明profile1中的基因显著富集于这个功能。
3. GO有向⽆环图(out.C/P/F.png)从整体上来看,GO注释系统是⼀个有向⽆环图(Directed Acyclic Graphs),GO各term之间的关系是单向的,GO term之间的分类关系有三种:is a、part of 和 regulates。
具体的解释可看这个帖⼦:。
富集分析结果会分别给出GO三个ontology(细胞组分、分⼦功能、⽣物过程)的有向⽆环图,如下图是⽣物过程的有向⽆环图:在这个图中,越接近根结点的GO term越概括,往下分⽀的GO term为注释到更细层级的term。
我们来看每个GO term⾥的含义:其中,Pvalue 这⼀⾏,如果⼤于0.05,即会显⽰NA,即图中只显⽰显著的P value。
形状的含义:程序默认把显著性最⾼的前10个GO term设置为⽅形,其他的GO term为圆形。
颜⾊的含义:颜⾊越深,代表该GO term越显著。
go enrichment score 计算
GO富集分析是一种用于解释基因列表的功能注释和生物学主题的方法。
富集分析通过比较给定的基因列表与基因功能注释数据库(例如Gene Ontology)中的期望基因集之间的显著性来确定特定功能的富集程度。
GO富集分析通常使用一些统计方法来计算富集得分,其中最常用的方法之一是基于超几何分布的Fisher's精确检验。
具体计算步骤如下:
1. 收集基因列表,并标记在目标物种上的相关基因。
2. 确定基因功能注释数据库和相应的基因功能注释(由GO词组成)。
3. 对于每个GO词,计算基因列表中包含的相关基因和整个基因注释数据库中包含的相关基因的数量。
4. 使用超几何分布计算给定GO词的富集得分,该分数表示从整个基因注释数据库中随机选择与目标基因列表中相同数量的基因的概率。
5. 应用多重比较校正方法(如Bonferroni校正或Benjamini-Hochberg校正)来调整富集得分的显著性水平。
Go富集分析的计算方法及具体实现可能因分析工具和软件平
台而异,因此可以根据所选工具和平台的指南来计算GO富集分数。
DAVID进行GOKEGG功能富集分析GOKEGG(Gene Ontology Knowledge-based Functional Enrichment Analysis)是一种常见的功能富集分析方法,用于研究蛋白质和基因的功能以及它们在生物学过程中的作用。
本文将介绍DAVID(Database for Annotation, Visualization and Integrated Discovery)进行GOKEGG功能富集分析的步骤以及其应用。
首先,进行GOKEGG功能富集分析的第一步是准备输入数据。
通常,这些数据是一组感兴趣的基因或蛋白质的标识符,例如Ensembl ID或基因符号。
这些标识符应该是已经过显著差异表达或其他相关分析的基因集。
第二步是将输入数据导入DAVID分析平台。
DAVID是一个广泛使用的在线功能注释和富集分析工具,可以免费获得并支持大量物种的功能注释分析。
在DAVID中,用户可以选择从多种数据库中查询感兴趣的基因集。
对于GOKEGG功能富集分析,用户可以选择进行基因本体(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析。
基因本体提供了一组用于描述基因和蛋白质功能的分类术语,而KEGG提供了关于生物化学通路和代谢途径的信息。
选择GOKEGG分析后,用户需要将输入数据上传至DAVID平台。
上传后,DAVID将返回一个富集分析结果页面,其中包含针对输入数据的功能富集分析结果。
富集分析结果包括三个主要部分:富集表、KEGG通路和GO分析图。
KEGG通路提供了与输入基因集相关的KEGG通路富集分析结果。
用户可以查看每个通路的富集得分和修正的P值,以及输入基因集中显著富集的基因列表。
通过查看KEGG通路,用户可以了解输入基因集中的基因在不同的代谢途径和生物化学通路中的参与程度。
综上所述,GOKEGG功能富集分析是一种有效的方法,可以帮助研究人员更好地理解基因和蛋白质的功能及其在生物学过程中的作用。
使用生物大数据技术进行基因富集分析的步骤详解生物大数据技术在基因组学研究中发挥着重要的作用。
基因富集分析是一种常见的生物信息学方法,可以用来发现基因或蛋白质在功能或通路中的富集性。
它可以提供有关基因或蛋白质在特定生物过程和通路中的重要功能信息。
本文将详细介绍使用生物大数据技术进行基因富集分析的步骤。
第一步:收集基因列表在进行基因富集分析之前,首先需要收集一个基因列表。
该基因列表可能是由实验室内的基因表达实验或高通量测序得到的差异表达基因或序列,也可以是从公共数据库或生物信息学工具获得的已知基因列表。
确保基因列表包含足够数量的基因,以便华丽的富集结果。
第二步:选择合适的生物数据库或工具选择合适的生物数据库或工具对基因进行富集分析是至关重要的。
常用的数据库包括Gene Ontology (GO)、Kyoto Encyclopedia of Genes and Genomes (KEGG)、Reactome和Molecular Signatures Database (MSigDB)等。
这些数据库提供了各种生物学功能和通路的信息,可以帮助我们理解基因在特定生物过程中的功能。
第三步:进行富集分析富集分析的目标是评估给定基因列表中的基因与所选择数据库中的功能或通路之间的相关性。
在进行富集分析之前,需要将基因列表与数据库中的基因进行比较。
根据比较结果,可以将富集分析分为两种类型:超几何富集分析和基于排列的富集分析。
第四步:进行统计测试在完成基因与功能或通路之间的比较后,富集分析将产生一个列表,其中包含对应功能或通路的p-value或调整的p-value。
这些p-value可以帮助我们确定哪些功能或通路在我们的基因列表中富集。
统计测试可以使用超几何分布、Fishers精确检验、Benjamini-Hochberg方法等来计算p-value或调整的p-value。
第五步:结果的可视化和解释根据统计测试结果,我们可以选择一定的p-value阈值来筛选出显著富集的功能或通路。
这才是生信学习的精髓啊!附如何进行基因通路富集分析很多初学者都不知道生物信息学怎么玩?其实生信自始至终都只在干两件事情,一是寻找差异,二是降维。
前者的意思是,生物学意义都隐藏在差异之中,最简单的比如肿瘤组织和肿瘤旁组织的差异,高表达某分子的组织和低表达某分子的组织。
进一步分析这些差异的基因、蛋白....但由于数据量大,你又无法全面的了解全景到底是各自发生了什么。
这时候就需要降维,广义的降维就是让看似无章的数据变得清晰!基因通路富集分析就是在一组基因或蛋白中找到一类过表达的基因或蛋白。
常见的就是GO功能注释和KEGG通路富集分析。
通过基因通路富集分析,我们可以初步分析基因可能参与的生物学过程或者信号通路。
1.DavidDavid是一个生物信息数据库,整合了生物学数据和分析工具,为大规模的基因和蛋白列表提供系统综合生物功能注释信息,帮助用户从中提取生物学信息。
David网址/基因通路富集步骤:第一步:打开网址,点击Functional Annotation第二步:输入基因集合,选择输入的类型第三步:选择物种,查看结果2.String研究蛋白之间的相互作用网络,有助于挖掘核心的调控基因,目前已经有很多的蛋白质相互作用的数据库,而string绝对是其中覆盖的物种最多,相互作用信息做大的一个,网址如下:/基因通路富集步骤:第一步:打开网站,输入基因集列表和选择物种第二步:选择数据库里面对应基因名称第三步:结果下载包括Go和KEGG通路3.KobasKobas是北京大学开发的用于注释和鉴定富集途径和疾病的数据库。
KOBAS(基于KEGG Orthology Based AnnotationSystem)是用于基因/蛋白质功能注释(注释模块)和功能集富集(Enrichment module)的Web服务器,给定一组基因或蛋白质,它可以确定通路,疾病和基因本体论(GO)术语是否显示统计学显着性。
网址:/index.php基因通路富集步骤:第一步:打开网址,选择Gene-list Enrichment第二步:选择输入类型,物种,输入基因列表,选择数据库第三步:结果4.Metascape它是一个提供基因注释和分析资源的门户网站,帮助生物学家理解一个或多个基因列表。
非模式基因GO富集分析:以玉米为例使用OrgDb模式生物做什么都简单,非模式生物则很多缺少注释,没有注释你就没法做,只能是借助于各种软件比如blastgo,自己跑电子注释。
但今天要讲的不是这种情况,很多物种还是有注释的,只是你有时候不知道该去那里下载,或者你有数据,却不知道该怎么用!很多的软件都是针对模式生物的,或者针对某一些类型的非模式生物,能够支持多种非模式生物,能够支持用户自己的注释文件的软件相对来讲,就非常少有了,然而clusterProfiler就是这类少有的软件之一。
获得OrgDb今天要讲的是通过OrgDb来做GO分析,这是clusterProfiler的enrichGO函数所支持的背景注释,Bioconductor自带20个OrgDb 可供使用,多半是模式生物,难道我们要做的物种不在这20个里面就不行了吗?显然不是的,clusterProfiler能支持的物种我自己都数不过来。
我们可以通过AnnotationHub在线检索并抓取OrgDb,比如这里以玉米为例:> require(AnnotationHub)> hub query(hub, 'zea')AnnotationHub with 2 records# snapshotDate(): 2017-04-25 # $dataprovider: Inparanoid8, ftp:///gene/DATA/# $species: Gibberella zeae, Zea mays# $rdataclass: Inparanoid8Db, OrgDb# additional mcols(): taxonomyid, genome, description,# coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags,# rdatapath, sourceurl, sourcetype # retrieve records with, e.g., 'object[['AH10514']]' title AH10514 | hom.Gibberella_zeae.inp8.sqlite AH55736 | org.Zea_mays.eg.sqlite通过检索,org.Zea_mays.eg.sqlite就是我们所要的OrgDb,可以通过相应的accession number, AH55736抓取文件,并存入了maize对象中,它包含了51097个基因的注释:> maize length(keys(maize))[1] 51097这个OrgDb,包含有以下一些注释信息:> columns(maize) [1] 'ACCNUM' 'ALIAS' 'CHR' 'ENTREZID' 'EVIDENCE' [6] 'EVIDENCEALL' 'GENENAME' 'GID' 'GO' 'GOALL' [11] 'ONTOLOGY' 'ONTOLOGYALL' 'PMID' 'REFSEQ' 'SYMBOL' [16] 'UNIGENE'转换ID我们可以使用bitr来转换ID,甚至于直接检索GO注释:> require(clusterProfiler)> bitr(keys(maize)[1], 'ENTREZID', c('REFSEQ', 'GO', 'ONTOLOGY'), maize) ENTREZID REFSEQ GO ONTOLOGY1 541612 XP_008648268.1 GO:0009507 CC2 541612 XP_008648268.1 GO:0051537 MF3 541612 XP_008648268.1 GO:0009055 MF4 541612 XP_008648268.1 GO:0046872 MF5 541612 XP_008648268.1 GO:0022900 BP6 541612 NP_001104837.2 GO:0009507 CC7 541612 NP_001104837.2 GO:0051537 MF8 541612 NP_001104837.2 GO:0009055 MF9 541612 NP_001104837.2 GO:0046872 MF10 541612 NP_001104837.2 GO:0022900 BP11 541612 XM_008650046.2 GO:0009507 CC12 541612 XM_008650046.2 GO:0051537 MF13 541612 XM_008650046.2 GO:0009055 MF14 541612 XM_008650046.2 GO:0046872 MF15 541612 XM_008650046.2 GO:0022900 BP16 541612 NM_001111367.2 GO:0009507 CC17 541612 NM_001111367.2GO:0051537 MF18 541612 NM_001111367.2 GO:0009055 MF19 541612 NM_001111367.2 GO:0046872 MF20 541612 NM_001111367.2 GO:0022900 BPGO富集分析> sample_genes head(sample_genes)[1] '541612' '541613' '541614' '541615' '541617' '541618'这里我只是简单地使用ID列表中前100个ENTREZ基因ID,也可以使用其它的ID,通过借助于bitr进行转换,或者通过给enrichGO 指定ID类型(keyType参数)。
GO,KEGG,DO富集分析有一个term注释了100个差异表达基因参与了哪个过程,注释完之后(模式生物都有现成的注释包,不用我们自己注释),计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。
黄晶_id122019.05.09 09:12:57字数 2,030阅读 30,597这是我听B站鲮鱼不会飞视频(GO,KEGG,DO富集分析)里的笔记哦~当然有的地方加上的是我自己的理解,如果哪里和视频上讲的不一样那是我自己发挥的,自行忽略....市面上公司做RNA-Seq的一般流程是:tophat2 ---> Cufflinks ---> Cuffdiff ---> R•tophat2是把reads回帖到基因组上;•Cufflinks在计算基因表达量;•Cuffdiff比较control和treatment找差异基因(生成一个数据框)后面的富集分析,一般只做GO分析,KEGG pathway 分析,最多再做一个DO分析,公司一般用的是已经成熟的database,这就导致数据分析不完全,而且公司用的数据库很多时候都已经过时了,所以我们需要自己学会做下游的富集分析。
GO分析的理论知识what is Gene Ontology(GO)? 基因"本体论"基因本体论是对基因在不同维度和不同层次上的描述。
对基因的描述一般从三个层面进行:•Cellular component,CC 细胞成分•Biological process, BP 生物学过程•Molecular function,MF 分子功能这三个层面具体是指:•Cellular component解释的是基因存在在哪里,在细胞质还是在细胞核?如果存在细胞质那在哪个细胞器上?如果是在线粒体中那是存在线粒体膜上还是在线粒体的基质当中?这些信息都叫Cellular component。
•Biological process是在说明该基因参与了哪些生物学过程,比如,它参与了rRNA的加工或参与了DNA的复制,这些信息都叫Biological process•Molecular function在讲该基因在分子层面的功能是什么?它是催化什么反应的?•So, we will have a gene annotation infarmation.•立足于这三个方面,我们将得到基因的注释信息。
GO 分析Gene Ontology可分为分子功能(Molecular Function),生物过程(biologicalprocess)和细胞组成(cellularcomponent)三个部分。
蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GOTerm。
该功能或者定位有可能与研究的目前有关。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。
此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。
结果一般以柱状图或者饼图表示。
1.GO分析根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。
GO分析对实验结果有提示的作用,通过差异基因的GO分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。
Pathway分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。
与GO 分析不同,pathway分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。
gene ontology enrichment analysisGeneOntology富集分析(GeneOntologyEnrichmentAnalysis)是一种生物信息学分析方法,用于解释基因集中的生物学功能和过程。
在基因表达、蛋白质组学等研究中,通常会得到大量基因或蛋白质列表,这些基因或蛋白质在不同的功能或过程中发挥着不同的作用。
通过进行基因集的富集分析,可以帮助研究人员确定哪些生物学功能或过程在研究中起着关键的作用,进而深入研究相关生物学过程的机制。
Gene Ontology(GO)是一个标准化的生物学术语体系,用于描述基因或蛋白质的功能、过程和细胞定位等信息。
该体系包括三个方面:分子功能(Molecular Function)、细胞组成(Cellular Component)和生物学过程(Biological Process)。
在进行GO富集分析时,通常需要使用一些生物信息学工具,如DAVID、Enrichr等,将基因或蛋白质列表映射到GO注释中,并计算每个GO术语的富集程度。
GO富集分析的结果通常包括了每个GO术语的富集水平、显著性水平、富集基因数等信息。
通过分析这些结果,可以得到一些重要的结论,如哪些GO术语在研究中起着重要的作用,哪些基因或蛋白质可能参与到这些生物学过程中。
此外,还可以得到一些新的假设和问题,如某些GO术语富集程度较低是否说明该生物学过程不重要,或者在富集基因中是否存在一些共同的关键基因等。
GO富集分析在生物信息学研究中应用广泛,可以用于研究基因调控、蛋白质相互作用、信号通路等多个方面。
其中,GO富集分析在基因表达芯片数据分析中应用较为普遍,可以帮助研究人员从大量的基因表达数据中快速发现重要的生物学过程和关键基因。
总之,GO富集分析是一种重要的生物信息学分析方法,通过对基因集中的功能和过程进行分析,可以帮助研究人员深入理解生物学过程和机制,为后续的实验研究提供重要的指导和参考。
go富集分析和kegg富集分析的区别
富集分析在食品分析中应用的较多。
其基本原理是根据待检样品对于特征值的偏离程度,将样品与某个标准物质进行比较而得出样品浓度的结论。
因此,它又称为基于测量的分析技术。
根据分析目的的不同,可以采取不同的富集方式及操作条件来提高分析精度。
go 富集分析是统计学上的一个名词,是在数理统计的基础上发展起来的,目前国际公认的几个著名的 go 富集分析系列有:美国加利福尼亚大学洛杉矶分校研制成功的——满足科研需求的免疫亲和
色谱,它采用气相色谱的固定相,以气相色谱的进样器完全替代了液相色谱的进样器,并设计了计算机控制的自动加样装置,从而使仪器的重现性达到很高水平。
这项技术适合于对人类生命体内药物或者生化试剂的含量进行富集分析。
其优点包括样品处理量小、样品需求少等;样品收集效率高,有利于实验室的资源共享;分析过程灵敏快速,易操作;使用电子计算机操作,分析周期短;分析范围广泛等。
富集分析的方法主要有两种:变量相关法和直接测定法。
变量相关法即将分析对象看做被试,然后分别将各组对照的响应值与其所处的环境因素值(如温度)进行相关,最终通过加权统计的方法获得各组的回归方程。
直接测定法则通常是利用具备特殊的光、电、磁场吸附能力的薄膜将欲测定的化合物分开,并选择适当波长的光线照射薄膜表面,再依次将薄膜转移至带有电极的毛细管内,最后再通过极谱、质谱等手段对其成分和含量进行确证。
相对而言,直接测定法对操作的严格性要求更高。
R语言GEO数据挖掘步骤四富集分析KEGGGO 富集分析是一种常用的数据挖掘方法,用于识别基因或蛋白质集合中富含的功能或通路。
在R语言中,我们可以使用一些包来进行富集分析,如clusterProfiler、enrichplot和org.Hs.eg.db等。
在本文中,将以KEGG和GO富集分析为例,介绍如何使用这些R语言包进行富集分析。
首先,我们需要进行数据准备。
一般来说,我们需要一个基因表达矩阵或蛋白质表达矩阵,以及一个用于注释基因ID和通路或功能信息的数据库。
在这里,我们以一个基因表达矩阵为例,假设我们已经通过生物实验得到了一个差异表达基因列表,保存在一个名为"DEG.csv"的文件中。
接下来,我们需要导入相应的R语言包,并读取基因表达矩阵和数据库。
首先,安装clusterProfiler包并加载它:```install.packages("clusterProfiler")library(clusterProfiler)```然后,我们加载enrichplot包和org.Hs.eg.db包,并设置数据库名称:```library(enrichplot)library(org.Hs.eg.db)database <- "org.Hs.eg.db"```接着,我们读取差异表达基因列表和KEGG数据库:```deg <- read.csv("DEG.csv", header = TRUE)geneList <- deg$GeneSymbolkegg <- kegg.list```然后,我们进行KEGG富集分析:```kegg.enrich <- enrichKEGG(gene = geneList, organism = "hsa", pvalueCutoff = 0.05)```在这里,我们指定了差异基因列表geneList和物种名称"hsa",并设置了一个P值阈值0.05、通过调用enrichKEGG函数,我们可以获得KEGG富集结果。
终极篇:3分钟搞定GOKEGG功能富集分析-柱状图在干货预警:3分钟搞定GO/KEGG功能富集分析(2),给大家详细讲解了DAVID网站的使用,通过分步操作,带领大家学习了使用DAVID工具来进行GO和KEGG分析。
今天,我们重点讲解如何将DAVID中的功能富集的结果转换成正式的Figure,有请小猎豹。
多图&多视频预警,轻点可看详细内容在干货预警:3分钟搞定GO/KEGG功能富集分析(2)文章的结尾,我们得到了一个基因列表的功能富集结果(如下图所示)。
但如果想把结果最展示在文章中(箭头所指),还需要一些绘图的操作。
今天,我们就重点来讲解如何将DAVID中的功能富集的结果转换成正式的Figure。
阅读文献时,大家遇到最多的就是柱状图(一般是水平柱状图),柱子的高低与p-value相关,柱子越高则越显著。
我也问过很多人,喜欢哪种图片来展示功能富集的结果,曾经有人跟我说,特别喜欢那种大大小小的彩点图……我想了一下,觉得这位耿直的同学说的应该是高级气泡图,想必有不少人见过气泡图,却不知道应该怎么做,连现成的工具也找不到。
那么,今天的绘图操作,我们就分为两部分:柱状图 and 气泡图,来给大家详细讲讲如何通过这两种图来展现GO/KEGG功能富集的结果。
(由于微信公众平台对视频数目的限制,无奈把柱状图和气泡图分为两篇讲解,需要气泡图的同学请关注“科研猫”公众号查看)柱状图本文所用的数据即上次演示DAVID操作时所用的数据(大家可以通过识别文末的二维码,向“折耳猫小姐姐”索取)。
话说柱状图的制作相当简单,方法也众多,比如Excel,Graphpad prism,SPSS,SAS,Matlab,R等众多软件,这里我们就说最简单实用的—Excel。
下面是实战演示,依旧是分步讲解:1Step1:保存数据。
将DAVID的结果保存到我们的本地电脑当中,保存文件我推荐用文本文件,即txt文件。
原因是用各种编程语言和软件处理起来比较方便。
富集分析的原理和应用1. 富集分析的介绍富集分析是一种常用的生物信息学方法,用于确定给定基因集中的功能相关的生物学过程、通路或特定的分子功能。
它可以帮助我们理解基因集在生物学上的功能特征,并提供新的洞察力来解释实验数据。
2. 富集分析的原理富集分析的核心原理是基于假设,即在给定的基因集中,相关的基因会聚集在特定的生物学过程、通路或分子功能中。
通过将基因集与已知的功能注释数据库进行比较,可以鉴定与给定基因集显著富集的功能项。
3. 富集分析的步骤富集分析通常包含以下步骤:3.1 数据准备首先要准备待分析的基因列表,这些基因通常是通过高通量测序、基因芯片等技术获得的。
同时还需要获取功能注释数据库,例如Gene Ontology (GO)数据库等。
3.2 统计分析基因集富集分析的核心是统计分析。
通常采用超几何分布、卡方检验或Fisher精确检验等方法,计算每个功能项的富集P值。
P值表示该功能项与给定基因集的关联程度,较小的P值意味着更显著的富集。
3.3 多重检验校正由于进行多个功能项的比较,需要对P值进行校正,以控制错误发现率。
常用的多重检验校正方法包括Bonferroni、Benjamini-Hochberg等。
3.4 结果解释和可视化根据富集分析的结果,通常会选择显著富集的功能项进行进一步的解释和分析。
可以通过图表、图形和网络等方式进行结果可视化,以便更好地理解和解释结果。
4. 富集分析的应用富集分析在许多生物学研究领域中都得到了广泛的应用,包括以下几个方面:4.1 基因功能注释富集分析可以帮助我们确定一组基因的功能特征,从而更好地理解这些基因在生物学上的作用和相互关系。
通过富集分析,我们可以发现这些基因是否在某些生物过程、生物通路或者分子功能中富集。
4.2 疾病研究富集分析可以帮助我们理解与特定疾病相关的基因表达特征和生物学功能。
通过将疾病关联基因与功能注释数据库进行比较,我们可以鉴定与该疾病相关的生物学过程、通路或者分子功能。
go富集分析基于16s为了有效的从数据中提取模式,在对数据进行挖掘时往往需要多次采用不同的分析算法和不同的统计方法。
但由于 go 语言本身没有类似于 Matlab 的函数,而这些分析过程通常都很耗时,因此我们可以使用 Go 来代替这些工作。
为了提高分析速度,可以先把数据存储在内存里,然后通过关键字“ FIND_ PREMIUM”直接读取数据中的模式,再根据模式的性质进行下一步的分析,这样做比起通过外部的第三方工具读取或者直接调用二叉树来得更快捷。
富集分析是一种基于16s 信息的提取方法,它将所有能够提供线索的信息聚合到一起,并且由于它与原始数据在位置上邻近,因此非常适合于提取这些模式的特征。
Go 就利用了这个优势,对数据进行分块处理之后,每次取出一小块进行分析,只要相邻的两块包含足够多的信息,则这个区域的线索就会被保留。
另外, Go 的弱分析功能也让它适用于数据量巨大、关系复杂的情况。
富集分析是一种基于16s 信息的提取方法,它将所有能够提供线索的信息聚合到一起,并且由于它与原始数据在位置上邻近,因此非常适合于提取这些模式的特征。
Go 就利用了这个优势,对数据进行分块处理之后,每次取出一小块进行分析,只要相邻的两块包含足够多的信息,则这个区域的线索就会被保留。
另外, Go 的弱分析功能也让它适用于数据量巨大、关系复杂的情况。
在某一时刻,数据是由某一个特定模式产生的。
我们把最终形成的模式叫做主要特征。
然后,把主要特征的值乘以一个常数(称为支持度),该常数表示对这个模式的反应是否达到预期水平。
然后,把模式重新转换回原始数据。
如果某个特征符合模式,那么则说明对该模式具备支持度。
如果某个特征无法匹配模式,则说明模式与该特征不相关联。
对于任何支持度等于零的模式,在数学上可以看作是独立的,其所对应的值被称为边界特征,一般来说,该特征包含在原始数据中。
当我们想知道某一模式的概率或确切的机率时,通常可以考虑这个模式所对应的边界特征。
使用topGO进行GO富集分析topGO是一个专门用于做GO富集分析的R包,它默认从中读取GO的分类和结构信息,结合富集分析的结果,它可以画出如下所示的GO有向无环图除了GO富集结果可视化这一特点,topGO还提供了多种富集分析的统计方法,示意如下甚至支持自定义统计算法和模型,当然,常规情况下我们使用经典的费舍尔精确检验就可以了。
topGO的核心是构建一个3种元素1.基因组所有的基因2.基因组所有基因对应的GO注释3.GO之间的分类和结构信息基因的列表在R中用向量存储,topGO取基因的标识符,而这个向量的内容是一个只包括第一行为names属性,这里为entrez id, 第二行为向量的内容。
基因的GO注释,可以从Bioconductor提供的注释包中获得,比如human就可以从也可以从文件中读取。
所有GO的分类和结构信息是从R包中读取的,所以是没有GO官网更新的快的,这也是用这种R包的缺点。
用human基因构建topGOdata的代码如下的3大类别独立,所以GO其实分为3个子数据库,做富集分析时,不同类别分开做。
GO进行过滤,GO最少需要包含10个基因才会对该GO进行分析。
GOBioconductor提供的包对于那些没有现成的注释包的物种,可以从文件中读取所有基因的GO注释信息,文件内容示例如下取,从文件读取注释信息,并构建topGOdata的代码如下构建好topGOdata类型的对象后,可以直接进行富集分析,代码如下富集分析的结果如下构建富集GO的有向无环图有两种方式,第一种top5个GO的层次结构,示例如下GO编号是都会标注的,第二行为GO的描述信息,对应的值为第三行为富集分析的p值,对应的值GOGO编号,如果只想要标记其中某一项内容,设置为对应的值即可。
另外一种用法会在工作目录直接生成pdf文件,代码如下PDF文件名的前缀, 更多的用法请参考官方文档。
·end·。
利用agriGO网络服务进行GO富集分析苏震,徐文英,杜舟,周鑫1.分析目的随着生命科学的发展,越来越多的基因功能被实验验证或者预测推导,但如何规范地注释这些基因是一个难题。
基因本体论(Gene Ontology,GO)是一个在生物信息学领域中广泛使用的本体,应用于基因的功能注释和富集化分析。
GO是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表,由Gene Ontology组织(/)开发并且维护。
并且,GO是对基因属性特征的客观描述,独立于任何物种或者细胞类型。
因此,我们利用GO,可以对不同物种、不同细胞类型下的基因功能进行规范的描述,避免了沟通上的不便,也可以将隐藏在文献中的基因功能信息更加有效地提取出来。
在动植物功能基因组的研究中,高通量技术的使用产生了海量的组学数据,比如在不同发育期、不同逆境处理下的转录组数据集可以多至上千个表达谱,如何分析和解释这些数据成为摆在生物学家面前的一个难题,而使用GO对基因功能注释进行富集分析,是一套较好的解决方案。
agriGO(GO Analysis Toolkit and Database for Agricultural Community)是一个专注农业物种(以植物物种为主)的GO功能注释与分析的网络数据库与在线分析平台。
agriGO采用的是一套具有完整结构的控制词汇集,使得对该系统可以更好地用于统计和运算,为生物信息学、生物统计学的研究带来了很大的便利。
2.分析工具Gene Ontology富集分析工具agriGO,网址:/agriGO//agriGOv2/参考文献:Zhou Du, Xin Zhou, Yi Ling, Zhenhai Zhang, and Zhen Su. (2010) agriGO: a GO analysis toolkit for the agricultural community. Nucleic Acids Research 38: W64-W70.Tian Tian, Yue Liu, Hengyu Yan, Qi You, Xin Yi, Zhou Du, Wenying Xu, Zhen Su; (2017) agriGO v2.0: a GO analysis toolkit for the agricultural community, 2017 update. Nucleic Acids Research. doi: 10.1093/nar/gkx3823.操作步骤采用agriGO平台提供的实例,练习agriGO中主要的分析工具(见/agriGO/analysis.php):Singular Enrichment Analysis (SEA) 、Parametric Analysis of Gene Set Enrichment (PAGE) 和Cross comparison of SEA (SEACOMPARE)。
3.1 SEA分析:对一组目标基因中对应的GO词条进行富集分析所用的测试数据是选自拟南芥ATH1基因芯片的168个探针组ID(probeset ID),这些探针组在拟南芥受冷处理后,在地上部分的表达水平呈现上调趋势。
在分析中,提交这些探针组作为目标列表到agriGO中(见图1),并选择Affymetrix ATH1 Genome Array (GPL198)作为背景,其它参数使用默认参数。
分析的结果页面在图2中。
图1 SEA分析输入页面在结果页面中,用户可以看到四大模块:分析总结(Analysis Brief Summary),图形结果(Graphical Results),GO flash表单(GO flash Chart),详细信息(Detail information)。
在分析总结模块中,包括了此次分析的识别号、物种、背景、GO注释目标列表成员等信息及相关的链接。
在图形模块中,则将分析结果以层级树状图形结果(图3)。
图2 SEA 分析结果界面截图在层级树状图中,GO词条以内含详细说明的方框表示,根据GO词条的富集显著程度,用不同的颜色来表示(无显著性为白色,有显著性则随着显著程度增加而颜色加深),同时,根据词条间的内在层级关系排布词条,并且用不同线型的线连接词条。
如果用户点击这些方框,将进入该词条的详细信息页,该页面中有目标列表中被该词条所注释的基因或者探针的详细信息。
图3 SEA 分析产生的生物过程下的GO 词条层级树状图。
图中用方框表示某个GO 词条,并包含了该词条的GO 识别号、定义、统计信息。
如果某词条是统计显著的(校正后p 值小于或等于0.05)则用颜色标记出来,不显著的词条用白色标记。
方框中的颜色深度跟词条的富集显著度成正比。
实心线、虚线、点状线分别表示有两个、一个或没有显著富集词条在线的两端。
该图的排列方式是从上往下。
图4 GO三大分类中显著性富集的词条生成的flash柱状图。
该图中,Y轴代表某词条对应基因占总数的比例,反应了词条的富集程度。
该比例的计算方式是把查询列表中对应某词条的基因数除以查询列表的基因总数,背景中的比例也是用相同的方法计算出来的。
两组比例用不同的颜色分别来表示。
X轴代表GO词条。
用户还可以从GO词条的三个类中任意选取词条来做柱状图表(动态flash图表,见图4)并进行比较分析。
在默认模式下,所有能有检测到的三个根词汇(GO:0008150 biological process, GO:0003674 molecular function 和GO:0005575 cellular component)的下级词汇(第二层级词条),以及有统计显著变化的第三层级词条被用来生成一个flash的柱状图。
该工具可以自由定制,用户可以按个人要求进行调节直接制作出合适的图表。
3.2 PAGE分析:从带有表达变化倍数的目标基因中找到变化显著的GO词条图5 PAGE分析输入页面这里使用的测试数据(请用Example 2,见图5)是利用层级聚类的方法从拟南芥冷处理的ATH1基因芯片数据中选取的1921个探针组,对于每个探针组都有6个时间点下的冷处理表达值与对照组表达值的比值(log2转换,其热图可见图6)。
图6 PAGE分析输入样本来自冷处理下的六个时间点(0.5, 1, 3, 6, 12 和24 小时),共选取了1921 个在冷处理后期显示有上调信号探针组图7 PAGE 分析结果界面局部截图PAGE分析结果页面与SEA的页面既有相同的地方也有不同之处,这主要是因为PAGE结果页面自身支持不同时间点或者不同处理的分析结果的比较,而SEA则需要使用SEACOMPARE工具才能实现。
PAGE结果页面(见图7)的结构和SEA分析的结果页面相似,其中一个特色的工具便是HTML表单模块(Colorful text mode),利用该模块,GO词条在不同时间点或者处理条件下的变化显著性可以用HTML表单的形式显示出来。
在此表单中,红色表示该GO词条显著上调,蓝色则表示显著下调,而颜色越深则越显著。
为了能够令结果更加简明,用户可以自主地选择GO词条来生成简短的HTML表单(图8)。
在该图中,我们可以发现逆境和刺激相关的词条是上调的,并在后三个时间点逐步增强(6h,12h,24h),这跟我们的预期是相符合的。
有趣的是,转录因子相关词条(例如,GO:0030528和GO:0003700)在相对较早的阶段(6h)出现上调,在处理12小时之后到达顶点,但是在最后时间点(24h)却没有显著的上调。
另外一个有趣的发现是,两个与刺激相关(response to stimulus)的词条,GO:0042221和GO:0050896在极早阶段(0.5h)就处在了显著下调的状态。
通过以上分析,我们可以看到HTML表单结果可以帮助用户快速有效地挖掘出PAGE分析结果中的生物学含义。
图8 六个时间点的1921 探针组在完成PAGE 分析之后使用HTML 表单模块显示结果。
有颜色的方块代表该词条在某一时间点上调或下调的程度。
其中黄红色系,青蓝色系、灰色分布表示该词条是上调、下调还是不显著。
颜色的深度由词条的显著程度决定的,每个词条的详细信息都包含在表单中。
图9 PAGE分析两时间点比较的层级树状图。
这里展示了冷处理下的两个时间点(0.5和24小时)的层级树状图比较。
为了显示词条可能的状况,我们使用了三种不同的颜色系统。
其中黄红系统表示该词条在两个时间点都上调(双层边框)或者在一个时间点上调(单层边框)。
类似的设置也应用与青蓝色系但表示的是下调的词条。
紫色系统则表示该词条在一个时间点上调另外一个时间点下调。
与SEA分析类似,PAGE分析也支持层级树状图。
更进一步,PAGE能支持两个时间点或处理之间的分析结果展示(图9)。
当有两个时间的时候,PAGE会采用三套颜色体系:黄红色系统,青蓝色系统、紫色系统分别代表:两个时间点该词条上调、下调、上下调不一致。
(多于两个时间点或处理时,由于需要的颜色体系可能过多或过于复杂,易导致混淆而使用户查看困难,故agriGO不予支持。
)4. 思考和练习4.1 GO功能富集分析能提供什么样的信息,试举例说明。
这些信息对我们的实验研究可能会有什么帮助?4.2 SEA分析和PAGE分析有什么异同点?怎样通过SEA工具实现对不同时间点或者逆境处理的分析,尝试一下利用SEACOMPARE工具实现的HTML表单模块,来展示对多个时间点或者处理分析结果。
相关阅读文献:[1]Zhou Du, Xin Zhou, Yi Ling, Zhenhai Zhang, and Zhen Su. (2010) agriGO: a GO analysis toolkitfor the agricultural community. Nucleic Acids Research 38: W64-W70.[2]Tian Tian, Yue Liu, Hengyu Yan, Qi You, Xin Yi, Zhou Du, Wenying Xu, Zhen Su; (2017) agriGOv2.0: a GO analysis toolkit for the agricultural community, 2017 update. Nucleic Acids Research. doi: 10.1093/nar/gkx382[3]Xin Zhou, Zhen Su. (2007) EasyGO: Gene Ontology-based annotation and functionalenrichment analysis tool for agronomical species, BMC Genomics 8:246.[4]Liu F, Xu W, Wei Q, Zhang Z, Xing Z, Tan L, Di C, Yao D, Wang C, Tan Y, Yan H, Ling Y, Sun C, XueY, Su Z. (2010) Gene Expression Profiles Deciphering Rice Phenotypic Variation between Nipponbare (Japonica) and 93-11 (Indica) during Oxidative Stress. PLoS ONE 5(1): e8632. [5]Wenying Xu, Rendong Yang, Meina Li, Zhuo Xing, Wenqiang Yang, Guang Chen, Han Guo,Xiaojie Gong, Zhou Du, Zhenhai Zhang, Xingming Hu, Dong Wang, Qian Qian, Tai Wang, Zhen Su, Yongbiao Xue. (2011) Transcriptome Phase Distribution Analysis Reveals Diurnal Regulated Biological Processes and Key Pathways in Rice Flag Leaves and Seedling Leaves.PLoS ONE 6(3): e176133.[6]Dongxia Yao, Xueyan Zhang, Xinhua Zhao, Chuanliang Liu, Chunchao Wang, Zhenghai Zhang,Chaojun Zhang, Qiang Wei, Qianhua Wang, Hong Yan, Fuguang Li, Zhen Su. (2011) Transcriptome analysis reveals salt-stress-regulated biological processes and key pathways in roots of cotton (Gossypium hirsutum L.). Genomics. 98: 47–55.[7]Xueyan Zhang, Dongxia Yao, Qianhua Wang, Wenying Xu, Qiang Wei, Chunchao Wang,Chuanliang Liu, Chaojun Zhang, Hong Yan, Yi Ling, Zhen Su, Fuguang Li. (2013) mRNA-seq analysis of the Gossypium arboreum transcriptome reveals tissue selective signaling in response to water stress during seedling stage. PLoS ONE.doi:10.1371/journal.pone.0054762.。