Gene Ontology(GO)简介与使用介绍
- 格式:pdf
- 大小:477.81 KB
- 文档页数:8
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.基因本体论(gene ontology)的建立现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。
这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。
举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。
但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。
Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。
这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。
从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。
GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。
这种定义语言具有多重结构,因此在各种程度上都能进行查询。
举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。
这种结构允许在各种水平添加对此基因产物特性的认识。
基因本体论(go)功能注释 gene ontologyannotation基因本体论(Gene Ontology,简称GO)是一种用来描述基因功能的标准化系统。
GO的功能注释则是使用GO术语为基因或蛋白质序列进行注释,帮助科学家理解生物体内基因的功能和相互关系。
本文将介绍基因本体论(GO)的概念和作用,以及基因本体论功能注释的流程和应用。
一、基因本体论(GO)的概念和作用基因本体论(GO)是一种标准化的词汇系统,用于描述基因和蛋白质的功能、过程和组件。
GO包含三个主要的本体:分子功能(Molecular Function)、生物过程(Biological Process)和细胞组件(Cellular Component)。
每个本体都包含一系列术语和相应的定义,科学家可以根据这些术语和定义来描述基因的功能。
基因本体论的作用是帮助科学家对基因和蛋白质进行分类和理解。
通过将基因和蛋白质注释到GO术语上,科学家可以更准确地了解它们的功能、参与的生物过程以及位于细胞的哪个组件。
这对于研究基因的功能以及疾病的发生和发展有着至关重要的意义。
二、基因本体论功能注释的流程基因本体论功能注释是指将基因或蛋白质序列与基因本体论术语进行关联的过程。
下面是一般的基因本体论功能注释流程:1.数据预处理:获取待注释基因或蛋白质的序列数据,排除冗余数据和噪音数据。
2.基因本体论术语获取:从基因本体论数据库中获取相应的术语,包括分子功能、生物过程和细胞组件。
3.序列比对:将待注释的基因或蛋白质序列与已知序列进行比对,找出相似序列。
4.注释:根据序列比对的结果,将相似序列的注释信息转移到待注释序列上。
5.术语关联:根据注释信息,将待注释基因或蛋白质与相应的基因本体论术语进行关联。
6.结果验证:对注释结果进行验证和统计分析,评估注释的准确性和可靠性。
三、基因本体论功能注释的应用基因本体论功能注释在生命科学研究中有着广泛的应用。
以下是一些常见的应用领域:1.基因功能研究:通过注释基因的功能,科学家可以更好地理解基因在细胞中的作用,从而揭示生物体内复杂的生物过程。
GO功能注释⽂章转载于 Original 2017-06-12 liuhui ⽣信百科相似的基因在不同物种中,其功能往往保守的。
显然,需要⼀个统⼀的术语⽤于描述这些跨物种的同源基因及其基因产物的功能,否则,不同的实验室对相同的基因的功能的描述不同,将极⼤限制学术的交流。
⽽ Gene Ontology (GO) 项⽬正是为了能够使对各种数据库中基因获基因产物功能描述相⼀致的努⼒结果。
所谓的 GO,是⽣物学功能注释的⼀个标准词汇表术语(GO term),将基因的功能分为三部分:基因执⾏的分⼦功能(Molecular Function)基因所处的细胞组分(Cellular Component)基因以及参与的⽣物学过程(Biological Process)不同的 GO term 通过有向⽆环图关联起来,如下图所⽰:可以看出,不同的 GO term 间的关系由三类:is_a、part_of和regulates。
如regulation of cell projection assembly是⼀种⽣物学过程,是regulation of cell projection organization中的⼀类(is_a),还调节(regulates)cell projection assembly;⼜如cellular component assembly是celluar component biogenesis的⼀部分(part_of)。
值得注意的是,这些关系都是有⽅向的,即反过来不成⽴,因⽽叫做有向⽆环图。
⽬前,GO 注释主要有两种⽅法:(1)序列相似性⽐对(BLAST)(2)结构域相似性⽐对(InterProScan)这⾥以序列相似性⽐对为例,简单介绍 GO 注释的步骤:将基因序列与 swiss-prot 蛋⽩质数据库进⾏ BLAST (blastp 或者 blastx,这篇⽂章介绍了如何做 BLAST 分析:)⽐对,得到如下结果:c49_g1_i1 RNF13_MOUSE 52.00 50 23 1 17 166 240 288 2e-11 65.5c72_g1_i1 RS25_NEUCR 78.72 94 20 0 375 94 1 94 1e-32 116c75_g1_i1 POLX_TOBAC 45.28 53 29 0 162 4 457 509 1e-08 55.1c86_g2_i1 POLX_TOBAC 46.43 112 60 0 339 4 879 990 2e-30 120c91_g1_i1 BUB1_ARATH 55.71 70 28 2 61 264 289 357 1e-14 73.6c143_g1_i1 STL1_YEAST 31.98 172 85 4 6 518 407 547 6e-17 82.8c150_g1_i1 CST26_YEAST 37.63 93 38 3 223 5 142 234 6e-10 58.2c150_g2_i1 YHOE_SCHPO 42.67 75 41 1 227 3 54 126 5e-16 74.7c156_g2_i1 EXOL2_ARATH 47.17 53 28 0 299 141 229 281 6e-06 47.0c169_g1_i1 SPT5_ASPFU 60.98 82 31 1 20 262 725 806 2e-18 84.0其中,第⼆列 swiss-prot 蛋⽩质数据库序列的 ID(UniProtKB ID)。
gene Ontology (基因本体论)gene ontology为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。
Gene Ontology就是为了解决这种问题而发起的一个项目。
Gene Ontology中最基本的概念是term。
GO里面的每一个entry都有一个唯一的数字标记,形如GO:nnnnnnn,还有一个term 名,比如"cell", "fibroblast growth factor receptor binding",或者"signal transduction"。
每个term都属于一个ontology,总共有三个ontology,它们分别是molecular function, cellular component 和biological process。
一个基因product可能会出现在不止一个cellular component里面,也可能会在很多biological process里面起作用,并且在其中发挥不同的molecular function。
比如,基因product "cytochrome c" 用molecular function term描述是"oxidoreductase activity",而用biological process term描述就是"oxidative phosphorylation"和"induction of cell death",最后,它的celluar component term是"mitochondrial matrix"和"mitochondrial inner membrane"。
表达谱数据的 GO分析和聚类分析王琼萍上海交通大学GO(gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库。
GO 是多种生物本体语言中的一种,旨在建立一个能阐释各种物种的基因以及基因产物。
这个数据库最开始起源于三个模式生物的数据库:果蝇基因组数据库(Drosophila)、酵母基因组数据库(Saccharomyces Genome Database,SGD)、小鼠基因组数据库(Mouse GenomeDatabase,MGD)。
在这之后,在基因本体联合会成员的努力下,将GO 数据库扩展到了植物、动物、微生物等世界范围内各个主要的数据库。
GO 数据库建立了具有三层结构的定义方式来描述基因及其产物的生物学过程、细胞组分及分子功能,对不同信息源的信息进行整合,以DAG(有向无环图)结构组织起来作为多个分支,节点的高低也代表了每个节点的意义的广泛程度。
每个父项(parent terms)下包含若干子项(children terms),分支越远,匹配的GO 条目就越具体。
在这个层级结构中,一个生物学注释可以由一个基因集表示。
这个数据库的建立为基因功能数据挖掘提供了新的思路。
一套基因本体,其实也就是一套基因的树状结构。
GO 数据库及其序列分析程序的问世,使得差异基因的功能分析变得更加高效、准确。
目前,已经有很多可以供畜牧研究者免费使用的GO资源,如AmiGo,它可以分析一个基因的GO 术语,也可以分析多个基因。
另外,还有Onto express、DAVID、Gostat 等。
差异基因的GO 分析关键在于利用统计学方法进行基因富集,常用的方法是Fisher 的精确概率法或卡方检验。
Fisher 的精确概率法利用超几何分布(hypergeometric distribution)的原理推断每个基因集中差异表达基因的比例是否与整个基因芯片上差异表达基因的比例相同。
差异基因go注释差异基因是指在不同生物体或者同一生物体不同组织、不同发育时期以及在不同条件下表达水平发生明显变化的基因。
这些差异基因的研究对于深入理解生物体的发生发展、适应环境变化以及疾病的发生机制具有重要意义。
为了更好地理解差异基因的功能,科研人员常常对差异基因进行GO(Gene Ontology)注释。
GO注释是一种常见的功能注释方法,它根据基因的功能特征将其分类并进行注释。
GO注释基于GO数据库,该数据库将基因功能划分为三个主要方面:生物学过程(Biological Process)、分子功能(Molecular Function)和细胞组分(Cellular Component)。
通过GO注释,可以为差异基因的功能特征提供详细的描述和分类,从而为后续的生物信息分析和研究提供基础。
在进行差异基因GO注释之前,首先需要进行差异分析。
差异分析是通过比较不同样本间基因表达水平的差异,筛选出差异显著的基因。
差异分析常用的方法包括t检验、方差分析和基因表达差异倍数筛选等。
这些方法可以帮助我们确定哪些基因是差异表达的,为后续的功能注释提供基础。
差异基因GO注释的流程通常包括以下几个步骤:1. 数据准备:准备进行差异基因GO注释所需的数据,包括差异基因表达矩阵和差异基因列表。
2. GO数据库下载:从相应的数据库中下载最新的GO注释文件,常用的数据库包括Gene Ontology Consortium、UniProt和NCBI等。
3. 数据筛选和预处理:根据差异基因列表,筛选出在GO数据库中存在注释信息的基因。
4. GO注释:将差异基因与GO数据库中的功能项进行匹配,得到差异基因的功能注释信息。
5. GO富集分析:对差异基因的功能注释信息进行统计分析,找出在某个功能项上显著富集的基因集合。
6. 结果展示:将GO注释和GO富集分析的结果进行整理和可视化展示,方便研究人员进行进一步的分析和解读。
当然,差异基因GO注释的具体方法和流程还需要根据实际研究的需求和数据情况进行调整和优化。
Go通路基因提取1. 简介Go通路(Gene Ontology)是一种用于描述基因功能、组成和定位的标准化词汇表。
它由三个主要部分组成:分子功能(Molecular Function)、生物过程(Biological Process)和细胞组分(Cellular Component)。
通过对基因进行Go通路注释,可以帮助研究人员理解基因在细胞中的功能以及其在生物过程中的作用。
本文将介绍如何从已有的基因表达数据中提取与Go通路相关的基因,并进行进一步分析和解释。
2. 数据准备在进行Go通路基因提取之前,我们需要准备以下数据:•基因表达数据:可以是RNA-seq或microarray等技术得到的表达矩阵,其中每行代表一个基因,每列代表一个样本。
•Go通路注释文件:包含了每个基因对应的Go通路信息。
3. 提取Go通路相关基因3.1 数据预处理我们需要对基因表达数据进行预处理。
常见的预处理步骤包括去除低表达基因、归一化、批次效应校正等。
这些步骤可以根据具体需求选择性地进行。
3.2 基因筛选根据Go通路注释文件,我们可以筛选出与特定Go通路相关的基因。
一种常见的方法是使用基因集富集分析工具,如GSEA(Gene Set Enrichment Analysis)或DAVID(Database for Annotation, Visualization and Integrated Discovery)。
这些工具可以根据统计学方法判断哪些基因集在给定的样本中显著富集。
3.3 结果解释通过基因筛选后,我们可以得到与特定Go通路相关的基因列表。
这些基因可能在某种生物过程中起着重要的作用。
进一步分析这些基因的功能和相互关系,可以帮助我们理解该生物过程的机制。
4. 结果可视化为了更好地理解和展示提取到的Go通路相关基因,我们可以使用各种可视化工具。
以下是一些常用的可视化方法:•热图:用于显示不同样本中基因表达水平的差异。
Gene OntologyGO分析Gene Ontology可分为分子功能Molecular Function生物过程biological process和细胞组成cellular component三个部分。
蛋白质或者基因可以通过ID 对应或者序列注释的方法找到与之对应的GO号而GO号可对于到Term即功能类别或者细胞定位。
参考网站 功能富集分析功能富集需要有一个参考数据集通过该项分析可以找出在统计上显著富集的GO Term。
功能或者定位有可能与研究的目前有关。
图1. 基于GO的蛋白质富集分析图谱GO功能分类GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成往往是在GO的第二层次。
此外也有研究都挑选一些Term 而后统计直接对应到该Term的基因或蛋白数。
结果一般以柱状图或者饼图表示。
1.GO分析根据挑选出的差异基因计算这些差异基因同GO 分类中某几个特定的分支的超几何分布关系GO 分析会对每个有差异基因存在的GO 返回一个p-value小的p 值表示差异基因在该GO 中出现了富集。
GO 分析对实验结果有提示的作用通过差异基因的GO 分析可以找到富集差异基因的GO分类条目寻找不同样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析根据挑选出的差异基因计算这些差异基因同Pathway 的超几何分布关系Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value小的p 值表示差异基因在该pathway 中出现了富集。
Pathway 分析对实验结果有提示的作用通过差异基因的Pathway 分析可以找到富集差异基因的Pathway 条目寻找不同样品的差异基因可能和哪些细胞通路的改变有关。
与GO 分析不同pathway 分析的结果更显得间接这是因为pathway 是蛋白质之间的相互作用pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。