gene_ontology(GO基因注释)
- 格式:docx
- 大小:66.40 KB
- 文档页数:7
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.基因本体论(gene ontology)的建立现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。
这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。
举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。
但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。
Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。
这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。
从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。
GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。
这种定义语言具有多重结构,因此在各种程度上都能进行查询。
举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。
这种结构允许在各种水平添加对此基因产物特性的认识。
基因本体论(Gene Ontology,简称GO)是一个标准化的功能分类体系,用于描述基因和基因产物的属性。
GO注释是将基因或基因产物的功能与GO术语相关联的过程。
在GO注释中,基因或基因产物的功能被归类到三个主要的本体论分支中:生物过程(Biological Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)。
每个分支都包含一系列定义明确的术语,这些术语描述了基因或基因产物在细胞中的不同角色和活动。
生物过程分支涵盖了基因或基因产物参与的生物学过程,例如代谢、细胞周期、信号传导等。
细胞组分分支描述了基因或基因产物在细胞内的位置,如细胞核、细胞膜、细胞器等。
分子功能分支则描述了基因或基因产物在分子水平上的活动,如催化活性、结合活性等。
GO注释是基于实验证据和计算预测进行的。
实验方法包括基因突变分析、基因表达研究、蛋白质互作分析等,而计算预测则利用生物信息学工具和算法对基因或基因产物的功能进行预测。
通过GO注释,我们可以更深入地理解基因和基因产物的功能,以及它们在生物体中的相互作用和调控机制。
这些信息对于研究疾病的发病机理、药物设计和基因治疗等领域具有重要意义。
GO功能注释⽂章转载于 Original 2017-06-12 liuhui ⽣信百科相似的基因在不同物种中,其功能往往保守的。
显然,需要⼀个统⼀的术语⽤于描述这些跨物种的同源基因及其基因产物的功能,否则,不同的实验室对相同的基因的功能的描述不同,将极⼤限制学术的交流。
⽽ Gene Ontology (GO) 项⽬正是为了能够使对各种数据库中基因获基因产物功能描述相⼀致的努⼒结果。
所谓的 GO,是⽣物学功能注释的⼀个标准词汇表术语(GO term),将基因的功能分为三部分:基因执⾏的分⼦功能(Molecular Function)基因所处的细胞组分(Cellular Component)基因以及参与的⽣物学过程(Biological Process)不同的 GO term 通过有向⽆环图关联起来,如下图所⽰:可以看出,不同的 GO term 间的关系由三类:is_a、part_of和regulates。
如regulation of cell projection assembly是⼀种⽣物学过程,是regulation of cell projection organization中的⼀类(is_a),还调节(regulates)cell projection assembly;⼜如cellular component assembly是celluar component biogenesis的⼀部分(part_of)。
值得注意的是,这些关系都是有⽅向的,即反过来不成⽴,因⽽叫做有向⽆环图。
⽬前,GO 注释主要有两种⽅法:(1)序列相似性⽐对(BLAST)(2)结构域相似性⽐对(InterProScan)这⾥以序列相似性⽐对为例,简单介绍 GO 注释的步骤:将基因序列与 swiss-prot 蛋⽩质数据库进⾏ BLAST (blastp 或者 blastx,这篇⽂章介绍了如何做 BLAST 分析:)⽐对,得到如下结果:c49_g1_i1 RNF13_MOUSE 52.00 50 23 1 17 166 240 288 2e-11 65.5c72_g1_i1 RS25_NEUCR 78.72 94 20 0 375 94 1 94 1e-32 116c75_g1_i1 POLX_TOBAC 45.28 53 29 0 162 4 457 509 1e-08 55.1c86_g2_i1 POLX_TOBAC 46.43 112 60 0 339 4 879 990 2e-30 120c91_g1_i1 BUB1_ARATH 55.71 70 28 2 61 264 289 357 1e-14 73.6c143_g1_i1 STL1_YEAST 31.98 172 85 4 6 518 407 547 6e-17 82.8c150_g1_i1 CST26_YEAST 37.63 93 38 3 223 5 142 234 6e-10 58.2c150_g2_i1 YHOE_SCHPO 42.67 75 41 1 227 3 54 126 5e-16 74.7c156_g2_i1 EXOL2_ARATH 47.17 53 28 0 299 141 229 281 6e-06 47.0c169_g1_i1 SPT5_ASPFU 60.98 82 31 1 20 262 725 806 2e-18 84.0其中,第⼆列 swiss-prot 蛋⽩质数据库序列的 ID(UniProtKB ID)。
GO 功能注释简明教程相似的基因在不同物种中,其功能往往保守的。
显然,需要一个统一的术语用于描述这些跨物种的同源基因及其基因产物的功能,否则,不同的实验室对相同的基因的功能的描述不同,将极大限制学术的交流。
而 Gene Ontology (GO) 项目正是为了能够使对各种数据库中基因获基因产物功能描述相一致的努力结果。
所谓的 GO,是生物学功能注释的一个标准词汇表术语(GO term),将基因的功能分为三部分:基因执行的分子功能(Molecular Function)基因所处的细胞组分(Cellular Component)基因以及参与的生物学过程(Biological Process)不同的 GO term 通过有向无环图关联起来,如下图所示:可以看出,不同的 GO term 间的关系由三类:is_a 、part_of 和 regulates 。
如 regulation of cell projection assembly 是一种生物学过程,是 regulation of cell原创2017-06-12liuhui 生信百科projection organization 中的一类(is_a),还调节(regulates)cell projectionassembly;又如 cellular component assembly 是 celluar component biogenesis 的一部分(part_of)。
值得注意的是,这些关系都是有方向的,即反过来不成立,因而叫做有向无环图。
目前,GO 注释主要有两种方法:(1)序列相似性比对(BLAST)(2)结构域相似性比对(InterProScan)这里以序列相似性比对为例,简单介绍 GO 注释的步骤:将基因序列与 swiss-prot 蛋白质数据库进行 BLAST (blastp 或者 blastx,这篇文章介绍了如何做 BLAST 分析:BLAST 知多少?)比对,得到如下结果:c49_g1_i1 RNF13_MOUSE 52.00 50 23 1 17 166c72_g1_i1 RS25_NEUCR 78.72 94 20 0 375 94c75_g1_i1 POLX_TOBAC 45.28 53 29 0 162 4c86_g2_i1 POLX_TOBAC 46.43 112 60 0 339 4c91_g1_i1 BUB1_ARATH 55.71 70 28 2 61 264c143_g1_i1 STL1_YEAST 31.98 172 85 4 6 518c150_g1_i1 CST26_YEAST 37.63 93 38 3 223 5c150_g2_i1 YHOE_SCHPO 42.67 75 41 1 227 3c156_g2_i1 EXOL2_ARATH 47.17 53 28 0 299 141c169_g1_i1 SPT5_ASPFU 60.98 82 31 1 20 262 其中,第二列 swiss-prot 蛋白质数据库序列的 ID(UniProtKB ID)。
GO富集分析说明基因本体(Gene Ontology,GO)是一个在生物信息学领域中广泛使用的本体。
1998年由研究三种模式(果蝇、小鼠和酵母)基因组的研究者共同发起组织了一个称为基因本体联盟的专业团队。
创建基因本体的初衷是希望提供一个可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台。
现在已包含数十个动物、植物、微生物的数据库。
基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:细胞组分(cellular component):细胞的每个部分和细胞外环境。
分子功能(molecular function):可以描述为分子水平的活性(activity),如催化(catalytic)或结合(bingding)活性。
生物过程(biological process):生物过程系指由一个或多个分子功能有序组合而产生的系列事件。
其定义有广义和狭义之分,在词义上可以区分为泛指和特指。
一般规律是,一个过程是由多个不同的步骤组成。
注:生物过程与途径或通路(pathway)不是同一回事。
通过将差异基因做GO富集分析,可以把基因按照不同的功能进行归类,达到对基因进行注释和分类的目的。
富集分析方法说明:采取的方法是fisher 精确检验,数据包是clusterProfiler,来自R/bioconductor;挑选的标准是落在某个term/GO 上差异的基因数目>=4,p_value <0.05,画图中取得term/GO 是按照enrich factor 的值从大小降序排列,取前30个结果。
enrich_factor 定义= (某个term中的差异基因数目/总的差异基因数目)/(数据库term中总的基因数目/数据库中总的基因数目)字段说明:上海伯豪生物技术有限公司技术支持部2016年01月。
将humann2_genefamilies文件转化为GO (Gene Ontology) 和KEGG (Kyoto Encyclopedia of Genes and Genomes) 注释需要以下步骤:
1.准备文件:
1.确保你有humann2_genefamilies文件。
这个文件通常包含基因或
基因家族的ID和对应的描述。
2.选择一个在线工具或使用R/Python:
1.网上有许多在线工具可以为你提供GO和KEGG注释。
2.如果你更喜欢使用R或Python,你可以使用像org.Hs.eg.db (for
human)这样的Bioconductor包来获取GO和KEGG注释。
3.使用在线工具:
1.打开Metascape或其他类似的在线工具。
2.上传你的humann2_genefamilies文件。
3.选择所需的物种(例如,人类)。
4.选择输出格式为GO或KEGG。
5.获取并保存结果。
4.使用R/Python:
如果你选择使用R或Python,请按照以下步骤操作:
5.整理结果:
根据你的需求,你可能需要对结果进行进一步的处理或整理。
例如,你可能想提取特定的GO条目或KEGG路径。
6. 注意事项:
确保你的humann2_genefamilies文件中的ID与数据库中的ID匹配。
如果ID不匹配,你可能需要使用转换工具或在线服务进行转换。
7. 后续分析:
如果你希望进一步分析注释结果,可以考虑使用像GOrilla、REViGO或FunRich 这样的工具来可视化结果或进行富集分析。
Gene OntologyGO分析Gene Ontology可分为分子功能Molecular Function生物过程biological process和细胞组成cellular component三个部分。
蛋白质或者基因可以通过ID 对应或者序列注释的方法找到与之对应的GO号而GO号可对于到Term即功能类别或者细胞定位。
参考网站 功能富集分析功能富集需要有一个参考数据集通过该项分析可以找出在统计上显著富集的GO Term。
功能或者定位有可能与研究的目前有关。
图1. 基于GO的蛋白质富集分析图谱GO功能分类GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成往往是在GO的第二层次。
此外也有研究都挑选一些Term 而后统计直接对应到该Term的基因或蛋白数。
结果一般以柱状图或者饼图表示。
1.GO分析根据挑选出的差异基因计算这些差异基因同GO 分类中某几个特定的分支的超几何分布关系GO 分析会对每个有差异基因存在的GO 返回一个p-value小的p 值表示差异基因在该GO 中出现了富集。
GO 分析对实验结果有提示的作用通过差异基因的GO 分析可以找到富集差异基因的GO分类条目寻找不同样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析根据挑选出的差异基因计算这些差异基因同Pathway 的超几何分布关系Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value小的p 值表示差异基因在该pathway 中出现了富集。
Pathway 分析对实验结果有提示的作用通过差异基因的Pathway 分析可以找到富集差异基因的Pathway 条目寻找不同样品的差异基因可能和哪些细胞通路的改变有关。
与GO 分析不同pathway 分析的结果更显得间接这是因为pathway 是蛋白质之间的相互作用pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。
GO注释和富集分析概念介绍GO(Gene Ontology)注释是一种对基因和蛋白质功能进行分类的方法,它是基因组学和蛋白质组学研究中的一种重要工具。
GO注释提供的是一个用于描述基因和蛋白质功能的统一的术语系统,使得研究人员能够对大规模基因组和蛋白质组中的各个基因和蛋白质进行功能上的分析和比较。
GO注释基于Gene Ontology,即基因本体论,它是由一系列相互关联的术语组成的,这些术语被定义为描述基因和蛋白质功能、分子过程和细胞组分的术语。
GO注释通过将基因和蛋白质与这些术语进行关联,从而使得研究人员能够了解到基因和蛋白质在细胞中所扮演的角色以及所参与的生物学过程。
在进行GO注释时,通常需要使用到一些数据库和工具。
例如,常用的GO注释数据库有UniProt、NCBI的Gene数据库和Ensembl数据库等。
这些数据库中存储了大量的基因和蛋白质信息,并且提供了相应的GO注释结果。
另外,还有一些专门用于GO注释的软件工具,如DAVID、GOATOOLS和DAVID等,它们能够帮助研究人员进行GO注释的分析和可视化。
富集分析是一种用于分析基因或蛋白质功能富集情况的方法。
它主要用于确定基因集或蛋白质集中存在的生物学上重要的功能项,并对其进行统计分析。
富集分析可以帮助研究人员揭示基因或蛋白质集合在特定生物学过程或疾病发生机制中的潜在作用。
常用的功能项富集分析方法主要有超几何分布、卡方检验和Fisher 精确检验等。
这些方法能够计算出功能项与基因集之间的关联程度,并给出统计显著性。
此外,还可以利用一些学习算法,如机器学习和聚类分析等,来进行更加深入的功能项富集分析。
富集分析的结果通常以富集图、路径图和功能网络图等形式进行展示。
富集图能够直观地显示不同功能项在基因集中的富集程度;路径图则能够展示功能项之间的关联关系和组织形式;功能网络图则能够帮助研究人员更好地理解基因和蛋白质在特定功能模块中的相互作用。
总之,GO注释和富集分析是基因组学和蛋白质组学研究中的重要组成部分。
功能注释和功能富集的关系解释说明以及概述1. 引言1.1 概述功能注释和功能富集是生物信息学领域中非常重要的研究方向,它们都与基因或蛋白质的功能及其在生物过程中的作用相关。
功能注释指对基因或蛋白质进行功能预测和描述的过程,通过分析它们的序列特征、结构特征以及进化关系等信息来推断出可能的功能。
而功能富集则是对一组基因或蛋白质在某个生物学过程或细胞组分中显著富集的特定功能进行统计学分析,以揭示这一组分子在该过程中可能扮演的重要角色。
1.2 文章结构本文主要围绕着功能注释与功能富集之间的关系展开讨论。
首先,我们会详细介绍功能注释及其作用,并解释为什么需要进行功能注释。
接着,我们会阐述功能富集的概念和意义,包括寻找与特定生物过程相关联的重要基因或蛋白质。
然后,我们将探讨功能注释和功能富集之间的关系并解释它们相互之间可能存在的影响。
此外,我们还会介绍几种常见的功能注释和功能富集分析方法与工具,包括基于序列相似性、结构特征、基因组学和系统生物学的方法。
最后,我们将总结功能注释与功能富集之间的密切关系,并对未来研究方向和发展趋势进行展望。
1.3 目的本文旨在帮助读者全面了解功能注释和功能富集之间的关系以及它们在生物信息学领域中的重要性。
通过介绍不同方法和工具的原理,读者可以更好地理解如何进行功能注释和功能富集分析。
同时,我们也希望为未来相关研究提供启示,并促进更多关于功能注释及其与功能富集之间关系的深入探讨。
2. 功能注释和功能富集的关系:2.1 功能注释的定义和作用:功能注释是指对生物学实体(如基因、蛋白质等)的功能进行描述和预测的过程。
它通过分析实体的结构、序列、同源性以及相关生物学信息,为其赋予功能标签或描述,帮助科研人员理解和推断其在细胞过程和生物系统中所扮演的角色。
功能注释有助于揭示基因和蛋白质的特定功能,帮助解析它们在信号传导、代谢途径、遗传调控等方面所起作用。
同时,它也提供了预测基因家族成员功能一致性、比较不同物种间蛋白质功能异同以及建立相似性网络等方法。
go条目对应的细胞类型介绍细胞是生物体中最基本的结构和功能单位,作为生物学研究的基础,对细胞进行分类和研究对于了解生命的机制至关重要。
Ge ne On t ol og y (G O)是一种常用的细胞分类系统,通过对细胞中的基因功能进行注释来描述不同细胞类型的特征。
本文将介绍一些常见的G O条目对应的细胞类型。
1.神经元细胞神经元细胞是构成神经系统的基本单元,负责传递神经信号。
根据GO 条目,神经元细胞可以被归类为"细胞类型:神经元;细胞过程:神经传导"。
神经元细胞具有高度特化的结构,包括树突、轴突和突触,通过突触传递电化学信号。
它们在神经系统中起着至关重要的作用,参与大脑功能的调控和维持。
2.肌肉细胞肌肉细胞是负责肌肉运动的细胞类型。
根据G O条目,肌肉细胞可以被归类为"细胞类型:肌肉细胞;细胞过程:肌肉收缩"。
肌肉细胞包括骨骼肌细胞、平滑肌细胞和心肌细胞。
它们通过肌纤维的收缩来实现肌肉的运动和功能。
3.血细胞血细胞主要存在于血液中,包括红细胞、白细胞和血小板。
根据G O条目,红细胞对应的细胞类型为"红细胞",细胞过程为"呼吸作用";白细胞对应的细胞类型为"白细胞",细胞过程为"免疫应答";血小板对应的细胞类型为"血小板",细胞过程为"血栓形成"。
血细胞在人体中起着重要的运输、免疫和止血作用。
4.上皮细胞上皮细胞是覆盖人体内外各个组织和器官表面的细胞类型。
根据G O条目,上皮细胞对应的细胞类型为"上皮细胞",细胞过程为"上皮细胞发育"。
上皮细胞具有紧密的排列,形成细胞间连接和组织屏障,起到保护、吸收和分泌等功能。
5.干细胞干细胞是具有自我更新和分化潜能的细胞类型。
根据G O条目,干细胞可以被归类为"细胞类型:干细胞;细胞过程:细胞增殖"。
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.基因本体论(gene ontology)的建立现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。
这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。
举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。
但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。
Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。
这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。
从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。
GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。
这种定义语言具有多重结构,因此在各种程度上都能进行查询。
举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。
这种结构允许在各种水平添加对此基因产物特性的认识。
基因本体(Gene Ontology,GO)是一个国际标准的基因功能分类系统,用于描述基因产物(蛋白质和RNA)的分子功能、细胞组成和生物过程。
它是一个受控词汇表,由一支专家委员会维护,并定期更新。
GO术语用于注释基因组序列和蛋白质序列,以便研究人员能够比较不同基因和蛋白质的功能,并了解基因和蛋白质在生物学过程中的作用。
GO术语的结构GO术语是一个有向无环图(DAG),其中每个术语都有一个唯一的标识符(GO ID)和一个名称。
术语之间可以通过“is_a”和“part_of”关系连接。
例如,“蛋白质激酶”是一个GO术语,其GO ID为GO:0004672,其名称为“蛋白质激酶活性”。
“蛋白质激酶”术语与“激酶”术语之间存在“is_a”关系,这意味着蛋白质激酶是一种激酶。
“蛋白质激酶”术语与“细胞信号传导”术语之间存在“part_of”关系,这意味着蛋白质激酶是细胞信号传导的一部分。
GO术语的注释GO术语可以用于注释基因组序列和蛋白质序列。
注释可以是手动完成的,也可以使用计算机程序自动完成。
手动注释通常由生物学家完成,他们使用文献和数据库来确定基因或蛋白质的功能。
自动注释通常使用算法来比较基因或蛋白质序列与已知功能的基因或蛋白质序列,并根据相似性来预测基因或蛋白质的功能。
GO术语的应用GO术语有许多应用,包括:基因组学和蛋白质组学研究: GO术语可以用来分析基因组和蛋白质组的数据,以了解基因和蛋白质的功能以及它们在生物学过程中的作用。
药物研发: GO术语可以用来识别和开发新的药物靶点。
疾病研究: GO术语可以用来研究疾病的分子机制,并开发新的诊断和治疗方法。
生物信息学: GO术语可以用来开发新的生物信息学工具和数据库,以帮助研究人员分析基因组和蛋白质组的数据。
GO术语的局限性GO术语是一个非常有用的工具,但它也有一些局限性。
例如,GO术语并不总是完整的,并且它可能无法描述所有基因和蛋白质的功能。
此外,GO术语有时可能不够具体,无法区分具有相似功能的基因或蛋白质。
go注释原理基因本体论(Gene Ontology, GO)是一种用于描述基因功能的分类系统,其原理主要包括以下几个方面:1. 共享蛋白质的生物作用:基因组测序结果表明,大部分指定核心生物学功能的基因是所有真核生物共有的。
这种共享蛋白质在一个有机体中的生物作用的知识,往往可以转移到其他有机体。
2. 产生动态、可控的词汇表:基因本体论联盟的目标是产生一个动态的、可控的词汇表,可以应用于所有真核生物,即使基因和蛋白质在细胞中作用的知识正在积累和变化。
3. 基因功能注释:当拿到一个非模式生物或者无参考基因组的项目时,经常需要进行基因的功能注释,才能够进行生物信息学的数据分析工作。
4. 统一术语:由于序列相似的基因在不同物种中,其功能往往是保守的,但以前往往会存在不同的实验室对相同的基因的功能描述因为自然语言的模糊性而不尽相同的问题。
因此,需要一个统一的术语用于描述这些跨物种的同源基因及其基因产物的功能,否则这种模糊性将会极大限制不同的科研人员间的学术交流。
5. 分类系统间的直译问题:随着生物信息学数据的积累,出现了不同的应用于描述基因功能的分类数据库。
这些分类系统的目标都是希望能够用于阐述这些跨物种的同源基因的生物学功能。
但是因为分类系统之间的基因功能注释结果可能在自然语言描述上都不尽相同,存在都相互为各自的方言的情况,大部分分类结果都几乎无法在分类系统之间直译。
6. GO注释的定义与分类:GO定义了用于描述基因功能的概念/类以及这些概念之间的关系。
它从三个方面对功能进行分类:细胞组分(cellular component):细胞的每个部分和细胞外环境;分子功能(molecular function):可以描述为分子水平的活性(activity),如催化(catalytic)或结合(binding)活性;生物过程(biological process):生物学过程系指由一个或多个分子功能有序组合而产生的系列事件。
几种常用的基因功能分析方法和工具(转自新浪博客)一、GO分类法最先出现的芯片数据基因功能分析法是GO分类法。
Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene 注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。
在每一个分类中,都提供一个描述功能信息的分级结构。
这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。
研究者可以通过GO分类号和各种GO 数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。
在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。
EASE(Expressing Analysis Systematic Explorer)是比较早的用于芯片功能分析的网络平台。
由美国国立卫生研究院(NIH)的研究人员开发。
研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。
其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。
EASE能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE 得分(EASE score)。
由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。
这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping)。
同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。
2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.基因本体论(gene ontology)的建立现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。
这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。
举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。
但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。
Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。
这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。
从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。
GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。
这种定义语言具有多重结构,因此在各种程度上都能进行查询。
举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。
这种结构允许在各种水平添加对此基因产物特性的认识。
GO发展了具有三级结构的标准语言(ontologies),如表所示。
根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。
本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。
本体论(The ontologies)GO的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。
当然,它们可能在每一个方面都有多种性质。
如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。
下面,将进一步的分别说明GO的具体定义情况。
基因产物基因产物和其生物功能常常被我们混淆。
例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。
但是这之间其实是存在差别的?D?D一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。
比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。
一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。
所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。
许多基因产物会形成复合物后执行功能。
这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖体)。
现在,小分子的描述还没有包括在GO中。
在未来,这个问题可望由和现在的Klotho和LIGAND等小分子数据库联合而解决。
分子功能分子功能描述在分子生物学上的活性,如催化活性或结合活性。
GO分子功能定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。
分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。
定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。
生物学途径生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。
举例来说,较为宽泛的是细胞生长和维持、信号传导。
一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。
一个生物学途径并不是完全和一条生物学通路相等。
因此,GO并不涉及到通路中复杂的机制和所依赖的因素。
细胞组件细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。
GO的形式GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制(hierarchy)定义方式(随着代数增加,下一级比上一级更为具体)。
举个例子来说,生物学途径中有一个定义是己糖合成,它的上一级为己糖代谢和单糖合成。
当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。
因为在GO中,每个术语必须遵循“真途径“法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。
GO的注释(Annotation)那么,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。
每个基因或基因产物都会有一个列表,列出与之相关的GO术语。
每个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。
并且,GO联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。
比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。
GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。
基因产物指一个基因编码的RNA或蛋白产物。
因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。
一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。
注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。
GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;二.注释必须提供支持这种基因产物和GO术语之间联系的证据。
GO文件格式GO的所有数据都是免费获得的。
GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。
这些数据格式都可以在GO ftp的站点上下载。
XML 和 MySQL 文件是被储存于独立的GO数据库中。
如果需要找到与某一个GO术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。
GO浏览器和修改器(browser and editor)GO术语和注释使用了多种不同的工具软件,它们都可以在web方式的“GO 浏览器”下“GO software page”中找到。
大多数GO浏览器都是web模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。
有些GO浏览器如AmiGO和 QuickGO,可以看到每个术语的注释。
而可下载的DAG-Edit编辑器,一样可以离线地显示注释和所有本体论定义的信息。
对于每一个浏览器来说,都可以选择最适用于你要求的工具软件。
常见的三种浏览器AmiGO from BDGP在AmiGO中,可以通过查询一个GO术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。
还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。
AmiGO直接连接GO下的MySQL。
MGI GO Browser MGI GO的功能类似于AmiGO,所不同的在于它所得到的基因为小鼠基因。
MGI GO浏览器直接连接GO下的MGI数据库。
QuickGO at EBI QuickGO,整合在EBI下的InterPro中,可以通过查询一个GO术语而得到它的定义与关系描述、在SWISS-PROT中的定位、在酶分类学(EC)和转运分类学(TC)中的定位和InterPro中的定位等。
其他还有一些特殊的浏览GO的浏览器,其中括号中为建立机构和主要特色:EP GO Browser(EBI,基因表达情况),、GoFish(Harvard,Boolean查询、GenNav (NLM, 图像化展示)、GeneOntology@RZPD(RZPD,UniGene)、ProToGO(Hebrew University,GO的亚图像化)、CGAP GO Browser(癌症基因组解剖工程,癌症)、GOBrowser(Illuminae,perl.、TAIR Keyword Browser (TAIR,拟南芥)、PANDORA(Hebrew University,非一致化蛋白)。
修改器GO 术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行编辑,但是这需要对平板文件非常熟悉。
因此,DAG-Edit是被推荐使用的,它是为 GO特别设计的,能够保证文件的句法正确。
GO注释可以被多种数据库特异性的工具所编辑,如TIGR的Manatee和EBI的Talisman tool。
但是GO数据库中写入新的注释是需要通过GO认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO。
主要修改器为DAG-Edit和COBrA。
DAG-Edit基于Java语言,提供了能浏览、查询、编辑具有DAG数据格式的GO数据界面。
在SourceForge可以免费下载,伴随着帮助文件。
COBrA能够编辑和定位GO和OBO本体论。
它一次显示两个本体论,因此可以在不同的水平相应定位。
(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO平板文件、GO RDF和OWL格式等。
如图为DAG-Edit的界面,可以分为四个部分:1)定义编辑面板(term editor panel)显示当下的本体论。
也是主要的编辑本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。