基因芯片数据功能分析
- 格式:docx
- 大小:21.31 KB
- 文档页数:4
基因组学研究中的大数据分析I. 引言随着现代生物学和生物技术的快速发展,基因组学研究变得越来越重要。
基因组学是研究生物体所有基因组的总体,它不仅仅涉及一个个基因的功能和相互关系,还包括了对基因组中所有基因的整体解读。
随着高通量测序技术的广泛应用,我们可以产生大量的基因组数据。
然而,这些大数据集的处理和分析还存在困难和挑战。
本文将介绍基因组学研究中的大数据分析。
II. 基因组学数据的产生与特点在开始讨论大数据分析之前,我们首先需要了解基因组学数据的产生和特点。
基因组学数据的产生主要是通过高通量测序技术,如基于Illumina平台的测序和单分子测序技术。
这些技术可以高效地产生大量的DNA序列数据,称为测序读数(sequence reads)。
此外,还可以通过其他技术如芯片技术和基因表达测定等来产生基因组学数据。
基因组学数据具有几个主要特点。
首先,它们是高度复杂和多维的。
每个基因组学数据集都可能包含数百万,甚至数十亿个基因组序列,这使得数据的处理和分析具有挑战性。
其次,基因组学数据具有高度的异质性。
这是因为基因组组成和功能的差异可能导致个体间和物种间的基因组数据的不同。
最后,基因组学数据具有高度的动态性。
由于生物体内的基因表达和基因组构成在不同时期和不同环境条件下都会发生变化,因此基因组学数据的处理和分析需要具备时序性。
III. 基因组学数据分析的流程基因组学数据分析是一个复杂的过程,通常包括数据预处理、特征提取、数据挖掘和结果解读等步骤。
首先,数据预处理是一个关键的步骤。
在这一步骤中,需要检查和校正原始数据中的错误和噪声。
例如,测序读数可能受到测序仪器的误差和噪声的影响,需要进行质量控制和修剪等操作。
此外,在使用基因芯片等其他技术产生的数据中,还需要进行背景校正和归一化等处理。
其次,特征提取是基因组学数据分析的关键步骤。
特征提取旨在从原始数据中提取出与研究问题相关的特征。
对于基因组学数据来说,特征提取可能包括基因识别、转录因子结合位点预测、遗传变异检测等方面。
基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。
然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。
基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。
根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。
(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。
1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。
1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。
一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。
由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。
处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。
该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。
基因芯片图基因芯片(Gene Chip)是一种用于检测和分析生物体基因表达情况的高通量技术。
它可以同时检测数千个基因的表达水平,快速、高效地获取大量的基因表达数据。
基因芯片图则是基因芯片所提供的数据的图表化展示,可以通过图表来直观地了解基因表达的情况。
基因芯片图通常以散点图的形式展示,其中横轴代表不同基因的编号或名称,纵轴表示基因表达的相对水平。
每个散点代表一个基因,在图中的位置表示该基因的表达水平。
通常,较高的散点表示该基因的表达水平较高,较低的散点表示该基因的表达水平较低。
通过观察散点的分布,可以初步了解基因表达的整体情况。
基因芯片图常常是多样本比较的结果。
在一个基因芯片实验中,研究者通常会同时检测多个样本(如不同细胞系或组织),以了解不同条件下基因的表达差异。
因此,基因芯片图可以用来比较不同样本之间的基因表达差异。
在基因芯片图中,不同样本的散点可以用不同的颜色或符号表示,以便进行比较。
通过观察不同样本之间散点的分布情况,可以判断基因表达在不同样本中的差异。
如果两个样本之间的散点密集并且接近,表示它们的基因表达水平相似;如果两个样本之间的散点分散或者相距较远,表示它们的基因表达存在较大差异。
基因芯片图可以帮助研究者发现差异表达的基因,进而深入研究这些基因在不同样本中的功能和意义。
此外,基因芯片图还可以根据研究者的需要进行各种数据处理和分析。
比如,可以通过聚类分析将基因或样本分成不同的类别,以寻找相似的表达模式;可以进行差异分析,找到差异表达的基因;可以进行通路分析,了解差异表达基因所参与的生物学过程或通路等。
这些分析结果也可以用可视化图表的形式展示出来,加深对基因表达数据的理解。
总之,基因芯片图是基因芯片实验中的重要结果之一,通过直观的图表形式展示基因表达的情况,帮助研究者理解和分析基因表达数据。
基因芯片图在生命科学研究中有着广泛的应用,为深入研究基因的功能和机制提供了有力的工具和平台。
生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。
基因芯片数据分析是生物信息学研究的一个重要方向,通过对基因芯片数据进行分析,可以揭示基因在生物过程中的功能和调节机制。
本讲义将介绍基因芯片数据的分析方法和应用。
一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术,可以同时检测上千个基因的表达情况。
获取基因芯片数据的第一步是进行基因芯片实验,如DNA芯片实验或RNA芯片实验。
实验得到的数据一般为原始强度值或信号强度值。
接下来,需要对这些原始数据进行预处理,包括背景校正、归一化和过滤噪声等步骤,以消除实验误差和提高数据质量。
二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。
基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。
常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。
差异表达分析常用来寻找在不同条件下表达差异显著的基因,如差异表达基因的筛选和注释;聚类分析可以将表达模式相似的基因分为一组,如聚类分析可以将不同样本中的基因按照表达模式进行分类;差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因,揭示潜在的功能模块。
三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。
功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释,找到在特定条件下富集的生物学过程、分子功能和细胞组分等。
另外,功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析,找到差异表达基因在代谢通路和信号传导通路中的富集情况。
四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。
基因调控网络是基于差异表达数据构建的,它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。
第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。
还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。
微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。
1基因表达数据采集基因表达数据采集可分为三个步骤:微阵列设计、图像分析和数据获取、过滤、标准化。
基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。
mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。
在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。
为了方便数据处理,常孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03基因表达谱数据分析技术刘玲(江苏财经职业技术学院,江苏淮安223001)摘要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。
基因芯片数据处理流程与分析介绍关键词:基因芯片数据处理当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray)的出现让研究人员得以宏观的视野来探讨分子机转。
不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计与生物信息相关软件的协助。
要取得一完整的数据结果,除了前端的实验设计与操作的无暇外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。
基因芯片的应用基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。
基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(raw data)后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。
要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。
从raw data取得后,需要一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将raw data整理出一初步的分析数据,当处理到取得实验组除以对照组的对数值后(Iog2 ratio),大约完成初步的统计工作,可进展到下一步的进阶分析阶段。
Rosetta profile error model calculation2Sqweeze replicated probes^Normalize intensities (exclude flagged ^nd wontroldata) with median scaling"Basic statistic plot and Pearson correlationcoefficient^Combine tech nicar repeatPairwise ratid calculation图一、整体分析流程。
基因表达数据分析方法及其应用研究共3篇基因表达数据分析方法及其应用研究1随着技术的不断发展,基因表达数据分析在生命科学研究中扮演着越来越重要的角色。
基因表达数据分析是研究基因功能的关键一步,它使得科学家可以了解基因在特定情况下的表达水平。
在本文中,我们将讨论基因表达数据分析的方法及其应用。
1.基因表达数据的来源和类型基因表达数据是通过分析转录组和基因芯片等数据获得的。
转录组技术通过测量RNA浓度,包括RNA-seq和microarray。
而基因芯片就是一种将成千上万的基因测量并呈现的芯片。
基因表达数据存在多种类型,包括原始数据、表达矩阵、差异表达矩阵、注释文件和元数据等等。
2. 基因表达数据分析的方法(1)数据清理数据清理是数据分析过程中的第一步。
它包括数据预处理、去除冗余数据、去除噪声和填补数据空缺等操作。
(2)正则化正则化的目的是调整不同基因表达数据之间的差异,消除数据中的计量误差和探测效率的误差。
几种正则化方法包括平滑、归一化和标准化。
(3)差异分析差异分析是研究基因表达数据中各基因在不同样品之间差异的方法。
常用的差异分析方法包括t-test、ANOVA、FDR和q值等。
(4)聚类分析聚类分析是将数据根据观察指标相似度进行分类的方法。
在基因表达数据上,它通常用于发现不同条件下的基因表达模式。
(5)变异分析变异分析是一种寻找表达值变异的基因的方法。
通常,基因的变异程度与其在癌症和其他疾病中的作用有关。
(6)功能注释功能注释是将基因表达数据与已知基因功能相结合的方法,从而获得数据更深层次的信息。
它通常用于解释基因表达数据的生物学意义,如基因表达数据和肿瘤发展的相关性等。
3.应用研究基因表达数据分析可应用于许多研究领域,包括基因表达和调控、单细胞分析和肿瘤生物学等。
(1)基因表达和调控基因表达数据分析可用于挖掘基因之间的相互关系以及调控通路。
这些信息可以在理解细胞生物学、发育及疾病发生机制的过程中发挥重要作用。
基因芯片数据分析中的标准化算法和聚类算法北京大学生命科学院 生物信息专业王向峰 学号:10211058摘要:基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高效,高通量的检测基因表达行为。
芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化,芯片内标准化根据目的不同可分为消除染色偏差的Lowess Normalization ,消除点样针头引起的空间差异的Print-tip Normalization 。
常用的芯片间标准化有Quantile Normalization ,Global Normalization 。
芯片数据分析中常见的聚类算法有分层聚类(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱SOM (self organizing map)、PCA (principle component analysis)等等。
所有的聚类方法归结为有监督的学习和无监督的学习两种方法。
第一部分 基因芯片的数据标准化(Normalization)对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。
标准化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。
这里主要讨论一下双荧光染色(Red and Green Chip)的cDNA 微列阵(cDNA microarray)的标准化方法。
一、实验数据的预处理(data transformation )双色cDNA 芯片(two-color cDNA microarray),指对参照基因(reference gene)和样本基 因(sample gene)标上绿色和红色荧光标记。
参照基因的制备主要是提取不同组织的不同时期的细胞进行培养(Cultured Cell),以保证绝大部分的基因可以表达。
几种常用的基因功能分析方法和工具(转自新浪博客)一、GO分类法最先出现的芯片数据基因功能分析法是GO分类法。
Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene 注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。
在每一个分类中,都提供一个描述功能信息的分级结构。
这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。
研究者可以通过GO分类号和各种GO 数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。
在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。
EASE(Expressing Analysis Systematic Explorer)是比较早的用于芯片功能分析的网络平台。
由美国国立卫生研究院(NIH)的研究人员开发。
研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。
其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。
EASE能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE 得分(EASE score)。
由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。
这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping)。
同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。
2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。
基因表达芯片数据的预处理和分析基因表达芯片是一种目前广泛应用于生物医学研究中的技术,它可以帮助研究人员在分子水平上对细胞、组织、器官及其疾病发生机制进行深入研究,从而为疾病的诊断、治疗和药物研发等领域提供有力的支持。
基因表达芯片所涉及的数据处理步骤较多,其中预处理和分析是其中最为基础和关键的两个环节。
本文将从这两个方面详细阐述基因表达芯片数据的预处理和分析。
一、基因表达芯片数据的预处理预处理部分主要包括质量控制、数据归一化和拼接等步骤。
具体介绍如下:1、质量控制质量控制是基因表达芯片数据预处理中非常重要的一步,它的目的是检查芯片实验结果的质量。
通过质量控制可以发现数据中的异常现象,包括低质量的样品、芯片实验中的坏控制等。
一旦发现问题,需要对其进行相应的策略处理,以确保测量结果的正确性和准确性。
2、数据归一化数据归一化是指将不同富集度的探测物本底进行标准化处理,以能够在同一芯片上比较不同样品的水平。
目前普遍使用的归一化方法有MAS5、RMA、GCRMA 和Ebtiseh等。
其中MAS5方法独立于信号内容以及噪声分布,不需要对数据做任何假设。
RMA方法适用于多共同贡献的基因表达的依赖性模型。
GCRMA方法基于模型的切断比值方法,可以有效消除芯片噪声的影响。
Ebtiseh方法可以充分利用芯片的信息,并通过最佳阈值确定最佳归一化方案。
3、拼接拼接是指将一组芯片测量数据进行合并,形成一个较大的数据矩阵。
拼接的目的是将不同个体、不同时间点的基因表达芯片测量结果进行统一处理,为后续的差异分析和数据挖掘提供支持。
二、基因表达芯片数据的分析基因表达芯片数据分析主要包括差异分析、功能分析和网络分析等步骤。
具体介绍如下:1、差异分析差异分析是指比较两组或多组样品之间的基因表达水平差异。
差异分析的主要方法有t检验、方差分析、多重比较法、基因表达芯片的类别分析以及机器学习算法。
通过差异分析可以找到与疾病有关的不同表达基因。
基因芯片技术在分子诊断中的应用随着科技的不断进步,医疗技术也在不断地更新换代。
其中,分子诊断技术推动了医疗科学的革命。
而基因芯片技术正是其中最为重要的一种分子诊断技术之一。
它通过检测样本中的DNA和RNA序列,来寻找与健康或疾病相关的遗传变异。
基因芯片技术的应用范围非常广泛,它可以用于预测疾病风险、筛查早期疾病、个性化治疗等,具有无可比拟的优势。
本文将详细介绍基因芯片技术在分子诊断中的应用。
提高疾病诊断的准确性在传统的医疗诊断中,医生通常通过病人的症状、疾病史和体检数据等来进行初步的诊断。
而这种方法的局限性在于,许多疾病的症状并不一定特异,有时甚至会被误诊。
同时,不同人体内的基因序列也存在巨大的差异性,这导致了相同疾病的表现形式也会有所不同。
因此,基因芯片技术的应用可以有效地提高疾病诊断的准确性。
以肾病为例,肾病可能是由多种遗传变异所导致。
一项针对肾病的基因芯片研究发现,有些人携带儿茶酚胺氧化酶A基因的变异,可能会增加肾小球硬化的风险。
而另外一些人携带酪氨酸激酶基因的变异,则可能会增加肾小管病变的风险。
这些遗传变异在传统的检测方法中是很难被发现的,但是基因芯片技术可以通过分析样本中的基因序列,来识别这些变异,并进一步推断出患者是否存在相应的肾病风险。
筛查早期疾病早期预防是许多疾病治疗成功的关键。
在传统的疾病筛查中,医生通常走的是先发生病症再及时发现的路线。
而基因芯片技术的应用,可以为病人提供更早期更准确的筛查方案。
例如,基因芯片技术可以检测一种名为“肠衣藻毒素”的有毒物质,这种物质常常存在于食品中,并且容易导致肠胃不适或其他疾病。
通过对样本中相关基因的诊断,我们可以预测出某个人是否对这种有毒物质有更高的敏感性,从而在日常饮食中更加注意防范。
这种筛查方法,可以使病人能够更容易地 A 预测可能发生的疾病,从而采取相应的措施来预防。
基于基因芯片技术的个性化治疗在过去,无论是药物治疗还是外科手术,医生通常给每个病人都开同样的治疗方案,但基因芯片技术的应用,让个性化治疗成为可能。
生物信息学在基因芯片数据功能分析中的应用
2009-4-29
随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era),向基因的功能及基因的多样性倾斜。
通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。
它将大大推动人类结构基因组及功能基因组的各项基因组研究计划。
生物信息学在基因组学中发挥着重大的作用, 而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段,将在后基因组研究中发挥突出的作用。
基因芯片与生物信息学是相辅相成的,基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖于生物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。
本文介绍了几种常用的基因功能分析方法和工具:
一、GO基因本体论分类法
最先出现的芯片数据基因功能分析法是GO分类法。
Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。
在每一个分类中,都提供一个描述功能信息的分级结构。
这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。
研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。
在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。
EASE(Expressing Analysis Systematic Explorer)是比较早的用于芯片功能分析的网络平台。
由美国国立卫生研究院(NIH)的研究人员开发。
研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。
其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。
EASE 能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE 得分(EASE score)。
由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。
这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping)。
同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。
2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。
它的基本思想是在对多张芯片结果进行聚类分析之后,与表达模式
不相近的基因相比,相近的基因更有可能参与相同的生物学功能的实现。
比较著名的基于GO分类法的芯片数据分析网络平台还有七十多个,表1列举了其中的一部分。
表1 用GO 分类法进行芯片功能分析的网络平台
二、Pathway通路分析法
通路分析是现在经常被使用的芯片数据基因功能分析法。
与GO分类法(应用单个基因的GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用,即生物学通路。
研究者可以把表达发生变化的基因列表导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路中,并通过统计学方法计算哪些通路与基因表达的变化最为相关。
现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路,对芯片的结果进行分析。
主要的生物学通路数据库有以下两个:
①KEGG 数据库:迄今为止,KEGG数据库(Kyoto encyclopedia of genes and genomes)是
向公众开放的最为著名的生物学通路方面的资源网站。
在这个网站中,每一种生物学通路都有专门的图示说明。
②BioCarta 数据库:BioCarta 是一家生物技术公司,它在其公共网站上提供了用于绘制生
物学通路的模板。
研究者可以把符合标准的生物学通路提供给BioCarta数据库。
BioCarta 数据库不会检验这些生物学通路的质量,因此其中的资源质量参差不齐,并且有许多相互重复。
然而BioCarta数据库数据量巨大,且不同于KEGG数据库,包含了大量代谢通路之外的生物学通路,所以也得到广泛的应用。
最先出现的通路分析软件之一是GenMAPP(gene microarray pathway profiler)。
它可以免费使用,其最新版本为Gen-MAPP2。
在这个软件中,使用者可以用几种灵活的文件格式输入自己的表达谱数据,GenMAPP的基因数据库包含许多从常用的资源中得到的物种特异性的基因注释和识别符(ID)。
这些ID可以将使用者输入的基因与不同的生物学通路的基因联系起来。
这些生物学通路存在于GenMAPP 的MAPP文件中。
MAPP文件需要时常下载更新。
它包含有许多KEGG生物学通路,一些GenMAPP自己的生物学通路和许多GO分类的MAPP 文件,全部操作简单明了。
而且依靠其自带的MAPPBuilder和MAPPFinder 两个软件,使用者可以自己绘制生物学通路和对MAPP 文件进行检索。
由于使用者可以自己绘制生物学通路保存为MAPP 格式,这个文件很小易于在网络上传播,所以GenMAPP数据库更有利于研究者之间的及时交流。
由于上述特点,GenMAPP数据库及软件仍是现今免费平台里应用比较广泛的。
2004年推出的Pathway Miner也是应用较为广泛的免费通路分析网络平台,由美国亚利桑那大学癌症中心建立维护,其最突出的特点就是信息全面,操作简便。
使用者可以在这个网站中获得单个基因的序列、功能注释,以及有关它们编码的蛋白结构功能,组织分布,OMIM等信息。
对于通路分析部分,使用者给出基因列表及他们的表达变化值,网站可以根据三大公用的通路数据库:KEGG、GenMAPP 和BioCarta,生成变化基因参与的通路,并用fisher 精确概率检验。
PathwayMiner自动把得到的通路分成两大类:代谢通路和细胞调节通路。
方便使用者根据不同的研究目的选择需要查看的结果。
在2006年国内也开发了用于通路分析的网络平台,即KOBAS(KO-Based Annotation System),其基于KEGG数据库建立,由北京大学生命科学院开发和维护。
其特点是可直接采用基因或蛋白质的序列录入基因,并对录入的基因列表进行KO 注释。
对于结果的可靠性检验提供了四种统计方法。
使用者可以在网站进行注册,网站会为使用者保存输入的数据,方便日后直接调用。
最近推出的软件Eu.Gene 整合了来自KEGG,Gen-MAPP 以及Reactome 的通路数据,并采用fisher 精确概率检验及基因集富集分析(Gene Set Enrichment Analysis, GSEA)来检验结果是否具有统计学意义。
表2 列举了部分通路分析的网络平台及它们的网址。
表二通路分析网络平台
三、基因调控网络分析
通路分析法是芯片功能分析的有力工具之一,其与GO分类法的主要区别也正是它的弱点。
在生物反应的过程中,发生表达变化的基因通常不只局限在一个通路中,而是存在于由许多调控因子和通路参与的复杂调控网络中。
生物调控网络十分复杂,并没有现成的文献和数据库供参考。
而且,把芯片中发生表达变化的基因放在生物调控网络的水平来看,它们通常在多个通路中都有分布,而每个通路只包含几个发生表达变化的基因。
这就解释了为什么有些通路只有部分基因表达发生变化,而且表达变化的趋势在整个通路水平上不一定是一致的。
进行生物调控网络的研究需要更多的数据库及分析工具的支持。
比如需要关于基因组调控序列(启动子和增强子)的信息,现在已经有许多关于转录因子结合位点(transcription factor binding site, TFBS)的数据库可以满足这个要求,如TRANSFAC及JASPAR。
而且芯片检测的基因变化应该深入到转录本水平,因为不同的转录本的转录可能是由不同的启动子启
动的。
外显子连接芯片(exon junction microarray)将基因组中外显子与外显子之间的连接序列做成36nt 的探针点到芯片上,与样本mRNA 进行杂交后可检测出样本中多外显子基因pre-mRNA 的剪接状况。
转录调节控制基因表达,调控不同组织中的细胞在各种生理条件及外界刺激下的反应。
不同于原核细胞,真核细胞的转录调节涉及大量转录因子的相互作用,而且基因组调控序列不只位于启动子,还包括内含子及许多基因下游序列。
所以真正了解真核细胞的基因调控网络是一项非常艰巨的工作。
用基因调控网络来分析基因芯片数据还需要更多信息及技术的支持。