基于代表熵的基因表达数据聚类分析方法
- 格式:pdf
- 大小:185.94 KB
- 文档页数:3
基于机器学习的基因表达数据分析与建模基因表达数据分析与建模是生物信息学领域中的重要研究方向之一,它通过对基因表达谱的分析,可以揭示基因调控的规律,从而深入理解生物相关的生理过程和疾病机制。
随着高通量测序技术的快速发展和普及,大量的基因表达数据被产生出来,为基因表达数据的分析和建模提供了坚实的基础。
本文将探讨如何应用机器学习方法分析和建模基因表达数据,包括数据预处理、特征选择、模型构建和模型评估等方面内容。
1. 数据预处理基因表达数据通常以矩阵的形式呈现,其中行表示基因,列表示样本。
在进行数据分析和建模之前,需要对原始数据进行预处理。
首先,对基因表达数据进行归一化处理,以消除不同样本和基因之间的技术差异。
归一化方法包括总计数归一化和RPKM(Reads Per Kilobase Million)归一化等。
其次,需要对数据进行去噪和筛选,去除低表达基因和高度变异基因,以减少噪声和提升数据质量。
2. 特征选择在机器学习中,一个关键的问题是选择合适的特征用于模型建立。
对于基因表达数据,由于特征维度很高,需要进行特征选择以减少计算复杂度和提高模型性能。
特征选择方法包括过滤式、包裹式和嵌入式等。
过滤式方法通过统计和信息论等方法对特征进行排序或评估,选择具有显著差异或相关性的特征。
包裹式方法通过在特征子集上运行预测模型,评估特征子集的性能来选择特征。
嵌入式方法将特征选择融入模型训练过程中,通过正则化或其他方法选择特征。
3. 模型构建在特征选择之后,需要选择合适的机器学习模型来建立基因表达数据的分析和预测模型。
常用的机器学习模型包括决策树、支持向量机、随机森林、神经网络等。
对于基因表达数据的分类问题,可以使用分类算法,如随机森林和支持向量机。
对于回归问题,可以使用线性回归模型或者神经网络模型。
在模型构建过程中,需要划分训练集和测试集,并进行交叉验证以评估模型性能。
4. 模型评估与解释模型的评估是机器学习中的重要环节,它可以评估模型的性能和预测能力。
生物信息学中的基因表达数据分析方法在生物学研究中,基因表达数据的分析对于理解生物体内基因调控的机制和功能至关重要。
随着高通量测序技术的发展,基因表达数据的获取和分析变得更加容易和准确。
生物信息学中的基因表达数据分析方法主要包括差异表达分析、基因共表达网络分析以及功能富集分析等。
差异表达分析是基因表达数据分析的关键技术之一。
它可以识别不同基因在不同组织或条件下的表达量差异,从而帮助我们深入了解基因的功能和调控。
常用的差异表达分析方法包括基于计数数据的DESeq2和edgeR,以及基于表达量的limma等。
这些方法能够通过统计学模型和假设检验来识别不同基因的显著差异表达,并且考虑了多重比较校正和批次效应等因素的影响。
另外,基因共表达网络分析也是生物信息学中常用的方法之一。
它可以根据基因表达模式的相似性将基因划分为不同的共表达模块,从而发现基因之间的相互作用关系。
基因共表达网络分析能够帮助我们预测基因功能、发现新的基因调控模块以及揭示基因调控网络的结构和功能。
常用的基因共表达网络分析方法包括WGCNA和STRING等。
这些方法能够通过计算基因之间的相关性来构建基因共表达网络,并利用网络拓扑结构和模块发现算法来鉴定关键的共表达模块和核心基因。
此外,功能富集分析也是基因表达数据分析中重要的方法之一。
它可以识别差异表达基因集合中富集的生物学功能和通路,从而揭示基因集合在特定生物过程中的功能角色。
功能富集分析常用的方法包括基于基因本体论(Gene Ontology)的GO分析和基于KEGG通路的富集分析。
这些方法能够通过统计学假设检验来判断差异表达基因集合是否富集于特定的功能分类或通路,帮助我们深入了解基因的功能和生物学过程的调控机制。
此外,在基因表达数据的分析中,还有许多其他的方法可以用于发现和解释基因表达的模式和调控机制,比如聚类分析、GO/KEGG富集分析、差异表达基因的功能注释和生物学网络分析等。
这些方法的应用丰富了我们对基因表达数据的理解,并且为生物学研究提供了重要的信息。
gemma结果解读【实用版】目录1.Gemma 结果概述2.Gemma 结果解读方法3.Gemma 结果的应用正文一、Gemma 结果概述Gemma(基因表达测量和建模)是一种广泛应用于生物信息学的技术,通过测量基因表达水平来研究基因在生物体内的功能和调控关系。
Gemma 的结果通常包括基因表达矩阵、聚类分析、差异表达基因等信息。
这些结果为我们揭示基因之间的关联和调控关系提供了宝贵的线索。
二、Gemma 结果解读方法1.基因表达矩阵分析基因表达矩阵展示了不同基因在实验条件下的表达水平。
我们可以通过分析基因表达矩阵,找出高度表达或低度表达的基因,以及它们在不同样本或处理组之间的差异表达情况。
2.聚类分析聚类分析是将具有相似基因表达模式的样本或处理组归为一类。
通过观察不同聚类之间的基因表达差异,我们可以挖掘不同生物过程和功能模块之间的关系。
3.差异表达基因分析差异表达基因是指在实验组和对照组之间表达水平有显著差异的基因。
我们可以通过统计分析和功能富集分析,找出与实验目的相关的差异表达基因,并进一步研究它们的生物学功能和调控机制。
三、Gemma 结果的应用1.基因功能研究通过分析 Gemma 结果中的差异表达基因,我们可以发现与生物过程或疾病相关的关键基因,从而为基因功能研究提供线索。
2.基因调控网络构建Gemma 结果中的基因表达矩阵和聚类分析结果可以用于构建基因调控网络,揭示基因之间的调控关系和生物过程的调控机制。
3.生物信息学研究Gemma 结果可以为生物信息学研究提供丰富的数据资源,例如用于基因注释、基因表达模式预测、药物靶点筛选等。
总之,Gemma 结果为我们提供了丰富的基因表达信息,通过解读这些信息,我们可以深入了解基因在生物体内的功能和调控关系。
基因表达谱数据分析方法基因表达谱是对生物体内基因表达情况的记录,通过对基因表达谱的分析,可以了解到基因在不同条件下的表达状态,从而揭示生命现象的本质和规律。
这对于研究基本生物现象、发现新的治疗手段等具有重要的意义。
随着高通量技术的发展,获取基因表达谱数据已经成为了常规操作。
但是,如何对这些数据进行分析和处理,是一个相当复杂的问题。
本文将介绍基因表达谱数据分析的基本方法和技巧。
我们将从预处理数据、差异分析、聚类分析、通路分析和生物信息学工具等几个方面进行论述。
一、预处理数据首先,我们需要将原始数据进行预处理,去除质量较差的数据,检查样本之间的差异和异常值等。
预处理过程旨在保证数据的准确性和可靠性,为后续的分析奠定基础。
二、差异分析差异分析是对基因表达谱数据进行质量评估和过滤的关键步骤。
常用的差异分析方法包括T检验、方差分析、Wilcoxon秩和检验等。
差异分析的目标是找出在不同实验条件下,哪些基因的表达发生了变化。
这是为了找到有生物学意义的差异基因集合并进一步进行研究。
三、聚类分析聚类分析是将基因表达谱数据中的基因和样本分别分成若干类,使得同一类中的基因或样本具有相似的表达模式,不同类之间具有较大的差异。
这样的分类结果有助于我们找出基因表达谱数据中的模式。
聚类分析常用的方法包括层次聚类和k-平均聚类等。
四、通路分析通路分析是将差异基因集合与特定生物过程或通路进行关联,以揭示差异基因集合在生物学上的意义。
通常,通路分析需要利用基因注释或生物信息学数据库中的信息,将差异基因集合与通路相对应,从而找到可能受到影响的通路。
五、生物信息学工具最后,利用生物信息学工具进行综合分析和可视化。
有很多生物信息学工具可以用来对基因表达谱数据进行分析和可视化,比如R、Python、Cytoscape等。
这些工具可以帮助我们更好地理解和解释基因表达谱数据中的生物学意义。
总结:基因表达谱数据分析是序列分析的一个重要分支,广泛应用于生物信息学、系统生物学和合成生物学等领域。
ksw熵方法全文共四篇示例,供读者参考第一篇示例:熵方法是一种用来度量系统的不确定性和复杂性的方法,是一种信息论的基本概念。
KSW熵方法是一种衍生自传统的熵方法的改进版本,主要用于解决数据特征提取、分类和预测等问题。
本文将介绍KSW熵方法的原理、应用和优势,希望能为读者带来一些启发和帮助。
一、KSW熵方法的原理KSW熵方法是由三位学者Khor, See和Wang提出的,其核心思想是通过在数据集中引入熵权因子来进一步提升数据分析的效果。
传统的熵方法中,我们通常是将每个特征的权重都视为相等的,而KSW 熵方法则是根据特征本身的信息量和重要性来给予不同的权重。
这样可以使得我们更加全面地利用数据集中的信息,从而提高数据分析的准确性和效率。
具体来说,KSW熵方法的计算过程如下:我们需要计算每个特征的信息熵,然后根据信息熵的大小来对特征进行排序,接着根据排序结果来计算每个特征的权重。
在进行数据分析时,我们可以根据这些权重来对特征进行筛选、分类或预测,从而更好地理解和利用数据集中的信息。
KSW熵方法在实际应用中具有很多优势和潜力,特别适用于数据挖掘、机器学习和人工智能等领域。
通过引入熵权因子,KSW熵方法可以更加准确地评估数据集中每个特征的重要性,从而有效地帮助我们进行数据分析和决策。
在数据特征提取方面,KSW熵方法可以帮助我们更加准确地选择和利用数据集中的有效特征,提高数据分析的效率和准确性。
在分类和预测方面,KSW熵方法可以帮助我们建立更加准确和可靠的模型,从而提高我们对数据的理解和利用。
在实际应用中,KSW熵方法已经被广泛应用于金融、医疗、电子商务等领域,取得了很好的效果。
通过KSW熵方法提供的多样性和灵活性,我们可以更好地理解和挖掘数据的信息,为各个领域的发展和进步提供有力的支持和促进。
相比传统的熵方法,KSW熵方法具有很多优势和特点,主要体现在以下几个方面:1. 提高数据分析的准确性:通过引入熵权因子,KSW熵方法可以更加全面地评估数据集中每个特征的重要性,从而提高数据分析的准确性和效率。
基因组学研究中的表达谱数据分析方法解析概述:基因组学研究是研究生物体基因组的编码和非编码序列的科学。
在基因组学研究中,表达谱数据是一种重要的数据类型,由于其高维度和复杂性,需要采用一系列的分析方法和技术来解析。
本文将介绍基因组表达谱数据的分析方法,包括数据预处理、差异表达分析、聚类分析、富集分析以及网络分析。
一、数据预处理:数据预处理是基因组表达谱数据分析的第一步,目的是清除原始数据中的噪声、去除非生物学的变异以及纠正技术上的偏见。
常用的数据预处理步骤包括数据质量控制、归一化和基因过滤。
1. 数据质量控制:首先需要对原始数据进行质量控制,该步骤可通过查看测序质量分数和测序错误率来评估。
常用的工具有FastQC和Trimmomatic等。
该步骤的目的是排除测序引入的噪声。
2. 归一化:由于不同样本之间的表达量存在显著的差异,我们需要对数据进行归一化处理,以消除样本间的偏差。
常用的归一化方法有TPM、FPKM和RPKM等。
归一化后的数据便于后续的比较和统计分析。
3. 基因过滤:在分析表达谱数据时,一些基因的表达量非常低,对分析结果产生较小的影响并增加运算复杂性。
因此,我们通常会对表达量低于一定阈值的基因进行过滤处理,从而提高分析效率。
常用的过滤标准包括表达量百分位数和表达量阈值。
二、差异表达分析:差异表达分析是基因表达谱数据分析的核心内容之一,旨在发现不同条件下存在差异表达的基因。
通常,差异表达分析包括基于假设检验的方法和机器学习方法。
1. 基于假设检验的方法:这类方法通常基于统计学原理,将样本分组,通过计算差异表达的显著性水平来判断基因是否差异表达。
常用的方法包括Student's t-test、Wilcoxon秩和检验和Fisher's确切检验等。
这些方法基于不同的假设,在数据有明确的分布前提下,可以得到比较可靠的差异表达结果。
2. 机器学习方法:机器学习方法对差异表达分析具有较高的灵活性和预测能力。
基因表达数据分析及相关统计算法研究随着生物技术的飞速发展,越来越多的基因表达数据被生成和积累。
这些数据提供了宝贵的信息,可以帮助我们更好地了解基因的功能、调控机制以及与疾病相关的变化。
然而,对于海量的基因表达数据如何进行有效的分析和挖掘,仍然是一个具有挑战性的问题。
本文将介绍基因表达数据分析的基本概念和涉及的相关统计算法的研究进展。
基因表达数据是指在细胞或组织中,基因在特定条件下的转录水平的测量值。
常用的基因表达数据包括基因芯片数据和基因测序数据。
基因芯片技术是最早应用于基因表达数据分析的方法之一,它通过测量RNA分子与特定基因探针的配对情况来反映基因的表达水平。
而基因测序技术则可以提供更详细的基因表达信息,可以测量到具体的转录本和外显子的表达。
基因表达数据的分析涉及的主要任务包括差异表达基因分析、基因表达聚类分析以及功能富集分析等。
差异表达基因分析旨在识别在不同条件下表达水平存在显著差异的基因。
这一任务可以帮助我们理解基因在不同生物过程或疾病状态下的特定功能。
基因表达聚类分析是指将基因或样本根据其表达模式进行分类,寻找共同调控或具有相似表达模式的基因。
功能富集分析则是通过比较差异表达基因集合与已知的功能注释数据库中的基因集合,来发现具有富集功能的基因集合。
为了解决这些基因表达数据分析的问题,研究人员提出了许多统计算法和机器学习方法。
其中最常用的方法之一是差异表达分析中的t检验和方差分析。
t检验可以用于比较两组样本间的表达差异,而方差分析可以用于同时比较多组样本间的表达差异。
除了传统的统计方法,还有基于机器学习的方法,如支持向量机(SVM)和随机森林(Random Forest)等。
这些机器学习算法可以通过构建分类模型来预测基因是否差异表达或进行样本分类。
近年来,随着单细胞测序技术的发展,单细胞基因表达数据的分析也成为了热点研究领域。
单细胞测序可以提供单个细胞的基因表达信息,揭示细胞间的表型差异和功能特化。
第四节 基因表达数据的聚类分析基因表达数据主要来自于两个方面,一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA 的数据(Schena Eet al ,1995)。
表达系列分析SAGE 和差异显示(Kozian and Kirschbaum ,1999)、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。
聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。
从机器学习的角度来看,有两种基本的聚类分析(Kaufman 1990),即所谓有教师聚类和无教师聚类。
在有师聚类中,对于每一类有一个参考模式,对于一个未分类的向量,通过计算选择一个最接近的参考模式,并将该向量归入该参考模式所对应的类,这实际上是一个分类问题。
而真正的聚类分析是一种无师学习(或无监督学习),没有关于聚类的先验知识,需要聚类算法根据样本之间的距离或者相似程度进行自动分类(傅京孙,1990;李介谷等,1986)。
基因表达数据聚类分析一般包括以下几个步骤:(1)确定基因表达的数据;(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似;(3)选择算法进行聚类分析;(4)显示分析结果。
以下着重讨论对表达型基因芯片实验数据的处理和分析。
在一种基因芯片上往往含有成百上千个基因探针,一次可以同时检测大量基因的表达。
利用同一种芯片在不同条件下(不同时间,不同细胞,不同外界作用)进行基因表达实验,搜集表达数据,将原始数据放在一起,形成一个数据表格。
表格的每一行代表一个基因,是一个基因在不同实验条件下表达的“快照”,而每一列则代表各个基因在同一种实验条件下的表达水平。
从数学形式上来看,表格的一行数据就是一个向量,常称其为一个基因的表达模式,而表格本身就相当于一个矩阵。
聚类分析就是将这些向量按照相似程度进行归类。
对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。
生物信息学研究中的基因表达分析方法随着技术的不断发展,基因表达信息已经成为了众多生物学研究的重要数据来源。
我们可以通过基因表达信息来了解细胞内基因转录活动的变化、探索基因调控网络的结构和功能,甚至可以预测未来细胞发育的走向。
在研究中,我们经常会使用一些生物信息学中的基因表达分析方法,本文将简单介绍一些常见的基因表达分析方法和应用领域。
1. 基因表达聚类分析基因表达聚类分析是将大量样品中基因表达谱进行分类,从中找到具有相似表达谱的基因,将它们放入同一组别。
对于一个未知的基因,我们可以通过它与已知基因的表达谱进行比较,将其归入相应类别。
这种方法常见的应用场景包括:基于表达谱的肿瘤亚型分类、基因功能预测等。
其中,基于聚类分析的聚类算法主要有层次聚类和k均值聚类两种。
层次聚类算法将样本或基因逐步归类,生成一个树状结构(Dendrogram),可以根据需要将树状结构切割成指定数量的聚类;k均值聚类则根据事先指定的聚类数量将所有数据划分为指定数量的类别。
2. 差异基因表达分析在比较两个或多个生物组织或环境的基因表达水平时,常用差异分析来筛选表达差异明显的基因。
通过差异分析,我们可以发现哪些基因在不同的细胞类型、组织类型和发育阶段中表达水平差异较大,甚至可以帮助我们发现潜在的疾病标记物。
常见的差异分析方法包括t检验、方差分析和较新的DESeq、edgeR等差异表达分析软件包。
3. 基因组拼接分析在基因组拼接分析中,我们对齐基因组序列和转录组序列以鉴定剪切变异、外显子水平表达和全内含子表达等信息。
基因组拼接分析使得我们能够进一步挖掘基因、蛋白质和RNA转录本的相互作用模式和基因区域的多样性。
常用的方法包括软件包如TopHat、Cufflinks等。
4. 生物网络分析通常,基因表达谱是由多个基因表达水平组成的,而这些水平之间可能相互影响。
基于此,我们可以构建生物网络图谱并挖掘功能模块来获得新的知识。
这种方法的优点在于我们可以通过挖掘关键基因和互作关系来发掘新的靶点和以及不同疾病之间的关系。
基因表达数据分析中聚类算法的使用教程与生物学意义解读基因表达数据分析是生物学研究中的重要环节之一,它可以帮助我们理解基因的功能及其在不同生理条件下的调控机制。
而聚类算法作为一种常用的数据分析方法,可以帮助我们对基因表达数据进行分类和分组,进而揭示出隐藏在数据中的生物学意义。
本文将介绍常见的聚类算法及其在基因表达数据分析中的应用,并解读其生物学意义。
聚类算法是一种无监督学习方法,通过将相似的样本归为一类,将不相似的样本归为不同类别,从而将数据集划分为多个簇。
在基因表达数据分析中,聚类算法可以帮助我们发现具有相似表达模式的基因及其可能的生物学功能。
常见的聚类算法包括层次聚类、k-means聚类和模糊C-均值聚类。
层次聚类是一种基于距离的聚类算法,它可以将样本逐步合并成不同规模的簇。
在基因表达数据分析中,我们可以使用层次聚类算法将基因按照其表达模式进行分组。
首先,我们需要选择一个相似性度量指标,如欧氏距离或相关系数,来衡量基因间的距离。
然后,使用层次聚类算法将基因逐步合并,直到形成最终的聚类结果。
通过观察聚类结果,我们可以发现具有相似表达模式的基因并对其进行功能注释和生物学意义解读。
k-means聚类是一种基于中心点的聚类算法,它根据样本与中心点的距离来划分簇。
在基因表达数据分析中,k-means聚类可以帮助我们将基因分为指定数量的簇。
首先,我们需要选择一个合适的k值,即簇的数量。
然后,根据基因间的相似性度量指标,如欧氏距离或相关系数,运用k-means聚类算法将基因划分为k个簇。
最后,我们可以通过分析聚类结果来揭示不同簇中基因的生物学意义,如同一簇中的基因可能具有相似的功能或参与相同的生物过程。
模糊C-均值聚类是一种基于模糊理论的聚类算法,它可将样本划分为多个簇,并对样本和簇的隶属度进行建模。
在基因表达数据分析中,模糊C-均值聚类可以帮助我们识别具有模糊表达模式的基因。
首先,我们需要选择合适的簇数和模糊隶属度的阈值。
2008,44(27)1前言基因表达数据具有很高的基因维数和相对较少的样本数,通常是几千甚至上万个基因而只有几十个样本。
在对组织样本聚类时,如果不对基因数据进行降维处理,而直接进行样本聚类,将不会得到有意义的结果。
这是因为大多数的无关基因数据淹没了数量很小的对疾病分型有用的基因数据,所以在对组织样本聚类之前先要进行降维处理。
目前对高维数据进行降维处理的方法较多,其中有主元分析,粗糙集属性约减,小波变换及特征提取[1]等。
较为常用的主元分析法是一种无导师型线性分析方法,它将原始特征空间投影到新的特征空间,但新的特征只是原特征的线性组合,不再具有生物学意义。
而特征提取是在原始的特征空间中挑选有助于样本分型的代表基因,因而保留了特征的生物学意义。
一般的特征提取都要有先验知识作指导,即在已知一定的样本分类情况下,挑选对分类贡献较大的特征,这对于临床医学中癌症的诊断有一定的局限性。
由于大多数未知类型的疾病缺少相关知识,所以需要一种方法能够在无指导情况下挑选代表基因对组织样本进行判别。
根据生物学知识可知,具有相同调控功能的基因可能有相似的表达模式,因此对基因聚类,将功能相关的基因按表达模式的相似性归类[2],有助于对未知功能的基因进行研究。
本文采用双向聚类算法模型即先从特征/基因方向聚类,挑选出特征基因后再对样本聚类。
根据代表熵的大小判断基因聚类质量的好坏,引入波动系数挑选类内代表基因。
将该算法应用于基因表达数据集,实验结果表明,在缺乏先验知识的情况下本文的算法提高了样本分型的准确度。
2双向聚类算法模型本文采用的双向聚类算法是分别从基因和样本两个方向聚类。
基因聚类可以挑选出特征基因,样本聚类用来对疾病分型。
其算法流程如图1所示。
首先是对基因数据集进行预处理,包括滤去在样本中无变化的基因及表达值的规一化处理。
接着是采用SOM网络从基因方向上聚类,将表达模式相近的基因归为一类。
再从每一个簇中挑选该类的代表基因,构成总特征基于代表熵的基因表达数据聚类分析方法陆媛,杨慧中LUYuan,YANGHui-zhong江南大学通信与控制工程学院,江苏无锡214122SchoolofCommunication&ControlEngineering,JiangnanUniversity,Wuxi,Jiangsu214122,ChinaE-mail:ly1983.cn@163.comLUYuan,YANGHui-zhong.Clusteringanalysismethodsofgeneexpressiondatabasedonrepresentativeentropy.ComputerEngineeringandApplications,2008,44(27):151-153.Abstract:Becausegeneexpressiondataishighdimensionsandsmallsamples,especiallythelessprioriknowledge,atwo-wayclusteringalgorithmbasedontherepresentativeentropyisproposed,whichiscombinedwiththeadvantagesofSelfOrganizingfeatureMap(SOM)neuralnetwork.First,theclusteringofgenesisrealizedthroughtheSOMnetwork,andcharacteristicgenesareselectedaccordingtothefluctuationcoefficient.Thenthequalityofgeneclusteringisdecidedbythevalueofrepresentativeen-tropy.Finally,SelfOrganizingFeatureMapalgorithmisemployedtoclassificationofsamples.Thisprocessisappliedtotwopub-lisheddatasetsofgeneexpression.Theexperimentresultsshowthatthealgorithmcanreducethefeaturespacedimensionsandimprovetheaccuracyofclustering.Keywords:representativeentropy;fluctuationcoefficient;SelfOrganizingfeatureMap(SOM)algorithm;geneexpressiondata摘要:针对基因表达数据样本少,维数高的特点,尤其是在样本分型缺乏先验知识的情况下,结合自组织特征映射的优点提出了基于代表熵的双向聚类算法。
该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。
然后根据代表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。
最后采用FCM(FuzzyCMeans)聚类算法对挑选出的特征基因集进行样本分型。
将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。
关键词:代表熵;波动系数;自组织特征映射网络算法;基因表达数据DOI:10.3778/j.issn.1002-8331.2008.27.048文章编号:1002-8331(2008)27-0151-03文献标识码:A中图分类号:TP311基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.60674029)。
作者简介:陆媛(1983-),硕士生,主要研究方向:数据挖掘、聚类算法;杨慧中(1955-),教授,博士生导师,主要研究方向:工业过程建模与优化控制及相关理论与技术的研究。
收稿日期:2007-11-13修回日期:2008-02-29ComputerEngineeringandApplications计算机工程与应用151ComputerEngineeringandApplications计算机工程与应用2008,44(27)基因集。
考虑到SOM聚类算法需要预先确定输出层神经元的数目,引入代表熵判断最佳的神经元数。
最后运用FCM聚类算法对挑选出的特征集进行样本分型。
2.1基因聚类———SOM算法在无先验知识的情况下对基因聚类,需要选择一种无监督的聚类算法,而由Kohonen教授于1982年提出的自组织特征映射(SelfOrganizingfeatureMap,SOM)网络能模拟大脑神经系统自组织特征映射的功能,能无监督地进行自组织学习,不需要预先确定聚类数目,网络通过自身训练,自动对输入模式进行分类。
自组织映射网络的基本思想是网络竞争层中的各神经元通过竞争来获取对输入模式的响应机会,最后仅剩一个神经元成为竞争的胜利者,并对那些与获胜神经元有关的各连接权朝着更有利于它竞争的方向调整。
SOM网络的一个典型特性就是可以在一维或二维的处理单元阵列上,形成输入信号的特征拓扑分布,因此SOM网络具有抽取输入信号模式特征的能力[3]。
2.2代表基因的挑选通过基因聚类,可以将表达模式相近的基因聚为同一个簇,再从每个簇中挑选出该簇的代表基因作为新的特征基因。
挑选的这个代表基因要最有利于后面组织样本的分型,而将那些对样本分型贡献较少的基因滤除,从而达到降维的目的。
本文引进波动系数[4-5]表征基因对分型贡献的大小。
定义变量Di表示第i个基因的方差,变量gij表示第i个基因在第j个组织样本下的表达值,g!i表示第i个基因在n个样本中的均值,则:Di=(nj=1"(gij-g!i)2/(n-1))1/2,g!i=nj=1"gij/n。
令变量F表示波动系数,每个基因的波动系数定义为F=Di/g!i。
波动系数越大则表明该基因在组织样本中的波动越大,越有利于样本分型。
波动系数越小则表示基因在组织样本中的变化很小,对样本分型的贡献也越小。
因此可以根据每个簇中基因的波动系数来挑选簇的代表基因,即找出波动系数最大的基因。
2.3代表熵SOM网络虽然能够对基因数据进行无监督聚类而无需预先确定聚类个数,但是神经元的个数是需要在网络进行训练之前确定。
数目过多,可能会将同类的基因归为不同的簇,增加了基因的类数;而数目过少的话可能会造成类的划分不明确,从而遗漏对分型起重要作用的特征基因。
因此神经元数目的确定对后续特征基因的选择及特征基因的个数起着非常重要的作用。
神经元数目的确定需要考虑到基因数据的大小,本文所采用的微阵列数据都是基因数目在7000左右的,因此选择的神经元的个数要在200个左右[2]。
但是对于具体的数据集还是需要确定一个具体的数值使得挑选出的特征基因对样本的分型结果最好。
在此,引入代表熵概念[6-7]。
定义!j(j=1,…,d)是包含d个特征的协方差矩阵的特征值。
定义变量!#j=!jdi=1"!j,则!#j具有概率属性,且有0≤!#j≤1及dj=1%!#j=1。
代表熵定义为:HR=dj=1"!#jlog!#j。
当所有的特征值除了一个值其它均为0时,HR达到最小,即所有的信息分布是在一个方向上的,具有相似性。
当所有的特征值都相等时,HR达到最大,也就是所有的特征信息是完全分散的,特征的不确定性最大。
利用代表熵的这一特性可以来判断聚类质量的好坏,即被划分为同一类的基因代表熵越低,则一致性越好,从而挑选的单个特征基因越具有代表性。
而最终挑选出的总的特征基因组其代表熵值越高,冗余性越小。
2.4样本聚类———FCM算法FCM算法是一种基于目标函数的方法,它把聚类归结为一个带约束的非线性规划问题,通过优化求解获得数据集的模糊划分和聚类。
其基本思想是通过反复修改聚类中心V和隶属度矩阵U来实现动态的迭代聚类,使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。
本文采用模糊C均值(FCM)聚类算法对挑选出的特征基因构成的数据集进行样本聚类。
3双向聚类算法描述通过上述双向聚类模型的叙述,本文对数据预处理后的所有基因集的处理可分为以下几步进行:步骤1网络初始化。
确定SOM网络初始的神经元数目,设置迭代次数和学习率。
步骤2SOM基因聚类。
将基因作为输入量,将表达模式相近的基因归为一类。
步骤3计算波动系数F。
分别对每个类簇中的基因计算F值,挑出每簇中F值最大的基因作为该簇的代表基因。
步骤4计算代表熵HR。
计算每个基因簇的代表熵值HR及这些簇的代表熵的平均值H&R,并计算挑选出的总的特征基因组的代表熵HSR。