信息熵特征选择方案样本
- 格式:doc
- 大小:494.00 KB
- 文档页数:17
几种常用的特征选择方法特征选择是机器学习中非常重要的一个环节,通过选择合适的特征子集,可以提高模型的准确性、降低过拟合的风险,并减少计算成本。
以下是几种常用的特征选择方法:1. 过滤式特征选择(Filter feature selection):过滤式特征选择方法独立于机器学习算法,将特征子集选择作为单独的预处理步骤。
常见的过滤式方法有基于相关性的选择、方差选择和互信息选择等。
- 基于相关性的选择:计算每个特征与目标变量之间的相关性,选取相关性较高的特征。
例如,皮尔逊相关系数可以用于评估线性相关性,而Spearman相关系数可用于评估非线性相关性。
-方差选择:计算特征的方差,并选择方差较高的特征。
方差较高的特征在总体上具有更多的信息。
-互信息选择:计算每个特征与目标变量之间的互信息,选取互信息较高的特征。
互信息是度量两个变量之间相关性的一种方法。
2. 包裹式特征选择(Wrapper feature selection):包裹式方法将特征选择作为机器学习算法的一部分,通过评估模型的性能来选择特征。
常见的包裹式方法有递归特征消除(RFE)和遗传算法等。
-递归特征消除:通过反复训练模型并消除不重要的特征来选择特征。
该方法从所有特征开始,每次迭代都使用模型评估特征的重要性,并剔除最不重要的特征,直到选择指定数量的特征。
-遗传算法:通过模拟生物进化过程,使用交叉和变异操作来最佳的特征子集。
该方法可以通过评估特征子集的适应度来选择特征,适应度一般通过模型的性能进行度量。
3. 嵌入式特征选择(Embedded feature selection):嵌入式方法将特征选择与机器学习算法的训练过程相结合,通过优化算法自动选择特征。
常见的嵌入式方法有L1正则化(L1 regularization)和决策树算法等。
-L1正则化:L1正则化可以使得训练模型的系数稀疏化,从而实现特征选择。
L1正则化会增加模型的稀疏性,使得部分系数为0,从而对应的特征被选择。
样本熵熵原本是一个热力学概念,是用来描述热力学系统混乱(无序)程度的度量。
在信息论建立之后,关于上的概念和理论得到了发展。
作为衡量时间序列中新信息发生率的非线性动力学参数,熵在众多的科学领域得到了应用。
八十年代最常用的熵的算法是K-S 熵及由它发展来的E-R 熵,但这两种熵的计算即使对于维数很低的混沌系统也需要上万点的数据,而且它们对于噪声很敏感,时间序列叠加了随机噪声后这两种熵的计算可能不收敛[65]。
九十年代初,Pincus 提出的近似熵(APEN, Aproximate Entropy)主要是从衡量时间序列复杂性的角度来度量信号中产生新模式的概率大小,产生新模式的概率越大,序列的复杂性越大,相应的近似熵也越大。
近似熵已成功应用于生理性时间序列的分析,如心率信号,血压信号,男性性激素分泌曲线等时间序列的复杂性研究中,还预示了近似熵表征人的某些生理变化情况的能力[66,67]。
样本熵(Sample Entropy)是由Richman 和Moornan[12]提出的一种新的时间序列复杂性的度量方法。
样本熵在算法上相对于近似熵算法的改进:相对于近似熵而言,样本熵计算的则是和的对数。
样本熵旨在降低近似熵的误差,与已知的随机部分有更加紧密的一致性,样本熵是一种与现在的近似熵类似但精度更好的方法。
与近似熵相比,样本熵具有两大优势:第一,样本熵不包含自身数据段的比较,它是条件概率的负平均自然对数的精确值,因此样本熵的计算不依赖数据长度;第二,样本熵具有更好的一致性。
即如一时间序列比另一时间序列有较高的值的话,那对于其他m 和r 值,也具有较高的值。
样本熵的具体算法设原始数据为长度为N 的时间序列,表示为{}N i i u ≤≤1:)(。
1)构造一组m 维空间的向量)1(),...,2(),1(+-m N X X X ,其中{}.)(),...,1(),()(m i u i u i u i X ++=。
2)定义向量()i X 和()j X 之间的距离()()[]j X i X d ,为两向量对应元素中差值最大的一个,即:[]0~1(),()max ()().k m d X i X j u i k u j k =-=+-+3)对于每一个{:11}i i N m ≤≤-+,在容许偏差为r 的情形下,统计[]r j X X(i)d <)(,的数目,计为)(i N m ,并计算此数目与距离总数的比值 ,计作:()()m N (i)/N r C m m i -=4)对所有的i 求平均值计作)(r m φ,即∑-=-=m N i mi m r C m N r 1)(1)(φ5)将维数m 增加1,变成1+m 重复上述1)-4)过程得到)(1r C m i +,)(1r m +φ。
mcc方法最大相关熵最大相关熵是一种基于信息熵的方法,用于解决数据挖掘和特征选择问题。
在数据挖掘和机器学习领域,特征选择是非常重要的一步,它可以帮助我们识别出对于目标变量具有较高相关性的特征,从而提高模型的准确性和性能。
在特征选择过程中,我们经常面临的一个问题是,如何从大量的特征中选择出与目标变量相关性最大的特征。
传统的方法包括互信息、信息增益、卡方检验等,这些方法在某些情况下可能存在一定的局限性。
而最大相关熵方法(Maximum Correlation Criterion,简称MCC 方法)则是一种基于信息熵的新颖特征选择方法。
它通过最大化特征与目标变量之间的相关熵来选择最相关的特征。
相关熵是指特征与目标变量之间的互信息,它可以衡量两个变量之间的相关性程度。
在MCC方法中,首先需要计算每个特征与目标变量之间的相关熵,然后选择相关熵最大的特征作为最相关的特征。
具体步骤如下:1. 计算每个特征与目标变量之间的互信息。
互信息是一种衡量两个变量之间相关性的指标,它可以通过计算两个变量的联合概率分布和边缘概率分布来得到。
2. 根据互信息计算相关熵。
相关熵是指特征与目标变量之间的互信息的平均值,它可以用来度量特征与目标变量之间的相关性程度。
3. 选择相关熵最大的特征作为最相关的特征。
相关熵越大,表示特征与目标变量之间的相关性越强。
使用MCC方法进行特征选择有以下几个优点:1. 相关熵能够充分利用特征与目标变量之间的相关信息,从而选择出更加相关的特征。
2. 相关熵能够避免传统方法中可能存在的局限性,例如互信息可能受到特征维度和样本数量的影响。
3. MCC方法具有较高的稳定性和可靠性,可以在各种数据集和问题上得到较好的结果。
4. MCC方法可以与其他特征选择方法结合使用,从而进一步提高特征选择的效果。
最大相关熵方法是一种基于信息熵的特征选择方法,通过最大化特征与目标变量之间的相关熵来选择最相关的特征。
它能够充分利用特征与目标变量之间的相关信息,避免传统方法中可能存在的局限性。
特征选择的常用方法特征选择是机器学习和数据挖掘领域中的一个重要步骤,其目的是从各种特征中选择出对目标变量有最大预测能力的特征子集。
特征选择的主要作用是降低维度、减少计算复杂度、提高模型的解释性和泛化能力。
本文将介绍一些常用的特征选择方法。
一、过滤式方法过滤式方法是特征选择中最简单和最常用的方法之一。
它独立于任何具体的学习算法,通过计算各个特征与目标变量之间的关联度来选择特征。
常用的过滤式方法包括皮尔逊相关系数、互信息和卡方检验等。
1. 皮尔逊相关系数皮尔逊相关系数是衡量两个变量之间线性相关程度的统计量,取值范围为[-1,1]。
当相关系数接近于1时,表示两个变量呈正相关;当相关系数接近于-1时,表示两个变量呈负相关;当相关系数接近于0时,表示两个变量之间没有线性相关关系。
在特征选择中,可以计算每个特征与目标变量之间的相关系数,选取相关系数较大的特征作为最终的特征子集。
2. 互信息互信息是衡量两个随机变量之间信息传递量的统计量,可以用来度量特征与目标变量之间的相关性。
互信息的取值范围为[0,+∞],互信息越大表示两个变量之间的相关性越强。
在特征选择中,可以计算每个特征与目标变量之间的互信息,选取互信息较大的特征作为最终的特征子集。
3. 卡方检验卡方检验是一种统计方法,可以用来检验两个变量之间是否存在显著的关联性。
在特征选择中,可以将特征和目标变量之间的关系建模成一个列联表,然后计算卡方值。
卡方值越大表示特征和目标变量之间的关联性越强,选取卡方值较大的特征作为最终的特征子集。
二、包裹式方法包裹式方法是一种更加复杂和计算量较大的特征选择方法,它直接使用具体的学习算法来评估特征的贡献。
包裹式方法通过搜索特征子集的所有可能组合,并使用具体的学习算法对每个特征子集进行评估和比较。
常用的包裹式方法包括递归特征消除、遗传算法和模拟退火算法等。
1. 递归特征消除递归特征消除是一种基于模型的特征选择方法。
它通过反复训练模型,并在每次训练后消除对模型贡献较小的特征,直到达到指定的特征数目。
最大熵增益最大熵增益(Maximum Entropy Gain)是一种常用的特征选择方法,常用于构建决策树和进行信息增益量化。
下面是关于最大熵增益的相关参考内容:1. 信息熵(Information Entropy):在介绍最大熵增益前,需要先了解信息熵的概念。
熵的概念最早由香农提出,用于描述信息的不确定性。
在信息论中,信息熵常用于度量一个随机变量的不确定性,可以用以下公式表示:H(X) = -Σp(x)log2p(x),其中p(x)为随机变量X取某个值x的概率。
2. 信息增益(Information Gain):信息增益是用来度量特征对于决策问题的区分能力的指标。
在决策树的特征选择中,通常使用信息增益来选择最优特征。
信息增益可以用以下公式表示:Gain(D,A) = H(D) - Σ(Dv/D)H(Dv),其中D表示数据集,A表示特征,Dv表示根据特征A的取值v划分的子数据集,H(D)是数据集D的信息熵。
3. 最大熵原理(Maximum Entropy Principle):最大熵原理是一个基于最大熵原则的概率模型。
最大熵原理认为,在已知的一些有限信息下,应选择熵最大的概率模型作为预测模型。
最大熵原理通过最大熵模型来表示不确定性,可以通过最优化问题来求解模型参数。
4. 最大熵增益的计算方法:最大熵增益是基于最大熵原理的特征选择方法。
最大熵增益的计算方法包括以下几个步骤:首先,计算初始数据集的信息熵H(D);然后,对于特征A的每个取值v,计算根据特征A的取值v划分后的数据集的信息熵H(D|A=v);接着,计算特征A的信息增益Gain(D,A) = H(D) - Σ(Dv/D)H(Dv);最后,选择信息增益最大的特征作为最优特征。
5. 最大熵增益的优缺点:最大熵增益是一种常用的特征选择方法,具有一定的优点和缺点。
优点是最大熵增益考虑了各个特征的不确定性,能够在一定程度上提高特征选择的准确性;缺点是最大熵增益的计算复杂度较高,需要计算每个特征的信息熵和条件熵,对于大规模数据集和高维特征空间的情况可能计算困难。
文本分类中的特征选择方法评估比较特征选择是文本分类中的一个重要步骤,它对于改善分类模型的性能和降低计算成本具有关键作用。
在文本分类领域,有许多不同的特征选择方法可供选择。
本文将评估和比较几种常用的特征选择方法,以帮助研究者和从业者选择适合自己任务的方法。
1. 互信息(MI):互信息是一种常用的特征选择方法,它用来度量特征与类别之间的相关性。
互信息越大,表示特征与类别之间的相关性越强。
互信息具有简单直观的计算方式,但它没有考虑特征与其他特征之间的相关性。
2. 卡方检验(CHI):卡方检验也是一种常见的特征选择方法,它用来度量特征与类别之间的独立性。
卡方值越大,表示特征与类别之间的独立性越低,即特征更有用。
卡方检验能够考虑特征与其他特征之间的相关性,但它对特征出现次数较少的情况较为敏感。
3. 信息增益(IG):信息增益是一种基于信息熵的特征选择方法,它用来度量特征对类别的分类能力。
信息增益越大,表示特征对类别的分类能力越强。
信息增益能够有效地考虑特征与类别之间的相关性,但它对特征的取值个数较敏感。
4. 方差选择(VAR):方差选择是一种基于方差的特征选择方法,它用来度量特征在样本集中的变化程度。
方差越大,表示特征的取值在样本集中的变化越大,即特征更有用。
方差选择方法简单易用,但它忽略了特征与类别之间的相关性。
以上是几种常用的特征选择方法,它们各自有着不同的特点和适用场景。
在实际应用中,我们需要根据任务的具体需求和数据的特点选择合适的特征选择方法。
对于互信息、卡方检验和信息增益这三种方法,它们都可以用于评估特征与类别之间的相关性。
在使用这些方法时,我们需要注意特征与类别之间的关联关系。
如果特征与类别之间的关联关系较强,那么这些方法会给出较高的评估分数,反之则会给出较低的评估分数。
因此,在选择特征选择方法时,我们需要综合考虑特征与类别之间的相关性以及任务的具体需求。
方差选择方法适用于对特征的变异程度较为敏感的任务。
红蓝公式方法简介红蓝公式是一种常用于信息熵的计算方法,也被广泛应用于数据压缩、特征提取和机器学习等领域。
其基本原理是通过统计样本中不同种类(红和蓝)的频率来计算信息熵来衡量样本的混乱程度。
本文将详细介绍红蓝公式的计算方法和应用场景。
红蓝公式的原理红蓝公式基于信息熵的概念,信息熵用于度量样本的混乱程度。
信息熵的公式如下:信息熵公式信息熵公式其中,H(X)表示信息熵,X_i表示样本中某个种类,P(X_i)表示该种类在样本中出现的概率。
红蓝公式的计算方法如下:1.统计样本中红色和蓝色的数量。
2.计算红色和蓝色的频率:红色频率 = 红色数量 / 总数量,蓝色频率 =蓝色数量 / 总数量。
3.计算信息熵:H(X) = -(红色频率 * log2(红色频率) + 蓝色频率 *log2(蓝色频率))。
红蓝公式的应用数据压缩红蓝公式可以用于数据压缩中的编码过程。
当某个种类的频率较高时,可以使用较少的位数表示,从而实现数据的压缩。
反之,当某个种类的频率较低时,可以使用较多的位数表示,以避免信息丢失。
通过红蓝公式计算信息熵,可以得到种类的频率,从而选择合适的编码方式,实现数据的高效压缩。
特征提取在机器学习任务中,特征提取是一个关键的步骤。
红蓝公式可以用于特征提取中的特征选择过程。
通过计算不同特征的信息熵,可以评估特征的重要性。
具有较高信息熵的特征可以提供更多的信息量,因此可以选择这些特征作为输入模型,以提高模型的性能。
机器学习红蓝公式在机器学习中也有广泛的应用。
例如,在分类任务中,可以使用红蓝公式计算类别的信息熵,以评估分类模型的性能。
同时,红蓝公式也可以作为评估模型拟合能力的指标。
模型预测结果与真实结果的差异越小,样本的混乱程度越低,信息熵也就越低。
总结红蓝公式是一种常用的信息熵计算方法,其基本原理是通过统计样本中不同种类的频率来计算信息熵。
红蓝公式可以应用于数据压缩、特征提取和机器学习等领域。
通过红蓝公式计算信息熵,可以评估样本的混乱程度,选择合适的编码方式、特征或模型,从而提高数据的压缩率、模型的性能和预测的准确性。
信息熵与信息效用值在当今信息化时代,信息的重要性日益凸显。
为了有效地处理、传输和存储信息,我们需要对信息进行量化分析。
信息熵和信息效用值是信息论中的两个核心概念,它们在诸多领域,如通信、计算机科学、统计学、物理学等,都具有广泛的应用。
本文将详细阐述信息熵和信息效用值的定义、性质、计算方法以及它们在实际应用中的作用,并探讨它们之间的内在关系。
一、信息熵1.1 定义信息熵(Entropy)是度量信息不确定性或随机性的一个指标。
在信息论中,信息熵表示信源发出信息前的平均不确定性,也可以理解为某事件发生时所包含的信息量。
信息熵越大,表示信息的不确定性越高,所需的信息量也就越大。
1.2 性质信息熵具有以下几个基本性质:(1)非负性:信息熵的值始终大于等于0,当且仅当信源发出的信息完全确定时,信息熵等于0。
(2)对称性:信息熵与信源符号的排列顺序无关。
(3)可加性:对于独立信源,其联合熵等于各信源熵之和。
(4)极值性:在所有具有相同符号数的信源中,等概率信源的信息熵最大。
1.3 计算方法对于离散信源,信息熵的计算公式为:H(X) = - Σ P(xi) log2 P(xi)其中,X表示信源,xi表示信源发出的第i个符号,P(xi)表示符号xi出现的概率。
二、信息效用值2.1 定义信息效用值(Information Value,简称IV)是衡量某一特征或变量对目标变量的预测能力的一个指标。
在数据挖掘和机器学习领域,信息效用值通常用于特征选择,以评估特征与目标变量之间的相关性。
信息效用值越大,表示该特征对目标变量的预测能力越强。
2.2 性质信息效用值具有以下性质:(1)有界性:信息效用值的取值范围在0到1之间。
当特征与目标变量完全独立时,信息效用值为0;当特征能完全预测目标变量时,信息效用值为1。
(2)单调性:对于同一目标变量,当特征的信息量增加时,其信息效用值也会相应增加。
2.3 计算方法信息效用值的计算公式基于互信息和信息增益等概念。
信息熵交叉熵信息熵和交叉熵是信息论中非常重要的指标,它们被广泛应用于数据分析和机器学习领域。
本文将详细介绍信息熵和交叉熵的概念、计算方式和应用场景。
一、信息熵1.1 定义信息熵是信息理论中用来描述随机事件不确定性的度量,也称为香农熵(Shannon entropy),由克劳德·香农在1948年提出。
信息熵的定义如下:$$H(X)=-\sum_{i=1}^{n}p(x_i)\log{p(x_i)} $$其中,$H(X)$代表事件$X$的信息熵, $n$表示事件$X$的可能取值个数,$p(x_i)$表示事件$X$取值为$x_i$时的概率,$\log$表示以2为底的对数。
信息熵的单位是比特(bit)或者纳特(nat),它们分别代表使用二进制或者自然对数进行度量。
1.2 计算方式信息熵的计算方式需要先计算事件的概率分布,然后针对每个可能的取值进行对数运算和乘法运算。
如果一个事件的概率分布可以近似为一个均匀分布,那么它的信息熵会比较高。
如果一个事件的概率分布非常不均匀,那么它的信息熵会比较低。
1.3 应用场景二、交叉熵交叉熵(cross-entropy)是一种度量两个概率分布之间相似程度的指标。
通常情况下,交叉熵用于衡量两个概率分布之间的差异。
它的定义如下:其中,$H(y,\hat{y})$代表真实值$y$和预测值$\hat{y}$的交叉熵,$n$表示事件$X$的可能取值个数,$y_i$表示真实值中类别$i$的概率,$\hat{y_i}$表示预测值中类别$i$的概率。
计算交叉熵需要先计算真实值的概率分布和预测值的概率分布,然后分别对应每个类别进行对数和乘法运算。
交叉熵的值越小,代表预测值和真实值之间的差异越小。
交叉熵在机器学习中被广泛应用,特别是在分类问题中。
在神经网络中,交叉熵是训练模型时的目标函数之一,可以用来评估模型的预测准确率。
比如,在图像分类问题中,可以使用交叉熵来衡量模型预测图像类别的能力。
信息熵算法java -回复信息熵算法(Java)是一种用于测量和评估数据集中信息量的算法。
信息熵是基于信息论的概念,它用于衡量信息的不确定性和无序程度。
在计算机科学中,信息熵被广泛应用于数据压缩、数据挖掘和机器学习等领域。
本文将介绍信息熵算法的原理、实现和应用。
一、信息熵算法的原理信息熵是对数据集中信息的混乱程度的度量。
当信息更有序和一致时,熵较低;当信息更混乱和无序时,熵较高。
根据信息熵的定义,我们可以使用以下公式计算信息熵:H(X) = -ΣP(x)log2(P(x))其中,H(X)表示信息熵,P(x)表示数据集中某个事件发生的概率。
二、信息熵算法的实现下面是一个使用Java编写的信息熵算法的示例:javaimport java.util.Map;import java.util.HashMap;public class EntropyCalculator {public double calculateEntropy(String data) {Map<Character, Integer> frequencyMap = new HashMap<>();for (char c : data.toCharArray()) {frequencyMap.put(c,frequencyMap.getOrDefault(c, 0) + 1);}double entropy = 0.0;int total = data.length();for (char c : frequencyMap.keySet()) {double probability = (double) frequencyMap.get(c) / total;entropy -= probability * (Math.log(probability) / Math.log(2));}return entropy;}}在这个示例中,我们使用了一个HashMap来统计字符在数据中出现的频率。
资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 基于互信息的特征选择 1. 模型 定义D1 病集S由有关心脏病病种iX( i=1, 2, …, n) 组成, 令患者的疾病信息熵1-2为:
)(1log)()(1iniiXPXPXH (1)
显然疾病信息熵具有Shannon信息熵的性质, 反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.
定义D2: 一个诊断病例库能够表示为关于病例特征的矩阵形式 nmijxCasebase][ (2)
其中, ijx—病例库中第j个病例的第i个属性值; m—病例特征数量;
n—病例库规模;
定义D3: 一个信息系统( IS) 能够表示为
,,,rrfRIURVf (3)
其中, U 是对象的非空有限集合, R是属性的非空有限集合, rrRVV是属性值
的集合, Vr 表示了属性任意rR时的属性值范围, :rfURV 是一个信息函数, 它指定U中每一个对象 x 的属性值.
1 马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学
报: 自然科学版, ,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报: 自然科学版, ,43(B08):353-356. 资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 当R中的属性集可进一步分解为条件属性集合C和决策属性集合D, 且满足,RCDCD时, 信息系统(IS)称为决策系统(DS)3. ai为某一条件属性, 则决策属性D对某一条件属性ai的依赖程度能够利用下式计算4-5:
( 4) 式中, RC、 RD 分别表示条件属性集合C和策属性集合D在论域上的等价关
系.()DCRHR表示RD 相对于RC 的条件熵.(,)iIaD的值越大, 则条件属性ai对决策属性D的重要性越大.如果(,)0iIaD, 则说明ai对于D不起作用, 能够删除.在基于属性信息增益的约简方法中, 计算案例库属性集的每个属性的信息增益, 并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集, 否则弃用属性.
1.3 基于互信息的特征选择6: 三种经典的基于互信息的特征选择算法, 分别为信息增益、 互信息和交叉熵, 以及于互信息最大化的特征选择算法7。
3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, : 49.
4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, ,24(2):59-63. 5 程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J]. 电网技术, ,28 (17): 72-75. 6 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, , 36(3, Part 2): 5921-5931. 7唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用, ,44(13):130-133 资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。 苗夺谦8等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文9提出了一种基于互信息增益率的属性约简算法; 颜艳等10提出了一种改进的互信息的属性约简算法, 基于改进的互信息的启发式算法, 并比对互信息、 互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。 熵的公式:
联合熵: 条件熵: 联合熵和条件熵的关系:
8苗夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展, 1999,36(6):
681 - 684. 9贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版), ,40(6):1041 - 1044. 10颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J]. 清华大学学报(自然科学版), ,47(S2):1903-1906. 资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 1.3.1 互信息( MI) 互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.
互信息越大, 这两个随机变量之间的联系月越紧密.当互信息趋近于零时, 这两者之间相互独立.
特征和类之间的互信息: P( wi) 是特征wi的概率, 表示wi没有发生.P( ci) 是类cj的概率, P(cj, wi)是类cj与特征wi的联合概率.
是特征之间的互信息. 互信息和信息熵之间的联系:
互信息和信息熵的关系见图1.
图1 互信息和信息熵的关系图 资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 连续型时, (p(x), p(y) 和p(x, y)都是连续的)
计算连续的基因表示变量的熵或互信息, 首先要将其离散化, 一般采用直方图方法11, 并根据表示向量的值域范围选择合适的bin值, 联合熵计算可采用二维直方图法. 连续变量的互信息计算: 第一种, histogram 方法 (Moddemeijer, 1989), 将数据划分成等尺度( 直方图) 的间隔.该方法在低维度条件下, 能够获得满意解; 随着数据维度的增多, histogram估算值的精确度呈递减趋势. 第二种, using the continuous kernel based density estimator to approximate I(x; y), as proposed by Kwak and Choi ( b). 利用基于密度评价者的连续核心近似互信息I(x; y), 该方法由Kwak and Choi ( b)提出. 给出一个变量x的N个样本, 近似密度函数为: ( 基于互信息特征选择标准: 最大的依赖, 最大关联, 最小冗余) 12
其中, 是Parzen窗口函数( Parzen window function (Parzen, 1962)) ; 是第i个样本; h是窗口宽度.Parzen已证明了, 选择适当的和h, 当N趋近于无穷
11 SteuerR, Kurths J, DaubC O, eta.l Themutual information: detecting and
evaluating dependencies between variables [J]. Bioinformatics, ,18( sup2):231-240. 12 Feature Selection Based on Mutual Information Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy 资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 时, 近似函数趋近于真实的p(x). 一般, 可用高斯窗口( Gaussian window) :
其中, , d是样本x的维度, 是z的协方差, 以上计算能够利用peng制作的matlab的互信息计算工具包.
1.3.2 基于互信息的特征选择的算法模型 建立一个特征选择的模型, 能够描述为: 设原始特征空间为FR, 包含有n个特征, c为分类类别, 现要从FR中选择k个最有效的特征, 形成一个新的特征空间R , 要求k< n. 利用互信息的特征选择的算法模型, 包括二阶段 1) 内部阶段为: 经典的 MIFS (Battiti, 1994)用来选择特征的m个序数, ——找到更高级的该种算法1314。经典的MIFS算法的步骤如下1516:
13 Using Mutual Information for Selecting Features in Supervised Neural Net
Learning 14 Novovičová J, Malík A, Pudil P. Feature Selection Using Improved Mutual Information for Text Classification [M]. : 1010-1017. 15 杨打生.特征选择的信息论算法研究[D].东南大学硕士学位论文, . 16 Improved Mutual Information Feature Selector for Neural Networks in Supervised Learning