信息熵-特征选择方案
- 格式:doc
- 大小:492.50 KB
- 文档页数:13
mcc方法最大相关熵最大相关熵是一种基于信息熵的方法,用于解决数据挖掘和特征选择问题。
在数据挖掘和机器学习领域,特征选择是非常重要的一步,它可以帮助我们识别出对于目标变量具有较高相关性的特征,从而提高模型的准确性和性能。
在特征选择过程中,我们经常面临的一个问题是,如何从大量的特征中选择出与目标变量相关性最大的特征。
传统的方法包括互信息、信息增益、卡方检验等,这些方法在某些情况下可能存在一定的局限性。
而最大相关熵方法(Maximum Correlation Criterion,简称MCC 方法)则是一种基于信息熵的新颖特征选择方法。
它通过最大化特征与目标变量之间的相关熵来选择最相关的特征。
相关熵是指特征与目标变量之间的互信息,它可以衡量两个变量之间的相关性程度。
在MCC方法中,首先需要计算每个特征与目标变量之间的相关熵,然后选择相关熵最大的特征作为最相关的特征。
具体步骤如下:1. 计算每个特征与目标变量之间的互信息。
互信息是一种衡量两个变量之间相关性的指标,它可以通过计算两个变量的联合概率分布和边缘概率分布来得到。
2. 根据互信息计算相关熵。
相关熵是指特征与目标变量之间的互信息的平均值,它可以用来度量特征与目标变量之间的相关性程度。
3. 选择相关熵最大的特征作为最相关的特征。
相关熵越大,表示特征与目标变量之间的相关性越强。
使用MCC方法进行特征选择有以下几个优点:1. 相关熵能够充分利用特征与目标变量之间的相关信息,从而选择出更加相关的特征。
2. 相关熵能够避免传统方法中可能存在的局限性,例如互信息可能受到特征维度和样本数量的影响。
3. MCC方法具有较高的稳定性和可靠性,可以在各种数据集和问题上得到较好的结果。
4. MCC方法可以与其他特征选择方法结合使用,从而进一步提高特征选择的效果。
最大相关熵方法是一种基于信息熵的特征选择方法,通过最大化特征与目标变量之间的相关熵来选择最相关的特征。
它能够充分利用特征与目标变量之间的相关信息,避免传统方法中可能存在的局限性。
熵权法的值-概述说明以及解释1.引言1.1 概述熵权法是一种多属性决策分析方法,它将熵的概念引入到权重计算中,用以解决多属性决策问题。
熵是信息论中的概念,衡量了信息的不确定性或混乱程度。
在熵权法中,熵被用来度量属性的不确定性,通过计算属性的熵值,进而确定属性的权重。
熵权法具有较强的普适性和灵活性,不依赖于具体问题的背景和特点,适用于各种类型的决策问题,包括社会经济、环境资源、工程管理等各个领域。
同时,熵权法可以有效地处理属性之间的相互影响,充分考虑属性之间的关联性,提高决策的准确性和可靠性。
该方法的原理相对简单直观,通过引入熵的概念,将属性的信息熵转化为权重,从而实现了对属性的排序和评价。
相比于传统的权重计算方法,熵权法能够避免主观因素的干扰,更加客观地评估属性的重要性,提高了决策结果的客观性和可靠性。
熵权法的应用领域广泛,可以在人才招聘、投资决策、项目评估等多个方面发挥作用。
通过对属性的熵值计算,可以确定各个属性对决策结果的影响程度,进而进行合理的决策、资源分配和风险评估。
然而,熵权法在实际应用中也存在一些局限性。
首先,该方法对原始数据要求较高,需要准确、全面的数据信息才能计算出准确的熵值。
其次,当属性之间存在非线性关系时,熵权法的效果可能受到一定的影响,需要结合其他方法进行综合分析。
尽管存在一些局限性,但熵权法作为一种简便、直观、有效的决策评价工具,具有较大的发展潜力。
未来,可以通过改进算法、完善理论框架,进一步拓展熵权法在多属性决策问题中的应用范围,提高决策过程的效率和准确性。
1.2 文章结构文章结构部分的内容可以包括以下内容:在本篇文章中,主要介绍了熵权法(Entropy Weight method)的值。
本文将按照以下结构展开讨论:首先,引言部分将从概述、文章结构、目的和总结四个方面入手。
在概述部分,我们将简要介绍熵权法的概念和应用背景。
接着,文章结构部分将对整篇文章的结构进行详细介绍,包括各个章节的内容和布局。
简述id3算法的3步具体流程
ID3算法是一种基于信息熵的决策树学习算法,它适用于分类问题。
其流程可以分为三步,分别是特征选择、决策树生成和决策树剪枝。
第一步,特征选择。
在训练数据集中,选择最具分离性的特征作为决策树节点的判定依据。
这需要计算每个特征对数据集分类的影响程度,也就是信息增益。
信息增益是指在得知某一个特征的取值后,对数据集的不确定性减少的程度。
选择信息增益最大的特征作为判定依据,作为当前节点。
第二步,决策树生成。
在根据最优特征生成当前节点后,使用该特征将数据集分成多个子集,并针对每一个子集递归地生成决策树。
直到数据集已经完全分类或无法找到更多特征为止。
第三步,决策树剪枝。
决策树生成过程中可能会出现过拟合问题,即模型在训练集上表现良好,但在测试集上表现不佳。
这时需要对决策树进行剪枝,删除一些不必要的节点和子树。
具体的剪枝方式有预剪枝和后剪枝两种。
总之,ID3算法是一个简单而高效的决策树学习算法,可以在分类问题上取得良好的效果。
样本信息熵样本信息熵是信息论中的重要概念,它通常用于描述样本数据的不确定性程度。
在本文中,我们将介绍样本信息熵的基本概念、计算方法以及其在数据分析与机器学习中的应用。
什么是样本信息熵?样本信息熵又被称为数据熵或样本熵,它描述了样本数据的不确定性程度,即样本数据量的多少或者样本的均匀性。
样本信息熵越大,数据的不确定性程度越高。
计算样本信息熵的方法计算样本信息熵需要先统计样本中各类别数据的出现次数,然后根据信息熵公式进行计算。
信息熵公式如下:H(x) = -∑p(x_i) * log2p(xi)其中,p(xi)表示每个类别数据在样本中出现的概率。
样本中每个类别数据的概率之和为1。
举个例子,假设一个样本数据集有8个样本,其中4个为类别1,2个为类别2,2个为类别3。
那么计算样本信息熵的过程如下:类别1的概率为4/8,类别2的概率为2/8,类别3的概率也为2/8。
将这些概率值带入信息熵公式中即可计算出样本信息熵的大小。
H(x) = -[4/8 * log2(4/8) + 2/8 * log2(2/8) + 2/8 * log2(2/8)] = 1.5样本信息熵的应用在数据分析和机器学习中,样本信息熵通常用于特征选择。
特征是描述样本数据的属性,特征选择就是从已有的特征中选择出最有用的特征用于数据分析或机器学习算法中。
通常情况下,样本信息熵越大的特征具有更好的判别能力。
举个例子,假设一个数据集中有多个特征,我们需要从中选择一个最适合的特征用于分类。
我们可以先根据每个特征的类别数据,计算出该特征对应的样本信息熵,然后选择样本信息熵最大的特征作为分类依据。
结语样本信息熵是信息论中一个重要的概念,它可以用于描述数据的不确定性程度,特别适用于特征选择。
在进行数据分析或机器学习时,了解样本信息熵的概念和计算方法能够帮助我们更好地理解数据集的特征分布情况。
文本分类中的特征选择方法评估比较特征选择是文本分类中的一个重要步骤,它对于改善分类模型的性能和降低计算成本具有关键作用。
在文本分类领域,有许多不同的特征选择方法可供选择。
本文将评估和比较几种常用的特征选择方法,以帮助研究者和从业者选择适合自己任务的方法。
1. 互信息(MI):互信息是一种常用的特征选择方法,它用来度量特征与类别之间的相关性。
互信息越大,表示特征与类别之间的相关性越强。
互信息具有简单直观的计算方式,但它没有考虑特征与其他特征之间的相关性。
2. 卡方检验(CHI):卡方检验也是一种常见的特征选择方法,它用来度量特征与类别之间的独立性。
卡方值越大,表示特征与类别之间的独立性越低,即特征更有用。
卡方检验能够考虑特征与其他特征之间的相关性,但它对特征出现次数较少的情况较为敏感。
3. 信息增益(IG):信息增益是一种基于信息熵的特征选择方法,它用来度量特征对类别的分类能力。
信息增益越大,表示特征对类别的分类能力越强。
信息增益能够有效地考虑特征与类别之间的相关性,但它对特征的取值个数较敏感。
4. 方差选择(VAR):方差选择是一种基于方差的特征选择方法,它用来度量特征在样本集中的变化程度。
方差越大,表示特征的取值在样本集中的变化越大,即特征更有用。
方差选择方法简单易用,但它忽略了特征与类别之间的相关性。
以上是几种常用的特征选择方法,它们各自有着不同的特点和适用场景。
在实际应用中,我们需要根据任务的具体需求和数据的特点选择合适的特征选择方法。
对于互信息、卡方检验和信息增益这三种方法,它们都可以用于评估特征与类别之间的相关性。
在使用这些方法时,我们需要注意特征与类别之间的关联关系。
如果特征与类别之间的关联关系较强,那么这些方法会给出较高的评估分数,反之则会给出较低的评估分数。
因此,在选择特征选择方法时,我们需要综合考虑特征与类别之间的相关性以及任务的具体需求。
方差选择方法适用于对特征的变异程度较为敏感的任务。
信息熵交叉熵信息熵和交叉熵是信息论中非常重要的指标,它们被广泛应用于数据分析和机器学习领域。
本文将详细介绍信息熵和交叉熵的概念、计算方式和应用场景。
一、信息熵1.1 定义信息熵是信息理论中用来描述随机事件不确定性的度量,也称为香农熵(Shannon entropy),由克劳德·香农在1948年提出。
信息熵的定义如下:$$H(X)=-\sum_{i=1}^{n}p(x_i)\log{p(x_i)} $$其中,$H(X)$代表事件$X$的信息熵, $n$表示事件$X$的可能取值个数,$p(x_i)$表示事件$X$取值为$x_i$时的概率,$\log$表示以2为底的对数。
信息熵的单位是比特(bit)或者纳特(nat),它们分别代表使用二进制或者自然对数进行度量。
1.2 计算方式信息熵的计算方式需要先计算事件的概率分布,然后针对每个可能的取值进行对数运算和乘法运算。
如果一个事件的概率分布可以近似为一个均匀分布,那么它的信息熵会比较高。
如果一个事件的概率分布非常不均匀,那么它的信息熵会比较低。
1.3 应用场景二、交叉熵交叉熵(cross-entropy)是一种度量两个概率分布之间相似程度的指标。
通常情况下,交叉熵用于衡量两个概率分布之间的差异。
它的定义如下:其中,$H(y,\hat{y})$代表真实值$y$和预测值$\hat{y}$的交叉熵,$n$表示事件$X$的可能取值个数,$y_i$表示真实值中类别$i$的概率,$\hat{y_i}$表示预测值中类别$i$的概率。
计算交叉熵需要先计算真实值的概率分布和预测值的概率分布,然后分别对应每个类别进行对数和乘法运算。
交叉熵的值越小,代表预测值和真实值之间的差异越小。
交叉熵在机器学习中被广泛应用,特别是在分类问题中。
在神经网络中,交叉熵是训练模型时的目标函数之一,可以用来评估模型的预测准确率。
比如,在图像分类问题中,可以使用交叉熵来衡量模型预测图像类别的能力。
信息熵计算器一、前言信息熵是信息理论的重要概念,通常用来描述信息的不确定性度量。
信息熵计算器是一种可以帮助我们更方便快捷地计算信息熵的工具。
在许多领域中,如通信、数据压缩、密码学等,信息熵的计算都是不可或缺的。
本文将介绍信息熵计算器的原理、应用及其使用方法。
二、信息熵的定义在信息论中,信息熵是度量信息“不确定度”的一种量化指标。
在一定条件下,用信息熵可以表示信息源的平均不确定性或信息平均度量,它是信息编码的极限。
信息熵的单位是比特(bit),它越大,代表着信息的不确定性越高。
假设有一个信息源,它可以输出 $n$ 种不同的信息,第 $i$ 种信息出现的概率为 $P_i$。
则该信息源产生信息的平均不确定性为:$$H(S) = -\sum_{i=1}^n P_i \log_2(P_i)$$其中,$H(S)$ 就是信息熵,它表示对信息源的度量。
在这个公式中,$\log_2$ 表示以 2 为底的对数。
三、信息熵计算器的原理信息熵计算器实际上就是一个包含了信息熵公式的计算器。
计算器通过输入每种信息的概率,自动计算并输出信息熵。
信息熵计算器的实现方式有很多种,其中一种简单的实现方式如下:1. 用户输入信息数量 $n$;2. 用户依次输入每种信息对应的概率 $P_i$;3. 计算器按照信息熵公式计算并输出信息熵$H(S)$。
四、信息熵计算器的应用信息熵计算器的应用非常广泛,以下是几个常见的应用场景:1. 通信:通信领域中经常使用信道编码技术来提高传输数据的可靠性,而信息熵则是估计信源产生数据的上限,是选择信道编码方案的基础。
2. 数据压缩:数据压缩算法是计算机领域中常用的技术,在数据压缩过程中,我们可以根据信息熵进行数据压缩的效果评估。
3. 密码学:密码学是一门涉及到信息安全的学科,信息熵在密码学中有着重要作用,比如当我们设计密码时,可以根据信息熵来评估密码的强度。
4. 数据挖掘:信息熵还可以用于数据挖掘中,比如在决策树算法中,可以利用信息熵进行特征选择。
信息熵算法java -回复信息熵算法(Java)是一种用于测量和评估数据集中信息量的算法。
信息熵是基于信息论的概念,它用于衡量信息的不确定性和无序程度。
在计算机科学中,信息熵被广泛应用于数据压缩、数据挖掘和机器学习等领域。
本文将介绍信息熵算法的原理、实现和应用。
一、信息熵算法的原理信息熵是对数据集中信息的混乱程度的度量。
当信息更有序和一致时,熵较低;当信息更混乱和无序时,熵较高。
根据信息熵的定义,我们可以使用以下公式计算信息熵:H(X) = -ΣP(x)log2(P(x))其中,H(X)表示信息熵,P(x)表示数据集中某个事件发生的概率。
二、信息熵算法的实现下面是一个使用Java编写的信息熵算法的示例:javaimport java.util.Map;import java.util.HashMap;public class EntropyCalculator {public double calculateEntropy(String data) {Map<Character, Integer> frequencyMap = new HashMap<>();for (char c : data.toCharArray()) {frequencyMap.put(c,frequencyMap.getOrDefault(c, 0) + 1);}double entropy = 0.0;int total = data.length();for (char c : frequencyMap.keySet()) {double probability = (double) frequencyMap.get(c) / total;entropy -= probability * (Math.log(probability) / Math.log(2));}return entropy;}}在这个示例中,我们使用了一个HashMap来统计字符在数据中出现的频率。
信息熵在统计学中的意义一、信息熵的概念统计学中的信息熵指的是用来衡量随机变量不确定性的一个概念。
在信息论中,信息熵是对随机变量不确定性的度量,也可以理解为随机事件包含的信息量大小。
当一个事件发生的概率很大时,这个事件所包含的信息量就很小;相反,当一个事件发生的概率很小时,这个事件所包含的信息量就很大。
信息熵通过数学方式精确地刻画了这一概念。
二、信息熵的公式信息熵可以通过以下公式来计算:其中,表示随机变量的信息熵,表示事件发生的概率,表示事件的总数。
这个公式直观地展现了信息熵与概率分布之间的关系:当各事件发生的概率相同时,即所有事件等可能发生时,信息熵达到最大值。
三、信息熵在统计学中的应用1. 决策树模型在统计学中,决策树是一种常用的分类和回归方法。
而构建决策树的关键步骤之一就是选择合适的属性进行分裂。
而信息熵正是用来衡量数据集“不纯度”的常用指标之一。
我们可以通过计算每个属性的信息增益(或信息增益比),来选择对数据集影响最大的属性进行分裂,以此构建出更加有效的决策树模型。
2. 聚类分析聚类分析是一种常用的无监督学习方法,它的目标是将数据集中的样本划分为若干个类别(簇),使得同一类别内部的样本相似度更高,不同类别之间的样本相似度更低。
而在聚类分析中,我们往往会使用距离或者相似度来衡量样本之间的关系。
而信息熵可以作为一个衡量样本相似度或者不相似度的指标,并且可以帮助我们更好地完成数据集聚类任务。
3. 特征选择在统计学中,特征选择是指从所有特征中选择出对于任务最为有效的特征子集。
而在特征选择过程中,我们往往希望保留那些能够提供更多有用信息的特征。
而依靠信息熵进行特征选择能够帮助我们迅速识别出哪些特征对于任务有重要影响,从而帮助我们提高模型性能并减少特征维度。
四、结语作为统计学中一个重要且基础的概念,信息熵在现代数据分析和机器学习领域扮演着至关重要的角色。
通过对信息熵在统计学中应用领域进行适当理解和灵活运用,可以帮助我们更好地进行数据挖掘、模式识别和预测分析等任务,在实际应用中取得更为可观的成果。
基于互信息的特征选择 1. 模型 定义D1 病集S由有关心脏病病种iX(i=1,2,…,n)组成,令患者的疾病信息熵1-2为:
)(1log)()(1iniiXPXPXH (1)
显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.
定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式 nmijxCasebase][ (2)
其中,ijx—病例库中第j个病例的第i个属性值; m—病例特征数量; n—病例库规模; 定义D3:一个信息系统(IS)可以表达为
,,,rrfRIURVf (3)
其中,U 是对象的非空有限集合, R是属性的非空有限集合,rrRVV是属性值
的集合,Vr 表示了属性任意rR时的属性值范围,:rfURV 是一个信息函数,它指定U中每一个对象 x 的属性值. 当R中的属性集可进一步分解为条件属性集合C和决策属性集合D,且满足,RCDCD时,信息系统(IS)称为决策系统(DS)3. ai为某一条件属性,则决
策属性D对某一条件属性ai的依赖程度可以利用下式计算4-5:
1 马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报:自然科学版, 2002,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报:自然科学版, 2004,43(B08):353-356. 3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, 2007: 49.
4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, 2008,24(2):59-63. (4) 式中,RC、RD 分别表示条件属性集合C和策属性集合D在论域上的等价关系.()DCRHR表示RD 相对于RC 的条件熵.(,)iIaD的值越大,则条件属性ai对决策属性D
的重要性越大.如果(,)0iIaD,则说明ai对于D不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.
1.3 基于互信息的特征选择6: 三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法7。 结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。 苗夺谦8等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文9提出了一种基于互信息增益率的属性约简算法; 颜艳等10提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。
熵的公式:
联合熵:
5 程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J]. 电网技术, 2004,28 (17): 72-75. 6 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, 2009, 36(3, Part 2): 5921-5931. 7唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用,2008,44(13):130-133 8苗夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展, 1999,36(6): 681 - 684. 9贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版), 2006,40(6):1041 - 1044. 10颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J]. 清华大学学报(自然科学版),2007,47(S2):1903-1906. 条件熵: 联合熵和条件熵的关系: 1.3.1 互信息(MI) 互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.
互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立.
特征和类之间的互信息:P(wi)是特征wi的概率, 表示wi没有发生.P(ci)是类cj的概率,P(cj,wi)是类cj与特征wi的联合概率.
是特征之间的互信息. 互信息和信息熵之间的联系:
互信息和信息熵的关系见图1. 图1 互信息和信息熵的关系图 连续型时,(p(x), p(y) 和p(x,y)都是连续的)
计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法11,并根据表达向量的值域范围选择合适的bin值,联合熵计算可采用二维直方图法.
连续变量的互信息计算: 第一种,histogram 方法 (Moddemeijer, 1989),将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势. 第二种,using the continuous kernel based density estimator to approximate I(x;y), as proposed by Kwak and Choi (2002b). 利用基于密度评价者的连续核心近似互信息I(x;y),该方法由Kwak and Choi (2002b)提出. 给出一个变量x的N个样本,近似密度函数为:(基于互信息特征选择标准: 最大的依赖,最大关联, 最小冗余)12
其中,是Parzen窗口函数(Parzen window function (Parzen, 1962));是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的p(x). 通常,可用高斯窗口(Gaussian window):
其中,,d是样本x的维度,是z的协方差, 以上计算可以利用peng制作的matlab的互信息计算工具包.
11 SteuerR, Kurths J, DaubC O, eta.l Themutual information: detecting and evaluating dependencies between variables [J]. Bioinformatics, 2002,18( sup2):231-240. 12 Feature Selection Based on Mutual Information Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy http://www.mathworks.com/matlabcentral/fileexchange/14888-mutual-information-computation 1.3.2 基于互信息的特征选择的算法模型 建立一个特征选择的模型,可以描述为:设原始特征空间为FR,包含有n个特征,c为分类类别,现要从FR中选择k个最有效的特征,形成一个新的特征空间R ,要求k< n. 利用互信息的特征选择的算法模型,包括二阶段 1)内部阶段为:经典的 MIFS (Battiti, 1994)用来选择特征的m个序数,——找到更高级的该种算法1314。经典的MIFS算法的步骤如下1516:
改进的算法: MIFS和 MIFS-u算法都是近似算法,随着输入特征的增加,特征选择性能逐渐下降.希望考虑待选输入特征和已选输入特征之间互信息在特征选择过程中的权重是一致的,我们可以用 待选输入特征 和各个已选输入特征 之间互信息J(F F ;C)的均值作为待选输入特征和已选输入特征互信息J(F S;C) 的近似,这样,权重系数可以取常数,在整个特征选择过程中,考虑与已选输入特征互信息权重的系数是一致的17.
2)外部阶段为:最小化训练数据集的基于案例推理的错误,以确定序数m 外层阶段解决内层阶段没能解决的问题:确定特征m的最佳序数.假定数据集中有n个特征,MIFS首先用来选择1到n的特征,并形成一连串的特征集:
1.3.3 比较这n个连续的特征集 ,找出子集,使得CBR的训练误差(用MMRE衡量)
最小.因此,m是特征的最佳序数,是最佳数据集.
13 Using Mutual Information for Selecting Features in Supervised Neural Net Learning 14 Novovičová J, Malík A, Pudil P. Feature Selection Using Improved Mutual Information for Text Classification [M]. 2004: 1010-1017. 15 杨打生.特征选择的信息论算法研究[D].东南大学硕士学位论文, 2005.
16 Improved Mutual Information Feature Selector for Neural Networks in Supervised Learning 17杨打生, 李泰. 信息论特征选择算法的改进[J].商丘职业技术学院学报,2005(4):2.