特征选择算法综述20160702

格式：docx
大小：165.62 KB
文档页数：8

下载文档原格式

/ 8

机器学习中特征选择的算法解析

机器学习中特征选择的算法解析在机器学习任务中，通常会涉及到许多特征，而特征的选择非常关键，因为特征的选择直接关系到模型的预测效果。

过多的特征会导致过拟合问题，而过少的特征会导致欠拟合问题。

因此，选择一组既能反映数据特点，又减少冗余信息的特征，是非常重要的。

而特征选择算法，就是为了解决这个问题而设计的。

它主要分为三类：过滤式、包装式和嵌入式。

1、过滤式特征选择算法过滤式特征选择算法是一种特征选择算法，它通常是在分类或聚类之前对数据进行预处理。

它的目标是通过某种评估准则对每个特征进行独立评估，以确定其重要性。

然后根据这些分值，选择最相关的特征子集。

常见的过滤式特征选择算法有互信息、方差、相关系数、卡方、F-检验等。

其中，互信息表征的是两个变量之间的相关性，方差表征的是单个变量的差异，相关系数表征的是两个变量之间线性相关的强度，而卡方和F-检验则是用于衡量两个变量之间的独立性和相关性。

2、包装式特征选择算法和过滤式算法相比，包装式特征选择算法更加注重特征子集的性能。

它的一般做法是将每个特征子集作为一个训练集，然后使用某个评估准则构建一个模型进行训练，最后选择最优的特征子集。

常见的包装式特征选择算法有递归特征消除（RFE）、基于遗传算法的特征选择（GA）、基于粒子群优化的特征选择（PSO）等。

其中，RFE和GA都是比较常见的算法，RFE通过逐步剔除变量的方法，找到一个子集，该子集具有最小的错误率，GA是通过模拟自然选择和进化行为来找到一个最优的特征子集，这类算法需要设置好对应的超参数。

3、嵌入式特征选择算法嵌入式特征选择算法是将特征选择作为模型训练的一部分。

也就是说，特征选择嵌入到算法中，同时特征权重也随着模型的训练进行调整。

嵌入式特征选择算法的代表就是Lasso和岭回归算法，这两个算法都是针对线性模型的。

此外，还有比较常见的树模型，比如随机森林和GBDT等，这些模型都内置了特征选择的功能。

总体来说，特征选择是一个非常重要的问题，数据特征越多，数据挖掘任务的复杂性就越大。

机器学习中的特征选择方法研究综述

机器学习中的特征选择方法研究综述简介：在机器学习领域，特征选择是一项重要的任务，旨在从原始数据中选择出对于解决问题最具有代表性和预测能力的特征子集。

特征选择方法能够改善模型性能、减少计算复杂性并提高模型解释性。

本文将综述机器学习中常用的特征选择方法，并对其优点、缺点和应用范围进行评估和讨论。

特征选择方法的分类：特征选择方法可以分为三大类：过滤式、包裹式和嵌入式方法。

1. 过滤式方法：过滤式方法独立于任何学习算法，通过对特征进行评估和排序，然后根据排名选择最佳特征子集。

常用的过滤式方法包括相关系数、互信息、卡方检验等。

(1) 相关系数：相关系数是评估特征与目标变量之间线性关系强弱的一种方法。

常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

优点是简单且易于计算，但仅能检测线性关系，对于非线性关系效果较差。

(2) 互信息：互信息是评估特征与目标变量之间信息量共享程度的一种方法。

互信息能够发现非线性关系，但对于高维数据计算复杂度较高。

(3) 卡方检验：卡方检验适用于特征与目标变量均为分类变量的情况。

它衡量了特征与目标变量之间的依赖性。

然而，在特征之间存在相关性时，卡方检验容易选择冗余特征。

过滤式方法适用于数据集维度较高的情况，计算速度快，但无法考虑特征间的相互影响。

2. 包裹式方法：包裹式方法直接使用学习算法对特征子集进行评估，通常使用启发式搜索算法（如遗传算法、蚁群算法等）来找到最佳特征子集。

包裹式方法的优点是考虑了特征间的相互作用，但计算复杂度高，易受算法选择和数据噪声的影响。

(1) 遗传算法：遗传算法是一种模拟生物进化过程的优化算法。

在特征选择中，遗传算法通过使用编码表示特征子集，通过选择、交叉和变异等操作来搜索最佳特征子集。

遗传算法能够有效避免包裹式方法中特征间的相互影响，但计算复杂度高。

(2) 蚁群算法：蚁群算法是一种基于模拟蚁群觅食行为的优化算法。

在特征选择中，蚁群算法通过模拟蚂蚁在搜索空间中的移动来寻找最佳特征子集。

医学诊断中的特征选择算法研究

医学诊断中的特征选择算法研究一、概述随着医学技术的不断发展，医学诊断越来越依赖于计算机辅助诊断（CAD）系统。

在CAD系统中，特征选择算法是一种重要的数据挖掘技术，它可以挖掘出最有助于分类的特征集合，从而提高诊断准确性和可靠性。

医学诊断中的特征选择算法主要应用于分析医学影像数据、分析生物数据和分析临床病历数据等领域。

本文将围绕特征选择算法在医学诊断中的应用和优化展开讨论。

二、特征选择算法1.特征选择算法概述特征选择算法是一种数据挖掘技术，其目的是从原始数据中挖掘出最有助于分类的特征。

特征选择算法可以分为三类：过滤式特征选择、包裹式特征选择和嵌入式特征选择。

在医学诊断中，嵌入式特征选择算法比较常用。

2.嵌入式特征选择算法嵌入式特征选择算法是一种特征选择算法，它将特征选择作为模型构建的一部分。

该算法可以将特征选择和分类模型训练合并在一起，从而寻找出最优的特征组合。

目前比较流行的嵌入式特征选择算法有LASSO算法、弹性网络算法和岭回归算法。

三、医学影像数据中的特征选择算法1.医学影像数据的特征选择医学影像数据的特征选择是指对医学影像数据进行特征挖掘，以提高其诊断准确性和可靠性。

常用的医学影像数据特征选择算法有LASSO算法、弹性网络算法和岭回归算法等。

这些算法可以从医学影像数据中挖掘出最有助于分类的特征。

2.医学影像数据的应用医学影像数据的特征选择算法主要应用于医学影像诊断中。

例如，可以将CT、MRI等影像数据输入到CAD系统中，进行特征选择和分类模型训练。

通过CAD系统可以自动识别出肿瘤、血管和骨骼等医学影像信息，并进行可视化呈现，方便医生进行诊断。

四、生物数据中的特征选择算法1.生物数据的特征选择生物数据的特征选择是指对生物数据进行特征挖掘，以提高其诊断准确性和可靠性。

生物数据常常是高维数据，一些无用的特征可能会对分类结果产生负面影响。

在生物数据中，特征选择算法可以应用于DNA序列分析、蛋白质结构分析和微生物分类等领域。

机器学习模型中的特征选择算法及应用研究

机器学习模型中的特征选择算法及应用研究随着人工智能技术的不断发展，尤其是机器学习领域的蓬勃发展，特征选择算法也吸引了越来越多的关注。

在构建机器学习模型的过程中，特征选择算法能够帮助我们找到那些最为关键的特征，从而提高模型预测的准确性。

一、什么是特征选择算法特征选择算法是一种机器学习算法，主要用于从原始数据集中选择出那些最具有代表性的特征进行建模。

在实际应用中，数据集通常包含大量的特征，而其中只有一部分是真正有用的。

因此，通过使用特征选择算法，我们可以快速找到那些最有用的特征，从而减少训练时间和提高模型性能。

在机器学习模型中，特征选择算法可以分为三大类：过滤式、包裹式和嵌入式。

每种算法都有其优缺点，下面我们逐一来进行介绍。

二、过滤式特征选择算法过滤式特征选择算法是一种先完全独立于机器学习算法而运行的算法。

其主要思路是通过对原始数据集的特征进行评估和排序，然后选择分数最高的那些特征用于建模。

其中比较常用的评估方法是方差分析（ANOVA）和最大信息系数（MIC）等。

通过这些评估方法，我们可以快速识别出那些与目标变量关系最密切的特征。

过滤式特征选择算法的优点在于：在训练模型时，与特征选择算法相关的计算成本比较低，因此需要的计算资源也比较少。

另外，该方法也比较简单，不易出错。

不过，过滤式特征选择算法也有其缺点。

例如，它只考虑单个特征与目标变量之间的相关性，而未考虑不同特征与目标变量之间的复杂交互关系，因此，可能会存在信息丢失的情况。

三、包裹式特征选择算法包裹式特征选择算法是一种与机器学习算法紧密结合的特征选择算法。

在该算法中，特征选择与模型构建同时进行，数据集中的每个特征都会用于训练模型，以找出那些最合适的特征。

包裹式特征选择算法的优点在于：与过滤式算法相比，该方法考虑了多个特征之间的复杂交互关系，并且可以针对特定的机器学习问题进行优化。

不过，包裹式特征选择算法的运算成本比较高，计算时间也比较长，因此在实际应用中往往需要一些优化手段来提高计算效率。

机器学习中的特征选择算法简介

机器学习中的特征选择算法简介随着数据的爆炸式增长，机器学习成为了从海量数据中提取有用信息的关键技术。

在机器学习中，特征选择是一个关键步骤，它能够从大量的特征中找到最具预测能力的子集。

本文将简要介绍几种常见的特征选择算法。

一、过滤式特征选择算法过滤式特征选择算法是一种基于特征本身的统计指标进行特征选择的方法，它独立于任何具体的学习算法。

常见的过滤式特征选择算法包括信息增益、卡方检验、相关系数等。

这些算法通过计算特征与目标变量之间的相关性来对特征进行排序。

排序后的特征可以根据阈值进行选择，也可以选择固定数量的特征。

过滤式特征选择算法计算简单，速度快，但忽略了特征之间的相互作用。

二、封装式特征选择算法封装式特征选择算法将特征选择和学习算法融合在一起，直接根据学习算法的性能来评估特征子集的质量。

这种方法通常使用一个评估函数来评估每个特征子集的质量，再根据优化算法（如贪婪搜索或遗传算法）选择最佳特征子集。

封装式特征选择算法更加准确，但计算复杂度高，时间开销大。

三、嵌入式特征选择算法嵌入式特征选择算法将特征选择作为学习算法的一部分，通过学习算法自身的特性来选择特征。

常见的嵌入式特征选择算法包括L1正则化（Lasso）、岭回归（Ridge Regression）和 Elastic Net。

这些算法在学习过程中自动选择具有最强预测能力的特征，以减少过拟合问题。

嵌入式特征选择算法可以同时进行特征选择和模型训练，但对于大规模数据集而言，计算复杂度也很高。

四、基于树模型的特征选择算法基于树模型的特征选择算法利用决策树、随机森林或梯度提升等算法来评估特征的重要性，并根据重要性进行特征选择。

这类算法通过度量特征在树模型中的分割能力来评估其重要性。

通过构建树模型，可以得到每个特征的重要性排名，进而进行特征选择。

基于树模型的特征选择算法易于解释，但对噪声和异常值敏感。

五、深度学习中的特征选择深度学习中的特征选择是指通过深度神经网络的隐藏层输出来选择特征。

机器学习特征选择常用算法

机器学习特征选择常用算法
1. 综述
(1) 什幺是特征选择
特征选择( Feature SelecTIon )也称特征子集选择( Feature Subset SelecTIon , FSS ) ，或属性选择( Attribute SelecTIon ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。

(2) 为什幺要做特征选择
在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：
特征个数越多，分析特征、训练模型所需的时间就越长。

特征个数越多，容易引起维度灾难，模型也会越复杂，其推广能力会下降。

金融数据挖掘中的特征选择方法综述

金融数据挖掘中的特征选择方法综述特征选择是金融数据挖掘中的关键步骤之一。

在金融领域中，大量的特征数据被采集和处理，以用于构建预测模型、制定投资策略和风险控制。

然而，由于特征数据的维度高、相关性强、噪声干扰等问题，挑选出对金融预测和决策最有价值的特征变得至关重要。

因此，本文将综述金融数据挖掘中常用的特征选择方法。

一、过滤方法过滤方法是一种简单而直观的特征选择方法。

它通过对特征进行评估和排序，进而筛选出对目标变量影响最大的特征子集。

常用的过滤方法有信息增益、相关系数、方差等。

信息增益基于信息熵的概念，表示特征对目标变量的贡献程度；相关系数衡量特征与目标变量之间的线性关系强度；方差则反映了特征的变化范围，方差越大说明特征对于区分样本的能力越强。

二、包裹方法包裹方法通常通过直接使用目标变量来评估特征的重要性，它模拟了最终应用中的特征选择情景，一般以特征子集在某种分类器上的性能作为评价标准。

常见的包裹方法有递归特征消除（Recursive Feature Elimination，RFE）、遗传算法（Genetic Algorithm，GA）等。

RFE通过迭代地训练模型和消除最不重要的特征来完成特征选择；GA则通过模拟遗传算法的过程，通过交叉、变异等操作，不断优化最佳特征的组合。

三、嵌入方法嵌入方法是将特征选择融入到特定的学习模型中，通过学习模型自身的选择能力来评估特征的重要性。

常用的嵌入方法有L1正则化、决策树、基于模型的特征选择等。

L1正则化通过对模型的目标函数引入L1范数降低特征的权重，从而实现特征选择；决策树则可以通过特征的重要性排序来选择特征；基于模型的特征选择是指根据学习模型的系数或权重来确定特征的重要性，如线性回归中的系数。

四、混合方法混合方法即综合运用多种特征选择方法，充分发挥各方法的优势来进行特征选择。

这种方法可以结合过滤方法的速度快，包裹方法的准确性和嵌入方法的泛化能力。

混合方法主要有两种类型：串行型和并行型。

生物信息学中的特征选择算法研究

生物信息学中的特征选择算法研究生物信息学是近年来发展迅速的领域，它将数学、计算机科学和生物学融合在了一起。

生物信息学研究的是生物分子的结构、特性和功能，并将其应用于疾病研究、新药研发、环境保护等多个领域。

而特征选择算法在生物信息学研究中扮演着重要的角色。

本篇文章将从什么是特征选择算法、特征选择算法的分类、特征选择算法的应用、特征选择算法面临的问题和特征选择算法的发展趋势等方面探讨生物信息学中的特征选择算法研究。

一、什么是特征选择算法特征选择算法是一种将数据中有用特征选出的方法，它能够从数据集中选择出与分类结果相关性最大的特征集合，同时能够排除无关特征和冗余特征。

特征选择可以提高分类器的精确度，减少计算复杂度，加速模型训练时间。

二、特征选择算法的分类特征选择算法按照特征的形式可以分为离散特征选择和连续特征选择。

按照特征数量可以分为单特征选择和多特征选择。

按照特征子集搜索的方法可以分为wrapper、filter和embedded三种。

1.wrapperwrapper特征选择是一种基于模型的特征选择算法，它通过尝试模型各个特征子集来找到最佳特征集合。

wrapper特征选择的过程如下：首先构建一个初始的特征子集（或者全部特征），再使用分类模型对每个特征子集进行评价。

如果评价指标达到预期，就停止搜索并输出特征子集；如果评价指标不理想，就将当前特征子集中一个特征去除（或增加一个特征）后重新进行评估，如此往复，直到满足预期。

2.filterfilter特征选择是将特征按照某个指标进行排序，并根据重要性进行筛选。

常用的指标有互信息、方差、相关系数等。

filter特征选择与数据的基本特征有关，一般不考虑分类器的特点。

由于filter特征选择不需要具体的分类模型，所以它的计算速度比较快。

但是，由于它不考虑模型的特征重要性，可能会产生过拟合的问题。

3.embeddedembedded特征选择将特征选择嵌入到分类器的训练过程中。

机器学习中的特征选择算法

机器学习中的特征选择算法在机器学习领域，特征选择算法是一种重要的技术，以帮助我们从原始数据中选择最具有预测能力的特征。

通过特征选择，我们可以降低数据维度、减少模型复杂度、提高模型性能和可解释性。

本文将介绍几种常见的机器学习特征选择算法，并讨论它们的原理与应用。

一、过滤方法（Filter Methods）过滤方法是一种基于数据统计或相关度分析的特征选择方法。

它们通常在特征选择和模型训练之前就进行，用以排除那些与目标变量关联较低的特征。

常见的过滤方法包括Pearson相关系数、互信息和方差选择法。

1. Pearson相关系数Pearson相关系数是用来表示两个变量之间线性相关程度的统计量。

在特征选择中，我们可以计算每个特征与目标变量之间的Pearson相关系数，筛选出与目标变量具有较高相关性的特征。

这样可以保留那些对目标变量有较强预测能力的特征。

2. 互信息互信息是一种用来衡量两个变量之间非线性相关性的度量指标。

对于特征选择，我们可以计算每个特征与目标变量之间的互信息，选择具有较高互信息的特征作为重要特征。

互信息比Pearson相关系数更适用于发现非线性相关性。

3. 方差选择法方差选择法是一种基于变量方差的特征选择方法。

它认为方差较小的特征提供的信息较少，通常对于分类问题来说，标准差小于某个阈值的特征可被认为是无效的，因此可以将其剔除。

二、包裹方法（Wrapper Methods）包裹方法是一种利用机器学习模型的性能来评估特征重要性并进行特征选择的方法。

它通过从特征子集中搜索最优特征组合，来判断特征的重要性。

常见的包裹方法有递归特征消除和遗传算法。

1. 递归特征消除（Recursive Feature Elimination, RFE）递归特征消除是一种通过逐步剔除“最不重要”的特征来进行特征选择的方法。

RFE首先基于当前的特征集训练一个机器学习模型，然后剔除权重最低的特征，再次训练模型。

如此重复，直到达到预设的特征数量或模型性能的要求。

大数据挖掘中的特征选择方法综述

大数据挖掘中的特征选择方法综述特征选择是大数据挖掘过程中的一个重要环节，它通过从数据集中选择相关特征，帮助挖掘出有意义的信息和模式。

在这篇文章中，我将综述大数据挖掘中常用的特征选择方法。

一、过滤式特征选择方法：过滤式特征选择方法主要通过计算特征与目标变量之间的相关性进行特征选择。

常用的方法包括卡方检验、相关系数、信息增益等。

卡方检验可以用于判断特征与分类变量之间是否存在显著性关系，相关系数可以衡量特征与目标变量之间的线性关系程度，信息增益则是衡量特征对分类任务的贡献度。

二、包裹式特征选择方法：包裹式特征选择方法则是利用机器学习算法来进行特征选择。

这种方法通过训练一个机器学习模型，以特征子集的性能作为模型评估准则，并通过搜索算法寻找最佳的特征子集。

常用的算法包括递归特征消除、遗传算法等。

三、嵌入式特征选择方法：嵌入式特征选择方法将特征选择过程与机器学习模型训练过程相结合。

在模型训练的过程中，自动选择与目标变量相关的特征。

例如，L1正则化逻辑回归、决策树、支持向量机等都可以实现嵌入式特征选择。

四、基于信息熵的特征选择方法：信息熵是度量特征集合纯度的一种指标，基于信息熵的特征选择方法主要根据各个特征的信息熵来评估特征的重要性。

常用的方法包括信息增益比、基尼指数等。

五、基于统计学的特征选择方法：基于统计学的特征选择方法通过统计学原理来选择特征。

例如，t检验可以用于判断两个样本之间的显著性差异，方差分析（ANOVA）可以用于多个样本之间的显著性差异判断。

六、基于稳定性的特征选择方法：基于稳定性的特征选择方法主要通过随机子采样或交叉验证来评估特征的重要性。

例如，随机森林、稳定性选择等都是基于稳定性的特征选择方法。

综上所述，大数据挖掘中的特征选择方法包括过滤式、包裹式、嵌入式、基于信息熵、基于统计学和基于稳定性的方法。

在实际应用中，选择合适的特征选择方法需要根据具体的任务需求、数据特征以及计算资源等因素进行综合考虑。

特征选择算法

特征选择算法
-1000字
答：
特征选择是机器学习研究中的一个重要的元素，它的目的是简化数据集和模型，使模
型更易于理解和部署。

特征选择算法是可以根据不同的目标，在保持其性能不变的情况下，从数据集中选择最有价值的特征子集的算法。

它们既可以基于机器学习模型的表现来评估
特征的价值，也可以基于某种统计度量来评估特征的相关性，从而消除不必要的噪声特征。

1.过滤检验：它通过计算特征之间的统计相关性来选择最可靠的特征，其目的是找出
那些对分类结果有最大影响的特征。

2.包裹方法：这种方法是一种贪心搜索方法，它最大化或最小化用于特征子集选择的
目标函数，从而得到更好的特征子集。

3.嵌入方法：它包括回归法和正则化方法，它们的主要目的是学习一组特征，以使模
型的性能更好，其中，回归法将学习过程与评估过程结合起来，而正则化方法将特征选择
和模型训练结合起来。

特征选择算法至关重要，因为它可以缩短训练时间，并减少模型的复杂度，并找出更
重要的特征，以便更好地理解数据和提升模型性能。

决策树算法是另一个有用的算法，它
通过学习特征和其标签之间的关系来构建决策树，以识别哪些特征对模型的表现贡献最大。

特征选择算法综述

－Байду номын сангаас
４６－
计智伟，等
略；）征评估函数；）止准则。３特４停
１１搜索起点和方向．
特征选择算法综述
优特征子集是由若干个预测能力较强的特征组成的１９１。相反，Ｗｒｐｒ法中，后续的学习算法嵌入到特在ａｅ方ｐ用征选择过程中。过测试特征子集在此算法上的预测性能来通
算法必须确定以下４个要素：）索起点和方向；）索策１搜２搜
基金项目：家自然科学基金（０７０２；国６９０８）国家自然科学基金（０７１９；５７８０）浙江省自然科学基金项目（００７、３９０１３８４７Ｙ１８７７Ｙ００６、００５）Ｙ作者简介：智伟（９一）男，江嘉兴人，士。研究方向：工智能与模式识别。计１８，浙硕人
分析等。谓大规模。方面指样本数目的庞大。一方面所一另
集所构建的分类或回归模型达到和特征选择前近似甚至更
好的预测精度。不但提高了模型的泛化能力、理解性和这可
第１９卷第９期
Ｖ０．９１１
Ｎｏ９．
电子设计工程
ＥｅｔｏｉｓｇｎｉｅｒｎｌｃｒｎｃＤｅｉｎＥｇｎｅｉｇ

特征选择常用算法综述

2.2.2 启发式搜索
(1)序列前向选择( SFS , Sequential Forward Selection )
算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单的贪心算法。
23 4 5678
搜索
posts 19, comments 255, trackbacks 0, articles 0 特征选择常用算法综述 Posted on 20110102 14:40 苍梧阅读(36823) 评论(12) 编辑收藏
1 综述
(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选
<1>序列浮动前向选择( SFFS , Sequential Floating Forward Selection )
算法描述：从空集开始，每轮在未选择的特征中选择一个子集x，使加入子集x后评价函数达到最优，然后在已选择的特征中选择子集z，使剔除子集z后评价函数达到最优。
<2>序列浮动后向选择( SFBS , Sequential Floating Backward Selection )
chrischeng
2. Re:那些优雅的数据结构 (1) : BloomFilter——大规模数据处理利器
你好，请问一下表1D1 D2 D3 M11 2 3 1002 3 1 503 2 1 80表2d1 d2 d3 m1 flag2 3 1 60 U1 2 3100 D4 3 4 30 I 我......

特征选择算法综述及基于weka的性能比较

数据挖掘中的特征选择算法综述及基于WEKA的性能比较陈良龙（湖南大学信息科学与工程学院）摘要：自进入21世纪以来，随着信息技术的飞速发展，产生了海量的具有潜在应用价值的数据，将这些数据转换成有用的信息和知识的需求也越来越迫切，因此数据挖掘引起了信息产业界和整个社会的极大关注。

特征选择作为一种常见的降维方法，在数据挖掘中起到不可忽视的作用。

本文首先介绍了数据挖掘处理对象的趋势，然后概述了特征选择算法，最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。

关键词：数据挖掘；特征选择；WEKA；Filter；Wrapper；性能比较A survey of feature selection algorithm in Data Mining and the performancecomparison based on WEKAAbstract: As the mass of data which have potential application and value have been created by the rapid development of information technology since the 21st century, the needs to transferring these data into useful information and knowledge are being more and more urgent, so the Data Mining caused the whole society and the information industry of great concern. Feature selection is critical to Data Mining for that it is a common method to reduce dimensions. The tendency of Data Mining’s handler object is first introduced in this paper, then introduction of the feature selection algorithm, and finally compared the performance of algorithms based on methods of Filter and Wrapper, respectively, by using WEKA (i.e. software used in Data Mining).Keywords: Data Mining; Feature selection; WEKA; Filter; Wrapper; Performance comparison1 引言数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

特征选择方法综述控制与决策 2012.2

 问题的提出  特征选择框架  基于搜索策略划分特征选择方法  基于评价准则划分特征选择方法  结论

一、问题的提出特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程，是模式识别的关键问题之一。对于模式识别系统，一个好的学习样本是训练分类器的关键，样本中是否含有不相关或冗余信息直接影响着分类器的性能。因此研究有效的特征选择方法至关重要。

特征选择算法的目的在于选择全体特征的一个较少特征集合，用以对原始数据进行有效表达按照特征关系度量划分，可分为依赖基尼指数、欧氏距离、信息熵。

二、特征选择框架

由于子集搜索是一个比较费时的步骤，一些学者基于相关和冗余分析，给出了下面一种特征选择框架，避免了子集搜索，可以高效快速地寻找最优子集。

从特征选择的基本框架看出，特征选择方法中有4个基本步骤：候选特征子集的生成（搜索策略）、评价准则、停止准则和验证方法。目前对特征选择方法的研究主要集中于搜索策略和评价准则。因而，本文从搜索策略和评价准则两个角度对特征选择方法进行分类。三、基于搜索策略划分特征选择方法基本的搜索策略按照特征子集的形成过程，形成的特征选择方法如下：

图3基于搜索策略划分特征选择方法其中，全局搜索如分支定界法，存在问题： 1）很难确定优化特征子集的数目； 2）满足单调性的可分性判据难以设计； 3）处理高维多类问题时，算法的时间复杂度较高。

随机搜索法如模拟退火、遗传算法、禁忌搜索算法等，存在问题： 1）具有较高的不确定性，只有当总循环次数较大时，才可能找到较好的结果。 2）在随机搜索策略中，可能需对一些参数进行设置，参数选择的合适与否对最终结果的好坏起着很大的作用。

启发式搜索如SFS、SBS、SFFS、SFBS等，存在问题： 1）虽然效率高，但是它以牺牲全局最优为代价。

每种搜索策略都有各自的优缺点，在实际应用过程中，根据具体环境和准则函数来寻找一个最佳的平衡点。例如，特征数较少，可采用全局最优搜索策略；若不要求全局最优，但要求计算速度快，可采用启发式策略；若需要高性能的子集，而不介意计算时间，则可采用随机搜索策略。

四、基于评价准则划分特征选择方法图4基于评价准则划分特征选择方法（一）考虑单个特征对分类的贡献，特征选择方法依据其与分类器的关系分为：Filter方法、Wrapper方法和Embedded方法３类。

封装式算法作为一种经典的特征选择算法类型采用学习算法进行特征选择，其选择过程复杂耗时，目前多与过滤式特征选择算法结合，辅助特征选择；嵌入式算法则分多步骤采用不同选择方式，算法繁琐，其代表算法是基于稀疏多项式逻辑回归模型理论的SBMLR算法等；过滤式算法不需其他学习算法，主要考察特征间计量关系，方法简单，时间复杂度相对较低，代表算法包括：基于特征权重的Relief F、Fisher、SPEC以及基于互信息的MRMR算法等。（1）Filter方法：通过分析特征子集内部的信息来衡量特征子集的好坏，不依赖于分类器。Filter实质上属于一种无导师学习算法。

常用：基于特征权重的Relief F、Fisher、SPEC以及基于互信息的MRMR算法 Filter 特征选择方法一般使用评价准则来增强特征与类的相关性，削减特征之间的相关性。将评价函数分成4类：

1）距离度量。距离度量通常也认为是分离性、差异性或者辨识能力的度量。最为常用的一些重要距离测度：欧氏距离、S阶Minkowski测度、Chebychev 距离、平方距离等。 2）信息度量。信息度量通常采用信息增益(IG)或互信息(MI)衡量。信息增益：有无这个特征对分类问题的影响的大小。互信息：描述两个随机变量之间相互依存关系的强弱。

泛化的信息度量函数标准：

其中，C：类别；f：候选特征；S：已选特征；g(C,f,S)：C，f，S之间的信息量； Ɑ：调控系数；δ：惩罚因子 ① BIF (best individual feature)是一种最简单最直接的特征选择方法。评价函数：

I（）：互信息降序排序前k个优缺点：这种方法简单快速，适合于高维数据。没有考虑到所选特征间的相关性，会带来较大的冗余。 ② MIFS (mutual information feature selection)：互信息特征选择。使用候选特征f与单个已选特征s相关性对f进行惩罚的方法。

β：调节系数。β在[0.5,1]时，算法性能较好。 ③ mRMR (minimal-redundancy and maximal-relevance)方法。思想：最大化特征子集和类别的相关性，最小化特征之间的冗余。 ④ FCBF (fast correlation-based filter)。基于相互关系度量给出的一种算法。对于线性随机变量，用相关系数分析特征与类别、特征间的相互关系。对于非线性随机变量，采用对称不确定性(SU)来度量，对于两个非线性随机变量X和Y，它们的相互关系表示为：

H（）：信息熵基本思想：根据所定义的C-相关（特征与类别的相互关系）和F-相关（特征之间的相互关系），从原始特征集合中去除C-相关值小于给定阈值的特征，再对剩余的特征进行冗余分析。 ⑤ CMIM (conditional mutual information maximization)。利用条件互信息来评价特征的重要性程度，即在已知已选特征集S的情况下通过候选特征f与类别C的依赖程度来确定

f的重要性，其中条件互信息)|;(ISfC值越大，f能提供的新信息越多。

3）依赖性度量。有许多统计相关系数被用来表达特征相对于类别可分离性间的重要性程度。如：Pearson相关系数、概率误差、Fisher分数、先行可判定分析、最小平方回归误差、平方关联系数、t-test、F-Statistic等。 Hilbert-Schmidt 依赖性准则(HSIC)可作为一个评价准则度量特征与类别的相关性。核心思想是一个好的特征应该最大化这个相关性。

t:所选特征个数上限；F：特征集合；S：已选特征集合；J(S)：评价准则从式中可知需要解决两个问题：一是评价准则J(S)的选择；二是算法的选择。

4）一致性度量给定两个样本,若他们特征值均相同,但所属类别不同,则称它们是不一致的;否则,是一致的。试图保留原始特征的辨识能力,找到与全集有同样区分类别能力的最小子集。典型算法有Focus、LVF等。

Filter方法选择合适的准则函数将会得到较好的分类结果。优点：可以很快地排除很大数量的非关键性的噪声特征,缩小优化特征子集搜索的规模,计算效率高,通用性好,可用作特征的预筛选器。缺点：它并不能保证选择出一个优化特征子集,尤其是当特征和分类器息息相关时。因而,即使能找到一个满足条件的优化子集,它的规模也会比较庞大,会包含一些明显的噪声特征。

2）Wrapper法：评价函数是一个分类器，采用特定特征子集对样本集进行分类，

根据分类的结果来衡量该特征子集的好坏。Wrapper实质上是一种有导师学习算法。

训练集测试集优点：准确率高缺点：1）为选择出性能最好的特征子集，Wrapper算法需要的计算量巨大； 2）该方法所选择的特征子集依赖于具体学习机； 3）容易产生“过适应”问题，推广性能较差

（3）Embedded方法。将特征选择集成在学习机训练过程中，通过优化一个目标函数在训练分类器的过程中实现特征选择。优点：相对于Wrapper方法，不用将训练数据集分成训练集和测试集两部分，避免了为评估每一个特征子集对学习机所进行的从头开始的训练，可以快速地得到最佳特征子集，是一种高效的特征选择方法。缺点：构造一个合适的函数优化模型是该方法的难点。

通常，将Filter方法的高效与Wrapper方法的高准确率进行结合，可得到更优的特征子集。混合特征选择过程一般由两个阶段组成： 1）使用Filter方法初步剔除大部分无关或噪声特征,只保留少量特征,从而有效地减小后续搜索过程的规模。 2）将剩余的特征连同样本数据作为输入参数传递给Wrapper选择方法,以进一步优化选择重要的特征。

（二）依据特征之间的联合作用对分类的贡献，分为：CFS（Correltion based Feature Selector）、CFSPabs(CFS based on the absolute of Perons’s correlation coefficient)、DFS(Discernibility of Feature Subsets)。

（1）CFS：基于关联特征的特征选择。CFS计算整个特征子集的类间区分能力实现特征选择，使得被选特征子集中的特征之间尽可能不相关，而与类标高度相关。

Ms：度量了包含ｋ个特征的特征子集S的类别辨识能力。：特征f（f）与类别C的相关系数的均值：特征之间相关系数的均值分子：特征子集S的类预测能力分母：特征子集S中特征的冗余程度

适合于二分类（2）CFSPabs：基于皮尔森相关系数的绝对值的相关特征选择。

（3）DFS：特征子集区分度量。 :当前i个特征的特征子集在整个数据集上的均值向量 :当前i个特征的特征子集在第ｊ类数据集上的均值向量：第ｊ类中第k个样本对应当前i 个特征的特征值向量分子：ｌ个类别中各类别对应包含当前ｉ个特征的特征子集的样本中心向量与整个样本集对应当前ｉ个特征的中心向量的距离平方和，其值越大，类间越疏。分母：各个类别对应包含当前ｉ个特征的特征子集的类内方差。方差越小，类内越聚

五、结论现有特征选择研究主要着眼于选择最优特征子集所需要的两个主要步骤：特征子集搜索策略和特征子集性能评价准则。将Filter方法和Wrapper方法两者结合，根据特定的环境选择所需要的度量准则和分类器是一个值得研究的方向。