基于K_均值聚类的无监督的特征选择方法

格式：pdf
大小：267.73 KB
文档页数：3

下载文档原格式

/ 3

无监督异常检测方法研究

无监督异常检测方法研究第一章：引言1.1 研究背景和意义异常检测是数据分析和机器学习领域中的重要问题，它在许多实际应用中发挥着关键作用。

传统的异常检测方法通常需要带有标签的训练数据，这在实际应用中不太可行，因为获取标签数据可能非常昂贵或困难。

无监督异常检测方法通过利用无标签数据来解决这一问题，并成为了当前研究的热点之一。

本文旨在研究无监督异常检测方法，探索其原理和应用。

1.2 研究目标本文的主要目标是综述当前无监督异常检测方法的研究成果，并分析其优缺点。

同时，我们希望探索新的方法和技术，以提高无监督异常检测的准确性和效率。

通过这些努力，我们可以为实际应用提供更可靠和有效的异常检测解决方案。

第二章：无监督异常检测方法综述2.1 基于统计模型的方法基于统计模型的无监督异常检测方法利用数据的统计特性来检测异常。

这些方法假设正常数据集符合某种特定的概率分布，如高斯分布或泊松分布。

异常数据则与这些分布有明显的偏差。

常见方法包括基于离群因子的方法和基于概率密度估计的方法。

2.2 基于聚类的方法基于聚类的无监督异常检测方法将数据集分为多个簇，并假设正常数据点更容易聚集在紧密的簇中，而异常数据点则位于孤立的簇中。

这些方法通过计算数据点与簇的距离或相似度来判断其异常程度。

常见方法包括基于DBSCAN和LOF算法的方法。

2.3 基于密度估计的方法基于密度估计的无监督异常检测方法假设异常数据点的密度明显低于正常数据点的密度。

这些方法通常使用核密度估计或基于领域的密度估计来计算数据点的局部密度，并将低密度数据点标记为异常。

常见方法包括基于局部离群因子的方法和基于KDE的方法。

2.4 基于深度学习的方法近年来，基于深度学习的无监督异常检测方法表现出了很好的性能。

这些方法利用深度神经网络来学习数据的复杂非线性特征，并通过对比重构误差或生成模型来衡量数据点的异常程度。

常见方法包括自编码器和生成对抗网络。

第三章：无监督异常检测方法比较和评估3.1 实验设置和评估指标在比较和评估无监督异常检测方法时，我们需要定义合适的评估指标。

K均值算法的效果评估指标及使用技巧

K均值算法是一种常用的聚类算法，它通过迭代寻找数据点的中心，将数据点分配到最近的中心点所代表的类别中。

作为一种无监督学习算法，K均值算法在数据挖掘和模式识别领域被广泛应用。

然而，K均值算法的效果评估指标及使用技巧一直都是研究者和从业者们关注的焦点之一。

一、效果评估指标在使用K均值算法进行数据聚类时，需要对聚类效果进行评估。

常用的聚类效果评估指标包括“轮廓系数”、“DB指数”、“Dunn指数”等。

1. 轮廓系数（Silhouette Coefficient）轮廓系数是一种常用的聚类效果评估指标，它结合了聚类的紧密度和分离度。

轮廓系数的取值范围在[-1, 1]之间，值越接近1表示聚类效果越好，越接近-1表示聚类效果越差。

计算轮廓系数的公式如下：s(i) = (b(i) - a(i)) / max{a(i), b(i)}其中，a(i)代表第i个样本点到同一聚类中其他样本点的平均距离，b(i)代表第i个样本点到其他聚类中所有样本点的平均距离。

2. DB指数（Davies-Bouldin Index）DB指数是一种用于评估聚类效果的指标，它同时考虑了类内距离和类间距离。

DB指数的计算公式如下：DB = (1 / n) * Σ(max(R(i) + R(j)) / d(c(i), c(j)))其中，n代表聚类的个数，R(i)代表第i个类的半径，c(i)代表第i个类的中心点，d(c(i), c(j))代表第i个类和第j个类中心点的距禮。

3. Dunn指数Dunn指数是一种用于评估聚类效果的指标，它通过最大化类内距离和最小化类间距离来评估聚类效果。

Dunn指数的计算公式如下：Dunn = min{ min{d(c(i), c(j)) / max{R(i), R(j)} }, i ≠ j}其中，R(i)代表第i个类的半径，c(i)代表第i个类的中心点。

二、使用技巧除了对聚类效果进行评估外，使用K均值算法时还需要注意一些技巧。

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结
无监督特征选择算法是指在没有标签或类别信息的情况下，对数据集中的特征进行筛选，并选出最具有代表性、重要性的特征集，以提高机器学习算法的性能。

目前，常用的无监督特征选择算法主要包括：基于方差的特征选择算法、基于相关性的特征选择算法、基于PCA的特征选择算法、基于ICA的特征选择算法、基于因子分析的特征选择算法和基于非负矩阵分解的特征选择算法等。

其中，基于方差的特征选择算法是指选取方差较大的特征作为重要特征，这些特征的方差较大，说明它们的取值范围比较广，具有较高的区分度和代表性。

基于相关性的特征选择算法是指选取与目标变量相关性较高的特征作为重要特征，这些特征与目标变量之间存在较强的线性或非线性相关性，能够更好地描述目标变量的特性。

基于PCA的特征选择算法是利用主成分分析技术将原始数据转化为新的特征空间，通过对主成分的分析，选取具有较高权重的主成分作为重要特征。

基于ICA的特征选择算法是利用独立成分分析技术在不同的特征空间中分离独立成分，选取与目标变量相关性较高的成分作为重要特征。

总的来说，无监督特征选择算法具有以下优点：可以应用于没有标签信息的数据集，不需要额外的标记数据；能够提高机器学习算法的性能，减少特征维度；可以帮助发现数据集中的隐藏结构和模式。

然而，无监督特征选择算法也存在着一些缺点：无法保证选取的特征与目标变量存在强关联；会忽略数据集中涉及到多个特征的关系；可能会损失一些有用的信息。

总之，无监督特征选择算法是机器学习领域中重要的数据预处理技术之一，通过选择具有代表性、重要性的特征集，可以提高机器学习算法的性能和效率。

但是需要根据具体的数据集和任务需求灵活选择合适的算法，以达到最优的性能。

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结1. 引言1.1 研究背景随着大数据时代的到来和数据爆炸式增长，数据维度的增加使得特征选择变得尤为重要。

特征选择是数据挖掘中一个关键的环节，它能够帮助我们选择最具代表性的特征，提高模型的性能和效率。

在实际应用中，许多数据集并没有事先标记好的标签信息，这就需要无监督特征选择算法来解决这一问题。

无监督特征选择算法是在没有标签信息的情况下进行特征选择的一种方法。

与监督学习相比，无监督特征选择算法更具有普适性和实用性，适用于各种数据集和领域。

通过对数据集进行聚类、降维、相似性度量等方法，无监督特征选择算法能够从数据中提取出最重要的特征，从而减少特征的冗余性和噪声，提高数据的可解释性和建模效果。

在本文中，我们将介绍常见的无监督特征选择算法，并对基于聚类、降维、相似性度量等不同方法的特征选择算法进行分析和总结。

通过评价指标和比较不同算法的优劣，我们将探讨无监督特征选择算法的优势和未来发展方向。

1.2 研究意义无监督特征选择算法的研究意义在于提高数据处理的效率和准确性。

随着大数据时代的到来，数据量急剧增加，特征选择成为处理大规模数据的重要环节。

传统的监督特征选择算法需要标注好的训练数据，而这在实际应用中往往难以获得。

无监督特征选择算法具有很大的应用潜力。

无监督特征选择算法可以帮助我们发现数据中隐藏的规律和模式，进而降低特征维度，减少冗余信息，并提高模型的泛化能力。

无监督特征选择算法还可以帮助我们更好地理解数据，提高数据分析的速度和效果。

在各个领域，比如医疗、金融、生物信息学等，无监督特征选择算法都有着广泛的应用前景。

通过研究无监督特征选择算法，我们可以更好地应对数据挖掘和机器学习领域的挑战，提高数据处理的效率和准确性，推动相关领域的发展和创新。

深入研究无监督特征选择算法的研究意义重大，对促进数据科学和人工智能的发展具有重要作用。

2. 正文2.1 常见的无监督特征选择算法常见的无监督特征选择算法包括过滤式特征选择、包裹式特征选择和嵌入式特征选择等方法。

无监督学习的主要算法

无监督学习的主要算法无监督学习是机器学习领域的重要分支，它旨在通过对未标记的数据进行模式识别和分类，从而发现数据中的隐藏结构和规律。

在无监督学习中，没有预先标记好的输出变量，模型需要从输入数据中自行学习。

本文将介绍无监督学习的主要算法，探讨它们的原理和应用。

一、聚类算法聚类算法是无监督学习中最常见的一类算法，它旨在将数据集中的样本划分为若干个不同的类别或簇。

K均值聚类是其中最常用的算法之一，它通过不断迭代更新簇的均值来最小化样本与簇中心的距离，从而实现数据的聚类。

K均值聚类的优点在于简单易懂，但也存在一些缺点，比如对初始聚类中心的选择敏感，容易陷入局部最优解。

另一个常见的聚类算法是层次聚类，它不需要预先指定簇的个数，而是根据样本之间的相似度逐步合并为越来越大的簇。

层次聚类的优点在于能够发现数据中的层次结构，但也存在计算复杂度高的缺点。

二、关联规则算法关联规则算法用于发现数据集中的项集之间的关联规则，常用于市场篮子分析和推荐系统中。

Apriori算法是其中最典型的算法之一，它通过迭代发现频繁项集，然后基于频繁项集生成关联规则。

Apriori算法的优点在于简单易懂，但也存在大量的候选集生成和计算支持度的缺点。

另一个常见的关联规则算法是FP-Growth算法，它通过构建FP树来高效地发现频繁项集，从而避免了Apriori算法中频繁项集生成的缺点。

FP-Growth算法的优点在于高效，但也存在内存消耗较大的缺点。

三、降维算法降维算法是无监督学习中另一个重要的分支，它旨在将高维数据映射到低维空间，以便可视化和特征选择。

主成分分析（PCA）是其中最常见的算法之一，它通过线性变换将高维数据映射到低维空间，使得映射后的数据保留了大部分原始数据的信息。

PCA的优点在于简单高效，但也存在无法处理非线性数据的缺点。

另一个常见的降维算法是t-分布邻域嵌入（t-SNE）算法，它通过优化目标函数来将高维数据映射到低维空间，使得数据点之间的相似度在映射后得到保持。

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结无监督特征选择算法是一种用于数据分析和机器学习的技术，其目的是从给定的特征集合中选择最有意义的子集，以提高模型的性能和准确性。

与监督特征选择算法不同，在无监督特征选择中，不考虑任何给定的目标变量，而只是基于数据本身的统计信息进行选择。

本文将对常用的无监督特征选择算法进行分析和总结。

1. 主成分分析 (PCA)主成分分析是最常用的无监督特征选择算法之一。

它是一种线性变换技术，通过将高维数据映射到低维空间，保留最大的方差贡献，以选择最有代表性的特征。

在实践中，PCA通常被用作数据降维和可视化的方法，但它也可以用来选择最重要的特征。

独立成分分析是另一种无监督特征选择算法，它的目的是找到可以独立重建的信号源，通过最小化信号之间的互信息来实现。

在实践中，ICA通常用于信号处理和图像分析，但它也可以用于特征选择。

因子分析是一种通过寻找共同变化的特征来降低数据维度的无监督技术。

其核心是将每个原始特征表示成一些隐性因子的线性组合，这些因子可以反映数据中的共同变化和相互依赖关系。

因子分析通常用于心理学和社会科学的数据分析，但它也可以应用于其他领域的特征选择问题中。

4. t-SNEt-SNE (t-Distributed Stochastic Neighbor Embedding)是一种基于概率分布的无监督降维技术，其主要目的是将高维数据映射到低维空间，以便可视化和分析。

与PCA不同，t-SNE不仅能保留数据的全局结构，还能捕捉局部相似性。

因此，除了用于降维和可视化外，t-SNE也可以用于无监督特征选择。

总的来说，无监督特征选择算法在现代数据科学和机器学习中扮演着重要的角色。

虽然这些方法没有给定目标变量的帮助，但它们可以从数据中发现有用的特征和模式，并提高模型性能和准确性。

在实践中，选择最适合特定问题和数据集的算法通常需要经验和实验。

特征提取的有监督和无监督方法

有监督和无监督学习方法的差异
◎有监督学习：分类：K近邻、支持向量机、朴素贝叶斯、决策树、人工神经网络回归：线性回归、神经网络 ◎无监督学习：聚类：K-means聚类、高斯混合模型
有监督和无监督学习方法的差异
有标签分类独立
不透明
无标签聚类
非独立可解释性
有监督学习和无监督学习的发展历史
有监督学习
无监督学习
有监督学习和无监督学习的发展历史
有监督学习
无监督学习
2
PART ONE
监督学习方法
监督学习方法
有监督的过程为先通过已知的训练样本（如已知输入和对应的输出）来训练，从而得到一个最优模型，再将这个模型应用在新的数据上，映射为输出结果。再经过这样的过程后，模型就有了预知能力。
轮式车辆
履带车辆
监督学习方法
功率谱密度
监督学习方法
离散小波变换
监督学习方法
线性预测系数
监督学习方法
监督学习方法
识别准确率
PART ONE
无监督学习方法
半监督学习方法
无监督学习方法
如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入的几种不同表示（每一层代表一种表示），这些表示就是特征。
特征提取的有监督和无监督方法
汇报人：李雄
CONTENTS
01 / 特征提取 02 / 有监督的特征提取方法 03 / 无监督的特征提取方法 04 / 半监督学习
1
PART ONE
特征提取
特征提取
特征提取就是通过映射（变换）的方法，将高维的特征向量变换为低维特征向量。假设有n个原始特征：

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结
无监督特征选择算法是一种用于从数据集中选择有用特征的方法，它不需要事先标记
好的训练集，而是通过对数据进行探索和分析来确定特征的重要性。

在无监督特征选择算法中，最常用的方法是基于统计学原理的方法，如方差分析、卡
方检验、互信息等。

这些方法都是基于特征与目标变量之间的相关性来进行特征选择。

具
体来说，这些方法通过计算特征与目标变量之间的统计量，如方差、卡方值、互信息等，
来评估特征的重要性，然后根据评估结果来选择重要的特征。

无监督特征选择算法具有一些优点和局限性。

其优点是可以自动地发现特征之间的相
关性和重要性，无需依赖于事先标记好的训练集。

它可以处理高维数据集和大规模数据集，具有较好的可扩展性。

无监督特征选择算法也存在一些局限性。

它易受数据分布的影响，
特别是对于非凸分布的数据集，可能会导致选择不准确的特征。

它不能考虑特征与目标变
量之间的因果关系，可能选择出与目标变量无关的特征。

不同的特征选择算法可能选择出
不同的特征子集，对于相同的数据集，可能没有一种算法能够找到最佳的特征子集。

无监督特征选择算法是一种有效的特征选择方法，可以自动发现特征之间的相关性和
重要性。

由于其受数据分布的影响，可能存在选择不准确的特征的问题。

在应用无监督特
征选择算法时，需要根据具体的数据集和任务选择适合的算法，并结合领域知识和经验进
行特征选择。

为了进一步提高特征选择的准确性和鲁棒性，可以结合其他的有监督特征选
择算法，如Wrapper方法和Embedded方法等。

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结无监督特征选择算法是机器学习领域中非常重要的一部分，它可以帮助我们从海量的特征中找到对我们任务最有用的特征，从而提高机器学习模型的性能。

与监督特征选择算法不同，无监督特征选择算法并不依赖于标注数据，因此在很多场景下具有更广泛的应用价值。

本文将对无监督特征选择算法进行深入分析与总结，希望能够为相关研究和实践提供一些启发和帮助。

一、无监督特征选择算法的概念与作用无监督特征选择算法是指在没有标注数据的情况下，通过一定的方法和策略，从原始特征中挑选出对目标任务最有用的特征子集。

这些特征子集可以用于模型训练和特征分析，从而提高模型的性能和辅助数据分析。

无监督特征选择算法的核心作用在于降维和过滤，它可以帮助我们去除冗余特征、噪声特征和无效特征，从而提高模型的泛化能力和鲁棒性。

1. 基于统计学的方法基于统计学的无监督特征选择算法是最常见的一类方法，它主要基于特征之间的统计关系和分布特征来进行特征选择。

常见的方法包括Pearson相关系数、互信息、卡方检验等。

这些方法能够帮助我们找到特征之间的相关性和重要程度，从而进行特征的筛选和排序。

基于聚类的无监督特征选择算法则是通过聚类分析的方法来进行特征选择。

它通过对特征进行聚类，从而找到具有代表性的特征子集。

常见的方法包括K均值聚类、层次聚类、密度聚类等。

这些方法能够帮助我们找到具有区分度的特征，从而提高模型的性能。

1. 优点：（1）不依赖标注数据，适用范围广。

由于无监督特征选择算法不需要标注数据，因此在很多实际场景下具有更广泛的应用价值。

（2）能够辅助特征分析和数据理解。

无监督特征选择算法可以帮助我们从特征之间的关系和分布中找到有用的信息，从而提升数据分析的效率和质量。

（3）能够帮助降低模型复杂度。

通过特征选择，我们可以去除冗余和噪声特征，从而降低模型的复杂度，提高模型的训练和预测效率。

（1）需要手动设置参数和阈值。

无监督特征选择算法通常需要设置一些参数和阈值，这需要根据具体的数据和任务来调整，具有一定的主观性和难度。

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结在机器学习领域中，特征选择是一项非常重要的任务，它可以帮助我们提高模型的性能、减少计算成本以及降低过拟合的风险。

无监督特征选择算法因其不需要使用标记数据而备受关注，能够在没有标签的情况下自动进行特征选择。

本文将对无监督特征选择算法进行分析与总结，探讨其优缺点以及应用场景。

一、无监督特征选择算法概述无监督特征选择算法是一种不依赖于标签数据的特征选择方法，其目标是从原始特征中选择出最相关的特征子集。

在现实应用中，我们经常会遇到高维数据的情况，而这些数据中往往包含大量冗余信息，因此需要进行特征选择以提高模型的性能和计算效率。

无监督特征选择算法在这种情况下大显身手，不仅能够减少特征的维度，还能够更好地发现数据内在的结构和模式。

二、无监督特征选择算法的优缺点1. 优点（1）不需要标签数据: 与监督学习方法不同，无监督特征选择算法不需要标签数据，可以在没有标签的情况下进行特征选择，因此非常适合在数据标记困难或成本较高的情况下使用。

（2）降低过拟合风险: 无监督特征选择算法能够减少特征的维度和冗余信息，提高模型的泛化能力，降低了过拟合的风险。

（3）发现潜在的数据结构: 由于无监督特征选择算法更注重数据内在的结构和模式，因此能够更好地发现数据中隐藏的潜在信息，提高了模型的性能。

2. 缺点（1）对特征相关性的处理不够充分: 无监督特征选择算法常常只考虑单个特征的选择，并未充分考虑特征之间的相关性，因此在处理高度相关特征时可能存在一定的局限性。

（2）需要依赖于数据的分布: 无监督特征选择算法通常需要根据数据的分布来进行特征选择，因此对数据分布的要求较高，在数据分布不均匀或异类样本较多的情况下可能不太适用。

三、无监督特征选择算法的经典方法1. 主成分分析（Principal Component Analysis，PCA）主成分分析是一种常用的无监督特征选择算法，其基本思想是通过线性变换将原始特征转换为一组互相不相关的主成分，然后选择其中的一部分作为最终的特征子集。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

两个特征子集 Fi, Fj ( i = 1 … t, j = 1 … t, i≠ j, t是特征子集
的个数 )对应的特征不是完全相同的 , 所以对于不同的特征子
集 Fi , Fj 求得的 DBκi, DBκj的值没有直接的可比性 , 因而我们需要将判断规则进行标准化处理。假设 Fi 对应的分类结果 C i , 则判断函数为
对测试数据用选择的属性进行了测试 (表 3) 。
表 1 数据集基本信息
数据集
数据类型
特征维数样本数分类数
W ine
Con tinuou s
算法执行次数 , norm a l保存前一次选择的最佳特征子集的 nor2
malizedcrit的值。算法基本步骤如下 :
( 1)从 F中依次删除一个特征 xi, 得到 t个特征子集 Fi, i = 1…t,对这些特征子集分别采用 3. 1节中的方法求其对应的
最佳分类数
k
。
i
( 2)采用 3. 2节中描述的选择特征子集的判断规则 , 选择
Unsupervised Feature Selection M ethod Based on K2means Clustering
ZHANG L i, SUN Gang, GUO Jun ( School of Inform a tion Engineering, B eijing U n iversity of Posts & Telecomm unica tions, B eijing 100876, Ch ina)
1 引言
模式识别的主要任务是利用从样本中提取的特征将样本划分为相应的模式类别 ,特征提取与选择是模式识别中的关键技术之一。一般情况下 ,只有在特征向量中包含了足够的类别信息 ,才能通过分类器实现正确分类 ,而特征中是否包含足够的类别信息却很难确定。为了提高识别率 ,总是最大限度地提取特征信息 ,结果不仅使特征维数增大 ,而且其中可能存在较大的相关性和冗余 ,因而选择合适的特征来描述模式对模式识别的精度、需要的训练时间和需要的实例等许多方面都影响很大 ,并且对分类器的构造也起着非常重要的作用。目前已有不少文献中提出了有监督学习的特征选择算法 [1～4 ] ,但对于无监督学习的特征选择问题却涉及较少。无监督学习的特征选择问题就是依据一定的判断准则 ,选择一个特征子集能够最好地覆盖数据的自然分类。目前的方法有基于遗传算法的特征选择方法 [5 ] 、基于模式相似性判断的特征选择方法 [6 ]和信息增益的特征选择方法 [7 ] ,这几种方法没有考虑特征之间的相关性和特征对分类的影响。文献 [ 8 ]提出了一种无监督的特征选择方法 ,基本思想是 :首先用竞争学习算法对样本进行分类 , 确定分类数 ;然后将原始特征集划分成多个特征子集 ,在每一个特征子集计算判断函数 J = trace ( ( ∑C + ∑S ) - 1 ∑S ) (其中 ∑C , ∑S 分别表示类内平均离散度和类间平均距离 )的值 ,选择使判断函数值最大的特征子集 ,从而确定相应的候选特征 ; 最后计算候选特征和已选择的特征之间的相关系数 ,若相关系数大于 0. 75则放弃候选特征。但是由于特征数或特征不同 ,
·24·
计算机应用研究
2005年
大 ,表示相关程度越高。
n
ρ ij
=
∑
p =1
(
xpi
-
Zi)
( xpj
-
Zj)
n
n
(4)
∑
p =1
(
xpi
-
Z
i)
2∑
p =1
(
xpj
-
Zj) 2
3 特征选择算法
3. 1 聚类数的确定
对每一个特征子集 Fi 我们利用 K2均值聚类算法进行对
样本进行聚类并确定对应的聚类数 ki ,使用 DB Index准则作为聚类有效性判断。给定一个数据集 X ,在没有给定任何样本
2 相关的背景知识
2. 1 聚类有效性的判断规则
类内离散度和类间距离常被用来判断聚类的有效性 , DB Index准则同时使用了类间距离和类内离散度 ,因而在本文中采用 DB Index准则 [1 ]作为分类有效性的判断准则。DB Index 准则基本内容如下 :
( 1)类内平均离散度
Si
=
收稿日期 : 2004204214; 修返日期 : 2004206218 基金项目 : 教育部跨世纪人才基金重点科研项目 (02029)
不同的特征子集对应的自然分类可能也不同 ,因而对不同的特征子集使用相同的分类结果 ,不能有效地描述特征对样本自然分类的影响。本文依据特征对分类结果的影响和特征之间相关分析两个方面提出了一种基于 K2均值聚类的特征选择方法 ,用于无监督学习的特征选择问题。其基本思想是对每一个特征子集利用 K2均值聚类算法确定其最佳分类数 ,然后以 DB Index准则设定一个判断函数用于特征选择 ,最后从选择的特征子集中删除掉相关性较大的特征之一。
分布信息的情况下进行聚类 ,我们采用迭代的方法。一般情况
下 ,最佳的聚类数不会超过 kmax = n[9 ] 。因而迭代算法可以在
km in = 2到 n之间进行 , 并且我们可以根据具体的应用设定一
个远小于 n的 kmax值 ,聚类数 ki 的确定过程如下 : (1)初始化 , C = 2, DB3 = ∞, ki = 1。其中 , C 为类的个数
的算法和 Relief2F算法选择的特征进行分类的错误率。然后
我们采用由哥伦比亚大学完成数据预处理的 KDD Cup 1999
Data中的网络入侵检测的数据进行第二个实验。该数据集提
供了从一个模拟的局域网上采集来的九个星期的网络连接数
据 ,数据集中的每条记录包含了 41维特征 ,并标注了每条记录
k是分类数目。
DB Index准则是 DBk 的值越小 ,说明分类的效果越好。
2. 2 特征之间的相关性分析
本文用式 ( 4)计算两个特征之间的相关系数。相关系数
ρ 的绝对值大小表示特征 xy
x,
y
相
关
程
度
的
高
低
,
ρ绝 xy
对
值
越
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
( 4)对选择的特征子集 Fi 利用式 ( 4)进行特征相关性分析 ,若两个特征的相关系数大于 γ(γ为门限 ) , 则删除其中的一个特征。
4 实验结果
对于有监督学习情况 ,特征选择算法的有效性可以通过分
类的准确度来评估 ,但对无监督学习特征选择算法的有效性的
评估不能采用这种方法。我们在验证算法时进行了两个实验 ,
首先选择两个维数较少的人工数据集 W ine, Pima2D iabetes进
行第一个实验 (表 1) 。这几个人工数据集已知分类数和每一
个样本所属类别 ,因为这两个数据集的特征维数较少 ,我们在
实验结果中给出了全部特征重要性的降序排序 ,并列出了采用
Relief2F[10 ]算法得到的特征顺序 (表 2) 。图 1描述了利用本文
使式
( 7)最小的
Fi,
t= t-
1,
F
=
F
。
i
( 3)若 | normalizedcrit ( Fi ) - norm a l | >β(β事先设定的门
限 ) 并且 coun t ≤m , 则 norm a l = normalizedcrit ( Fi ) , coun t = coun t + 1。转 ( 1)
第 3期
张莉等 :基于 K2均值聚类的无监督的特征选择方法
·23·
基于 K2均值聚类的无监督的特征选择方法 3
张莉 , 孙钢 , 郭军
(北京邮电大学信息工程学院 , 北京 100876)
摘要 : 模式识别方法首先要解决的一个问题就是特征选择 ,目前许多方法考虑了有监督学习的特征选择问题 ,对无监督学习的特征选择问题却涉及得很少。依据特征对分类结果的影响和特征之间相关性分析两个方面提出了一种基于 K2均值聚类方法的特征选择算法 ,用于无监督学习的特征选择问题。关键词 : 特征选择 ; 相关性分析 ; 无监督学习 ; 聚类中图法分类号 : TP39114 文献标识码 : A 文章编号 : 100123695 (2005) 0320023202
1 |Ci
∑ ‖X | X ∈C i
-
Zi‖
(1)
其中 , Zi 是 Ci 类的类中心 ; | Ci |表示 Ci 类样本数。
( 2)类间距离 dij = ‖Z i - Z j‖
(2)
即用两个类中心的距离表示类间距离。
(3) DB
Index DBk =
1 k
k
∑R
i=1
i
(3)
其中
Ri
= max S i + S j, j = 1, . . . , k, j≠i d ij
crit ( F i, C i ) = DBκi
(6)
在 Fi 特征子集中使用分类结果 Ci, 求得相应 DB 的值 ,则
crit( Fj, Ci ) = DB, 然后定义一个标准的判断函数如式 ( 7 ) 所
示 ,特征子集的选择就是要选择使式 ( 7)最小的 Fi。
normalizedcrit( Fi )
迭代变量 , ki 表示最佳的分类个数 , DB3 表示最小的 DB 值。 (2)利用 K2均值聚类算法对样本进行聚类 ,我们建立如式

基于K_均值聚类的无监督的特征选择方法

合集下载

无监督异常检测方法研究

K均值算法的效果评估指标及使用技巧

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结

无监督学习的主要算法

无监督特征选择算法的分析与总结

特征提取的有监督和无监督方法

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结

无监督特征选择算法的分析与总结

文档推荐

最新文档