基于簇的K最近邻_KNN_分类算法研究

格式：pdf
大小：134.23 KB
文档页数：3

下载文档原格式

/ 3

k最近邻分类模型

k最近邻分类模型K最近邻（K-Nearest Neighbors，KNN）分类模型是一种基于实例的学习，或者说是局部逼近和将所有的计算推迟到分类之后进行的模型。

在KNN模型中，输出是由输入实例的最近邻的K个训练实例的多数表决来确定的。

具体来说，KNN算法的工作流程如下：准备数据，对数据进行预处理。

这包括数据的清洗、特征的选取和标准化等步骤。

选用合适的数据结构存储训练数据和测试元组。

这通常使用一种称为KD树（KD-tree）的数据结构，它可以帮助我们快速找到样本点的最近邻。

设定参数，如K值。

K值的选择对KNN算法的性能有很大的影响，通常需要通过实验来确定最优的K值。

维护一个大小为K的按距离由大到小的优先级队列，用于存储最近邻训练元组。

随机从训练元组中选取K个元组作为初始的最近邻元组，分别计算测试元组到这K个元组的距离，将训练元组标号和距离存入优先级队列。

遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离L与优先级队列中的最大距离Lmax进行比较。

如果L>=Lmax，则舍弃该元组，遍历下一个元组。

否则，将新的元组及其距离加入优先级队列，并删除队列中距离最大的元组。

当所有训练元组都遍历完毕后，优先级队列中的元组就是测试元组的K个最近邻。

根据这K个最近邻的类别，通过多数表决来确定测试元组的类别。

KNN算法的优点是简单易懂，无需参数估计，无需训练。

但是，它的计算量大，尤其是当样本容量大的时候，因为对每个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

此外，KNN算法对样本的依赖性很大，如果样本不平衡，可能会导致分类结果的不准确。

总的来说，K最近邻分类模型是一种简单而有效的分类方法，适用于各种类型的数据，包括文本、图像等。

但是，它的性能受到数据特性、K值选择以及距离度量方式等因素的影响，需要在实际应用中进行适当的调整和优化。

1.简述k最近邻算法的原理、算法流程以及优缺点

1.简述k最近邻算法的原理、算法流程以及优缺点一、什么是K近邻算法k近邻算法又称knn算法、最近邻算法，是一种用于分类和回归的非参数统计方法。

在这两种情况下，输入包含特征空间中的k个最接近的训练样本，这个k可以由你自己进行设置。

在knn分类中，输出是一个分类族群。

一个对象的分类是由其邻居的“多数表决”确定的，k个最近邻居（k为正整数，通常较小），所谓的多数表决指的是，在k个最近邻中，取与输入的类别相同最多的类别，作为输入的输出类别。

简而言之，k近邻算法采用测量不同特征值之间的距离方法进行分类。

knn算法还可以运用在回归预测中，这里的运用主要是指分类。

二、k近邻算法的优缺点和运用范围优点：精度高、对异常值不敏感、无数据输入假定。

缺点：计算复杂度高、空间复杂度高。

适用范围：数值型和标称型、如手写数字的分类等。

三、k近邻算法的工作原理假定存在一个样本数据集合，并且样本集中的数据每个都存在标签，也就是说，我们知道每一个样本数据和标签的对应关系。

输入一个需要分类的标签，判断输入的数据属于那个标签，我们提取出输入数据的特征与样本集的特征进行比较，然后通过算法计算出与输入数据最相似的k个样本，取k个样本中，出现次数最多的标签，作为输入数据的标签。

四、k近邻算法的一般流程（1）收集数据：可以使用任何方法，可以去一些数据集的网站进行下载数据。

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式（3）分析数据：可以使用任何方法（4）训练算法：此步骤不适用于k近邻算法（5）测试算法：计算错误率（6）使用算法：首先需要输入样本数据和结构化的输出结构（统一数据格式），然后运行k近邻算法判定输入数据属于哪一种类别。

五、k近邻算法的实现前言：在使用python实现k近邻算法的时候，需要使用到Numpy科学计算包。

如果想要在python中使用它，可以按照anaconda，这里包含了需要python需要经常使用到的科学计算库，如何安装。

KNN分类算法研究

根分类是数据挖掘中的核心和基础技术，商业经营、府决策管文献 Ⅲ提出一个扩展的距离加权算法：据待查询的新样本与训练集在政赋距距赋理、学研究和工业企业决策支持等多个领域都有广泛的应用。目前的距离多少，予不同的权重，离近的赋予大的权重；离远，予科并经实验分析，方该主要的分类技术包括决策树归纳、叶斯分类、Ｎ分类、工神经小的权重。设权重为两个样本间距离平方的倒数。贝ＫＮ人Ｎ算法有更高的分类准确率。也有部分研究集中在寻网络等。这些方法中，Ｎ分类是一种简单、效、在ＫＮ有非参数的方法，现法比传统的ＫＮ已广泛应用于文本分类、式识别、模图像及空间分类等领域。但ＫＮ找更加实际的距离函数去取代标准的欧氏距离，典型的研究包括Ｎ
算法存在计算开销大、行速度慢等缺点，此很多研究人员对传统运为的ＫＮＮ最近邻分类提出了改进，文针对ＫＮ算法的不足所做的各本Ｎ
种改进进行论述。
ＷＡＫＮＮ【ＶＤＭ￣。、６３
【ｓｒｃ］ — ａｅｔｅｇｂｒｌｏｉｔｎｌｓｉｃｔｎｔｈｏｏｙｗｉｈｈｖｅｎｕｅｉｅｙ１１ａｅｔｄｃｄｔｅｆｎａｎａＡｂｔａｔＫＮｅｒｓＮｉｏｇｒｍｉｏｅｃａｓａｉｃｎｌｇ，ｈｃａｅｂｅｓｄｗｄｌ．１ｓｐｐｒｎｒｕｅｕｄｍｅｔｌｈＡｈｓｉｆｏｅｉｉｏｈ

KNN讲解

成绩和毕业设计成绩4个维度（属性）作为探讨学生就业状态的主要影响因素。
2024/7/18
23
2024/7/18
24
2024/7/18
25
计算相似度
设两个特征向量分别为X=（x1,x2,...,xn）和Y=(y1,y2,...yn)
2024/7/18
26
将需要预测的学生的特征向量与训练集中的所有特征向量，用上述公式计算出距离，将各个距离值排序，将最距离小的排在前面，最后取前k个样本，得出在这k个样本中，国企、外企、私企所占比例，比例最大的就是该预测样本所属于的类别。
2024/7/18
27
传统KNN算法实验结果
2024/7/18
28
2024/7/18
29
2024/7/18
30
改进
1、样本特征加权处理
传统的方法认为样本各个特征（属性）的作用是相同的，即权重相同，无法体现各特征与分类间的关系。如果有些特征与分类相关度很高，有些很低，则其分类误差就会较大。
，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，如果某一类的样本数量很大，那么可能目标样本并不接近这类样本，却会将目标样本分到该类下，影响分类准确率。
2024/7/18
14
(3)样本库容量依赖性较强； (4)K值不好确定；
(1)从降低计算复杂度的角度当样本容量较大以及特征属性较多时，KNN算
法分类的效率就将大大降低。可以采用以下方法进行改进。 ✓如果在使用KNN算法之前对样本的属性进行约简，删除那些对分类结果影响较小（不重要）的属性，则可以用KNN算法快速地得出待分类样本的类别，从而可以得到更好的效果。

基于k-最近邻图的小样本KNN分类算法

ｌｂｌａａｉｈａｅｃｕｔｒａｄｄｅｅｅｈｏｓａａＴｈａｐｅｓｔｉｅｐｎｅｙｔｉｔｏＴｈｌｏｉｍｓｈｘｎｅａｌｅｏａｅｔｎｔｅｓｍｌｓｅ，ｎｌｔｓｔｅｎｉｅｄｔｅｓｍｌｅｓｘｅｄｄｂｈｓｍｅｈｄｄｅａｇｒｔｈｕｅｔｅｅｐｅｄｄｓｍｐｅｓｔｔ
时，计算的代价会很高。但如果样本数据集中的数据对象数目过少，已标记数据不能真正反映整个数据集Ｄ（此处Ｄ表
示数据集和并集）中数据对象的真正分布时，算法执行
在测试集中选取适当的数据对象来扩充样本集，并剔出原样本集中的噪声数据，使得样本集更具有数据对象分布的代表
第３７卷第９期
Ｖ＿－７０３ｌ
・
计
算
机
工
程
２１年５月０１
Ｍａ２１ｙ０１
Ｎｏ．９
ＣｏｐｔｒＥｎｎｅｉｇｍｕｅｇｉｅｒｎ
人工智能及识别技术・
文章编号：ｌ３２（１）＿１ｓ＿０＿４８０１争＿９－３０２ｏ００
对象来标识同簇中未标记的数据对象，同时剔除原样本集中的噪声数据，从而扩展样本集，利用该新样本集对类标号未知数据对象进行类别标识。采用标准数据集进行测试，结果表明该算法在小样本情况下能够提高ＫＮＮ的分类精度，减小最近邻阈值ｋ对分类效果的影响。关健诃：ＫＮＮ算法；ｋ最近邻图；小样本；图划分；分类算法－

k近邻算法模型

k近邻算法模型
K近邻算法（K-Nearest Neighbors, KNN）是一种基于实例的学习方法，它通过计算输入样本与训练样本之间的距离，找到与输入样本距离最近的K个训练样本，然后根据这K个样本的标签进行分类或回归。

K近邻算法的基本思想是：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

K近邻算法的模型可以分为两种：分类模型和回归模型。

1. 分类模型
K近邻算法的分类模型是指将输入样本分到K个最近邻样本所属的类别中的多数类别。

具体步骤如下：
（1）计算训练样本集中每个样本与输入样本之间的距离。

（2）按照距离从小到大的顺序，选取K个距离最近的样本。

（3）统计这K个样本所属类别的出现次数。

（4）将输入样本分到出现次数最多的类别中。

2. 回归模型
K近邻算法的回归模型是指根据K个最近邻样本的标签值，预测输入样本的标签值。

具体步骤如下：
（1）计算训练样本集中每个样本与输入样本之间的距离。

（2）按照距离从小到大的顺序，选取K个距离最近的样本。

（3）计算这K个样本的标签值的平均值。

（4）将输入样本的标签值预测为平均值。

K近邻算法是一种简单而有效的模型，但是它也有一些缺点，比如计算复杂度高、存储空间大、容易受到噪声干扰等。

在实际应用中，需要根据具体情况选择合适的K值和距离度量方法，以取得更好的分类或回归效果。

基于K近邻的分类算法研究

基于K近邻的分类算法研究沈阳航空航天大学Shenyang Aerospace University算法分析题目：基于K-近邻分类算法的研究院系计算机学院专业计算机技术姓名学号指导教师2015年 1 月摘要数据挖掘是机器学习领域内广泛研究的知识领域，是将人工智能技术和数据库技术紧密结合，让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式，以满足人们不同应用的需要。

K 近邻算法（KNN）是基于统计的分类方法，是数据挖掘分类算法中比较常用的一种方法。

该算法具有直观、无需先验统计知识、无师学习等特点，目前已经成为数据挖掘技术的理论和应用研究方法之一。

本文主要研究了K 近邻分类算法。

首先简要地介绍了数据挖掘中的各种分类算法，详细地阐述了K 近邻算法的基本原理和应用领域，其次指出了K 近邻算法的计算速度慢、分类准确度不高的原因，提出了两种新的改进方法。

针对K 近邻算法的计算量大的缺陷，构建了聚类算法与K 近邻算法相结合的一种方法。

将聚类中的K -均值和分类中的K 近邻算法有机结合。

有效地提高了分类算法的速度。

针对分类准确度的问题，提出了一种新的距离权重设定方法。

传统的KNN 算法一般采用欧式距离公式度量两样本间的距离。

由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的，通常采用加权欧式距离公式。

本文提出一种新的计算权重的方法。

实验表明，本文提出的算法有效地提高了分类准确度。

最后，在总结全文的基础上，指出了有待进一步研究的方向。

关键词：K 近邻，聚类算法，权重，复杂度，准确度ABSTRACTData mining is a widely field of machine learning, and it integrates the artificial intelligence technology and database technology. It helps people extract valuable knowledge from a large data intelligently and automatically to meet different people applications. KNN is a used method in data mining based on Statistic. The algorithm has become one of the ways in data mining theory and application because of intuitive, without priori statistical knowledge, and no study features.The main works of this thesis is k nearest neighbor classification algorithm. First, it introduces mainly classification algorithms of data mining and descripts theoretical base and application. This paper points out the reasons of slow and low accuracy and proposes two improved ways.In order to overcome the disadvantages of traditional KNN, this paper use two algorithms of classification and clustering to propose an improved KNN classification algorithm. Experiments show that this algorithm can speed up when it has a few effects in accuracy.According to the problem of classification accuracy, the paper proposes a new calculation of weight. KNN the traditional method generally used Continental distance formula measure the distance between the two samples. As the actual sample data collection in every attribute of a sample of the contribution is not the same, often using the weighted Continental distance formula. This paper presents a calculation of weight，that is weighted based on the characteristics of KNN algorithm. According tothis Experiments on artificial datasets show that this algorithm can improve the accuracy of classification.Last, the paper indicates the direction of research in future based on the full-text.Keywords: K Nearest Neighbor, Clustering Algorithm, Feature Weighted, Complex Degree, Classification Accuracy.前言K最近邻(k-Nearest neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

k-nearest neighbor 回归算法介绍

K-Nearest Neighbor 回归算法介绍
K-近邻回归算法（K-Nearest Neighbor Regression，KNN Regression）是一种基于实例的学习，或者说是局部逼近和将所有的计算推迟到分类之后的惰性学习。

它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。

当输入没有标签的新数据时，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据（最近邻）的分类标签。

通常，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k 的出处，通常k是不大于20的整数。

最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

KNN回归算法的核心思想是：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类（多数表决规则等价于经验风险最小化），就把该输入实例分类到这个类中。

KNN回归算法的优点包括简单、易于理解和实现，无需估计参数，无需训练等。

然而，它也有一些缺点，比如当样本不平衡时（比如一个类的样本容量很大，其他类的样本容量很小），输入一个样本的时候，K个邻近值大多数都是大样本容量的那个类，这时可能会导致分类错误。

此外，K值的选择、距离度量及分类决策规则是k近邻法的三个基本要素，其中K值的选择对结果会产生显著影响。

K-近邻回归算法是一种简单而有效的分类与回归方法，特别适用于数据集较小、特征空间维度较低的情况。

knn算法原理

knn算法原理KNN（K近邻算法）是一种基于实例的机器学习算法，是机器学习领域中非常常见的算法。

KNN法的基本思想是：如果一个样本在特征空间中的k个最相近的样本中的大多数属于某一个类别，则该样本也属于该类别。

KNN法中，所选择的邻居都是已经正确分类的对象。

KNN法的基本原理是：在给定一个未知类别的对象（样本数据）时，根据其特征属性和它最接近的K个已经知道分类的样本，对这个对象进行分类。

KNN法就是从训练集中找出这K个“邻居”，根据这K 个“邻居”的类别，来确定当前未知类别的对象的分类。

KNN法的基本流程如下：1. 从训练集中计算测试实例与每个训练集实例之间的距离；2.据距离选择K个最近邻；3.据K个邻居的类别，通过投票或者加权求和，确定测试实例的类别。

KNN法使用数据中“靠近”的训练实例来预测未知实例，因此，KNN法是一种基于实例的学习算法。

KNN法的实质是在训练集中查找与当前输入实例最在的 K 个实例，并将它们的“类标记”作为对应的输入实例的预测。

KNN法的优点是：1. KNN法的思想简单，实现容易，它不需要学习过程，也不需要假设数据的分布，只需要保存所有数据实例；2.实际数据建模时，可以有效地处理属性间关系比较复杂和数据不平衡的情况；3. KNN法可以灵活地处理不同的数据类型。

KNN法也存在一些缺点：1. KNN法需要大量的计算，当训练数据集特别大的时候，搜索K 个最近邻计算量就比较大，可能会耗费较多的时间；2. KNN法的效果依赖于k的值，但是k的值没有一个理论上的确定方法，只能选取不同的k值进行实验；3. KNN法不能很好地处理类别不平衡问题，因为它采用的算法是加权求和，类别不平衡的情况下，加权求和会倾向于那些比较多的类别；4. KNN法的思想是当前的数据点的类别取决于它的K个邻居，而这里的K个邻居都是已经被正确分类的，即每个邻居都是“正确”的，这种认为是不合理的，因为它假定K个邻居的类别都被正确分类了，而这并不一定是真的。

《基于改进K-means聚类和WKNN算法的WiFi室内定位方法研究》范文

《基于改进K-means聚类和WKNN算法的WiFi室内定位方法研究》篇一一、引言随着无线通信技术的快速发展，室内定位技术在诸多领域如智能建筑、物流管理、智慧城市等扮演着日益重要的角色。

其中，WiFi因其覆盖面广、布网方便和低成本等优势，已成为室内定位的主流技术之一。

然而，传统的WiFi室内定位方法在面对复杂多变的室内环境时，仍存在定位精度不高、稳定性差等问题。

因此，本文提出了一种基于改进K-means聚类和WKNN（加权k近邻）算法的WiFi室内定位方法，旨在提高定位精度和稳定性。

二、K-means聚类算法的改进K-means聚类算法是一种常用的无监督学习方法，通过迭代优化将数据划分为K个聚类，使得每个聚类内部的样本具有较高的相似性。

在WiFi室内定位中，我们可以将WiFi信号强度作为数据特征，利用K-means算法对不同位置点的WiFi信号强度进行聚类。

然而，传统的K-means算法在处理大规模数据时存在计算复杂度高、易陷入局部最优等问题。

因此，本文提出了一种改进的K-means算法。

该算法通过引入密度峰值检测技术，能够在迭代过程中自动识别并剔除噪声数据和异常值，从而提高聚类的准确性和稳定性。

此外，我们还采用了一种基于质心的初始化方法，以减少算法陷入局部最优的可能性。

三、WKNN算法的引入WKNN算法是一种基于距离度量的分类与回归方法，通过计算待测样本与已知样本之间的距离，并赋予不同的权重，以实现对未知样本的分类或预测。

在WiFi室内定位中，我们可以将WKNN算法应用于计算用户设备（UE）与各个接入点（AP）之间的距离，进而确定UE的位置。

相比传统的KNN算法，WKNN算法通过引入权重因子，能够更好地处理不同特征之间的差异性，提高定位精度。

此外，WKNN算法还可以通过调整权重的计算方式，灵活地适应不同的应用场景和需求。

四、基于改进K-means和WKNN的WiFi室内定位方法本文将改进的K-means聚类算法和WKNN算法相结合，提出了一种新的WiFi室内定位方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

42602009,30(18)计算机工程与设计Computer Engineering and Design0引言为了能够有效地组织和分析海量的Web 文本信息，人们希望能够按照网页内容对网页进行自动分类。

于是产生了很多自动文本分类算法，其中基于向量空间模型的K 最近邻(KNN )自动文本分类算法，因其思想简单、效果较好得到了较广泛的应用。

本文针对传统KNN 算法的缺点，提出了基于簇的KNN 分类算法。

1文本的表示1.1向量空间模型[1]实现文本自动分类，首先要把文本表示成计算机能够理解的语言，常用的表示方法是向量空间模型(VSM )。

VSM 基于这样一个假设，文本中的词条是相互独立的，与出现的顺序无关，文档d 被表示成向量V (w 1，w 2，…，w n )，其中w i 为第i 个特征项(t i )的权重，表示t i 对文本分类的贡献程度，文本看作是词条的集合，所有的文本向量组成了文本空间。

文本分词后，得到的词条称为特征项，特征空间的维数对应不同词条的个数，数量过大的特征项一方面导致分类算法的代价过高，另一方面导致无法准确地提取文档的类别信息，造成分类效果不佳。

“特征提取”的任务就是要将信息量小，“不重要”的词汇从特征空间中删除，从而减少特征项的个数，特征提取后的特征项组成文档的向量。

1.2特征权重计算公式1.2.1特征权重计算公式TF-IDF在向量空间模型中，不同特征项对文本分类的贡献不同，应赋予不同的权重。

常用的权重设置公式是TF-IDF ，公式如下（１）式中：W i ——t i 在文档d 中的权重，tf i ——t i 在文档d 中的频率，n ——训练集的文档总数，df i ——训练集中含有t i 的文档总数。

从公式可以看出，仅在某一个或某几个类中大量出现的特征项有较高的权重，出现频率偏低，或在训练集的大多数文档中都出现的特征项权重较低。

收稿日期：2008-09-08；修订日期：2008-11-06。

基金项目：国家自然科学基金项目(60675030/F030502)。

作者简介：潘丽芳(1980－)，女，山西长子人，硕士研究生，研究方向为数据挖掘；杨炳儒(1943－)，男，北京人，教授，研究方向为数据挖掘。

E-mail ：panlifang001@基于簇的K 最近邻(KNN )分类算法研究潘丽芳，杨炳儒(北京科技大学信息工程学院，北京100083)摘要：传统K 最近邻(KNN )分类算法为了找出待分类文本的k 个邻居，需要与样本空间中的每个样本向量作比较，当训练样本较多时，导致相似度计算次数过多，分类速度下降。

为此，改进了传统KNN 算法，将训练文本中相似度大的文本合并，称为一簇，并计算簇的中心向量。

待分类文本先与每一簇的中心向量计算相似度，当相似度达到某个阈值时，再与簇中的每个文本计算相似度，在一定程度上减少了相似度计算次数，降低了算法的时间复杂度。

根据同一特征出现在文本中的位置不同应具有不同的权重改进了传统的TF-IDF 计算公式。

关键词：KNN 算法;相似度计算次数;簇;中心向量;TF_IDF 算法中图法分类号：TP311.12文献标识码：A文章编号：1000-7024(2009)18-4260-03Study on KNN arithmetic based on clusterPAN Li-fang,YANG Bing-ru(School of Information and Engineering,University of Science and Technology Beijing,Beijing 100083,China )Abstract ：Traditional KNN arithmetic compares with every sample vector in sample space in order to find k neighbors of classification of the sample.This causes computing times too much and system performance degrades.So,the traditional KNN arithmetic,clusters training document with highly overlapping word is improved,central vector of cluster is gained.In the text classification process,first comparability is compared with central vector of each cluster,then comparability is compared with each document in cluster when com-parability with central vector reach puting times are reduced at a certain extent.At the same time,improve the IF-IDF formula so as to term ’s position in the text is different,it should have difference weigh.Key words ：KNN;comparability computing times;cluster;central vector;TF-IDF计算机工程与设计Computer Engineering and Design潘丽芳，杨炳儒：基于簇的K最近邻(KNN)分类算法研究2009,30(18)42611.2.2TF-IDF的缺陷及改进TF-IDF只考虑了不同的特征项对分类的作用不同，没有考虑到同一特征出现在文本中的位置不同，应该赋予不同的权重。

文中考虑了特征项出现的位置，改进了TF-IDF公式，改进的公式如下（２）2特征出现在文本中非重要的位置＝*22(3)从物理意义上说，Sim(di，d j)越大，文本向量di和d j的夹角越小。

当Sim(di，d j)=1时表示，在文本空间中文本向量di和d j平行或重合，这时它们之间的相似度最大。

当Sim(di，d j)趋向0时表示文档向量d i和d j垂直，这时它们之间的相似度最小，或者认为它们是不相似的。

1.4KNN分类算法1.4.1KNN分类算法的基本思想KNN算法的基本思想是：把待分类文本表示成文本向量，与训练样本组成的样本空间中的向量计算相似度，得到k篇与该文本距离最近(最相似)的文本，根据这k篇文本所属的类别判定新文本所属的类别，在新文本的k个邻居中依次计算每类的权重，将文本分到权重最大的类中。

1.4.2传统KNN分类算法的优缺点[2]优点：从分类过程来看，KNN最直接地利用了样本和样本之间的关系，减少了类别特征选择不当对分类造成的不利影响，可以最大程度地减少分类过程中的误差项。

缺点：主要是样本相似度计算量较大，为了找出待分类样本的k个邻居，需要与样本空间中的每个样本向量作比较，当训练样本较多时，导致分类速度下降，为了解决相似度计算量过大的问题，提出了基于倒排索引的KNN分类法。

2基于倒排索引的KNN分类算法2.1基于倒排索引的KNN分类算法描述基于倒排索引的KNN分类法，在查找样本的k个邻居时，只查找与待分类文本的词条有重叠的文本，减少了搜索空间，加快了查找速度。

文中使用的倒排索引的结构如图1所示。

倒排索引结构包括词条数组和每个词条的文本链表。

词条数组指，将所有的训练文本分词，经过特征提取后的所有特征项组成的数组，存储在数组中的是特征项(词条)的ID号。

词条数组中的每个词条(ti)有一个指针，指向含有ti的所有文本组成的链表。

文本链表由两部分组成，文本的ID和ti在文本中的权重。

ti的文本链表生成以后，按照t i在文本中的权重递减排序，排序以后能够使用一些优化手段近一步降低KNN算法的查找范围。

基于倒排索引的KNN分类算法描述：把待分类文本d表示成文档向量V(w1，w2，…，wn)找到向量V中每个词条ti(1≤i≤n)(n表示文档向量的长度)的文本链表li(1≤i≤n)合并li，去掉链表中重复的文本ID，得到文本ID的集合与集合中的文本计算相似度2.2基于倒排索引的KNN分类算法的优缺点优点：基于倒排索引的KNN算法，只与待分类文本有交集的训练文本向量计算相似度，在一定程度上减少了相似度计算次数，加快了分类速度。

缺点：在实验过程中发现，基于倒排索引的KNN算法，要与训练样本中四分之一以上的样本计算相似度，依然存在相似度计算过多，分类速度慢的缺点。

同时发现训练样本集中一些样本相似性较大，样本向量有较大的重叠度，提出了基于簇的文本分类算法。

3基于簇的KNN分类算法3.1基于簇的KNN分类算法3.1.1算法的思想先将训练集中相似度大的文本合并，称为一个簇，并计算簇的中心向量。

把每一簇看作一个普通文本，簇的中心向量看作文本向量，建立从词条(ti)到簇的倒排索引。

利用词条(ti)到簇的倒排索引找到与待分类文本有交集的簇，先计算待分类文本和簇的中心向量的相似度，当相似度达到给定阈值时再计算待分类文本和簇中每个文本的相似度。

由于簇的数目小于文本的数目，在一定程度上减少了相似度计算次数。

3.1.2词条到簇的倒排索引的结构图词条到簇的倒排索引的结构如图2所示。

3.2生成词条到簇的倒排索引的算法把每一簇看作一个普通文本，簇的中心向量看作文本向量，生成簇的同时也生成了词条(ti)到簇的倒排索引。

簇链表由两部分组成，簇ID和中心向量词条(ti)在簇中的权重。

训练文本表示为di(1≤i≤n)(n表示训练文本的个数)算法描述如下：i=1while(i≤n)图1文中使用的倒排索引的结构词条i词条i的文本链表(含有该词条的所有文本组成的集合)图2词条到簇的倒排索引的结构词条i词条i的簇链表(中心向量含有词条i的所有簇的集合)42622009,30(18)计算机工程与设计Computer Engineering and DesignIf d i(i=1)，看作第一簇，分配簇ID=0，簇的中心向量就是文本向量，将簇ID放入中心向量词条的簇链表中else基于已经生成的(还没有完全生成，只生成了一部分)词条到簇的倒排索引结构，找到和di的词条有交集的簇(Clus)，所有这样的簇组成簇集合(CS)j=1while(j≤|CS|)(|CS|表示CS的长度)If d i与CS j的中心向量(ccv j)的相似度Sim(d i，ccv j)>=中心向量相似阈值(预先给定)If d i和CS j中每个文本的相似度都>=文本相似阈值(预先给定)，分别记下簇ID、最大相似度，并设置标志表明文本能够归入已有的簇，j++，计算下一簇Else j++，计算下一簇Else j++，计算下一簇If能够归入已有簇，选择相似度最大的一簇加入，簇中成员发生变化，更新中心向量，如果中心向量中加入了新的词条，将簇ID放入新词条的簇链表中Else自成一簇，簇ID为已有最大簇ID加一，簇的中心向量就是文本向量，将簇ID放入中心向量词条的簇链表中i++3.3基于簇的KNN分类算法把待分类文本d表示成文档向量V(w1，w2，…，w n )基于词条到簇的倒排索引结构，找到向量V中每个词条t i(1≤i≤n)(n表示文档向量的长度)的簇链表l i(1≤i≤n)合并li，去掉重复的簇ID，得到簇集合(CS)For(1≤j≤|CS|)(|CS|表示CS的长度)依次计算d与CSj的中心向量(ccvj)的相似度Sim(d，ccvj)按照相似度排序，得到最近的m个簇Clusi(1≤i≤m) For(1≤i≤m)计算d与Clusi中每个文本的相似度按照相似度排序，得到最近的k个文本，根据这k个文本的类别得到待分类文本的类别。