改进K-means算法实现移动通信行为特征分析

格式：pdf
大小：306.61 KB
文档页数：4

下载文档原格式

加权平均值的改进k-means算法

参考文献
【１］ＪａｉｎＡＫ，ＭｕｒｔＹＭＮ，ＦｌｙｎｎＰＪ．ＤａｔａＣｌｕｓｔｅｒｉｎｇ：Ａｇｅｖｉｅｗ【Ｊ］．ＡＣＭＣｏｍｐｕｔｉｎｇ
进行比较，比较结果如表ｌ。由表１可以得出，传统ｋ－ｍｅａｎｓ算法收敛
对聚类精度的影响，采刖加权平均的方式来解
聚类既是研究分类问题的一种统计分析方法，也是数据挖掘的一个重要方法。它是按照某种特定的规则将物理或抽象对象的集合分决。
数据库技术・ＤａｔａＢａｓｅＴｅｃｈｎｉｑｕｅ
加权平均值的改进ｋ－ｍｅａｎｓ算法
文／孙秀娟
表ｌ：本文算法和传统ｋ — ｍｅａｎｓ算法的结果比较
ｇｌａｓｓ数据集Ｉｒｉｓ数据集
迭代次数传统算法本文算法３６２０
正确率６６．５８％８８．９２％
迭代次数２２１５
正确率６９．３７％９３．８５％
集区域的数据点，它们距中心点的距离筹不多，
实验证明上述结论。
ｊ所以权值比较类似 ’ 在聚类时很容易划分到一２实验
类中。在改进算法中，孤立点和 “ 噪声 ”数
【关键词】Ｋ — ｍｅａｎｓ算法聚类

kmeans算法java实现

kmeans算法java实现K-means算法是一种常用的聚类算法，在机器学习和数据挖掘领域得到广泛应用。

本文将介绍K-means算法的原理以及如何用Java实现。

文章将按照以下五个主题逐步展开：K-means算法概述、算法步骤、Java实现准备、Java实现步骤和结果分析。

1. K-means算法概述K-means算法是一种非监督学习算法，用于将具有相似特征的数据点划分为不同的簇。

它以欧氏距离作为相似度度量，并希望簇内的数据点尽可能接近彼此，而不同簇之间的样本点则尽可能远离彼此。

算法的核心思想是通过迭代优化来找到使目标函数最小化的质心位置。

2. 算法步骤2.1 初始化：设定簇的数量K和数据集，随机选择K个数据点作为初始质心。

2.2 聚类：计算每个数据点到各个质心的距离，并将其归类到离其最近的质心所在的簇中。

2.3 更新质心：计算每个簇内所有数据点的均值，作为新的质心位置。

2.4 重复2.2和2.3步骤，直到质心位置不再改变或达到迭代次数的上限。

3. Java实现准备在开始编写代码之前，我们需要引入Java相关的机器学习库。

ApacheMahout和Weka是两个常用的选项，它们提供了各种机器学习算法的实现。

在本文中，我们将使用Weka库。

4. Java实现步骤4.1 导入必要的库：首先，导入Weka库，以及用于读取数据和处理数据的其他必要库。

4.2 读取数据：从外部文件读取数据，并将其转换为需要的格式。

例如，将输入的CSV文件转换为Weka库中的Instances对象。

4.3 初始化质心：随机选择K个数据点作为初始质心。

4.4 聚类和更新质心：根据质心计算每个数据点到各个质心的距离，并将其归类到最近的质心所在的簇中。

然后，计算每个簇内所有数据点的均值，作为新的质心位置。

4.5 重复聚类和更新质心步骤，直到质心位置不再改变或达到迭代次数的上限。

4.6 结果输出：将聚类的结果输出到外部文件，以便进一步分析和可视化。

一种改进的K-Modes聚类算法

一种改进的K-Modes聚类算法K-Modes聚类算法是一种适用于离散型数据的聚类算法，它是K-Means算法的一种扩展。

K-Modes算法使用了众数（mode）而不是均值来计算簇的中心，因此更适合于处理离散型数据。

K-Modes算法也存在一些局限性，例如对初始簇中心的选择敏感、对异常值敏感、对簇数K的选择不确定等。

有必要对K-Modes算法进行改进，以提高其在实际应用中的效果。

1. 改进初始簇中心的选择。

传统的K-Modes算法通常是随机选择初始簇中心，这样容易受到初始值的影响，导致结果不稳定。

改进的算法可以使用一些启发式方法或者基于数据特征的方法来选择初始簇中心，可以使用K-Means++的方法来选择初始簇中心，或者根据数据的分布特点来选择初始簇中心。

2. 改进簇的更新策略。

传统的K-Modes算法在簇的更新过程中通常是采用硬聚类的方式，即每个样本只能属于一个簇，这样容易导致结果受到异常值的影响。

改进的算法可以考虑使用软聚类的方式，允许每个样本以一定的概率属于多个簇，这样能够减小异常值对结果的影响。

3. 改进距离度量方法。

传统的K-Modes算法通常使用简单的汉明距离或者Jaccard距离来度量样本之间的相似度，然而这样的距离度量方法对于离散型数据的特点并不充分考虑。

改进的算法可以采用更加适合离散型数据的距离度量方法，例如可以考虑使用基于熵的距离度量方法来度量样本之间的相似度。

4. 改进簇数K的选择方法。

传统的K-Modes算法通常需要人工指定簇数K，这样需要一定的先验知识，并且结果对K的选择敏感。

改进的算法可以采用一些自动选择簇数K的方法，例如可以采用基于模型评估准则（如轮廓系数、Calinski-Harabasz指数等）来选择簇数K。

5. 改进对离散型数据的处理。

传统的K-Modes算法对离散型数据的处理方法比较简单，通常是采用one-hot编码或者标签编码来处理离散型数据。

改进的算法可以考虑使用更加适合离散型数据的编码方法，例如可以使用基于分布的编码方法来处理离散型数据。

K-means算法的改进

K-means算法的改进J.B.MacQueen 在1967 年提出的K-means算法到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。

它是聚类方法中一个基本的划分方法，常常采用误差平方和准则函数作为聚类准则函数。

K-means 算法是一种基于划分的聚类算法，在对所给数据集进行聚类时，必须知道k值的大小，即聚类的数目。

它的思想是：首先从所给定的包含n 个数据对象的数据集中随机选取k 个数据对象作为初始聚类中心点，然后计算其余的数据对象到各个聚类中心点的距离，根据距离最近原则，把数据对象分配给离它最近的聚类中心所代表的簇中；再重新计算各个簇的聚类中心，根据选定的聚类准则函数，采用迭代的方法，不断重复以上过程直到聚类准则函数收敛或者是相邻两次的聚类中心没有变化为止。

每一次迭代，都增加了簇内紧凑性，降低了簇间相似性。

当所有数据对象被正确划分后，下一次迭代聚类中心将不会再发生变化，这时聚类结果已达到最优，算法结束。

K-means 算法的具体过程描述如下：(1) 从给定样本数据集中随机选取k 个数据点作为初始聚类中心；(2) 计算数据集中每个数据到这k 个聚类中心的距离并将每个数据点分配给离它最近的中心点所代表的簇；(3) 计算每个簇中所有数据点的平均值作为每个簇的新的中心；(4) 判断聚类准则函数是否收敛或聚类中心点和上次是否完全相同，若收敛或中心点无变化，则算法结束，输出聚类结果，否则转到步骤(2)。

下面给出一个K-means 算法的例子，以更好的说明该算法的聚类过程。

已知一个数据对象集合X =，各数据对象的值如表所示。

现在要求将数据对象集X 划分为两类，即k=2。

首先随机选择两个点作为初始聚类中心，在这里我们选择和，分别作为和两个簇的初始聚类中心。

然后计算到和的欧式距离，通过公式来计算，如下所示：根据计算可知，距离比距离更近，所以应将划分到所表示的簇中，同理将划分到簇中，将划分到簇中。

基于改进的k-means算法的新闻聚类的研究

基于改进的k-means算法的新闻聚类的研究随着社交媒体和网上新闻的日益发展，每天都会产生海量的信息。

为了更好地管理这些信息并实现有效的信息筛选，新闻聚类技术应运而生。

聚类技术可以将具有相似主题和特征的新闻聚集在一起，从而帮助用户更轻松地了解和获取感兴趣的信息。

在这项研究中，我们提出了一种改进的k-means聚类算法，用于新闻聚类。

该算法首先对新闻进行预处理，然后根据弗洛伊德算法计算文本之间的相似度。

具体步骤如下：1. 数据预处理在实际应用中，数据的清理和预处理是非常重要的。

对于新闻聚类来说，数据预处理包括去除标点符号、停用词，进行分词和词干提取等。

这些步骤都有助于减少文本维度，提高聚类的准确性和速度。

2. 计算相似度我们使用弗洛伊德算法来计算文本之间的相似度。

弗洛伊德算法是一种动态规划算法，可以在一个加权的有向图上计算所有节点之间的最短路径。

对于我们的新闻聚类问题，我们可以将所有的文本看作是图中的节点，根据共现词的频率建立边权重，从而计算节点之间的最短距离。

3. k-means聚类在计算相似度之后，我们使用改进的k-means算法将文本聚类成k个集群。

改进的k-means算法包括以下几个步骤：（1）初始化：根据随机质心的方法初始化k个簇。

（2）赋值：计算每个文本到k个簇质心的距离，将文本分配到最近的质心所在簇。

（3）更新质心：根据簇内所有文本的平均值，更新每个簇的质心。

（4）迭代：重复步骤2和步骤3直到质心不再变化或者达到最大迭代次数。

4. 聚类后处理最后，我们对聚类结果进行后处理。

我们使用标签传播算法来合并一些相关度高的类别。

标签传播算法基于贪心策略，将具有相似标签的文档合并到一个类别中。

实验结果显示，我们提出的改进k-means算法在新闻聚类方面可以有效地提高聚类准确性和速度。

这种算法在实际应用中可以帮助用户更轻松地了解和获取感兴趣的信息。

数据挖掘中的K_means算法及改进

福建电脑２００６年第１１期数据挖掘中的K-means算法及改进贾磊，丁冠华（武警工程学院研究生队陕西西安７１００８６）【摘要】：从数据挖掘的基本概念入手，逐步深入分析本质，并且对ｋ－ｍｅａｎｓ进行探讨，对其中的聚类中心的方法进行了改进。

【关键词】：数据挖掘；ｋ－ｍｅａｎｓ算法；聚类中心１．数据挖掘的含义１．１概念：数据挖掘是一个处理过程，它利用一种或多种计算机学习技术，从数据库的数据中自动分析并提取知识。

数据挖掘会话的目的是确定数据的趋势和模式。

它是基于归纳的学习策略，创建的模型是数据的概念概化，概化可表示为树、网络、方程或一组规则的形式。

１．２数据挖掘过程：数据挖掘是一个多步骤过程，包括挖掘数据，分析结果和采取行动，被访问的数据可以存在于一个或多个操作型数据库中、一个数据仓库中或一个平面文件中。

２．Ｋ－ｍｅａｎｓ算法Ｋ－ＭＥＡＮＳ算法是一个简单而有效的统计聚类技术。

其算法如下：⑴选择一个Ｋ值，用以确定簇的总数。

⑵在数据集中任意选择Ｋ个实例，它们是初始的簇中心。

⑶使用简单的欧氏距离将剩余实例赋给距离它们最近的簇中心。

⑷使用每个簇中的实例来计算每个簇新的平均值。

如果新的平均值等于上次迭代的平均值，终止该过程。

否则，用新平均值作为簇中心并并重复步骤３－５。

算法的第一步需要我们做出一个初始判断，即认为数据中应表示多少个簇。

下一步，算法任意选择Ｋ个数据点作为初始簇中心。

然后，每个实例被放置在与它最相似的簇里，相似性右以以多种方式来定义。

不过，最常使用的相似性度量指标是简单欧氏距离。

举例：我们将两个属性命名为ｘ和ｙ将各个实例映射到ｘ－ｙ坐标系中。

这种映射显示在图中。

第１步，我们必须选择一个Ｋ值。

假设我们认为有两个不同的簇。

因此，我们将Ｋ设置为２。

该算法任意选择两个点代表初始簇中心。

假设算法选择实例１作为第１个簇中心，选择实例３作为第２簇中心，下一步就是地剩下的实例进行分类。

根据坐标为（ｘ１，ｙ１）的点Ａ与坐标为（ｘ２，ｙ２）的点Ｂ之间的欧氏距离公式，为演示算法的工作原理，进行以下的计算。

《数据挖掘实验》---K-means聚类及决策树算法实现预测分析实验报告

实验设计过程及分析：1、通过通信企业数据（USER_INFO_M.csv），使用K-means算法实现运营商客户价值分析，并制定相应的营销策略。

（预处理，构建5个特征后确定K 值，构建模型并评价）代码：setwd("D:\\Mi\\数据挖掘\\")datafile<-read.csv("USER_INFO_M.csv")zscoredFile<- na.omit(datafile)set.seed(123) # 设置随机种子result <- kmeans(zscoredFile[,c(9,10,14,19,20)], 4) # 建立模型，找聚类中心为4round(result$centers, 3) # 查看聚类中心table(result$cluster) # 统计不同类别样本的数目# 画出分析雷达图par(cex=0.8)library(fmsb)max <- apply(result$centers, 2, max)min <- apply(result$centers, 2, min)df <- data.frame(rbind(max, min, result$centers))radarchart(df = df, seg =5, plty = c(1:4), vlcex = 1, plwd = 2)# 给雷达图加图例L <- 1for(i in 1:4){legend(1.3, L, legend = paste("VIP_LVL", i), lty = i, lwd = 3, col = i, bty = "n")L <- L - 0.2}运行结果：2、根据企业在2016.01-2016.03客户的短信、流量、通话、消费的使用情况及客户基本信息的数据，构建决策树模型，实现对流失客户的预测，F1值。

一种改进的K—means算法在异常检测中的应用

一种改进的K—means算法在异常检测中的应用
陈庄;罗告成
【期刊名称】《重庆理工大学学报》
【年(卷),期】2015(029)005
【摘要】为提高K-means聚类算法在异常检测中的效果，给出一种改进的K-means聚类算法。

基于最大距离选取初始聚类中心，并引入信息熵计算各个属性的权重，用改进后的加权欧氏距离公式计算数据集中样本点间的距离。

选取KDDCUP99数据集测试算法的性能。

实验结果表明，本算法有助于提高异常检测的检测率和降低误报率。

【总页数】5页(P66-70)
【作者】陈庄;罗告成
【作者单位】重庆理工大学计算机科学与工程学院,重庆400054
【正文语种】中文
【中图分类】TP305
【相关文献】
1.一种改进的 K-means 算法在异常检测中的应用
2.一种改进免疫遗传算法及在异常检测中的应用
3.一种改进的图分割算法在用户行为异常检测中的应用
4.混沌改进鱼群算法及其在工业控制网络异常检测中的应用
5.Jaccard改进算法在用户实体行为分析分组异常检测中的应用
因版权原因，仅展示原文概要，查看原文内容请购买。

K-means的优缺点及改进

K-means的优缺点及改进K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。

该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

k个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。

该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。

当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。

如果在一次迭代前后，J的值没有发生变化，说明算法已经收敛。

1）从N个文档随机选取K个文档作为质心2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类3）重新计算已经得到的各个类的质心4）迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束具体如下：输入：k，data［n］;（1）选择k个初始中心点，例如c［0］=data［0］，…c［k-1］=data［k-1］；（2）对于data［0］….data［n］，分别与c［0］…c［k-1］比较，假定与c［i］差值最少，就标记为i；（3）对于所有标记为i点，重新计算c［i］={ 所有标记为i的data［j］之和}/标记为i 的个数；（4）重复（2）（3），直到所有c［i］值的变化小于给定阈值。

K-means算法的优点是：首先，算法能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类；其次，为克服少量样本聚类的不准确性，该算法本身具有优化迭代功能，在已经求得的聚类上再次进行迭代修正剪枝确定部分样本的聚类，优化了初始监督学习样本分类不合理的地方；第三，由于只是针对部分小样本可以降低总的聚类时间复杂度。

K-means算法的缺点是：首先，在K-means 算法中K 是事先给定的，这个K 值的选定。

一种k-means聚类的改进算法与实现

法及其实现［］计算机工程与应用，０４１）Ｊ．２０（６．Ｅ３２
ＤＯＮＧ— ＨＥＲＳＨＩ，Ｏ— ＮＧＵＮ，ＨＰＩＩＳＤＡＶＩＣ．ＹＥＮ．ＴａｏｏｙＤｘｎｍ
［］２０．ｓ．０３
，ＤＯＮＧＷ００ＫＩＥＥ，ＹｏＵＮＧＷＯ０Ｙ０ＵＮ．［］ＪＨＷＡＮＣＨＯＩ６Ｉ
第１卷第３１期
２１年３０２月
软件导刊
ＳｌｗａｅＧｕｉｅｏｆｒｄ
ＶＯ１１ｏ３．ｌＮ．Ｍａ２２ｒＯｌ
一
种ｋｍｅ．ａｓ聚类的改进算法与实现ｎ
冯能山，志华熊金志祝建军林，，
Ｋ，ＲＦＩＨＡＮＤＢＯＯＫ，Ｆｕｄｍｅｔｌａｄａ — Ｄ－ｎａｎａｓｎｐＥ］ＦＩ３ＮＫＥＮＺＥＬＬＥＲｐｉａｉｎｎｃｎａｔｅｓｓａｔｃｒｓｉｅｔｆｃｔｎ（ｎｅｄＥｄｔｎ）ｌｔｏｓｉｏｔｃｌｓｍｒａｄｄｎｉｉａｉＳｅｃｎｉｉｃｏｏ
所需比特数降低到了最少，不随标签Ｉ的长度变化而且Ｄ影响。因此，算法对于ＲＦＤ防碰撞技术有着极其重要该Ｉ
的意义。
参考文献
詹彭返［］余松森，宜巨，卫东．回式索引的二进制树形搜索反碰撞算１
方法存在初始ｋ值不确定、间复杂度大等缺点。针对这些缺点，进了聚类初值的随机性问题，时改简化了算法，降低了时间复杂度，高了ｋｍｅｎ算法的性能，给出了具体的代码实现。提－ａｓ并

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ｋｅｒｓ：ｕｔｍｅｅｍｅｔｔｏｙｗｏｄｃｓｏｒｓｇｎａｎ；Ｋ—ｍｅｓｎｕｎｉｇｆｃｏｉｎａ；ｉｆｅ具有重要的商业价值，
它在获取潜在客户、少客户流失、减降低服务成本、提升客户价值、提高满意度、制定精确化营销策略等方面具有重要意义。建立移动通信行为特征分析的目的就是要将ＡＣ接口信令解码数据、ＯＳ计费数据、ＢＳＧＲＰＳ上网数据等通信行为特征数据用于辅助营销决策。通过对客户接打电话、收发短信、上网以及开关机等通信行为进行数据挖掘，隐藏在这些数据中的尚将未被发现的知识提取出来，使企业更清楚地了解用户通信行为差异化特征，以便市场部门可以对不同的用户制定不同的营销策略，并且在宣传推广、新业务交叉
征分析客户聚类有效。
１Ｋ－ａｓｍｅｎ模型介绍
１１Ｋ－ａｓ．ｍｅｎ算法实现
收稿日期：００１ — ６；回日期：０ｌＯ — ７２１— ０２修２１— １２基金项目：空预研项目（２０Ｂ００）广ＧＫ０９Ｅ１２
云（９４），湖北天门人，１７一男，硕士，工程师，Ｃ会ＣＦ
员，研究方向为通信技术、网络安全。
・
６４・
计算机技术与发展
第２１卷
识和多个特征数据，过对记录特征数据的聚类分析通
该尽可能的小，一般用方差来衡量，应该使方差达到最
第２卷第６期ｌ２１０１年６月
计算机技术与发展
ＣＯＭＰＵＴＥＲＴＥＣＨＮＯＬＯＧＹＡＮＤＤＥＶＥＬＯＰＭＥＮＴ
Ｖｏ＿Ｎｏ．ｌ２ｌ６
Ｊｎ２ｌｕｅ０１
改进Ｋｍｅｎ — ａｓ算法实现移动通信行为特征分析
ｅｃ，ＴｈｅｕｔｏｔｄｎｉａｅｈｔａｃｒｉｏｂｈｖｏａｈａｔｒｓｃａａｙｉｍｐｏｉｇＫ—ｍｅｎｇｒｔｍｌｕｄｖｄｈｎｅｅｒｓｌｆｓｕｙｉｄｃｔｓｔａｃｏｄｎｇｔｅａｉｒｃａｃｅｉｔｌｓｓｉｒｖｎｌｒｉｎａｓａｏｈｌｉｗｉｓｂｉｉｅｔｅｌｃｕｔｒｔｈｂｌｏｌｓｅｏｔｅｍｏｉｅｃｍｍｕｉａｏｕｔｍｅｆｅｔｅｙｎｃｔｎｃｓｏｒｅｆｃｖｌ．ｉｉ
文献标识码：Ａ
文章编号：７ — ２Ｘ２１）６０６ — ３１３６９（０１０ — ０３０６
ＡｐｐｉａｉｎｏｍｐｒｖｄＫ－ｅｎｓＡｌｏｉｈｍｎＭｏｌｌｃｔｏｆＩｏｅＭａｇｒｔｉｂｉｅ
ＣｏｍｍｕｉａｉｎＢｅａｉｒｌＣｈｒｃｅｉｔａｙｉｎｃｔｏｈｖｏａａａｔｒｓｉＡｎｌｓｓｃ
法的上述影响参数的计算方法，利用经验加权的方式使算法与主观经验结合。研究结果表明改进Ｋｍａｓ法对移动并 — ｅｎ算
通信特征分析客户聚类有效。
关键词：客户细分； — ｅｎ；响因子Ｋｍａｓ影
中图分类号：Ｐ０．Ｔ３１６
Ｈｕ，Ｉｕ，ＡＯＮｎ－ｉｎＺＡＯＲｎ－ｈｎＥＹｎＬｉＹｅｇｊ，ＨｏｇｓｅｇＨａ
（ｏＣｍｍａｄＡｔｍａｉｆｃ，ｕｎｚｏｌａｅｉｉＦｒｅＧａｇｈｕ５０７，ｈｎ）ｎｕｏｔｎＯｅＧａｇｈｕＭｉｔｙＲｇｏＡｒｏｃ，ｕｎｚｏ１０１Ｃｉａｏｉｉｒｎ
ｂｖｇｒｈａｆｃａａｅｅｓａｃｌｏｔｏｕｌｅｅｐｒｎｅｗｅｈｎｙｔｋｌｏｔｍｉｄｗｔｕｊｃｉｅｅｐｒｏｅａｏｔｍｆｅｔｐｒｔｌｕａｎｍｅｄ，ｔｉｘｉｃｉｔｇｗａｍａｅａｒｌｉｓｍｒｃｉｔｈｉｚｅｅｇｉｏｇｉｈｂｎｉｓｂｅｔｘｉｈｖｅ —
样本集根据它们之间的相似程度分为预先制定的个
ｏ＝∑ （）ｒｃ
营销中发挥作用，一步巩固和发展与客户的关系。进Ｋ— ａｓｍｅｎ算法被广泛用于客户细分聚类应用研究，但Ｋ— ａｓｍｅｒ算法的效果受变量的量纲、ｌ维度、聚类数、初始聚点等因子的影响很大 “ ，量应用研究表明上大述影响因子与具体的案例和主观经验相关联。文中试图通过基于移动通信行为特征分析的客户聚类实例改进Ｋ— ａｓ法的上述影响参数的计算ｍｅｎ算方法，并利用经验加权的方式使算法与主观经验结合。研究结果表明改进Ｋ— ａｓ法对移动通信行为特ｍｅｎ算
纲、度、维聚类数、初始聚点等参数的计算是影响Ｋｍａｓ法聚类应用效果的重要因子。在基于Ｋｍａｓ — ｅｎ算 — ｅｎ算法移动通信行为特征分析系统的实现过程中，分别从特征维度选择、量量纲统一、变聚类数Ｋ值与初始聚点的确定等四个方面改进算
监督学习，而数据聚类则称为非监督学习。聚类分析
间中心点的距离、间最远点的距离和类问最近点的类
距离三种。具体验证方法如下：对数据集｛｝：（ … ， … ，）其中ｉ，，＝１２ … ，。设有个类，，，类包含了。个样本，中ｉ其
ＢＳ数据、Ｃ接口信令解码数据、ＰＳ数据通ＯＳＡＧＲ过采集、抽取、转换、载到数据仓库等步骤形成通信加行为特征数据，通信行为特征包括语音行为、短信行为、网行为等多种行为特征。每个记录包含实体标上
作者简介：何
ＡｂｔａｔＫ－ｍｅｓａｇｒｔｍｓｗｉｅｙｕｅｏｃｓｏｒｓｇｎａｉｎｃｕｔｒｎｐｉａｉｎｒｓａｃｓｒｃ：ｎａｌｏｉｈｉｄｌｓｄｔｕｔｍｅｅｍｅｔｔｏｌｓｅｇａｐｌｔｏｅｅｒｈ，ｃｔｍｅｅｍｅｔｔｎｏｂｌｉｃｕｓｏｒｓｇｎａｉｆｍｏｉｏｅ
何云，李辉，能坚，姚赵榕生
（州军区空军指挥自动化工作站，东广州５０７）广广１０１
摘要：－ｅｎ算法被广泛用于客户细分聚类应用研究，Ｋｍａｓ客户细分对移动通信行业具有重要的商业价值。但变量的量
ｈｓｉｏｔｎｏａｍｐｒｔｃｍｍｅｃａａｕ．Ｂｕｉｎｉｎｎｔｉｎｉｎｏａｉｂｅ，ｃｕｔｒｎｍｂｒｎｔａｅｔｉｓｅｃａ－ａｒｉｖｌｅｌｔｄｍｅｓｕｉ，ｄｍｅｓｏｆｖｒａｌｏｌｓｕｅｓ，ｉｉｌｎｒｄ，ｔ．ｃｌｅｉｃｏｃｌｔｏｆｅｅｐｒｍｅｅｓｉｍｐｒａｔａｔｒｏｆｕｎｉｇＫ— ａｓａｇｒｔｍｌｓｅｐｌａｏｅｕｔｕａｉｎｏｓａａｔｒｓｉｏｔｎｃｏｆｉｌｅｃｎｍｅｎｏｈｃｕｔｒａｐｉｔｎｒｓｌ．ＢａｅｎＫ－ａｓａｇｒｔｍｈｔｆｎｌｉｃｉｓｄｏｍｅｏｈｎｌｉｍｏｉｏｂｌｃｍｍｕｉａｉｎｂｈｖｏｈｒｃｅｓｃａａｙｉｐｏｅｓｏｌｍｅｔｇ，ｒｓｅｔｅｙｆｍｈｈｒｃｅｓｃｄｍｅｓｏｓｓｌｃｏｅｎｃｔｅａｉｒｃａａｔｒｔｌｓｓｒｃｓｆｉｅｎｎｏｉｉｎｍｐｉｅｐｃｉｌｒｖｏｔｅｃａａｔｒｔｉｎｉｎｅｅｔｎ，ｉｉｉｖｒｂｅｄｍｅｓｏｕｉｕｉａｉｌｉｎｉｎｎｔｎｔａｙ，ｃｕｔｒｎｍｂｒＫａｕｄｉｉｉｅｔｉｓｄｔｒｎｔｎｆｕｓｅｔ，ｉｒｖｅｄｔｒｉａｉｎｏｅａｌｓｅｕｅｖｅａｔａｃｎｒｄｅｅｍｉａｏｏｒａｐｃｓｍｐｅｔｅｅｎｔｏｆｔ — ｌｎｎｌｏｉｏｈｍｈ
：
１２ …Ｋ。数据集的方差为（＝（，，）
一，，， …
）其中：，
寺。）（。
类Ｃ的方差为：ｒｃ）ｏ＝（（
（４）
… ，ｒ，，）从Ｏ … ，
而得到类内方差：
的方法包括基于划分的方法、于密度的方法、于层基基次的方法、基于网格的方法、于模型的方法等。基。由于移动通信行为特征数据海量的特点，本实在例中聚类分析的算法主要采用Ｋｍａｓ法］ — ｅｎ算。Ｋｍａｓ－ｅｎ算法是简单而有效的统计聚类技术，将