第二讲 聚类Kmeans算法跟运用 (K-means cluster)

  • 格式:pdf
  • 大小:4.47 MB
  • 文档页数:16

下载文档原格式

  / 16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

CLEMENTINE 1212 CLEMENTINE

--SEGMENTATION(K-MEANS)

何谓集群分析何谓集群分析((CLUSTERING

ANALYSIS )集群分析是一种将样本观察值进行分析,具有

某些共同特性者予以整合在一起,再将之分配到特定的群体,最后形成许多不同集群的一种分析方法。

Clementine 12.0中提供的集群分析方法有三种:

1. K-means

2. Two-step

3. Kohonen

K-MEANS的理论背景

K-Means是集群分析(Cluster Analysis)中一种

非阶层式((Nonhierarchical))的演算方法,由J. B. Mac Queen于1967年正式发表,也是最早的组群化计算技术。其中,非阶层式则是指在各阶段分群过程中,将原有的集群予以打散,并重新形成新的集群。

K-Means是一种前设式群集算法,也就是说必

须事前设定群集的数量,然后根据此设定找出最佳群集结构。而K-Means算法最主要的概念就是以集群内资料平均值为集群的中心。

计算距離并

分群

的中心点

重新计算新的距離并分

不断重复步骤三四,直到所设计的停止条件发生。一般是以没有任何对象变换所属集群为停止绦件,也就是所谓的s q u a r e -e r r o r c r i t e r i o n :代表集群的中心(平均数),是集群内的物件,则代表集群。

210i K

i p C i

E p m =∈=−=∑∑i m i p i i C i

K-MEANS的基本需求与优缺点

建立K-means模型的要求:需要一个以上的

In字段。方向为Out、Both、None的字段将

被忽略。

优点:建立K-means模型不需要分组数据。

对于大型数据集,K-means模型常常是最快

的分群方法。

缺点:对于初始值的选择相当敏感,选择

不同的初始值,可能会导致不同的分群结

果。

基本操作介绍模型名称

Auto :选择该选项后,模型名称将为“Kmeans ”

Custom :选择该选项为可以在后面输入用户定义的模型名称。

使用分割数据:如果用户定义

了分割数据集,选择训练集作

为建模数据集,并利用测试集对模型评价指定生成的群数,默认值为5生成距离字段:如果选择了这一项,生成模型将包括一个具有每个记录与其所属集群中心距离的字段。显示群集邻近距离(S h o w c l u s t e r p r o x i m i t y ):选择该选项以在生成模型的输出结果中包含集群中心距离。显示集群(C l u s t e r d i s p l a y ):指定生成集群类别字段的格式。类别可以用S t r i n g (字符)表示,使用指定的L a b e l p r e f i x (标签前缀)(如“c l u s t e r 1”、“c l u s t e r 2”),或者用N u m b e r (数字)表示。优化(O p t i m i z e ):提高算法效率的选项,具体有两种方式:*速度(s p e e d ):选择S p e e d 使算法执行加快,但是占用更多的内存。*内存(m e m o r y ):选择

M e m o r y 使执行速度减慢,但是

节约内存。

Expert 操作介绍

对集合字段元重新编码(Encoding value for setsÿ ÿc [š0R01.0之间的一个值用于把集合字段元重新编码成一组数值型字段。默认值是0.5的平方根(大约为0.707107),以为重编码后的旗标变量字段提供合适的加权。值越接近1.0,集合型字段元权重越比数值型字段大。停止条件(Stopon ):指定训

练模型的终止准则。

*Default :(预设)终止准则是

迭代20次或者差异<0.000001,

其中任一项达到就停止。*Custom :指定自己的终止准则。最大迭代次数(MaximumIterations ):该选项允许在迭代指定次数后终止训练。调节容忍度(Changetolerance ):该选项允许在一次迭代中类中心之间的最大差异小于指定水平时终止训练。

--资料介绍

实例应用--

实例应用

现有资料drink.sav,收集了16种饮料的

热量(calorie)、咖啡因(caffeine)、钠(sodium)及价格(price)四个变数的值。现在希望利用这四个变量对这16种饮料进行聚类。

实例应用实例应用----流程图

---TYPE节点

实例应用-

实例应用

此数据的输入字

段皆为连续型的

数据。

实例应用

---K-MEANS设置节点

实例应用-

在此设定为3

群。

数据流建立后,执行该数据流,结果与以k-means 同名的结点显示在管理器的models 窗口中,浏

览该结点,点击窗口

上的modelc 钮中的expandall 按钮可以得到详细的分类信息,如图:(可见数据被分为三类,每类的字段分别为2,7,7)此图包含了k -m e a n s 集群的详细信息,每个集群都被贴了标签(c l u s t e r 1至c l u s t e r 3)且有每

个类的记录,在每个集群中各个变量数据的均值,标准值,还有每个集群中心和其他集群中心的距离。

果的影响比较大。