第10章 聚类分析
- 格式:doc
- 大小:77.50 KB
- 文档页数:3
聚类分析原理及步骤
一,聚类分析概述
聚类分析是一种常用的数据挖掘方法,它将具有相似特征的样本归为
一类,根据彼此间的相似性(相似度)将样本准确地分组为多个类簇,其中
每个类簇都具有一定的相似性。
聚类分析是半监督学习(semi-supervised learning)的一种,半监督学习的核心思想是使用未标记的数据,即在训
练样本中搜集的数据,以及有限的标记数据,来学习模型。
聚类分析是实际应用中最为常用的数据挖掘算法之一,因为它可以根
据历史或当前的数据状况,帮助组织做出决策,如商业分析,市场分析,
决策支持,客户分类,医学诊断,质量控制等等,都可以使用它。
二,聚类分析原理
聚类分析的本质是用其中一种相似性度量方法将客户的属性连接起来,从而将客户分组,划分出几个客户类型,这样就可以进行客户分类、客户
细分、客户关系管理等,更好地实现客户管理。
聚类分析的原理是建立在相似性和距离等度量概念之上:通过对比一
组数据中不同对象之间的距离或相似性,从而将它们分成不同的类簇,类
簇之间的距离越近,则它们之间的相似性越大;类簇之间的距离越远,则
它们之间的相似性越小。
聚类分析的原理分为两类,一类是基于距离的聚类。
第10章神经网络聚类方法
神经网络聚类方法是一种以神经网络技术为根基,以聚类分析为基础
的分类算法,它可以检测出不同数据之间的相似性,从而将这些数据分类
组织起来。
它的出现主要是为了解决传统聚类方法结果效果不佳的问题。
神经网络聚类方法的基本思想是,将聚类分析问题转化为神经网络模
型的问题,用神经网络解决聚类问题,尤其是使用核函数来表示簇之间的
关系,使用反向传播算法来优化神经网络,得出最优聚类结果。
根据神经网络聚类方法的结构,可以将神经网络聚类方法分为两类:
一种是基于核映射的神经网络聚类,另一种是基于自组织映射的神经网络
聚类。
基于核映射的神经网络聚类的典型代表有核聚类神经网络,它是由一
个输入层、一个隐含层和一个输出层构成的神经网络,它的基本思想是使
用一种核函数来表示簇之间的关系,并用反向传播算法来优化该神经网络,使其能够得出较为精确的聚类结果。
基于自组织映射的神经网络聚类则由一个输入层、一个隐含层和一个
自组织映射(SOM)层构成的神经网络,其基本思想是使用一种自组织映射
函数来表示簇之间的关系,并用反向传播算法来优化该神经网络。
聚类分析(ClusterAnalysis)(一)什么是聚类聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。
是将复杂数据简化为少数类别的一种手段。
(二)聚类的基本思想:•有大量的样本。
•假定研究的样本之间存在程度不同的相似性,可以分为几类;相同类别的样本相似度高,不同类别的样本相似度差。
•用一些数据指标来描述样本的若干属性,构成向量。
•用某种方法度量样本之间或者类别之间的相似性(或称距离),依据距离来进行分类。
•根据分类来研究各类样本的共性,找出规律。
(三)聚类的应用•商业领域-识别顾客购买模式,预测下一次购买行为,淘宝商品推荐等。
•金融领域-股票市场板块分析•安全和军事领域•o破解GPS伪随机干扰码和北斗系统民用版的展频编码密码o识别论坛马甲和僵尸粉o追溯网络谣言的源头•生物领域•o进化树构建o实验对象的分类o大规模组学数据的挖掘o临床诊断标准•机器学习•o人工智能(四)聚类的对象设有m个样本单位,每个样本测的n项指标(变量),原始资料矩阵:image.png指标的选择非常重要:必要性要求:和聚类分析的目的密切相关,并不是越多越好代表性要求:反映要分类变量的特征区分度要求:在不同研究对象类别上的值有明显的差异独立性要求:变量之间不能高度相关(儿童生长身高和体重非常相关)散布性要求:最好在值域范围内分布不太集中(五)数据标准化在各种标准量度值scale差异过大时,或数据不符合正态分布时,可能需要进行数据标准化。
(1)总和标准化。
分别求出各聚类指标所对应的数据的总和,以各指标的数据除以该指标的数据的总和。
image.png这种标准化方法所得到的的新数据满足:image.png(2)标准差标准化,即:image.png这种标准化方法得到的新数据,各指标的平均值为0,标准差为1,即有:image.pngimage.pngPS:比如说大家的身高差异(3)极大值标准差经过这种标准化所得到的新数据,各指标的极大值为1,其余各数值小于1.image.pngPS:课程难易,成绩高低。
统计分析与spss的应用(第三版)第10章课后习题详细答案1、(1)聚类分析的第1步,1号样本(广西瑶族)和3号样本(广西侗族)聚为一小类,它们的个体距离(欧氏距离)是3.722,这个小类将在下面第2步用到。
聚类分析的第2步,8号个体(贵州苗族)与第1步聚成的小类(1号和3号聚成的小类)又聚成一小类,它们的距离(个体与小类的距离,采用组间平均链锁距离)是9.970,这个小类将在下面第4步用到。
聚类分析的第3步,5号样本和7号样本聚成小类,它们的距离(个体与个体的距离)是11.556,这个小类将在第5步用到。
聚类分析的第4步,6号与第2步形成的小类(1号3号8号聚成的小类)聚为小类,它们的距离(个体与小类的距离)为18.607,这个小类将在第6步用到。
聚类分析的第5步,4号样本与第3步聚成的小类聚为小类,它们的距离(个体与小类的距离)为20.337,这个小类将在第6步用到。
聚类分析的第6步,第4步聚成的小类与第5步聚成的小类聚成小类,它们的距离(小类与小类的距离,采用组间平均链锁距离)是22.262,这个小类将在下面第7步中用到。
聚类分析的第7步,2号样本与第6步中聚成的小类聚成小类。
它们的距离(个体与小类的距离)是31.020。
经过7步,8个样本最后聚成了一大类。
(2)(3) 广西瑶族与广西侗族、贵州苗族、基诺族为一类,土家族与崩龙族、白族为一类,湖南侗族自成一类2、(1)凝聚状态表随着类数目不断减少,类间距离在逐渐增大。
3类后,聚间距离迅速增大,形成极为平坦的碎石路。
所以考虑聚成3类。
(2)北京自成一类,江苏广东上海湖南湖北聚为一类,剩余的聚省为一类。
(3)(4)通过该表可以看出,,对应P值-小于0.005,所以各指数的均值在3类中的差异是显著的。
3、答:聚类分析是以各种距离来度量个体间的“亲疏”程度的。
从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。
进行层次聚类分析时,为了避免上述问题,聚类分析之前应首先消除数量级对聚类的影响,对数据进行标准化就是最常用的方法。
第十章聚类分析
教学目的:掌握快速聚类和层次聚类的操作,了解各种距离,掌握其结果的阅读。
教学重点:重点考察K-means cluster、hierarchial cluster过程
教学时数:讲授2学时,操作2学时
教学方法:讲授与演示结合
聚类分析(Cluster Analysis)是研究将个体或变量进行分类的一种多元统计方法。
是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
属于一种探索性分析,不同研究者对于同一组数据进行聚类分析,由于所使用的方法不同,常会得出不同的结论。
聚类分析方法根据统计方法的不同分为层次聚类和快速聚类
根据分类对象的不同分为两类:一类是对样本所作的分类,即Q-型聚类,一类是对变量所作的分类,即R-型聚类。
聚类分析的基本思想是,据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。
根据某种准则(最短距离法、最长距离法、中间距离法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。
分类过程是一个逐步减少类别的过程,在每一个聚类层次,必须满足“类内差异小,类间差异大”原则,直至归为一类。
例:
不同地区城镇居民收入和消费状况的分类研究
区域经济及社会发展水平的分析及全国区域经济综合评价
在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类
研究样品间的关系常用距离,研究指标间的关系常用相似系数。
1、距离
(1)欧式(Euclidian )距离
假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n
个点,则第i样品与第j样品之间的距离记为dij
(2)欧式距离平方(系统默认)
2、相似系数
相似系数常用的有:夹角余弦与相关系数
3、类间距离
最近距离、最远距离、类间平均法等
10.1 层次聚类分析(系统聚类)
10.1.1基本概念与方法
其原理是将n个变量(观察量)看成不同的n类,然后将性质最接近的两类合并为一类,再从这n-1类中找到最接近的两类加以合并,依此类推,直到所有的变量(观察量)被合为一类。
得到该结果后,使用者再根据具体的问题和聚类结果来决定应当分为几类。
其优点:可以对变量进行聚类(R型聚类),也可对观察量进行聚类(Q型聚类);变量可以是连续性变量,也可是分类变量。
计算距离的方法也较丰富。
其缺点:需反复计算距离,观察量太大或变量较多时,速度较慢。
10.1.2实例1
一、例题与数据E10-1a.sav(将北京地区18区县按中等职业教育发展水平的9个指标进行聚类,)
二、统计分析过程
Analyze→Classify→Hierarchical Cluster
Variables框:X1-X9
Label Cases by框:qx 标记变量,增强分析结果可读性,只在样本聚类时可用
☉Cases
10.1.3实例2
一、例题与数据E10-1a.sav(将北京地区18区县中等职业教育发展水平的9个指标进行聚类)
二、统计分析过程
Analyze→Classify→Hierarchical Cluster
Variables框:X1-X9
☉Variables
☉Inter:Pearson correlation适用于R型聚类(变量聚类)
层次聚类分析应注意以下几个问题:
1、变量选择:在聚类前,应从专业角度考虑尽量删去对分类不起作用的变量。
并非变量越多越好,因为无关变量的存在可能会影响真实分类的发现,甚至引起严重的错分。
原则上应只引入在不同类间有显著差别的变量。
2、共线性问题:在对观察量进行聚类时,如果变量间存在较强共线性,则可能会对结果有较大影响。
这就相当于某个变量的权重远远高于其他变量,需进行预分析,并进行剔除或提取主成分。
3、变量的标准化:如用于分析的各变量的变异程度相关非常大,则变异大的变量会影响距离计算结果(相当于其权重增大),在此情况下,应先对变量进行某种标准化处理(一般计算Z分数),然后聚类。
4、异常值:对聚类结果影响较大,目前尚无较好的解决方法,只能尽力避免。
5、分类数:一般分类数在2~8类较合适。
6、专业意义:统计学结论不是最终结论,一定要结合专业知识进行分析,对聚类分析来说,尤为如此。
使用不同的聚类分析方法可能得到的结果相关很大,单纯从统计学的角度是难以判断哪个结果是正确的。
10.2 快速聚类分析
10.2.1基本概念与方法
计算过程为:
(1)首先需要用户指定聚类的数量(如分成k类)
(2)由SPSS系统确定或由用户自行指定k个类别的初始类中心
(3)按就近原则将其余观测值向凝聚点凝集,这样得到一个初始分类方案,并计算出各个初始分类的中心位置(均值)
(4)使用计算出的中心位置重新进行聚类,反复循环,直到凝聚点位置改变很小(达到收敛标准)为止由此可看出:
快速聚类分析中,各观察量的位置在计算过程中不断改变。
其优点:(1)计算速度快,可有效处理多变量、大样本(n>100)数据。
(2)分析时可人为指定初始中心位置,有利于利用前人工作的成果
其缺点:(1)应用范围有限,要求用户事先知道需要将观察量分成几类
(2)只能对观察量进行聚类(Q型),而不能对变量进行聚类
(3)要求所使用的变量必须都是连续性变量,且要求变量具有多元正态性、方差齐性
10.2.2 例题与数据
E10-1a.sav(将北京地区18区县按照各自中等职业教育发展特点分成4类)
10.2.3统计分析过程
Analyze→Classify→K-means Cluster
Variables框:X1-X9
Label Cases by框:qx
Number of Clusters框:4要求分为4类
A table
结果说明:如方差分析结果表明,各类间的差异不显著,则需要尝试其他的分析方法,如分成3类或5类,而不是最开始的4类。
这说明快速聚类分析是尝试性的分析,有时需要反复快速聚类来最终确定
一个比较合理的聚类数目。