第八章聚类分析
- 格式:ppt
- 大小:170.50 KB
- 文档页数:20
1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
第8章聚类分析与判别分析分类学是人类认识世界的基础科学。
聚类分析和判别分析是研究事物分类的基本方法。
聚类分析聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。
聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。
根据分类对象的不同分为样品聚类和变量聚类。
1.样品聚类样品聚类在统计学中又称为Q型聚类。
用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。
是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。
样品聚类是进行判别分析之前的必要工作。
根据样品聚类的结果进行判别分析,得出判别函数,进而对其他研究对象属于哪一类作出判断。
例如在选拔少年运动员时首先要根据少年的身体形态、身体素质、心理素质、生理功能的各种指标(变量)进行测试,得到各种指标的测试值(变量值),据此对少年进行分类。
根据分类结果再求得出选材的判别函数,作为选材的依据。
2.变量聚类变量聚类在统计学中又称为R型聚类。
反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。
由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。
例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。
因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。
判别分析判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。
在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。
判别分析与聚类分析的不同在于判别分析要求已知一系列反映事物特征的数值变量值及其分类变量值。
分类命令的功能其中包括:(1)K-Means Cluster进行快速聚类的过程。
(略)(2)Hierarchical Cluster进行样本聚类和变量聚类的过程。
聚类分析原理及步骤
一,聚类分析概述
聚类分析是一种常用的数据挖掘方法,它将具有相似特征的样本归为
一类,根据彼此间的相似性(相似度)将样本准确地分组为多个类簇,其中
每个类簇都具有一定的相似性。
聚类分析是半监督学习(semi-supervised learning)的一种,半监督学习的核心思想是使用未标记的数据,即在训
练样本中搜集的数据,以及有限的标记数据,来学习模型。
聚类分析是实际应用中最为常用的数据挖掘算法之一,因为它可以根
据历史或当前的数据状况,帮助组织做出决策,如商业分析,市场分析,
决策支持,客户分类,医学诊断,质量控制等等,都可以使用它。
二,聚类分析原理
聚类分析的本质是用其中一种相似性度量方法将客户的属性连接起来,从而将客户分组,划分出几个客户类型,这样就可以进行客户分类、客户
细分、客户关系管理等,更好地实现客户管理。
聚类分析的原理是建立在相似性和距离等度量概念之上:通过对比一
组数据中不同对象之间的距离或相似性,从而将它们分成不同的类簇,类
簇之间的距离越近,则它们之间的相似性越大;类簇之间的距离越远,则
它们之间的相似性越小。
聚类分析的原理分为两类,一类是基于距离的聚类。
聚类分析(ClusterAnalysis)(一)什么是聚类聚类,将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程。
是将复杂数据简化为少数类别的一种手段。
(二)聚类的基本思想:•有大量的样本。
•假定研究的样本之间存在程度不同的相似性,可以分为几类;相同类别的样本相似度高,不同类别的样本相似度差。
•用一些数据指标来描述样本的若干属性,构成向量。
•用某种方法度量样本之间或者类别之间的相似性(或称距离),依据距离来进行分类。
•根据分类来研究各类样本的共性,找出规律。
(三)聚类的应用•商业领域-识别顾客购买模式,预测下一次购买行为,淘宝商品推荐等。
•金融领域-股票市场板块分析•安全和军事领域•o破解GPS伪随机干扰码和北斗系统民用版的展频编码密码o识别论坛马甲和僵尸粉o追溯网络谣言的源头•生物领域•o进化树构建o实验对象的分类o大规模组学数据的挖掘o临床诊断标准•机器学习•o人工智能(四)聚类的对象设有m个样本单位,每个样本测的n项指标(变量),原始资料矩阵:image.png指标的选择非常重要:必要性要求:和聚类分析的目的密切相关,并不是越多越好代表性要求:反映要分类变量的特征区分度要求:在不同研究对象类别上的值有明显的差异独立性要求:变量之间不能高度相关(儿童生长身高和体重非常相关)散布性要求:最好在值域范围内分布不太集中(五)数据标准化在各种标准量度值scale差异过大时,或数据不符合正态分布时,可能需要进行数据标准化。
(1)总和标准化。
分别求出各聚类指标所对应的数据的总和,以各指标的数据除以该指标的数据的总和。
image.png这种标准化方法所得到的的新数据满足:image.png(2)标准差标准化,即:image.png这种标准化方法得到的新数据,各指标的平均值为0,标准差为1,即有:image.pngimage.pngPS:比如说大家的身高差异(3)极大值标准差经过这种标准化所得到的新数据,各指标的极大值为1,其余各数值小于1.image.pngPS:课程难易,成绩高低。
第八章聚类分析聚类分析也称为点群分析或簇群分析,是解决分类问题的多元统计方法。
分类问题是地质及其他自然科学工作者经常遇到的重要问题之一。
例如,生物种属划分岩石类型划分﹑矿床类型划分﹑矿石类型划分﹑地球化学元素组合划分﹑化探异常识别等方面,都存在分类问题。
特别是勘查地球化学工作者,利用聚类分析可以从成千上万错综复杂的数据中寻找出一目了然的元素组合关系及其组合类型;可以将几十个甚至上百个异常归并为若干个类型,以便进一步识别各类的性质,排出各类的重点,指导详查。
另外,聚类分析对识别多重总体或异点有时也用的,它使我们可以用较有代表性的样本来研究单一总体特征。
作为对应分析和聚类分析的一种结合,我们提出的对应聚类分析本章最后被介绍了。
§1聚类分析的基本问题先看一个假想的简例,然后引出与聚类分析有关的若干基本问题。
一﹑简例设有5个性质不明的岩体露头,分别测的Cu的含量(x1)和电阻率(x2)两个变量,得5个样品观测值为(x11,x12),i=1,2,…,5问题是要根据以上研究这5个岩体间的类型关系。
这就是一个聚类分析问题。
显然,这是二维问题,用散点图研究最方便,设用上述5个样品值作出的散点图为图8-1,它表示了二维变量空间的5个样品点。
根据这5个点距离远近关系,相应的5个岩体间的互相关系一目了然。
1﹑2号岩体关系最亲近,可作为一类;3﹑4﹑5号岩体关系也相对亲近,可作为另一类。
一类与另一类间的距离比各类内部点间距离要大的多。
但是,如果我们对上述5个岩体各观测了多个变量。
则用散点图就无法表示它们的关系了。
图8-1 散点图图8-2 谱系图与图8-1对应,图8-2是利用聚类分析方法作出的5个岩体的分类关系图,称为分类谱系图,同样是用上述两个变量作出的。
尽管现在我们还不知道制作的具体过程,但有一点是明确的,即谱系图中所表现的个样品点间的距离大小关系与散点图的表现效果一致,也分出了两种类型。
谱系图的优点是利用平面图型可反映多维空间中点的关系。