第7章 聚类分析(楷体字2014) (1)
- 格式:ppt
- 大小:3.34 MB
- 文档页数:148
聚类分析(一)聚类分析基本概念(1)有若干个变量(或指标),例3-1的2个变量是样本均值和样本标准差;例3-2的变量是对式样、图案、颜色、材料的态度;例3-3的变量是销售增长、销售利润和新客户销售额;例3-4的变量是出生率、死亡率和婴儿死亡率;…。
这些变量称为自变量或聚类变量。
(2)有若干次观测,每次观测值由若干个数值组成,每次观测值称为1个个体或1个样品:例3-1其观测次数共有4次(甲、乙、丙、丁),其观测值都是2个值组成:第1次观测(第1个样品)是向量,第2次观测(第2个样品)是,……。
例3-2有5次观测(5位顾客),每人4项指标;例3-3、3-4、3-5,的变量各有50、97、39次观测值;而例3-6将许多次原始观测整理为协方差阵,并未提供原始观测数据。
(3)要求分类(或分组):例3-3、3-4要求把观测值分为3类,而例3-1和例3-2则不限定观测值分为几类;例3-1、3-2、3-3、3-4要求按观测值分类,而例3-5,3-6要求按变量分类。
因为是把大量的样品变为少量的类,通常这种分类称为聚类。
(二)聚类原理1)聚类原则选定观测值(点)间距离,类间距离,按照距离最近两类合并在一起的原则合并。
(也有用相似远离)。
常用聚类方法分为:(1)系统聚类MINITAB译为观测值聚类(得到谱系图或树状图)(2)动态聚类MINITAB译为K均值聚类。
可由统计>多变量>观测值聚类,统计>多变量>K均值聚类分别进入。
2)常用点间距离(距离度量)有时先把数据标准化再聚类以免单位影响,例如x1观测值3,2,1,0,-1;x2取值30,20,10,0,-10。
X1均值1,样本标准差;将x1观测值减去平均值1,除以,得到,,,,;,,,,是3,2,1,0,-1的标准化。
X2标准化后也得到,,,,。
标准化后的数与单位无关。
系统聚类从“统计>多变量>观测值聚类”进入观测值聚类框;点间距离,类间距离根据情况选取。
1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,类内部个体特征具有相似性,不同类间个体特征的差异性较大。
没有先验知识是指没有事先指定分类标准。
亲疏程度是指各变量取之上的总体差异程度。
对亲疏程度的测量一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。
相似程度通常用简单相关系数或等级相关系数。
差异程度通常计算某种距离来测度。
距离公式:①欧氏距离(Euclidean distance )(),EUCLID x y =②平方欧氏距离(Squared Euclidean distance )()()21,ki i i SEUCLID x y x y ==-∑③切比雪夫(Chebychev )距离(),max i i CHEBYCHEV x y x y =-④布洛克(Block )距离()1,ki i i BLOCK x y x y ==-∑⑤明考斯基(Minkowski )距离(),MINKOWSKI x y =⑥夹角余弦定理(Cosine )距离()()2,ki i x y COSINE x y =∑⑦用户自定义(Customized )距离(),CUSTOMIZED x y =在数据类型不同的情况下,个体间的距离计算也有相应的不同。
主要有: 定距型(Interval )计数变量(Count ) 二值变量(Binary )在计数变量时,有卡方距离和Phi 方距离 ①卡方距离(Chi-Square measure )(),CHISQ x y =②Phi 方距离(Phi-Square measure )(),PHISQ x y =二值变量时,有简单匹配系数和雅科比系数 ①简单匹配系数(Simple Matching )(),S x y a b c d =+++②雅科比系数(Jaccard )(),b cJ x y a b c+=++聚类分析的应注意的几点:1.变量的选择:所选择的变量应符合聚类的要求(即指标体系要符合要求)2.数量级的问题:变量之间不应该有数量级上的差异。