- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
或按变量聚类。
4
聚类分析与判别分析的区别和联系
▪ 区别:聚类分析一般寻求客观的分类方法。在进 行聚类之前,对总体到底有几类类型未知(究竟 分几类较为合适,需从计算中探索调整)。 判别分析则是在总体类型划分已知,在各总 体分布或来自总体训练样本基础上,对当前的新 样本判定它们属于哪个总体。
▪ 联系:当我们对研究的多元数据的特征不熟悉,就 要先进行聚类分析,才能考虑判别分析问题。
7
样品间的相似性度量-距离
▪ 设 d ( xi , x是j ) 样品 之x间i , 的x j 距离,一般要求
它满足下列条件:
1)d(xi,xj)0 且 d(xi,xj)0当 且 仅 当 xi= xj; 2)d(xi,xj)d(xj,xi); 3)d(xi,xj)d(xj,xk)d(xk,xj).
在聚类分析中,有些距离不满足3),我们在广 义上仍称它为距离。
5
聚类分析的方法
▪ 重点介绍 快速聚类法 谱系聚类法
6
样品间的相似性度量-距离
▪ 设有n个样品的多元观测数据:
x i (x i1 ,x i2 , ,x ip )T , i 1 ,2 , ,n .
每个样品可看成p元空间的一个点,n个样品组 成p元空间的n个点。
我们用各点之间的距离来衡量各种样品之间的 相似程度 。
8
聚类分析中的常用距离
1
▪ 欧式距离
d(xi,xj)
p
(xik
xjk)22.
(6.1)
k1
令dij d(xi,xj),D(dij)pp形成一个距离矩阵
0 d12 d21 0 dn1 dn2
其中 d ij d ji .
d1n
d
2n
,
0
(6.2)
9
例 6.1
▪ 为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇 居民生活消费规律,需要利用调查资料对这5个省分类。 指标变量共8个,含义如下: x1:人均粮食支出, x2:人均副食支出, x3:人均烟酒茶支出, x4:人均其他副食支出, x5:人均衣着商品支出, x5:人均日用品支出, x7:人均燃料支出, x8:人均非商品支出。 数据资料示于表6.2。将每个省份的数据看成一个样 品,计算样品之间的欧式距离矩阵。
河南 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76
甘肃 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35
青海 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81
11
例 6.1
▪ 解 :以1,2,3,4,5分别表示辽宁、浙江、河 南、甘肃、青海5个省(样品)。计算每两个样 品之间的欧式距离:dij,i,j1,2,3,4,5.
3
聚类分析的基本思想及意义
▪ 多元数据形成数
据矩阵,在这个
样品 指标
x1 x2
xj
xn
数据矩阵,共
有n个样品
x1,x2, ,xn
(列向),p个指
x1 x2
x11 x21 x12 x22
x j1 x j2
xn1 xn2
标(行向)。聚
类分析有两种类 型:按样品聚类
x p x1 p x2 p
x jp
xnp
10
例 6.1
表6.2 1991年5省城镇居民月均消费(单位:元/人)
指 标 x1
省份
辽宁 7.90
x2 x3 39.77 8.49
x4 x5 x6 x7 12.94 19.27 11.05 2.04
x8 13.29
浙江 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87
关于聚类分析
1
聚类分析的基本思想及意义
▪ 聚类分析是研究分类问题的多元数据分析方法 ▪ 聚类分析是数值分类学的一分支 ▪ 在经济学中有广泛的应用背景
城镇居民收入分析 产品质量指标 等等
2
聚类分析的基本思想及意义
▪ 基本思想:在样品之间定义距离,在变量之间定义 相似系数,距离或相似系数代表样品或变量之间 的相似程度。按相似程度的大小,将样品(或变 量)逐一分类,关系密切的类聚集到一个小的分 类单位,然后逐步扩大,使得关系疏远的聚合到 一个大的分类单位,直到所有的样品(或变量) 都聚集完毕,形成一个表示亲疏关系的谱系图, 依次按照某些要求对样品(或变量)进行分类。
,
13.12 24.06 2.20 0
12.80 23.64 3.51 2.21 0
(因是对称矩阵,故只用下三角部分表示)
D中各元素数值的大小,反映了5个省消费水平的 接近程度。
13
聚类分析中的常用距离
▪ 绝对距离
p
d(xi,xj) xikxjk. (6.3)
k1
▪ Minkowski距离
1
p
mm
d(xi,xj) xikxjk , m1 (6.4)
k1
当 m 2,1时分别是欧式距离、绝对距离。
Minkowski距离又称 距离即绝L 对1 距离。
距离L,m 距离即L欧2 式距离,
14
聚类分析中的常用距离
▪ Chebyshev距离 d(xi,xj)m 1k a x pxikxjk. (6.5)
xk1 ni n1xik,sk2n1 1i n1(xikxk)2.
16
聚类分析中的常用距离
▪ 方差加权距离
1
p
d(xi,xj)
(xik
k1
sk2xjk)22.
(6.7)
对标准化数据
x
* ik
计算欧式距离时,即是方差
加权距离。
17
聚类分析中的常用距离
▪ 马氏距离
1
d (x i,xj) [(x i xj)TS 1 (x i xj)]2 (6 .8 )
Chebyshev距离是Minkowski距离当m时的
极限。
15
聚类分析中的常用距离
▪ 以上距离与各变量指标的量纲有关,为消除量纲 的影响,有时应先对数据进行标准化,然后用标 准化数据计算距离。标准化数据
其中
xi* kxiks kxk,i1 ,2 , ,n ;k1 ,2 , ,p . (6.6)
其中 S 是由样品 x1,x2, ,xn算得的协方差矩阵:
d12 d21 [(7.907.68)2 (39.7750.37)2
1
(13.2914.87)2]2 11.67, d23 d32 [(7.689.42)2 (50.3727.93)2
1
(14.879.76)2]2 24.63,
12
例 6.1
▪ 从而得到距离矩阵如下:
0
11.67 0
D 13.80 24.63 0