多元统计分析
——基于R语言
中国人民大学:何晓群
苏州大学:马学俊
03
聚类分析
➢学习目标:
1.了解适合用聚类分析解决的问题;
2.理解对象之间的相似性是如何测量的;
3.区别不同的距离;
4.区分不同的聚类方法及其相应的应用;
5.理解如何选择类的个数;
6.简述聚类分析的局限。
3.1 聚类分析的基本思想
3.1.1 目的
的关系越密切; 的绝对值越接近0,表示指标和指标的关系越疏远。对于间隔尺度,常用的
相似系数有夹角余弦和相关系数。
(1)夹角余弦:指标向量 1 , 2 , … , 和 1 , 2 , … , 之间的夹角余弦
ij 1 =
间隔尺度定义
σ=1
+ )个样品,它们的重心用ത , ത , ത 表示,则
1
ത = ( ത + ത )
某一类 的中心为ത ,它与新类 的距离为2 (, ) = (ത − ത )’ (ത −ത ),经证明重心法的递推
公式为:
聚类分析不仅可以用来对样品进行分类,而且可以用来对变量进行分类。对样品的分类
常称为型聚类分析,对变量的分类常称为型聚类分析。与多元分析的其他方法相比,
聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许多实际问题,所
以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。
和ഥ
间距离。
(5)离差平方和法: = σ∈ ( −ത )′ ( − ത ) , = σ∈ ( −ത )′ ( − ത ) ,
′
+ = σ∈ ⊔ ( −)ҧ ( − ),