(004,005) 26.91
(001,002) (003,004,005) (001,002) (003,004,0 05) 0 17.8 0
1 - 18
分层聚类
(五)说明
聚类分析包括:个案聚类和变量聚类两种。 聚类分析中的变量选择问题
聚类结果仅是所选定变量所具数据特点的反应. 变量应和聚类分析的目标密切相关(如;客户消费行为 用通话时长、通话时段、通话类型、通话流向等)
最长距离法(furthest neighbor):
——以上易受极端值影响 平均链锁法
两类之间的距离定义为两类个案之间距离的平均值。包括: 组间平均链锁法(between-groups linkage):只考虑两类间 个案的距离——较多采用 组内平均链锁法(within-groups linage):考虑所有个案 1 - 17 间的距离
分层聚类
以最短距离法为例的聚类过程:
001 001 002 003 0 7.07 17.8 0 22.2 0 002 003 (004,005)
(001,002) (001,002) 0 003 17.8
003
(004,005)
0 9.22 0
(004,005) 26.91 31.4 9.22 0
1-8
分层聚类
(二)“亲疏”程度的衡量 (1)衡量指标 相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离越近, 越“亲密”,聚成一类;距离越远,越“疏远 ”,分别属于不同的类 (2)衡量对象 个体间距离 个体和小类间、小类和小类间的距离
1-9
分层聚类
(三)定距型个体间的距离
雅科比(Jaccard)系数:适用二值变量