聚类分析的思路和方法

  • 格式:ppt
  • 大小:1018.50 KB
  • 文档页数:79

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

粘土含量、有机物、 pH 值 5 个变量的数据对 这20个土壤样本进行分类。
64
系统聚类
间距离。
34
重心距离:均值点的距离

x1 , y1

x2 , y2
35
中位数法(Median clustering)
以两类变量中位数之间的距离作为类间距离。
36
离差平方和法(Ward’s method)
离差平方和法是由Ward提出的,因此也称为
Ward 方法。具体做法是,先将 n 个个体各自 成一类,然后每次减少一类,随着类与类的 不断聚合,类内的离差平方和必然不断增大, 选择使离差平方和增加最小的两类合并,直 到所有的个体归为一类为止。

生物学领域
推导植物和动物的分类;
对基因分类,获得对种群的认识

数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定
的类做进一步的研究
7
例 对10位应聘者做智能检验。3项指标X,Y
和Z分别表示数学推理能力、空间想象能力和语
言理解能力。得分如下,选择合适的统计方法 对应聘者进行分类。
中位数法(Median clustering)
离差平方和法(Ward’s method)
25
最短距离法(Nearest Neighbor)
以两类中距离最近的两个个体之间的距离作
为类间距离。
26
x11• x12•
d12
x21• x22•
27
最长距离法(Further Neighbor)
以两类中距离最远的两个个体之间的距离作
挖掘有价值的客户,并制定相应的促销策略:
对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发传
单命中率更高,成本更低!
5
聚类分析无处不在

谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,
找出“黄金客户”!
这样银行可以…… 制定更具吸引力的服务,留住客户!比如:

基本思想是认为研究的样本或变量之间存在着程度不同的相
似性(亲疏关系)。 根据一批样本的多个观测指标,找出一些能够度量样本或变 量之间相似程度的统计量,以这些统计量作为分类的依据, 把一些相似程度较大的样本(或指标)聚合为一类,把另外 一些相似程度较大的样本(或指标)聚合为一类,直到把所 有的样本(或指标)都聚合完毕,形成一个由小到大的分类 系统。
q dij ( xik x jk ) k 1
p
1
q
4.
d ij L
k 1
p
xik x jk xik x jk
1 2
5.
马氏距离
1 dij M xi x j S xi x j
14
1.
绝对距离(Block距离)
dij 1 xik x jk
k 1 p
2.
欧氏距离(Euclidean distance)
2 d ij 2 ( xik x jk ) k 1
p 1 2
15
3.
明考斯基距离(Minkowski) 兰氏距离
37
主要步骤
1. 选择变量 (1)和聚类分析的目的密切相关 (2)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关 2. 数据变换处理 为了消除各指标量纲的影响,需要对原始数 据进行必要的变换处理。
38
3. 计算聚类统计量 聚类统计量是根据变换以后的数据计算得 到的一个新数据,它用于表明各样本或变量 间的关系密切程度。常用的统计量有距离和 相似系数两大类。
聚类。 系统聚类:又称为层次聚类( hierarchical cluster),是指聚类过程是按照一定层次进 行的。 K均值聚类( K-means Cluster )
22
层次聚类

基本思想: 在聚类分析的开始,每个样本(或变量)自成一类; 然后,按照某种方法度量所有样本(或变量)之间的亲疏程 度,并把最相似的样本(或变量)首先聚成一小类;接下来, 度量剩余的样本(或变量)和小类间的亲疏程度,并将当前 最接近的样本(或变量)与小类聚成一类;再接下来,再度 量剩余的样本(或变量)和小类间的亲疏程度,并将当前最 接近的样本(或变量)与小类聚成一类;如此反复,直到所 有样本(或变量)聚成一类为止。
为类间距离。
28
• x11• •
x21•
d12
• • •

29
组间平均连接法 (Between-group linkage)
以两类个体两两之间距离的平均数作为类间
距离。
30
组间平均连接法(Between-group Linkage)




• •
d1 d 2 9
d9
31
组内平均连接法 (Within-group linkage)
Data—Split file
55
56
57
K均值聚类

Iterate and classify:不断计算新的类中心,替换旧的类中心。 Classify only:根据初始类中心进行聚类,不改变类中心。
58
59
60
61
62
63
例子2:土壤样本聚类分析
有 20 个土壤样本,利用含沙量、淤泥含量、
现代化指数的数据,对地区进行聚类分析。
数据中包括6类指数:综合指数、社会结构指
数、经济与技术发展指数、人口素质指数、 生活质量指数、法制与治安指数。
45
系统聚类
46
schedule:输出聚类过程表 Proximity matrix :输出各个体之间的距离 矩阵 Cluster Membership:每个个体类别归属表
23
系统聚类法不仅需要度量个体与个体之间的
距离,还要度量类与类之间的距离。类间距
离被度量出来之后,距离最小的两个小类将
首先被合并成为一类。由类间距离定义的不
同产生了不同的系统聚类法。
24
类间距离的度量方法


最短距离法(Nearest Neighbor)
最长距离法(Further Neighbor) 组间平均连接法(Between-group linkage) 组内平均连接法(Within-group linkage) 重心法(Centroid clustering)
一定额度和期限的免息透支服务! 赠送百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
6
聚类的应用领域

经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买
模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
应聘者 X Y Z 1 28 29 28 2 18 23 18 3 11 22 16 4 21 23 22 5 26 29 26 6 20 23 22 7 16 22 22 8 14 23 24 9 24 29 24 10 22 27 24
8
9
10
聚类分析根据一批样本的许多观 测指标,按照一定的数学公式具体地 计算一些样本或一些指标的相似程度, 把相似的样本或指标归为一类,把不 相似的归为一类。
12
设有n个样本单位,每个样本测得p项指标
(变量),原始资料矩阵为:
x11 x 21 X xn1 x12 x22 xn 2 x1 p x2 p xnp
13
定比变量的聚类统计量:距离统计量
绝对距离
欧式距离 明考斯基距离 兰氏距离 马氏距离 切氏距离
将两类个体合并为一类后,以合并后类中所
有个体之间的平均距离作为类间距离。
32
组内平均连接法(Within-group Linkage)
d1 d 2 d3 d 4 d5 d6 6
x11• x12•
x21• x22•
33
重心法(Centroid clustering)
以两类变量均值(重心)之间的距离作为类
43
聚类分析终止的条件
迭代次数:当目前的迭代次数等于指定的迭
代次数(SPSS默认为10)时终止迭代。
类中心点偏移程度:新确定的类中心点距上
个类中心点的最大偏移量小于等于指定的量 (SPSS默认为0)时终止聚类。
44
例子1:31个省区小康和现代化指数 的聚类分析
利用2001年全国 31个省市自治区各类小康和
39
4. 聚类
主要涉及两个问题: (1)选择聚类的方法 (2)确定形成的类数
40
5. 聚类结果的解释和证实
对聚类结果进行解释是希望对各个类的特征进行准 确的描述,给每类起一个合适的名称。这一步可以借助 各种描述性统计量进行分析,通常的做法是计算各类在 各聚类变量上的均值,对均值进行比较,还可以解释各 类产生的原因。
聚类分析 Cluster Analysis
2016/3/6
1
什么是聚类分析?

聚类分析是根据“物以类聚”的道理,对样本或指
标进行分类的一种多元统计分析方法,它们讨论的
对象是大量的样本,要求能合理地按各自的特性进 行合理的分类,没有任何模式可供参考或依循,即 在没有先验知识的情况下进行的。
2
聚类分析的基本思想
19
二值(Binary)变量的聚类统计量
20
聚类的类型
根据聚类对象的不同,分为Q型聚类和R型聚
类。
Q型聚类:样本之间的聚类即Q型聚类分析,
则常用距离来测度样本之间的亲疏程度。
R型聚类:变量之间的聚类即 R型聚类分析,
常用相似系数来测度变量之间的亲疏程度。
21
聚类的类型
根据聚类方法的不同分为系统聚类和 K 均值
6.
切比雪夫距离(Chebychev)
dij () max xik x jk
1 k p
16
17
定比变量的聚类统计量:相似系数统计量
1.
相关系数
rij
(x
k 1 n k 1
n
ki
xi )(xkj x j )
2 2 ( x x ) kj j k 1 n
11
样本或变量间亲疏程度的测度

研究样本或变量的亲疏程度的数量指标有两种:

一种叫 相似系数 ,性质越接近的变量或样本,它 们的相似系数越接近于 1 或一 l ,而彼此无关的变量 或样本它们的相似系数则越接近于 0,相似的为一类, 不相似的为不同类。

另一种叫 距离 ,它是将每一个样本看作 p 维空间的 一个点,并用某种度量测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类。
41
k-均值聚类
K-means Cluster
K-均值聚类也叫快速聚类 要求事先确定分类数 运算速度快(特别是对于大样本)
42
k-均值聚类
K-means Cluster
系统首先选择k个聚类中心,根据其他观测值
与聚类中心的距离远近,将所有的观测值分 成 k类;再将 k个类的中心(均值)作为新的 聚类中心,重新按照距离进行分类;……, 这样一直迭代下去,直到达到指定的迭代次 数或达到中止迭代的判据要求时,聚类过程 结束。
3

聚类分析无处不在

谁经常光顾商店,谁买什么东西,买多少?
按会员卡记录的光临次数、光临时间、性别、年龄、 职业、购物种类、金额等变量分类


这样商店可以……
识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉, 习惯周末时一次性大采购) 刻画不同的客户群的特征
4

聚类分析无处不在
如,对经常购买酸奶的客户
Agglomeration
47
Dendrogram:聚类树形图 Icicle:冰柱图
48
49Βιβλιοθήκη Baidu
50
51
52
53
如果分为3类
第1类:北京、上海、天津
第2类:江苏、山东、辽宁、浙江、广东、福
建、黑龙江、吉林
第3类:其余省区
54
输出各组的统计信息
在数据文件中保存分 类信息
( xki xi )
n
2.
夹角余弦
Cij
x
k 1 n
ki kj n 1 2
x
2 2 xki xkj k 1 k 1
18
计数变量(Count)(离散变量)的聚类统计量
对于计数变量或离散变量,可用于度量样本
(或变量)之间的相似性或不相似性程度的 统计量主要有卡方测度(Chi-square measure) 和Phi方测度(Phi-square measure)。