应用统计方法课件 7-2
- 格式:pps
- 大小:1.18 MB
- 文档页数:28
§2 系统聚类法系统聚类法是最常用的一种聚类方法,其基本思想是将样品各看成一类,然后定义类与类之间的距离,将距离最短的两类合并为一个新类,再计算新类与其它类之间的距离,将距离最短的两类合并为一个新类,如此下去,直到合并为一个大类为止。
一般步骤如下:(1)计算样品两两间的距离ij d ,记)()0(ij d D ;系统聚类法一般步骤如下:(1)计算样品两两间的距离ij d ,记)()0(ij d D ;(2)将每个样品各看成一类;(3)将距离最近的两类合并为一个新类; (4)计算新类与当前各类之间的距离。
若类的个数等于1,转(5),否则回到(3);(5)画聚类图;(6)决定类的个数和类。
一、最短距离法和最长距离法 用ij d 表示第i 个样品与第j 个样品间的距离。
设 ,,21G G ,为类,定义类与类之间的距离为两类中最近样品间的距离,即,min {}s tst ij i G j G D d ∈∈= (7-11) 用(7-11)作为距离标准的聚类法称为最短距离法。
如果将(7-11)改为,max {}s tst ij i G j G D d ∈∈=则由此导出的聚类法称为最长距离法。
聚类过程中要反复计算新类与当前类之间的距离,这可以通过递推公式来完成。
设聚类到某步将p G 和q G 合并为r G ,则类r G 与类k G 之间的距离为},min{qk pk rk D D D = (最短距离法) (7-13) },max {qk pk rk D D D = (最长距离法) (7-14)二、重心法与类平均法设s G 、t G 两类的重心分别为s X 、t X ,则两类间的距离定义为2/1)]()[(t s t s X X st X X X X d D ts -'-== (7-15) 以(7-15)作为距离标准的聚类法称为重心法。
设类p G 、q G 的重心分别为p X 、q X ,且各包含p n 、q n 个样品,k G 为另外一类,其重心为k X ,样品个数为k n ,将p G 、q G 并为新类r G ,其重心为r X ,样品个数为r q p n n n =+ˆ。
则新类r G 与k G 间的距离为)()(2r k r k kr X X X X D -'-=)()(2r k r k kr X X X X D -'-=由于)(1q q p p r r X n X n n X +=,所以)()(2r q q p p k r qq p p k kr n X n X n X n X n X n X D +-'+-=q k r q p k r pk k X X n n X X n n X X '-'-'=22)2(1222q q q q p q p p p p r X X n X X n n X X n n '+'+'+(p k k r n X X n '=(q k k r n X X n '+2(p q p p n n X X '-r q p n n n =+ˆ2kp D 2pq D 2D 2k p X X '-)p p X X '+2k q X X '-)q q X X '+2p q X X '-)q q X X '+2222pq r q r p kq r q kp r pkr D n n n n D n n D n n D -+=因此重心法的新类距离递推公式为(7-16)如果类与类之间的距离采用∑∈∈=ts G j G i ij t s st d n n D ,221 (7-17) 则由此导出的聚类法称为类平均法。
由(7-17)得)(1,2,22∑∑∈∈∈∈+=kq k p G j G i ij G j G i ij r k kr d d n n D 22kq q kp pD n n D n n +=于是类平均法的新类距离递推公式为222kq rq kp r p kr D n n D n n D += (7-18)三、离差平方和法 设p G 、q G 为两个类,重心分别为p X 、q X 。
对于类p G ,离差平方和为 )()(p i p i G i p X X X X D p -'-=∑∈类似地,有 )()(q i q i G i q X X X X D q -'-=∑∈)()(X X X X D i i G G i q p q p -'-=∑∈+ 其中∑∈+=q p G G i iq p X n n X 1定义类p G 与类q G 间的距离平方为 q p q p pq D D D D--=+2 (7-19) 则由此导出的聚类法称为离差平方和法。
)()(X X X X X X X X D p p i p p i G G i q p q p -+-'-+-=∑∈+ )()(p i p i G i X X X X p-'-=∑∈)()(p i p i G i X X X X q -'-+∑∈)()(X X X X p p i G G i q p -'-+∑∈ )()(p i p Gq G i X X X X p -'-+∑∈ )())((X X X X n n p p q p -'-++)()(p i p i G i p X X X X D q -'-+=∑∈)())((X X X X n n p p q p -'-+-由于 )(q p qp q p X X n n n X X -+=-∑∈+=q p G G i i q p X n n X 1qp q q p p n n X n X n X ++=q pq q p p q p p q p p n n X n X n n n X n n X X ++-++=-)()()(p i p i G i X X X X q-'-∑∈)()(p q q i p q q i G i X X X X X X X X q-+-'-+-=∑∈)()(q p q p q q X X X X n D -'-+=所以)()(q p q p q q p q p X X X X n D D D -'-++=+)()(2q p q p qp qX X X X n n n -'-+-q p D D +=)()(q p q p qp qp X X X X n n n n -'-++上页()()qp q p i p i p i G D D X X X X +∈'=+--∑)())((X X X X n n p p q p -'-+-)()(p i p i G i X X X X q-'-∑∈)()(q p q p q q X X X X n D -'-+=p q p q D D D +=+)()(q p q p qp qp X X X X n n n n -'-++)(q p qp qp X X n n n X X -+=-记)()()(2q p q p pq X X X X C D -'-=即)(2C D pq为重心法的距离平方,则)(22C D n n n n D pq qp qp pq += (7-20)由(7-16)得)]()()([2222C D n n n n C D n n C D n n n n n n D pq rq r p kq r q kp r p k r k r kr -++=222pqk r k kq k r qk kp k r pk D n n n D n n n n D n n n n +-+++++=因此离差平方和法的新类距离递推公式为 2222pq kr k kqk r qk kpk r p k krD n n n D n n n n D n n n n D +-+++++= (7-21)72222(716)p q p q kr kp kq pqr r r rnnn nD D D D nnn n=+--为了便于计算机程序的编制,上述五个递推公式可用统一的形式来表示。
||222222)(kq kp pq kq q kp p pq k D D D D D D -+++=γβαα (7-22)式中的p α、q α、β、γ为参数,它们对不同的方法取不同值,表7-1给出了上述五种方法参数的取值。
表7-1 系统聚类法参数表方法 p αq αβγ最短距离法 1/2 1/2 0 -1/2 最长距离法 1/21/21/2 重心法 r p n n / r q n n / p q αα-0 类平均法 r p n n /r q n n /0 0 离差平方和法kr k p n n n n ++kr k q n n n n ++kr kn n n +- 0例7-3 (续例7-2)设有六个样品,每个样品只有一个指标,分别是1、2、5、7、9、10。
试用重心法和离差平方和法进行分类。
解:(1)重心法:)()()(2r k r k kr X X X X C D -'-=,)(1q q p p rr X n X n n X +=首先计算距离矩阵2(0)D2(0)D 1G 2G 3G 4G 5G 6G 1G 0 2G 1 03G 16 9 04G 36 25 4 05G 64 49 16 4 06G 81 64 25 9 1 0由21G G 与,65G G 与合并为两个新类},{217G G G =,},{658G G G =。
然后计算87,G G 间以及它们与43,G G 间的距离,得相应的2(1)D 如下:2(1)D 7G 3G 4G 8G 217G G G = 03G 04G 0 658G G G = 0 由2(1)D 可得},{439G G G =。
得2(2)D 7G 9G 8G 7G 09G 08G 64 012.2530.2546420.25 6.2520.2512.25由2(2)D 可得},{9810G G G =。
710G G 与之间的距离 2)3(D 7G 10G 7G 010G 39.1 0最后合并为一类},,,,,{65432111G G G G G G G =。
上述聚类过程用聚类图表示为图9-4。
11=G 22=G 53=G 74=G 95=G 106=G0 1 2 3.5 图9-4(2)离差平方和法,)(22C D n n n n Dpqqp q p pq+=,q p q p pqD D D D --=+2首先计算距离矩阵2(0)D2(0)D 1G 2G 3G 4G 5G 6G 1G 0 2G 0.5 03G 8 4.5 04G 18 12.5 2 05G 32 24.5 8 2 06G 40.5 32 12.5 4.5 0.5 0将21G G 与,65G G 与合并为两个新类},{217G G G =,},{658G G G =。