第三章 聚类分析 多元统计分析课件
- 格式:ppt
- 大小:2.47 MB
- 文档页数:112
多元统计分析-聚类分析聚类分析是⼀个迭代的过程对于n个p维数据,我们最开始将他们分为n组每次迭代将距离最近的两组合并成⼀组若给出需要聚成k类,则迭代到k类是,停⽌计算初始情况的距离矩阵⼀般⽤马⽒距离或欧式距离个⼈认为考试只考 1,2⽐较有⽤的⽅法是3,4,5,8最喜欢第8种距离的计算 欧式距离 距离的⼆范数 马⽒距离 对于X1, X2均属于N(u, Σ) X1,X2的距离为 (X1 - X2) / sqrt(Σ)那么不同的聚类⽅法其实也就是不同的计算类间距离的⽅法1.最短距离法 计算两组间距离时,将两组间距离最短的元素作为两组间的距离2.最长距离法 将两组间最长的距离作为两组间的距离3.中间距离法 将G p,G q合并成为G r 计算G r与G k的距离时使⽤如下公式 D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq β是提前给定的超参数-0.25<=β<=04.重⼼法 每⼀组都可以看成⼀组多为空间中点的集合,计算组间距离时,可使⽤这两组点的重⼼之间的距离作为类间距离 若使⽤的是欧⽒距离 那么有如下计算公式 D2kr = n p/n r * D2kp + n q/n r * D2kq - (n p*n q / n r*n r ) * D2pq5.类平均法 两组之间的距离 = 组间每两个样本距离平⽅的平均值开根号 表达式为D2kr = n p/n r * D2kp + n q/n r * D2kq6.可变类平均法 可以反映合并的两类的距离的影响 表达式为D2kr = n p/n r *(1- β) * D2kp + n q/n r *(1- β) * D2kq + β*D2pq 0<=β<17.可变法 D2kr = (1- β)/2 * (D2kp + D2kq) + β*D2pq8.离差平⽅和法 这个⽅法⽐较实⽤ 就是计算两类距离的话,就计算,如果将他们两类合在⼀起之后的离差平⽅和 因为若两类本⾝就是⼀类,和本⾝不是⼀类,他们的离差平⽅和相差较⼤ 离差平⽅和:类中每个元素与这⼀类中的均值距离的平⽅之和 若统⼀成之前的公式就是 D2kr = (n k + n p)/(n r + n k) * D2kp + (n k + n q)/(n r + n k) -(n k)/(n r + n k) * * D2pq⼀些性质 除了中间距离法之外,其他的所有聚类⽅法都具有单调性 单调性就是指每次聚类搞掉的距离递增 空间的浓缩和扩张 D(A)>=D(B) 表⽰A矩阵中的每个元素都不⼩于B D(短) <= D(平) <= D(长) D(短,平) <= 0 D(长,平) >= 0 中间距离法⽆法判断。