• 在饮料数据中,每种饮料都有四个变量值。这 就是四维空间点的问题了。
7
两个距离概念
• 按照远近程度来聚类需要明确两个概念: 一个是点和点之间的距离,一个是类和类 之间的距离。
• 点间距离有很多定义方式。最简单的是歐 氏距离。
• 当然还有一些和距离相反但起同样作用的 概念,比如相似性等,两点越相似度越大, 就相当于距离越短。
18
• 有了上面的点间距离和类间距离的概念, 就可以介绍聚类的方法了。这里介绍两个 简单的方法。
Cxy(2)rxy
i
(xi x)2 (yi y)2
i
i
当变量的测量值相差悬殊时,要先进行标准化. 如R为极差,
s 为标准差, 则标准化的数据为每个观测值减去均值后再除
以R或s. 当观测值大于0时, 有人采用Lance和Williams的距
离
1 | xi yi |
p i xi yi
10
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
3
k-means算法
k-means算法,也被称为k-均值或k-平均。 该算法首先随机地选择k个对象作为初始的k个簇的质心; 然后对剩余的每个对象,根据其与各个质心的距离,将它赋 给最近的簇,然后重新计算每个簇的质心;这个过程不断重 复,直到准则函数收敛。通常采用的准则函数为平方误差和 准则函数,即 SSE(sum of the squared error),其定义如 下:
D 12
(xkx)'(xi x) DpqD 12D 1D 2
xk Gp G q
(中间距离, 可变平均法,可变法等可参考各书). 在用欧氏距离时, 有统一的递推公式