间中两点间的距离公式。 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的
欧氏距离:
聚类的相似性度量
2. 曼哈顿距离(Manhattan Distance) 想象你在曼哈顿要从一个十字路口开车到另外一个十字
路口,驾驶距离是两点间的直线距离吗?显然不是,除非 你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”, 也称为城市街区距离(City Block distance)。 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼 哈顿距离
密度聚类——DBSCAN
3)密度直达:如果xi位于xj的ε-邻域中,且xj是核心对象,则称xi由xj密 度直达。注意反之不一定成立, 除非且xi也是核心对象。
4)密度可达:对于xi和xj,如果存在样本序列p1,p2,...,pT满足 p1=xi,pT=xj且pt+1由pt密度直达,则称xj由xi密度可达。密度可达满足传递 性。此时序列中的传递样本p1,p2,...,pT−1均为核心对象,因为只有核心 对象才能使其他样本密度直达。 5)密度相连:对于xi和xj,如果存在核心对象样本xk,使xi和xj均由xk密度 可达,则称xi和xj密度相连。
什么是聚类?
• “物以聚类,人以群分” • 所谓聚类,就是将相似的事物聚集在一 起,而将不相似
的事物划分到不同的类别的过程,是数据分析之中十分 重要的一种手段。
什么是聚类?
•在图像分析中,人们希望将图像分割成具有类似性质的 区域 •在文本处理中,人们希望发现具有相同主题的文本子集 •在顾客行为分析中,人们希望发现消费方式类似的顾客 群,以便制订有针对性的客户管理方式和提高营销效率
G1
G2