例如:下表是一个简单聚类例子,包含了9个 顾客的信息,分三类,两个特征值(数量,价 格)
类1:购少量高价商品,类2:购大量的高价品, 类3:购小量的低价商品。
聚类是一个非常难的问题,因为在一个n维的 样本空间数据可以以不同的形状和大小揭示 类。
下面基于欧几里得二维空间的聚类过程的一 个示例。
描述。聚类结果是类和它的特征或描述。
规范化的描述有以下几种图式: 1.通过它们的重心或类中关系远的(边界) 点表示n维空间的一类点。 2. 使用聚类树中节点图形化地表示一个类。 3.使用样本属性的逻辑表达式表示类。
现有的用于数据挖掘的聚类方法分为 四类:分割法,分层法,密度法和网格法。
分割聚类法一般是通过优化一个评价 函数把数据分割成K个部分,主要有两 种方法:K-means聚类法和Kmedoid聚类法.K-means法在处理海 量数据库方面很有效,特别是对数值 属性处理。K-prototypes是结合Kmeans和K-modiod的优点,可以同 时处理数值与符号属性和聚类法
6.2 相似度的度量
为了规范化相似度的度量标准,我们有如下 约定:在样本空间X的聚类算法中,用一个 数据向量表示一个样本x(或特征向量,观察 值)。假定每一个样本xi∈X,i=1,…,n都用向 量xi={xi1,xi2,…xim}来表示,m的值是样本 的维数(特征),n是一个样本数。
如果某个样本xi的单个分量xij是一个特征或 属性值,那么每一组成xij,j=1,..,m是一个 域Pj。则每一个特征的值的取值范围。
值得注意的是:没有哪一种聚类技术对揭示 多维数据集中的构造种类是普遍适用的。使 用者对问题的理解和与其相应的数据类型是 选择合适方法的最好标准,大多数聚类算法 基于下面两种常见方法: