第六章 聚类分析
- 格式:ppt
- 大小:423.50 KB
- 文档页数:60
1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
《SPSS数据分析与应用》第6章聚类分析聚类分析是一种数据挖掘技术,用于将一组数据中的对象进行分类或分组。
其主要目标是将相似的对象放在同一组中,而将不相似的对象放在不同的组中,以便研究者能够更好地理解数据的结构和特征。
在《SPSS数据分析与应用》第6章中,聚类分析被详细地介绍了。
该章节主要包括以下内容:聚类分析的基本概念、聚类分析的步骤、聚类分析的常见算法以及聚类分析的应用。
聚类分析的基本概念是指将一组数据中的对象根据其相似性进行分组的过程。
相似性可以通过计算对象之间的距离或相似性度量来确定。
距离可以是欧氏距离、曼哈顿距离、切比雪夫距离等,而相似性度量可以是相关系数、余弦相似度等。
聚类分析的步骤包括:选择变量、选择聚类算法、设置聚类分析选项、运行聚类分析、解释和评估聚类结果。
其中,选择变量是指从原始数据中选择要参与聚类的变量;选择聚类算法是指选择适合研究问题的聚类算法,常见的有层次聚类、K均值聚类等;设置聚类分析选项是指设置聚类分析的参数,如距离度量、聚类方法等;运行聚类分析是指将设置好的聚类分析选项应用到原始数据中进行聚类分析;解释和评估聚类结果是指根据聚类分析的结果,对不同的聚类进行解释和评估。
聚类分析的常见算法有层次聚类和K均值聚类。
层次聚类是一种通过生成层次树状结构将数据分成不同的聚类的方法。
它可以分为凝聚法和分立法两种,其中凝聚法是自下而上的将对象进行合并,而分立法则是自上而下的将对象进行分割。
K均值聚类是一种迭代的聚类算法,它将数据划分为K个聚类,每个聚类中的对象与其他聚类中的对象的差异最小。
聚类分析的应用非常广泛,它可以用于市场分割、群体分析、图像分析等领域。
在市场分割中,聚类分析可以根据消费者的属性和行为将市场细分为不同的目标市场,以便企业能够更好地满足不同目标市场的需求;在群体分析中,聚类分析可以将相似的个体划分为同一个群体,以便研究者能够更好地理解不同群体的特征和行为规律;在图像分析中,聚类分析可以将图像中的像素根据其颜色和亮度进行分组,以便研究者能够更好地理解图像的结构和特征。
聚类分析在实际工作中,我们经常遇到分类问题。
若事先已经建立类别,则使用判别分析,若事先没有建立类别,则使用聚类分析。
聚类分析主要是研究在事先没有分类的情况下,如何将样本归类的方法。
聚类分析的内容包含十分广泛,有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法。
在Matlab 软件包中,主要使用系统聚类法。
系统聚类法是聚类分析中应用最为广泛的一种方法。
它的基本原理是:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,如此重复进行,直到所有的样品都合成一类。
衡量亲疏程度的指标有两类:距离、相似系数。
(1)常用距离 ①欧氏距离假设有两个n 维样本()n x x x x 112111,,,⋅⋅⋅=和()n x x x x 222212,,,⋅⋅⋅=,则它们的欧氏距离为:()()∑=-=nj j jx xx x d 122121,②标准化欧氏距离假设有两个n 维样本()n x x x x 112111,,,⋅⋅⋅=和()n x x x x 222212,,,⋅⋅⋅=,则它们的标准化欧氏距离为:()()()Tx x D x x x x sd 2112121,--=-其中,D 表示m 个样本的方差矩阵:()22221,,,m diagonal D σσσ⋅⋅⋅=,其中2jσ表示第j 个样本的方差。
③马氏距离假设共有n 个指标,第i 个指标共测得m 个数据(要求n m >):⎪⎪⎪⎪⎪⎭⎫⎝⎛⋅⋅⋅=im i i i x x x x 21于是,我们得到n m ⨯阶的数据矩阵()n x x x X ,,,21⋅⋅⋅=,每一行是一个样本数据。
n m ⨯阶数据矩阵X 的n n ⨯阶协方差矩阵记作()X Cov 。
两个n 维样本()n x x x x 112111,,,⋅⋅⋅=和()n x x x x 222212,,,⋅⋅⋅=的马氏距离如下:()()()()()T x x X Cov x x x x mahal2112121,--=-马氏距离考虑了各个指标量纲的标准化,是对其它几种距离的改进。