第八章-聚类分析
- 格式:ppt
- 大小:5.17 MB
- 文档页数:142
1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
SPSS统计分析第八章聚类分析与判别分析聚类分析与判别分析是SPSS统计分析中非常重要的两个方法。
聚类分析是寻找数据之间的相似性,将相似的数据划分为一个簇,从而实现对数据的归类和分组。
判别分析则是寻找数据之间的差异性,帮助我们理解不同因素对于数据的影响程度,从而实现对数据的分类预测。
首先,我们来介绍聚类分析。
聚类分析是根据数据之间的相似性进行归类的一种方法,通过度量数据之间的相似性,将相似的数据归为一类。
它在寻找数据内在组织结构和特点上具有很大的作用。
在SPSS中进行聚类分析的步骤如下:1.载入数据集:在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行聚类分析的数据集。
2.选择聚类变量:在"分析"->"分类"->"聚类"中,选择需要进行聚类分析的变量。
可以选择一个或多个变量作为聚类变量,决定了聚类的维度。
3.设置聚类参数:在设置参数的对话框中,可以选择使用不同的距离测度和聚类算法。
距离测度可以选择欧氏距离、曼哈顿距离、切比雪夫距离等,而聚类算法可以选择层次聚类、K均值聚类等。
根据具体的数据特点,选择合适的参数。
4.进行聚类分析:点击"确定"按钮,SPSS会自动进行聚类分析,并生成聚类的结果。
聚类结果可以通过树状图、散点图等形式展示,便于我们对数据的理解和分析。
接下来,我们来介绍判别分析。
判别分析是一种通过建立数学模型,根据不同的预测变量对数据进行分类和预测的方法。
判别分析可以帮助我们理解不同因素对于数据分类的重要性,从而进行有针对性的分析和预测。
在SPSS中进行判别分析的步骤如下:1.载入数据集:同样,在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行判别分析的数据集。
第八章聚类分析聚类分析也称为点群分析或簇群分析,是解决分类问题的多元统计方法。
分类问题是地质及其他自然科学工作者经常遇到的重要问题之一。
例如,生物种属划分岩石类型划分﹑矿床类型划分﹑矿石类型划分﹑地球化学元素组合划分﹑化探异常识别等方面,都存在分类问题。
特别是勘查地球化学工作者,利用聚类分析可以从成千上万错综复杂的数据中寻找出一目了然的元素组合关系及其组合类型;可以将几十个甚至上百个异常归并为若干个类型,以便进一步识别各类的性质,排出各类的重点,指导详查。
另外,聚类分析对识别多重总体或异点有时也用的,它使我们可以用较有代表性的样本来研究单一总体特征。
作为对应分析和聚类分析的一种结合,我们提出的对应聚类分析本章最后被介绍了。
§1聚类分析的基本问题先看一个假想的简例,然后引出与聚类分析有关的若干基本问题。
一﹑简例设有5个性质不明的岩体露头,分别测的Cu的含量(x1)和电阻率(x2)两个变量,得5个样品观测值为(x11,x12),i=1,2,…,5问题是要根据以上研究这5个岩体间的类型关系。
这就是一个聚类分析问题。
显然,这是二维问题,用散点图研究最方便,设用上述5个样品值作出的散点图为图8-1,它表示了二维变量空间的5个样品点。
根据这5个点距离远近关系,相应的5个岩体间的互相关系一目了然。
1﹑2号岩体关系最亲近,可作为一类;3﹑4﹑5号岩体关系也相对亲近,可作为另一类。
一类与另一类间的距离比各类内部点间距离要大的多。
但是,如果我们对上述5个岩体各观测了多个变量。
则用散点图就无法表示它们的关系了。
图8-1 散点图图8-2 谱系图与图8-1对应,图8-2是利用聚类分析方法作出的5个岩体的分类关系图,称为分类谱系图,同样是用上述两个变量作出的。
尽管现在我们还不知道制作的具体过程,但有一点是明确的,即谱系图中所表现的个样品点间的距离大小关系与散点图的表现效果一致,也分出了两种类型。
谱系图的优点是利用平面图型可反映多维空间中点的关系。