多元统计分析 K聚类(方法+步骤+分析 总结)
- 格式:doc
- 大小:174.50 KB
- 文档页数:5
应用多元统计分析聚类分析多元统计分析是一种利用多个变量对数据进行综合分析的方法,通过对各个变量之间的关系进行分析,可以帮助我们了解数据的内在规律,揭示变量之间的相互作用,为问题的解决提供依据和参考。
其中,聚类分析是多元统计分析中的一种方法,它通过将样本数据划分为不同的组别,使得组内的样本之间相似度较高,组间的样本相似度较低,从而实现数据的分类和整理。
聚类分析的过程一般可分为以下几个步骤:1.确定聚类的目标与方法:在进行聚类分析之前,需要明确分析的目标,即希望把样本分成多少个组别,以及采用什么样的分析方法。
2.选择合适的变量和数据:聚类分析需要选择一些具有代表性的变量作为分析对象,并准备好相应的数据。
这些变量可以是数值型、名义型或顺序型的,但需要注意的是,不同类型的变量需要采用不同的距离度量。
3.计算样本间的距离:通过选择合适的距离度量方法,可以度量各个样本之间的相似度或距离,常用的距离度量方法有欧氏距离、曼哈顿距离和相关系数等。
4.执行聚类分析:根据选定的聚类方法,进行聚类分析。
常用的聚类方法有层次聚类和非层次聚类两种,其中层次聚类可以进一步分为凝聚聚类和分裂聚类等。
5.判断聚类结果的合理性:根据实际情况和问题要求,对得到的聚类结果进行合理性检验。
可以通过观察不同聚类组别内的样本特征和组间的差异度,评估聚类结果的合理性。
6.解释和应用聚类结果:根据聚类分析得到的结果,可以对分类的样本进行解释和应用。
例如,可以找到各个类别的典型样本,分析其特征和规律,为问题的解决提供参考和支持。
聚类分析在实际应用中具有很广泛的应用价值。
例如,在市场细分方面,可以利用聚类分析将消费者划分为不同的群体,有针对性地开展精准营销;在医药领域中,可以通过聚类分析将疾病患者划分为不同的病种,帮助医生进行诊断和治疗方案的选择;在社会科学研究中,可以利用聚类分析将受访者划分为不同的人群,通过对不同人群的特征分析,了解社会问题背后的机制和原因。
多元统计分析-聚类分析聚类分析是⼀个迭代的过程对于n个p维数据,我们最开始将他们分为n组每次迭代将距离最近的两组合并成⼀组若给出需要聚成k类,则迭代到k类是,停⽌计算初始情况的距离矩阵⼀般⽤马⽒距离或欧式距离个⼈认为考试只考 1,2⽐较有⽤的⽅法是3,4,5,8最喜欢第8种距离的计算 欧式距离 距离的⼆范数 马⽒距离 对于X1, X2均属于N(u, Σ) X1,X2的距离为 (X1 - X2) / sqrt(Σ)那么不同的聚类⽅法其实也就是不同的计算类间距离的⽅法1.最短距离法 计算两组间距离时,将两组间距离最短的元素作为两组间的距离2.最长距离法 将两组间最长的距离作为两组间的距离3.中间距离法 将G p,G q合并成为G r 计算G r与G k的距离时使⽤如下公式 D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq β是提前给定的超参数-0.25<=β<=04.重⼼法 每⼀组都可以看成⼀组多为空间中点的集合,计算组间距离时,可使⽤这两组点的重⼼之间的距离作为类间距离 若使⽤的是欧⽒距离 那么有如下计算公式 D2kr = n p/n r * D2kp + n q/n r * D2kq - (n p*n q / n r*n r ) * D2pq5.类平均法 两组之间的距离 = 组间每两个样本距离平⽅的平均值开根号 表达式为D2kr = n p/n r * D2kp + n q/n r * D2kq6.可变类平均法 可以反映合并的两类的距离的影响 表达式为D2kr = n p/n r *(1- β) * D2kp + n q/n r *(1- β) * D2kq + β*D2pq 0<=β<17.可变法 D2kr = (1- β)/2 * (D2kp + D2kq) + β*D2pq8.离差平⽅和法 这个⽅法⽐较实⽤ 就是计算两类距离的话,就计算,如果将他们两类合在⼀起之后的离差平⽅和 因为若两类本⾝就是⼀类,和本⾝不是⼀类,他们的离差平⽅和相差较⼤ 离差平⽅和:类中每个元素与这⼀类中的均值距离的平⽅之和 若统⼀成之前的公式就是 D2kr = (n k + n p)/(n r + n k) * D2kp + (n k + n q)/(n r + n k) -(n k)/(n r + n k) * * D2pq⼀些性质 除了中间距离法之外,其他的所有聚类⽅法都具有单调性 单调性就是指每次聚类搞掉的距离递增 空间的浓缩和扩张 D(A)>=D(B) 表⽰A矩阵中的每个元素都不⼩于B D(短) <= D(平) <= D(长) D(短,平) <= 0 D(长,平) >= 0 中间距离法⽆法判断。
因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。
由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。
从旋转成份矩阵可以看出,经过旋转的载荷系数产生了明显的区别,横向找到最大的一个数,如上表中黄色部分画出,第一个公因子在v1,v3,v5上占有较大载荷,说明于这三个指标有较大的相关性,命名为;第二个公因子在v2,v4,v6上有较大载荷,有较大相关性,归为一类,可命名为。
该表为成分转换矩阵,给出旋转所需的矩阵可以用成份得分系数矩阵写出各个因子关于中心标准化后的变量的表达式。
F1=0.385x1-0.001x2+…..F2=…..(分析的举例:第一个因子在外貌自信心洞察力推销能力工作魄力志向抱负理解能力潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子第二个因子在简历格式工作经验适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子第三个因子在兴趣爱好诚信度求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子。
多元统计聚类分析方法实例
一、概述
多元统计聚类分析是一种建立数据从不同特征维度上的理解和描述的
方法。
它是通过对多维数据进行聚类分析,将具有共同特征的不同数据项
归纳到一组中,以便进一步分析和解释这些数据项之间的相似性和差异性,从而达到更深入地理解和把握数据特征的目的。
二、基本多元统计聚类分析步骤
1、数据准备
首先,在开始进行多元统计聚类分析之前,需要准备足够的数据,以
便进行模型的建立和应用。
在进行数据准备时,要注意把握数据的准确性,避免数据准备过程中的错误,以保证后续步骤正确的进行。
2、聚类分析
在进行聚类分析时,需要根据实际的数据情况,确定聚类的参数,并
计算不同类簇之间的距离,作为聚类的依据。
在此过程中,要根据聚类的
具体目的,采用相应的聚类分析方法,以便达到更理想的聚类效果。
3、聚类评价
接下来,需要对聚类结果进行评价,以识别聚类的质量和准确性,并
可以根据评价结果,对聚类的方法和参数进行调整,以获得更理想的聚类
结果。
4、聚类结果应用
最后,在聚类分析完成后,可以将聚类结果应用到实际的问题中,以获得有效的决策依据。
k均值聚类的实现步骤1. 简介k均值聚类(k-means clustering)是一种常用的无监督学习算法,用于将数据集划分为k个不重叠的类别。
该算法通过寻找数据集中各个样本之间的相似性,将相似的样本归为一类,从而实现聚类分析。
2. 算法步骤k均值聚类算法主要包含以下几个步骤:步骤1:初始化首先需要确定要划分的类别数k,并随机选择k个样本作为初始聚类中心。
这些聚类中心可以是随机选择的,也可以根据领域知识或经验来确定。
步骤2:分配样本到最近的聚类中心对于每个样本,计算它与各个聚类中心之间的距离,并将其分配到距离最近的聚类中心所代表的类别。
步骤3:更新聚类中心对于每个聚类,计算该类别内所有样本的平均值,作为新的聚类中心。
步骤4:重复步骤2和步骤3重复执行步骤2和步骤3,直到满足停止条件。
停止条件可以是达到最大迭代次数、聚类中心不再发生变化等。
步骤5:输出聚类结果k均值聚类算法输出每个样本所属的类别,即完成了对数据集的聚类分析。
3. 距离度量在k均值聚类算法中,需要选择合适的距离度量方法来计算样本之间的相似性。
常用的距离度量方法包括欧氏距离、曼哈顿距离和余弦相似度等。
欧氏距离欧氏距离是最常用的距离度量方法之一,它表示两个点在n维空间中的直线距离。
假设有两个点A(x1, y1)和B(x2, y2),则它们之间的欧氏距离为:d(A, B) = sqrt((x2 - x1)^2 + (y2 - y1)^2)曼哈顿距离曼哈顿距离是另一种常用的距离度量方法,它表示两个点在n维空间中沿坐标轴方向的绝对差值之和。
假设有两个点A(x1, y1)和B(x2, y2),则它们之间的曼哈顿距离为:d(A, B) = |x2 - x1| + |y2 - y1|余弦相似度余弦相似度是用于衡量两个向量之间的相似性的度量方法,它通过计算两个向量的夹角余弦值来确定它们的相似程度。
假设有两个向量A和B,则它们之间的余弦相似度为:sim(A, B) = (A·B) / (||A|| * ||B||)其中,A·B表示向量A和向量B的内积,||A||和||B||分别表示向量A和向量B 的模长。
K-means聚类算法实验总结在本次实验中,我们深入研究了K-means聚类算法,对其原理、实现细节和优化方法进行了探讨。
K-means聚类是一种无监督学习方法,旨在将数据集划分为K个集群,使得同一集群内的数据点尽可能相似,不同集群的数据点尽可能不同。
实验步骤如下:1. 数据准备:选择合适的数据集,可以是二维平面上的点集、图像分割、文本聚类等。
本实验中,我们采用了二维平面上的随机点集作为示例数据。
2. 初始化:随机选择K个数据点作为初始聚类中心。
3. 迭代过程:对于每个数据点,根据其与聚类中心的距离,将其分配给最近的聚类中心所在的集群。
然后,重新计算每个集群的聚类中心,更新聚类中心的位置。
重复此过程直到聚类中心不再发生明显变化或达到预设的迭代次数。
4. 结果评估:通过计算不同指标(如轮廓系数、Davies-Bouldin指数等)来评估聚类效果。
实验结果如下:1. K-means聚类能够有效地将数据点划分为不同的集群。
通过不断迭代,聚类中心逐渐趋于稳定,同一集群内的数据点逐渐聚集在一起。
2. 在实验中,我们发现初始聚类中心的选择对最终的聚类结果有一定影响。
为了获得更好的聚类效果,可以采用多种初始聚类中心并选择最优结果。
3. 对于非凸数据集,K-means算法可能会陷入局部最优解,导致聚类效果不佳。
为了解决这一问题,可以考虑采用其他聚类算法,如DBSCAN、层次聚类等。
4. 在处理大规模数据集时,K-means算法的时间复杂度和空间复杂度较高,需要进行优化。
可以采用降维技术、近似算法等方法来提高算法的效率。
通过本次实验,我们深入了解了K-means聚类算法的原理和实现细节,掌握了其优缺点和适用场景。
在实际应用中,需要根据数据集的特点和需求选择合适的聚类算法,以达到最佳的聚类效果。
1案例题目:选取一组点(三维或二维),在空间绘制出来,之后根据K均值聚类,把这组点分为n类。
此例中选取的三维空间的点由均值分别为(0,0,0),(4,4,4),(-4,4,-4),协方差分别为300030003⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦,000030003⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦,300030003⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦的150个由mvnrnd函数随机生成。
2原理运用与解析:2.1聚类分析的基本思想聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类。
对于所选定的属性或特征,每组的模式都是相似的,而与其他组的模式差别大。
一类主要方法是根据各个待分类模式的属性或特征相似程度进行分类,相似的归为一类,由此将待分类的模式集分成若干个互不重叠的子集,另一类主要方法是定义适当的准则函数运用有关的数学工具进行分类。
由于在分类中不需要用训练样本进行学习和训练,故此类方法称为无监督分类。
聚类的目的是使得不同类别的个体之间的差别尽可能的大,而同类别的个体之间的差别尽可能的小。
聚类又被称为非监督分类,因为和分类学习相比,分类学习的对象或例子有类别标记,而要聚类的例子没有标记,需要由聚类分析算法来自动确定,即把所有样本作为未知样本进行聚类。
因此,分类问题和聚类问题根本不同点为:在分类问题中,知道训练样本例的分类属性值,而在聚类问题中,需要在训练样例中找到这个分类属性值。
聚类分析的基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。
研究样本或变量的亲疏程度的数量指标有两种:一种叫相似系数,性质越接近的样本或变量,它们的相似系数越接近1或-1,而彼此无关的变量或样本它们的相似系数越接近0,相似的为一类,不相似的为不同类。
另一种叫距离,它是将每一个样本看做p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。
简述k均值聚类算法的流程K均值聚类算法(K-meansclusteringalgorithm)是一种基于距离计算的聚类分析算法,它是一种最广泛使用的聚类算法。
K均值算法通过计算距离确定给定数据集中样本与样本之间的相似度,进而将样本分组到类似的聚类中。
K均值聚类算法的主要流程包括数据准备、类中心的初始化、类中心的计算及划分样本的四个步骤。
第一步:数据准备K均值聚类算法的最初步是准备相应的数据。
首先,数据需要有可比较的特征,可以通过某种特征空间或者属性空间来表示。
这些特征空间可以是一维、二维、三维或者多维的,既可以是数值型的,也可以是符号型的,甚至可以是混合的,但最终要转换成数值型的,以便计算距离。
第二步:类中心的初始化当算法具备相应的数据后,就可以开始计算K均值聚类算法的第二步--类中心的初始化。
在这一步,需要根据数据类型自动确定聚类的个数K,并随机选取K个对象作为初始的聚类中心,这些随机选取的对象就被视为类中心,用来代表各个聚类。
第三步:类中心的计算第三步是类中心的计算,是K均值聚类算法的核心。
这一步的目的是计算每个聚类的中心,并以此更新类中心,从而确定数据点归属的类别。
计算类中心的算法如下:其中N表示所有数据点的个数,Ci表示第i个类中心,xi表示第i个样本点。
第四步:划分样本第四步是划分样本,即根据类中心进行样本的划分。
在划分样本之前,通常先将所有样本点距离中心最近的聚类标记出来,以确定其归属的类别。
计算每个样本点距离类中心的距离,即可以确定该样本点所在的类。
K均值聚类算法的核心在于不断的计算类中心,不断的更新类中心,以及不断重新划分样本点归属的类别,直到类中心不能再更新,或者更新的类中心重合的情况下,迭代终止。
K均值聚类算法可以智能有效地对大量复杂数据进行聚类,解决聚类分析问题。
K均值聚类算法是一种很有效的多维数据分析方法,它能够将数据集中的相似元素进行聚类,从而帮助用户更加容易地理解和管理数据。
k均值聚类算法总结k均值聚类算法是一种常用的无监督学习算法,它将数据集分成k个不同的簇或群集。
该算法的主要步骤如下:1. 初始化:选择k个初始的聚类中心点。
可以随机选择或者根据特定的启发式方法选择。
2. 分配:对于每个数据点,计算它与每个聚类中心的距离,并将其分配到最近的聚类中心。
3. 更新:根据分配的结果,重新计算每个聚类的中心点,通常是计算聚类中所有数据点的平均值。
4. 重复步骤2和步骤3,直到达到停止条件,例如中心点不再变化或达到最大迭代次数。
5. 输出:最终的聚类结果是k个簇,每个簇包含一组相似的数据点。
k均值聚类算法的优点包括简单易实现、计算效率高等。
但也存在一些限制,比如对初始聚类中心的选择敏感、可能收敛到局部最优解等。
在实际应用中,为了得到更好的聚类结果,可以采取以下策略:1. 选择合适的k值:可以使用目标函数、肘部法则、轮廓系数等方法来评估不同k值下的聚类效果,选择最优的k值。
2. 初始化策略:可以尝试不同的初始化方法,如随机初始化、K-means++等,以避免陷入局部最优解。
3. 处理异常值:异常值可能会对聚类结果产生较大影响,可以考虑对异常值进行处理或者使用其他鲁棒性较强的聚类算法。
4. 特征选择和降维:在进行聚类前,可以进行特征选择和降维,以减少数据维度和噪音,提高聚类效果。
5. 聚类结果评估:可以使用内部评价指标(如紧密性和分离性)或外部评价指标(如兰德指数和互信息)来评估聚类结果的好坏。
总结起来,k均值聚类算法是一种简单而有效的聚类算法,通过迭代优化聚类中心的位置,将数据集划分成不同的簇。
在应用时,需要注意选择合适的k值、初始化策略,处理异常值,并且根据具体问题进行特征选择和降维,以获得更好的聚类结果。
简述k均值聚类算法的流程
K均值聚类是一种常用的分类聚类算法,它可以根据输入数据的不同特征和分析特征之间的关系,将原始数据分类为若干个“簇”,以达到分类聚类的目的。
K均值聚类算法的流程一般包含四个步骤:第一步,初始化:确定聚类的簇数K,并为每个簇选择一个初始中心点;
第二步,分配:将每个数据点分配到离它最近的中心点,同一个中心点的数据点属于同一个簇;
第三步,更新:计算每个簇的中心点,并用新的中心点替换原来的中心点;
第四步,重复:重复上述步骤,直到簇的划分不再发生变化或者达到最大的迭代次数,结束算法。
K均值聚类算法的优点是算法结构清晰,思路简单,实现简单,易于解释,而且精度可以达到非常好的水平。
但是,该算法也存在一些缺点,即需要事先指定簇数K,如果指定的K值过大或者过小,都会影响聚类的结果,另外,K均值聚类算法也假定数据点存在较强的聚类特性,如果数据存在噪声或者彼此间的相对位置比较模糊,算法的效果就会受到很大的影响。
K均值聚类的应用非常广泛,它可以用于数据挖掘、图像处理、机器学习等领域,它可以用于从原始数据中提取出有价值的信息,并将无关的数据清除,为数据分析提供科学的依据。
K均值聚类算法有助于加快计算速度,可以有效地提高计算机处理大数据量的能力,提
高计算机数据处理的精度。
在总结K均值聚类算法的流程时,主要介绍了它的初始化、分配、更新、重复四个步骤,并简单介绍了它的优缺点以及在实际应用中的意义。
K均值聚类算法是一种非常有用的统计学方法,它可以帮助我们更加有效地处理和分析大量数据,为我们提供更多新的知识和信息。
K聚类一、实验过程1.将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区放到label cases中,设定聚类数=3。
2.点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续3.点击“保存”,选择“聚类成员”及“与聚类中心的距离”4.点击“选项”,选择如下点击继续5.点击确定后,得到如下实验结果:二、实验结果分析:1. 给出初始的聚类中心2. 给出每次迭代结束后类中心的变动从表中可以看出共经历了4次迭代,即4次迭代后,聚类中心的变化为0,迭代停止。
表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。
综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。
这一类聚类中心8个产业的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类包括天津和上海,剩下的24个地区为第三类。
表中给出的是三类聚类中心间的距离6. 进行单因素方差分析结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。
综合上述表格,按照个产业的发展水平将中国31个地区分成3类:第一类为北京,江苏,浙江,山东,广东,属于经济发达地区。
该类中心的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类为天津和上海,属于较发达地区。
该类中心的产值分别为2064.94,170.58,272.73,445.55,80.96,266.19,251.86,717.59亿元。
第三类为余下的24个地区,属于欠发达地区。
该类中心的产值分别为428.07,82.50,73.91,89.18,26.04,28.29,38.64,185.03亿元。
多元统计分析——聚类分析多元统计分析中的聚类分析(Cluster Analysis)是一种将相似的个体或对象归为一类的数据分析方法。
聚类分析的目的是通过寻找数据中的相似性来识别或发现存在的模式和结构,可以帮助我们理解和解释数据中的复杂性。
聚类分析在许多领域中都得到了广泛的应用,例如市场细分、社会学、生物学、医学等。
聚类分析的基本原理是将数据样本根据其相似性归为不同的组或类。
相似性可以通过计算数据之间的距离或相似度来度量。
常用的距离度量方法有欧氏距离、曼哈顿距离、闵可夫斯基距离等,相似度度量方法有相关系数、夹角余弦等。
在聚类分析中,我们通常将相似的样本放在同一类别中,不相似的样本放在不同类别中。
聚类分析可以分为两种类型:层次聚类和划分聚类。
层次聚类是一种将数据样本分层次地组织成树状结构的聚类方法。
划分聚类则是将数据样本划分为预先确定的K个不重叠的类的聚类方法。
其中最常用的层次聚类算法有聚合法和分裂法,最常用的划分聚类算法是K均值算法。
聚类分析的基本步骤包括数据准备、相似度度量、类别划分和结果解释。
在数据准备阶段,需要选择合适的变量和样本。
相似度度量是聚类分析的核心,不同的距离或相似性度量方法可能会导致不同的聚类结构。
类别划分可以根据层次聚类算法或划分聚类算法来进行。
结果解释则是对聚类结果进行分析和解释,常用的方法包括聚类矩阵、平均距离图、树状图等。
聚类分析的优势在于能够帮助我们理解数据中的结构和模式,发现数据中的共性和差异性。
聚类分析可以为我们提供有关样本之间的关系和特征的重要信息。
此外,聚类分析还可以帮助我们进行市场细分和目标市场选择、发现新的疾病群和药物靶点等。
然而,聚类分析也存在一些局限性。
首先,聚类结果可能会受到初始聚类中心选择的影响。
其次,聚类结果的解释需要结合领域知识和专家判断,可能存在主观性。
此外,聚类分析对数据的样本大小和变量数目也有一定的要求,数据的维度增加会导致计算量的增加。
K聚类
一、实验过程
1.将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区
放到label cases中,设定聚类数=3。
2.点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续
3.点击“保存”,选择“聚类成员”及“与聚类中心的距离”
4.点击“选项”,选择如下
点击继续
5.点击确定后,得到如下实验结果:
二、实验结果分析:
1. 给出初始的聚类中心
初始聚类中心
聚类
2. 给出每次迭代结束后类中心的变动
从表中可以看出共经历了4次迭代,即4次迭代后,聚类中心的变化为0,迭代停止。
表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。
综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。
这一类聚类中心8个产业的产值分别为1165.95,
143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类包括天津和上海,剩下的24个地区为第三类。
表中给出的是三类聚类中心间的距离
6. 进行单因素方差分析
结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。
7. 最终分类各类中的地区数
每个聚类中的案例数
聚类 1 5.000
2 2.000
3 24.000
有效31.000
缺失.000
综合上述表格,按照个产业的发展水平将中国31个地区分成3类:
第一类为北京,江苏,浙江,山东,广东,属于经济发达地区。
该类中心的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类为天津和上海,属于较发达地区。
该类中心的产值分别为
2064.94,170.58,272.73,445.55,80.96,266.19,251.86,717.59亿元。
第三类为余下的24个地区,属于欠发达地区。
该类中心的产值分别为
428.07,82.50,73.91,89.18,26.04,28.29,38.64,185.03亿元。