SPSS聚类分析(PPT)
- 格式:pdf
- 大小:368.35 KB
- 文档页数:19
SPSS聚类分析过程聚类的主要过程一般可分为如下四个步骤:1.数据预处理〔标准化〕2.构造关系矩阵〔亲疏关系的描述〕3.聚类〔根据不同方法进行分类〕4.确定最正确分类〔类别数〕SPSS软件聚类步骤1. 数据预处理〔标准化〕→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可:标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换〔作用:变换后的数据均值为0,极差为1,且|x ij*|<1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。
〕;Range 0 to 1〔极差正规化变换/ 规格化变换〕;2. 构造关系矩阵在SPSS中如何选择测度〔相似性统计量〕:→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择常用测度〔选项说明〕:Euclidean distance:欧氏距离〔二阶Minkowski距离〕,用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数;3. 选择聚类方法SPSS中如何选择系统聚类法常用系统聚类方法a〕Between-groups linkage 组间平均距离连接法方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。
〔项对的两成员分属不同类〕特点:非最大距离,也非最小距离b〕Within-groups linkage 组内平均连接法方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小C〕Nearest neighbor 最近邻法〔最短距离法〕方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法d〕Furthest neighbor 最远邻法〔最长距离法〕方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法e〕Centroid clustering 重心聚类法方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值特点:该距离随聚类地进行不断缩小。
第8章聚类分析在自然与社会科学研究中,存在着大量分类研究的问题,如病虫害种群消长演替规律的研究中,需要从生态系统出发,构造其数量、时间和空间关系的分类模式,以此来研究病虫害的发生规律。
聚类分析就是其分类研究的方法之一。
聚类分析是根据事物本身的特性研究个体分类的方法。
聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。
根据分类对象的不同可分为样品聚类和变量聚类。
1)样品聚类 样品聚类在统计学中又称为Q型聚类。
用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。
是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。
2)变量聚类 变量聚类在统计学又称为R型聚类。
反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。
由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。
例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。
因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。
8.1快速聚类过程(K-Means Cluster ) 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。
所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。
[例子8-1]根据1962年至1988年积累的三化螟有关资料进行聚类分析,研究三化螟种群消长规律。
数据见表8-1,其中发生期是指卵盛孵高峰期(2代以5月31日和3代7月20日为零计算天数),F2-F3为2代至3代的增殖系数,F3-F4为3代至4代的增殖系数。
对幼虫发生量和发生期数据进行快速聚类,分析各年的发生程度。
109表8-1幼虫发生量发生期增殖系数年份第2代第3代第2代第3代F2-F3 F3-F4 1962 344 3333 29 9 9.69 1.911963 121 1497 27 19 12.37 1.341964 187 1813 32 18 9.70 1.061965 500 4000 34 14 8.00 1.821966 441 3750 36 14 8.50 1.871967 404 4600 33 16 11.39 1.521968 328 986 35 18 3.01 1.261969 806 1790 32 15 2.22 2.141970 730 1970 36 20 2.70 2.641971 263 333 29 15 1.27 1.071972 486 600 32 19 1.23 1.471973 248 585 33 20 2.36 1.081974 2100 2700 22 14 1.28 1.331975 333 287 38 19 .86 .701976 90 77 40 24 .86 1.871977 19 25 40 27 1.32 2.881978 230 2525 39 20 10.96 .551979 1392 1041 33 18 .75 4.171980 308 41 31 28 .13 3.341981 415 916 36 18 2.21 1.091982 34 401 38 29 11.79 .991983 267 803 37 26 3.01 .091984 1043 3500 39 26 3.36 .071985 2243 7452 31 20 3.32 .121986 236 599 35 26 2.54 .001987 558 1061 33 24 1.90 .001988 162 2817 34 21 2.64 .008.1.1 操作方法1)数据准备在数据管理窗口,定义变量名:年份、幼虫2、幼虫3、发生期2、发生期3、增殖23、增殖34,分别代表年份、第2代幼虫发生量、第3代幼虫发生量、第2代发生期、第3代发生期、F2-F3增殖系数、F3-F4增殖系数。
其中年份变量为字符变量,其它为数值变量。
然后输入原始数椐。
数据保存在配套光盘中(\SPSS\DATA\DATA8-2.SAV)。
2)启动快速聚类过程在SPSS主菜单中按“Analyze→Classify→K-Means Cluster”顺序逐一单击鼠标键,打开快速聚类主对话框,如图8-1所示。
110图8-1 快速聚类主对话框 3) 指定分析变量和标识变量选择参与聚类分析的数值型变量,在变量列表中选中变量后,单击“Variables”矩形框左边的右拉箭头按钮,使选中的变量名移到右面的“Variables”矩形框中。
本例题要求根据“幼虫2”、“幼虫3”、“发生期2”和“发生期3”进行聚类。
因此选择这4个变量并移至“Variables”矩形框中。
本例子中标识每个观测量的变量是年份。
因此,选择主对话框中左面变量表中的“年份”,单击鼠标键使之选中。
单击右拉箭头按钮,使变量名移到“Label Cases by:”框中。
4)确定分类数系统默认的分类数为2,显示在“Number of Clusters”框中。
按发生程度轻、中、重,应该分为3类,将原数值2改为3。
5) 选择聚类方法在主对话框中的“Method”栏中的两项中可以选择一种聚类方法。
系统默认值是“Iterative and classify”项。
lIterate and classify选项,选择初始类中心,在迭代过程中使用K-Means算法不断更换类中心,把观测量分派到与之最近的以类中心为标志的类中去。
lClassify only选项,只使用初始类中心对观测量进行分类。
本例选择“Iterative and classify”。
6) 类中心数据的输入与输出在主对话框中单击“Centers”按钮,展开“Cluster Centers”带有选择保存类中心数据的对话框,如图8-2。
111图8-2 设置读入/保存类中心数据对话框 lRead initial from File选框,要求使用指定数据文件中的观测量作为初始类中心。
选择此项单击鼠标键后,再按其后的“File”按钮,显示选择文件的对话框,指定文件所在位置(路径)和文件名。
按“OK”按钮返回。
在“Center”选择框中的“File”按钮后面显示文件全名(包括路径)。
如要选择此项,需要事先建立一个数据集,其中观测量的数目与要聚成的类数相等,每个观测量都由参与聚类的变量值组成。
lWrite final as File选框,要求把聚类结果中的各类中心数据保存到指定的文件中。
操作方法同上。
本例题不选择这两项。
7)控制聚类何时停止的选择项 如果选择了“Iterate and classify”方法进行聚类,还可以进一步选择迭代参数。
在主对话框中单击“Iterate”按钮,打开设置迭代参数的对话框,如图8-3所示。
图8-3指定迭代参数对话框 lMaximum Iterations参数,限定K-Means算法中的迭代次数。
改变后面框中的数字,则改变迭代次数。
当达到限定的迭代次数时即使没有满足收敛判据,迭代也停止。
系统默认值为10。
选择范围为1-999。
lConvergence Criterion 参数,指定K-Means算法中的收敛判据。
其值必须大于等于0,小于1,系统默认值为0。
该项数值为N的含义为,当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之N时迭代停止。
例如判据设置为0.02,当一次完整的迭代不能使任何一个类中心距离的移动与原始类中心距离的比小于2%,则迭代停止。
如果设置了以上两个参数,只要在迭代过程中满足了一个参数,迭代就停止。
Convergence Criterion设置为O,就是要求以Maximum Iterations最大迭代次数为迭代停止的判据。
112luse running means复选框,选中该复选框,限定在每个观测量被分配到一类后立刻计算新的类中心。
如果不选择此项,则在完成了所有观测量的一次分配后再计算各类的类中心。
不选择此项会节省迭代时间。
本例子选择第一项的系统缺省设置值。
8)输出数据选择项在主对话框中单击“Save”按钮,打开“Save New Variables”保存新变量选择框,见图8-4。
图8-4选择保存新变量对话框 lCluster Membership 复选框,建立一个新变量,系统默认变量名为qcl_1。
其值表示聚类结果,即各观测量被分配到哪一类。
其值为1、2、3…的序号。
该变量存入输入数据文件(DATA8-1)中。
lDistance from cluster center复选框,建立一个新变量,系统默认变量名为qcl_2。
聚类结束后把各观测量距所属类中心间的欧氏距离存入工作数据区(SPSS数据管理窗口)中。
本例子两项都选中。
9)输出统计量的选择项与缺失值处理。
在主对话框中单击“Option”按钮,打开选择对话框,如图8-5所示。
在此选择框中指定要计算的统计量和对带有缺失值的观测量的处理方式。
图8-5 Option选择对话框 113①在Statistics栏中可以选择要求计算和输出的统计量有: lInitial cluster centers初始类中心; lANOVA tabe 方差分析表; lCluster information for each case 每个观测量的分类信息。
如分配到哪一类和该观测量距所属类中心的距离。
本例题3项都选中。
② Missing Values栏中选择一种处理带有缺失值观测量的方法。
lExclude cases listwise选项,将出现在Variables变量表中变量带有缺失值的观测量从分析中剔除。
lExclude cases pairwise选项,只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除。
本例选中第1项系统默认。
10)提交各项设置点击“OK”按钮,SPSS输出结果将显示在输出浏览器和数据编辑窗口文件中。
在SPSS输出窗口中将看到表8-2至表8-7的分析结果。
表8-2 初始聚类中心Initial Cluster CentersCluster1 2 3第二代幼虫2100 19 2243第三代幼虫2700 25 7452二代幼虫发生期22 40 31二代幼虫发生期14 27 20表8-3 每步迭代的类中心改变值 Iteration HistoryChange in Cluster CentersIteration 1 2 31 1478.755 735.718 .0002 146.105 70.414 .0003 159.466 70.526 .0004 .000 .000 .000a Convergence achieved due to no or small distance change. The maximumdistance by which any center has changed is .000. The current iteration is 4. Theminimum distance between initial centers is 3389.200.114表8-4 聚类成员表 Cluster MembershipCase Number 年份Cluster Distance1 1962 1 316.9812 1963 2 721.1423 1964 2 1007.8444 1965 1 616.1795 1966 1 406.5486 1967 1 1222.5027 1968 2 170.2268 1969 2 1056.5649 1970 2 1198.93810 1971 2 504.19211 1972 2 247.93812 1973 2 272.18613 1974 1 1608.82814 1975 2 538.59215 1976 2 800.59816 1977 2 876.01717 1978 1 974.71818 1979 2 1036.12319 1980 2 785.85620 1981 2 99.24421 1982 2 545.58322 1983 2 113.95723 1984 1 401.99924 1985 3 .00025 1986 2 266.28226 1987 2 297.36127 1988 1 764.619表8-5 最终聚类中心 Final Cluster CentersCluster1 2 3第二代幼虫653 379 2243第三代幼虫3403 824 7452二代幼虫发生期33 34 31二代幼虫发生期17 21 20表8-6类中心之间的距离Distances between Final Cluster CentersCluster 1 2 31 2594.035 4349.8862 2594.035 6885.5103 4349.886 6885.510115表8-7 方差分析表 ANOVACluster Error F Sig.Mean Square df Mean Square df第2代幼虫1733051.565 2 199049.206 24 8.707 .001 第3代幼虫34817541.683 2 417672.965 24 83.361 .0002代幼虫发生期7.148 2 18.296 24 .391 .6813代幼虫发生期56.778 2 22.296 24 2.547 .099T he F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.8.1.2 结果解释 首先系统根据用户的指定,按3类聚合确定初始聚类的各变量中心点数据见表8-2,未经K-means算法叠代,其类别间距离并非最优。