当前位置:文档之家› SPSS聚类分析

SPSS聚类分析

SPSS聚类分析
SPSS聚类分析

第8章聚类分析

在自然与社会科学研究中,存在着大量分类研究的问题,如病虫害种群消长演替规律的研究中,需要从生态系统出发,构造其数量、时间和空间关系的分类模式,以此来研究病虫害的发生规律。聚类分析就是其分类研究的方法之一。 

聚类分析是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 

根据分类对象的不同可分为样品聚类和变量聚类。 

1)样品聚类 

样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。 

2)变量聚类 

变量聚类在统计学又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。 

8.1快速聚类过程(K-Means Cluster )

 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。

[例子8-1]

根据1962年至1988年积累的三化螟有关资料进行聚类分析,研究三化螟种群消长规律。数据见表8-1,其中发生期是指卵盛孵高峰期(2代以5月31日和3代7月20日为零计算天数),F2-F3为2代至3代的增殖系数,F3-F4为3代至4代的增殖系数。

对幼虫发生量和发生期数据进行快速聚类,分析各年的发生程度。

109

表8-1

幼虫发生量发生期增殖系数年份

第2代第3代第2代第3代F2-F3 F3-F4 1962 344 3333 29 9 9.69 1.91

1963 121 1497 27 19 12.37 1.34

1964 187 1813 32 18 9.70 1.06

1965 500 4000 34 14 8.00 1.82

1966 441 3750 36 14 8.50 1.87

1967 404 4600 33 16 11.39 1.52

1968 328 986 35 18 3.01 1.26

1969 806 1790 32 15 2.22 2.14

1970 730 1970 36 20 2.70 2.64

1971 263 333 29 15 1.27 1.07

1972 486 600 32 19 1.23 1.47

1973 248 585 33 20 2.36 1.08

1974 2100 2700 22 14 1.28 1.33

1975 333 287 38 19 .86 .70

1976 90 77 40 24 .86 1.87

1977 19 25 40 27 1.32 2.88

1978 230 2525 39 20 10.96 .55

1979 1392 1041 33 18 .75 4.17

1980 308 41 31 28 .13 3.34

1981 415 916 36 18 2.21 1.09

1982 34 401 38 29 11.79 .99

1983 267 803 37 26 3.01 .09

1984 1043 3500 39 26 3.36 .07

1985 2243 7452 31 20 3.32 .12

1986 236 599 35 26 2.54 .00

1987 558 1061 33 24 1.90 .00

1988 162 2817 34 21 2.64 .00

 

8.1.1 操作方法

1)数据准备

在数据管理窗口,定义变量名:年份、幼虫2、幼虫3、发生期2、发生期3、增殖23、增殖34,分别代表年份、第2代幼虫发生量、第3代幼虫发生量、第2代发生期、第3代发生期、F2-F3增殖系数、F3-F4增殖系数。其中年份变量为字符变量,其它为数值变量。然后输入原始数椐。 

数据保存在配套光盘中(\SPSS\DATA\DATA8-2.SAV)。 

2)启动快速聚类过程

在SPSS主菜单中按“Analyze→Classify→K-Means Cluster”顺序逐一单击鼠标键,打开快速聚类主对话框,如图8-1所示。 

 

110

 

图8-1 快速聚类主对话框 

3) 指定分析变量和标识变量

选择参与聚类分析的数值型变量,在变量列表中选中变量后,单击“Variables”矩形框左边的右拉箭头按钮,使选中的变量名移到右面的“Variables”矩形框中。本例题要求根据“幼虫2”、“幼虫3”、“发生期2”和“发生期3”进行聚类。因此选择这4个变量并移至“Variables”矩形框中。 

本例子中标识每个观测量的变量是年份。因此,选择主对话框中左面变量表中的“年份”,单击鼠标键使之选中。单击右拉箭头按钮,使变量名移到“Label Cases by:”框中。 

4)确定分类数

系统默认的分类数为2,显示在“Number of Clusters”框中。按发生程度轻、中、重,应该分为3类,将原数值2改为3。 

5) 选择聚类方法

在主对话框中的“Method”栏中的两项中可以选择一种聚类方法。系统默认值是“Iterative and classify”项。 

lIterate and classify选项,选择初始类中心,在迭代过程中使用K-Means算法不断更换类中心,把观测量分派到与之最近的以类中心为标志的类中去。 

lClassify only选项,只使用初始类中心对观测量进行分类。 

本例选择“Iterative and classify”。 

6) 类中心数据的输入与输出

在主对话框中单击“Centers”按钮,展开“Cluster Centers”带有选择保存类中心数据的对话框,如图8-2。 

111

 

图8-2 设置读入/保存类中心数据对话框 

lRead initial from File选框,要求使用指定数据文件中的观测量作为初始类中心。选择此项单击鼠标键后,再按其后的“File”按钮,显示选择文件的对

话框,指定文件所在位置(路径)和文件名。按“OK”按钮返回。在“Center”

选择框中的“File”按钮后面显示文件全名(包括路径)。如要选择此项,需要

事先建立一个数据集,其中观测量的数目与要聚成的类数相等,每个观测量都

由参与聚类的变量值组成。 

lWrite final as File选框,要求把聚类结果中的各类中心数据保存到指定的文件中。操作方法同上。 

本例题不选择这两项。 

7)控制聚类何时停止的选择项

如果选择了“Iterate and classify”方法进行聚类,还可以进一步选择迭代参数。 

在主对话框中单击“Iterate”按钮,打开设置迭代参数的对话框,如图8-3所示。 

 

图8-3指定迭代参数对话框 

lMaximum Iterations参数,限定K-Means算法中的迭代次数。改变后面框中的数字,则改变迭代次数。当达到限定的迭代次数时即使没有满足收敛判据,迭代也停止。

系统默认值为10。选择范围为1-999。 

lConvergence Criterion 参数,指定K-Means算法中的收敛判据。其值必须大于等于0,小于1,系统默认值为0。该项数值为N的含义为,当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之N时迭代停止。例如判据设置为0.02,当一次完整的迭代不能使任何一个类中心距离的移动与原始类中心距离的比小于2%,则迭代停止。 

 如果设置了以上两个参数,只要在迭代过程中满足了一个参数,迭代就停止。Convergence Criterion设置为O,就是要求以Maximum Iterations最大迭代次数为迭代停止的判据。 

112

luse running means复选框,选中该复选框,限定在每个观测量被分配到一类后立刻计算新的类中心。如果不选择此项,则在完成了所有观测量的一次分配后再计算各类的类中心。不选择此项会节省迭代时间。 

本例子选择第一项的系统缺省设置值。 

8)输出数据选择项

在主对话框中单击“Save”按钮,打开“Save New Variables”保存新变量选择框,见图8-4。 

 

图8-4选择保存新变量对话框 

lCluster Membership 复选框,建立一个新变量,系统默认变量名为qcl_1。其值表示聚类结果,即各观测量被分配到哪一类。其值为1、2、3…的序号。该变量存入输入数据文件(DATA8-1)中。 

lDistance from cluster center复选框,建立一个新变量,系统默认变量名为qcl_2。聚类结束后把各观测量距所属类中心间的欧氏距离存入工作数据区(SPSS数据管理窗口)中。 

本例子两项都选中。 

9)输出统计量的选择项与缺失值处理。

在主对话框中单击“Option”按钮,打开选择对话框,如图8-5所示。在此选择框中指定要计算的统计量和对带有缺失值的观测量的处理方式。 

 

图8-5 Option选择对话框 

113

 

①在Statistics栏中可以选择要求计算和输出的统计量有: 

lInitial cluster centers初始类中心; 

lANOVA tabe 方差分析表; 

lCluster information for each case 每个观测量的分类信息。如分配到哪一类和该观测量距所属类中心的距离。 

本例题3项都选中。 

② Missing Values栏中选择一种处理带有缺失值观测量的方法。 

lExclude cases listwise选项,将出现在Variables变量表中变量带有缺失值的观测量从分析中剔除。 

lExclude cases pairwise选项,只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除。 

本例选中第1项系统默认。 

10)提交各项设置

点击“OK”按钮,SPSS输出结果将显示在输出浏览器和数据编辑窗口文件中。 

在SPSS输出窗口中将看到表8-2至表8-7的分析结果。 

表8-2 初始聚类中心Initial Cluster Centers

Cluster

1 2 3

第二代幼虫2100 19 2243

第三代幼虫2700 25 7452

二代幼虫发生期22 40 31

二代幼虫发生期14 27 20

表8-3 每步迭代的类中心改变值 Iteration History

Change in Cluster Centers

Iteration 1 2 3

1 1478.755 735.718 .000

2 146.105 70.414 .000

3 159.466 70.526 .000

4 .000 .000 .000

a Convergence achieved due to no or small distance change. The maximum

distance by which any center has changed is .000. The current iteration is 4. The

minimum distance between initial centers is 3389.200.

114

表8-4 聚类成员表 Cluster Membership

Case Number 年份Cluster Distance

1 196

2 1 316.981

2 196

3 2 721.142

3 196

4 2 1007.844

4 196

5 1 616.179

5 196

6 1 406.548

6 196

7 1 1222.502

7 1968 2 170.226

8 1969 2 1056.564

9 1970 2 1198.938

10 1971 2 504.192

11 1972 2 247.938

12 1973 2 272.186

13 1974 1 1608.828

14 1975 2 538.592

15 1976 2 800.598

16 1977 2 876.017

17 1978 1 974.718

18 1979 2 1036.123

19 1980 2 785.856

20 1981 2 99.244

21 1982 2 545.583

22 1983 2 113.957

23 1984 1 401.999

24 1985 3 .000

25 1986 2 266.282

26 1987 2 297.361

27 1988 1 764.619

表8-5 最终聚类中心 Final Cluster Centers

Cluster

1 2 3

第二代幼虫653 379 2243

第三代幼虫3403 824 7452

二代幼虫发生期33 34 31

二代幼虫发生期17 21 20

表8-6类中心之间的距离Distances between Final Cluster Centers

Cluster 1 2 3

1 2594.035 4349.886

2 2594.035 6885.510

3 4349.886 6885.510

115

表8-7 方差分析表 ANOVA

Cluster Error F Sig.

Mean Square df Mean Square df

第2代幼虫1733051.565 2 199049.206 24 8.707 .001 第3代幼虫34817541.683 2 417672.965 24 83.361 .000

2代幼虫发生期7.148 2 18.296 24 .391 .681

3代幼虫发生期56.778 2 22.296 24 2.547 .099

T he F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

8.1.2 结果解释 

首先系统根据用户的指定,按3类聚合确定初始聚类的各变量中心点数据见表8-2,未经K-means算法叠代,其类别间距离并非最优。经叠代运算后类别间各变量中心值得到修正数据见表8-5。

表8-7对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值第2代幼虫和第3代幼虫<0.01,即聚类效果好,2代幼虫发生期和3代幼虫发生期>0.01。

表8-4给出了最终聚类结果,原有27年的资料聚类为3类:第一类有8年(62,65,66,67,74,78,84,88年),第二类有18年(63,64,68,69,70,71,72,73,75,76,77,79,80,81,82,83,86,87年),第三类原1年(85年),具体结果系统以变量名“qcl_1”存于原始数据库中。

根据以上分析再参照专业知识,可将三化螟发发生程度分为:

第1类为重发生年份,发生数量大;

第2类为一般发生年份,发生数量多;

第3类为轻度发生年份,发生数量小。

116

8.2分层聚类过程(Hierarchical Cluster)

根据聚类过程不同又分为凝聚法和分解法。 

分解法:聚类开始把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。 

凝聚法:聚类开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。 

无论哪种方法其聚类原则都是相近的聚为一类,即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。 

分层聚类的方法可以用于样本聚类(Q型),也可以用于变量聚类(R型)。 

[例子8-2]

我们仍然使用例子8-1的数据。

8.2.1 操作方法

1)数据准备

把数据输入到数据编辑区,或者从文件中调入。 

该例子数据保存在配套光盘中(\SPSS\DATA\DATA8-2.SAV)。 

2)启动分层聚类过程

在SPSS主菜单中按“Analyze→Classify→Hierarchical Cluster”顺序逐一单击鼠标键,最后展开分层聚类主对话框,如图8-6所示。 

 

图8-6 分层聚类过程主对话框 

117

3) 指定分析变量和标签变量

指定分析变量:选择参与聚类分析的数值型变量。本例子选中所有的数值型变量。在“Variables”矩形框左边的变量列表中选中“幼虫2”变量后,按住键盘“Shift”键不放,再点击最下边的“增殖34”变量,然后松开“Shift”键,这样就标记了6个变量。单击“Variables”矩形框左边的右拉箭头按钮,使选中的6个变量名移到右面的“Variables”矩形框中。 

指定标签变量:本例子中标识每个观测量的变量是“年份”。不使用标签变量时,系统使用单元格编号作为标签。本例子选择“年份”为标签变量,选择主对话框中左边变量表中的“年份”,单击鼠标键使之选中。再单击右拉箭头按钮,使变量名移到“Label Cases by:”框中。标签变量只能是子符型变量。 

4) 选择聚类类型

在主对话框中部的“Cluster”栏选择聚类类型:

lCases项,对数据观测量(样本量)进行聚类。 

lVariable 项,对数据变量进行聚类。 

本例选中“Cases”项,对数据观测量进行聚类。 

5)设置输出

在主对话框下部的“Display”栏选择输出内容:

lStatistic项,输出在“Statistic”对话框中设置的的统计量; 

lPlots项,输出在“Plots”对话框中设置选中的图形。 

本例要求输出数据统计量和图形,因此两项都选中。 

6)统计量输出设置

在主对话框中点击“Statistic”按钮,打开统计量输出设置对话框,如图8-7。 

 

如图8-7 “Statistic”对话框 

①“Agglomeration schedule”复选项,输出聚类过程表,显示聚类过程中每一步合并的

118

类或观测量;被合并的类或观测量之间的距离以及观测量或变量加入到一类的类水平。因此可以根据此表跟踪聚类的合并过程,仔细地查看那些观测量更接近一些。

②“Proximity matrix”复选项,输出各类间的距离矩阵。以矩阵形式给出各项之间

的距离或相似性测度值。产生什么类型的矩阵(相似性矩阵或不相似性矩阵)取决于在“Method”对话框中“Measure”栏中的选择。如果项数很大(观测量数或变量数)该选择项产生的输出量也很大。 

本例选中“Agglomeration schedule”项输出聚类过程表。 

③在“Cluster Membership”栏可以选择以下选输出项:

l“None”选项,不显示类成员表,是系统默认值。 

l“Single solution”选项,要求列出聚为一定类数的各观测量所属的类。在该选择项右侧的矩形框中输入限定显示的类数。该数值必须是大于l,小于等于参与聚类的观测量或变量总数的整数。例如指定此选择项,并且在其后的矩形框中输入了数字“3”,则会在输出窗中显示聚为三类时每个观测量属于哪一类。 

l“Range of solutions”选项,要求列出某个范围中每一步各观测量所属的类。

在该选择项右侧的矩形框中输入限定显示的类数范围输入一个最小类数值(左)和一个最大类数值(右)。这两个数值必须是不等于l的正整数,最大类数值不能大于参与聚类的观测量数或变量总数。例如,指定此选择项并且在左右两个矩形框中分别输入了“3”和“5”这两个数值,聚类结束后将在输出窗中显示观测量(或变量)被聚为3类时各观测量(或变量)被分派到哪一类,以及观测量(或变量)被聚为4类、5类时,各观测量(或变量)被分派到哪一类。 

本例选择“None”项,不显示类成员表。 

输出统计量选择完成后,按“Continue”按钮,返回到主对话框。 

7)统计图输出设置

在分层聚类分析的主对话框中,用鼠标点击“Plots”按钮,打开统计图输出选择对话框。如图8-8所示。可选择输出的统计图表有两种,一个是树形图,一个是冰柱图。 

 

图8-8 “Plots”统计图输出选择对话框 

119

① Dendrogram复选项,显示树形图。

② Icicle冰柱图形。 

对于生成什么样的冰柱图还可以进一步用以下选择项确定: 

lAll clusters选项,聚类的每一步都表现在图中。可用此种图查看聚类的全过程。但如果参与聚类的个体很多会造成图形过大,没有必要。可以使用下面一

个选择项限定显示的范围。 

lSpecified range clusters选项,指定显示的聚类范围。当选择此顶时,该项下面的选择框加亮,表示等待输入显示范围。在“Start”后的矩形框中输入要

求显示聚类过程的起始步数,在“Stop”后的矩形框中输入显示中止于哪一步。

把显示的两步之间的增量输入到“By”后面的矩形框中。输入到矩形框中的数

字必须是正整数。 

例如,输入的结果是:3,9,2,生成的冰柱图从第三步开始,显示第三、

五、七、九步聚类的情况。 

lNone选项,不生成冰校图。 

l冰柱图显示方向可以在“Orientation”栏中确定:

2Vertical选项,纵向显示的冰柱图。

2Horizontal选项,横向显示的冰柱图。 

本例选中“Dendrogram”选项输出树形图形;选中“All clusters”项,在冰柱图中输出聚类情况;选中“Vertical”项纵向显示冰柱图。 

8) 选择聚类方法

在主对话框中点击“Method”按钮,打开分层聚类分析的方法选择对话框如图8-9。在对话框中根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法和对测度的转换方法。 

 

图8-9分层聚类分析的方法选择对话框 

120

①Cluster Method选择聚类方法

鼠标对准“Cluster Method”框中右边的向下箭头按钮,单击鼠标键展开下拉菜单,菜单表中列出可以选择的聚类方法。 

l Between-groups linkage 组间连接。合并两类的结果使所有的两类的平均距离最小。

l Within-groups linkage 组内连接。若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小。

l Nearest neighbor 最近邻法。采用两类间最近点间的距离代表两类间的距离。

l Furthest Neighbor 最远邻法。用两类之间最远点的距离代表两类之间的距离。也称之为完全连接法。

l Centroid clustering 聚类法。像计算所有各项均值之间的距离那样计算两类之间的距离。该距离随聚类的进行不断减小。

l Median clustering中位数法。

l Ward’s method 最小偏差平方和法。

本例选中“Between-groups linkage”项,两类的平均距离最小。

② 选择对距离的测度方法

在“Measure”栏中指定的是用哪两点间的距离的大小决定是否合并两类。距离的具体计算方法还根据参与距离的变量类型从以下3种对话框选择其一,展开选择菜单后再进行具体方法的选择。这3个对话框分别对应于等间隔测度的变量(一般为连续变量)、计数变量(一般为离散变量)和二值变量。以下为3个对话框及其可选择的距离或不相似性测度方法: 

l“Interval”参数框适合于等间隔测度的变量

单击“Interval”矩形框右侧的向下箭头展开下拉菜单,在菜单中选择连续变量距离侧度的方法。有以下方法:

2Euclidean distance选项,欧氏距离。 

2Squared Euclidean distance选项,欧氏距离平方。两项之间的距离是每个变量值之差的平方和。 

2Cosline选项,余弦相似性测度。计算两个向量间夹角的余弦。 

2Pearson conelation选项,皮尔逊相关系数。计算值向量间的相关,Pearson相关是线性关系的测度,范围是-1 ̄+1。0值表明没有线性关系。 

2Chebychev选项,两项间的距离用是最大的变量值之差的绝对值。 

2Block选项,曼哈顿(Manhattan)距离,两项之间的距离是每个变量值之差的绝对值总和。 

2Minkowski选项,两项之间的距离是各变量值之差的p次方幂的绝对值之和的p次方根。选择此项后会显示出两个选择框,用左面一个选择乘方次数,右面一个选择开方次数。由于此法开方与乘方次数相同,因此选择了乘方次数值,同样值用于开方次数。 

121

2Customized选项,两项之间的距离各项值之间差值的p次幂绝对值之和的r次方根。选择此项后会显示出两个选择框,用左面一个选择乘方次数p,右面一个选

择开方次数r。 

本例子选中“Euclidean distance”项,欧氏距离法。 

l“Counts”参数框适合于计数变量(离散变量)

单击“Counts”后,再点参数框右侧的向下箭头,展开下拉菜单的方法选择以下不相似性测度的方法。 

2Chi-square measure 选项,卡方测度。用卡方值测度不相似性。该测度是根据两个集的频数相等的卡方检验。侧度产生的值是卡方值的平方根。这是系统默认的对计数变量的不相似性测度方法。是根据被计算的两个观测量或两个变量总领

数计算其不相似性。期望值来自观测量或变量(x、y)的独立模型。 

2Phi-square measur选项,两组频数之间的Ф2测度。该测度试图考虑减少样本量对测度值的实际预测频率减少的影响。该测度把Ф平方除以联合频数的平方根,使不相似性的卡方测度规范化。该侧度值与被计算不相似性的两个观测量或两个

变量的总频数无关。 

l“Binary”参数框适合于二值变量

首先应该明确,对二值变量,系统默认用l表示某特性出现(或发生),用0表示某特性不出现(或不发生)。 

对于二值变量可用先选中“Binary”后,单击“Binary”参数框右侧的向下箭头展开下拉菜单的方法选择相应不相似性测度的方法。这些方法有: 

2Euclidean distance选项,二值欧氏距离。 

2Squared Euclidean distance选项,二值欧氏距离平方 

2Size difference选项,不对称指数。其值范围在O ̄1之间。 

2Pattern difference选项,不相似性测度,范围为0 ̄1。 

2Variance选项,方差不相似性沈度。 

2Dispersion选项,是一个相似性指数。其范围为-1 ̄1。 

2Shape选项,距离测度。范围无上下限,它不利于匹配的不对称性。 

2Simple matching选项,匹配数对值的总数的比值。它给匹配与不匹配以相同的权重。 

2Phi-point correlation选项,皮尔逊相关系数二值模拟。其值范围为-1 ̄l。 

2Lambda选项,数值是Goodman and Kruskal的λ,是一种相似性测度。 

2Anderberg’D选项,类似于λ,该指数取决于用一项预测另一项(在两个方向上进行预测)的误差降低的实际数值。其值范围为0 ̄1。 

2Dice选项,这是个指数,该指数中剔除了联合不发生,给匹配的双倍权重。有如Czekanowski或Sorensen测度。 

2Hamann选项,相似性测度。该指数是匹配数减去不匹配数除以总项数。其值范围是-1 ̄1。 

2Jaccard选项,这也是一个不考虑联合缺席的指数。 

2Kulczynski 1选项,这是联合出现与非匹配数的比。该指数有下界O,无上界。 

2Kulczynski 2选项,相似性测度。该指数根据某特性在一项中出现的条件慨率给出在其他项中出现的概率。 

122

2Lance and Williams选项,

2Ochiai选项,该指数是余弦相似性测度的二元形式。范围为O ̄l。 

2Rogers and Tanimoto选项,是一个给不匹配的双倍权重的指数。 

2Russel and Rao选项,是内积(点积)的二元形式。对匹配与不匹配都给予相等的权重。是二元相似数据的系统默认方法。 

2Sokal and Sneath l选项,是给匹配以双倍权重的一种指数。 

2Sokal and Sneath 2选项,是给不匹配以双倍权重的一种指数。而且不考虑联合缺席的情况。 

2Sokal and Sneath 3选项,是匹配与不匹配的比。该指数低界为0,无上界。无不匹配的情况是理论上没有定义的。 

2SOKal and Sneath 4选项,同一匹配状态(某特性出现或不出现)在另一项出现或不出现的条件概率。计算该指数时,每一项作为其他项的预测值时,各项值取其

平均数。该指数范围为0 ̄1。 

2SOKal and Sneath 5选项,该指数是正负匹配的条件概率的几何平均数的平方。

它独立于项编码。其值范围为0 ̄1。 

2Yule’Y 选项,该指数是2×2表交叉比的函数,且独立于边际总和。范围为-l ̄l。

有如我们所知的综合系数。 

2Yule’s,Q选项,该指数是Goodman 和Kruskal Y(gamma)的特殊事件。是交叉比的函数,且独立于边际总和。其值范围为-1 ̄1。 

从下拉表中的以上各项中选择一种测度方法。还可以改变表示某事件发生与不发生的值(或说某特性出现与不出现),在“Present”和“Absent”后面的矩形框中键入用户自己定义的值(当然应该与数据文件中有关的二元变量的值一致)。定义后,系统将忽略其他值。如果不进行自定义,那么,1代表某事件发生“Present”,0代表某事件不发生“Absent”。 

③数据标准化的方法

选择数据标准化的方法在“Transform Values”栏中进行。鼠标对准“Standardize”框右边的向下箭头按钮,单击鼠标展开标准化方法列表。只有等间隔测度的数据(选择了Interval)或计数数据(选择了Counts)才可以进行标准化。 

对数据进行标准化的可选择的方法有: 

l None 选项,不进行标准化。是系统默认值。

l Z scores 选项,把数值标准化到Z分数。标准化后变量均值为0,标准差为1。

系统将每一个值减去正被标准化的变量或观测量的均值,再除以其标准差。如果

标准差为0,则将所有值置为0。

l Range -1 to 1 选项,把数值标准化到-1到+1范围内。选择该项,对每个值用正在

被标准化的变量或观测量的值的范围去除。如果范围为0,所有值不变。

l Range 0 to 1选项,把数值标准化到0到1的范围内,对正在被标准化的变量或观

测量的值剪去正在被标准化的变量或观测量的最小值,然后除以范围。如果范围

是0,将所有变量值或观测量值设置为0.5。

l Maximum magnitude of 1 选项,把数值标淮化到最大值为1。该方法是把正在标

123

124

准化的变量或观测量的值用最大值去除。如果最大值为0,则用最小值的绝对值除再加1。

l Mean of 1 选顶,把数值标准化到一个均值的范围内,对正在被标准化的变量或观测量的值除以正在被标推化的变量或观测量的值的均值。如果均值是0,对变量或观测量的所有值都加1,使其均值为1。

l Standard deviation of 1 选项,把数值标准化到单位标难差。该方法对每个值除以正在被标准化的变量或观测量的标准差,如果标准差为0,则这些值保持不变。 选定哪种标准化的方法,就用鼠标对准哪一项,单击鼠标即可完成选择。 本例子选中“Range 0 to 1”项,对变量进行标准化到0到1的范围内。

④ 选择测度的转换方法

可选择的转换方法有3种,在量“Transform Measure ”栏中选择。

l Absolute Values 复选项,把距离值取绝对值。当数值符号表示相关方向,且只对负相关关系感兴趣时使用此方法进行变换。

l Change sign 复选项,把相似性值变为不相似性值或相反。用求反的方法使距离顺序颠倒。

l Rescale bo 0~1 range 复选项,通过首先减去最小值然后除以范围的方法使距离标推化。

对于已经按某种计算方法计算了相似性或不相似性测度的一般不再使用此方法进行转换。如果使用的是已经存在的矩阵,可以选择此类选择项,对输入矩阵进行必要的转换。

选择项选择完成后,按“Continue ”按钮,返回到主对话框。 本例不做测度转换,因此不作选择。

9)选择要存入数据文件的新变量

聚类分析的结果可以用新变量保存在工作数据文件中。单击主对话框的“save”按钮,打开相应的对话框,如图8-10所示。可以看出只能生成一个表明参与聚类的个体最终被分配到哪一类的新变量。 

8-10 保存新变量对话框 

125

通过对话框可以选挥是否建立新变量和建立的新变量含义。有如下选择: l None 选项,不建立新变量。 

l Single solution 选项,即单一结果。生成一个新变量,表明每个个体聚类最后所属的类。在该项后面的矩形框中指定类数。如果指定“5 cluters”,则新变量的值为1~5。 l Range of solutions 选项,即指定范围内的结果。生成若干个新变量,表明聚为若干个类时,每个个体聚类后所属的类。在该项后面的矩形框中指定显示范围,即把表示从第几类显示到第几类的数字分别输入到From后面的矩形框和through后面的矩形框中。例如输入结果是“From 4,through 6”,在聚类结束后在数据窗中原变量后面增加了3个新变量分别表明分为4类时、分为5类时和分为6类时的聚类结果。即聚为4、5、6类时各观测量分别属于哪一类。 新变量选择完成后,按“Continue”按钮,返回到主对话框。 本例选中“None”项,不建立新变量 

10)提交设置执行过程

各种选择项确定之后返回到主对话框,点击“OK”按钮,SPSS输出结果将显示在输出浏览器和数据编辑窗口工作文件中。 

8.2.2 结果解释 

我们在“Statistic ”中选择了“Agglomeration schedule ”项,输出聚类过程表如表8-8。 在表头给出了“Ward Linkage”说明聚类方法是我们在“Cluster Method ”框中选择了“Ward’s method ” 最小偏差平方和方法。 表中Stage 聚类步顺序号。(Cluster Combined )Cluster 1、 Cluster 2是该步合并的两类观测量号。Coefficients 距离测度值,表明不相似的系数。Stage Cluster First Appears 合并两项第一次出现的聚类步序号,Cluster 1 和Cluster 2均值为0的是两个观测量合并;其中有一个为0的是观测量与类合并;两个值均为非0值的是两个类合并。Next Stage 此步合并的结果在下一步合并时的步序号。

表8-8 聚类过程表

Agglomeration Schedule

Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2

Coefficients Cluster 1 Cluster 2

Next Stage

1 7 20 5.157E-02

0 0 6

2 22 25 .11

3 0 0 7 3

4

5 .177 0 0 11 4 11 12 .269 0 0 10 5 15 1

6 .414 0 0 18 6

7 14 .566 1 0 13 7 22 26 .717 2 0 12

8 8

9 .897 0 0 16 9 2 3 1.081 0 0 19 10 10 11 1.265 0 4 13 11

4 6

1.464

3 0

14

12 22 27 1.697 7 0 17

13 7 10 1.958 6 10 23

14 1 4 2.235 0 11 22

15 17 21 2.514 0 0 19

16 8 18 2.836 8 0 21

17 22 23 3.186 12 0 23

18 15 19 3.535 5 0 21

19 2 17 3.971 9 15 22

20 13 24 4.437 0 0 25

21 8 15 5.079 16 18 24

22 1 2 5.769 14 19 26

23 7 22 6.500 13 17 24

24 7 8 7.531 23 21 25

25 7 13 8.839 24 20 26

26 1 7 11.011 22 25 0

表8-9 冰柱图可以清楚地看到全步聚类过程,哪一步哪几个观测量聚为一类。在表中缺少“×”处为分类边界,例如表中第3步在13号观测量(1974年)后缺少了“×”,意思就是把前面24号观测量(样本)和13号观测量聚为一类,再向右看,按此方法又可把19、16、15、18、9…等观测样本分为另一类,余下的21、17、3、2、6、5、4、1观测样本又分为另一类,共聚为3类。

表8-9 冰柱图(部分)Vertical Icicle

Case

Number of

clusters

24:

1985

13:

1974

19:

1980

16:

1977

15:

1976

18:

1979

9:

1970

1 X X X X X X X X X X X X X

2 X X X X X X X X X X X X X

3 X X X X X X X X X X X X

4 X X X X X X X X X X X X

5 X X X X X X X X X X X X

6 X X X X X X X X X X X

7 X X X X X X X X X X X

8 X X X X X X X X X X

9 X X X X X X X X X X

10 X X X X X X X X X

11 X X X X X X X X X

12 X X X X X X X X

13 X X X X X X X X

14 X X X X X X X X

15 X X X X X X X X

16 X X X X X X X X

17 X X X X X X X X

18 X X X X X X X X

19 X X X X X X X X

20 X X X X X X X X

21 X X X X X X X X

22 X X X X X X X

23 X X X X X X X

24 X X X X X X X

25 X X X X X X X

26 X X X X X X X

126

图8-11 聚类树形图

图8-11 聚类树形图比冰柱图更为直观反映聚类的全过程。可以在此图上用一把尺子垂直方向放在图上左右移动,与尺子相交的每一根横线就是一类。每根横线左端与之联系的各观测量就是分到该类的成员。大致观察一下,决定如何分类合适。图上方的数字是按距离比例进行重新标定的结果。不影响对分类结果的观察与结论。

从聚类树形图看,把1992-1998年三化螟种群发生情况分为4类时比较恰当(类间距离比较大)。

第1类是1962、1963、1964、1965、1966、1967、1978、1982年。 

第2类是1968、1971、1972、1973、1975、1981、1983、1984、1986、1987、1988年。 

第3类是1970、1976、1977、1979、1980、1989年。 

第4类是1974、1985年。 

从聚类情况计算各类变量的平均数值见表8-10 

表8-10 三化螟不同类别年均值 

幼虫发生量发生期增殖系数类别

第2代第3代第2代第3代F2-F3 F3-F4

1 282.63 2739.88 33.50 17.38 10.3000 1.3825

2 394.45 1135.18 34.64 21.09 2.217

3 .6209

3 557.50 824.00 35.33 22.00 1.3300 2.8400

4 2171.50 5076.00 26.50 17.00 2.3000 .7250

从表进一步分析得出:第1类是三化螟重发生年类型;第2、3类是偏轻发生年类型,第

2类是3代多发型,第3类是4代多发型;第4类是猖獗发生年类型。

127

完整word版,SPSS聚类分析实验报告.docx

SPSS 聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练 SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T 检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用 K-Mean法把 31 省分成 3 类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从 Word文档复制到 Excel ,并进一步导入到 SPSS数据文件中。 分析:由于本实验中要对 31 个个案进行分类,数量比较大,用系统聚类法当然也 可以得出结果,但是相比之下在数据量较大时, K 均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出 =各变量之和如图所示: 2.对变量食品支出和居住支出进行配对样本 T 检验,如图所示:

得出结论: 3.对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

初始聚类中心 聚类 123 食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02 迭代历史记录a 聚类中心内的更改 迭代123 11250.5921698.8651216.114 2416.86470.786173.731 3138.955 2.94924.819 446.318.123 3.546 5849.114319.1791362.411 6805.00415.199606.915 7161.001.72475.864 832.200.0349.483 9 6.440.002 1.185 10 1.2887.815E-5.148

SPSS因子聚类案例分析报告

S P S S因子聚类案例分析 报告 GE GROUP system office room 【GEIHUA16H-GEIHUA GEIHUA8Q8-

喀什大学实验报告 《多元统计分析SPSS》 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院: xxx学院年级专业班: xxx班 学生姓名: xxx 学号: 20131808015 完成时间: 2016年x月x日 开课时间: 2016 至 2017 学年第 1 学期

实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: 十家同类型上市商业银行2012年指标 (三)实验步骤 1、选择菜单

2、选择参与因子分析的变量到(变量V)框中 3、选择因子分析的样本 4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等 5、在所示窗口中点击(抽取E)按钮指定提取因子的方法为:主成分分析法 6、在所示的窗口中点击(旋转T)按钮选择因子旋转方法

SPSS聚类分析和判别分析论文

S P S S聚类分析和判别分析 论文 Prepared on 22 November 2020

基于聚类分析的我国城镇居民消费结构实证分析摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍存在较大差别。文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。 关键词:消费结构;聚类分析;判别分析;政策建议; 一、引言 近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象也得到了一定程度的调整。但是,由于各地区的经济发展不平衡及原有经济基础的差异,使各地区的消费结构仍存在着明显差别。为了进一步改善消费结构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和谐增长提供决策依据。 二、消费结构的数据分析 消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替代、制约的关系。就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需求结构,体现一国或各地区的经济发展水平和居民生活状况。 (一)数据来源 为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示),对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务八项指标,分别用来反映较高、中等、较低居民消费结构。

SPSS因子、聚类案例分析报告.pdf

喀什大学实验报告 《多元统计分析SPSS》 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院: xxx学院年级专业班: xxx班 学生姓名: xxx 学号: XXXX1808015 完成时间: XXXX年x月x日 开课时间: XXXX 至 2017 学年第 1 学期

实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其XXXX 年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: 十家同类型上市商业银行XXXX年指标 (三)实验步骤 1、选择菜单

2、选择参与因子分析的变量到(变量V)框中 3、选择因子分析的样本 4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等 5、在所示窗口中点击(抽取E)按钮指定提取因子的方法为:主成分分析法 6、在所示的窗口中点击(旋转T)按钮选择因子旋转方法

SPSS教程-聚类分析-附实例操作

各地区各行业工资水平的分析(2009年数据) 小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍 1.研究背景及意义 1.1 研究背景 工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的水平。 1.2 研究意义 1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。 2. 将平均工资水平划分为3类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供宏观上的方向指引。 2.数据来源与描述 2.1 数据来源——《中国劳动统计年鉴─2010》 (URL:https://www.doczj.com/doc/46424690.html,/Navi/YearBook.aspx?id=N2011010069&floor=1###) 主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司 出版社:中国统计出版社 简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。 2.2 数据描述 本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地产业、农林牧渔业等等,具体数据格式参见图-0。

图-0 3.分析方法及原理 3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高 描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始的,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。 在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业……)工资的均值、极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。 3.2 通过聚类分析方法,判断哪些地区平均工资水平较高 聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。 在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-均值法(快速聚类法)。 3.2.1系统聚类法 系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。 在本例中进行的是Q型聚类。 类与类之间距离的计算方法主要有以下几种: (1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值; (2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值; (3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;

SPSS因子、聚类案例分析报告

喀什大学实验报告 《多元统计分析SPSS 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院: XXX学院年级专业班:XXX班 学生姓名:XXX 学号:20131808015 完成时间:2016 年X月X日 开课时间:2016 至2017 学年第1 学期

实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到 对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: (三)实验步骤 1、选择菜单

2、选择参与因子分析的变量到(变量V)框中 3、选择因子分析的样本 4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图 5、在所示窗口中点击(抽取E)按钮指定提取因子的方法为: 6在所示的窗口中点击(旋转T)按钮选择因子旋转方法 形等 Vi 93 23% U12K15.&*% 8 3JK. i4 ir% riOM TSO' 開 W05% 3 6?% 12 1] tpSJKr?- 113TM ? 07%W U% 124SS 26 £5%谄01% ?心羽也帕J叽 越雀IB23% 42% U W% ig> 13 DQ% 31%. T6(H% 馬* K.Dfi% fld% 昭卿驚 主成分分析法 1 42% 0 6S% 44 越鴨 1韵飓?的恤站20% 髄 # A#*/#*

聚类分析的案例分析(推荐文档)

《应用多元统计分析》 ——报告 班级: 学号: 姓名:

聚类分析的案例分析 摘要 本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析,从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区的 气体浓度的情况,从而判断出这几个地区的污染程度。 经过聚类分析可以得到,样本6这一地区的气体浓度值最高,污染程度是最严重的,样本3和样本4气体浓度较高,污染程度也比较严重,因此要给予及时的控制和改善。 关键词:SPSS软件聚类分析学生成绩

一、数学模型 聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相 似性。可以根据这些相似性把相似程度较高的归为一类,从而对其总体进行分析和总结,判断其之间的差距。 系统聚类法的基本思想是在这几个样本之间定义其之间的距离,在多个变量之间定义其相似系数,距离或者相似系数代表着样本或者变量之间的相似程度。根据相似程度的不同大小,将样本进行归类,将关系较为密切的归为一类,关系较为疏远的后归为一类,用不同的方法将所有的样本都聚到合适的类中,这里我们用的是最近距离法,形成一个聚类树形图,可据此清楚的看出样本的分类情况。 K 均值法是将每个样品分配给最近中心的类中,只产生指定类数的聚类结果。 二、数据来源 《应用多元统计分析》第一版164 页第6 题 我国山区有一某大型化工厂,在该厂区的邻近地区中挑选其中最具有代表性的 8 个大气取样点,在固定的时间点每日 4 次抽取6 种大气样本,测定其中包含的8 个取样点中每种气体的平均浓度,数据如下表。试用聚类分析方法对取样点及 大气污染气体进行分类。 三、建立数学模型 一、运行过程

spss样本聚类案例分析

原数据 1.1样本聚类(Q聚类)

聚类表 阶 群集组合 系数首次出现阶群 集 下一阶 群集 1群集 2群集 1群集 2 157.855003 21112 1.379007 325 1.772015

41014 1.776007 526 2.451308 6813 2.7720010 71011 4.3224212 812 4.5570512 934 4.8950013 10815 5.5006011 11897.74010013 121108.3148714 133812.79091114 141316.65012130通过系数做出其散点图 群集成员 案例 5 群集 4 群集 3 群集

1:Case 1 111 2:Case 2 111 3:Case 3 222 4:Case 4 222 5:Case 5 111 6:Case 6 111 7:Case 7 111 8:Case 8 333 9:Case 9 433 541 10:Case 10 541 11:Case 11 12:Case 541 12 333 13:Case 13 14:Case 541 14 15:Case 333 15

1.2变量聚类(R聚类) 近似矩阵 案例矩阵文件输入 总人口从业人 员 土地面 积 耕地面 积 财政收 入 粮食产 量 总人口 1.000.857.698.714.512.043从业人 员 .857 1.000.597.570.643.277 土地面 积 .698.597 1.000.856.044-.147 耕地面 积 .714.570.856 1.000-.001-.335

聚类分析的SPSS实现

§7.5聚类分析的SPSS实现 一、系统聚类法的SPSS实现 例7.5.1利用全国30个省市自治区经济发展基本情况的八项指标数据(见数据集wyzb6_5.),用系统聚类法对这30个省市自治区作一初步的分类,并说明各类地区经济发展的特点。 操作 分析(Analyze)?分类(Classify)?系统聚类(Hierarchical Cluster)打开系统聚类分析(Hierarchical Cluster Analysis)对话框 1.变量(V ariable(s))列表框设置分析变量。 2.标志个案(Label Cases by)框设置分析对象的标志变量。3.分群(Cluster)单选择框设置聚类分析的类型。 4.输出(Display)复选择框设置聚类分析的输出结果,统计量和图都是默认选项。 5.统计量(Statistics)按钮设置输出的统计量。 合并进程表(Agglomeration schedule)默认选项,输出聚类分析的凝聚状态表; 相似性矩阵(Proximitymatrix)为复选项,输出各样品的距离矩阵。 聚类成员(Cluster Menbership)选择框: 无(None)选项:不显示类的样品构成; 单一方案(Single solution)选项:选择此项,并输入一个确定的分类数n,并输出聚成n个类时各个类的样品构成 情况。 方案范围(Range of solutions):选择此项,并输入两个数n1,n2,将显示指定聚成n1类到n2类时各个类的样品构成 情况。

6.Plots按钮设置输出图形:树状图冰状图 7.Method按钮设置聚类分析的具体方法。 聚类方法: 组间连接:类间平均法 组内连接:类内平均法 最近临元素:最短距离法 最远临元素:最长距离法 质心聚类法:重心法 中位数聚类法:中位数法 Ward法:离差平方和法 度量方法选择框:选择计算样品距离的方法转换值选择框:选择原始数据标准化的方法Z得分,最常用的方法

SPSS软件聚类分析过程的图文解释及结果的全面分析

SPSS聚类分析过程 聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化) 2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数) SPSS软件聚类步骤 1. 数据预处理(标准化) →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可: 标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|x ij*|<1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。);Range 0 to 1(极差正规化变换/ 规格化变换); 2. 构造关系矩阵 在SPSS中如何选择测度(相似性统计量): →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数; 3. 选择聚类方法 SPSS中如何选择系统聚类法 常用系统聚类方法 a)Between-groups linkage 组间平均距离连接法 方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类)特点:非最大距离,也非最小距离 b)Within-groups linkage 组内平均连接法 方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小 C)Nearest neighbor 最近邻法(最短距离法) 方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法 d)Furthest neighbor 最远邻法(最长距离法)

SPSS因子、聚类案例分析报告.doc

《多元统计分析SPSS》 实验报告 实验课程:基于 SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室学院: xxx 学院年级专业班: xxx 班 学生姓名:xxx 学号: 015 完成时间:2016 年 x 月 x 日 开课时间:2016 至 2017 学年第 1 学期 成绩 教师签名 批阅日期

实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到 对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012 年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了 8 个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞 争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进 行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比 较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进 行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况 的因素与上述指标是否有关。 具体数据如下所示: 十家同类型上市商业银行2012 年指标 盈利能力安全能力发展能力 资产利润资产负债资本充足每股收益贷款增长存款增长总资产增 率不良贷款率 率率增长率率率长率 平安银行% % % % % % % % 浦发银行% % % % % % % % 建设银行% % % % % % % % 中国银行% % % % % % % % 农业银行% % % % % % % % 工商银行% % % % % % % 10% 交通银行% % % % % % % % 招商银行% % % % % % % % 中信银行% % % % % % % % 民生银行% % % % % % % % (三)实验步骤 1、选择菜单

SPSS因子聚类案例分析报告

S P S S因子聚类案例分 析报告 集团标准化工作小组 [Q8QX9QT-X8QQB8Q8-NQ8QJ8-M8QMN]

喀什大学实验报告《多元统计分析SPSS》 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院: xxx学院年级专业班: xxx班 学生姓名: xxx 学号:5 完成时间: 2016年x月x日 开课时间: 2016 至 2017 学年第 1 学期

实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: 十家同类型上市商业银行2012年指标 (三)实验步骤 1、选择菜单 2、选择参与因子分析的变量到(变量V)框中 3、选择因子分析的样本 4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等

SPSS因子、聚类案例分析报告

时磊忖呎I I 喀什大学实验报告 《多元统计分析SPSS 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院:XXX学院年级专业班:XXX班 学生姓名:XXX 学号:20131808015 完成时间:2016 年X月X日 开课时间:2016 至2017 学年第1 学期

时需Sr彳 实验项目:中国上市银行竞争力分析 (一)实验目的 本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012 年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: (三)实验步骤 1、选择菜单

附磊册说 2、选择参与因子分析的变量到(变量V )框中 箱c±% *6 W% 3M% 3、选择因子分析的样本 4、在所示窗口中点击(描述D )按钮,指定输出结果,输出基本统计量、图 6在所示的窗口中点击(旋转 T )按钮选择因子旋转方法 5、在所示窗口中点击(抽取E )按钮指定提取因子的方法为: 主成分分析法 即竭 14 10% ■j L.*v Ttt'-% 3 51% 1 ?w ■1 1鼠典 11 3TM 12 M 2JW P-3% ?aw 形等 0 99% S314A2K 13 54% ■V 何粘 2%

spss 聚类分析例题

1.打开数据文件后,在数据编辑窗口中,从菜单栏中选择“分析”—“分类”—“k-均值 聚类”命令。 2.在该对话框中选择变量城市进入“个案标记依据”文本框,作为标签变量。把聚类数标 记为4次。 3.选择变量一至十二月份的日照时数进入“变量”列表框作为观测变量。 4.单击“迭代”按钮,迭代次数为10次,收敛性标准为0. 5.单击“保存”按钮,选择“聚类成员”。 6.单击“选项”按钮,选择“初始聚类中心”和“ANOVA表”,要求输出方差分析表,单 击“继续”。 7.单击“确定”按钮,执行快速聚类分析。 [数据集1] C:\Documents and Settings\Administrator\桌面\ch9\主要城市日照时数.sav 初始聚类中心 聚类 1 2 3 4 一月日照时数89.10 9.00 230.10 121.70 二月日照时数145.40 45.00 215.30 104.40 三月日照时数153.20 49.20 234.20 55.30 四月日照时数258.50 150.50 207.10 83.40 五月日照时数284.00 99.60 196.80 125.00 六月日照时数309.70 99.10 122.60 176.50 七月日照时数320.80 190.90 151.10 155.80 八月日照时数292.80 175.40 151.30 167.10 九月日照时数266.10 80.20 127.10 185.00 十月日照时数223.70 33.00 146.70 246.50 十一月日照时数95.00 38.50 148.70 165.10 十二月日照时数57.30 4.30 173.10 181.60

SPSS聚类分析实验报告

SPSS聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用K-Mean法把31省分成3类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。 分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出=各变量之和如图所示: 2. 对变量食品支出和居住支出进行配对样本T检验,如图所示:

得出结论: 3. 对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

迭代历史记录a 迭代 聚类中心内的更改 1 2 3 1 2 3 4 .123 5 6 7 .724 8 .034 9 .002 10 .148 初始聚类中心 聚类 1 2 3 食品支出 衣着支出 居住支出 家庭设备及服务支出 医疗保健支出 交通和通信支出 文化与娱乐服务支出 其它商品和服务支出 总消费支出

SPSS聚类分析加具体案例

六、聚类分析 (一)概述 1.聚类分析的目的 根据已知数据,计算样本或者变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最初达到的就是将样本或变量分成若干类。 2.聚类分析的分类 3.距离与相似性 为了对样本或者变量进行分类,就需要研究样本之间的关系,最常用的方法有两个。

(二)系统聚类 1.系统聚类的步骤 距离的具体定义及计算方式 计算n各样本两两之间的距离 将距离接近的数据依次合并为一类,再计算,再合并 画聚类图,解释类与类之间的关系 2.亲疏程度度量方法 3.系统聚类的分类

4.SPSS操作及实例 SPSS采用的是凝聚法。 案例:根据30个省的23个主要行业的平均工资情况,通过聚类分析来判断哪些地区平均工资水平高。 SPSS操作及结果: 打开SPSS上方菜单栏中的分析->分类->系统聚类 选择变量->勾选统计量->在绘制里选择树状图和冰柱图 勾选方法(通常使用组间联接)->度量区间->选择标准化方式(全距从0到

1) 下图为近似矩阵表,标注了相关系数,数值越大,距离越接近 下图为聚类分析结果表,第一类表示这是聚类分析的第几步,第二三列表示该步中那几个样本或者小类聚成一类,第四列表示距离,第五六列表示本步骤中参与的是个体还是小类(0表示样本,非0表示第n步生成的小类),第七列表示本步骤的聚类结果将在以下第几步中用到。

下面是冰柱图和树状图的结果,根据树状图可以看出,如果分为三类的话,第一类包括北京上海,第二类包括天津、广东、浙江、江苏、西藏,剩下的归为一类。 (三)快速聚类(适合大样本聚类) 1.快速聚类的步骤 指定聚类数目K 确定K个初始类的中心(自定义或者根据数据中心初步确定) 根据距离最近的原则进行分类 根据新的中心位置,重新计算每一记录距离新的类别中心的的距离,并重新分类 重复步骤4,直到达到标准

SPSS因子、聚类案例分析报告

《多元统计分析SPSS 实验报告 实验课程:基于SPSS的数据分析 实验地点:现代商贸实训中心实验室名称:经济统计实验室 学院: XXX学院年级专业班:XXX班 学生姓名:xxx 学号:015 完成时间:2016 年X月X日 开课时间:2016 至2017 学年第1 学期 实验项目:中国上市银行竞争力分析 (一)实验目的

本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到 对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012 年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重 要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。 (二)实验资料 通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。 具体数据如下所示: (三)实验步骤 1、选择菜单 2、选择参与因子分析的变量到(变量V)框中 3、选择因子分析的样本 4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等

5、在所示窗口中点击(抽取E)按钮指定提取因子的方法为:主成分分析法 6在所示的窗口中点击(旋转T)按钮选择因子旋转方法 7、在所示窗口中点击(得分S)按钮选择计算因子得分的方法 8、在所示窗口中点击(选项)按钮 (四)实验结果及分析分析结果如下表所示。

相关主题
文本预览
相关文档 最新文档