当前位置：文档之家› 聚类分析与判别分析实验报告

聚类分析与判别分析实验报告

多元统计分析实验报告

——研究房价与人民生活水平的关系

一、实验目的

本文旨在研究全国各省市住宅型商品房的平均价格水平，同时分析各省市住宅型商品房平均销售价格与其人民生活水平的关系。本文将用各省市人均GDP、城镇居民人均可支配收入、农村居民人均纯收入三个变量来衡量各省市的人民生活水平。住宅型商品房平均销售价格应该与人民生活水平成正相关关系。接下来，本文不仅要根据2012年全国各省市住宅型商品房平均销售价格如表1-1进行聚类分析和判别分析，还会根据2012年全国各省市人民生活水平数据如表1-2进行聚类分析与判别分析，观察房价较高的省市与人民生活水平较高的省市是否相符合，用以评价各省市房地产市场的定价是否符合该省市人民生活水平。

表1-1 2012年全国各省市住宅型商品房平均销售价格（元/平方米）

地区X 地区X

北京16553.48 湖南3669.63

天津8009.58 广东7667.89

河北4141.96 广西3909.83

山西3690.88 海南7811.26

内蒙古3656.41 重庆4804.80

辽宁4717.21 四川4959.19

吉林3875.10 贵州3695.36

黑龙江3725.51 云南3861.01

上海13869.88 西藏2982.19

浙江10679.69 甘肃3376.08

安徽4495.12 陕西4803.05

福建8365.92 青海3692.21

江西4381.18 宁夏3620.77

山东4556.63 新疆3593.82

河南3511.26 江苏6422.85

湖北4668.00

其中，X表示住宅型商品房平均销售价格。

数据来源：国家统计局、各省市统计部门官方网站。

表1-2 2012年全国各省市人民生活水平数据单位：元

1X 人均GDP

2X 城镇居民人均PI

3X 农村人均纯收入

北京 88167.51 36469.00 16476.00 上海 85630.13 40188.00 17605.00 浙江 63346.70 34550.00 14552.00 广东 54324.53 30227.00 10542.80 江苏 68438.52 29677.00 12202.00 天津 95123.06 29626.00 13537.00 福建 52961.77 28055.00 9967.00 山东 51895.49 25755.00 9446.00 辽宁 56585.22 23223.00 9384.00 吉林 43419.57 20208.00 9224.00 黑龙江 35710.93 17760.00 8604.00 河北 36703.23 20543.00 8081.00 湖北 38642.17 20840.00 7851.70 江西 28848.51 19860.00 7828.00 内蒙古 64424.69 23150.00 7611.00 河南 31753.45 20443.00 7524.94 湖南 33589.41 21319.00 7440.00 海南 32543.03 20918.00 7408.00 安徽 28840.57 21024.00 7160.50 四川 29627.08 20307.00 7001.00 重庆 39256.59 22968.00 7383.00 新疆 33803.99 17921.00 6394.00 山西 33709.62 20412.00 6356.60 宁夏 36285.02 19831.00 6180.30 广西 28053.91 21243.00 6008.00 陕西 38612.68 20734.00 5763.00 西藏 23051.53 18028.00 5645.00 贵州 19608.53 18701.00 5616.00 云南 22262.58 21075.00 5417.00 青海 33168.59 17566.00 5364.38 甘肃

22035.03

17157.00

4495.00

数据来源：国家统计局、各省市统计部门官方网站。

二、实验过程

（一）2012年全国各省市住宅型商品房平均销售价格分析

基于SPSS 16.0，对2012年全国各省市住宅型商品房平均销售价格进行系统聚类分析，得到结果如下。

表2-1为参与系统聚类分析的样本统计表。表中显示，有效值为31个，无缺失值。分析中选择的聚类方法为类间连接法，距离测度方法为欧式距离的平方。

表2-1 样本统计表

Case Processing Summarya,b

Cases

Valid Missing Total

N Percent N Percent N Percent

31 100.0 0 .0 31 100.0

a. Squared Euclidean Distance used

b. Average Linkage (Between Groups)

表2-2为系统聚类进度表。类合并的详细步骤都体现了出来。在第一步中，将类4和类28合并成一类，其距离测度系数为1.769，合并两项都是第一次出现，故第一次出现的步序号都为0，合并结果取小的序号4，并在“Next Stage”表示的步中出现，即第三步出现。依次类推。

表2-2 系统聚类进度表

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 4 28 1.769 0 0 3

2 21 27 3.062 0 0 13

3 4 23 14.996 1 0 7

4 5 17 174.768 0 0 7

5 7 24 198.528 0 0 8

6 29 30 726.302 0 0 12

7 4 5 935.063 3 4 9

8 7 19 1794.783 5 0 17

9 4 8 2222.907 7 0 12

10 6 16 2421.624 0 0 13

11 11 14 3783.480 0 0 16

12 4 29 7219.105 9 6 17

13 6 21 12998.314 10 2 18

14 15 26 18273.632 0 0 20

15 18 20 20554.957 0 0 19

16 11 13 21882.513 11 0 21

17 4 7 47806.267 12 8 20

18 6 22 47890.477 13 0 21

19 2 18 78041.439 0 15 23

20 4 15 94886.761 17 14 22

21 6 11 112970.372 18 16 25

22 3 4 230612.882 0 20 24

23 2 12 307290.597 19 0 26

24 3 25 570484.836 22 0 25

25 3 6 1.108E6 24 21 29

26 2 31 2.443E6 23 0 28

27 1 9 7.202E6 0 0 30

28 2 10 9.581E6 26 0 29

29 2 3 1.908E7 28 25 30

30 1 2 1.120E8 27 29 0

表2-3是系统聚类成员表。该表显示，若聚成3类，则分类结果为：

第一组：北京、上海；

第二组：天津、浙江、广东、江苏、海南、福建；

第三组：山西、青海、贵州、内蒙古、湖南、黑龙江、宁夏、新疆、吉林、云南、广西、河南、甘肃、河北、西藏、安徽、山东、江西、重庆、山西、辽宁、湖北、四川。

表2-3 系统聚类成员表

Cluster Membership

Case 6 Clusters 5 Clusters 4 Clusters 3 Clusters

1:北京 1 1 1 1

2:天津 2 2 2 2

3:河北 3 3 3 3

4:山西 3 3 3 3

5:内蒙古 3 3 3 3

6:辽宁 3 3 3 3

7:吉林 3 3 3 3

8:黑龙江 3 3 3 3

9:上海 4 4 1 1

10:浙江 5 5 4 2

11:安徽 3 3 3 3

12:福建 2 2 2 2

13:江西 3 3 3 3

14:山东 3 3 3 3

15:河南 3 3 3 3

16:湖北 3 3 3 3

17:湖南 3 3 3 3

18:广东 2 2 2 2

19:广西 3 3 3 3

20:海南 2 2 2 2

21:重庆 3 3 3 3

22:四川 3 3 3 3

23:贵州 3 3 3 3

24:云南 3 3 3 3

25:西藏 3 3 3 3

26:甘肃 3 3 3 3

27:陕西 3 3 3 3

28:青海 3 3 3 3

29:宁夏 3 3 3 3

30:新疆 3 3 3 3

31:江苏 6 2 2 2

表2-4为系统聚类树状图，该图显示了样本逐步合并的过程。其结果与系统

聚类进度表反应的结果一致。

表2-4 系统聚类树状图

* * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

山西 4 ─┐

青海 28 ─┤

贵州 23 ─┤

内蒙古 5 ─┤

湖南 17 ─┤

黑龙江 8 ─┤

宁夏 29 ─┤

新疆 30 ─┤

吉林 7 ─┤

云南 24 ─┤

广西 19 ─┤

河南 15 ─┤

甘肃 26 ─┤

河北 3 ─┤

西藏 25 ─┤

安徽 11 ─┼───────┐

山东 14 ─┤│

江西 13 ─┤│

重庆 21 ─┤│

陕西 27 ─┤│

辽宁 6 ─┤│

湖北 16 ─┤├───────────────────────────────────────┐

四川 22 ─┘││

广东 18 ─┐││

海南 20 ─┤││

天津 2 ─┤││

福建 12 ─┼───┐││

江苏 31 ─┘├───┘│

浙江 10 ─────┘│

北京 1 ───┬─────────────────────────────────────────────┘

上海 9 ───┘

基于spss 16.0，对2012年全国各省市住宅型商品房平均销售价格做判别

分析得到结果如下所示。

表2-5为组数据统计表，可以看出，房价最高的为第一组，均值为15212元每平方米，其次是第二组，为8159.5元每平方米，最后是第三组，均值为4016.8元每平方米。

表2-5 组数据统计表

Group Statistics

Average Linkage (Between Groups) Mean Std. Deviation

Valid N (listwise) Unweighted Weighted

1 住宅行性商品房家平均销售价

格（元/平方米）

1.5212E4 1897.59176 2

2.000

2 住宅行性商品房家平均销售价

格（元/平方米）

8.1595E3 1399.66764 6 6.000

3 住宅行性商品房家平均销售价

格（元/平方米）

4.0168E3 543.08589 23 23.000

Total 住宅行性商品房家平均销售价

格（元/平方米）

5.5409E3 3170.17410 31 31.000

表2-6为组间均值相等性检验。原假设为3组均值相等。伴随概率为0.000，小于常用显著性水平0.05，所以拒绝原假设，认为3组均值显著不相等。

表2-6 组间均值相等性检验

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

住宅行性商品房家平均销售价

格（元/平方米）

.066 198.271 2 28 .000 表2-8是协方差矩阵相等性检验——Box’s M检验成果表。表中列出了

Box’s M值、近似F值、第一自由度、第二自由度和显著性概率。零假设为组的协方差矩阵相等。由于显著性概率小于0.05，所以拒绝原假设，认为协方差矩阵不相等，即差异显著。

在前面我们说到，均值相等性检验表明各组均值显著不相等。但是均值相等性检验的前提是协方差矩阵相等。而协方差矩阵显著不相等，使得均值相等性检验没有了讨论的前提，是不准确的。

表2-7 协方差矩阵相等性检验——Box’s M 值检验

Test Results

Box's M 12.635

F Approx. 5.780

df1 2

df2 98.396

Sig. .004

Tests null hypothesis of equal

population covariance matrices.

表2-8为特征值表。表中显示判别函数的特征值为14.163，占总方差的百分比为100%，第一变量解释了96.2%的总方差。

表2-8 特征值表

Eigenvalues

Functio

n Eigenvalue % of Variance Cumulative % Canonical Correlation

1 14.162a100.0 100.0 .966

a. First 1 canonical discriminant functions were used in the analysis.

表2-9为Wilk λ值表，表中显示，Wilk λ值为0.066，卡方统计量的值为76.127，自由度为2，伴随概率为0.000，小于常用显著性水平0.05，所以可以拒绝原假设，认为三组均值不相等。

表2-9 Wilk λ值表

Wilks' Lambda

Test of

Functio

n(s) Wilks' Lambda Chi-square df Sig.

1 .066 76.127

2 .000

表2-10为费歇尔线性判别函数系数表。利用该表得到的分类判别函数为：

x f 021.0013.1641+-= x f 011.0973.472+-= x f 006.0458.123+-=

将样本数据代入三个判别函数中，哪个函数的值最大，则该样本就属于哪一类。

表2-10 费歇尔线性判别函数系数表

Classification Function Coefficients

Average Linkage (Between Groups)

1 2 3 住宅行性商品房家平均销售价格（元/平方米） .021 .011 .006 (Constant)

-164.013

-47.973

-12.458

Fisher's linear discriminant functions

（二）2012年全国各省市人民生活水平分析

基于SPSS 16.0，对表1-1数据进行聚类分析与判别分析，得到结果如下所示。

表3-1为聚类分析记录数统计表。由表中可以看出，有效值为31，缺失值为零。聚类方法为组间链接法，距离测度方法为欧式距离的平方。

表3-1 记录数统计表

Case Processing Summary a,b

Cases

Valid Missing

Total

Percent

100.0

0 .0

31 100.0

a. Squared Euclidean Distance used

b. Average Linkage (Between Groups)

表3-2为系统聚类分类表。当分为三组时，分类结果为：

第一组：北京、上海、浙江、天津；

第二组：广东、江苏、福建、山东、辽宁、内蒙古；

第三组：吉林、黑龙江、河北、湖北、江西、河南、湖南、海南、安徽、四川、重庆、新疆、山西、宁夏、广西、陕西、西藏、贵州、云南、青海、甘肃。

Cluster Membership

Case 6 Clusters 5 Clusters 4 Clusters 3 Clusters

1:北京 1 1 1 1

2:上海 1 1 1 1

3:浙江 2 2 1 1

4:广东 3 3 2 2

5:江苏 3 3 2 2

6:天津 4 4 3 1

7:福建 3 3 2 2

8:山东 5 3 2 2

9:辽宁 5 3 2 2

10:吉林 6 5 4 3

11:黑龙江 6 5 4 3

12:河北 6 5 4 3

13:湖北 6 5 4 3

14:江西 6 5 4 3

15:内蒙古 5 3 2 2

16:河南 6 5 4 3

17:湖南 6 5 4 3

18:海南 6 5 4 3

19:安徽 6 5 4 3

20:四川 6 5 4 3

21:重庆 6 5 4 3

22:新疆 6 5 4 3

23:山西 6 5 4 3

24:宁夏 6 5 4 3

25:广西 6 5 4 3

26:陕西 6 5 4 3

27:西藏 6 5 4 3

28:贵州 6 5 4 3

29:云南 6 5 4 3

30:青海 6 5 4 3

31:甘肃 6 5 4 3

表3-3为树状图，其显示的结果与上图一致。

表3-3 系统聚类树状图

* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

湖南 17 ─┐

海南 18 ─┤

河南 16 ─┤

安徽 19 ─┤

四川 20 ─┤

江西 14 ─┤

河北 12 ─┤

湖北 13 ─┤

重庆 21 ─┤

山西 23 ─┤

宁夏 24 ─┤

陕西 26 ─┼─┐

新疆 22 ─┤│

青海 30 ─┤│

吉林 10 ─┤├─────────┐

黑龙江 11 ─┘││

广西 25 ─┐││

云南 29 ─┼─┘│

西藏 27 ─┤├───────────────────────────────────┐

贵州 28 ─┤││

甘肃 31 ─┘││

山东 8 ─┐││

辽宁 9 ─┼───┐││

内蒙古 15 ─┘├───────┘│

广东 4 ─┬─┐││

福建 7 ─┘├─┘│

江苏 5 ───┘│

北京 1 ─┬─────┐│

上海 2 ─┘├─┐│

浙江 3 ───────┘├───────────────────────────────────────┘

天津 6 ─────────┘

表3-4为各组中的数据信息。包括均值、方差等。

表3-4 分组数据信息

Group Statistics

Average Linkage (Between Groups) Mean Std. Deviation

Valid N (listwise) Unweighted Weighted

1 Zscore(人均GDP（元）) 1.9772495

.68797869 4 4.000 Zscore(城镇居民人均PI（元）) 2.0514797

.75222734 4 4.000 Zscore(农村人均纯收入（元）) 2.1470264

.56163376 4 4.000

2 Zscore(人均GDP（元）) .7278890 .3382288

3 6 6.000

Zscore(城镇居民人均PI（元）) .5924543 .53411699 6 6.000

Zscore(农村人均纯收入（元）) .4097317 .46191669 6 6.000

3 Zscore(人均GDP（元）) -5.8458723

E-1

.31737038 21 21.000 Zscore(城镇居民人均PI（元）) -5.6003070

E-1

.25975432 21 21.000 Zscore(农村人均纯收入（元）) -5.2602362

E-1

.36945764 21 21.000 Total Zscore(人均GDP（元）) -3.4381100

E-16

1.00000000 31 31.000

Zscore(城镇居民人均PI（元）) .0000000 1.00000000 31 31.000

Zscore(农村人均纯收入（元）) .0000000 1.00000000 31 31.000 表3-5为均值相等性检验。由表中可以看出，伴随概率均为0.000，小于常用显著性水平0.05，所以拒绝原假设，认为各变量的组均值显著不相等。

表3-5 均值相等性检验表

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

Zscore(人均GDP（元）) .134 90.832 2 28 .000 Zscore(城镇居民人均PI（元）) .149 79.889 2 28 .000 Zscore(农村人均纯收入（元）) .158 74.549 2 28 .000

表3-6为协方差矩阵相等性检验表。零假设为组的协方差矩阵相等。由于显著性概率大于0.05，所以不能拒绝原假设，可以认为各组的协方差矩阵是相等的。

表3-6 协方差矩阵相等性检验表

Test Results

Box's M 30.523 F

Approx. 1.704 df1 12 df2 359.354

Sig.

.064

Tests null hypothesis of equal population covariance matrices.

表3-7为特征值表。由该表可以看出前两个判别函数的特征值分别为

11.475、0.0210，占总方差的百分比分别为98.2%、1.8%。第一个变量解释了98.2%的方差。

表3-7 特征值表

Eigenvalues

Functio n Eigenvalue

% of Variance

Cumulative %

Canonical

Correlation

1 11.475a

98.2 98.2 .959 2

.210a

1.8

100.0

.417

a. First 2 canonical discriminant functions were used in the analysis.

表3-8为费歇尔线性判别函数。三个判别函数分别为：

)(836.0)(526.11)(672.12349.263211X Zscore X Zscore X Zscore f +++-= )(242.3)(461.5)(147.6289.43212X Zscore X Zscore X Zscore f -++-= )(766.0)(765.3)(170.4167.33212X Zscore X Zscore X Zscore f +---=

表3-8 费歇尔先行判别函数

三、实验对比分析结论

表4-1为住宅型商品房价格与人民生活水平的分类对比表。根据统计的2012年的数据，通过对住宅型商品房平均销售价格的聚类分析，将31个省市分别分为3、4、5、6个类，并根据类均值的大小对类进行排名，如表中的三类州中的rank，表示按住宅型商品房价格水平将31个省分为三类时，第一类为北京、上海，且其均值最高，即其房价水平最高，其次是第二类，房价水平最低的是第三类。依次类推，分为4、5、6组的组排名也在表中有所体现。然后再根据收集到的人民生活水平的数据对31个省市进行分类，并根据组均值进行排名。根据这两个数据样本对31个省市进行分类，比较对应组对应水平上的省市是否相似。图中，红色标记和蓝色标记为两列相同的省市。

表4-1 住宅型商品房价格水平与人民生活水平分类对比统计表

住宅型商品房价格与人民生活水平分类对比统计表

分类数rank 住宅型商品房价格人民生活水平

三类1 北京、上海北京、上海、浙江、天津

2 天津、浙江、福建、广东、海南、

江苏

广东、江苏、福建、山东、辽宁、

内蒙古

3 河北、山西、内蒙古、辽宁、吉

林、黑龙江、安徽、江西、山东、

河南、湖北、湖南、广西、重庆、

四川、贵州、云南、西藏、甘肃、

陕西、青海、宁夏、新疆

吉林、黑龙江、河北、湖北、江

西、河南、湖南、海南、安徽、

四川、重庆、新疆、山西、宁夏、

广西、陕西、西藏、贵州、云南、

青海、甘肃

四类1 北京、上海北京、上海、浙江

2 浙江天津

3 天津、福建、广东、海南、江苏广东、江苏、福建、山东、辽宁、

内蒙古

4 河北、山西、内蒙古、辽宁、吉

林、黑龙江、安徽、江西、山东、

河南、湖北、湖南、广西、重庆、

四川、贵州、云南、西藏、甘肃、

陕西、青海、宁夏、新疆

吉林、黑龙江、河北、湖北、江

西、河南、湖南、海南、安徽、

四川、重庆、新疆、山西、宁夏、

广西、陕西、西藏、贵州、云南、

青海、甘肃

五类1 北京北京、上海

2 上海浙江

3 浙江天津

4 天津、福建、广东、海南、江苏广东、江苏、福建、山东、辽宁、

内蒙古

5 河北、山西、内蒙古、辽宁、吉

林、黑龙江、安徽、江西、山东、

河南、湖北、湖南、广西、重庆、

四川、贵州、云南、西藏、甘肃、

陕西、青海、宁夏、新疆

吉林、黑龙江、河北、湖北、江

西、河南、湖南、海南、安徽、

四川、重庆、新疆、山西、宁夏、

广西、陕西、西藏、贵州、云南、

青海、甘肃

六类1 北京北京、上海

2 上海浙江

3 浙江天津

4 天津、福建、广东、海南广东、江苏、福建

5 江苏山东、辽宁、内蒙古

6 河北、山西、内蒙古、辽宁、吉

林、黑龙江、安徽、江西、山东、

河南、湖北、湖南、广西、重庆、

四川、贵州、云南、西藏、甘肃、

陕西、青海、宁夏、新疆

吉林、黑龙江、河北、湖北、江

西、河南、湖南、海南、安徽、

四川、重庆、新疆、山西、宁夏、

广西、陕西、西藏、贵州、云南、

青海、甘肃

由表4-1可以看出，绝大多数住宅型商品房价格水平高的省市，人民生活水平较高，即住宅型商品房价格水平与当地人民生活水平呈现正相关关系。

但是，我们仍然可以观察到，有几个省市住宅型商品房价格以及人民生活水平存在明显地不匹配。如山东、辽宁、内蒙古三个省在人民生活水平中的排名始终比在房价排名上要高出一名。由于我们衡量人民生活水平的数据是人均GDP、城镇居民人均可支配收入、农村居民人均纯收入。所以可以说，这三个省的人民生活水平相对于房价来说，是较为优越的。也可以说，这三个省的房价普遍偏低，人民在购房上的压力普遍偏小。山东、辽宁、内蒙古是正在逐步发展起来的大省，虽然其经济、政治低位在不断上升，朝着北京、上海、广东等传统强势省市靠近，人民生活水平不断提高，但是由于其相对于传统强势省市的硬实力、软实力仍有差距，所以人们对这些省的购房需求并没有实现与高速发展的竞技水平相匹配的程度。随着这三个省市不断地发展经济，不断引进外资，建立高度发展的产业集群，成为人们理想的生活、工作场所，那时，房价定会提升。

同时，海南省也比较特殊。可以看到，海南省的住宅型商品价格水平的排名均比人民生活水平的排名要低一名。说明对于海南省人民来说，海南省的房价水平相对偏高，人们的购房压力相对偏大。海南省住房需求旺盛，不仅与海南快速发展的经济速度相关，还与海南省自然地理优势相关。海南是我国的第二大岛屿省，环境优美、空气清新，是生活、工作的理想场所。

最后，还有一点需要提及的是，就算人民生活水平和住宅型商品房价格在同一水平上的省份，其房价也有可能过高。比如，2012年北京的住宅型商品房平均销售价格为16553.48（元/平方米），而北京城镇居民人均可支配收入为36469元，也就是说，平均上来说，城镇居民一年的可支配收入仅能够购买到两平方米的住宅型商品房，房价相对于收入水平来说过高。上海也是如此。北京、上海等地房价过高主要是住房需求过高。很多人把北京、上海作为最佳的生活、工作场所，努力奋斗旨在买房，住房需求旺盛导致了房价远远高于其他省市的房价水平。

完整word版,SPSS聚类分析实验报告.docx

SPSS 聚类分析实验报告一．实验目的： 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练 SPSS软件相关操作 4、熟悉实验报告的书写二．实验要求： 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T 检验，并说明检验结果 3、对各省的总消费支出做出条形图（用EXCEL做图也行） 4、利用 K-Mean法把 31 省分成 3 类 5、对聚类分析结果进行解释说明 6、完成实验报告三．实验方法与步骤准备工作：把实验所用数据从 Word文档复制到 Excel ，并进一步导入到 SPSS数据文件中。分析：由于本实验中要对 31 个个案进行分类，数量比较大，用系统聚类法当然也可以得出结果，但是相比之下在数据量较大时， K 均值聚类法更快速高效，而且准确性更高。四、实验结果与数据处理： 1.用系统聚类法对所有个案进行聚类：

生成新变量总消费支出 =各变量之和如图所示： 2.对变量食品支出和居住支出进行配对样本 T 检验，如图所示：

得出结论： 3.对各省的总消费支出做出条形图，如图所示： 4．对聚类分析结果进行解释说明： K均值分析将这样的城市分为三类：第一类北京、上海、广东第二类除第一类第三类以外的第三类天津、福建、内蒙古、辽宁、山东第一类经济发展水平高，各项支出占总支出比重高，人民生活水平高。第二类城市位于中西部地区，经济落后，人民消费水平低。第三类城市位于中东部地区，经济发展较好。

初始聚类中心聚类 123 食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02 迭代历史记录a 聚类中心内的更改迭代123 11250.5921698.8651216.114 2416.86470.786173.731 3138.955 2.94924.819 446.318.123 3.546 5849.114319.1791362.411 6805.00415.199606.915 7161.001.72475.864 832.200.0349.483 9 6.440.002 1.185 10 1.2887.815E-5.148

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告 1.方法背景聚类分析又称群分析，是多元统计分析中研究样本或指标的一种主要的分类方法，在古老的分类学中，人们主要靠经验和专业知识，很少利用数学方法。随着生产技术和科学的发展，分类越来越细，以致有时仅凭经验和专业知识还不能进行确切分类，于是数学这个有用的工具逐渐被引进到分类学中，形成了数值分类学。近些年来，数理统计的多元分析方法有了迅速的发展，多元分析的技术自然被引用到分类学中，于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中，主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析，然后很据分析结果进行综合评价，以便得出科学的结论。 2.基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集，利用C均值和分级聚类方法对样本集进行聚类分析，对结果进行分析，从而加深对所学内容的理解和感性认识。 3.实验要求（1）把FAMALE.TXT和MALE.TXT两个文件合并成一个，同时采用身高和体重数据作为特征，设类别数为2，利用C均值聚类方法对数据进行聚类，并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。（2）对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类，画出聚类指标与类别数之间的关系曲线，探讨是否可以确定出合理的类别数目。（3）对1中的数据利用分级聚类方法进行聚类，分析聚类结果，体会分级聚类方法。。（4）利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起，重复上述实验，考察结果是否有变化，对观察到的现象进行分析，写出体会 4.实验步骤及流程图根据以上实验要求，本次试验我们将分为两组：一、首先对FEMALE 与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析，然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析，比较二者结果。二、将上述两个样本用分即聚类方法进行聚类，观察聚类结果。并将两种聚类结果进行比较。（1）、C均值算法思想

SPSS聚类分析和判别分析论文

S P S S聚类分析和判别分析论文 Prepared on 22 November 2020

基于聚类分析的我国城镇居民消费结构实证分析摘要：近年来，我国城镇居民的整体消费水平逐渐提高，但各地区间的消费结构仍存在较大差别。文章选用8个城镇居民消费结构统计指标，采用欧式距离平方和离差平方和法，对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布，而且系统分析了我国各地区消费结构的特点及产生原因，为国家制定消费政策提供了决策依据。关键词：消费结构；聚类分析；判别分析；政策建议；一、引言近年来，随着我国经济的快速发展,城镇居民的收入不断增加，并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下，我国各地区城镇居民的消费支出也强劲增长，消费结构发生了巨大的变化，结构不合理现象也得到了一定程度的调整。但是，由于各地区的经济发展不平衡及原有经济基础的差异，使各地区的消费结构仍存在着明显差别。为了进一步改善消费结构，正确引导消费，提高我国城市居民的消费水平和生活质量，有必要考察我国各地区城镇居民的消费结构之间的异同并进行比较研究，以期发现特点和规律，从宏观上把握各地区城镇居民的消费现状和不同地区消费水平的差异，为提高我国各地区消费水平和谐增长提供决策依据。二、消费结构的数据分析消费结构指居民在生活消费过程中，不同类型消费的比例及其相互之间的配合、替代、制约的关系。就其数量关系来看，消费结构是指在消费过程中不同商品或劳务消费支出占居民总消费支出的比重，反映了一定社会经济条件下人们对各类商品及劳务的需求结构，体现一国或各地区的经济发展水平和居民生活状况。（一）数据来源为了更加深入地了解我国城镇居民消费结构，先利用2013年全国数据（如表1所示），对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务八项指标，分别用来反映较高、中等、较低居民消费结构。

SPSS的聚类分析实验报告

实验报告姓名学号专业班级课程名统计分析SPSS软件实验室称成绩指导教师实验名称SPSS的聚类分析 1、实验目的：掌握层次聚类分析和K-Means聚类分析的基本思想和具体，并能够对分析结果进行解释。二、实验题目： 1.、现要对一个班同学的语文水平进行聚类，拟聚为三类，聚类依据是两次语文考试的成绩。数据如下表所示。试用系统聚类法和K-均值法进行聚类分析。人名第一次语文成绩第二次语文成绩张三9998 王五8889 赵四7980 小杨8978 蓝天7578 小白6065 李之7987 马武7576 郭炎6056 刘小100100

3、实验步骤（最好有截图）： 1.先打开常用软件里的SPSS 11.5 for Windows.exe,在Variable View 中根据题目输入相关数据,如下图所示 2.在Data View中先输入数据,结果如下图所示 3. 首先试用系统聚类法对相关数据进行聚类 4. 选择菜单:【Analyze】→【Classify】→【Hierarchical Cluster】，然后选择参与层次聚类分析的变量两次语文考试的成绩到【Variable（s）】框中，再选择一个字符型变量“人名”作为标记变量到【Label Cases by】框中。

5.按“Plots”后进行选择 6.按“Statistics”后进行选择

7.按“Method”后进行选择

8.对第一个表格进行保存，并且命名为“语文水平.sav”，同时保存输出结果 4、实验结果及分析（最好有截图）：第一题： 1. 首先试用系统聚类法对相关数据进行聚类

聚类分析实验报告记录

————————————————————————————————作者：————————————————————————————————日期：

《应用多元统计分析》课程实验报告实验名称：用聚类分析的方法研究山东省17个市的产业类型的差异化学生班级：统计0901 学生姓名：贾绪顺杜春霖陈维民张鹏指导老师：____________张艳丽_____________________ 完成日期：2011.12.12

一，实验内容根据聚类分析的原理，使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法)，运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类，将17个城市分为5类，发现不同城市产业类型的差异化，并解释造成这种差异的原因二，实验目的希望通过实验研究山东省17个市的生产总值的差异化，并分析造成这种差异化的原因，可以更深刻的掌握聚类分析的原理；进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能；达到能综合运用所学基本理论和专业知识；锻炼收集、整理、运用资料的能力的目的；希望能会调用SPSS软件聚类分析有关过程命令，并且可以对数据处理结果进行正确判断分析，作出综合评价。三，实验方法背景与原理 3.1方法背景聚类分析又称群分析，是多元统计分析中研究样本或指标的一种主要的分类方法，在古老的分类学中，人们主要靠经验和专业知识，很少利用数学方法。随着生产技术和科学的发展，分类越来越细，以致有时仅凭经验和专业知识还不能进行确切分类，于是数学这个有用的工具逐渐被引进到分类学中，形成了数值分类学。近些年来，数理统计的多元分析方法有了迅速的发展，多元分析的技术自然被引用到分类学中，于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中，主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析，然后很据分析结果进行综合评价，以便得出科学的结论。聚类分析源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。聚类分析的主要应用，在商业方面，最常见的就是客户群的细分问题，可以从客户人口特征、消费行为和喜好方面的数据，对客户进行特征分析，充分利用数据进行客户的客观分组，使诸多特征有相似性的客户能被分在同一组内，而不相似的客户能被区分到另一些组中。在生物方面，聚类分析可以用来对动植物进行分类，对基因进行分类等，从而获取对动植物种群固有结构的认识，对物种进行很好的分类。在电子商务方面，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过对客户的浏览行为、浏览网站、客户的年龄等，对客户进行分析，找出不同客户的共同特征，通过共同特征对客户进行分类，可以帮助电子商户更好的了解他们的客户，并向客户提供更合适的服务。在保险行业上，根据产、寿险进行分类，不同类别的公司进行分类，对保险投资比例进行分类管理，从而提高保险投资的效率。 3.2实验的方法与原理聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时，出于不同的目的和要求，可以选择不同的统计量和聚类方法。聚类分析方法中最常用的一种是系统聚类法，其基本思想是：先将待聚类的n个样品（或者变量）各自看成一类，共有n类；然后按照选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最为密切的两类合为一类，其余不变，即得到n-1类；再按照前面的计算方法计算新类与其他类之间的距离（或相似系数），再将关系最为密切的

判别分析及聚类分析

判别分析（Discriminant Analysis）一、概述：判别问题又称识别问题，或者归类问题。判别分析是由Pearson于1921年提出，1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。根据对训练样本的观测值建立判别函数，借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成，并且都完整准确地测量个体的有关的判别变量。训练样本的要求：类别明确，测量指标完整准确。一般样本含量不宜过小，但不能为追求样本含量而牺牲类别的准确，如果类别不可靠、测量值不准确，即使样本含量再大，任何统计方法语法弥补这一缺陷。判别分析的类别很多，常用的有：适用于定性指标或计数资料的有最大似然法、训练迭代法；适用于定量指标或计量资料的有：Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间，可根据不同情况分别采用以上方法。类别（有的称之为总体，但应与population的区别）的含义——具有相同属性或者特征指标的个体（有的人称之为样品）的集合。如何来表征相同属性、相同的特征指标呢？同一类别的个体之间距离小，不同总体的样本之间距离大。距离是一个原则性的定义，只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离：（Manhattan distance）设有两个个体（点）X与Y（假定为一维数据，即在数轴上）是来自均数为μ，协方差阵为∑的总体（类别）A的两个个体（点），则个体X与Y的马氏距离为（，）X与总体（类别）A的距离D X Y= （，）为D X A= 明考斯基距离（Minkowski distance）:明科夫斯基距离欧几里德距离（欧氏距离）二、Fisher两类判别一、训练样本的测量值 A类训练样本

数据挖掘实验报告三

实验三一、实验原理 K-Means算法是一种 cluster analysis 的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。算法原理： (1) 随机选取k个中心点； (2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类； (3) 更新中心点为每类的均值； (4) j<-j+1 ,重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数，误差不变. 空间复杂度o(N) 时间复杂度o(I*K*N) 其中N为样本点个数，K为中心点个数，I为迭代次数二、实验目的： 1、利用R实现数据标准化。 2、利用R实现K-Meams聚类过程。 3、了解K-Means聚类算法在客户价值分析实例中的应用。三、实验内容依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。对其进行标准差标准化并保存后，采用k-means算法完成客户的聚类，分析每类的客户特征，从而获得每类客户的价值。编写R程序，完成客户的k-means聚类，获得聚类中心与类标号，并统计每个类别的客户数

四、实验步骤 1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。

2、确定要探索分析的变量 3、利用R实现数据标准化。 4、采用k-means算法完成客户的聚类，分析每类的客户特征，从而获得每类客户的价值。

五、实验结果客户的k-means聚类，获得聚类中心与类标号，并统计每个类别的客户数六、思考与分析使用不同的预处理对数据进行变化，在使用k-means算法进行聚类，对比聚类的结果。 kmenas算法首先选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。这样做的前提是我们已经知道数据集中包含多少个簇. 1.与层次聚类结合经常会产生较好的聚类结果的一个有趣策略是，首先采用层次凝聚算法决定结果

聚类分析与判别分析区别

聚类分析与判别分析区别1 2 聚类分析和判 3 别分析就是这样的分类方法 4 ， 5 目前它们已经成为 6 比较标准的数据分类方法。 7 我们常说 8 “物以类聚、 9 人以群分” 10 ， 11 就是聚类分 12 析和判别分析最简单、 13 14 最朴素的阐释 15 ， 16 并且这一成 17 语也道明了这两种方法的区别与联系， 18 19 都是分类 20 技术， 21 22 但它们是分别从不同的角度来对事物分类的 23 24 ， 25 或者说， 26 27 是两种互逆的分类方式。聚类分析与 28 判别分析都是多元统计中研究事物分类的基本方 29 法 30 ， 31 但二者却存在着较大的差异。 32 一、 33 聚类分析与判别分析的基本概念 34 １ 35 、 36 聚类分析 37 又称群分析、 38 点群分析。 39 根据研究对象特征对 40 研究对象进行分类的一种多元分析技术， 41 42 把性质

相近的个体归为一类 1 2 ， 3 使得同一类中的个体都具 4 有高度的同质性 5 ， 6 不同类之间的个体具有高度的异质性。 7 8 根据分类对象的不同分为样品聚类和变量聚类。9 ２、 10 11 判别分析 12 是一种进行统计判别和分组的技术手段。根 13 据一定量案例的一个分组变量和相应的其他多元14 变量的已知信息 15 ， 16 确定分组与其他多元变量之间 17 的数量关系 18 ， 19 建立判别函数， 20 21 然后便可以利用这一 22 数量关系对其他未知分组类型所属的案例进行判23 别分组。 24 判 25 别 26 分 27 析 28 中 29 的 30 因变 31 32 量 33 或 34 判 35 别 36 准则 37 38 是 39 定类 40 41 变 42 量， 43 44 而自变量或预测变量基本上是定距变量。

聚类分析实验报告

聚类分析实验报告姓名: 学号: 班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。二:实验原理聚类分析就是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想就是同一类中的个体有较大的相似性,不同类中的个体差异较大,于就是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。三:实验过程本实验就是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们瞧EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性与维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下就是实验截图: （1）:对盈利能力指标

从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”与“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”与“资产净利润”分别作对另3个指标的复相关系数,结果如下: ①、以“销售净利润”为因变量,其余为自变量得: 模型汇总模型R R 方调整 R 方标准估计的误差 1 、980a、960 、957 、20721755 a、预测变量: (常量), Zscore: 资产净利率(%), Zscore: 毛利率(%), Zscore: 成本费用利润率(%)。 ②、以“成本费用利润率”为因变量,其余为自变量得: 模型汇总模型R R 方调整 R 方标准估计的误差 1 、978a、957 、953 、21603919 a、预测变量: (常量), Zscore: 销售净利率(%), Zscore: 毛利率(%), Zscore: 资产净利率(%)。 ③、以“资产净利润”为因变量,其余为自变量得: 模型汇总模型R R 方调整 R 方标准估计的误差

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告徐远东任争刚权荣一、基本要求用FAMALE.TXT 、MALE.TXT 和/或test2.txt 的数据作为本次实验使用的样本集，利用C 均值和分级聚类方法对样本集进行聚类分析，对结果进行分析，从而加深对所学内容的理解和感性认识。二、实验要求 1、把FAMALE.TXT 和MALE.TXT 两个文件合并成一个，同时采用身高和体重数据作为特征，设类别数为2，利用C 均值聚类方法对数据进行聚类，并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。 2、对1中的数据利用C 均值聚类方法分别进行两类、三类、四类、五类聚类，画出聚类指标与类别数之间的关系曲线，探讨是否可以确定出合理的类别数目。 3、对1中的数据利用分级聚类方法进行聚类，分析聚类结果，体会分级聚类方法。。 4、利用test2.txt 数据或者把test2.txt 的数据与上述1中的数据合并在一起，重复上述实验，考察结果是否有变化，对观察到的现象进行分析，写出体会三、实验步骤及流程图根据以上实验要求，本次试验我们将分为两组：一、首先对FEMALE 与MALE 中数据组成的样本按照上面要求用C 均值法进行聚类分析，然后对FEMALE 、MALE 、test2中数据组成的样本集用C 均值法进行聚类分析，比较二者结果。二、将上述两个样本用分即聚类方法进行聚类，观察聚类结果。并将两种聚类结果进行比较。一、（1）、C 均值算法思想 C 均值算法首先取定C 个类别和选取C 个初始聚类中心，按最小距离原则将各模式分配到C 类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小（2）、实验步骤第一步：确定类别数C ，并选择C 个初始聚类中心。本次试验，我们分别将C 的值取为2和3。用的是凭经验选择代表点的方法。比如：在样本数为N 时，分为两类时，取第一个点和第()12/+N INT 个点作为代表点；分为三类时，取第一、

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析及判别分析唐鹏钧(DY1001109) 摘要：利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析，将其经济分成4种类型，并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行经济分类。本文选取了7项经济指标作为决定经济类型的影响因素，各项数据均来自2010年国家统计年鉴。分析结果表明：北京市和上海市为第一类经济类型；江苏省和山东省为第三类型；广东省为第四类经济；其他25个省、直辖市、自治区均属于第二类型。关键词：聚类分析、判别分析、经济类型 0引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。系统聚类分析又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类，从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品，希望根据这些历史的经验（样品），总结出分类的规律性（判别函数）来指导未来的分类。聚类分析与判别分析都是研究分类的，但是它们有所区别： (1)聚类分析一般寻求客观的分类方法，在进行聚类分析以前，对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知，在各总体分布或来自总体训练样本的基础上，对当前的新样本判定它们属于哪个总体。 (2)两类方法的建立的模型不一样，因此在处理某些特定的问题时，就会得

实验三K均值聚类算法实验报告

实验三 K-Means聚类算法一、实验目的 1) 加深对非监督学习的理解和认识 2) 掌握动态聚类方法K-Means 算法的设计方法二、实验环境 1) 具有相关编程软件的PC机三、实验原理 1) 非监督学习的理论基础 2) 动态聚类分析的思想和理论依据 3) 聚类算法的评价指标四、算法思想 K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心，然后计算其他数据距离这三个聚类中心的距离，将数据归入与其距离最近的聚类中心，之后再对这K个聚类的数据计算均值，作为新的聚类中心，继续以上步骤，直到新的聚类中心与上一次的聚类中心值相等时结束算法。实验代码 function km(k,A)%函数名里不要出现“-” warning off [n,p]=size(A);%输入数据有n个样本，p个属性 cid=ones(k,p+1);%聚类中心组成k行p列的矩阵,k表示第几类，p是属性 %A(:,p+1)=100; A(:,p+1)=0; for i=1:k %cid(i,:)=A(i,:); %直接取前三个元祖作为聚类中心 m=i*floor(n/k)-floor(rand(1,1)*(n/k)) cid(i,:)=A(m,:); cid; end Asum=0; Csum2=NaN; flags=1; times=1; while flags flags=0; times=times+1; %计算每个向量到聚类中心的欧氏距离 for i=1:n

for j=1:k dist(i,j)=sqrt(sum((A(i,:)-cid(j,:)).^2));%欧氏距离 end %A(i,p+1)=min(dist(i,:));%与中心的最小距离 [x,y]=find(dist(i,:)==min(dist(i,:))); [c,d]=size(find(y==A(i,p+1))); if c==0 %说明聚类中心变了 flags=flags+1; A(i,p+1)=y(1,1); else continue; end end i flags for j=1:k Asum=0; [r,c]=find(A(:,p+1)==j); cid(j,:)=mean(A(r,:),1); for m=1:length(r) Asum=Asum+sqrt(sum((A(r(m),:)-cid(j,:)).^2)); end Csum(1,j)=Asum; end sum(Csum(1,:)) %if sum(Csum(1,:))>Csum2 % break; %end Csum2=sum(Csum(1,:)); Csum; cid; %得到新的聚类中心 end times display('A矩阵，最后一列是所属类别'); A for j=1:k [a,b]=size(find(A(:,p+1)==j)); numK(j)=a; end numK times xlswrite('data.xls',A);

聚类分析实验报告.doc

聚类分析实验报告姓名：学号：班级：一：实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类，体会降维的处理过程。 3.通过不同性质指标对样本进行聚类，体会归类的思想。二：实验原理聚类分析是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性，不同类中的个体差异较大，于是根据一批根据一批样品的多个观察指标，找出能够度量样品（或变量）之间相似度的统计量，并以此为依据，采用某种聚类法，将所有的样品（或变量）分别聚合到不同的类中。三：实验过程本实验是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面：盈利能力，偿债能力，成长能力，经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。由上面的分析我们知道评定一个上市公司业绩的指标有四类，但我们看EXCEL可知，每一类下面有4-5个指标，每类指标有较强相关性，存在多重共线性和维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类，再采用比较复相关系数得出每类最具代表的指标，达到降维的目的。（注：以下对指标分析均采用主间连接法，度量标准为person相关性）以下是实验截图：（1）：对盈利能力指标

从上表分析我们可将盈利能力的4个指标分为两类，即“毛利率”为一类，“销售净利率”、“成本费用利润率”和“资产净利润”为一类。所以“毛利率”为一类，另外再对“销售净利润”、“成本费用利润率”和“资产净利润”分别作对另3个指标的复相关系数，结果如下： ①、以“销售净利润”为因变量，其余为自变量得：模型汇总模型R R 方调整 R 方标准估计的误差 1 .980a.960 .957 .20721755 a. 预测变量: (常量), Zscore: 资产净利率（%）, Zscore: 毛利率（%）, Zscore: 成本费用利润率（%）。 ②、以“成本费用利润率”为因变量，其余为自变量得：模型汇总模型R R 方调整 R 方标准估计的误差 1 .978a.957 .953 .21603919 a. 预测变量: (常量), Zscore: 销售净利率（%）, Zscore: 毛利率（%）, Zscore: 资产净利率（%）。模型汇总模型R R 方调整 R 方标准估计的误差

SPSS聚类分析和判别分析论文

聚类分析实验报告

聚类分析实验报告 Company Document number：WUUT-WUUY-WBBGB-BWYTT-1982GT

聚类分析实验报告

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析主成分分析与因子分析的区别 1. 目的不同：因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成，因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数；主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量（主成分）。 2. 线性表示方向不同：因子分析是把变量表示成各公因子的线性组合；而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同：主成分分析中不需要有假设；因子分析的假设包括：各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同：因子分析抽取主因子不仅有主成分法，还有极大似然法，主轴因子法，基于这些方法得到的结果也不同；主成分只能用主成分法抽取。 5. 主成分与因子的变化：当给定的协方差矩阵或者相关矩阵的特征值唯一时，主成分一般是固定的；而因子分析中因子不是固定的，可以旋转得到不同的因子。 6. 因子数量与主成分的数量：在因子分析中，因子个数需要分析者指定（SPSS 根据一定的条件自动设定，只要是特征值大于1的因子主可进入分析），指定的因子数量不同而结果也不同；在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分（只是主成分所解释的信息量不等）。 7. 功能：和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势；而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这种情况也可以使用因子得分做到，所以这种区分不是绝对的。 1 、聚类分析基本原理：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。常用聚类方法：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。

数据聚类实验报告(附代码)

实验题目：数据聚类实验 1 实验目的（1）了解常用聚类算法及其优缺点；（2）掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法。（3）利用k-means聚类算法对“ch7 iris.txt”数据集进行聚类实验。（4）熟悉使用matlab进行算法的实现。 2 实验步骤 2.1 算法原理聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。 k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。 k-means算法以k为参数，把n个对象分成

k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下： ∑∑=?- = k i C p i i m p E 1 2，这里E是数据集中所有对象的平方误差的总和，p是空间中的点， i m是簇i C的平均值。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离,当然也可以用其他距离度量。本实验便采用k-means聚类方法对样本数据对象进行聚类。该方法易实现，对不存在极大值的数据有很好的聚类效果，并且对大数据集有很好的伸缩性。 2.2 算法流程本实验采用的是k-means聚类算法，类中心

判别分析和聚类分析

第9章判别分析和聚类分析 §9.1 判别分析问题的一般形式在生产、科研和日常生活中，我们经常会遇到判别分类的问题。在这些问题中，已经知道研究对象可以分为几个类别，而且对这些类别已经作了一些观测，取得了一批样本数据。要求从已知的样本观测数据出发，建立一种判别方法，当我们取得一个新的样品时，可以根据这个样品的观测值，判定它属于哪一类，这种做法就称为判别分析（Discriminant Analysis ）。例1 岩石分类从某矿床取得14块已知是铀矿石的样品和14块已知是围岩的样品，分别测定其中7种成分的含量，取得了一批观测数据：要求建立一种判别方法，当我们从这个矿床取得一个新的岩石样品时，可以通过测定这个样品中7种成分的含量，判定它是铀矿石还是围岩。例2 精神病的诊断（Rao 和Slater ，1949）对114个处于焦虑状态的病人，33个患癔病的病人，32个有精神变态的病人，17个有强迫观念的病人，5个有变态人格的病人，以及55个正常人，分别进行3种精神病测试，得到测试分数1X ，2X 和3X 。要求根据上述已知的测试数据，建立一种诊断方法，使得我们可以对一个新来的求诊者进行这3种精神病测试，根据测试得到的分数1X ，2X 和3X ，判断出求诊者是否正常，如果不正常，诊断出他患有哪一类精神病。例3 （全国数学建模竞赛2000年A 题）DNA 序列分类对于A,B 两种不同的DNA ，给出了20个类别已知的DNA 序列样品，其中1号～10号序列属于A 类，11号～20号序列属于B 类。另外还有20个类别未知的DNA 序列样品。要求建立一种判别方法，判别出类别未知的DNA 序列样品属于哪一类。