北航数理统计判别分析大作业

格式：doc
大小：520.80 KB
文档页数：17

下载文档原格式

/ 17

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数理统计(课程大作业2) 聚类和判别分析

学院：机械工程学院

专业：材料加工工程

日期：2014年12月22日

摘要：本文介绍聚类与判别方法，然后结合实际，依据各地区居民消费水平（元）、社会固定资产投资（亿元）、人均地区生产总值（元）、政府消费支出（亿元）、城镇居民人均总收入（元/人）5个与经济发展水平相关联的指标，对全国28个省、自治区、直辖市进行聚类分析，并对剩下的三个省市进行判别分析，以此对我国各地区的经济发展水平进行分类，并对分类的结果进行了分析。

关键字：经济类型 SPSS 聚类分析判别分析

1 引言

中华人民共和国成立后，通过有计划地进行大规模的社会主义建设，中国已成为世界上最具有发展潜力的经济大国之一，人民生活总体上达到小康水平。按预定计划，到2010年，中国将建立起比较完善的社会主义市场经济体制；到2020年，建立起比较成熟的社会主义市场经济体制。

但是，我国的经济发展还不太均衡，地区性差异十分显著，尤其是东西部发展十分不同步。近年来，这种不均衡引起了人们的注意。新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。

本文就是在这样的背景下提出来的，使用SPSS Statistics 19.0这一统计软件，利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据，依据各地区居民消费水平（元）、社会固定资产投资（亿元）、人均地区生产总值（元）、政府消费支出（亿元）、城镇居民人均总收入（元/人）5个与经济发展水平相关联的指标，对全国28个省、自治区、直辖市进行聚类分析，并对剩下的三个省市进行判别分析，以此对我国各地区的经济发展水平进行分类，并对分类的结果进行了分析。

2 数据采集

本文数据来源于《中国统计年鉴2013》，具体数据见表1

三聚类分析

3.1 聚类分析过程

首先将数据导入SPSS中，并剔除待分析的河北、浙江、新疆三省数据。

表3所示的为聚类分析的汇总结果：

从表3中可以看到28个样本的数据全都有效，均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。

表4显示的是样本的凝聚过程。对本文选取的28个样本，系统进行了27步分析，并在每一步中给出了凝聚过程中两类之间的相关系数。

表4所列各项的意义如下：

阶——聚类步骤号；

群集组合——在某步中合并的个案；

系数——距离或相似系数；

首次出现阶群集——新生成聚类；

下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。

从中可以看出聚类的进度和类详细合并的步骤。

可以从表中看出，第12和第18个样本最先进行了聚类，样本间的距离为3568152.164。

表5显示的是聚类后的集群成员：

从表5可以看到系统聚类分析的最终结果为：北京市、天津市、上海市属于第一类，内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类，其他省、直辖市、自治区被分为第二类。

图1为垂直冰柱图，形状类似于冬天屋檐上垂下的冰柱，因此得名。

横轴：案例（Case）表示被聚类的对象；

纵轴：群集数（Number of clusters）表示被聚成几类；

图1以冰柱图表示聚类分析结果。图中第1列为聚类步骤号，第1行为样本及样本号。图中每一列代表一个冰柱，深色柱代表冰柱的长短。从冰柱的长短变化可以看出聚类的全过程。即如果样本或新类在第n步合并，则在图中第n步以上合并项对应列中用深色填充，没有空格。由于冰柱图是按照聚类的编号进行排列，所以其与聚结表的顺序刚好相反，也就是说聚结表的第一步对应于冰柱图的最后一步。

冰柱图一般从表格的最后一行开始观察。最后一行中，类的数目为27，即聚积成27类，其中样本江西和广西用深色柱连接在一起，表示成两个样本聚成一类，其余每个样本构成一类。因此从冰柱图中可以非常清楚地看到，聚成n 时类时，各个样本的类归属情况。

图1 冰柱图

图2为聚类分析之后的树状图：

图2 树状图

图2清晰地表示出了聚类的全过程。它将实际的距离按比例调整到0－25

的范围内，用逐级连线的方式连接性质相近的个案和新类，直至并为一类。在该图上部的距离标尺上根据需要（粗分或细分）选定一个划分类的距离值，然后垂直标尺划线，该垂线将和水平线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的样本聚成一类。

3.2 聚类分析结果总结

从上一部分的聚类分析过程可以看出，SPSS软件将本文所采用的数据分为3类，如表6所示：

表2

北京市、天津市、上海市构成一类。北京、天津作为老牌经济强省，同时也是北方京津冀经济圈的主要经济贡献力量，其在全国经济整体盘面上表现一直相对强劲。上海市作为中国的经济中心，其整体发展水平高于全国其他地市，其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。

内蒙古由于近几年煤炭等能源生产增长，还有富饶的草原畜牧业，经济发展迅速。而辽宁、江苏、福建、山东、广东这些沿海地区，由于受到改革开放经济政策的影响，经济实力仅次于北京、上海、天津。故以上几个省份被划为一类。

其余省市被划分为一类。这些省市中也包括黑龙江省等经济条件较好的省市，但各行业领域发展并不均衡，故将其划入该类中。

4判别分析

4.1 判别分析过程

根据聚类分析的结果，将省份分为3类，在SPSS中添加一个新变量G用来表示类别，取值为1、2和3，同时在表中添加了三个个案河北、浙江、新疆，作为待判样本。

下面是判别结果相关表格。

下表7为参与分析的个案处理的摘要显示，可以看出，共有28个样本作为判别基础数据进入分析。

北航数理统计大作业

北航数理统计判别分析大作业

相关主题

文档推荐

最新文档