SPSS统计分析第八章聚类分析与判别分析
- 格式:docx
- 大小:37.10 KB
- 文档页数:2
SPSS聚类分析和判别分析论文基于聚类分析的我国城镇居民消费结构实证分析摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍存在较大差别。
文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和比较研究。
这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。
关键词:消费结构;聚类分析;判别分析;政策建议;一、引言近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象也得到了一定程度的调整。
但是,由于各地区的经济发展不平衡及原有经济基础的差异,使各地区的消费结构仍存在着明显差别。
为了进一步改善消费结构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和谐增长提供决策依据。
二、消费结构的数据分析消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替代、制约的关系。
就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需求结构,体现一国或各地区的经济发展水平和居民生活状况。
(一)数据来源为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示),对全国31个省、直辖市、自治区进行聚类分析。
分析采用选用了城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务八项指标,分别用来反映较高、中等、较低居民消费结构。
第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。
这两种聚类在数学上是对称的,没有什么不同。
聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。
二、如何度量距离的远近:统计距离和相似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常用的是明氏距离。
3.相似系数当对个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。
常用的相似系数有夹角余弦、相关系数等。
夹角余弦:相关系数:对于分类变量的研究对象的相似性测度,一般称为关联测度。
第二节如何进行聚类分析一、系统聚类1.系统聚类的基本步骤2.最短距离法3.最长距离法4.重心法和类平均法5.离差平方和法二、SPSS中的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先不用确定分多少类:分层聚类;分层聚类由两种方法:分解法和凝聚法。
目录1.聚类分析 (2)1.1问题描述 (2)1.2数据初步分析 (2)1.3层次聚类 (2)1.4结果解释 (3)1.5聚类结果的验证与进一步分析 (5)1.6最终的类别特征描述 (7)2.判别分析 (7)2.1 问题描述 (7)2.2 数据基本分析 (10)2.3判别分析 (10)2.4 结果分析 (10)2.5 判别效果的验证 (14)1.聚类分析1.1问题描述对16中饮料的热量、咖啡因、钠和价格四个变量作为数据进行聚类分析,希望通过聚类分析的方法将相似的饮料找出来,即将16种饮料划分为若干类别,从而更好的指导销售者制定销售计划,具体数据如下表1:表1:饮料数据1.2首先对数据进行初步的考察,对各个指标做简单描述性统计分析。
表2:Descriptive Statistics从表2中可以看出4个指标的量纲基本不同,尤其以热量和价格的差距最为明显,显示了数据量纲间有很强的差异性。
为消除不同变量大小对聚类结果的影响,有必要在聚类分析前对数据进行标准化处理。
1.3层次聚类在SPSS中,实现层次聚类的过程步骤如下:在Method中,默认选择的是不对数据进行标准化,但在此例子中,采用Z Scores方法对数据进行标准化。
1.4结果解释层次聚类输出的聚类过程表(表3),它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1,在这里是15步。
表3的第1列列出了聚类过程的步骤号,第2列和第3列列出了在某一步骤中哪些饮料参与了合并,例如在第一步中,饮料5和饮料6首先被合并在一起。
第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。
第5列和第6列表示参与合并的饮料是在第几步中第一次出现的,0表示第一次出现在聚类过程中。
第7列表示在这一步骤中合并的类别,下一次将在第几步中与其他类别再进行合并。
要注意,在聚类过程的描述中,往往一个记录号已经13 2 7 35.262 7 10 1414 2 3 45.703 13 11 1515 1 2 60.000 12 14 0聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用中,并不关心聚类的具体过程。
SPSS聚类与判别实验⽬的 学会使⽤SPSS简单操作,掌握聚类与判别。
实验要求 使⽤SPSS。
实验内容实验步骤 (1)层次聚类法分析实例——为了反映中国各地区⽣活⽔平差异性,本报告对2002年中国部分省市的国民经济数据进⾏聚类分析,依次了解我国各省市的⽣活差异⽔平,详见“lx17.sav⽂件”。
SPSS操作,点击【分析】→【分类】→【系统聚类】,在打开的【系统聚类分析】对话框中,把GDP、Pindex_Revise等5个变量选⼊【变量】中,把省份选⼊【个案标注依据】,点击【图】,勾选【谱系图】,“冰柱图块”勾选【⽆】→【继续】。
点击【⽅法】,下拉列表,选择【⽡尔德法】,“转换值块”勾选【Z得分】→【继续】。
点击【保存】→【解的范围】,3~8→【继续】。
单击【确定】。
运⾏分析,集中计划阶段组合聚类系数⾸次出现聚类的阶段下⼀个阶段聚类 1聚类 2聚类 1聚类 21317.111002 2312.2461015 357.407004 458.6243013 52027.8570011 62930 1.1210020 72831 1.3900020 8414 1.6660010 91523 2.1020014 10425 2.7518021 112024 3.4195012 122022 4.16711019 1356 5.0104019 141516 6.1279023 153187.4282018 1621268.8130021 17111910.2480022 1831012.01015023 1952013.835131225 20282916.1307627 2142118.530101625 22111321.29817028 2331524.620181429 241228.4120026 254532.928211927 261941.66624028 2742854.441252029 2811168.972262230 293487.757232730 3013150.00028290 需要判别数据应该分成多少类别时,聚类系数那⼀列有着很好的参考价值。
SPSS聚类分析过程聚类的主要过程一般可分为如下四个步骤:1.数据预处理(标准化)2.构造关系矩阵(亲疏关系的描述)3.聚类(根据不同方法进行分类)4.确定最佳分类(类别数)SPSS软件聚类步骤1. 数据预处理(标准化)→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可:标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|x ij*|<1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。
);Range 0 to 1(极差正规化变换/ 规格化变换);2. 构造关系矩阵在SPSS中如何选择测度(相似性统计量):→Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数;3. 选择聚类方法SPSS中如何选择系统聚类法常用系统聚类方法a)Between-groups linkage 组间平均距离连接法方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。
(项对的两成员分属不同类)特点:非最大距离,也非最小距离b)Within-groups linkage 组内平均连接法方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小C)Nearest neighbor 最近邻法(最短距离法)方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法d)Furthest neighbor 最远邻法(最长距离法)方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法e)Centroid clustering 重心聚类法方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值特点:该距离随聚类地进行不断缩小。
SPSS统计分析第八章聚类分析与判别分析聚类分析与判别分析是SPSS统计分析中非常重要的两个方法。
聚类
分析是寻找数据之间的相似性,将相似的数据划分为一个簇,从而实现对
数据的归类和分组。
判别分析则是寻找数据之间的差异性,帮助我们理解
不同因素对于数据的影响程度,从而实现对数据的分类预测。
首先,我们来介绍聚类分析。
聚类分析是根据数据之间的相似性进行
归类的一种方法,通过度量数据之间的相似性,将相似的数据归为一类。
它在寻找数据内在组织结构和特点上具有很大的作用。
在SPSS中进行聚
类分析的步骤如下:
1.载入数据集:在SPSS软件中,选择"文件"->"打开"->"数据",选
择需要进行聚类分析的数据集。
2.选择聚类变量:在"分析"->"分类"->"聚类"中,选择需要进行聚类
分析的变量。
可以选择一个或多个变量作为聚类变量,决定了聚类的维度。
3.设置聚类参数:在设置参数的对话框中,可以选择使用不同的距离
测度和聚类算法。
距离测度可以选择欧氏距离、曼哈顿距离、切比雪夫距
离等,而聚类算法可以选择层次聚类、K均值聚类等。
根据具体的数据特点,选择合适的参数。
4.进行聚类分析:点击"确定"按钮,SPSS会自动进行聚类分析,并
生成聚类的结果。
聚类结果可以通过树状图、散点图等形式展示,便于我
们对数据的理解和分析。
接下来,我们来介绍判别分析。
判别分析是一种通过建立数学模型,
根据不同的预测变量对数据进行分类和预测的方法。
判别分析可以帮助我
们理解不同因素对于数据分类的重要性,从而进行有针对性的分析和预测。
在SPSS中进行判别分析的步骤如下:
1.载入数据集:同样,在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行判别分析的数据集。
2.设置判别变量和预测变量:在"分析"->"分类"->"判别"中,选择需
要进行判别分析的变量。
判别变量是被判别的变量,而预测变量是用来预
测判别变量的变量。
3.设置判别参数:在参数设置的对话框中,可以选择不同的判别方法,比如线性判别分析、对数几率判别分析等。
根据具体分析目的和数据特点,选择合适的参数。
4.进行判别分析:点击"确定"按钮,SPSS会自动进行判别分析,并
生成判别的结果。
判别结果可以通过判别函数、ROC曲线等方式展示,帮
助我们理解不同变量对于数据分类的影响程度。
聚类分析和判别分析是SPSS统计分析中很常用的方法,它们可以帮
助我们理解数据的内在特点和组织结构,实现数据的归类和分组,同时可
以帮助我们理解不同因素对于数据分类和预测的重要性。
掌握和应用这两
种方法能够更好地帮助我们进行数据分析和决策。