聚类分析论文
TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-
聚类分析及其在新疆经济研究中的应用
孙鹿梅
(伊犁师范学院数学与统计学院新疆伊宁 835000)
摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均
地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们
的综合发展水平进行类型划分及差异性程度分析.
关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分
一、引言
聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.
在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界着名统计软件SPSS (Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法.
由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.
二、基础知识
聚类分析的基本思想
由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大. 聚类分析的种类
聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为Q 型聚类分析,对变量的分类常称为
R 型聚类分析. 聚类分析的原理
聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类.
常见的聚类分析方法有系统聚类法、K -均值法和模糊聚类法等. 聚类要素的数据处理
假设有m 个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.
在聚类分析中,常用的聚类要素的数据处理方法有如下几种.
① 总和标准化
),2,1(11'
n j x m
i ij ==∑=且. ② 标准差标准化
),,2,1,,,2,1('
n j m i s x x x j
j
ij ij
==-=
,
∑==m i ij
j x m x 1'
1,
∑=-=m i j ij j x x m s 1
2''
)(1 .
011
'
==∑=m i ij j x m x 且,1)(11
2''
=-=
∑=m i j ij j x x m s .
变换后的数据,每个变量的样本均值为0,极差为1,且1*
的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量. ③ 极大值标准化 {} () n j m i x x x ij i ij ij ,,2,1,,,2,1max ' === . 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1. ④ 极差的标准化 {} {}{} () n j m i x x x x x ij i ij i ij i ij ij ,,2,1,,2,1min max min === . 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间. (1)距离的计算 描述样品间的亲疏程度最常用的是距离,设观测数据 ),,1;,,2,1(m j n i x xj ==列成下列X 矩阵的形式. 设有n 个样品,每个样品测得p 个变量,原始资料阵为 ?? ? ???? ???? ?? ?=np n n p p x x x x x x x x x X 2122221 11211, 其中ij x 为i 个样品的第j 个变量的观测数据. 用ij d 表示第i 个样品的第j 个样品之间的距离,其值越小表示两个样品接近程度越大. 距离的一般要求: ① ;0;,,0)()(j i ij ij X X d j i d =?=≥当对一切 ② ;,,j i d d ji ij 对一切= ③ ).(,,,三角不等式对一切k j i d d d kj ik ij +≤ 常用的距离有以下几种: 1)闵氏距离 q p k q jk ik ij X X q d 11)()(∑=-=, 其中常用的距离有绝对距离和欧氏距离. 绝对距离 ) ()1(1 ∑=-=p k jk ik ij X X d . 欧氏距离 2 11 2 )()2(∑=-=p k jk ik ij X X d . 欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离. 2)马氏距离 设i X 与j X 是来自均值向量为μ,协方差为()∑>0的总体G 中的p 维样品,则两个样品间的马氏距离为 ) ()()(1'2j i j i ij X X X X M d --=∑-. 马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变. 选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类. (2)相似系数 在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种: 1)夹角余角 变量i X 与j X 是来自均值向量为μ,协方差为()∑>0x 的总体G 在的p 维空间的两个向量,则这两个向量间的夹角余弦可表示为 ) )((cos 1 21 21∑∑∑==== p k jk p k ik p k jk ik ij X X X X θ. 2)相关系数 相关系数经常用来试题变量间的相似性.变量i X 与j X 的相关系数定义为 ∑∑==----= p k j jk i ik p k j jk i ik ij X X X X X X X X r 1 2 21)()())((. 在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即Q 型聚类分析常用距离,R 型聚类分析常用相似系数. 聚类分析方法 系统聚类法 开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类. 系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward 法等八种不同的方法. K -均值 将给定的样本划分为K 类,K 预先指定,基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化. 比较两种算法,系统聚类是事先并不知道分为几类,根据算法可以直接数据实际情况得出来,K-均值聚类法虽然比较方便迅速,但必须事先定好分类数.两种算法各有优缺点,所以用哪种算法,还要考虑到实际情况. 各算法的具体过程在下列实例中有介绍,此处就不做介绍了. 三、实例 例表 1 2009年给出能反映新疆十四个地州市综合经济的十项指标分别为: X1 地区生产总值(亿元),X2人均地区生产总值(元),X3第二产业比重(%),X4第三产业比重(%),X5 人口(万人),X6固定资产投资(亿元),X7规模以上工业总产值(亿元),X8 地方财政一般预算收入(万元),X9 地方财政一般财政支出(万元),X10在岗职工平均货币支出(元). 利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析. 表1 数据来源,运用上述10项指标(表1) 借助于统计分析软件包进行聚类分析计算. 系统聚类算法对数据进行聚类分析 方法选取上,分别用组间联接、最短距离法和和离差平方和(ward)法得出分析结果的聚类图.组间联接法得到的结果和ward方法一致,但,就类和 类的之间区别程度而言,组间法的效果没有ward法的好.最短距离法的结果跟ward的不一致,且,就类和类的之间区别程度而言,其效果远差于ward 法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于ward法,这里为了简洁起见就没有呈现. 计算过程如下: ①用标准差标准化方法对10项指标的原始数据进行处理. ②采用欧氏距离测度个15个地州市之间的样本间距离. ③选用组ward法计算类间的距离,并对样本进行归类. 经过上述聚类方法,由分析-描述统计-描述,进行数据的标准化,得到下列标准化后的数据. 表2 这些变量在数量级和计量单位上的差别,要让这些不同单位的变量具有可比性.这是就必须采用某种方法对各变量数值进行标准化处理,或者叫无量纲处理,解决各数值不具综合性的问题. SPSS提供了很方便的数据标准化方法,这里我用的是Z标准化方法.即每一变量与其平均值之差除以该变量的标准差.无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响. 分析表中的数据,数据大于0的表示高于平均值,小于0的表示低于平均值.我们看从X1地区生产总值,高于平均地区有乌鲁木齐市、克拉玛依市、昌吉州、伊犁直属县市、巴州、阿克苏地区,低于平均值的地区有吐鲁 番地区、哈密地区、塔城地区、阿勒泰地区、博州、克州、喀什地区、和田地区.依次再看X2地区人均生产总值,高于平均值的地区乌鲁木齐市、克拉玛依市、哈密地区、昌吉州、巴州.低于平均值的地区吐鲁番地区、伊犁直属县市、塔城地区、阿勒泰地区、博州、阿克苏地区、克州、喀什地区、和田地区.依次再看其他变量指标,哪些地区高于平均值,哪些地区低于平均值. 经过上述聚类方法,由分析-分类-系统聚类,得出聚类表 表3 为一类.也就是伊犁直属县市和阿克苏地区首先分为一类,下一阶表示下次要用到这一类是在第六步时,把6,11和13合并为一类,即把伊犁,阿克苏地区和喀什地区分为一类,第二步看出7,8分为一类,也就是塔城地区和阿勒泰地区分为一类,下一阶再把塔城地区、阿勒泰地区和博州分为一类.以此类推直至把所有的合并为一类. 由于一共有十四个地区,所以至少要用十三步才能把它们都归于一类.也可以通过此表看出系统聚类的基本思想: 开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类. 图1 图1为系统聚类分析得出的冰状图,从此图我们可以直观的看出,左边框的数字代表的是分类数,从下到上我们可以看出,先是将各地区各为一类到14类再到12类再到10类,依次下去,一直到所有地区合为一类.上边框上代表的是分类的各地区. 根据新疆实际情况我们把这十五个地州市分为五类. 第一类为强经济经济区{乌鲁木齐市};第二类为较强经济区{克拉玛依市};第三类为一般经济区{昌吉州、巴州、伊犁直属县市、喀什地区、阿克苏地区};第四类为较弱经济地区{哈密地区、吐鲁番地区};第五类为弱经济地区{塔城地区、阿勒泰地区、博州、和田地区、克州}. K-均值算法对数据进行聚类分析 K-均值是一种基于划分的聚类算法,因为它有理论上可靠、算法简单、速度快等优点而被广泛使用.K-均值算法是一个迭代计算“质心”并根据样本和质心的距离把各样本指派到各个簇的过程. 主要具体步骤如下: ①确定初始质心生成K个质心,K由用户指定. ②指派样本计算每一个样本到各个质心的距离,把样本指派给距离最小的簇. ③更新质心根据每个簇当前所拥有的所有样本,重新计算每个簇的质心. ④检查是否满足停止条件. 的距离为,第一类和第三类之间的距离为,依次可以看出各类之间的距离. 表5 根据表{巴州、哈密地区、吐鲁番地区};第四类{和田地区、克州、博州、塔城地区、阿勒泰地区};第五类{伊犁直属县市、阿克苏地区、昌吉州}. 对所得结果进行差异性分析: 乌鲁木齐作为新疆的政治、经济的中心,在经济上的发展上都高于其他各地州市,克拉玛依市由于其石油资源优势和大型央企的进入,使其也获得了较好的发展机遇,具有较强的经济竞争优势.由于政府政策,如进一步加强喀什霍尔果斯两大经济开发区、南疆三地州片区扶贫规划以及其它重点区域战略发展规划的编制和落实执行,积极贯彻落实已出台的区域规划和政策文件,充分发挥重点地区对区域经济的辐射带动作用,培育新的经济增长极.加快制定天山北坡经济带和南坡产业带的发展战略,积极完善扶持南疆三地州、高寒沿边地区加快发展的政策措施,强化的自我 发展能力.所以伊犁州,喀什地区,以及阿克苏地区的经济也发展迅速,昌吉州由于受乌鲁木齐经济的带动经济.它们几个地区经济水平都在迅速发展.博州由于人口少,自然资源也少,南疆的克州和和田地区则由于地理原因和经济社会相对落后的发展状态,呈现出较低水平.所以SPSS分 类结果较为合理. 参考文献 [1]高惠璇.应用多元统计分析[M].北京:大学出版社,2005. [2]郝黎仁.SPSS 实用统计分析[M].北京:中国水利水电出版 社,2002. [3]李双杰,顾六宝.用聚类分析法评估区域经济[J].中国农村观 察,2001(3),52-56. [4]李世伟,丁胜.聚类分析在经济学当中的一个应用[J].商场现 代化,2009(3),23-25. [5]卢文岱.SPSS for windows 统计分析[M].北京:电子工业出 版社,2002. [6]罗积玉,邢瑛.经济统计分析方法及预测[M].北京:清华大学 出版社,1987. [7]Richard ,Dean .实用多元统计分析(第四版)[M].北京:清 华大学出版社,2001. [8]苏金明.统计软件SPSS系列应用实战篇[M].北京:出社,2002. [9]吴明隆.SPSS 统计应用实务[M].北京:科学出版社,2003. [10]赵喜仓,吴梦云.江苏城市社会经济发展状况实证分析[J].统计研究,2003(3),32-34. [11]新疆维吾尔自治区统计局,新疆统计年鉴[M],北京:中国统计出版社,2010. Clustering Analysis and Its Application to Economic Research SUN Lu-mei (School of mathematics and statistics, Ils Normal University,Yining 835000 ,Xinjiang,China) Abstract: This paper discuss the basic theory of cluster analysis and research methods, including cluster analysis and K-means method and prefectures in Xinjiang fourteen 2009 GDP;per capita GDP and other the comprehensive economic indicators as a sample, using SPSS software for their overall development level differences by type and degree of analysis. Keyword: cluster analysis; SPSS software; comprehensive economic indicators; XIinjiang’’s economic zoning