各省市经济类型聚类分析
- 格式:doc
- 大小:68.00 KB
- 文档页数:7
中国产经CHINESE INDUSTRY &ECONOMY中国产经Chinese Industry &Economy摘要:近年来,我国经济快速发展,人民生活幸福感也不断提高,但不同地域的人民幸福感仍有较大差别。
经济的发展状况与人民幸福指数相关联,因此认清目前我国各省的经济发展状况显得尤为重要。
本文通过变量聚类法将搜集到的11个指标聚为知足充裕体验指数、公共服务体验指数和社会信心体验指数。
通过IML 计算3个类成分得分,对各省在3个类成分上分别排名,运用类成分进行系统聚类,将我国各省的经济发展水平划分为4类。
济发展水平最高的北京、上海归属第一类;经济发展水平较高的河北、天津等24个省份为第二类;经济发展水平一般的内蒙古、新疆等4个省为第三类;发展水平较低的西藏为第四类。
本文基于研究结果提出了相应的对策及建议,为进一步提高各省经济发展水平,提高人民幸福指数提供理论依据。
关键词:变量聚类;系统聚类;幸福指数一、问题背景(一)选题背景自改革开放至今,虽然我国的经济有了快速健康的发展,但各地区仍存有发展不平衡的态势。
党在十七大报告中明确指出:“逐步提高居民收入在国民收入分配中的比重,整顿分配秩序,逐步扭转收入分配差距扩大超势。
”为此,我们根据居民收入的不同种类,将收入状况趋同的地区进行了系统地分类,以找到解决当前面临的增加居民收入问题的突破口。
(二)选题意义为了更好地提高我国城乡居民的幸福感,清楚地认识我国各省的经济发展状况。
本文采用聚类分析法,对2017年我国31个省、市、自治区的经济发展状况进行了系统性的研究。
通过变量聚类法对我国各省的居民的可支配收入情况进行聚类。
通过选择合理的反应幸福指数的变量用主成分分析法进行排名,并用聚类分析法将幸福指数划分为生活质量与幸福、社会环境与幸福和自然环境与幸福三部分,合理地透视我国经济发展的区域性差异。
并基于研究结果,提出了相应的建议,为进一步提高人民生活幸福指数提供理论依据。
各省份发展水平的主成分及聚类分析运用数理统计方法对全国29个省份的综合发展水平进行综合评价,建立评价指标体系,运用主成分方法对原始数据进行数学处理,得出省份综合发展水平的综合指标,再用聚类分析方法进行指标聚类分析,找出影响城市发展的主要因素,并对如何提高城市发展提出合理性建议。
标签:主成分分析;聚类分析;综合发展引言如今,一句“你幸福吗?”已是全中国老百姓最常被问到的话题,然而现在人们的幸福感已经不单单是几十年前的吃得饱、穿得暖,人们对待幸福的定义更加注重于民生,医疗、教育、经济、环境、食品等等,已成为人们判定幸福的新标准。
据统计,浙江杭州连续7年蝉联“最幸福感城市”桂冠,其次是成都、长沙,相反对于中国的顶级城市上海和北京却很少入围,近10年中仅一次入围“最幸福感城市”,因此一个城市发展得好坏已从从前单一的经济时期过渡到了如今的综合发展阶段,为全面具体地了解一个省份的发展水平,现我们将从6个方面来综合地分析全国29个省份的综合发展情况,并根据得出的客观结果提出可行性建议。
一、方法介绍(一)主成分分析主成分分析也称主分量分析,旨在利用降维的思想,是把多指标转化为少数几个综合指标的一种多元统计分析方法。
在用统计分析方法研究多变量的课题时,变量个数太多会增加课题的复杂性,因此,人们自然希望用较少的综合变量来代替。
在很多情形下,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息[1]。
主成分分析是设法将原来众多具有一定相关性的(比如p个)指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。
通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
案例分析江苏省各市经济发展水平的聚类分析标题:案例分析:江苏省各市经济发展水平的聚类分析一、引言江苏省作为中国的重要经济大省,其各市的经济发展水平一直以来备受。
对江苏省各市经济发展水平进行准确的评估,不仅有助于我们理解各市的经济现状,也有助于制定针对性的经济发展策略。
本文采用聚类分析的方法,对江苏省各市的经济发展水平进行分类,并对其结果进行深入剖析。
二、数据来源与方法1、数据来源我们选取了江苏省各市的GDP、人均GDP、工业增加值、固定资产投资、社会消费品零售总额、出口总额、地方财政收入等经济指标作为数据来源。
这些数据均来自江苏省统计局发布的年度报告,具有权威性和准确性。
2、方法选择考虑到数据的复杂性和多元性,我们选择采用聚类分析的方法对江苏省各市的经济发展水平进行分类。
聚类分析是一种无监督学习的方法,能够根据数据的相似性将数据集划分为不同的类别。
在聚类分析中,我们使用了K-means算法,这是一种常见的聚类算法,能够根据设定的类别数,将数据集划分为不同的类别。
三、结果与分析1、数据预处理在进行聚类分析之前,我们首先对收集到的数据进行预处理,包括缺失值填充、异常值处理以及标准化处理等。
经过预处理后的数据,能够更好地反映江苏省各市的经济发展水平。
2、聚类分析结果我们设定类别数为3,对江苏省各市的经济发展水平进行聚类分析。
经过多次尝试和调整,最终得到了较为合理的聚类结果。
该结果将江苏省各市划分为三个类别:高发展水平市、中发展水平市和低发展水平市。
3、结果分析(1)高发展水平市:这一类别的城市主要包括南京、苏州和无锡等城市。
这些城市的经济发展水平较高,各项经济指标均高于全省平均水平。
这些城市的经济结构较为合理,工业增加值和地方财政收入较高,显示出较强的经济实力和竞争力。
(2)中发展水平市:这一类别的城市主要包括常州、南通、徐州等城市。
这些城市的经济发展水平处于全省平均水平之上,但相较于高发展水平市还存在一定差距。
全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析近年来,我国经济发展迅速,全国各地区也呈现出不同程度的经济发展水平。
为了对全国30个市自治区的经济发展水平进行综合评价,基于因子分析和聚类分析的方法被广泛应用。
首先,我们通过因子分析的方法对数据进行降维和综合评价。
因子分析将多个变量综合为少数几个因子,并可以解释这些因子与原始变量之间的关系。
我们选择了GDP总量、人均GDP、产业结构、基础设施建设、外资吸引等指标作为评价经济发展水平的变量。
通过因子分析,我们可以得到几个综合指标,用于评价各个市自治区的经济发展水平。
接着,我们可以利用聚类分析的方法进行分类。
聚类分析是将样本划分为几个相似的类别,每个类别内的样本相似度高,而类别间的相似度较低。
我们可以通过聚类分析得到若干个类别,这些类别可以代表不同的经济发展水平。
通过将市自治区进行分类,可以更加直观地展示各地区之间的差异,也可以为地方政府提供参考。
最后,我们可以将因子分析和聚类分析的结果进行综合。
通过对因子得分和聚类结果的比较,可以得到更加准确的综合评价。
在综合评价的过程中,我们可以进一步分析各个市自治区的优势和劣势,以及存在的问题和潜在的发展机会。
这些分析结果可以为地方政府提供经济发展策略和政策的参考。
在实施全国30市自治区经济发展水平综合评价的过程中,我们需要充分考虑指标的选择和权重的确定。
指标的选择应当代表经济发展的各个方面,权重的确定应当根据实际情况和专家意见综合考虑。
另外,我们需要注意数据的可靠性和准确性,以及分析方法的合理性和可操作性。
总之,基于因子分析和聚类分析的方法可以对全国30市自治区的经济发展水平进行综合评价。
这种方法能够降低数据的维度,提取出关键的因子,并对样本进行分类。
通过综合分析和评价,可以为决策者提供参考,促进经济发展水平的提高。
对我国各地经济发展水平进行聚类分析对我国各地经济发展水平进行聚类分析摘要:区域经济协调发展对于一个国家的长期发展具有深远的战略影响。
本文根据《中国统计年鉴》选用人均GDP、居民消费水平、人均进出口总额等指标,采用聚类的方法对我国各地区经济进行聚类,并根据结果分析特点,得出具有现实意义的结果,以供有关部门参考。
关键字:聚类分析区域经济发展水平分类国家经济发展不仅要看总体GDP的高速的增长,应考虑到居民生活水平、各个产业的发展情况、人民收入等各个方面。
同时,各地区经济水平的协调发展更是不可忽视的一方面,了解区域发展情况,并对其进行分类对我国经济发展战略的制定等具有重要而深远的意义。
聚类分析就是根据事物的某方面特征把他们划分为若干小类,使得隶属同一类的个体具有较高的相似度或类似的性质,而不属于同一类的个体具有较低的相似度的分析过程【1】。
在地区经济发展水平的分析中,可以利用聚类分析的方法,根据一定的具有代表性的指标将不同的地区进行分类。
从而制定相应的发展策略。
一区域经济水平策聚类分析的指标选择及所所选数据反映地区经济发展状况的指标种类多样,所以所选的指标不仅要有明确的社会和经济意义,而且要能代表地区经济发展水平的某一个方面。
指标选择要有代表性和针对行,本文根据经济发展状况选用了八个指标进行聚类分析,各地人均GDP用以代表各地区经济的总体发展状况,第一二三产业人均GDP用以代表各地不同产业的发展水平,人均进出口总额用以表示各地区的对外贸易情况,居民消费水平用以表示各地居民的生活水平,在岗职工平均工资用以反映地区职工工资水平,人均财政收入用以反映地区公共建设投资能力等。
本文根据《中国统计年鉴》对2008年各地区降级指标数据的统计,直接引用其中指标或根据其中相关指标换算获取所需指标,如下表:表1二中国各地区经济发展水平的聚类分析(一)聚类方法概述在进行聚类分析时本文采用K-means聚类方法,K-means聚类方法又被称为逐个修改法。
应用聚类分析对部分省市经济类型的分类研究宜春学院数学与计算机科学学院 戚 珉 宜春学院生物工程研究所 王 霏[摘 要]一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS11.0,对北京市等省市2002年的人均国民生产总值(元)、职工平均工资(元)、第一二三产业在国民生产总值占的比例作为判别经济类型的五个因素,进行聚类分析,分析了分类结果,证明和我们的直观判断相吻合。
说明进行本文的分析在一定程度上反映了这些省市的经济类型和经济特点。
[关键词]经济类型 聚类分析 SP SS 1引言随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。
通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。
一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大统计软件SP SS 11.0,对北京市、天津市、辽宁省、黑龙江省、广东省、浙江省、陕西省和甘肃省2002年的人均国民生产总值(元)、职工平均工资(元)、第一二三产业在国民生产总值占的比例作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,辽宁省和黑龙江省属于一类,广东省和浙江省属于一类,陕西省和甘肃省属于一类,这个结果和我们的直观判断一致。
这个结果充分说明了本文进行的分析是合理的,具有一定的科学性。
2聚类分析过程2.1基本概念聚类分析是根据事物本身的特性研究个体分类的方法。
聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。
根据分类对象不同分为样品聚类和变量聚类。
样品聚类在统计学中又称为Q 型聚类。
是根据被观测对象的各种特征,即反映被观测对象的特征的各变量值进行分类。
变量聚类在统计学中又称为R 型聚类。
反映事物的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。
2.2原始数据本文的数据均来自2003年出版的《中国统计年鉴》,通过对北京市、天津市、辽宁省、黑龙江省、广东省、浙江省、陕西省和甘肃省2002年的人均国民生产总值(元)、职工平均工资(元)、第一二三产业在国民生产总值占的比例作为进行判别经济类型的五个因素,进行了聚类分析。
全国30省市自治区经济发展水平综合评价——基于因子分析和聚类分析王喆[摘要] 衡量一个地区的经济发展程度,要从其生产、消费等各个方面进行综合评价。
本文基于全国30省市自治区的GDP、CPI等8个经济指标的数据,应用因子分析的方法对其经济发展水平进行了排名和聚类分析的方法将其分为一线、二线、三线地区。
根据排名及分类结果,本文对各类地区的经济发展状况进行了全面评价,并提出了相关建议。
[关键词]因子分析;聚类分析;经济发展;综合评价一、数据背景1.变量选取本文选取了国民生产总值、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品价格指数、工业总产值等8个指标进行量化评价我国30个省、市、自治区(不包括重庆、香港、澳门、台湾)的经济发展水平状况。
二、数据描述1.描述统计本文计算了各变量的极大值、极小值、均值、标准差等指标(表1),计算结果表明,各变量均不存在缺失值,数据的完整性较好。
各地区的的居民消费价格指数、商品价格指数这两个指标差异不大,但是其他指标的差异很明显,这也符合我国经济发展不平衡、地区差异显著的特点。
表1 各变量的一般统计量描述表2.相关性分析根据各变量的经济含义,许多变量之间应该存在高度相关,为了更好的看出各变量的相关关系,本文计算了各变量之间的Pearson相关系数及相关的显著性检验(表2)。
结果表明,许多变量之间存在较强的相关关系,比如国民生产总值与固定资产投资之间的相关系数高达0.951,居民消费价格指数与商品价格指数之间的相关系数高达0.763。
**表示在0.01 水平(双侧)上显著相关。
*表示在0.05 水平(双侧)上显著相关。
三、因子分析1.KMO 和 Bartlett 的检验做因子分析之前,首先要进行KMO检验或Bartlett检验,只有当检验通过之后才能进行因子分析,一般认为KMO检验的结果大于0.5或Bartlett检验通过即适合进行因子分析。
关于全国各省经济经济类型的聚类分析系:工商管理系专业:11 统计学姓名:李良摘要:改革开放以来,中国各省市在经济发展方面都取得了显着的成绩。
这篇论文利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。
通过这两个方法对全国各省进行经济分类。
本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。
分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型;广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。
关键词:聚类分析、经济类型引言:一聚类分析(cluster analysis)是一组将研究对象分为的群组(clusters)的统计分析技术。
聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。
它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。
二聚类分析的优点:聚类分析简单、直观;主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
三聚类分析相比较于其他分析方法而言:(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。
(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。
全国各省经济的聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。
它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。
判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。
判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。
聚类分析与判别分析都是研究分类的,但是它们有所区别:(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。
判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。
(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。
(3)聚类分析与判别分析也是有联系的。
如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。
分析背景随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。
但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。
因此,基于这种现状,本文对全国各地区的经济进行聚类分析。
首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类,然后对浙江、湖南、甘肃三省的经济类型进行判别分析。
通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异,最终对国家以及各地区的发展及政策制定实施起到指导作用。
各省市经济类型分析SY0906611 陆启超摘要判别分析(Discriminate)和聚类分析(Hierarchical Cluster)是进行统计分类的两种常用方法,本文利用这两种方法对于全国几个省市的按经济类和经济状况进行分类,并制定一定的分类规则(即判别函数),以便对于新加的样品能够按照这些规则进行很快的分类。
一个省市的经济类型和地区生产总值、三种产业在国内生产总值占的比重等因素相关。
本文利用统计软件SPSS对全国各省市以上各方面2007年的统计数据进行聚类分析,得到了对各省市经济类型的分类结果,并通过验证三个特殊省份的经济类型,保证结果的正确性。
分析结果反映了这些省市的经济类型和经济特点。
关键字:聚类分析判别分析经济类型MATLAB引言中国经济在总体上发展迅速,但是区域发展不平衡的矛盾也日益突出,各地区由于各种因素经济类型呈现出巨大差异。
英国经济统计学家,从若干国家经济统计数据中证明了随着经济的发展,人口的就业结构亦将发生相应变化。
美国著名经济学家S.Kuznetz又对产业结构与经济发展的关系作了更深入的研究,在《现代经济增长》和《各国经济增长的数量分析》中指出经济的发展也必将引起产值结构的变化。
1聚类分析方法简介聚类分析的基本思想是,从一批样品的多个观测指标变量中,定义能度量样品间相似程度的统计量,在此基础上求出各个样品之间的相似程度的度量值,按相似程度的大小,将样品逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样品都聚集完毕,把不同类型一一划分出来,形成一个亲疏关系谱系图,用以更加直观的显示分类对象的差异和联系。
聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。
根据分类对象不同,聚类分析分为样本聚类和变量聚类,即统计学上的Q 型聚类和R型聚类。
常见的聚类分析方法有快速样本聚类和分层聚类。
快速样本聚类的前提是要已知将要聚成的类数,这样在使用这种聚类法的过程中能够很快的将观测量分到各类中去。
分层聚类方法根据聚类过程不同分为凝聚法和分解法。
分解法,就是在聚类开始的时候,把所有个体都视为属于一个大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止;而凝聚法刚好相反,它是在一开始把参与聚类的每个个体视为一类,根据两类之间的距离或相似性逐步合并,直到合并成一个大类为止。
1.1直接聚类法先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。
如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。
每次归并,都划去该对象所在的列与列序相同的行。
经过没m-1次就可以把全部分类对象归类,这样就可以根据归并的先后顺序作出聚类谱系图。
1.2最短距离聚类法最短距离聚类法在原来的m×m矩阵的非对角元素中找出,把分类对象Gp 和Gq归并为新类Gr,然后按计算公式计算原来原来各类与新类之间的距离,这样就得到一个新的m-1阶的距离矩阵;再从新矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,知道各分类对象被归为一类。
1.3最远距离聚类法其与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。
其使用的是最远距离来衡量样本之间的距离。
2 对各省市经济类型的聚类分析一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件MATLAB 7.0,对北京市等省市2008年的人均地区生产总值(亿元)、职工平均工资(元)、从事第一、二、三产业的人的比例作为判别经济类型的五个因素,进行聚类分析。
根据地区发展的特点大概把我国划分为八大经济区域:南部沿海地区、东部沿海地区、北部沿海地区、东北地区、长江中游地区、黄河中游地区、西南地区、西北地区。
希望通过这八大经济区的划分,来进行经济区的统一考虑,加强区域间的联系。
2.1 数据整理下表是全国所有省市的相关统计数据,数据来源为《中国统计年鉴2009》。
其中浙江、辽宁、云南三省的数据留作判别分析用。
地区地区生产总值(亿元)人口(人)职工平均工资(元)第一产业(%)第二产业(%)第三产业(%)北京9353.32 1695 55844 5.6 21.8 72.5 天津5050.40 1176 39990 15.5 40.5 44.0 河北13709.50 6989 24276 40.8 32.7 26.5 山西5733.35 3411 25489 40.6 26.4 33.0 内蒙古6091.12 2414 25949 50.5 16.9 32.7辽宁11023.49 4315 27179 33.3 25.5 41.2 吉林5284.69 2734 23294 44.7 19.9 35.4 黑龙江7065.00 3825 21764 46.4 20.5 33.0上海12188.85 1888 52122 5.5 39.3 55.2 江苏25741.15 7677 31297 20.9 44.4 34.7 浙江18780.44 5120 33622 18.2 46.5 35.3安徽7364.18 6135 25703 44.7 27.0 28.3 福建9249.13 3604 25555 31.1 35.6 33.3 江西5500.25 4400 20597 40.7 27.4 31.9 山东25965.91 9417 26234 37.4 31.6 31.0河南15012.46 9429 24438 48.8 26.8 24.4 湖北9230.68 5711 22384 35.4 24.6 40.1 湖南9200.00 6380 24146 49.6 20.0 30.4 广东31084.40 9544 33282 28.3 33.4 38.2 广西5955.65 4816 24798 55.2 20.0 24.8 海南1223.28 854 21767 53.8 11.3 34.9重庆4122.51 2839 26640 37.1 26.6 36.3 四川10505.30 8138 24725 45.0 21.9 33.1 贵州2741.90 3793 23979 52.4 11.3 36.3 云南4741.31 4543 23305 62.6 12.2 25.1 西藏342.19 287 44055 55.7 10.4 33.9陕西5465.79 3762 25478 46.8 20.7 32.5 甘肃2702.40 2628 23632 52.9 14.3 32.8 青海783.61 554 30101 44.5 21.3 34.2 宁夏889.20 618 30050 44.9 25.1 30.1 新疆3523.16 2131 24686 51.6 13.7 34.72.2 聚类分析利用统计软件matlab 7.0对以上数据进行聚类分析,样品之间的距离采用欧式距离(Euclidean distance),聚类方法采用重心聚类法(Centroid clustering),Matlab提供了两种方法进行聚类分析。
一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离,用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。
本文采用分步聚类的方法实现类别划分。
实现的程序代码为:结果:聚类谱系图为:即分类结果为:2.3 判别分析判别分析模型:设有 k 个总体 G1,G2,…,Gk,它们都是p元总体,其数量指标是设总体 Gi 的分布函数是 Fi(x)=Fi(x1,x2,…,xp),i=1,2,…,k,通常是连续型总体,即 Gi 具有概率密度 fi(x)=fi(x1,x2,…,xp)。
对于任一新样品数据x=(x1,x2,…,xp)T,要判断它来自哪一个总体 Gi。
通常各个总体Gi 的分布是未知的,它需要由各总体 Gi取得的样本数据资料来估计。
一般,先要估计各个总体的均值向量与协方差矩阵。
从每个总体 Gi取得的样本叫训练样本。
判别分析从各训练样本中的提取各总体的信息,构造一定的判别准则,判断新样品属于哪个总体。
从统计学的角度,要求判别准则在某种准则下是最优的,例如错判的概率最小或错判的损失最小等。
由于判别准则的不同,有各种不同的判别分析方法:距离判别、Bayes判别和Fisher判别等。
本文进行判别分析使用的是距离判别法。
留待检验判别的三个省的数据为下表:地区地区生产人口(人)职工平均工第一产业第二产业第三产业总值(亿资(元)(%) (%) (%) 元)辽宁11023.49 4315 27179 33.3 25.5 41.2 浙江18780.44 5120 33622 18.2 46.5 35.3 云南4741.31 4543 23305 62.6 12.2 25.1 实现的程序代码:结果:即应将辽宁化分到第2类,浙江化分到第5类,云南化分到第4类。
2.4 结果分析直观上从各省的经济水平看,分类还是基本合理的。
但与初始设想的八大经济区域的划分还有一定的出入。
分析其原因,主要是八大经济区域的划分主要是从地理区域上考虑的划分,而所选择的样本数据基本上与各省的地理位置无关。
总结本文首先通过地区生产总值、地区人口、职工平均工资和三大产业从业人数占总就业人口6个经济特征,采用分层聚类分析的方法,最终把28个省市的经济类型分成了4类。
然后以这28个样本为参考,通过逐步判别方法建立判别方程。
通过本文对各省市经济类型的聚类分析,我们可以看到,区域间经济发展的不平衡也表现在产业结构具有不同的形式,经济比较发达的地区,其产业结构比较高级化,经济相对落后的地区,其产业结构也相对初级。
要实现经济的高速发展,就要不失时机地调整产业结构,使产业结构的演化适应经济发展的需要。
我国疆域辽阔,经济发展与产业结构的地域差异是十分显著的,但是各地的共同特点是第三产业发展不足,纵观发达国家产业结构转化历史及现状,英、法、德、美、日等都先后在本世纪50~70年代实现了产业结构的转化和升级。
为了推进我国国民经济的发展和产业结构升级,国家的产业政策正在进行逐步调整,大力推进第三产业的发展,推进产业结构升级和社会经济的协调发展。