多元统计分析案例分析.doc
- 格式:doc
- 大小:62.19 KB
- 文档页数:10
综合评价的多元统计分析方法一、本文概述本文旨在深入探讨综合评价的多元统计分析方法,阐述其在各个领域的广泛应用及其实践价值。
随着大数据时代的到来,多元统计分析在综合评价中的地位日益凸显,其不仅能够帮助研究者从多个维度和角度全面、系统地分析数据,还能为决策提供更为科学、合理的依据。
本文将从多元统计分析的基本概念出发,详细介绍其在综合评价中的应用原理、常用方法以及实际案例,以期为读者提供一套完整、实用的多元统计分析方法体系,为相关领域的实践工作提供有益的参考。
二、多元统计分析方法概述在现代数据分析中,多元统计分析方法占据了至关重要的地位。
这些方法允许研究者同时分析多个变量,从而更全面地理解数据背后的复杂关系。
多元统计分析方法不仅扩展了传统单变量统计分析的视野,而且通过揭示变量之间的内在联系,为决策制定和预测提供了更为精确和全面的信息。
多元统计分析方法主要包括多元线性回归、主成分分析、因子分析、聚类分析和判别分析等。
每种方法都有其特定的应用场景和优势。
例如,多元线性回归用于探究多个自变量与因变量之间的线性关系;主成分分析则通过降维技术,提取数据中的主要信息;因子分析则用于揭示变量背后的潜在结构;聚类分析根据数据的相似性将数据分为不同的群体;而判别分析则用于确定样本所属的类型或群体。
这些方法在综合评价中都有着广泛的应用。
通过综合评价,我们可以对一个对象或系统的多个方面进行量化评估,进而得出一个综合的、全面的评价结果。
在这个过程中,多元统计分析方法提供了强大的工具支持,帮助我们更准确地理解和分析评价对象的各个方面,为决策提供科学依据。
随着数据分析技术的不断发展,多元统计分析方法也在不断更新和完善。
这些方法的应用范围也在不断扩大,从社会科学、经济管理到生物医学等领域,都可以看到多元统计分析方法的身影。
未来,随着大数据和技术的进一步发展,多元统计分析方法将在综合评价中发挥更加重要的作用。
三、主成分分析在综合评价中的应用主成分分析(Principal Component Analysis, PCA)是一种广泛应用于多元统计分析的降维技术,其核心思想是通过正交变换将原始变量转换为新的线性无关的综合变量,即主成分。
基于CANOCO的生态学数据的多元统计分析著者:Jan Leps 捷克南波希米亚大学植物学系和捷克科学院昆虫研究所生态学教授Petr Smilauer 捷克南波希米亚大学多元统计分析讲师译者:赖江山中国科学院植物研究所生物多样性与生物安全研究组助理研究员这本书目的主要在于帮助生态学者分析野外观测数据和实验获得的数据。
本书对于学生或研究人员处理复杂的生态学问题非常有用,比如生物群落随环境条件的如何变化,或是生物群落在控制实验中的变化。
在简单介绍排序原理之后,本书的着重介绍约束排序方法(RDA 和CCA)和置换统计检验在多元数据中的应用。
同时介绍了如何利用分类的方法及现代回归技术(GLM,GAM,loess)来正确解读排序图。
最后,用CANOCO软件分析了7个难度不同的研究案例。
这些案例对于大家选择排序方法及分析排序结果很有帮助。
案例的数据均可以从网络本书的主页(http://regent.bf.jcu.cz/maed/)上获得。
原书前言群落的组成的多维数据,比如种群的属性,或是环境因子的属性,是生态学家研究生涯的面包与黄油。
这些数据被分析时候需要考虑它们的多维性。
用多元统计的方法来分析群落数据是比较适合的。
在这本书,我们尽量使用一套一致的方法来回答生态学家在研究中常遇到的问题。
然而,我们也经常用自己观点来表述一些内容,同时,我们也关注一些非参数的方法,比如非度量多维尺度分析(NMDS)的算法等等。
我们并不要是强调不同的方法对于分析多元数据的差异,而是想说明要解决一个问题,可以用很多方法。
在本书主要内容讲排序的方法,但并不意味着分类的方法没有用(译者注:排序与分类密不可分,分类分析群落的间断分布,排序分析群落的连续分布)。
同时,我们也对回归方做了一些总结,包括最新发展的内容比如广义可加模型(generalized additive models)。
在这本书的所描述的方法可以广泛被研究植物、动物和土壤的研究人员利用,当然也可以是水生生物方面的人员。
白酒是世界主要蒸馏酒品种之一,中国白酒历史悠久,是宝贵的民族遗产[1]。
白酒分析手段目前进入新的发展阶段,获得了令人瞩目的成果,包括常规检测技术、色谱技术等在内的众多分析检测手段,以揭示白酒的风味与白酒中微量成分及其量比的联系。
白酒风味物质研究已成为行业研究的大趋势[2]。
经研究证明,白酒风味组成极其复杂,组分种类很多,迄今为止从白酒中检测到的微量风味化合物有1 000余种[3]。
白酒中的微量成分十分丰富,不同产品中的香气种类和含量差异很大,这也是决定白酒香气、口感和风格的关键所在[4],但受研究条件的限制,对全部微量成分进行准确的定量或定性尚有一定困难。
多变量统计分析作为一种数理统计分析手段,已经越来越多的应用于酒类风味特征的研究中[5]。
目前,所涉及的统计分析软件最为广泛的是SPSS软件。
该软件在酒类风味特征研究中的应用方法主要有:主成分分析、聚类分析和判别分析等。
1 分析方法1.1 主成分分析主成分分析是在空间数据中找出几个能够控制所有变量的主成分,将数据从高维空间降至低维,从而使数据处理更为简便[6]。
一般提取特征值大于1或累计方差贡献率大于80%的因子为主成分,故提取出来的主成分包含了原始数据的大部分信息[7]。
在对数据进行主成分分析后,以主成分的得分做图即可得到所有样本的二维或三维PCA投影图,样本间的关系即可较好的表现出来,进而实现样本的分类[7]。
1.2 聚类分析简便且直观,广泛应用于指纹图谱研究。
其基本原理是按照一定准则将具有相同或相似性的物质聚为一类,例如采用欧式距离计算相似度后,通过ward最小方差法进行系统聚类等;聚类分析在白酒香型、风格等的归类和区分上有很好的应用[8]。
1.3 判别分析是根据事物特点的特征值及其所属的类按照一定的准则求出判别函数,根据判别函数对事物进行分类的一种分析方法[9]。
2 研究内容本文以酱香型白酒、浓香型白酒及清香型白酒为研究对象,采用气相色谱分析技术对白酒微量风味组分进行有效检测,色谱数据以多元统计学为基础,通过主成分分析(PCA)、聚类分析、判别分析等方法对三种不同香型白酒成分间的复杂量比关系进行分析,建立了一种主流白酒香型评判模型。
基于CANOCO的生态学数据的多元统计分析著者:Jan Leps 捷克南波希米亚大学植物学系和捷克科学院昆虫研究所生态学教授Petr Smilauer 捷克南波希米亚大学多元统计分析讲师译者:赖江山中国科学院植物研究所生物多样性与生物安全研究组助理研究员这本书目的主要在于帮助生态学者分析野外观测数据和实验获得的数据。
本书对于学生或研究人员处理复杂的生态学问题非常有用,比如生物群落随环境条件的如何变化,或是生物群落在控制实验中的变化。
在简单介绍排序原理之后,本书的着重介绍约束排序方法(RDA 和CCA)和置换统计检验在多元数据中的应用。
同时介绍了如何利用分类的方法及现代回归技术(GLM,GAM,loess)来正确解读排序图。
最后,用CANOCO软件分析了7个难度不同的研究案例。
这些案例对于大家选择排序方法及分析排序结果很有帮助。
案例的数据均可以从网络本书的主页(http://regent.bf.jcu.cz/maed/)上获得。
原书前言群落的组成的多维数据,比如种群的属性,或是环境因子的属性,是生态学家研究生涯的面包与黄油。
这些数据被分析时候需要考虑它们的多维性。
用多元统计的方法来分析群落数据是比较适合的。
在这本书,我们尽量使用一套一致的方法来回答生态学家在研究中常遇到的问题。
然而,我们也经常用自己观点来表述一些内容,同时,我们也关注一些非参数的方法,比如非度量多维尺度分析(NMDS)的算法等等。
我们并不要是强调不同的方法对于分析多元数据的差异,而是想说明要解决一个问题,可以用很多方法。
在本书主要内容讲排序的方法,但并不意味着分类的方法没有用(译者注:排序与分类密不可分,分类分析群落的间断分布,排序分析群落的连续分布)。
同时,我们也对回归方做了一些总结,包括最新发展的内容比如广义可加模型(generalized additive models)。
在这本书的所描述的方法可以广泛被研究植物、动物和土壤的研究人员利用,当然也可以是水生生物方面的人员。
XXXX课程设计任务书课程名称多元统计分析课题判别分析与因子分析专业班级学生姓名学号指导老师审批任务书下达日期任务完成日期目录课题一判别分析摘要 (1)一、指标和数据 (1)二、聚类分析的实施 (1)三、判别分析的实施 (2)四、结果分析 (5)课题二因子分析摘要 (6)一、数据 (6)二、因子分析的实施 (6)三、结果分析 (10)总结 (11)参考文献 (11)评分标准 (12)附表 (13)课题一判别分析摘要聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
而判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。
根据判别函数对未知所属类别的事物进行分类的一种分析方法。
核心是考察类别之间的差异。
本课题正是基于多元统计分析中聚类分析和判别分析的方法,以《各地区按行业分城镇单位就业人员平均工资》的调查数据为对象(预留出待判样本),借助Spss统计软件用聚类分析进行分类,并以分好的类别为依据对待判样本进行判别分类以及对已分类样本进行回判分析。
一、指标和数据按要求于国家统计局网站查找变量数大于等于10,样本数大于等于20的合适数据并整理。
得到整理后的《各地区按行业分城镇单位就业人员平均工资》(见附表一)。
其体系共有31个地区,19项指标。
具体指标x1:农、林、牧、渔业就业人员平均工资,简写“农、林、牧、渔业”(以下具以简写形式省略“就业人员平均工资”);x2:采矿业;x3:制造业;x4:电力、燃气及水的生产和供应;x5:建筑业;x6:交通运输、仓储和邮政业;x7:信息传输、计算机服务和软件业;x8:批发和零售业;x9:住宿和餐饮业;x10:金融业;x11:房地产业;x12:租赁和商务服务业;x13:科学研究、技术服务和地质勘查业;x14:水利、环境和公共设施管理业;x15:居民服务和其他服务业;x16:教育;x17:卫生、社会保障和社会福利业;x18:文化、体育和娱乐业;x19:公共管理和社会组织。
多元统计分析的定义多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
多元统计分析的内容和方法1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2)判别分析:判别样本应属何种类型的统计方法。
3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。
(回归分析)二是:两组变量间的相互关系(典型相关分析)多元统计分析的理论基础1、矩阵2、多元正态分布欧氏距离和马氏距离1、欧氏距离(直线距离)(1)优点(2)缺陷:权重被忽略和量纲不一致时处理不当2、马氏距离(1)优点:克服量纲、克服指标间相关性影响(2)缺点:确定协方差矩阵困难假设检验的基本原理小概率事件原理小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。
反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。
假设检验的步骤(1)提出一个原假设和备择假设(2)确定检验统计量(3)确定显著性水平α(4)计算检验统计量的值并进行判断均值向量的检验正态总体均值检验的类型1)根据样本对其总体均值大小进行检验(One-Sample T Test ):如妇女身高的检验。
2)根据来自两个总体的独立样本对其总体均值的检验(Indepent Two-Sample T Test ):如两个班平均成绩的检验。
3)配对样本的检验(Pair-Sample T Test ):如减肥效果的检验。
多元统计分析实例院系: 商学院学号: 姓名:多兀统计分析实例本文收集了 2012年31个省市自治区的农林牧渔和相关农业数据,通过对对 收集的数据进行比较分析对31个省市自治区进行分类•选取了 6个指标农业产值 林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农 村居民家庭经营耕地面积. 数据如下表: 江 区 京津北H 蒙宁林龙海苏江徽建西东南北南东西南庆川州南藏西肃海夏牘地北天河山内辽吉黒上江浙安福江山河湖湖广广海重四贵77西陕甘青宁新农业总产值 林业驰产{牧业总产懾业总产侬村居民家庭拥有生产性[5166.2954.83 154.16 12 98 12767. 09 0・5195.^9 £ 79 105. 01 61, 66 17508. 57 1. 58 3095.29 77.88 1747. 66 1?7. 74 17904. S3 1789847-41 79, 07 298. 83 8. 42 ^808. 38 2.51171.-57 97. 7G U1S. 86 26. 08 293曲.旳 10. 4 1539.65128. 68 16ZL 23 618. 74 249^7. 92 3. 781166.ES90. 1 1130. 36 34. 14 24937. SB S. 272315. 64 134. 51350. 63 77. 92 31507. 91 13. 56171.48 9.5572. 59 57. 45 4146. 13 0. 262966.72 99. 75 1226,18 1235.4 14541. 03 L251229.36 142.14 549. 01 687. 05 22747. 33 6 541867.64 209. 5 1119.73 334. 43 15134. 35 1. 391263.71 256. 45 48L 28 p03. 36 11821. 38 731003.21 228. 91 752. 63 333. 06 gggg. 31 L 57 39&0.储 107.01 22S5. 92 1267. 07 19168.14 L &4 3958.^5 140. 85 2255. 61 SS.4 12980. 72 1. &2 2488. 06 100.05 1334, X 626, 23 10813. 13 1. 71 2651.69 259. 97 1488. 58 279. 94 3904. 32 1. 22 2229. 27222.74 1134.14 914. 05 8516. 72 0.53 1724 245. 56 1072. 77 331. 74 11851. 56 L 37 4S0. 72 137.85 214. 14 236.27 11387. 06 0. 83 341.51 43.48 453. 9 44. 99 122S5. 74 L 29 2764- 9 151. 52269. 86 163. 77 13759.17 1.14364. 54.19421. 55 28. 21 11957. 31 L 181398.17225. S3 912. 97 63.1 19020. 92 1.. 6 53.39 2” 56 59. 02 0. 22 52935. 07 L 891526.23 58. 44 598. 72 14. 61 12273. 06 L 52984,24 20. 07 231. 72 1,8 1$486. 44 2. 72 117-09 4.57 137. 08 0. 56 21919.甜 L 33 240, 4&9・77 105, 72 13. 36 24266.19 3・69 1675収04485. 37 15* 26 35Q70. 315 76.聚类法设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.C A S E 0 5 10 15 20 25 内蒙 5 -+吉林7 -+云南25 - + -+江西14 -+ +-+陕西27 - + -+ |新疆31 -+ +- +安徽12 -+-+ 11广西20 —+ + — + +——————— +辽宁 6 ---+ | |浙江11 -+—+ 1福建13 -+ 1重庆22 -+ + ............... ....... + 贵州24 -+ 1|山西 4 -+ -+ | |甘肃28 -+ | | |北京 1 -+ | | |青海29 + + + | 1天津 2 -+ 1|上海9 -+ 1|宁夏30 -+ - +|西藏26 -+ |海南21 -+ |河北 3 | 1四川23 - + | |黑龙江8 -+-+ + .......... + |湖南18 -+ + + | | |湖北17 - + -+ +-+ + -------------- ■...... + 广东19 -+ | |江苏10 --——+ |山东15 ...... + ....... +河南16 ...... +从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少•三.判别法X1,X2,X3,X4,X5,X6分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积实验结果分析:从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.由表中可以知道,13456指标之间的sig 值较小,2指标sig 值有0.561较大, 不过仍说明接受原假设,各指标族群间差异较大.从表中可以知道,检验结果p值>0.05,此时,说明协方差矩阵相等,可以进行bayes检验.Fisher 分析法协方差矩阵的均等性的箱式检验典型判别式函数摘要由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大由表中可知,3个Fishe判别函数分别为y i 2.928 0.003X20.626X6y2 2.269 0.002X2 0.489X6y3 0.975 0.009X2 0.01X3 0.03X4 0.037X6农村居民家庭拥有生产性固定资产原值对判别数据所属群体无用该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.贝叶斯分析法该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数y1 0.03X1 0.029X2 0.03X3 0.002X4 0.001X5 0.153X1 8.418第一类:第二y2 0.06X10.42X2 0.009X3 0.004X40.004X5 4.286X6 38.18类;第三y3 0.02X-I0.010X20.002X30.010X40.001X5 1.X620.732类;第四类:『4 0.OO3X-I 0.051X20.004x30.006x40.002x5 1.675x661.646将各样品的自变量值代入上述4个BayeS判别函数,得到函数值。
一、对我国30 个省市自治区乡村居民生活水平作聚类剖析1、指标选择及数据:为了全面剖析我国乡村居民的生活状况,主要考虑从收入、花费、就业等几个方面对乡村居民的生活状况进行观察。
所以选用以下指标:农村产品价钱指数、乡村住所投资、乡村居民花费水平、乡村居民花费支出、乡村居民家庭人均纯收入、耕地面积及乡村就业人数。
现从2010年的检查资猜中抽取30个样本,指标数据以下:耕地乡村乡村居乡村私农产品价乡村居乡村居民面积住所民生活营公司格指数民花费家庭人均2008地域投资花费支就业人(上年水平纯收入(万(亿出共计数(万=100)(元)(元)公元)(元)人)顷)北京12886 13262天津7814 10075河北3867 5958山西4500 4736内蒙古4486 5530辽宁5739 6908吉林4663 6237黑龙江4536 6211上海13609 13978江苏8196 9118浙江9878 11303安徽4447 5285福建6879 7427江西4397 5789山东5733 6990河南4061 5524湖北4758 5832湖南4513 5622广东5880 7890广西3561 4543海南3846 5275重庆3652 5277四川4748 5087贵州2926 3472云南3603 3952陕西3683 4105甘肃2975 3425青海3684 3863宁夏3894 4675新疆3590 4643数据根源:《中国统计年鉴2010》.2、将数据进行标准化变换:耕地乡村乡村居乡村私农产品价乡村居乡村居民面积住所民生活营公司格指数民花费家庭人均2008地域投资花费支就业人(上年水平纯收入(万(亿出共计数(万=100)(元)(元)公元)(元)人)顷)北京河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南重庆四川贵州云南陕西甘肃宁夏新疆3、用K-均值聚类法对样本进行分类以下:聚类成员事例号地域聚类距离1 北京 12 天津 23 河北 34 山西 45 内蒙古 36 辽宁 27 吉林 38 黑龙江 39 上海 110 江苏 211 浙江 112 安徽 313 福建 214 江西 415 山东 316 河南 317 湖北 318 湖南 419 广东 220 广西 421 海南 422 重庆 423 四川 324 贵州 425 云南 326 陕西 427 甘肃 428 青海 429 宁夏 430 新疆 4分四类的状况下,最后分类结果以下:第一类:北京、上海、浙江。
一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。
因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2010年的调查资料中
2、将数据进行标准化变换:
3、用K-均值聚类法对样本进行分类如下:
分四类的情况下,最终分类结果如下:
第一类:北京、上海、浙江。
第二类:天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
针对以上分类结果进行判别分析。
其中将新疆作作为待判样本。
判别结果如下:
从上可知,只有一个地区判别组和原组不同,回代率为96%。
下面对新疆进行判别:
已知判别函数系数和组质心处函数如下:
判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7
Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7
将西藏的指标数据代入函数得:Y1=-1.08671
Y2=-0.62213
Y3=-0.84188
计算Y值与不同类别均值之间的距离分别为:D1=138.5182756
D2=12.11433124
D3=7.027544292
D4=2.869979346
经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。
经spss软件分析结果如下:
(1)各指标的相关系数阵:
(2)检验:
0.
系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
(3)各指标的贡献率如下表:
68%,累积方差贡献率为68.973%。
第二个因子的特征根为0.863,解释原有变量
总方差17.34%,累计方差贡献率为86.313%。
(4)碎石图:
(5)因子载荷阵如下:
为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
(6
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
(2)求相关矩阵的特征值和特征向量:
从上表可知,前两个特征值累计贡献率已达86.313%。
说明前两个主成分基本包
含了全部指标具有的信息。
因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:
所以,前两个主成分为:
第一个主成分:F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。
(4)因子得分:
F1=-0.193家庭人均纯收入+0.293就业人数
F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业人数
(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)
F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5
F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5
将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:
(6)对结果进行分析:
从中可以看出,各地区的农村居民生活水平存在差异。
其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。
主要表现在农民收入水平和消费水平两个方面。
这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先于其他地区。
其次,天津、山东、福建、辽宁、广东综合评价值相对较低。
不过也处于全国前十的地位。
青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。
原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济发展水平不高,进而影响到农村经济的发展。
农村居民收入水平和消费水平均比较低。
因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。