多元统计分析案例分析

  • 格式:docx
  • 大小:33.01 KB
  • 文档页数:10

下载文档原格式

  / 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、对我国30 个省市自治区农村居民生活水平作聚类分析

1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中抽取30个样

新疆 92.87 79.35 3590 3457.9 4643 4124.6 18.7 数据来源:《中国统计年鉴2010》.

2、将数据进行标准化变换:

分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。第二类:天津、、辽宁、、福建、甘肃、江苏、广东。第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。

第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。

从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。

二、判别分析

针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下:

判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671

Y2=-0.62213

Y3=-0.84188

计算Y 值与不同类别均值之间的距离分别为:D1=138.5182756

D2=12.11433124

D3=7.027544292

D4=2.869979346

经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。

三,因子分析:分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss 软件分析结果如下:

(1)各指标的相关系数阵:

从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。

2)检验:

由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为

0.如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析

(3)各指标的贡献率如下表:

从中可以看出,各个指标的贡献率都在百分之五十之上比较高。

从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量

总方差17.34%,累计方差贡献率为86.313%。

(4)碎石图:

Scree Plot

5)因子载荷阵如下:

a

由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;

第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于对各因子进行命名,对因子载荷阵实施正交旋转。

旋转之后的因子载荷阵:

a

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser

Normalization.

a. Rotation conv erged in 3 iterations.

(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。将五个指标按高载荷分成两类:

四,主成分分析:

(1)各指标间的相关系数矩阵如下表所示:

可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。

(2)求相关矩阵的特征值和特征向量:

从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包

含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:

(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:

所以,前两个主成分为:

第一个主成分:F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。

在第二主成分中,第一个指标系数较大,是农产品价格水平指标。

4)因子得分:

Normalization. Component Scores.

根据上表写出以下因子得分函数:

F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭人均纯收入+0.293就业人数

F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业人数

(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)

F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5

F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5

将各地区指标值代入上式得到各地区农村生活水平的综合值及排名: