当前位置:文档之家› 应用多元统计分析习题解答主成分分析.doc

应用多元统计分析习题解答主成分分析.doc

应用多元统计分析习题解答主成分分析.doc
应用多元统计分析习题解答主成分分析.doc

主成分分析

6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处?

答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”

6.3 简述主成分分析中累积贡献率的具体含义。

答:主成分分析把p 个原始变量12,,,p X X X L 的总方差()tr Σ分解成了p 个相互独立的变量

p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们()m p <个主成分,则称11

p

m

m k

k

k k ψλλ

===∑∑ 为主成分1,,

m Y Y

L 的累计贡献率,累计贡献率

表明1,,m Y Y L 综合12,,,p X X X L 的能力。通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。

答:这个说法是正确的。

即原变量方差之和等于新的变量的方差之和

6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我

6.6 已知X =(

)’的协差阵为

试进行主成分分析。

解:=0

计算得

同理,计算得

时,

易知相互正交

单位化向量得,

,

综上所述,

第一主成分为

第二主成分为

第三主成分为

6.7 设X=()’的协方差阵(p为

, 0

证明:为最大特征根,其对应的主成分为。

证明:

=

=

,

为最大特征根

当时,

=

所以,

6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。

行业名称资产

总计

固定资产净

值平均余额

产品销

售收入

利润

总额

煤炭开采和选业6917.2 3032.7 683.3 61.6

石油和天然气开采业 5675.9 3926.2 717.5 33877 黑色金属矿采选业 768.1 221.2 96.5 13.8 有色金属矿采选业 622.4 248 116.4 21.6 非金属矿采选业 699.9 291.5 84.9 6.2 其它采矿业 1.6 0.5 0.3 0

解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS 对这六个行业进行主成分分析的方法如下:

1. 在SPSS 窗口中选择Analyze →Data Reduction →Factor 菜单项,调出因子分析主界

面,并将变量15X X -移入Variables 框中,其他均保持系统默认选项,单击OK 按钮,执行因子分析过程(关于因子分子在SPSS 中实现的详细过程,参见7.7)。得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。 第一个因子就可以解释86.5%

表6.1 特征根和方差贡献率表

表6.2 因子载荷阵

2. 将表6.2中因子载荷阵中的数据输入SPSS 数据编辑窗口,命名为a 1。点击菜单项

中的Transform →Compute ,调出Compute variable 对话框,在对话框中输入等式: z 1=a 1 / SQRT (3.46),计算第一个特征向量。点击OK 按钮,即可在数据编辑窗口中得到以z 1为变量名的第一特征向量。

z1 x1 0.509 x2 0.537 x3 0.530 x4

0.413

根据表6.3得主成分的表达式:

4413.03530.02537.01509.0Y1X X X X +++=

3. 再次使用Compute 命令,调出Compute variable 对话框,在对话框中输入等式:

4

*

413

.0

3

*

53

.0

2

*

537

.0

1

*

509

.0

y1x

x

x

x+

+

+

=

根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。

6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对

地区粮食蔬菜食油猪牛

羊肉

家禽

蛋类

及其

制品

水产

食糠酒

北京134.05 92.78 9.15 14.6 2.17 10.13 4.25 2.92 14.42

天津150.2 69.99 10 11.07 0.84 10.8 8.35 0.72 10.14

河北216.72 55.97 6.59 7.1 0.54 6.36 2.25 0.65 7.29

山西218.91 80.87 5.72 5.36 0.24 6.15 0.47 1.15 2.59

内蒙207.3 70.77 2.79 21.18 1.41 3.82 1.45 1.34 10.77

辽宁194.39 178.59 5.9 16.45 2.51 9.59 4.49 0.73 10.8

吉林255.99 115.2 6.27 11.42 3.23 8.64 3.6 0.75 13.64

黑龙江195.08 111.7 7.62 7.85 2.61 6.26 3.35 0.9 15.09

上海189.44 76.6 8.59 16.37 7.4 7.51 16.11 2.12 16.77

江苏251.98 109.12 8.27 12.05 4.5 6.72 9.09 1.3 8.82

浙江208.46 83.91 5.81 16.42 6.03 5.33 14.64 2.13 24.15

安徽228.35 80.97 6.87 9.07 4.27 5.04 5.43 1.42 10.61

福建198.27 99.92 5.19 16.51 5.14 3.55 13.3 2.35 16.84

江西264.8 144.22 8.77 13.24 3.31 3.5 5.19 1.13 7.31

山东229.06 118.19 6.96 8.09 2.7 11.61 4.01 1 10.81

河南236.97 100.11 4.22 6.48 1.23 8.01 1.35 1.13 4.23

湖南227.39 159.76 9.4 19.86 2.74 3.86 8.1 0.92 7.29

湖北247.21 149.44 8.35 17.51 3.89 3.28 6.89 1.13 4.02

广东233.75 130.22 6.73 22.27 10.4 2.83 13.3 2.16 3.33

广西205.65 108.94 4.92 14.44 7.33 1.12 3.57 1.18 6.14

海南236.31 86.61 5.7 15.4 9.77 1.31 14.75 1.24 3.88

x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:

表6.4 特征根和方差贡献率表

表6.5 因子载荷阵

表6.6 特征向量矩阵

z1

z2

z3

x1 0.001169 -0.55035 -0.00518 x2 0.054359 -0.32014 0.616746 x3 0.005261 0.185239 0.697829 x4 0.455914 -0.07584 0.167341 x5 0.509689 -0.14229 -0.05521 x6 -0.32908 0.408063 0.269126 x7 0.500921 0.118795 0.112136 x8 0.388112 0.332893 -0.13025 x9

0.140866 0.4933 -0.01984

根据表6.6得主成分的表达式:

9141.08388.07501.06329.0551.04456.03005.02054.01001.01X X X X X X X X X Y +++-++++=9493.08333.07119.06408.05142.04076.03185.0232.0155.02X X X X X X X X X Y ++++--+--=

9

02.08130.07112.06269.05055.04167.03698.02617.01005.03X X X X X X X X X Y --++-+++-=分别计算出以上三项后,利用公式321321Y Y Y Y ∑∑∑++=λ

λλλ

λλ得到综合得分并排序如下表:

地区

y1 y2 y3 y 北京 14.92 -90.42 67.81 -10.16 天津 11.80 -93.48 54.76 -15.31 上海 24.39 -115.46 57.85 -16.51 福建 24.55 -129.93 68.56 -19.17 浙江 25.14 -126.00 59.51 -19.43 辽宁 19.55 -154.56 118.72 -19.47 黑龙江 13.27 -131.90 76.07 -23.38 湖南 23.53 -169.91 108.84 -24.97 广东 29.80 -167.06 88.93 -25.29 广西

19.18

-144.89 72.06 -25.99

内蒙15.93 -130.47 48.84 -27.33

海南24.93 -154.57 60.04 -29.19

山东11.81 -152.64 81.06 -30.09

湖北21.71 -179.61 100.93 -30.74

安徽14.06 -143.12 56.46 -30.92

江苏18.07 -164.93 76.08 -32.51

河北7.10 -129.83 40.94 -32.73

山西 6.20 -141.44 55.18 -34.15

吉林14.54 -166.90 78.26 -34.32

江西18.74 -185.62 97.04 -34.94

河南8.32 -156.36 66.62 -35.93

最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。

6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。

解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:

表6.7 特征根和方差贡献率表

表6.8 因子载荷阵

表6.6 特征向量矩阵

z1 z2

x1 0.29 0.47

x2 0.28 0.48

x3 0.14 -0.29

x4 0.31 -0.37

x5 0.40 -0.20

x6 0.40 -0.27

x7 0.31 0.39

x8 0.39 0.12

x9 0.39 -0.24

青岛35237.27 14552.46 28597.44 大连31830.56 17629.53 27272.03 济南25149.73 16499.39 22372.97 福州22734.16 16326.97 20677.45 乌鲁木齐22284.54 15284.68 20037.59 沈阳23184.99 12310.22 19694.19 武汉23909.27 9770.56 19370.75 长春21524.95 14179.21 19166.96 成都33808.79 -17638.73 17294.14 太原19445.42 9809.99 16352.45 郑州18561.81 9822.90 15756.62 兰州16568.97 13769.80 15670.44 海口17666.70 11325.77 15631.26 昆明18494.34 8579.72 15311.75 呼和浩特16128.60 13359.10 15239.59 长沙18845.23 6252.54 14802.98 石家庄18229.33 7399.62 14752.99 西安16764.15 4871.97 12946.76

相关主题
文本预览
相关文档 最新文档