当前位置：文档之家› 多元统计分析课程设计

多元统计分析课程设计

《多元统计分析》

课程设计指导书

一、课程设计的目的

掌握用统计软件利用主成分分析的方法对涉及众多变量的某一问题进行分析

二、设计名称：用统计软件利用主成分分析法对涉及进行众多变量的

问题进行分析

三、设计要求

掌握用统计软件利用主成分分析的方法对涉及进行众多变量的问题进行分析的方法

掌握利用SPSS软件求初始变量的协方差阵或相关阵的特征根与相应标准特征向量判断是否存在明显的多重共线性

掌握利用SPSS软件求得主成分

四、设计过程

1、收集数据

2、根据研究问题选取初始分析变量

3、求协方差阵或相关阵的特征根与相应标准特征向量

4、判断是否存在明显的多重共线性，若存在，则回到第一步

5、得到主成分的表达式并确定主成分的个数，选取主成分

6、对主成分进行分析得出结果，完成设计报告

五、设计细则

1．注意对数据的采集，不要过于繁杂，不要过少

2．吸取他人的经验，总结自己的教训，有条不紊的进行

3．上机前先作好准备，上机时积极改进方法

六、说明

为了培养自己的上机操作方法,所以我尽量运用SPSS软件上的检验方法

课程设计任务书

课程设计报告

课程：多元统计分析学号：

姓名：

班级：

教师：

设计名称：用统计软件利用主成分分析法对涉及进行众多变量的问题进行分析设计内容：在企业经济效益的评价中，设计的指标往往很多。为了简化系统结构，抓住经

济效益评价中的主要问题，我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中，设计9项指标，原始数据见下表样品数n=28，变量数p=9

100固定资产原值实现值（%）100元固定

资产原值

实现利税

（%）

100元

资金

实现

利税

（%）

100元工

业总产

值实现

利税（%）

100元销售

收入实现

利税（%）

每吨标准

煤实现工

业产值

（元）

每千瓦

时电力

实现工

业产值

（元）

全员劳动

生产率（元

/人.年）

100元流

动资金

实现产

值（元）

北京（1）119.29 30.98 29.92 25.97 15.48 2178 3.41 21006 296.7

天津（2）143.98 31.59 30.21 21.94 12.29 2852 4.29 20254 363.1 河北（3）94.8 17.2 17.95 18.14 9.37 1167 2.03 12607 322.2 山西（4）65.8 11.08 11.06 12.15 16.84 8.82 1.65 10166 284.7 内蒙（5）54.79 9.24 9.54 16.86 6.27 894 1.8 7564 225.4 辽宁（6）94.51 21.12 22.83 22.35 11.28 1416 2.36 13.386 311.7 吉林（7）80.49 13.36 13.76 16.6 7.14 1306 2.07 9400 274.1 黑龙江

（8）75.86 15.82 16.67 20.86 10.37 1267 2.26 9830 267 上海（9）187.79 45.9 39.77 24.44 15.09 4346 4.11 31246 418.6 江苏（10）205.96 27.65 22.58 13.42 7.81 3202 4.69 23377 407.2 浙江（11）207.46 33.06 25.78 15.94 9.28 3811 4.19 22054 385.5 安徽（12）110.78 20.7 20.12 18.69 6.6 1468 2.23 12578 341.1 福建（13）122.76 22.52 19.93 18.34 8.35 2200 2.63 12164 301.2 江西

（14）94.94 14.7 14.18 15.49 6.69 1669 2.24 10463 274.4 山东（15）117.58 21.93 20.89 18.65 9.1 1820 2.8 17829 331.1 河南（16）85.98 17.3 17.18 20.12 7.67 1306 1.89 11247 276.5 湖北（17）103.96 19.5 18.48 18.77 9.16 1829 2.75 15745 308.9 湖南（18）104.03 21.47 21.28 20.63 8.72 1272 1.98 13161 309 广东（19）136.44 23.64 20.83 17.33 7.85 2959 3.71 16259 334 广西（20）100.72 22.04 20.9 21.88 9.67 1732 2.13 12441 296.4 四川（21）84.73 14.35 14.17 16.93 7.96 1310 2.34 11703 242.5 贵州（22）59.05 14.48 14.35 24.53 8.09 1068 1.32 9710 206.7 云南（23）73.72 21.91 22.7 29.72 9.38 1447 1.94 12517 295.8 陕西（24）78.02 13.13 12.57 16.83 9.19 1731 2.08 11369 220.3 甘肃（25）59.62 14.07 16.24 23.59 11.34 926 1.13 13084 246.8 青海（26）51.66 8.32 8.26 16.11 7.05 1055 1.31 9246 176.49 宁夏（27）52.95 8.25 8.82 15.57 6.58 834 1.12 10406 245.4 新疆（28）60.29 11.26 13.14 18.68 8.39 1041 2.9 10983 266

设计目的与要求：

掌握用统计软件利用主成分分析的方法对涉及众多变量的某一问题进行分析设计环境或器材、原理与说明：机房spss 软件

设()

1,,p X X '=x 是一个p 维随机向量，有二阶矩存在，记()E =μx ，()D =Σx 。

考虑它的线性变换：

11121212212122221122p p p p

p p p pp p Y a X a X a X Y a X a X a X Y a X a X a X

'==+++??

?'==+++?a x a x a x (5.1) 易见

()()()(),,,,

i i i i i j i j i j Var Y Var Cov Y Y Cov ''=='''==a x a Σa a x a x a Σa 1,,i p = (5.2)

假如我们希望用1Y 来代替原来的p 个变量1,,p X X ，这就要求1Y 尽可能地反映原来p 个变量的信息，这里“信息”用什么来表达？最经典的方法是用1Y 的方差来表达。()1Var Y 越大，表示1Y 包含的信息越多。由(5.2)可以看出，对1a 必须有某种限制，否则可使()1Var Y →∞，常用的限制是

1,1

,,i i i p '==a a (5.3) 故我们希望在约束(5.3)下找1a ，使得()1Var Y 1

1'=a Σa 达到极大，1Y 就称为第一主成分。如果一个主成分不足以代表原p 个变量，可再考虑采用2Y ，为了最有效地代表原变量的信息，

1Y 已有的信息就不需要出现在2Y 中，用数学语言来讲，就是

()12,0Cov Y Y = (5.4)

于是，求2Y 就是在约束(5.3)和(5.4)下求2a ，使()2Var Y 达到极大，所求的2Y 称为第二主成分。类似地，我们可以定义第三主成分、第四主成分、…。一般地讲，x 的第i 个主成分i i Y '=a x 是指：在约束

1,1

,,i i i p '==a a ()()(),,0i k i k Cov Y Y Cov k i ''==

下求i a ，使得()i Var Y i i '=a Σa 达到极大。

令10p λλ≥≥≥ 表示()D =Σx 的特征根，1,,p t t 为相应的单位特征向量。若特征根有重根，对应于这个特征根的特征向量组成一个p

R 的子空间，子空间的维数等于重根的次数。在子空间中任取一组正交的坐标系，这个坐标系的单位向量就可用来作为它的特征向量。显然，这时特征向量的取法不唯一，有无穷多种取法，在下面的讨论中，我们总假定已选定的某一种取法。

设计过程（步骤）或程序代码：