研究生应用统计学论文

  • 格式:doc
  • 大小:511.00 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈主成分分析在SPSS中的操作应用

题目:浅谈主成分分析在SPSS中的操作应用

姓名:王震宇

指导老师:

学号:

浅谈主成分分析在SPSS中的操作应用

摘要:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析就是这样一种降维的方法。

关键词:spss 主成分分析统计学

(一)主分成分析原理

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

(二)主成分分析数学模型

F1=a12ZX1+a22ZX2……+a p2ZX p

……

F p=a1m ZX1+a2m ZX2+……+a pm ZX p

其中a1i, a2i, ……,a pi(i=1,……,m)为X的协方差阵Σ的特征值多对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z 标准化]。

A=(a ij)p×m=(a1,a2,…a m,),Ra i=λi a i,R为相关系数矩阵,λi、a i是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。

(三)在城市经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求出主成分。表1是从《中国统计年鉴2007》摘录的省会城市和计划单列市主要经济指标(2006年),其中样品数n=35,变量数p=5。

省会城市和计划单列市主要经济指标(2006年)

x4、x5、分别表示总人口,地区生产总值,工业增加值,客运量,货运量,并对原始数据进行标准化。标准化后的部分数据见图2

依次点选Analyze—Dimension Reduction—Factor,如图3

选择变量zx1,zx2,zx3,zx4……进入variables窗口中,如图4

点击descriptives按钮,在弹出的对话框中选择coefficient,回到原对话框中点ok

即可得到输出结果表2,表3,表4

由表2可以看出,前2个主成分解释了全部方差的89.586%,这说明前2个主成分代表原来的5个指标评价企业的经济效益已有足够的把握,起到了降维的作用。由表2得到前2个主成分y1,y2的线性组合为:

y1=0.725x1+0.903x2+0.875x3+0.604x4+0.936x5

y2=0.554x1-0.369x2-0.436x3+0.697x4-0.115x5

综合因子y1中,x2,x3,x5的系数远大于其他变量的系数,所以y1主要是地区生产总值、工业增加值、货运量这三个指标的综合反映,它代表经济效益的盈利能力方面第一主成分所占信息为66.947%,所以这三项指标是反映我国主要城市经济效益的主要指标。y2主要是客运量的综合反映,它标志着我国交通运输业的发展水品。

进行主成分得分操作:在factor analysis主对话框,点击下面scores,进入factor scores对话框,选中save as variables复选框,点击continue。分别用^y1,^y2作为

将这35个得分在平面直角坐标系上描出来,进而得到样品分类如图6

如图6可以看出,分布在第一象限的是南京、杭州、宁波、青岛、武汉、广州、重庆、成都8个城市,这8个城市的经济在全国来说比较好。分布在第二象限的是北京、天津、大连、上海、深圳5个城市。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这5个城市的经济效益也比较好。分布在第二象限和第三象限的城市可属同一类,经济效益较差。