北师大应用多元统计分析作业——主成分分析
- 格式:pdf
- 大小:425.23 KB
- 文档页数:11
《多元统计实验》主成分分析实验报告三、实验结果分析6.5人均粮食产量x5,经济作物占农作物播种面积x6,耕地占土地面积比x7,果园与林地面积之比x8,灌溉田占1耕地面积比例x9等五个指标有较强的相关性, 人口密度x1,人均耕地面积x2,森林覆盖率x3,农民人均收入x4相关性也很强,再作主成分分析,求样本相关矩阵的特征值和主成分载荷。
λ11/2=2.158962,λ21/2=1.4455076,λ31/2 =1.0212708,λ41/2 =0.71233588,λ51/2 =0.5614001,λ61/2 =0.43887788,λ71/2 =0.33821497,λ81/2 =0.212900230,λ91/2=0.177406876。
确定主成分分析,前两个主成分的累积方差贡献率为75.01%,前三个主成分的累积方差贡献率为86.59%,按照累积方差贡献率大于80%的原则,主成分的个数取为3,前三个主成分分别为:Z*1=0.3432x*1-0.446x*3+0.376x*5+0.379x*6+0.432x*7+0.446x*9Z*2=0.368x*1-0.614x*2-0.61x*4-0.307x*5-0.1224x*6Z*3=-0.122x*6+0.246x*7-0.950x*8第一主成分在x*7,x*9两个指标上取值为正且载荷较大,可视为反映耕地占比和灌溉田占耕地面积比例的主成分,第二主成分在x*2和x*4这两个指标的取值为负,绝对值载荷最大,不能作为人均耕地和人均收入的主成分。
第三主成分,x*8这个指标取值为负且,载荷绝对值最大,不能反映果园与林地面积之比的主成分。
根据该图结果可以认为选取前两个指标作为主成分分析的选择是正确的。
将八个指标按前两个主成分进行分类:由结果可以得出森林覆盖率为一类,人口密度、果园与林地面积之比、耕地占土地面积比、灌溉田占耕地面积比为一类,经济作物占农作物播种面积比例、人均粮食产量、农民人均收入、人均耕地面积为一类。
主成分分析6.1 试述主成分分析的基本思想。
答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取止。
这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p 个原始变量12,,,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们()m p <个主成分,则称11pmm kkk k ψλλ===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,,,p X X X 的能力。
通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。
答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵出发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我6.6 已知X =()’的协差阵为 试进行主成分分析。
解:=0计算得当时,同理,计算得时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7 设X=()’的协方差阵(p为, 0<p<1证明:为最大特征根,其对应的主成分为。
证明:==,为最大特征根当时,=所以,6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。
二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。
1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。
表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。
7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。
解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。
解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。
应用多元统计分析作业(一)——主成分分析 8‐1:用主成分分析方法探讨城市工业主体结构。
解:执行SAS程序代码:data dxiti81;input number x1-x8;cards;1 90342 52455 101091 19272 82 16.1 197435 0.1722 4903 1973 2035 10313 34.2 7.1 592077 0.0033 6735 21139 3767 1780 36.1 8.2 726396 0.0034 49454 36241 81557 22504 98.1 25.9 348226 0.9855 139190 203505 215898 10609 93.2 12.6 139572 0.6286 12215 16219 10351 6382 62.5 8.7 145818 0.0667 2372 6572 8103 12329 184.4 22.2 20921 0.1528 11062 23078 54935 23804 370.4 41 65486 0.2639 17111 23907 52108 21796 221.5 21.5 63806 0.27610 1206 3930 6126 15586 330.4 29.5 1840 0.43711 2150 5704 6200 10870 184.2 12 8913 0.27412 5251 6155 10383 16875 146.4 27.5 78796 0.15113 14341 13203 19396 14691 94.6 17.8 6354 1.574;proc princomp data=dxiti81 out=oxiti81;var x1-x8;run;proc sort data=oxiti81;by prin1;proc print;id number;var prin1;run;proc sort data=oxiti81;by prin2;proc print;id number;var prin2;run;proc sort data=oxiti81;by prin3;proc print;id number;var prin3;run;proc plot;plot prin2*prin1=number;run;proc cluster data=oxiti81 method=ave pseudo ccc outtree=tr81;var x1-x8;id number;proc tree data=tr81 horizontal graphics;run;结果分析:◆我们使用原始数据的相关系数矩阵计算特征根矩阵。
应用多元统计分析作业(一)——主成分分析 8‐1:用主成分分析方法探讨城市工业主体结构。
解:执行SAS程序代码:data dxiti81;input number x1-x8;cards;1 90342 52455 101091 19272 82 16.1 197435 0.1722 4903 1973 2035 10313 34.2 7.1 592077 0.0033 6735 21139 3767 1780 36.1 8.2 726396 0.0034 49454 36241 81557 22504 98.1 25.9 348226 0.9855 139190 203505 215898 10609 93.2 12.6 139572 0.6286 12215 16219 10351 6382 62.5 8.7 145818 0.0667 2372 6572 8103 12329 184.4 22.2 20921 0.1528 11062 23078 54935 23804 370.4 41 65486 0.2639 17111 23907 52108 21796 221.5 21.5 63806 0.27610 1206 3930 6126 15586 330.4 29.5 1840 0.43711 2150 5704 6200 10870 184.2 12 8913 0.27412 5251 6155 10383 16875 146.4 27.5 78796 0.15113 14341 13203 19396 14691 94.6 17.8 6354 1.574;proc princomp data=dxiti81 out=oxiti81;var x1-x8;run;proc sort data=oxiti81;by prin1;proc print;id number;var prin1;run;proc sort data=oxiti81;by prin2;proc print;id number;var prin2;run;proc sort data=oxiti81;by prin3;proc print;id number;var prin3;run;proc plot;plot prin2*prin1=number;run;proc cluster data=oxiti81 method=ave pseudo ccc outtree=tr81;var x1-x8;id number;proc tree data=tr81 horizontal graphics;run;结果分析:◆我们使用原始数据的相关系数矩阵计算特征根矩阵。
通过观察这8个变量之间的两两相关系数矩阵(表1)表1:Correlation Matrixx1 x2 x3x4x5x6x7 x8 x1 1.0000 0.9196 0.96200.1089-.2886-.16630.0067 0.2140x2 0.9196 1.0000 0.9468-.0550-.1973-.1709-.0149 0.1855x3 0.9620 0.9468 1.00000.2329-.10360.0042-.0781 0.2467x4 0.1089 -.0550 0.2329 1.00000.55990.7809-.4497 0.3009x5 -.2886 -.1973 -.10360.5599 1.00000.8266-.6088 -.0295x6 -.1663 -.1709 0.00420.78090.8266 1.0000-.4922 0.1742x7 0.0067 -.0149 -.0781-.4497-.6088-.4922 1.0000 -.2999x8 0.2140 0.1855 0.24670.3009-.02950.1742-.2999 1.0000 我们看到,和这两组的三个指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。
而与,与,与,与其他所有指标之间的相关系数均较小,由此可以得到初步的分析结论:、和应该作为三组互相较为独立的指标,并由此得知后面应该至少选取三个主成分进行分析。
◆根据分析家系统画出的碎石图和特征根的累积方差贡献率(表2)表2 主成分 ProportionCumulative 10.3881 0.38812 0.3622 0.7503 3 0.1163 0.86664 0.0803 0.94685 0.0380 0.98486 0.0108 0.9957 7 0.0040 0.9997 80.00031.0000可以看到,取三个主成分的时候累积方差贡献率已达86%,故提取三个主成分即可代表原始数据的大部分信息。
◆ 根据特征向量(表3),可以写出上述确定的三个主成分的表达式如下(均为标准化后的变量):◆ 下面利用特征向量的值对选取的主成分进行解释: 对第一个主成分来说,其的特征向量系数均在0.4左右,且均为正值,而的特征向量系数均在0.3左右,且均为负值,结合和指标所代表的实际含义,我们可以看出,第一个主成分反映出了该地区工业的“发展规模”大小;对第二个主成分来说,只有一项指标对应的特征向量系数是负值,根据指标所代表的实际含义是标准燃料消耗量,我们看出,第二个主成分主要反映了该地区工业的能源消耗量,而能源消耗越多越不环保,故可将第二个主成分看做“环保指数”; 对第三个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据指标所代表的实际含义是能源利用效果,我们看出,第三个主成分主要反映了该地区工业的“能源利用效益”(单位能源的产值)。
◆ 利用主成分得分对行业进行排序:表4按第一主成分排序 按第二主成分排序 按第三主成分排序 number Prin1 number Prin2 number Prin3 8 ‐2.19498 3 ‐3.22553 13 ‐2.8063 10 ‐2.03186 2 ‐2.59164 4 ‐0.99768 12 ‐1.20141 6 ‐1.77361 11 ‐0.12255 7 ‐1.1025 11 ‐0.75561 6 0.03114 9 ‐0.84117 7 ‐0.31793 2 0.22831 11 ‐0.71333 12 0.03034 10 0.23105 13 ‐0.26296 13 0.46431 7 0.28183 60.3299710.75863120.28702表3 Prin1Prin2Prin3x1 0.4766500.295991 0.104190 x2 0.4728080.277894 0.162983 x3 0.4238450.377951 0.156255 x4 ‐.2128930.451408 ‐.008544 x5 ‐.3884600.330945 0.321133 x6 ‐.3524270.402737 0.145144 x7 0.214835‐.377415 0.140459 x80.0550340.272736 ‐.8911624 0.45986 10 0.82516 9 0.352872 0.49821 9 0.895663 0.409413 1.05644 4 1.183645 0.467641 1.47524 8 2.24414 1 0.538045 4.52848 5 2.26244 8 1.09921对于第一个主成分来说:第8,10行业的得分较低,而第5行业的得分很高;对比原始指标可以看出,食品、缝纫工业的发展规模较小,而机械工业的发展规模较大;对于第二个主成分来说:第3行业的得分较低,而第8,5行业的得分很高;对比原始数据可以看出,煤炭工业的能源消耗量较大,环保指数较低,而食品、机械的能源消耗量较小,环保指数较高;对于第三个主成分来说:第13行业的得分较低,而第8行业的得分很高;对比原始数据可以看出,文教用品工业的能源利用效率较低,而食品工业的能源利用效率较高。
故对于13个工业产业发展规模的排序为:5、1、3、2、4、6、13、11、9、7、12、10、8, 相应的原始行业为:机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森工、造纸、缝纫、食品。
◆上图为主成分2对主成分3的分布图,可以看到对于第4、11、6、2、3行业来说,能源消耗量越大,能源利用效益越低,而对于其他行业则两者之间没有显著关系。
◆ 同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析:原始指标可以分为两类:与,分别反映生产规模和生产效益,而即能源消耗量和能源利用效益则与上述两组指标关系不大。
◆ 聚类分析信息表NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist e 12 9 8 2 0.0000 1.00 . . 2628 . 0.0204 11 11 10 2 0.0001 1.00 . . 2346 . 0.0247 10 CL11 7 3 0.0002 1.00 . . 1088 4.4 0.0463 9 13 CL10 4 0.0004 .999 . . 715 2.9 0.0607 8 12 CL12 3 0.0022 .997 . . 247 63.3 0.1407 7 CL9 CL8 7 0.0105 .987 . . 73.5 18.3 0.2058 6 CL7 6 8 0.0146 .972 . . 48.6 6.5 0.3336 5 2 3 2 0.0123 .960 . . 47.7 . 0.3836 4 4 1 2 0.0166 .943 . . 49.7 . 0.4467 3 CL6 CL4 10 0.1272 .816 . . 22.2 22.8 0.7402 2 CL3 5 11 0.1002 .716 .706 0.13 27.7 5.2 0.8743 1 CL2 CL5 13 0.7157 .000 .000 0.00 . 27.7 1.6501综合上表的R 2、半偏R 2、伪F 、伪t 2统计量(RSQ 、SPRSQ 、PSF 、PST2),可以看到,将原始的13个工业行业分为2类或4类是比较合理的:分为两类的结果:{电力、煤炭},{冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品};分为四类的结果:{建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品},{冶金、化学},{机械},{电力、煤炭}。
8‐2:分析上海各乡的经济发展数据。