当前位置:文档之家› 11250401149王宁博主成分分析

11250401149王宁博主成分分析

11250401149王宁博主成分分析
11250401149王宁博主成分分析

实验报告

课程名称多元统计分析

实验项目名称三、主成分分析

班级与班级代码11250401

实验室名称(或课室)北4楼 804 专业统计学

任课教师林海明

学号:11250401149

姓名:王宁博

实验日期:2014年4月23日

广东商学院教务处制

姓名王宁博实验报告成绩

评语:

1.对主成分分析问题的思路、理论和方法认识正确;

2.SAS软件相应计算结果确认与应用正确;

3.SAS软件相应过程命令正确。

注:“不正确”为有不正确之处,具体见后面批注。

指导教师(签名)林海明

2014年4月日说明:指导教师评分后,实验报告交院(系)办公室保存。

实验目的:通过主成分分析的实验,熟悉主成分分析问题的提出、解决问题的思路、方法和技能,会调用SAS软件主成分分析等有关过程命令,根据计算机计算的结果,分析和解决主成分分析问题。

实验原理:解决主成分分析问题的思路、理论和方法。

实验设备:计算机与SAS软件。

实验数据:奥运会男子径赛的8项变量为:X1—100米(秒),X2—200米(秒),X3—400米(秒),X4—800米(分),X5—1500米(分),X6—5000米(分),X7—10000米(分),X8—马拉松(分),原始数据见表1.

实验步骤:

1.指标的正向化(单独计算)、指标数据标准化(SAS软件自动执行);

2.调用因子分析过程命令输入正向化数据求得相关系数阵R的特征值

λ、信息累计贡献率,给出简单结构的主成分载荷阵0s L(初始因子载荷i

L(k≥s);

阵),选出达到简单结构的旋转后因子载荷阵Γ

k

3.调用主成分分析过程命令输入正向化数据求得主成分y1、y2、…、y m的系数向量,主成分y1、y2、…、y m的样品值;

4.计算综合主成分y综变量系数(调用iml过程命令);

5.计算综合主成分y综的样品值(调用iml过程命令);

6.用主成分y1、y2、…、y m样品值的标准化值做聚类分析(调用聚类分析类平均法过程命令)等;

实验结果、实验分析、结论(有关表图要有序号和中文名称,表的序号和中文名在表的上方、表的上下线为粗线、表的内线为细线、表的左右边不封口,图的序号和中文名在图的正下方,表图不能跨页、表图旁不能留空块, 引用结论要注明参考文献):

(1)数据预处理:对原始指标进行正向化、标准化,记为X=(x1,…,x p)′;

(2)指标X可降维的判定:如果变量间有相关系数的绝对值≥0.8,则指标X可降维;

(3)选出简单结构的初始、旋转后因子载荷阵:因子分析主成分法下,列数s=1时,初始因子载荷阵B01(表2B03的第1列)达到简单结构;从多个不同列的旋转后因子载荷阵中挑选得(见表3频数的第2~4列),m=1时,旋转后因子载荷阵B01Г1(表2)达到简单结构(此时,Г1=1);

(4)主成分有较为清楚解释的判定:B 01同B 01Г1比较:由表2的B 01得表3频数的第1列,表3频数的第1~2列表明,B 01、B 01Г1是一致的简单结构,故主成分有较为清楚的解释;

(5)确定主成分个数:变量正态分布下,取显著水平为5%,显著相关

的临界值是r =0.5, 由B 08有:}{max 0181i i b ≤≤=b 011 1=0.95837、}{max 0

2

8

1i i b ≤≤=b 012=0.54565≥r ;}{max 0

8

1ij i b ≤≤2,即主成分y 1、y 2与X 显著相关,故k =2,累计方差率为93.48%;

(6)主成分的正向化、命名:

由B03(见表2)得表4,主成分y1与全部指标x1~x8显著正相关,y1中x1~x8的综合影响是越大越好,故y1是正向的,y1称为奥运会男子径赛水平成分;主成分y2与x1(100米(秒))显著正相关,x1的影响是越大越好,故y2是正向的,由于x1同时对y1、y2显著正相关,相关系数分别为0.80679、0.54565,故y2称为男子100米径赛补充成分。λ1=6.56896573、λ 2 =0.90978515,主成分y1、y2如下:

y1=0.314784x1+0.337601x2+0.356468x3+0.368989x4+0.373924x5+0.36 4092x6+0.366459x7+0.342110x8

y2=0.572063x1+0.458594x2+0.238181x3+0.025168x4-0.135045x5-0.31 6945x6-0.312962x7-0.434092x8

(7)构造主成分综合评价函数:

Y综=(6.5689657y1+0.9097852y2)/8

=0.3293639x2+0.3235325x1+0.31979x3+0.3058467x4

+0.291679x5+0.2653161x7+0.2629195x6+0.2315473x8

Y综的含义:Y综按系数大小对变量排序是x2、x1、x3、x4、x5、x7、x6、x8,评价指数前4个指标注重x2(200米(秒))、x1(100米(秒))、x3(300米(秒))、x4(400米(秒)),故Y综的评估与奥运会男子径赛水平的目标基本相符。

(8)样品值及其排序:计算y1、…、y k,Y综的样品值、并给出其排序(见表5);

(9)样品分类:对主成分y1、…、y k样品值进行标准化后,做系统聚类分析,按主成分综合评价函数Y综中样品值的排序给出n个样品的分类结果;

经过比较,选取类平均法较好,分类阈值取1.2时,分成八类,结合Y综样品值排名顺序给出样品分类结果:

第一类:美国、英国、意大利、苏联、东德、西德、澳大利亚、法国、波兰、加拿大、巴西;

第二类:印度尼西亚、中国台北、菲律宾、缅甸、希腊、智利、卢森堡、韩国、阿根廷;

第三类:肯尼亚、奥地利、丹麦、日本、罗马利亚、西班牙、比利时、瑞典、芬兰、捷克期洛伐克、瑞士、匈牙利、中国、哥伦比亚、印度、爱尔兰、以色列、挪威、墨西哥、荷兰、葡萄牙、土耳其、新西兰;

第四类:百慕大、马来西亚、新加波、泰国、多米尼加;

第五类:朝鲜、柯斯达尼加、危地马拉;

第六类:巴布亚新几内亚、毛里求斯;

第七类:西萨摩亚;

第八类:库克群岛。

(10)评价与建议:结合样品的分类结果,y1、…、y k、Y综的样品值及其

排序,y1、…、y k、Y综中变量X及其系数确定指标体系的内在促进关系、

制约关系,进行优势、不足、潜力和原因等的综合评价,给出较客观、可

靠的决策相关性建议。

以第三类的中国为例,Y综值(-0.483532)排第39,低于全部国家平均

水平0.086744,优势不明显。其中奥运会男子径赛水平成分y1值(-0.54139)

排第38,低于平均水平,优势不明显;男子100米径赛补充成分y2值

(-0.34281)排第33。即中国是奥运会男子径赛水平优势不太明显,同时男

子100米径赛补充成分方面也有待协调的国家。原因及问题:具体的不足

方面,由表1,奥运会男子径赛水平成分y1中指标x1、x2、 x3、x4、x5、x6、

x7、x8排序分别为17、25、29、28、34、31、45、33。

建议:1、因为x1-x8与y1显著正相关,故y1中x1-x8是相互促进的变

量,因此中国在继续保持奥运会男子径赛水平成分y1中x1(100米(秒))

排序为17,x2(200米(秒))排序为25,x4(800米(分))排序为28,

x3(400米(秒))排序为29优势的前提下,联系性地促进x5(1500米(分))、x6(5000米(分))、x7(10000米(分))、x8(马拉松(分))

的发展和提高。2、因为x1(100米(秒))与男子100米径赛补充成分

y2显著正相关,因此,中国应发挥好男子100米径赛补充成分的协调作

用。这两方面工作的共同发展和提高,将会使中国有更高水平的奥运

会男子径赛。

实验程序:

data socecon; input x1-x8; cards;

9.625 9.611 8.540 441.989 405.405 356.125 340.599 306.383 9.699 9.970 8.921 459.770 420.168 376.506 361.533 328.878 9.579 9.611 8.543 446.927 416.667 377.074 360.750 310.486 9.671 9.671 8.881 462.428 416.667 378.215 364.299 324.702 9.728 9.718 8.713 444.444 400.000 340.599 327.332 287.785 9.785 9.790 8.848 462.428 409.836 367.107 349.406 316.946 9.398 9.294 8.282 444.444 389.610 346.021 330.251 301.501 9.833 9.891 8.757 454.545 413.223 369.004 355.999 324.203 9.671 9.615 8.658 446.927 404.313 367.377 341.297 314.818

9.515 9.506 8.457 441.989 402.145 359.712 343.289 315.996 9.588 9.501 8.677 439.560 401.070 370.645 358.680 321.241

8.210 8.621 7.556 396.040 353.774 299.401 282.646 256.193

9.141 9.132 8.220 427.807 390.625 356.379 347.102 308.940 9.662 9.685 8.764 454.545 418.994 372.578 354.736 314.138 9.470 9.747 8.716 449.438 415.512 370.370 355.745 322.641 9.862 9.685 8.547 439.560 392.670 335.345 317.965 273.780 9.588 9.667 8.793 459.770 415.512 376.790 363.372 322.419 9.891 9.814 8.834 462.428 420.168 374.813 357.526 318.934 9.881 9.838 8.915 462.428 421.348 379.651 364.697 324.777 9.843 9.818 8.989 462.428 424.929 378.501 362.188 319.103 9.891 9.896 8.903 470.588 427.350 384.320 363.504 326.764 9.785 9.657 8.591 449.438 412.088 342.700 351.494 313.484 9.107 9.166 8.264 423.280 394.737 353.107 332.116 302.842 9.747 9.699 8.692 451.977 414.365 370.645 351.617 318.261 9.434 9.337 8.747 454.545 402.145 363.108 347.102 319.708 9.443 9.307 8.368 434.783 382.653 339.443 324.781 283.511 9.425 9.542 8.639 446.927 421.348 375.375 359.583 318.814 9.337 9.524 8.368 451.977 403.226 366.032 345.662 306.761 9.990 10.142 8.838 462.428 416.667 377.929 363.372 321.903 9.671 9.611 8.722 446.927 412.088 372.856 360.750 328.034 9.560 9.681 8.905 462.428 422.535 381.679 365.230 325.202 9.671 9.574 8.529 446.927 397.878 358.166 342.114 309.688 9.166 9.116 8.457 432.432 397.878 353.857 337.041 322.419 9.662 9.629 8.439 439.560 408.719 366.569 343.879 298.683 9.615 9.560 8.639 439.560 394.737 341.530 322.477 273.816

8.937 8.909 8.386 425.532 391.645 332.005 314.762 277.179

9.597 9.390 8.677 444.444 410.959 371.471 357.782 326.587 9.506 9.547 8.869 459.770 414.365 374.251 362.188 327.042 9.515 9.579 8.677 459.770 423.729 378.501 361.011 327.144 9.479 9.452 8.563 454.545 414.365 374.813 361.141 320.923 9.124 9.183 8.351 421.053 374.065 339.674 318.878 284.678 9.276 9.242 8.651 441.989 391.645 339.213 326.371 290.459 9.843 9.881 8.818 454.545 416.667 376.223 358.551 320.679 9.497 9.447 8.565 446.927 414.365 380.807 365.230 327.983 9.606 9.533 8.720 454.545 412.088 377.358 361.402 318.453 9.634 9.398 8.439 425.532 385.604 330.907 319.285 267.446 9.597 9.629 8.699 454.545 422.535 375.657 360.620 320.704 9.756 9.704 8.766 451.977 415.512 376.223 357.910 323.012 9.643 9.775 8.737 449.438 422.535 378.215 358.295 321.608 9.443 9.394 8.547 446.927 397.878 355.366 332.557 302.973 9.625 9.483 8.349 437.158 390.625 328.299 306.279 281.488

9.337 9.333 8.403 446.927 408.719 368.732 349.895 320.875

10.070 10.127 9.120 462.428 424.929 378.788 364.564 329.083

9.930 10.000 8.969 457.143 417.827 378.788 363.240 323.209 9.242 9.149 8.163 396.040 353.774 307.125 288.101 260.737 ; proc factor data=socecon R=V n=2; var x1-x8; run;

data socecon; input x1-x8; cards;

9.625 9.611 8.540 441.989 405.405 356.125 340.599 306.383 9.699 9.970 8.921 459.770 420.168 376.506 361.533 328.878 9.579 9.611 8.543 446.927 416.667 377.074 360.750 310.486 9.671 9.671 8.881 462.428 416.667 378.215 364.299 324.702 9.728 9.718 8.713 444.444 400.000 340.599 327.332 287.785 9.785 9.790 8.848 462.428 409.836 367.107 349.406 316.946 9.398 9.294 8.282 444.444 389.610 346.021 330.251 301.501 9.833 9.891 8.757 454.545 413.223 369.004 355.999 324.203 9.671 9.615 8.658 446.927 404.313 367.377 341.297 314.818 9.515 9.506 8.457 441.989 402.145 359.712 343.289 315.996 9.588 9.501 8.677 439.560 401.070 370.645 358.680 321.241

8.210 8.621 7.556 396.040 353.774 299.401 282.646 256.193

9.141 9.132 8.220 427.807 390.625 356.379 347.102 308.940 9.662 9.685 8.764 454.545 418.994 372.578 354.736 314.138 9.470 9.747 8.716 449.438 415.512 370.370 355.745 322.641 9.862 9.685 8.547 439.560 392.670 335.345 317.965 273.780 9.588 9.667 8.793 459.770 415.512 376.790 363.372 322.419 9.891 9.814 8.834 462.428 420.168 374.813 357.526 318.934 9.881 9.838 8.915 462.428 421.348 379.651 364.697 324.777 9.843 9.818 8.989 462.428 424.929 378.501 362.188 319.103 9.891 9.896 8.903 470.588 427.350 384.320 363.504 326.764 9.785 9.657 8.591 449.438 412.088 342.700 351.494 313.484 9.107 9.166 8.264 423.280 394.737 353.107 332.116 302.842 9.747 9.699 8.692 451.977 414.365 370.645 351.617 318.261 9.434 9.337 8.747 454.545 402.145 363.108 347.102 319.708 9.443 9.307 8.368 434.783 382.653 339.443 324.781 283.511 9.425 9.542 8.639 446.927 421.348 375.375 359.583 318.814 9.337 9.524 8.368 451.977 403.226 366.032 345.662 306.761 9.990 10.142 8.838 462.428 416.667 377.929 363.372 321.903 9.671 9.611 8.722 446.927 412.088 372.856 360.750 328.034 9.560 9.681 8.905 462.428 422.535 381.679 365.230 325.202 9.671 9.574 8.529 446.927 397.878 358.166 342.114 309.688 9.166 9.116 8.457 432.432 397.878 353.857 337.041 322.419

9.662 9.629 8.439 439.560 408.719 366.569 343.879 298.683 9.615 9.560 8.639 439.560 394.737 341.530 322.477 273.816

8.937 8.909 8.386 425.532 391.645 332.005 314.762 277.179

9.597 9.390 8.677 444.444 410.959 371.471 357.782 326.587 9.506 9.547 8.869 459.770 414.365 374.251 362.188 327.042 9.515 9.579 8.677 459.770 423.729 378.501 361.011 327.144 9.479 9.452 8.563 454.545 414.365 374.813 361.141 320.923 9.124 9.183 8.351 421.053 374.065 339.674 318.878 284.678 9.276 9.242 8.651 441.989 391.645 339.213 326.371 290.459 9.843 9.881 8.818 454.545 416.667 376.223 358.551 320.679 9.497 9.447 8.565 446.927 414.365 380.807 365.230 327.983 9.606 9.533 8.720 454.545 412.088 377.358 361.402 318.453 9.634 9.398 8.439 425.532 385.604 330.907 319.285 267.446 9.597 9.629 8.699 454.545 422.535 375.657 360.620 320.704 9.756 9.704 8.766 451.977 415.512 376.223 357.910 323.012 9.643 9.775 8.737 449.438 422.535 378.215 358.295 321.608 9.443 9.394 8.547 446.927 397.878 355.366 332.557 302.973 9.625 9.483 8.349 437.158 390.625 328.299 306.279 281.488

9.337 9.333 8.403 446.927 408.719 368.732 349.895 320.875

10.070 10.127 9.120 462.428 424.929 378.788 364.564 329.083 9.930 10.000 8.969 457.143 417.827 378.788 363.240 323.209 9.242 9.149 8.163 396.040 353.774 307.125 288.101 260.737 ; proc princomp out=aaa prefix=z; var x1-x8; run; data a2; set aaa; proc print; var z1-z2 ;run;

proc iml; A={ 0.314784 0.572063, 0.337601 0.458594, 0.356468 0.238181, 0.368989 0.025168, 0.373924 -.135045, 0.364092 -.316945, 0.366459 -.312962, 0.342110 -.434092}; v=A*{6.56896573 0.90978515}`/8; print v;

x={-0.40177 0.40174, 2.57274 0.19807, 0.77664 -0.52323, 2.13020 -0.31215, -0.86439 1.86162, 1.56253 0.71403, -2.14147 -0.19710, 1.77815 0.54157, 0.28444 0.23550, -0.54139 -0.34281, 0.33143 -0.54541, -9.76033 -1.43803, -2.43177 -1.64189, 1.36513 0.03521, 1.09352 -0.42698, -1.80340 2.51541,

1.74071 -0.46250,

2.25266 0.55505, 2.73717 0.31419,

2.68963 0.43501,

3.23997 0.27549, 0.30377 0.66966, -2.83020 -1.22550, 1.18043 0.17503, 0.08374 -0.67836, 2.90514 0.63181, 0.87029 -1.01936, -0.56083 -0.65879, 2.88533 1.08884,

1.24697 -0.47337,

2.28622 -0.61714, -0.34021 0.35930, -1.80926 -1.55967, -0.34410 0.32761, -1.83362 1.74025, -4.33392 -0.61624,

0.65418 -0.90032,

1.60490 -0.77468, 1.66466 -1.01493, 0.79744 -1.12198, -4.02844 -0.07632, -

2.23190 0.22898, 2.06085 0.49322,

1.19745 -0.57756, -3.20810 1.75555, 1.50789 -0.55921, 1.63031 -0.03967, 1.67555 -0.23808, -1.11464 0.00399, -

2.87887 1.69889, -0.35253 -1.41622,

3.69778 1.21192, 2.77038 0.80870, -6.89720 1.61002}; f=x*{6.56896573 0.90978515}`/8; print f;

Data pgm33b; Input no$ x1-x2; cards;

1 -0.40177 0.40174

2 2.57274 0.19807

3 0.7766

4 -0.52323

4 2.13020 -0.31215

5 -0.86439 1.86162

6 1.56253 0.71403

7 -2.14147 -0.19710

8 1.77815 0.54157

9 0.28444 0.23550

10 -0.54139 -0.34281

11 0.33143 -0.54541

12 -9.76033 -1.43803

13 -2.43177 -1.64189

14 1.36513 0.03521

15 1.09352 -0.42698

16 -1.80340 2.51541

17 1.74071 -0.46250

18 2.25266 0.55505

19 2.73717 0.31419

20 2.68963 0.43501

21 3.23997 0.27549

22 0.30377 0.66966

23 -2.83020 -1.22550

24 1.18043 0.17503

25 0.08374 -0.67836

26 -2.90514 0.63181

27 0.87029 -1.01936

28 -0.56083 -0.65879

29 2.88533 1.08884

30 1.24697 -0.47337

31 2.28622 -0.61714

32 -0.34021 0.35930

33 -1.80926 -1.55967

34 -0.34410 0.32761

35 -1.83362 1.74025

36 -4.33392 -0.61624

37 0.65418 -0.90032

38 1.60490 -0.77468

39 1.66466 -1.01493

40 0.79744 -1.12198

41 -4.02844 -0.07632

42 -2.23190 0.22898

43 2.06085 0.49322

44 0.94041 -1.42916

45 1.19745 -0.57756

46 -3.20810 1.75555

47 1.50789 -0.55921

48 1.63031 -0.03967

49 1.67555 -0.23808

50 -1.11464 0.00399

51 -2.87887 1.69889

52 -0.35253 -1.41622

53 3.69778 1.21192

54 2.77038 0.80870

55 -6.89720 1.61002 ; Proc cluster standard method=average nonorm nosquare ccc pseudo out=tree; Proc tree data=tree horizontal spaces=1; run;

proc iml; A={ 0.314784 0.572063, 0.337601 0.458594, 0.356468 0.238181, 0.368989 0.025168, 0.373924 -.135045, 0.364092 -.316945, 0.366459 -.312962,

v=A*{6.56896573 0.90978515}`/8; print v;

proc iml; x={-0.40177 0.40174, 2.57274 0.19807, 0.77664 -0.52323, 2.13020 -0.31215, -0.86439 1.86162, 1.56253 0.71403, -2.14147 -0.19710, 1.77815 0.54157, 0.28444 0.23550, -0.54139 -0.34281, 0.33143 -0.54541, -9.76033 -1.43803, -2.43177 -1.64189, 1.36513 0.03521, 1.09352 -0.42698, -1.80340 2.51541,

1.74071 -0.46250,

2.25266 0.55505, 2.73717 0.31419,

2.68963 0.43501,

3.23997 0.27549, 0.30377 0.66966, -2.83020 -1.22550, 1.18043 0.17503, 0.08374 -0.67836, 2.90514 0.63181, 0.87029 -1.01936, -0.56083 -0.65879, 2.88533 1.08884,

1.24697 -0.47337,

2.28622 -0.61714, -0.34021 0.35930, -1.80926 -1.55967, -0.34410 0.32761, -1.83362 1.74025, -4.33392 -0.61624,

0.65418 -0.90032,

1.60490 -0.77468, 1.66466 -1.01493,

-4.02844 -0.07632, -2.23190 0.22898, 2.06085 0.49322,

0.94041 -1.42916,

1.19745 -0.57756, -3.20810 1.75555, 1.50789 -0.55921, 1.63031 -0.03967, 1.67555 -0.23808, -1.11464 0.00399, -

2.87887 1.69889, -0.35253 -1.41622,

3.69778 1.21192, 2.77038 0.80870, -6.89720 1.61002}; f=x*{6.56896573 0.90978515}`/8; print f;

Data pgm33b; Input no$ x1-x2; cards;

1 -0.40177 0.40174

2 2.57274 0.19807

3 0.7766

4 -0.52323

4 2.13020 -0.31215

5 -0.86439 1.86162

6 1.56253 0.71403

7 -2.14147 -0.19710

8 1.77815 0.54157

9 0.28444 0.23550

10 -0.54139 -0.34281

11 0.33143 -0.54541

12 -9.76033 -1.43803

13 -2.43177 -1.64189

14 1.36513 0.03521

15 1.09352 -0.42698

16 -1.80340 2.51541

17 1.74071 -0.46250

18 2.25266 0.55505

19 2.73717 0.31419

20 2.68963 0.43501

21 3.23997 0.27549

22 0.30377 0.66966

23 -2.83020 -1.22550

24 1.18043 0.17503

25 0.08374 -0.67836

26 -2.90514 0.63181

27 0.87029 -1.01936

28 -0.56083 -0.65879

29 2.88533 1.08884

30 1.24697 -0.47337

31 2.28622 -0.61714

32 -0.34021 0.35930

33 -1.80926 -1.55967

34 -0.34410 0.32761

35 -1.83362 1.74025

36 -4.33392 -0.61624

37 0.65418 -0.90032

38 1.60490 -0.77468

39 1.66466 -1.01493

40 0.79744 -1.12198

41 -4.02844 -0.07632

42 -2.23190 0.22898

43 2.06085 0.49322

44 0.94041 -1.42916

45 1.19745 -0.57756

46 -3.20810 1.75555

47 1.50789 -0.55921

48 1.63031 -0.03967

49 1.67555 -0.23808

50 -1.11464 0.00399

51 -2.87887 1.69889

52 -0.35253 -1.41622

53 3.69778 1.21192

54 2.77038 0.80870

55 -6.89720 1.61002 ; Proc cluster method=average nonorm standard nosquare ccc pseudo out=tree; Proc tree data=tree horizontal spaces=1; run;

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

SPSS进行主成分分析报告地步骤(图文)

主成分分析の操作過程 原始數據如下(部分) 調用因子分析模塊(Analyze―Dimension Reduction―Factor),將需要參與分析の各個原始變量放入變量框,如下圖所示:

單擊Descriptives按鈕,打開Descriptives次對話框,勾選KMO and Bartlett’s test of sphericity選項(Initial solution選項為系統默認勾選の,保持默認即可),如下圖所示,然後點擊Continue按鈕,回到主對話框: 其他の次對話框都保持不變(此時在Extract次對話框中,SPSS已經默認將提取公因子の方法設置為主成分分析法),在主對話框中點OK按鈕,執行因子分析,得到の主要結果如下面幾張表。 ①KMO和Bartlett球形檢驗結果:

KMO為0.635>0.6,說明數據適合做因子分析;Bartlett球形檢驗の顯著性P值為0.000<0.05,亦說明數據適合做因子分析。 ②公因子方差表,其展示了變量の共同度,Extraction下面各個共同度の值都大於0.5,說明提取の主成分對於原始變量の解釋程度比較高。本表在主成分分析中用處不大,此處列出來僅供參考。 ③總方差分解表如下表。由下表可以看出,提取了特征值大於1の兩個主成分,兩個主成分の方差貢獻率分別是55.449%和29.771%,累積方差貢獻率是85.220%;兩個特征值分別是3.327和1.786。 ④因子截荷矩陣如下:

根據數理統計の相關知識,主成分分析の變換矩陣亦即主成分載荷矩陣U 與因子載荷矩陣A 以及特征值λの數學關系如下面這個公式: λ i i i A U = 故可以由這二者通過計算變量來求得主成分載荷矩陣U 。 新建一個SPSS 數據文件,將因子載荷矩陣中の各個載荷值複制進去,如下圖所示: 計算變量(Transform-Compute Variables )の公式分別如下二張圖所示:

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析及二次回归分析的

基于主成分分析及二次回归分析的城市生活垃圾热值建模 1. 引言 随着人们经济水平的提高、环保意识的增强、环保法规日益严格和国家垃圾处理产业化政策的实施,垃圾填埋处理的弊端将引起重视、运营费用将大大增加,而垃圾焚烧处理的优势将逐渐呈现出来并最终获得人们的认可。以城市生活垃圾为燃料而建立垃圾电站进行电力生产,很好的实现了生活垃圾的无害化、资源化利用。 而我国的城市生活垃圾成分复杂,用作为燃料时稳定性较差,因此分析垃圾的成分、计算垃圾的热值模型是垃圾焚烧发电的工艺设计和运营管理中必不可少的基础性工作。 因为我国不同地区人们生活习惯及生活条件差异较大,导致城市生活垃圾成分也存在很大的地域性差异,因此,本文以深圳市为例,对深圳市宝安区的生活垃圾采样数据进行分析,并建立其计算模型。 2. 回归分析及主成分分析理论 2.1. 回归分析 回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,通过回归方程的形式描述和反应这种关系。 2.2. 一般回归模型 如果变量与随机p 变量y 之间存在着相关关系,通常就意味着当x , x ....x 1 2 p x , x ....x取定值后y 便有相应的概率分布与之对应,其概率模型为: = ( , ... ) +e (2-1)1 2 p y f x x x其中p为称自变量,y 称为因变量,为自变量的确定性关系,ε表示x , x ....x 1 2 ( , .... ) 1 2 p f x x x随机误差。 2.3. 线性回归模型 回归模型分为线性回归模型和非线性回归模型,线性回归又有一元线性回归和多元线性回归之分。当变量之间的关系是线性关系的模型都称为线性回归模 型,否则就称之为非线性回归模型。当概率模型(2-1)中的回归函数为线性函数时,有: = b + b + b +e (2-2)p p y x ... x 0 1 1其中βi 是p+1 个未知参数,β0 称为回归常数,β1...βp 称为回归系数。 2.4. 主成分分析 上述的线性回归模型的应用前提是作为自变量的各指标之间相互独立,即不

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化:打开数据后选择分析→描述统计→描述,对数据进行标准化,选中将标准化得分另存为变量: 2.3 进行主成分分析:选择分析→降维→因子分析,

3.4设置描述性,抽取,得分和选项:

4.5 查看主成分分析和分析: 相关矩阵表明,各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠,适合采用主成分分析法。(下表非完整呈现)

5.6 由Total Variance Explained(主成分特征根和贡献率)可知,特征根λ1=9.092,特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平,故提取前两个指标即可。主成分,分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷,相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷,相关性强。第二主成分反映了人均的经济量水平。但是要注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵(因子得分系数)列出了强两个特征根对应的特征向量,即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为:F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州:主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83,将各指标的标准化数据带入个主成分解析表达式中,分别计算出2个主成分得分(F1、F2),再以个主成分的贡献率为全书对主成分得分进行加权平均,即:H=(82.672*F1+10.497*F2)/93.124,求得主成分综合得分。

主成分分析与因子分析的联系与区别

https://www.doczj.com/doc/0c4565339.html,/ysuncn/archive/2007/12/08/1924502.aspx 一、问题的提出 在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。因此为了尽量避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。而主成分分析和因子分析正是为解决此类问题而产生的多元统计分析方法。 近年来,这两种方法在社会经济问题研究中的应用越来越多,其应用范围也愈加广泛。因子分析是主成分分析的推广和发展,二者之间就势必有着许多共同之处,而SPSS软件不能直接进行主成分分析,致使一些应用者在使用SPSS进行这两种方法的分析时,常常会出现一些混淆性的错误,这难免会使人们对分析结果产生质疑。因此,有必要在运用SPSS分析时,将这两种方法加以严格区分,并针对实际问题选择正确的方法。 二、主成分分析与因子分析的联系与区别 两种方法的出发点都是变量的相关系数矩阵,在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关。 主要区别: 1. 主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变量(即公共因子)上,而舍弃特殊因子。 2. 主成分分析是将主成分表示为原观测变量的线性组合, (1) 主成分的个数i=原变量的个数p,其中j=1,2,…,p,是相关矩阵的特征值所对应的特征向量矩阵中的元素,是原始变量的标准化数据,均值为0,方差为1。其实质是p维空间的坐标变换,不改变原始数据的结构。 而因子分析则是对原观测变量分解成公共因子和特殊因子两部分。因子模型如式(2),

主成分分析法概念及例题.doc

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

用SPSS进行详细的主成分分析步骤

怎样用SPSS进行主成分分析 怎样用SPSS进行主成分分析 一、基本概念与原理 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 (1)主成分分析的原理及基本思想。 原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来

主成分分析原理

第七章主成分分析 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1,21=?????? ? ??= 主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即 ???????+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析的区别 通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z 所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。 通过因子分析得来的新变量是对每一个原始变量进行内部剖析。打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

(整理)(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析.

偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。 (2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。 (3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。 一、偏最小二乘回归的建模策略\原理\方法

应用多元统计分析习题解答_朱建平_第七章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p = 因子载荷阵为1112 121 2221212 (,,,)m m m p p pm a a a a a a A A A a a a ????? ?==?? ?? ?? ? ? A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

(完整版)主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度. 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的

主成分分析在SPSS中的操作应用(详细步骤

主成分分析在SPSS中的操作应用(2) SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。 用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入 “A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX

应用多元统计分析习题解答 第七章讲解学习

应用多元统计分析习题解答第七章

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++ ++ 1,2,,i p = 因子载荷阵为1112 12122 21212(,,,)m m m p p pm a a a a a a A A A a a a ??????==????????A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1Cov(,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a

SPSS对主成分回归实验报告

《多元统计分析分析》实验报告 2012 年月日学院经贸学院姓名学号 实验 实验成绩名称 一、实验目的 (一)利用SPSS对主成分回归进行计算机实现. (二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释. 二、实验内容 以教材例题为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用 三、实验步骤(以文字列出软件操作过程并附上操作截图) 1、数据文件的输入或建立:(文件名以学号或姓名命名) 将表数据输入spss:点击“文件”下“新建”——“数据”见图1: 图1 点击左下角“变量视图”首先定义变量名称及类型:见图2: 图2: 然后点击“数据视图”进行数据输入(图3): 图3

完成数据输入 2、具体操作分析过程: (1)首先做因变量Y与自变量X1-X3的普通线性回归: 在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4): 图4 将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5): 然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9) 其他选项按软件默认。最后点击“确定”,运行线性回归,输出相关结果(见表1-3)

SPSS中主成分分析的基本操作1

SPSS 中主成分分析的基本操作 Xiaowenzi22与pinksss 共同制作 阐述主成分分析法的原理 主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F 1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F 1)越大,表示F 1包含的信息越多。因此在所有的线性组合中选取的F 1应该是方差最打的,故称F 1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F 2即选第二个线性组合,为了有效地反映原来信息,F 1已有的信息就不需要再出现再F 2中,用数学语言表达就是要求Cov(F 1, F 2)=0,则称F 2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分。 主成分模型: F 1=a 11X 11+a 21X 21+……+a p1X p F 2=a 12X 12+a 22X 22+……+a p2X p …… F p =a 1m X 11+a 2m X 22+……+a pm X p 其中a 1i, a 2i, ……,a pi (i=1,……,m)为X 的协差阵Σ的特征值多对应的特征向量,X 1, X 2, ……, X p 是原始变量经过标准化处理的值(因为在实际应用中,往往存在指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化)。 A=(ij a )m p ×=(,1α,2α…,m α),i i i R αλα=, R 为相关系数矩阵, i i αλ、是相应的特征值和单位特征向量, 1λ≥2λ≥…≥p λ≥0 上述方程组要求: 1、a 21i +a 22i +……+a 2pi =1 (i=1,……,m) 2、m I A A =′ (A=(ij a )m p ×=(,1α,2α…,m α),A 为正交矩阵) 3、Cov(F i ,F j )=ij i δλ, =01 ij δj i j i ≠= 操作步骤: 一、 数据标准化

主成分分析和因子分析的区别

更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——https://www.doczj.com/doc/0c4565339.html,
主成分分析和因子分析的区别
一、二者在 SPSS 中的实现
(一) 、因子分析在 进行因子分析主要步骤如下: 1. 2. 3. 4. 5. 指标数据标准化(SPSS 软件自动执行) ; 指标之间的相关性判定; 确定因子个数; 综合得分表达式; 各因子 Fi 命名; 例子:对沿海 10 个省市经济综合指标进行因子分析 (一)指标选取原则 本文所选取的数据来自 《中国统计年鉴 2003》 2002 年的统计数据,在沿海 10 省市经济状况主要指标 中 体系中选取了 10 个指标: X1——GDP X3——农业增加值 X5——第三产业增加值 X7——基本建设投资 X9——海关出口总额 X2——人均 GDP X4——工业增加值 X6——固定资产投资 X8——国内生产总值占全国比重(%) X10——地方财政收入
SPSS 中的实现
图表 1 沿海 10 个省市经济数据 社会消 农业增加 工业增加 第三产业 固定资产 基本建设 费品零 值 值 增加值 投资 投资 售总额 14883.3 1390 950.2 83.9 1122.6 86.2 680 663 1023.9 591.4 1376.2 3502.5 1406.7 822.8 3536.3 2196.2 2356.5 1047.1 4224.6 367 2258.4 3851 2092.6 960 3967.2 2755.8 3065 1859 4793.6 995.7 1315.9 2288.7 1161.6 703.7 2320 1970.2 2296.6 964.5 3022.9 542.2 529 1070.7 597.1 361.9 1141.3 779.3 1180.6 397.9 1275.5 352.7 2258.4 3181.9 1968.3 941.4 3215.8 2035.2 2877.5 1663.3 5013.6 1025.5
地区
GDP
人均 GDP 13000 11643 9047 22068 14397 40627 16570 13510 15030 5062
海关出 地方财 口总额 政收入 123.7 211.1 45.9 115.7 384.7 320.5 294.2 173.7 1843.7 15.1 399.7 610.2 302.3 171.8 643.7 709 566.9 272.9 1202 186.7
辽宁 5458.2 山东 10550 河北 6076.6 天津 2022.6 江苏 浙江 福建 广东 10636 7670 4682 11770 上海 5408.8
广西 2437.2
(二)因子分析在 SPSS 中的具体操作步骤
1

相关主题
文本预览
相关文档 最新文档