第七章主成分分析
- 格式:ppt
- 大小:1.07 MB
- 文档页数:32
第七章主成分分析(一)教学目的通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。
(二)基本要求了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。
(三)教学要点1、主成分分析基本思想,数学模型,几何解释2、主成分分析的计算步骤及应用(四)教学时数3课时(五)教学内容1、主成分分析的原理及模型2、主成分的导出及主成分分析步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。
由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。
如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。
第 - 213 - 页第一节 主成分分析的原理及模型一、主成分分析的基本思想及数学模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。
这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。
通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。
因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。
如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21 F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。
sas主成分分析sas主成分分析第七章主成分分析实验目的:熟悉并掌握主成分分析和因子分析的原理和在变量分类、综合评价、主成分回归等几个方面的应用,以及相应的SAS程序实现。
实验内容:对我国钢铁行业上市公司的财务绩效状况进行主成分分析,选择的财务指标共有以下几个:流动比率,速动比率,存货周转率,总资产周转率,净资产收益率,经营净利率,每股收益,净资产收益率增长率,股东权益增长率。
数据如下:完成以下工作:(1)选取累积贡献率>85%的前几个主成分,分别计算得分;并对选取的主成分进行解释;(2)对各上市公司的财务绩效进行综合评价;(3)利用选取的主成分得分,借助聚类分析过程对钢铁行业上市公司进行分类。
datazcf;inputname$x1-x9;cards;邯郸钢铁1.5510.9717.1650.88910.7689.2680.451-16.0246.122武钢股份2.1921.828.0880.97515.05411.1140.336-3.0392.588钢联股份1.2860.9418.0441.1247.3894.5990.205-59.988122.041宝钢股份0.9790.5718.130.6019.7428.780.205-17.6853.989莱钢股份1.3640.4975.0780.9314.1039.1370.523-24.26114.16西宁特钢1.4330.6721.4620.4716.4297.2680.1559.3493.027杭钢股份2.1081.4988.3731.41816.7567.9370.531-18.72513.662邢台轧辊2.11.5951.8830.3966.4848.9810.1325.275-1.061宁夏恒力1.3641.0641.8680.2787.46919.8420.201-35.19455.428凌钢股份1.7721.0617.8411.11912.8838.8040.5285.34310.107南钢股份1.8181.3928.8661.54612.8855.1530.409-7.0286.131酒钢宏兴1.4410.88410.1681.07112.8317.8250.36744.0376.686抚顺特钢0.9550.6523.4160.5097.1476.8510.193-8.0741.93安阳钢铁1.8931.3335.1070.9810.9497.9150.3500上海科技1.3131.1824.6430.5689.5499.4230.19935.6353.582沪昌特钢10.8139.536.5850.5671.1031.6560.01915.031-7.171山川股份1.2520.5851.4850.45110.34414.6930.209-1.6159.799浦东不锈6.1865.1212.3630.2650.7542.5130.013-45.439-1.176新华股份1.8171.3143.2910.7469.9249.0280.137-3.5771.985工益股份1.8091.2674.0460.8280.6950.450.011104.419-4.714马钢股份1.5841.0694.3180.5692.0032.1830.03235.279-12.487宝信软件3.5943.2015.0140.82114.669.7210.147126.91123.243北特钢1.3851.0922.6910.467-11.21-7.917-0.14853.839-11.058广钢股份0.8590.513.8840.7224.2472.6850.096-32.409-4.004;procprincompn=9out=prin;varX1-x9;run;procprintdata=prin;varprin1-prin9;run;主要输出结果:相关阵的特征值和特征向量EigenvalueDifferenceProportionCumulative13.626730451.710877240.40300.403021.915853210.519337180.21290.615831.396516020.349008540.15520.771041.047507480.371047740.11640.887450.676459740.478913290.07520.962660.197546440.106501190.02190.984570.091045260.044878480.01010.994680.046166770.043992140.00510.999890.002174630.00021.0000EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6Prin7Prin8Prin9x1-.2632570.5528190.3251720.0999320.0123340.1292890.077190-.0215500.697189x2-.2696730.5512290.3176490.0909930.0600930.065411-.0196680.049407-.709595x30.3207430.454750-.227474-.1958410.013020-.7729000.0382700.0086860.033825x40.3790330.331485-.342911-.1840840.0144020.490904-.3231210.4986720.026498x50.4608530.1052280.1235360.3670920.0903870.094185-.486791-.610331-.003691x60.308953-.1918380.4762280.4505290.202663-.228562-.0285870.5848690.042126x70.4802260.1255120.0219100.155827-.2454280.2558630.762567-.122168-.082054x8-.1693840.077314-.5106640.4440140.6759650.0353110.220767-.0214310.005659x90.210440-.0652010.347445-.5918860.6553280.1132300.140544-.1355950.001607由输出特征值可知,第一主成分的贡献率为40.30%,第二个主成分的.贡献率为61.58%,第三个主成分的贡献率为77.10%,前四个主成分累计贡献率为88.74%。
7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。
解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。
解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。
第七章因子分析7.1试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、 简化数据的技术。
②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。
因子分析可以说是主成分分析的姐妹篇, 将主成分分析向前推进一步便导致因子分析。
因子分析也可以说成是主成分分析的逆问题。
如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标 变换到变异程度大的方向上为止,突出数据变异的方向, 归纳重要信息。
而因子分析是从显在变量去提炼潜在因子的过程。
此外,主成分分析不需要构造分析模型而因子分析要构造因 子模型。
7.2 因子分析主要可应用于哪些方面?答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。
具体来说,①因子 分析可以用于分类。
如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对 空气的优劣予以分类等等②因子分析可以用于探索潜在因素。
即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。
对我们进一步研究与探讨指示方向。
在社会调查分析中十分常用。
③因子分析的另一个作用是用于时空分解。
如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判 断各自的影响和变化规律。
7.3简述因子模型、一 m 卜中载荷矩阵A 的统计意义。
答:对于因子模型X i =a i 1F 1 - mF ?a j F j I" a m F m•;ii =1,2,Hl , pX i 与F j 的协方差为:mCov(X i , F j ) =Cov(' a ik F k °F j )k=im= Cov(' a ik F k ,F j ) Cov(「F j )k d= a ij若对X i 作标准化处理,=a j ,因此a ij 一方面表示X i 对F j 的依赖程度;另一方面也反映了 变量X i 对公共因子F j的相对重要性。