第十章多元统计课件
- 格式:pdf
- 大小:287.11 KB
- 文档页数:10
第十章 主成分分析10.1 主成分分析概述一、主成分的求法当指标之间有一定的相关关系时,如果用较少的指标来代替较多的指标,而这些较少的指标既综合反映了原来较多的信息,相互之间又是无关联的。
这些少数综合的指标就是原来多数指标的主要成分。
这种处理问题的方法称为主成分分析(Principle Component Analysis )。
利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析、偏最小二乘回归等统计方法。
本章介绍主成分分析(又称主成分分析或主轴分析)。
设是12(,,...,)Tp X X X X =p 维随机向量,均值为E()X μ=,协差阵为()ij p p σ×Σ=,且Σ正定,不妨设0μ=,若不等于,可变换成。
考虑它的线性变换:001111121212212122221122...................................................................T p p Tp p Tp p p p pp F U X u X u X u X F U X u X u X u X F U X u X u X u X ⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩p 或 TF U X =其中,。
12(,,,)p U U U U ="12(,,,)Tp F F F F ="我们称满足以下两条:(1)在i F 1Ti i U U =下方差最大,即使D()Ti i F U U i =Σ达到最大;(2)的,cov(,)0,Ti j i j F F U U i j =Σ=≠i F 1,2,,i p ="为随机向量X 的主成分。
主成分的求法可按下述三步完成:第一步:求有非零特征根,并排序0Σ>1...0p λλ≥≥>;第二步:找出(1,...,)i i p λ=相应的特征根,并进行单位化得到;1,...,p U U 第三步:取,分别就是,1,...,Ti i F U X i p ==12,,p F F F "X 的第一主成分,第二主成分,……,第p 主成分,且 互不相关。
12,,...,p F F F二、主成分的性质记12diag(,...,)p λλλΛ=,其中12...p λλλ≥≥≥为Σ的特征值,U U 是相应的单位正交特征向量。
主成分,其中,12,,,"p U 12(,,...,)Tp F F F F =Ti i F U X =1,2,...,i p =。
则(1) 或D()F =ΛD(),1,2,,i i F i p λ==",且它们是互不相关的。
(2)2111pppiii i i i i σσλ=====∑∑∑。
(3) 称为对11()pi i k k g λλ−==∑i F X 各分量总和的贡献率,简称的贡献率,其值越大,表明i F iF综合X 的能力越强。
称1111()()pllkkkk k k g l g λλ−=====∑∑∑为12,,...,()l F F F l p ≤的累计方差贡献率,在实用时取累计贡献率就够了。
当取()85%g l ≥l p <时,既用简化了原指标系统,又能反映12,,...,l F F F X 各分量方差总和的85%以上。
(4) 主成分与原始变量k F i X的相关系数(,)/,1,2,...,),k i ik F X k i p ρ==并称之为因子负荷量(或因子载荷量)。
因子负荷量是主成分分析中非常重要的解释依据。
由因子负荷量在主成分中的绝对值大小来刻画该主成分的主要意义及其组成因素。
(5) 21(,)1(1,2,...,)pk i k Z X i ρ===∑p 。
(6)21(,)(1,...,)piik i k i Z X k σρλ===∑p 。
三、应用举例例10.1:设123(,,)TX X X X =,其协差阵为202040205−⎛⎞⎜⎟Σ=⎜⎟⎜⎟−⎝⎠则||(6)(4)(1)E 0λλλλΣ−=−−−=,解得特征根分别为1236,4,1λλλ===,相应的特征向量分别为123(1,0,2),(0,1,0),(2,0,1)T T y y y =−==T对特征向量进行单位化得13,(0,1,0),T TTU U U ===计算得。
前两个主成分的累计贡献率为 1236/11,4/11,1/11g g g ===(2)10/11g ==90.91%,故取前两个主成分:111322,T TF U X X X F U X X ==−==2就可以简化原观察系统,且能够保留原观察系统变异信息的90.91%。
从看,为特征主成分,它全面反映了12,F F 2F 2X ,而包含了1F 1X 和3X 变异信息的大部分,损失部分为所反映。
3F10.2 PRINCOMP 过程为了考虑p 维随机向量之间的相关性,调用PRINCOMP 过程进行主成分分析。
12(,,...,)Tp X X X X =一、PRINCOMP 过程的功能该过程可完成以下几方面计算:(1) 完成主成分分析:计算相关阵或协差阵的特征值和特征向量,当特征值从大到小次序排列时,由相应特征向量可得出第一主成分、第二主成分等等。
用少数几个主成分代替原始变量,并计算主成分得分。
由得分数据作主成分得分的散布图,进一步地还可用于主成分回归和聚类分析。
(2) 主成分的个数用户可以自己确定;主成分的名字用户可自己确定;主成分得分是否标准化也可以由用户根据实际需要来确定。
(3) 输入数据集可以是原始数据集,也可以是相关阵,协差阵或离差阵(SSCP)。
输入原始数据时,用户还可以规定从协差阵出发或从相关阵出发进行分析。
由协差阵出发进行分析时表示方差魇变量在主成分分析中起的作用大。
(4) PRINCOMP过程可输出许多计算结果。
包括简单统计量(均值或标准差);相关阵或协差阵;从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例,累计比例等。
该过程还生成二个输出数据集:一个包含原始数据和主成分得分,它可作为生成主成分回归或聚类分析的输入数据集;另一个是包含有关统计量的类型为TYPE=CORR(或COV)的输出集,它也可作为其他过程的输入SAS集。
(5) PRINCOMP过程还可用来提示变量间的共线关系。
若存在某个特征值约等于0,即表示这组变量间挖存在共线性。
(6) 该过程也可以进行基于偏相关阵的主成分分析。
二、语句格式语句格式为:PROC PRINCOMPV ARWEIGHTFREQPARTIALBY 选项;变量名; 变量名; 变量名; 变量名; 变量名;除调用过程的PROC PRIMCOMP语句外,只有V AR语句经常使用,其他语句是选择使用的语句。
三、语句说明1、选项DATA=数据集名:给出被分析的SAS数据集的名字,这个数据集可以是原始SAS数据集或者TYPE=CORR,COV或SSCP的数据集。
OUT=数据集名:命名一个存放原始数据以及主成分得分数据的输出数据集。
OUTSTAT=数据集名:命名一个存放均值、标准差、观测个数、相关阵或协差阵、特征值和特征向量的输出要AS数据集。
如果规定选项COV,则数据集的类型为TYPE=CORR,而且包含相关阵。
COV ARIANCE|COV:要求从协差阵出发计算主成分。
如果没有规定此选项,则从相关阵出发进行分析。
N=:规定被计算的主成分个数、缺省值为变量个数。
nPREFIX=名字:对主成分的名字规定前缀。
缺省时的名字为PRIN,PRIN2,…,PRINp。
如规定PREFIX=Z。
则主成分名字为Z1,Z2,Z3等等。
STANDARD|STD:要求在OUT=的数据集里把主成分得分标准化为单位方差。
如果没有规定此选项,主成分得分的方差等于相应的特征值。
2、V AR语句V AR语句列出用于进行主成分分析的变量。
如果省略V AR语句,则SAS系统使用DATA=规定的数据集中所有数值变量进行主成分分析。
3、PARTIAL语句此指令指明一组变量,它们的值将会从其它的变量中交货净化出来。
净化后的变量值所形成的矩阵是净相关矩阵而非相关系数矩阵。
若读者在程序中同时界定OUT=或OUTSTAT=输出资料文件名,则此输出资料文件也会含净化后的残差变量。
这些残差变量的命名原则是R_加上V AR 指令所界定之变量名称的前六个字母。
所以,如果V AR指令含X、Y、Z三个变量,则其所对应的残差变量就是R_X、R_Y、R_Z了。
4、FREQ语句此变量的值代表资料文件内各观察体重复出现的次数。
所以计算自由度时,将以这个变量的总值为依据。
5、WEIGHT语句当输入资料文件内的各观察体的变异数不等时,读者常须依这些不等变异数的倒数指派不同的加权值以区分各观察体的重要性。
这些加权值可被存入一个WEIGHT变量内,以代表各观察体的加权值。
6、BY语句此指令指示SAS将输入资料文件分成几个小的资料文件,然后对每一个小的资料文件进行主成分分析。
当读者选用此指令时,输入资料文件内的数据必须先依BY指令里所列举的变量值作从小到大的排列,这个步骤可借PROC SORT达成。
四、应用举例例10.2:为了了解全国各个地区城市设施建设水平,对我国现阶段的城市建设有一个客观的评价,选取了7个指标:X1表示人均住宅面积(平方米),X2表示城市用水普及率(%),X3表示城市燃气普及率(%),X4表示每万人拥有公共交通车辆(标台),X5表示人均拥有道路面积(平方米),X6表示人均公共绿地面积(平方米),X7表示每万人拥有的公共厕所(座)。
数据来源于2003中国统计年鉴。
试利用主成分分析对我国31个省市自治区的2002年城市设施建设水平进行统计分析和研究。
表10.1 我国31个省市自治区的2002年城市设施建设水平数据 地区X1 X2X3X4X5X6 X7北京 26.4 10099.621.68.110.1 5.9天津 22.2 10095.19.38.5 5.6 4.499.889.7 6.510.7 5.7 5.6河北 22.082.959.3 3.8 6.2 3.2 4.1山西 22.0内蒙古 19.3 77.251.9 3.97.6 5.6 6.187.182.07.87.1 5.7 5.1辽宁 19.476.366.9 6.6 5.9 5.1 5.9吉林 19.8黑龙江 18.1 80.566.7 6.37.4 6.1 7.5100.0100.016.411.6 6.1 1.9上海 28.089.085.2 6.911.77.1 4.8江苏 23.696.694.48.910.9 6.5 3.1浙江 30.3安徽 20.279.762.4 6.18.8 4.5 3.382.982.77.87.5 5.0 1.9福建 29.284.065.8 5.7 6.5 4.9 2.0江西 22.064.260.9 4.98.9 5.0 1.5山东 22.773.249.3 4.8 6.4 5.7 2.6河南 19.266.354.8 5.97.6 4.7 2.1湖北 22.2湖南 22.580.759.7 6.7 6.6 4.7 2.391.888.3 5.610.37.9 2.2广东 25.863.952.4 3.8 6.6 4.4 1.4广西 21.985.679.38.113.79.1 1.6海南 22.162.646.6 4.4 4.4 2.2 2.1重庆 23.943.530.7 3.0 3.9 2.6 1.3四川 24.9贵州 18.274.854.28.3 3.9 5.3 2.377.962.89.2 5.97.8 2.4云南 24.087.646.918.113.8 1.6 3.4西藏 18.8陕西 21.076.959.2 6.5 5.6 4.0 1.857.426.1 3.9 6.1 2.3 1.5甘肃 21.1青海 18.1100.048.913.27.8 5.9 3.162.550.7 3.8 6.9 2.9 4.9宁夏 20.895.887.211.49.3 6.7 4.0新疆 20.0程序说明:第一个过程是STANDARD过程,它的作用是把各变量的观测数据标准化,并输出标准化后的变量放入数据集outch11_2中,然后再利用PRINCOMP过程进行主成分分析。