(新)第5章 主成分分析与经验正交分解
- 格式:doc
- 大小:944.00 KB
- 文档页数:52
5.4 主成分聚类与主成分回归5.4.1 变量聚类与样品分类主成分分析可用于聚类:变量聚类与样品聚类。
变量聚类:由主成分系数的差异,可将变量聚类。
例如例5.5中第2主成分中murder,rape, assult系数为负的, burglary,larceny, auto系数是正的。
按系数正负可把7个变量分为两类: murder, rape, assult属于暴力程度严重的一类;burglary,larceny,auto属于暴力程度较轻的一类。
按照这种方法,根据主成分系数的正负可以将变量聚类。
样品聚类:如果2个主成分能很好的概括随机向量的信息,计算每个样品的这两个主成分得分,把他们的散点图画出来,就能从图上将样品分类。
例5.5(续2)按照第一、第二主成分得分,画出散点图data crime; /*建立数据集crime*/input state $ 1-15 murder rape robbery assult burglary larceny auto;/*建立变量state murder rape robbery assult burglary larceny auto。
state $ 1-15表示前15列存州名。
murder rape robbery assult burglary larceny auto 表7种罪的犯罪率*/cards; /*以下为数据体*/Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5Arkansas 8.8 34.2 138.2 312.3 2346.1 4467.4 439.5Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4Geogia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3Kentaky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4Loisana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5Masschusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1Michigan 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.3Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2Mew Hampashare 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5New Maxico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1North Dakoda 100.9 9.0 13.3 43.8 446.1 1843.0 144.7Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8Oregan 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9Pennsyvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2Rhode Island 3.6 10.5 86.5 201.0 1849.5 2844.1 791.4South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1South Dakoda 2.0 13.5 17.9 155.7 570.5 1704.4 147.5Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7Wasinton 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3West Viginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3Wiskonsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0;proc princomp out=crimprin n=2;var murder rape robbery assult burglary larceny auto;run;PROC PLOT data=crimprin;PLOT PRIN2*PRIN1=STATE/VPOS=31;TITLE2 ‘PLOT OF THE FIRST TWO PRINCIPAL COMPONENTS’;RUN;例5.7 (气温分析)本例的输入资料文件(TEMPERA T)是美国六十四个城市一月与七月的平均日温。
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
为了有效的地进行这种评价,我们希望寻找尽量少得m个综合特征值,这m(m<p)个综合特征值应包含p个变量的有关信息,并以这m个综合特征值对此同进行综合评价。
显然,m越小,与之进行综合评价就越方便。
称这样的方法为主成分分析(Principal component Analysis,简称为PCA)。
8.3.1基本原理首先,我们以包含两个变量的教学系统___两门课程的学习成绩为例。
内容扩展设课程x1与x2时两门有一定相关性的课程,如:数学与物理。
N名学生的学习成绩为:(xi1,xi2)i=1~n (8—22)将这n组数据描在x1-x2平面上,则有图8.5(p=2的主成分)所示的图形。
由于x1,x2是两门相关性的课程,学习成绩在x1-x2平面上分布集中在椭圆形的范围内(图a)。
该椭圆是一种狭长形的椭圆,数据在长轴的方向上变化较大。
从图可知,为了评价学生的成绩,x1,x2都是必需的,不能偏废某一个。
由于x1,x2集中在一个狭长的范围内,我们可对这些数据作某种变化,将它变换到z1~z2平面上,则有图b。
从图b可知,在z1~z2坐标中,z1,z2的相关性较小,且数据在Z1轴上的分散较大,在Z2轴上的分散较小。
由于进行了这宗变幻,由Z1就能对学生的成绩进行综合评价,且Z1包含有X1,X2给出的信息。
这样,经过一定的变换后,我们将以两个变量X1,X2评价学生成绩的系统,变换为主要由一个变量Z1对学生的成绩进行评价。
此时,我们称Z1第一主成分。
显然,若X1,X2不是相关的,X1,X2在X1-X2 平面上的分布将是一种随机的均匀分布的图形(图c)。
这些数据经Z变换后,在Z平面上的分布仍是一种均匀的分布,不可能找到上述的主成分。
同样,对于P门课程的成绩,我们进行分析。
内容扩展可用P维空间中的矢量:xi =(xi1,xi2,xip) i=1—n (8-23)来表示。
式中,n为学生数,p为课程门数。
若p门课程具有一定的相关性,通过某种变换,我们可以找到一种新的m维综合变量空间,且有m<p。
第5章主成分分析与经验正交分解5.1主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。
首先我们看一个例子。
例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。
可是用这4个指标表达学生身材状况不方便。
但若用1y =3.63561x +3.32422x +2.47703x +2.16504x表示学生身体魁梧程度;用2y =-3.97392x +1.35821x +3.73233x -1.57294x表示学生胖瘦程度。
则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x ,4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,4x 的特性。
类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。
寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。
主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。
但是i c 的模可以无限增大,从而使)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。
但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y ,0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。
∑特征值从大到小为p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。
则X 的第j 个主成分为 j c 与X 的内积,即X c Y j j '= (5.1)且i i Y Var λ=)(证明:任取p维单位向量c,必有∑∑==1,2jjj tc t c 。
于是∑=∑=j j t c c X c D λ2')'(,而在条件∑=12j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积X c Y '11=。
由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j pj j ''2∑==,从而∑==∑=pj j j t c c X c D 22')'(λ;所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22=。
对第三,第四……主成分同样可证。
由证明过程可见:i i Y Var λ=)(。
它称为第i 个主成分的方差贡献,表示第i 个主成分变化大小,从而反映第i 个主成分提供的信息的大小。
例5.2 设)',,(321X X X X =,且⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑=210131011)(X Var则1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]2λ=1.6527,'2c =[0.449099,-0.293128,0.84403] 3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ;第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33==0.844031X +0.4490992X -0.2931283X 。
它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;467911.0)(33==λY Var 。
定义5.3 ∑ji λλ/称为主成分i y 的方差贡献率;∑∑=j i ki λλ/1称为前k 个主成分的累计方差贡献率;i y 与X 第k 个分量的相关系数),(k i x y ρ称为因子负荷量。
当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。
通常取q,使前q 个主成分的累计方差贡献率达到70%-80%,然后只考虑前q 个主分量,用它们解释随机向量X 的特性,其余主成分认为是观测误差等随机因素造成的。
在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。
为了避免量纲对主成分的影响。
常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。
将)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。
容易证明定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y jj =。
因此,标准化后的主成分称为由相关阵决定的主成分。
直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。
同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。
这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求*)'(X c D ==c F F c 2/12/1'--∑最大,其中⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=)(0...)(0)(21p X D X D X D F 。
例 5.3 (协差阵和相关阵决定的主成分不同)设随机变量)',(21X X X =;其协方差阵是⎥⎦⎤⎢⎣⎡=∑100221,特征值和特征向量是)'9998.0,0202.0(,04.10011==c λ,)'0202.0,9998.0(,9596.022-==c λ。
因而由协方差阵决定的主成分是:2119998.00202.0X X Y +=,2120202.09998.0Y Y Y -=。
但随机变量X 标准化后得到)'1.01.0,(*)'*,(*221121μμ--==X X X X X ;其中2211,μμ==EX EX 。
X*的协差阵即X 的相关阵是⎥⎦⎤⎢⎣⎡=12.02.01ρ,其特征值和特征向量是 )'7071.0,7071.0(*,2000.1*11==c λ,)'7071.0,7071.0(*,8000.0*22-==c λ从而由相关阵决定的主成分是:)(07071.0)(7071.0*7071.0*7071.0*2211211μμ-+-=+=X X X X Y )(07071.0)(7071.0*7071.0*7071.0*2211212μμ---=-=X X X X Y 。
由于主成分由方差决定,可以略去常数,因而由相关阵得到的主成分可写为:21107071.07071.0*X X Y += 21207071.07071.0*X X Y -=,可见由协方差阵与相关阵决定的主成分不同。
5.2 样本主成分及其计算5.2.1 样本主成分实际问题中随机向量的协差阵、相关阵都是未知的,只能得到样品)()2()1(,...,n X X X 。
这时总用样本协差阵与样本相关阵代替协差阵、相关阵求主成分。
定义5.4 样本协差阵与样本相关阵的特征向量,计算主成分。
所得的主成分称为样本主成分。
这样求主成分是有道理的:若总体),(~∑μN X ,∑的特征值和正交单位特征向量是j λ和j c ;∧∑是∑的极大似然估计,即)')((1)(1)(-=-∧--=∑∑X X X X n i n i i 。
∧∑的特征值为p τττ≥≥...21,j τ相应正交单位特征向量为j d ,则可证定理5.3 若X 服从正态分布,则j τ是j λ的极大似然估计;j d 是j c 的极大似然估计。
因此,若X 服从正态分布,应当用第j 个样本主成分X d j '作为总体主成分j Y 的估计值。
从样本协差阵或样本相关阵出发,做主成分分析,所得样本主成分通常简称为主成分。
通常取)')((11R )(1)(-=----=∑X X X X n i n i i 为样本协差阵(∑的无偏估计),由∧∑或R 算出的样本相关阵是相同的,所产生(相关差阵决定)的主成分当然相同。
而R 与∧∑有相同的特征向量,R 的特征值是∧∑特征值的n/(n-1)倍。
因而由R 与∧∑所产生的(协方差阵决定的)主成分相同。
若X 不一定服从正态分布,这时仍可由样本协差阵R 或相关阵ρ出发,计算主成分。