k
定义 第k个主成分Yk的贡献率为:
p
i
i 1
m
i
前m个主成分Y1,Y2,…,Ym的累计贡献率为:
i 1 p
i
i 1
在实际应用中,通常选取m<p,使前m个累计贡献率达到 一定的比例(80%~90%).这样用前m 个主成分代替原
来的变量X1,X2,…,Xp而不至于损失太多的信息,从而到
达减少变量个数的目的.
(ij ) pp E X E( X ) X E(X )T
设li=(l1i, l2i ,…, lpi )T(i=1,2,…,p)为p个常数向量,考虑如 下线性组合:
Y1 l1T X l11X1 l21X2
lp1X p,
Y2 l2T X l12X1 l22X2
l p 2X p ,
Yp lTp X l1pX1 l2pX2
eiT ei ,Yk ) eiT
i
, ek
i 1, 2, 0,i
, k.
p,
由此可知,求X的各主成分,等价于求∑的各个特征值 及其相应的正交单位化特征向量,按特征值由大到小
所对应的特征向量为组合系数的X1,X2,…,Xp的线性 组合分别为X的第一、第二、甚至第p个主成分,而各 主成分的方差等于相应的特征值.
2.主成分的计算方法
在实际问题中,一般∑(或ρ)是未知的,需要通过样本来
估计.设
S
(sij ) p p
1 n 1
n
( xk
k 1
x )(xk
x )T ,
R
(rij ) pp
sij siis jj
其中
x (x1, x2,
, xp )T ,
xi
1 n