第三章第5节主成分分析
- 格式:ppt
- 大小:730.00 KB
- 文档页数:68
主成分分析类型:一种处理高维数据的方法。
降维思想:在实际问题的研究中,往往会涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
一、总体主成分1.1 定义设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。
记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。
设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩(1) 则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)第 i 个主成分: 一般地,在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的T i i Y l X =称为 X 1,X 2,…,X p 的第 i 个主成分。
1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3)此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即1()pii Var Y =∑而 ()k k Var Y λ=。
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
4,主成分分析法主成分分析(Principal Component Analysis,PCA),是一种统计方法。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。
信息的大小通常用离差平方和或方差来衡量。
②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
4.4主成分分析法的运用叶晓枫,王志良,【2】在介绍主成分分析方法的基本思想及计算方法基础上,对水资源调配评价指标进行了降维计算. 结果显示筛选出的指标对原指标具有较好的代表性,简化了水资源评价问题的难度。
傅湘,纪昌明【3】,针对模糊综合评判法在综合评价中存在的主观随意性问题,提出采用主成分分析法进行区域水资源承载能力综合评价。
对各区域的灌溉率、水资源利用率、水资源开发程度、供水模数、需水模数、人均供水量和生态环境用水率达七个主要因索进行了分析;根据主成分分析法的原理,运用少数几个新的综合指标对原来的七个指标所包含的信息进行最佳综合与简化,研究其在各区域水资源开发利用过程中的不同贡献及综合效应。
周莨棋,徐向阳等【4】,针对传统主成分分析法用于水资源综合评价中存在一些问题,包括指标评价中的“线性”问题、无法体现评价指标主观重要性以及评价范围无法确定。
进行了改进,采用改进的极差正规方法对数据进行规格化,用规格化后的数据加入了主观重要性权进行协方差计算,对协方差特征向量采用正负理想点进行检验。
陈腊娇,冯利华等【5】,将主成分分析方法引入到水资源承载力研究中,并以浙江省为例,在现有资料的基础上,利用主成分分析的方法,定量分析影响水资源承载力变化的最主要的驱动因子。