北京大学统计学经典课件第七章——主成分分析和因子分析
- 格式:ppt
- 大小:1.63 MB
- 文档页数:89
主成份分析与因子分析转载自网站/teachers/lidf/docs/statsoft/html/statsoft.html作者:北京大学概率统计系李东风现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。
多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时,有主成份分析、因子分析等方法可以把数据的维数降低,同时又尽量不损失数据中的信息。
I. 主成份分析一、理论介绍主成份分析的目的是从原始的多个变量取若干线性组合,能尽可能多地保留原始变量中的信息。
从原始变量到新变量是一个正交变换(坐标变换)。
设有是一个维随机变量,有二阶矩,记,。
考虑它的线性变换易见如果要用尽可能多地保留原始的的信息,经典的办法是使的方差尽可能大,这需要对线性变换的系数加限制,一般要求它是单位向量,即。
其它的各也希望尽可能多地保留的信息,但前面的已保留的信息就不再保留,即要求,同时对也有的要求,在这样的条件下使最大。
设协方差阵的特征值为,相应的单位特征向量分别为(当特征根有重根时单位特征向量不唯一)。
这时的第个主成分为,,且。
记,,,则为正交阵,,,且,其中为的主对角线元素。
主成份与原始变量的相关系数称为因子负荷量(factor loading),可以证明,,。
为了减少变量的个数,希望前几个就可以代表的大部分信息。
定义为主成份的贡献率,称为主成份的累计贡献率。
一般取使得累计贡献率达到70%-80%以上。
累计贡献率表示个主成份从中提取了多少信息,但没有表达用它来恢复每一个能恢复多少,为此定义个主成份对原始变量的贡献率,为对的复相关系数平方,可以用公式计算(注意时)。
前个主成份在的个线性组合中能对最好地线性逼近。
在上面的主成份计算方法中,方差越大的变量越被优先保留信息,实际中为了消除这种影响经常把变量标准化,即令这时的协方差阵就是的相关阵。