统计分析与方法-第八章 主成分与因子分析
- 格式:ppt
- 大小:1.75 MB
- 文档页数:55
主成分分析与因子分析法主成分分析(PCA)是一种无监督的降维技术,通过将原始数据投影到新的正交坐标系上,使得投影后的数据具有最大的方差。
具体而言,PCA根据数据的协方差矩阵或相关矩阵生成一组称为主成分的新变量,其中每个主成分都是原始数据的线性组合。
这些主成分按照方差递减的顺序排列,因此前几个主成分能够解释原始数据中大部分的方差。
通过选择保留的主成分数量,可以将数据集的维度降低到较低的维度,从而更容易进行进一步的分析和可视化。
PCA的主要应用有:数据预处理(如去除冗余信息和噪声)、特征提取、数据可视化和模式识别等。
在特征提取中,选择前k个主成分可以将原始数据变换到一个k维的子空间中,实现数据降维的目的。
此外,PCA还可以通过计算原始数据与主成分之间的相关性,识别出数据中的关键特征。
因子分析法(Factor Analysis)是一种用于探索多个观测变量之间潜在因子(Latent Factor)的关系的统计方法。
潜在因子是无法直接观测到的,但是可以通过多个相关变量的共同变异性来间接测量。
因子分析的目标是找到最小数目的潜在因子,以解释原始数据中的共同变化。
与PCA不同,因子分析法假设观测变量与潜在因子之间存在线性关系,并且观测变量之间的相关性可以被这些潜在因子所解释。
通过因子载荷矩阵,我们可以了解每个观测变量与每个潜在因子之间的相关性大小。
而通过解释因子的方差贡献率,我们可以了解每个因子对数据变异性的解释程度。
因子分析方法还可以用于探索主要的潜在因素,并构建潜在因子模型,以便进行进一步分析和预测。
因子分析的主要应用有:确认性因子分析(Confirmatory Factor Analysis,CFA)用于检验理论模型的拟合度;在心理学和教育领域中,用于构建潜在因子模型并验证心理学量表的可信度和效度;在市场研究中,用于构建品牌形象的因子模型,分析消费者对不同品牌特征的感知。
总的来说,主成分分析和因子分析法都是多变量分析方法,用于探索和减少数据集的维度。
多元分析公式主成分分析因子分析的计算方法多元分析公式——主成分分析和因子分析的计算方法多元分析是一种统计分析方法,用于研究多个变量之间的关系和相互作用。
在多元分析中,一种常见的计算方法是主成分分析和因子分析。
本文将介绍这两种方法的计算公式和步骤,帮助读者了解并掌握它们的应用。
一、主成分分析主成分分析是一种通过线性变换将多个相关变量转换为少数几个无关变量(主成分)的方法。
它可以帮助我们减少数据集的维度,提取主要特征,并发现变量之间的模式。
下面是主成分分析的计算方法:1. 样本协方差矩阵的计算首先,我们需要计算原始变量之间的协方差矩阵。
协方差矩阵的元素是原始变量之间的协方差值,可以通过以下公式计算:Cov(X,Y)=Σ[(X_i-μ_X)(Y_i-μ_Y)]/n其中,X和Y分别表示两个原始变量,X_i和Y_i表示样本中的具体观测值,μ_X和μ_Y分别表示X和Y的样本均值,n是样本数量。
2. 特征值和特征向量的计算在计算样本协方差矩阵后,我们可以计算出它的特征值和特征向量。
特征值代表每个主成分的解释力度,特征向量则代表每个主成分的方向。
特征值和特征向量可以通过使用数学软件或计算工具来进行计算和获取。
3. 主成分的计算接下来,我们根据每个特征值对应的特征向量,将原始变量进行线性组合,得到主成分。
通常,我们选择特征值较大的几个主成分来解释大部分的方差。
主成分的计算公式如下:PC1=a_11X_1+a_12X_2+...+a_1kX_kPC2=a_21X_1+a_22X_2+...+a_2kX_k...PCm=a_m1X_1+a_m2X_2+...+a_mkX_k其中,PC1到PCm分别表示主成分,a_ij表示特征向量矩阵的元素,X_1到X_k表示原始变量。
二、因子分析因子分析是一种用于确定观测数据背后的更基本的、不可观测的潜在变量(因子)的方法。
它可以帮助我们理解数据背后的结构,并将多个指标归结为更少的几个潜在因子。
第八章 主成分分析与因子分析一、 学习目的与要求主成分分析也称为主分量分析,是由霍特林于1933年首先提出的.主成分分析是利用降维的思想,在尽量少损失信息的前提下将多个指标转化为几个综合指标的应用统计方法.通常把转化生成的几个综合指标称为主成分,其中每个主成分都是原始变量的线性组合,它们不仅能综合反映原有指标的信息,而且使各个主成分之间互不相关,因此使得每个主成分比原始变量具有某些更优越的性能.这样在研究复杂问题时就可以只考虑少数几个主成分而不致于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量间的规律性,同时使问题得以简化,提高分析效率.本章主要讨论主成分分析及因子分析的基本思想和方法.学习本章要密切联系实际,着重理解主成分分析及因子分析的基本思想方法,了解主成分的性质,了解主成分分析和因子分析的求解方法、实现步骤及其异同.二、 内 容 提 要(一)主成分分析1.主成分分析的基本思想日常生活和科学研究中,人们为了更全面、准确地反映出事物的特征及其变化规律,往往需要考虑与其有关的多个指标,这些指标在应用统计中也称为变量.这样就产生了如下的问题:一方面为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性.同时由于各指标均是对同一事物的反映,不可避免的造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律.因此有必要在尽可能少丢失信息的前提下减少指标的个数(降维),即从所研究的多个指标中,求出几个新指标,它们能综合原有指标的信息,用这几个新指标进行分析仍应用统计方法学习指导能达到我们的目的.主成分分析正是研究如何通过原始变量的少数几个线性组合来解释原来变量绝大多数信息的一种统计方法.既然所研究问题涉及各个变量之间存在一定的相关性,就必然存在着起主导作用的共同因素.据此可通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与化简问题的作用,使得在研究复杂问题时更容易抓住主要矛盾.总之,利用主成分分析得到的主成分与原始变量之间有如下基本关系:(1)每一个主成分都是某些原始变量的线性组合. (2)主成分的数目大大少于原始变量的数目. (3)主成分保留了原始变量绝大多数信息. (4)各主成分之间互不相关.通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系及统计规律.2.主成分分析的基本理论设某研究涉及个指标,分别用表示,这个指标构成的随机向量为.设随机向量m m x x x ,,,21"m ),,,(′=x x x X 21m "X 的均值为µ,协方差阵为.Σ对X 进行线性变换,可以形成新的综合变量,用Y 表示,即新的综合变量可以由原始变量线性表示如下:(8-1) ⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=mmm m m m mm mm x l x l x l y x l x l x l y x l x l x l y """""22112222121212121111由于可以任意地对原始变量进行线性变换,由不同的线性变换得到的新的综合变量Y 的统计特性也不尽相同.因此为了取得较好的效果,我们总是希望的方差尽可能的大且各之间不相关,由于X l i i y ′=i y i i i i D Dy l l X l Σ′=′=)(而对任意的常数,有c第八章 主成分分析与因子分析i i i i i c c c c D l l l l X l ΣΣ′=′=′2)(因此对不加限制时,可使任意增大,问题将变得没有意义.我们将线性变换约束在下面的原则下:i l i Dy (1),即 (2); 1=′i i l l 122221=+++im i i l l l "(2)与不相关,(i y j y m j i j i ,,2,1,;"=≠); (3)是的一切满足(1)的线性组合1y m x x x ,,,21"X l ′=y 中方差达最大者;是与不相关的的所有线性组合中方差达最大者;以此类推,是与均不相关的的所有线性组合中方差达最大者;2y 1y m x x x ,,,21"m y 121,,,−m y y y "m x x x ,,,21"基于以上三条原则决定的综合变量分别为原始变量的第一、第二、"、第m 个主成分.其中,各综合变量在总方差中占的比重依次递减.在实际应用中通常只挑选前几个方差较大的主成分,从而达到简化系统结构、抓住问题实质的目的.m y y y ,,,21"3.主成分分析的几何意义我们以两个指标为例说明主成分的直观意义.设有个样品,每个样品有两个指标,,其平面n 1x x 2数据散点图如图8-1所示,显然两指标存在相关关系.这n 个样品无论沿轴方向还是沿1x 2x 轴方向均有较大的分散性, 其分散程度可分别用变量的 1x 方差和的方差定量的表示,2x 显然,若只考虑和中的任 1x 2x 何一个,原始数据中的信息均会有较大的损失.我们的目的是考虑和的线性组合,使原始样品数据可有新的变量和来刻画.在几何上表示就是将坐标轴按逆时针方向旋转1x 2x 1y 2y θ角度,得到新坐标轴和,坐标旋转公式如下:1y 2y应用统计方法学习指导112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=−+⎩其矩阵形式为:1122cos sin sin cos y x y x θθθθ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥−⎣⎦⎣⎦⎣⎦UX 式中,U 为旋转变换矩阵,由上式可知它是正交的,即满足,1−′=U U ′=U U I 经过这样的旋转之后,n 个样品点在轴上的分散程度最大,变量代表了原始数据绝大部分信息,这样,即使不考虑变量也无损大局.因此,经过上述旋转变换就可以把原始数据的信息集中到轴上,对数据中包含的信息起到了浓缩的作用.进行主成分分析的目的就是找出旋转矩阵U ,进而求的新的综合指标,即可依据实际问题的具体情况选择主成分.1y 1y 2y 1y 4.主成分及其性质设为维随机向量,则),,,(21′=m x x x "X m X 的第1,2,…,主成分定义为m X l i i y ′=,1=′i i l l (m i ,,2,1"=), 它们满足(1)第一主成分是一切形如1y X l ′=y ,1=′l l 使的方差达极大者; y (2)第二主成分是一切形如2y X l ′=y ,1=′l l 且与不相关使的方差达极大者;1y y (3)第i 主成分是一切形如)(m i y i ≤X l ′=y ,1=′l l 且与不相关使的方差达极大者;121,,,−i y y y "y 由协方差矩阵求解主成分:设),,,(21′=m x x x "X 为m 维随机向量,协方差阵为,Σ的m 个特征值为Σ021≥≥≥≥m λλλ",相应的标准正交化特征向量为,则m l l l ,,",21X 的第i 主成分X l i ′=i y ,且i λ=i Dy (). m i ,,2,1"=充要条件:设Y 为维随机向量,m Y 的分量依此是m y y y ,,,21"X 的第一、第二、…、第主成分的充分必要条件为m第八章 主成分分析与因子分析(1)X T Y ′=,为正交阵;),,,(21m l l l T "=(2)Y 的协方差矩阵为对角阵),,,(21m diag λλλ"=Λ; (3)m λλλ≥≥≥"21.主成分的目的是为了减少变量的个数,因此一般不用个主成分,而是用个主成分,在应用中我们自然要考虑k 应取多大.为此,我们引入累计贡献率.m m k <累计贡献率:称为主成分的贡献率,为主成分的累计贡献率.∑=mj j i 1/λλi y ∑∑==mj j ki i 11/λλk y y y ,,,21"通常取使累计贡献率达70%~80%以上.累计贡献率表达了个主成分提取原来指标的多少信息,这需要用到下面的概念.k k m x x x ,,,21"因子负荷量:称jkj k j k Dx Dy x y x y ),(Cov ),(=ρ为因子负荷量;而称为主成分对原变量的贡献率.∑==ki j i j x y 12),(ρνk y y y ,,,21"j x 主成分具有如下性质:(1),其中∑∑===mi ii mi i 11σλm m ij ×=)(σΣ .(2)jj jk k j k t x y σλρ/),(=,其m m ×中ij t =)(T 阵.(3) .(4).(5)2=∑为充要条件中的正交jj jk ki i j t σλν/21∑==∑==mi k i k ii x y 12),(λρσ1),(1=mx y ρ.指出的是:为了消除不同量纲可能带来的影响,通常将变量标准化. k i k 需要令iii Dx Ex x x −=* ),,2,1(m i "=,应用统计方法学习指导这时的协方差阵就是),,,(**2*1*′=m x x x "X X 的相关阵,由相关阵出发去求主成分.R R 5.样本主成分上面讨论的主成分是在Σ(或R )已知的情况下,但在实际问题中(或)往往是未知的,这就需要用样本去估计.ΣR 设总体的组观察值为,.令),,,(21′=m x x x "X N ),,,(21′=im i i i x x x "X ),,2,1(N i "= ∑=−−−=Nl j lj i li ij x x x x N 1))((11σ, (8-2)jjii ij ij r σσσ=, (8-3)其中∑==Nl li i x Nx 11.则有样本协方差阵 m m ij ×=)(σS , (8-4) 样本相关阵 , (8-5) m m ij r ×=)(R 它们分别为总体协方差阵和总体相关阵的估计.有(或S R )出发求得的个标准正交化的特征向量,则S m m l l l ,,,21"X l i ′=i y ),,2,1(m i "=,称为个样本主成分.将m X 的观察值代入,可得样本主成分数据j ji y X l i ′=),,2,1;,,2,1(m i N j ""==.(二)因子分析在科学研究中,往往需要从多个角度对反映事物现象进行观测,也就设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律.多变量大样本虽然会为我们的科学研究提供丰富的信息,但确增加了数据采集和处理的难度.更重要的是在大多数情况下,许多变量之间存在一定的相关关系,从而增加了问题分析的复杂性.因子分析就是将大量的彼此可能存在相第八章 主成分分析与因子分析关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法.因子分析最初是从心理学和教育学发展起来的,它也是多元统计分析中数据降维的一种.1. 因子分析模型设X 为维向量,其均值为m µ,协方差阵为Σ.如果X 可以表示为U Λf X ++=µ, (8-6) 其中()ij m k λ×=Λ为常数矩阵,为维向量,可以是随机的,也可以是非随机的,U 为维向量;则称f k m X 有k 个因子的模型,称为公共因子,U 称为特殊因子,称为因子载荷矩阵. f Λ 当为随机向量时,通常假定 f 0=f E ,k I f =)(Cov ,,, (8-7)0=U E ψU ==ˆ),,()(Cov 221m diag ψψ" ,0),(Cov =U f 满足(8-9),(8-10)的因子模型称为正交因子模型,此时的分量是相互正交的.f 由上述假设,可得))(()(Cov ′−−==µµX X X ΣE )()(′++=U Λf U Λf EΛf f Λ′′=E =′+U U E ΛΛ′ψ+, (8-8) 上式等价于212i kj ij ij ψλσ+=∑= , (8-9) 22i i h ψ+=),,2,1(m i "=式中,∑==kj ij i h 122λ应用统计方法学习指导它反应了公共因子对的影响,称为共性方差.i x 需要指出的是:对于一个给定的协方差阵Σ和均值向量µ,如果可分解为(8-8)式,那么即可得到因子模型(8-6).因子分析的目的就是由样本出发给出和ΣΣµ的估计,然后确定分解式(8-8),并给公共因子以实际背景解释,最后得到因子模型.2.建立因子模型——主因子法因为ΛΛψ′=−Σ为非负定阵,秩为,故存在一个正交矩阵,使得 k P ΦΣ==−′ˆ)0,,0,,,,()(21""k diag ϕϕϕP ψP ,且),,2,1(0k i i "=>ϕ.设为的前k 列,1P P ),,,(211k diag ϕϕϕ"=Φ,,则有),,,(2/12/122/112/11k diag ϕϕϕ"=Φ ,)(2/1112/111′=′=−ΦΦΦΣP P P P ψ故为一个解.如果我们能给出ψ的一个合适的估计,则我们可用的前个标准正交化的特征向量来得到的一个估计,这种估计称为主因子法.2/111Φ=P Λ1ˆψ1ˆˆψ−Σk Λ2/111ˆˆˆΦ=P Λ设为来自总体N X X X ,,,21"X 的长度为N 的样本.µ、的估计分别采用Σ ∑===Ni i N11ˆX X µ, (8-10)()(11ˆ1′−−−=∑=X X X X i Ni i N Σ, (8-11) 估计ψ的方法很多,常用的方法如下:, (8-12))ˆ,,ˆ(ˆ221m diag ψψ"=ψ其中, , (8-16)ii i σψ/1ˆ2=m m ij ×−=)(ˆ1σΣ 主因子法的关键是的选择.尽管k ψ−Σ的特征值都是非负的,但的ψˆˆ−Σ第八章 主成分分析与因子分析特征值有可能是负的.这时选择满足:k (1)使k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"比较接近,这里m ϕϕϕˆˆˆ21≥≥≥"为的特征值; ψˆˆ−Σ (2)不超过正特征值k j ϕˆ的个数. 主因子法的具体步骤如下:(1)计算Σ的估计、的初始估计,公式有(8-11)、(8-12)给出;Σˆψψˆ (2)求的个特征值ψˆˆ−Σm m ϕϕϕˆˆˆ21≥≥≥"及相应的为的标准正交化的特征向量;选择使ψˆˆ−Σm 21l ,,l ,l "k k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"很接近,同时不超过正特征值k j ϕˆ的个数,令 , ,)(ˆk l ,,l ,l P 21"=1)ˆ,,ˆ,ˆ(ˆ2/12/122/112/11k diag ϕϕϕ"=Φ则的初始估计为; Λ2/111ˆˆˆΦ=P Λ (3)令, )ˆˆˆ(ˆΛΛ′−=Σdiag ψ要求ψˆ的元素非负(负值取为零);以ψˆ代替(2)的ψˆ,重复步骤(2)的计算,直到、ΛˆΦˆ稳定为止. 由于,所以由(8-13)估计等价于估计共性方差:22i i ii h ψσ+=2i ψ2i h 22ˆˆˆi ii i h ψσ−=iiii σσ1ˆ−=. (48-1) 在实际问题中,有时需要由相关阵出发讨论,这时只要将代替作上述分析即可.共性方差常用下面的估计:R R Σ ijij i r h ≠=max ˆ2. (8-15) 此时. (8-16) 22ˆ1ˆii h −=ψ应用统计方法学习指导三、 问 题 与 思 考1.主成分分析的基本思想是什么?如何选择主成分?2.什么是主因子法?四、 例 题 析 解例8-1设),,(321′=x x x X 的协方差阵为,试求: ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−=Σ220242022 (1)第一、二主成分贡献率和累计贡献率,并计算的第一、二主成分.21,y y )1,2,1(′=X (2)第一、二主成分对原变量的因子负荷量和贡献率. 21,y y 2x 解: (1)求特征值,由0)6)(2(2224222=−−=−−−−−−−λλλλλλ解得三个特征值分别为61=λ,22=λ,03=λ.(2) 求特征向量,由 022242022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξλλλi ii将61=λ代入上式得 0420222024=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξ解得1=ξ, 2−=η,1=ζ,即得相应的标准化特征向量为⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−++=4082.08165.04082.01216112114111l 同理解得22=λ相应的特征向量(标准化)为第八章 主成分分析与因子分析⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−=7071.007071.0101212l 得第一主成分的贡献率为%75)026/(6=++ 第二主成分的贡献率为%25)026/(2=++ )1,2,1(′=X 的第一、二主成分分别为()8166.01214082.0,8165.0,4082.011−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y()01217071.0,000.0,7071.022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y (2)由jj jk k j k t x y σλρ/),(=∑==ki j i j x y 12),(ρν得第一、二主成分对原变量的因子负荷量和贡献率为:21,y y 2x 141626/),(2221121−=×−×==σλρt x y0/),(2222222==σλρt x y ,1),(2122==∑=i j i x y ρν五、自 测 练 习1.设的协方差阵为),,(321′=x x x X ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Σ14/14/14/114/14/14/11应用统计方法学习指导(1)试讨论主成分对原变量的贡献率和累计贡献率,并计算的第一、二主成分;321,,y y y )3,2,1(′=X (2))3,1,21(′−==EX µ,试利用主因子法建立因子模型.2. 下表中是10名男中学生的身高(1x )、胸围(2x )、体重(3x )、的数据,试进行主成分分析.身高(1x ) 胸围(2x )体重(3x )149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.769.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.038.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.53.举一个应用因子分析方法的实例.。