第8章-主成分分析与因子分析-1
- 格式:ppt
- 大小:1.61 MB
- 文档页数:77
主成分分析和因子分析的区别通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。
以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。
如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。
通过因子分析得来的新变量是对每一个原始变量进行内部剖析。
打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。
正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。
所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。
它的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。
也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比一个高维空间容易得多。
英国统计学家斯格特(M.Scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。
而通过主成分分析发现,只需5个新的综合变量(它们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到5维。
可以想象,在5维空间中对系统进行任何分析,都比在57维中更加快捷、有效。
另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。
他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F (是时间t 的线性项)。
更有意思的是,这三个变量其实都是可以直接测量的。
二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。
这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。
基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
第八章 主成分分析与因子分析一、 学习目的与要求主成分分析也称为主分量分析,是由霍特林于1933年首先提出的.主成分分析是利用降维的思想,在尽量少损失信息的前提下将多个指标转化为几个综合指标的应用统计方法.通常把转化生成的几个综合指标称为主成分,其中每个主成分都是原始变量的线性组合,它们不仅能综合反映原有指标的信息,而且使各个主成分之间互不相关,因此使得每个主成分比原始变量具有某些更优越的性能.这样在研究复杂问题时就可以只考虑少数几个主成分而不致于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量间的规律性,同时使问题得以简化,提高分析效率.本章主要讨论主成分分析及因子分析的基本思想和方法.学习本章要密切联系实际,着重理解主成分分析及因子分析的基本思想方法,了解主成分的性质,了解主成分分析和因子分析的求解方法、实现步骤及其异同.二、 内 容 提 要(一)主成分分析1.主成分分析的基本思想日常生活和科学研究中,人们为了更全面、准确地反映出事物的特征及其变化规律,往往需要考虑与其有关的多个指标,这些指标在应用统计中也称为变量.这样就产生了如下的问题:一方面为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性.同时由于各指标均是对同一事物的反映,不可避免的造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律.因此有必要在尽可能少丢失信息的前提下减少指标的个数(降维),即从所研究的多个指标中,求出几个新指标,它们能综合原有指标的信息,用这几个新指标进行分析仍应用统计方法学习指导能达到我们的目的.主成分分析正是研究如何通过原始变量的少数几个线性组合来解释原来变量绝大多数信息的一种统计方法.既然所研究问题涉及各个变量之间存在一定的相关性,就必然存在着起主导作用的共同因素.据此可通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与化简问题的作用,使得在研究复杂问题时更容易抓住主要矛盾.总之,利用主成分分析得到的主成分与原始变量之间有如下基本关系:(1)每一个主成分都是某些原始变量的线性组合. (2)主成分的数目大大少于原始变量的数目. (3)主成分保留了原始变量绝大多数信息. (4)各主成分之间互不相关.通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系及统计规律.2.主成分分析的基本理论设某研究涉及个指标,分别用表示,这个指标构成的随机向量为.设随机向量m m x x x ,,,21"m ),,,(′=x x x X 21m "X 的均值为µ,协方差阵为.Σ对X 进行线性变换,可以形成新的综合变量,用Y 表示,即新的综合变量可以由原始变量线性表示如下:(8-1) ⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=mmm m m m mm mm x l x l x l y x l x l x l y x l x l x l y """""22112222121212121111由于可以任意地对原始变量进行线性变换,由不同的线性变换得到的新的综合变量Y 的统计特性也不尽相同.因此为了取得较好的效果,我们总是希望的方差尽可能的大且各之间不相关,由于X l i i y ′=i y i i i i D Dy l l X l Σ′=′=)(而对任意的常数,有c第八章 主成分分析与因子分析i i i i i c c c c D l l l l X l ΣΣ′=′=′2)(因此对不加限制时,可使任意增大,问题将变得没有意义.我们将线性变换约束在下面的原则下:i l i Dy (1),即 (2); 1=′i i l l 122221=+++im i i l l l "(2)与不相关,(i y j y m j i j i ,,2,1,;"=≠); (3)是的一切满足(1)的线性组合1y m x x x ,,,21"X l ′=y 中方差达最大者;是与不相关的的所有线性组合中方差达最大者;以此类推,是与均不相关的的所有线性组合中方差达最大者;2y 1y m x x x ,,,21"m y 121,,,−m y y y "m x x x ,,,21"基于以上三条原则决定的综合变量分别为原始变量的第一、第二、"、第m 个主成分.其中,各综合变量在总方差中占的比重依次递减.在实际应用中通常只挑选前几个方差较大的主成分,从而达到简化系统结构、抓住问题实质的目的.m y y y ,,,21"3.主成分分析的几何意义我们以两个指标为例说明主成分的直观意义.设有个样品,每个样品有两个指标,,其平面n 1x x 2数据散点图如图8-1所示,显然两指标存在相关关系.这n 个样品无论沿轴方向还是沿1x 2x 轴方向均有较大的分散性, 其分散程度可分别用变量的 1x 方差和的方差定量的表示,2x 显然,若只考虑和中的任 1x 2x 何一个,原始数据中的信息均会有较大的损失.我们的目的是考虑和的线性组合,使原始样品数据可有新的变量和来刻画.在几何上表示就是将坐标轴按逆时针方向旋转1x 2x 1y 2y θ角度,得到新坐标轴和,坐标旋转公式如下:1y 2y应用统计方法学习指导112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=−+⎩其矩阵形式为:1122cos sin sin cos y x y x θθθθ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥−⎣⎦⎣⎦⎣⎦UX 式中,U 为旋转变换矩阵,由上式可知它是正交的,即满足,1−′=U U ′=U U I 经过这样的旋转之后,n 个样品点在轴上的分散程度最大,变量代表了原始数据绝大部分信息,这样,即使不考虑变量也无损大局.因此,经过上述旋转变换就可以把原始数据的信息集中到轴上,对数据中包含的信息起到了浓缩的作用.进行主成分分析的目的就是找出旋转矩阵U ,进而求的新的综合指标,即可依据实际问题的具体情况选择主成分.1y 1y 2y 1y 4.主成分及其性质设为维随机向量,则),,,(21′=m x x x "X m X 的第1,2,…,主成分定义为m X l i i y ′=,1=′i i l l (m i ,,2,1"=), 它们满足(1)第一主成分是一切形如1y X l ′=y ,1=′l l 使的方差达极大者; y (2)第二主成分是一切形如2y X l ′=y ,1=′l l 且与不相关使的方差达极大者;1y y (3)第i 主成分是一切形如)(m i y i ≤X l ′=y ,1=′l l 且与不相关使的方差达极大者;121,,,−i y y y "y 由协方差矩阵求解主成分:设),,,(21′=m x x x "X 为m 维随机向量,协方差阵为,Σ的m 个特征值为Σ021≥≥≥≥m λλλ",相应的标准正交化特征向量为,则m l l l ,,",21X 的第i 主成分X l i ′=i y ,且i λ=i Dy (). m i ,,2,1"=充要条件:设Y 为维随机向量,m Y 的分量依此是m y y y ,,,21"X 的第一、第二、…、第主成分的充分必要条件为m第八章 主成分分析与因子分析(1)X T Y ′=,为正交阵;),,,(21m l l l T "=(2)Y 的协方差矩阵为对角阵),,,(21m diag λλλ"=Λ; (3)m λλλ≥≥≥"21.主成分的目的是为了减少变量的个数,因此一般不用个主成分,而是用个主成分,在应用中我们自然要考虑k 应取多大.为此,我们引入累计贡献率.m m k <累计贡献率:称为主成分的贡献率,为主成分的累计贡献率.∑=mj j i 1/λλi y ∑∑==mj j ki i 11/λλk y y y ,,,21"通常取使累计贡献率达70%~80%以上.累计贡献率表达了个主成分提取原来指标的多少信息,这需要用到下面的概念.k k m x x x ,,,21"因子负荷量:称jkj k j k Dx Dy x y x y ),(Cov ),(=ρ为因子负荷量;而称为主成分对原变量的贡献率.∑==ki j i j x y 12),(ρνk y y y ,,,21"j x 主成分具有如下性质:(1),其中∑∑===mi ii mi i 11σλm m ij ×=)(σΣ .(2)jj jk k j k t x y σλρ/),(=,其m m ×中ij t =)(T 阵.(3) .(4).(5)2=∑为充要条件中的正交jj jk ki i j t σλν/21∑==∑==mi k i k ii x y 12),(λρσ1),(1=mx y ρ.指出的是:为了消除不同量纲可能带来的影响,通常将变量标准化. k i k 需要令iii Dx Ex x x −=* ),,2,1(m i "=,应用统计方法学习指导这时的协方差阵就是),,,(**2*1*′=m x x x "X X 的相关阵,由相关阵出发去求主成分.R R 5.样本主成分上面讨论的主成分是在Σ(或R )已知的情况下,但在实际问题中(或)往往是未知的,这就需要用样本去估计.ΣR 设总体的组观察值为,.令),,,(21′=m x x x "X N ),,,(21′=im i i i x x x "X ),,2,1(N i "= ∑=−−−=Nl j lj i li ij x x x x N 1))((11σ, (8-2)jjii ij ij r σσσ=, (8-3)其中∑==Nl li i x Nx 11.则有样本协方差阵 m m ij ×=)(σS , (8-4) 样本相关阵 , (8-5) m m ij r ×=)(R 它们分别为总体协方差阵和总体相关阵的估计.有(或S R )出发求得的个标准正交化的特征向量,则S m m l l l ,,,21"X l i ′=i y ),,2,1(m i "=,称为个样本主成分.将m X 的观察值代入,可得样本主成分数据j ji y X l i ′=),,2,1;,,2,1(m i N j ""==.(二)因子分析在科学研究中,往往需要从多个角度对反映事物现象进行观测,也就设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律.多变量大样本虽然会为我们的科学研究提供丰富的信息,但确增加了数据采集和处理的难度.更重要的是在大多数情况下,许多变量之间存在一定的相关关系,从而增加了问题分析的复杂性.因子分析就是将大量的彼此可能存在相第八章 主成分分析与因子分析关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法.因子分析最初是从心理学和教育学发展起来的,它也是多元统计分析中数据降维的一种.1. 因子分析模型设X 为维向量,其均值为m µ,协方差阵为Σ.如果X 可以表示为U Λf X ++=µ, (8-6) 其中()ij m k λ×=Λ为常数矩阵,为维向量,可以是随机的,也可以是非随机的,U 为维向量;则称f k m X 有k 个因子的模型,称为公共因子,U 称为特殊因子,称为因子载荷矩阵. f Λ 当为随机向量时,通常假定 f 0=f E ,k I f =)(Cov ,,, (8-7)0=U E ψU ==ˆ),,()(Cov 221m diag ψψ" ,0),(Cov =U f 满足(8-9),(8-10)的因子模型称为正交因子模型,此时的分量是相互正交的.f 由上述假设,可得))(()(Cov ′−−==µµX X X ΣE )()(′++=U Λf U Λf EΛf f Λ′′=E =′+U U E ΛΛ′ψ+, (8-8) 上式等价于212i kj ij ij ψλσ+=∑= , (8-9) 22i i h ψ+=),,2,1(m i "=式中,∑==kj ij i h 122λ应用统计方法学习指导它反应了公共因子对的影响,称为共性方差.i x 需要指出的是:对于一个给定的协方差阵Σ和均值向量µ,如果可分解为(8-8)式,那么即可得到因子模型(8-6).因子分析的目的就是由样本出发给出和ΣΣµ的估计,然后确定分解式(8-8),并给公共因子以实际背景解释,最后得到因子模型.2.建立因子模型——主因子法因为ΛΛψ′=−Σ为非负定阵,秩为,故存在一个正交矩阵,使得 k P ΦΣ==−′ˆ)0,,0,,,,()(21""k diag ϕϕϕP ψP ,且),,2,1(0k i i "=>ϕ.设为的前k 列,1P P ),,,(211k diag ϕϕϕ"=Φ,,则有),,,(2/12/122/112/11k diag ϕϕϕ"=Φ ,)(2/1112/111′=′=−ΦΦΦΣP P P P ψ故为一个解.如果我们能给出ψ的一个合适的估计,则我们可用的前个标准正交化的特征向量来得到的一个估计,这种估计称为主因子法.2/111Φ=P Λ1ˆψ1ˆˆψ−Σk Λ2/111ˆˆˆΦ=P Λ设为来自总体N X X X ,,,21"X 的长度为N 的样本.µ、的估计分别采用Σ ∑===Ni i N11ˆX X µ, (8-10)()(11ˆ1′−−−=∑=X X X X i Ni i N Σ, (8-11) 估计ψ的方法很多,常用的方法如下:, (8-12))ˆ,,ˆ(ˆ221m diag ψψ"=ψ其中, , (8-16)ii i σψ/1ˆ2=m m ij ×−=)(ˆ1σΣ 主因子法的关键是的选择.尽管k ψ−Σ的特征值都是非负的,但的ψˆˆ−Σ第八章 主成分分析与因子分析特征值有可能是负的.这时选择满足:k (1)使k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"比较接近,这里m ϕϕϕˆˆˆ21≥≥≥"为的特征值; ψˆˆ−Σ (2)不超过正特征值k j ϕˆ的个数. 主因子法的具体步骤如下:(1)计算Σ的估计、的初始估计,公式有(8-11)、(8-12)给出;Σˆψψˆ (2)求的个特征值ψˆˆ−Σm m ϕϕϕˆˆˆ21≥≥≥"及相应的为的标准正交化的特征向量;选择使ψˆˆ−Σm 21l ,,l ,l "k k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"很接近,同时不超过正特征值k j ϕˆ的个数,令 , ,)(ˆk l ,,l ,l P 21"=1)ˆ,,ˆ,ˆ(ˆ2/12/122/112/11k diag ϕϕϕ"=Φ则的初始估计为; Λ2/111ˆˆˆΦ=P Λ (3)令, )ˆˆˆ(ˆΛΛ′−=Σdiag ψ要求ψˆ的元素非负(负值取为零);以ψˆ代替(2)的ψˆ,重复步骤(2)的计算,直到、ΛˆΦˆ稳定为止. 由于,所以由(8-13)估计等价于估计共性方差:22i i ii h ψσ+=2i ψ2i h 22ˆˆˆi ii i h ψσ−=iiii σσ1ˆ−=. (48-1) 在实际问题中,有时需要由相关阵出发讨论,这时只要将代替作上述分析即可.共性方差常用下面的估计:R R Σ ijij i r h ≠=max ˆ2. (8-15) 此时. (8-16) 22ˆ1ˆii h −=ψ应用统计方法学习指导三、 问 题 与 思 考1.主成分分析的基本思想是什么?如何选择主成分?2.什么是主因子法?四、 例 题 析 解例8-1设),,(321′=x x x X 的协方差阵为,试求: ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−=Σ220242022 (1)第一、二主成分贡献率和累计贡献率,并计算的第一、二主成分.21,y y )1,2,1(′=X (2)第一、二主成分对原变量的因子负荷量和贡献率. 21,y y 2x 解: (1)求特征值,由0)6)(2(2224222=−−=−−−−−−−λλλλλλ解得三个特征值分别为61=λ,22=λ,03=λ.(2) 求特征向量,由 022242022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξλλλi ii将61=λ代入上式得 0420222024=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξ解得1=ξ, 2−=η,1=ζ,即得相应的标准化特征向量为⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−++=4082.08165.04082.01216112114111l 同理解得22=λ相应的特征向量(标准化)为第八章 主成分分析与因子分析⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−=7071.007071.0101212l 得第一主成分的贡献率为%75)026/(6=++ 第二主成分的贡献率为%25)026/(2=++ )1,2,1(′=X 的第一、二主成分分别为()8166.01214082.0,8165.0,4082.011−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y()01217071.0,000.0,7071.022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y (2)由jj jk k j k t x y σλρ/),(=∑==ki j i j x y 12),(ρν得第一、二主成分对原变量的因子负荷量和贡献率为:21,y y 2x 141626/),(2221121−=×−×==σλρt x y0/),(2222222==σλρt x y ,1),(2122==∑=i j i x y ρν五、自 测 练 习1.设的协方差阵为),,(321′=x x x X ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Σ14/14/14/114/14/14/11应用统计方法学习指导(1)试讨论主成分对原变量的贡献率和累计贡献率,并计算的第一、二主成分;321,,y y y )3,2,1(′=X (2))3,1,21(′−==EX µ,试利用主因子法建立因子模型.2. 下表中是10名男中学生的身高(1x )、胸围(2x )、体重(3x )、的数据,试进行主成分分析.身高(1x ) 胸围(2x )体重(3x )149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.769.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.038.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.53.举一个应用因子分析方法的实例.。
一、问题的提出在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。
而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。
多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。
因此为了尽量避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。
而主成分分析和因子分析正是为解因子分相关。
1.2.),3. 主成分的各系数,是唯一确定的、正交的。
不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。
4. 主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。
还有,主成分分析不可以像因子分析那样进行因子旋转处理。
5.综合排名。
主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=∑(各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析的综合得分=∑(各因子得分×各因子所对应的方差贡献率)÷∑各因子的方差贡献率,因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。
因子分析与主成分分析因子分析和主成分分析是统计学中常用的降维技术,它们在数据分析和模式识别等领域中广泛应用。
本文将介绍因子分析和主成分分析的基本概念与原理,并对它们的应用进行探讨。
一、因子分析的概念与原理因子分析是一种用于发掘多个变量之间潜在关联性的方法。
当我们面对大量变量时,往往希望找到其中的共性因素来解释观测数据。
因子分析通过将变量进行降维,将原始变量解释为共同的因子或构念,从而减少信息冗余,提取数据的主要特征。
因子分析的核心思想是假设多个观测变量是由少数几个潜在因子所共同决定的。
这些潜在因子无法直接观测,但可以通过观测变量的线性组合进行间接估计。
通过因子分析,我们可以得到因子载荷矩阵,它描述了每个观测变量与潜在因子之间的关系强度。
二、主成分分析的概念与原理主成分分析是一种常用的无监督学习方法,用于降维和数据压缩。
与因子分析类似,主成分分析也采用线性组合的方式将原始变量映射到一个低维的特征空间。
主成分分析的目标是找到一组新的变量,称为主成分,它们能够最大程度地保留原始数据中的信息。
主成分分析的步骤如下:1. 标准化数据:将原始数据标准化,使得变量的均值为0,方差为1,以消除变量尺度差异的影响。
2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵,用于评估各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4. 选择主成分:根据特征值大小,选择要保留的主成分数量。
5. 计算主成分:将原始数据投影到所选择的主成分上,得到降维后的数据。
三、因子分析与主成分分析的应用1. 数据降维:因子分析和主成分分析可以用于降低数据集的维度,减少冗余信息。
在机器学习和数据挖掘中,高维数据集的处理往往会面临计算复杂度和过拟合等问题,降维技术可以有效解决这些问题。
2. 变量选择:通过因子分析和主成分分析,可以识别出对观测数据具有重要影响的变量。
这对于特征选择和模型建立有重要意义,可以提高模型的解释性和泛化能力。
主成分分析和因子分析有十大区别:1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。
就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)2.线性表示方向不同因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。
3.假设条件不同主成分分析:不需要有假设(assumptions),因子分析:需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
4.求解方法不同求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。
此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况);求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
在实际工作和研究的过程中,为了更加全面系统的反映问题,往往会收集较多的变量,但是这些变量之间也经常会出现较强的相关关系。
为了能够充分有效利用数据,通常希望由较少的新的指标来代替原来较多的旧变量,同时还要求这些新指标尽可能反映原变量的信息。
因此就出现了主成分分析和因子分析,他们能够提取信息,使原有变量降维,从而使问题更加简单直观。
综上,较多变量(相关性较强)→新指标(尽可能反映原信息)→主成分分析、因子分析。
因子分析可以看做是主成分分析的推广和扩展。
1、主成分分析主成分分析是考察多个变量间相关性的多元统计方法,是研究如何通过少数几个主分量来解释多个变量间的内部结构,即从原始变量中导出少数几个主分量,使他们尽可能多的保留原始变量的信息,并且主分量之间彼此互不相关。
主成分的应用目的:数据的压缩、数据的解释。
它常被用来寻找判断某种事物之间或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻揭示事物之间的内在规律。
综上,主成分分析:多个变量(相关性较强)→主分量(尽可能保留原信息,互不相关)→数据压缩和数据解释的目的2、模型入门由上可知我们选择的主成分有两个特点:一是尽可能多的保留信息,二是互不相关。
如何体现特点一:尽可能多的保留原信息,统计学所谓的信息实际往往是指数据的变异,即方差。
因此方差越大,包含的信息越多。
因此我们选择椭圆的长轴作为坐标轴这样子就尽可能保留多的信息,既达到了特点一,又达到了降维的目的。
数学上的操作是将原来的p个指标做线性组合,然后得到新的综合指标,并且将选取的第一个线性组合即第一个综合指标记为F1。
我们希望F1尽可能多的反映原来指标的信息。
最经典的方法就是用F1的方差来表达,即var(F1)越大,则F1包含的信息就越多。
因此在所有的线性组合中所选取的第1个主成分的方差最大。
这时如果第一个主成分不足以完全代表原来p个指标的信息,再选取第2个线性组合,即第2个主成分。