主成分分析与因子分析的主要方法和思想
- 格式:doc
- 大小:28.00 KB
- 文档页数:5
4.因子得分因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。
例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。
这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。
设公共因子F由变量x表示的线性组合为:Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m该式称为因子得分函数,由它来计算每个样品的公共因子得分。
若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。
但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。
估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。
⑴回归估计法F = X b = X (X ¢X)-1A¢ = XR-1A¢(这里R为相关阵,且R = X ¢X )。
⑵Bartlett估计法Bartlett估计因子得分可由最小二乘法或极大似然法导出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X⑶Thomson估计法在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作用,此时R = X ¢X+W,于是有:F = XR-1A¢ = X (X ¢X+W)-1A¢这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢5. 因子分析的步骤因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。
实验课:因子分析实验目的理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。
因子分析一、基础理论知识1 概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
主成分分析与因子分析法主成分分析(PCA)是一种无监督的降维技术,通过将原始数据投影到新的正交坐标系上,使得投影后的数据具有最大的方差。
具体而言,PCA根据数据的协方差矩阵或相关矩阵生成一组称为主成分的新变量,其中每个主成分都是原始数据的线性组合。
这些主成分按照方差递减的顺序排列,因此前几个主成分能够解释原始数据中大部分的方差。
通过选择保留的主成分数量,可以将数据集的维度降低到较低的维度,从而更容易进行进一步的分析和可视化。
PCA的主要应用有:数据预处理(如去除冗余信息和噪声)、特征提取、数据可视化和模式识别等。
在特征提取中,选择前k个主成分可以将原始数据变换到一个k维的子空间中,实现数据降维的目的。
此外,PCA还可以通过计算原始数据与主成分之间的相关性,识别出数据中的关键特征。
因子分析法(Factor Analysis)是一种用于探索多个观测变量之间潜在因子(Latent Factor)的关系的统计方法。
潜在因子是无法直接观测到的,但是可以通过多个相关变量的共同变异性来间接测量。
因子分析的目标是找到最小数目的潜在因子,以解释原始数据中的共同变化。
与PCA不同,因子分析法假设观测变量与潜在因子之间存在线性关系,并且观测变量之间的相关性可以被这些潜在因子所解释。
通过因子载荷矩阵,我们可以了解每个观测变量与每个潜在因子之间的相关性大小。
而通过解释因子的方差贡献率,我们可以了解每个因子对数据变异性的解释程度。
因子分析方法还可以用于探索主要的潜在因素,并构建潜在因子模型,以便进行进一步分析和预测。
因子分析的主要应用有:确认性因子分析(Confirmatory Factor Analysis,CFA)用于检验理论模型的拟合度;在心理学和教育领域中,用于构建潜在因子模型并验证心理学量表的可信度和效度;在市场研究中,用于构建品牌形象的因子模型,分析消费者对不同品牌特征的感知。
总的来说,主成分分析和因子分析法都是多变量分析方法,用于探索和减少数据集的维度。
一主成分分析法的原理主成分分析法是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法这些综合指标通常被称为主成分,主成分相比原始变量而言,具有更多的优越性,即在研究许多复杂问题时不至于丢失太多信息,从而使我们更容易抓住事物的主要矛盾,提高分析效率该方法的核心就是通过主成分分析,选择n个主分量Y1,Y2,…,Yn,其中Yi (i=1,2,,n)为第i个主成分的得分,以主分量Yi 的方差贡献率ai 作为权数,构造综合评价函数:Y=a1Y2+a2Y2+ +anYn,这样当我们把第i个主成分的得分算出来后,便可以很快求出综合得分,并且按照得分的高低来排序同时我们可以根据第i个主成分的得分来衡量某地区或某企业在第i个主成分所代表的经济效益方面的地位二、主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
主成分分析与因⼦分析主成分分析,主成份是原始变量的线性组合,在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。
即“简化变量”,将变量以不同的系数合起来,得到好⼏个复合变量,然后在从中挑⼏个能表⽰整体的复合变量就是主成份,然后计算得分。
因⼦分析,公共因⼦和原始变量的关系是不可逆转的,但是可以通过回归得到。
是将变量拆开,分成公共因⼦和特殊因⼦。
过程是:因⼦载荷计算,因⼦旋转,因⼦得分。
主成份分析主成份分析需要知道两变量之间的相关性,⽣成协⽅差举证和相关新矩阵,对应的⽣成的新向量矩阵Y还有特征值λi,对应是第I个新向量对总体信息的贡献率为λi/(λ1+λ2+...+λn),对应的还有⼀个累积贡献率。
确定主成份的个数的⽅法有:特征值⼤于1(要求原始数据的每⼀个变量⾄少能贡献1各单位的变异)、陡坡检验法(陡坡图中开始平坦的点之前的点的个数)、累积解释变异⽐例法(即(λ1+...+λi)/(λ1+λ2+...+λn)>70%)。
同时也可以知道主成分分析对应的⼏个难点①是使⽤协⽅差矩阵还是相关系数矩阵②如何确定主成份的个数。
当数据中不同变量的度量单位不同并且数值相差较⼤就⽤标准化后的相关系数矩阵,当数值相差不⼤并且指标的权重不⼀样时,考虑⽤协⽅差矩阵。
对于个数的确定就是我们⼀些边界问题是否1左右的也可以囊括进主成份中,是否难以确定开始变平坦的是那个点,是否70%不够。
等⼏个问题。
主成分分析可以⽤两个过程步完成PROC FACTORS 、PROC PRINCOMP。
后者能处理的数据量⼤⼀些,效率⾼⼀些,,前者输出的内容丰富些,还可以做旋转因⼦。
以下是主成分分析过程;proc princomp data=sashelp.cars out=car_component;var mpg_city mpg_highway weight wheelbase length;run;输出结果:先是输出统计结果,再是输出相关性矩阵,这⾥princomp步默认使⽤的是相关系数矩阵,实际应⽤过程中,可以通过cov选项来指定使⽤的矩阵。
1.(10分)数据中心化和标准化在回归分析中的意义是什么? 在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,会给分析带来一定的困难,又由于涉及的数据量很大,就可能会以舍入误差而使得计算结果不理想. 1.中心化处理后可以减少一个未知参数,减少了计算的工作量,对手工计算尤为重要. 2.标准化处理后有利于消除量纲不同和数量级的差异所带来的影响,避免不必要的误差. 2.(10分)在实际问题中运用多元线性回归应注意哪些问题? 在实际问题中,人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,但是拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,R2
等于0.7左右也给回归模型以肯定的态度. 在多元线性回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y与自变量xi以及自变量xi与xj的相关性的数量. 用相关系数R2大小来衡量模型的拟合优度,不能仅由R2值很大来推断模型优劣. 在实际应用回归方程进行控制和预测时,给定的x0值不能偏离样本均值太大,如果太大,用回归方程无论是作因素分析还是经济预测,效果都不会理想. 得到实际问题的经验回归方程后,还不能马上用它去作分析和预测,还需运用统计方法对回归方程进行检验.
3.(15分)主成分分析与因子分析的主要方法和思想是什么?两者有何联系与区别? 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 一、主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。 既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: 1.每一个主成分都是各原始变量的线性组合; 2.主成分的数目大大少于原始变量的数目 3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。
因子分析方法: 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 因子分析的基本思想 因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。 两者的联系 主成分分析和因子分析方法都属于多元统计分析中处理降维的统计方法。在数理统计的基本原理上,两者都是基于多变量的相关系数矩阵,在确保较少信息缺失的前提下(一般小于或等于15%),用少数几个不相关综合变量概括多个变量的信息(多个变量之间存在较强的相关性)。即用少数不相关的综合变量尽可能全面的反映多个原始变量的信息,消除了原始变量的相关性,可信度得到提高,统计结果可以有效地解释现实问题。需要注意的是,两种方法产生的新的变量(因子)不是原始变量筛选后的剩余变量,而是综合所有变量信息后的新变量。其中,在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。在因子分析过程中,新变量则是通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。两种方法下得到的主成分变量与因子变量在数量上显著少于原始变量,起到了降维的作用,也提高了数据有效利用程度.
主成分分析与因子分析的区别
老师的版本 1、因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量(主成分)。 2、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。 3、主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子(specific factor)之间也不相关,公共因子和特殊因子之间也不相关。 4、抽取主因子的方法不仅仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法抽取。 5、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 7、和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。
网上的版本
1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)
2.线性表示方向不同 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。
3.假设条件不同 主成分分析:不需要有假设(assumptions), 因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
4.求解方法不同 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况);
求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 5.主成分和因子的变化不同 主成分分析:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的;
因子分析:因子不是固定的,可以旋转得到不同的因子。 6.因子数量与主成分的数量 主成分分析:主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。
因子分析:因子个数需要分析者指定(SPSS和sas根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;
7.解释重点不同: 主成分分析:重点在于解释个变量的总方差, 因子分析:则把重点放在解释各变量之间的协方差。 8.算法上的不同: 主成分分析:协方差矩阵的对角元素是变量的方差;
因子分析:所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)
9.优点不同: 因子分析:对于因子分析,可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势;其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;
主成分分析: 第一:如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析;
第二:通过计算综合主成分函数得分,对客观经济现象进行科学评价; 第三:它在应用上侧重于信息贡献影响力综合评价。 第四:应用范围广,主成分分析不要求数据来自正态分布总体,其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术,因而凡是涉及多维度问题,都可以应用主成分降维;
10.应用场景不同: