统计分析与方法-第八章 主成分与因子分析
- 格式:ppt
- 大小:1.75 MB
- 文档页数:7
因子分析与主成分分析的基本概念因子分析和主成分分析是常用的多元统计分析方法,用于研究变量之间的关系和数据的结构。
本文将介绍因子分析和主成分分析的基本概念和应用场景。
一、因子分析因子分析是一种多元统计分析方法,用于揭示观测变量背后的潜在因子结构。
通过降维,将一组原始变量拆分为若干个潜在因子,以解释观测变量之间的关系和共享的信息。
1. 基本原理在因子分析中,我们将观测变量表示为潜在因子和误差项的线性组合。
其中,潜在因子是无法直接观测到的,而误差项则代表了无法被潜在因子解释的特殊因素。
该方法基于以下假设:观测变量间的相关性可以通过潜在因子来解释。
2. 应用场景因子分析广泛应用于一些具有观测变量过多、相关性较高的数据集分析中,如社会科学研究、心理学测试、市场调查等。
通过因子分析,我们可以更好地理解变量之间的关系,挖掘变量背后的潜在结构。
二、主成分分析主成分分析是一种降维技术,它通过寻找观测变量间的最大方差方向,将原始变量投影到新的坐标系上。
新坐标系的特征向量称为主成分,通过保留最重要的主成分,我们可以将高维数据转化为低维表示。
1. 基本原理在主成分分析中,我们通过数学方法寻找原始数据的特征向量和特征值。
特征向量表示了数据在新空间中的方向,而特征值则表示了数据在该方向上的方差。
我们选择特征值最大的几个特征向量作为主成分,将原始数据投影到这些主成分上。
2. 应用场景主成分分析广泛应用于数据可视化、维度约减和特征选择等领域。
通过主成分分析,我们可以减少数据的维度,消除冗余信息,提取出最具代表性的特征,从而更方便地进行数据分析和建模。
结语因子分析和主成分分析是常用的多元统计分析方法,它们可以帮助我们揭示数据背后的潜在结构和关系。
通过降维和特征提取,我们可以更好地理解和解释数据,为后续的研究和应用提供支持。
注意事项:由于文章给定的题目是“因子分析与主成分分析的基本概念”,因此本文采用说明文的格式,分别介绍了因子分析和主成分分析的基本原理和应用场景。
主成分分析和因子分析的区别通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。
以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。
如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。
通过因子分析得来的新变量是对每一个原始变量进行内部剖析。
打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。
正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。
所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
一、问题的提出在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。
而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。
多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。
因此为了尽量避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。
而主成分分析和因子分析正是为解因子分相关。
1.2.),3. 主成分的各系数,是唯一确定的、正交的。
不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。
4. 主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。
还有,主成分分析不可以像因子分析那样进行因子旋转处理。
5.综合排名。
主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=∑(各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析的综合得分=∑(各因子得分×各因子所对应的方差贡献率)÷∑各因子的方差贡献率,因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。