(完整版)方法:因子分析法
- 格式:doc
- 大小:75.19 KB
- 文档页数:5
因子分析法因子分析法是一种基于统计学的方法,用于探索数据中潜在的隐藏结构,以确定变量之间的相关关系。
它在社会科学研究中被广泛应用,用于探究研究对象的潜在变量结构。
因子分析法可以通过把原始变量组合成新的具有含义的变量,来降低数据中的冗余信息,有助于研究者全面理解研究对象特征,以及作出正确的判断和决策,从而更好地为解决社会实际问题服务,有着重要的学术意义与社会意义。
一、因子分析法的历史溯源因子分析法最早起源于美国社会心理学家凯尔(Charles Spearman),在20世纪早期,他研究生物化学的统计学,用于检验的普遍水平尺度和特定水平尺度的可能性,他发现,当把一个变量与另一个变量之间的关系抽象化时,它会隐藏在变量的值中,于是形成了一种新的统计手段,即因子分析法。
之后,此方法被广泛应用于科学研究及其他领域,以确定变量之间的相互联系,并识别出潜在结构、趋势及关联关系。
二、因子分析法的基本原理因子分析法基于把多个变量按变量特征和变量之间的相互关系组合在一起,把多个变量转换成少量几个变量,这些变量也称为因子。
它们是导致原始变量所反映出的潜在结构的原因,可能是变量内在的差异,也可能是变量之间的关系。
因子分析法在实际应用中,最重要的是理解变量之间的关系,而不仅仅是观察原始变量之间的差异,因此,它可以在研究中更有效地发现因素,有助于更精确地描述研究对象。
三、因子分析法的主要方法因子分析法有诸多方法,最基本的是相关分析,但诸如因子模式分解、因子结构分析、多元统计分析等,也是开展因子分析的有力工具,可以辅助分析师更全面地探究变量之间的关系。
因子模式分解(FMA)是因子分析法的一种,它可以让分析师发现一组变量中潜在的结构和模式,同时考虑变量之间的不同关系,以揭示潜在变量结构。
当需要组合多组变量时,可以通过多元统计分析来检验两个或多个因子之间的差异及其关系,以便发现数据关系,检验是否有潜在的结构。
四、因子分析法的应用领域因子分析法在社会科学研究中有着广泛的应用,它可以将原始变量组合成新的有含义的变量,以发现数据之间的隐含关系,并理解一个研究事件的潜在结构。
1.因子分析法基本原理在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。
然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。
因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
这样我们就可以对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。
这些综合指标就称为因子或公共因子。
因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
这样,就能相对容易地以较少的几个因子反映原资料的大部分信息,从而达到浓缩数据,以小见大,抓住问题本质和核心的目的。
因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。
因子分析法的数学表示为矩阵:B AF X +=,即:⎪⎪⎪⎩⎪⎪⎪⎨⎧++++=++++=++++=++++=pk pk p p p p k k k k k k f f f f x f f f f x f f f f x f f f f x βααααβααααβααααβαααα 332211333332321313223232221212113132121111 (k ≤p)………………(1式) 模型中,向量X ()p x x x x ,,,,321 是可观测随机向量,即原始观测变量。
F ()k f f f f ,,,,321 是X ()p x x x x ,,,,321 的公共因子,即各个原观测变量的表达式中共同出现的因子,是相互独立的不可观测的理论变量。
方法因子分析法因子分析法是一种统计方法,用于找出背后隐藏的因素,并将观测到的变量与这些潜在因素进行关联。
它的主要原理是通过观察多个相关变量之间的共同性,推断出潜在的共同因素。
它可以帮助研究者减少变量的数量,简化数据分析过程,并识别出变量之间的关系。
在执行因子分析之前,首先需要确定几个重要的因素。
这可以通过以下步骤来完成:1.收集数据:收集你感兴趣的变量的测量数据。
这些变量应该是相关的。
2.计算相关性矩阵:计算变量之间的相关性系数。
这可以通过计算协方差矩阵或相关系数矩阵来完成。
3.确定特征值:通过对相关矩阵进行特征值分解,可以得到特征值和特征向量。
特征值表示了每个因素的方差贡献程度。
4.选择因子数量:通过观察特征值的大小,选择需要保留的因子数量。
一般来说,保留特征值大于1的因子。
5.旋转因子矩阵:利用主成分分析或极大似然估计方法,对因子进行旋转。
旋转可以使因子更具可解释性。
6.确定因子载荷:因子载荷表示每个变量与因子之间的相关性。
一般来说,载荷大于0.3或0.4的变量可以被认为与这个因子有关。
7.解释因子:根据因子的载荷模式和理论背景,解释每个因子表示什么。
因子分析法的一个重要应用是在心理学研究中。
通过对一系列调查问卷的因子分析,可以识别出潜在的心理因素,如情绪、人格特征等。
这对于心理学家研究个体和群体之间的差异,以及预测特定行为和情绪表现的可能性非常有用。
另一个重要应用是在市场调研中。
通过对消费者购买行为和偏好的因子分析,可以识别潜在的购物动机和购买因素。
这对于企业制定市场策略和产品定位非常有价值。
虽然因子分析法可以提供丰富且有用的信息,但也有一些限制。
首先,它依赖于数据的质量和变量之间的相关性。
如果数据不准确或变量之间相关性较低,可能会得到不可靠的结果。
其次,因子分析无法证明因果关系。
它只能提供变量之间的关联性,而不能解释变量之间的因果关系。
最后,选择因子的数量和因子旋转方法都需要主观判断,可能会导致结果的不确定性。
因子分析法详细步骤1.研究设计:-确定研究目的和问题,并确定应用因子分析的数据集。
-确定所需要的变量类型和测量方式。
2.数据收集:-确定数据收集方式和样本大小。
-通过合适的数据收集工具,收集相关变量的数据。
3.数据预处理:-检查数据质量,包括数据完整性、异常值、缺失值等。
-进行数据清洗,如删除无关变量、处理异常值、填充缺失值等。
4.相关性分析:-对每个变量计算相关系数矩阵,用于评估变量之间的相关性。
-检查相关系数矩阵的变量之间的线性关系。
5.适度性检验:- 对数据进行测试适用性检验,可以使用统计方法如列总和测验、Bartlett检验等。
-如果样本适应性检验通过,则可以进行因子分析;否则需要重新考虑数据或模型。
6.因子提取:-使用适当的因子提取方法,如主成分分析、极大似然估计等,将多个变量转化为少数几个无关的因子。
-利用特征值、特征向量、共同度等指标,确定需要提取的因子数量。
7.因子旋转:-在因子提取后,进行因子旋转,以获得更简单的解释和解释性。
- 常用的因子旋转方法包括正交旋转(如Varimax旋转)和斜交旋转(如Oblique旋转)。
8.因子解释:-根据因子载荷、因子结构矩阵等指标,解释每个因子代表的含义和解释率。
-确定每个因子代表的潜在变量特征。
9.因子命名:-为每个因子命名,以便更好地理解和解释。
-命名应根据因子载荷权重和因子在数据集中的重要性进行。
10.因子得分:-使用因子分析结果,计算每个个体在各个因子上的得分。
-这可以帮助理解每个个体在不同潜在变量特征上的表现。
11.结果解释:-基于因子载荷、因子得分、因子解释,解释结果并得出结论。
-分析因子对原始变量的解释能力和解释率,判断因子分析是否有效。
12.结果验证:-使用因子分析结果进行验证,可基于交叉验证、重复抽样等方法。
-检验因子分析的结果是否稳定和可靠。
13.结果报告:-撰写因子分析报告,包括研究目的、方法描述、结果解释、结论等内容。
因子分析法(自己整理)因子分析法1.因子分析法简介:1)因子分析法的提出“因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。
近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。
2)因子分析的定义因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
3)与主成分分析的联系主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
因子分析法1.因子分析法简介:1)因子分析法的提出“因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。
近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。
2)因子分析的定义因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
3)与主成分分析的联系主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
方法因子分析法因子分析法(Factor Analysis)是一种常用的统计方法,用于揭示多个变量间的内在关系。
其主要目的是降低数据的维度,将众多变量聚合为少数几个共同的潜在因子,以便进行进一步的分析。
一、因子分析的基本概念和原理1.1因子因子是指将多个相关的变量聚合起来,形成一个衡量其中一种潜在因果关系的概念。
它是影响变量之间关系的未知因素。
1.2因子载荷因子载荷是指每个变量与因子之间的相关系数。
通过因子载荷可以判断一些变量和一些因子之间的相关程度,越高表示相关性越强。
1.3共同度共同度是指变量与所有因子的相关性加权平方和,代表了一些变量被所有因子共同解释的程度。
共同度越高,表示变量的解释程度越大。
1.4特殊因子方差特殊因子方差是指没有被公共因子解释的变量方差,表示了变量中独特的部分。
1.5提取因子提取因子是指从原始变量中找出共同影响的因子。
通过计算共同度和特殊因子方差,可以确定提取出来的因子数目。
1.6旋转因子因子旋转是为了使得每个因子只与尽可能少的变量有较高的相关性,方便解释和理解。
常用的因子旋转方法有方差最大化旋转(Varimax Rotation)和最大似然估计旋转(Promax Rotation)。
二、因子分析的步骤2.1数据准备首先需要明确研究目的和所使用的数据。
确保数据的完整性和合理性,并对缺失数据进行处理。
2.2因子提取2.3因子旋转通过因子旋转,使得每个因子只与尽可能少的变量有较高的相关性。
旋转后的因子更易于解释和理解。
2.4因子解释根据因子载荷和共同度,解释每个因子和对应变量的意义。
若一些因子的载荷较高,说明该因子能够很好地解释对应的变量。
2.5结果解释结合领域知识和研究目的,对提取出的因子进行解释。
根据因子载荷和共同度,确定每个因子对应的变量。
三、应用领域因子分析法可以应用于很多领域的研究,如心理学、市场研究和社会科学等。
在心理学中,因子分析用于研究人格、态度和兴趣等;在市场研究中,用于分析消费者偏好和市场细分等;在社会科学中,用于研究社会绩效和城市发展等。
从数学角度来看, 主成分分
R 型和Q 型两种。
R 型因子分析;
Q 型因子分析。
R 型和Q 型因子分析的一些特点,如因子分析中的对应分析
Lij 是原变量在各主成分上的载荷
z1 是x1,x2,⋯,xp 的一切线性组合中方差最大者,z2 是与z1 不相关的x1,x2,⋯
z1,z2,⋯分别称为原变量指标的第一,
于0.3 且未通过检验,则这些原始变量就不太适合进行因子分析。
反映象相关矩阵检验(Anti-image correlation matrix )
i (λ1,λ2,⋯,λp>0)和相应的标准正交的特征向量
Zj 的方差贡献(等于因子载荷矩阵
素的平方和),计算大众因子Zj 的方差贡献率与累积贡献率。
a
21 a ... a
a
21 a ... a
0,要么接近于1。
从而使原有因因子旋转的目的是使因子负荷两极分化,要么接近于
子变量更具有可解释性。
5.4 计算因子变量得分。
因子分析基础理论知识1 概念因子分析〔Factor analysis 〕:就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析〔Principal component analysis 〕:是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样到达了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析〔PCA 〕和因子分析〔FA 〕是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点〔1〕因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
〔2〕因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
〔3〕因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
〔4〕因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丧失最少的原则下,对高维变量空间进行降维处理〔即通过因子分析或主成分分析〕。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211当p 较大时,在p 维空间中考察问题比较麻烦。
1.因子分析法基本原理在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。
然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。
因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
这样我们就可以对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。
这些综合指标就称为因子或公共因子。
因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
这样,就能相对容易地以较少的几个因子反映原资料的大部分信息,从而达到浓缩数据,以小见大,抓住问题本质和核心的目的。
因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。
因子分析法的数学表示为矩阵:B AF X +=,即:⎪⎪⎪⎩⎪⎪⎪⎨⎧++++=++++=++++=++++=pk pk p p p p k k k k k k f f f f x f f f f x f f f f x f f f f x βααααβααααβααααβαααα 332211333332321313223232221212113132121111 (k ≤p)………………(1式) 模型中,向量X ()p x x x x ,,,,321 是可观测随机向量,即原始观测变量。
F ()k f f f f ,,,,321 是X ()p x x x x ,,,,321 的公共因子,即各个原观测变量的表达式中共同出现的因子,是相互独立的不可观测的理论变量。
因子分析基础理论知识1 概念因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211当p 较大时,在p 维空间中考察问题比较麻烦。
因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。
例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。
虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。
虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。
变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。
因子分析基础理论知识1 概念因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211当p 较大时,在p 维空间中考察问题比较麻烦。
这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。
线性组合:记x1,x2,…,xp 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为:Lij 是原变量在各主成分上的载荷无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。
zi 与zj 相互无关;z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。
则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。
Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。
主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。
从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。
5分析步骤5.1 确定待分析的原有若干变量是否适合进行因子分析(第一步)因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。
其潜在的要求:原有变量之间要具有比较强的相关性。
因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。
如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。
⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为0,方差为1)。
SPSS 在因子分析中还提供了几种判定是否适合因子分析的检验方法。
主要有以下3种: 巴特利特球形检验(Bartlett Test of Sphericity )反映象相关矩阵检验(Anti-image correlation matrix ) KMO (Kaiser-Meyer-Olkin )检验 (1)巴特利特球形检验该检验以变量的相关系数矩阵作为出发点,它的零假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。
巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。
如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。
(2)反映象相关矩阵检验该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映象相关矩阵。
偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。
(3)KMO (Kaiser-Meyer-Olkin )检验该检验的统计量用于比较变量之间的简单相关和偏相关系数。
KMO 值介于0-1,越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。
其中,Kaiser 给出一个KMO 检验标准:KMO>0.9,非常适合;0.8<KMO<0.9,适合;0.7<KMO<0.8,一般;0.6<KMO<0.7,不太适合;KMO<0.5,不适合。
5.2 构造因子变量因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
前者应用最为广泛。
主成分分析法(Principal component analysis ):该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi (主⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R212222111211成分)。
求相关系数矩阵的特征根λi (λ1,λ2,…,λp>0)和相应的标准正交的特征向量li ;根据相关系数矩阵的特征根,即公共因子Zj 的方差贡献(等于因子载荷矩阵L 中第j 列各元素的平方和),计算公共因子Zj 的方差贡献率与累积贡献率。
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。
新坐标第一轴与数据变化最大方向对应。
通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。
公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。
2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m (m ≤p )个主成分。
也有学者认为累积方差贡献率应在80%以上。
5.3 因子变量的命名解释因子变量的命名解释是因子分析的另一个核心问题。
经过主成分分析得到的公共因子Z1,Z2,…,Zm 是对原有变量的综合。
在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。
利用因子旋转方法能使因子变量更具有可解释性。
计算主成分载荷,构建载荷矩阵A 。
载荷矩阵A 中某一行表示原有变量 Xi 与公共因子的相关关系。
载荷矩阵A 中某一列表示某一个公共因子能够解释的原有变量 Xi 的信息量。
有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。
因子旋转的主要方法:正交旋转、斜交旋转。
⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p p p z a z a z a x z a z a z a x z a z a z a x 22112222121212121111⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111正交旋转和斜交旋转是因子旋转的两类方法。
前者由于保持了坐标轴的正交性,因此使用最多。
正交旋转的方法很多,其中以方差最大化法最为常用。
方差最大正交旋转(varimax orthogonal rotation )——基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。
斜交旋转(oblique rotation )——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。
各因子间不再相互独立,而是彼此相关。
各因子对各变量的贡献的总和也发生了改变。
因子旋转的目的是使因子负荷两极分化,要么接近于0,要么接近于1。
从而使原有因子变量更具有可解释性。
5.4 计算因子变量得分因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。
估计因子得分的方法主要有:回归法、Bartlette 法等。
计算因子得分应首先将因子变量表示为原始变量的线性组合。
即:回归法得分是由贝叶斯思想导出的,得到的因子得分是有偏的,但计算结果误差较小。
贝叶斯判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
Bartlett 法:Bartlett 因子得分是极大似然估计,得到的因子得分是无偏的,但计算结果误差较大。
5.5 结果的分析解释此部分详细见操作演示⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=pmp m m m pp pp x l x l x l z x l x l x l z x l x l x l z 22112222121212121111。