第六章 因子分析 (1)
- 格式:docx
- 大小:25.68 KB
- 文档页数:6
第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
因子分析因子分析是一种常用的统计方法,广泛应用于社会科学、经济学、心理学等领域。
它可以帮助研究者找出数据中的主要因素,并将原始变量转化为更少的几个综合指标,从而简化数据分析和解释。
本文将介绍因子分析的基本原理、应用场景以及一些常见的因子分析方法。
一、因子分析的基本原理因子分析基于一种潜在变量模型,假设观察到的一组变量是由少数几个潜在的因子所决定的。
这些潜在因子无法直接观察到,但可以通过观察到的变量来推断。
通过因子分析,我们可以找出这些潜在因子,并将原始变量转化为这些因子的得分。
在因子分析中,我们假设每个潜在因子与一组观察到的变量相关联,这些变量称为因子载荷。
因子载荷可以解释变量之间的协方差结构,反映了变量与潜在因子之间的相关程度。
我们可以通过计算因子载荷矩阵来评估这种关系。
同时,我们还假设观察到的变量之间相互独立,即不存在多重共线性。
多重共线性会使得因子分析的结果不准确,因此在进行因子分析之前,我们需要先进行相关性分析和多重共线性检验。
二、因子分析的应用场景因子分析在许多领域都有广泛的应用。
以下是其中一些常见的应用场景:1.心理学研究:因子分析可以帮助心理学家理解人类行为的潜在因素。
例如,在人格心理学中,我们可以使用因子分析来研究人格特征的结构,并找出彼此相关的因素。
2.市场研究:因子分析可以帮助市场研究人员理解消费者行为的背后因素。
例如,在消费者调查中,我们可以使用因子分析来提取消费者购买决策中的主要影响因素,并根据这些因素进行市场定位和目标群体选择。
3.经济学研究:因子分析可以帮助经济学家理解经济变量之间的关系。
例如,在宏观经济学中,我们可以使用因子分析来提取经济增长、通货膨胀和失业率等变量的主要因素,并分析它们之间的相互作用。
4.社会科学研究:因子分析可以帮助社会科学家理解社会现象的潜在因素。
例如,在教育研究中,我们可以使用因子分析来研究学生学习成绩的主要影响因素,并提供相应的教学策略。
三、常见的因子分析方法在因子分析中,有许多不同的方法可以选择。
因子分析一.因子分析原理因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低。
每组变量代表一个基本结构(即公共因子),并用一个不可观测的综合变量来表示。
对于所研究的某一具体问题,原始变量分解为两部分之和。
一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
从全部计算过程来看作R 型因子分析与作Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,Q 型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定用哪一类型的因子分析因子模型的性质:模型不受变量量纲的影响;因子载荷不是唯一的。
二.因子分析的数学模型设有p 个指标,则因子分析数学模型为:11111221221122221122p p p pp p p pp p X r Y r Y r Y X r Y r Y r Y X r Y r Y r Y=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 其中,12,,,p X X X 是已标准化的可观测的评价指标。
12,,,k F F F 出现在每个指标i X 的表达式中,称为公共因子,公共因子是不可观测的,其含义要根据具体问题来解释。
i ε是各个对应指标i X 所特有的因子,故称为特殊因子,它与公共因子之间彼此独立。
ij r 是指标i X 在公共因子j F 上的系数,称为因子载荷,因子载荷ij r 的统计含义是指标i X 在公共因子j F 上的相关系数,表示i X 与j F 线性相关程度。
用矩阵形式表示为:X AF ε=+其中12(,,,)p X X X X '=,12(,,,)k F F F F '=,12(,,,)p εεεε'=,111212122212m m p p pm r r r r r r A rr r ⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭,A 称为因子载荷矩阵。
其统计含义是:A 中的第i 行元素12,,,i i im r r r 说明了指标i X 依赖于各个公共因子的程度。
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
第五讲因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p维变量:它的均值向量,协方差矩阵V=(ij)pp都存在。
第一节正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F1, F2, … , F m(m<p)称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i的特殊因子,记为:i。
于是,我们有:变量X i的信息=公共因子可以表达部分公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:1.2 正交因子模型设总体,均值向量,协方差矩阵。
因子模型有形式:其中m<p,F1,F2,…,F m称为所有变量的公共因子;i称为变量X i的特殊因子。
如果引入以下向量与矩阵:则因子模型的矩阵形式为:对于正交的因子模型,还要进一步要求:z1. 。
即有:公共因子是互相不相关的。
z2. 。
即:特殊因子和公共因子不相关。
1.3 因子载荷矩阵1.矩阵A称为因子载荷矩阵(component matrix),系数a ij称为变量X i在因子F j上的载荷(loading)。
由于特别,如果总体是标准化的,则有Var(X i)=1,从而有:于是:即变量X i在公共因子F j上的载荷a ij就是X i与F j的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的一种方法,由于其估计结果和变量的主成分仅相差一个常数倍,因此就冠以主成分法的名称。
在学到这里的时候,不要和主成分分析混为一谈。
主成分法是SPSS系统默认的方法,在一般情况下,这是比较好的方法。
第6章--因子分析第六章因子分析一、填空题1. 因子分析常用的两种类型为 ____________ 和 ___________ 。
2. 因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现______________ 与____________ 间的相互关系。
3•因子分析就是通过寻找众多变量的______________ 来简化变量中存在的复杂关系的一种方法。
4 •因子分析是把每个原始变量分解成两个部分即____________ 、。
5 •变量共同度是指因子载荷矩阵中__________________________ 。
6 •公共因子方差与特殊因子方差之和为________ 。
7.求解因子载荷矩阵常用的方法有______________________ 和________________ &常用的因子旋转方法有 ____________________ 和__________________ 。
9. Spss中因子分析采用__________________ 命令过程。
10•变量X i的方差由两部分组成,一部分为 ___________ ,另一部分为__________二、判断题1. 在因子分析中,因子载荷阵不是唯一的。
()2. 因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()3. 因子分析和主成分分析的核心思想都是降维。
()4.因子分析有两大类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而Q型因子分析是从样品的相关矩阵出发。
()5. 特殊因子与公共因子之间是相互独立的。
()6. 变量共同度是因子载荷矩阵列元素的平方和。
()7. 公共因子的方差贡献是衡量公共因子相对重要性指标。
()8. 对因子载荷阵进行旋转的目的是使结构简化。
()三、简答题1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?2 •因子模型的矩阵形式UF ,其中:F F1, ,F m 1, , P U U ij pm请解释式中F、、U的统计意义。
第六章 因子分析首先通过主因子分析(factor),得到主成分因子:Factor | Eigenvalue Difference Proportion Cumulative -------------+------------------------------------------------------------Factor1 | 4.75929 3.71841 0.6954 0.6954 Factor2 | 1.04088 0.38315 0.1521 0.8475 Factor3 | 0.65773 0.37761 0.0961 0.9436 Factor4 | 0.28012 0.09188 0.0409 0.9845 Factor5 | 0.18825 0.19040 0.0275 1.0120 Factor6 | -0.00216 0.01548 -0.0003 1.0117 Factor7 | -0.01764 0.04472 -0.0026 1.0091 Factor8 | -0.06236 . -0.0091 1.0000 从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成分解释了全部八个变量组合的方差还多。
不重要的第2 到8个主成分在随后的分析中可以放心地省略去。
运行factor 命令后,我们可以接着运行screeplot 命令画出碎石图。
碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。
Variable | Factor1 Factor2 Factor3 Factor4 Factor5 -------------+--------------------------------------------------x1 | 0.9611 0.0193 0.2412 -0.0637 0.0013 x2 | 0.9119 0.3828 -0.1409 0.0380 0.0786 x3 | 0.8626 -0.0724 0.3816 0.0792 -0.2719 x4 | 0.9395 0.3468 -0.0299 -0.0313 0.0137 x5 | 0.7542 -0.0828 -0.2302 0.3307 0.1499E i g e n v a l u e sx6 | -0.3772 0.6987 0.2923 -0.1118 0.1221x7 | -0.6108 0.0367 0.4572 0.3336 0.0883x8 | 0.5416 -0.5217 0.2929 -0.1850 0.2505--------------------------------------------------------------------------------------------Variable | Uniqueness-------------+--------------x1 | 0.0136x2 | -0.0055x3 | 0.0249x4 | -0.0049x5 | 0.2396x6 | 0.2567x7 | 0.2975x8 | 0.2518----------------------------Variable | kmo-------------+---------x1 | 0.7491x2 | 0.5483x3 | 0.4993x4 | 0.5778x5 | 0.8127x6 | 0.2958x7 | 0.5122x8 | 0.4569-------------+---------Overall | 0.5671-----------------------Variable | smc-------------+---------x1 | 0.9726x2 | 0.9965x3 | 0.9662x4 | 0.9972x5 | 0.7447x6 | 0.7280x7 | 0.6925x8 | 0.7463根据kmo and smc,数据反映良好旋转会进一步简化因子结构。
在提取因子之后,键入rotate命令进行旋转。
Factor | Variance Difference Proportion Cumulative -------------+------------------------------------------------------------Factor1 | 3.29837 2.02383 0.4819 0.4819Factor2 | 1.27454 0.18586 0.1862 0.6682Factor3 | 1.08868 0.26654 0.1591 0.8272Factor4 | 0.82213 0.37958 0.1201 0.9473Factor5 | 0.44256 . 0.0647 1.0120 --------------------------------------------------------------------------LR test: independent vs. saturated: chi2(28) = 145.13 Prob>chi2 = 0.0000Rotated factor loadings (pattern matrix) and unique variances----------------------------------------------------------------Variable | Factor1 Factor2 Factor3 Factor4 Factor5 -------------+--------------------------------------------------x1 | 0.70950.5683 -0.1027 0.3740 -0.0975x2 | 0.9676 0.2217 -0.0499 0.0474 -0.1241x3 | 0.5061 0.8027 -0.1636 0.2187 -0.0040x4 | 0.9214 0.3453 -0.0091 0.1006 -0.1627x5 | 0.6915 0.1199 -0.4893 0.1292 0.1084x6 | -0.0084 -0.1536 0.8052 -0.2130 0.1608x7 | -0.5039 -0.0349 0.2985 -0.0838 0.5926x8 | 0.1457 0.3158 -0.2682 0.7436 -0.0486 --------------------------------------------------------------------------------------------Variable | Uniqueness-------------+--------------x1 | 0.0136x2 | -0.0055x3 | 0.0249x4 | -0.0049x5 | 0.2396x6 | 0.2567x7 | 0.2975x8 | 0.2518----------------------------Factor rotation matrix-----------------------------------------------------------| Factor1 Factor2 Factor3 Factor4 Factor5-------------+---------------------------------------------Factor1 | 0.7938 0.4425 -0.2719 0.2768 -0.1535Factor2 | 0.4893 -0.1208 0.7125 -0.4862 0.0433 Factor3 | -0.2264 0.6171 0.4956 0.3824 0.4197 Factor4 | 0.1336 0.0421 -0.3949 -0.3813 0.8240 Factor5 | 0.2477 -0.6380 0.1298 0.6287 0.3456 -----------------------------------------------------------载荷图根据载荷图主因子1是,1245项是高载荷指标,把他作为盈利因子 主因子2是3,作为收入因子因子分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合。
基于最近的rotate 或factor 结果,predict 会自动进行这些计算。
通过命令predict f1 f2,我们得到了各个观察变量的主因子1、主因子2的得分情况。
| com f1 f2 | |-----------------------------|1. | 1 -.5668753 .0989984 |2. | 2 -.2911694 -.3330244 |3. | 3 -.5543 .6418742 |4. | 4 -1.632766 -.9359169 |5. | 5 1.737429 .6392142 | |-----------------------------|6. | 6 .3500338 2.000377 |F a c t o r 27. | 7 .4818828 .1623446 |8. | 8 -.9290398 -.1175181 |9. | 9 -.1907071 .3500897 |10. | 10 .124752 1.297857 ||-----------------------------|11. | 11 -.2882031 -.3848062 |12. | 12 -.1015409 -1.14786 |13. | 13 -.064743 .3978167 |14. | 14 2.454457 -1.63357 |15. | 15 -.5292097 -1.035877 |+-----------------------------+. summarize f1 f2V ariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------f1 | 15 2.98e-09 1.002487 -1.632766 2.454457f2 | 15 -2.98e-09 .964788 -1.63357 2.000377在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关。