第六讲 因子分析
- 格式:doc
- 大小:165.50 KB
- 文档页数:12
第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
第五讲 因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p 维变量:),...,,(21'=p X X X x它的均值向量μ=)(x E ,协方差矩阵V =(σij )p ⨯p 都存在。
第一节 正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F 1, F 2, … , F m (m <p )称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i 的特殊因子,记为:εi 。
于是,我们有:变量X i 的信息=公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1.2 正交因子模型设总体),...,,(21'=pX X X x ,均值向量μ=)(x E ,协方差矩阵p p V x Va r ⨯=)( 。
因子模型有形式:其中m<p ,F 1,F 2,…,F m 称为所有变量的公共因子;εi 称为变量X i 的特殊因子。
如果引入以下向量与矩阵:),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为:εμ+=-F A x 对于正交的因子模型,还要进一步要求:z 1. m m I F Var F E ⨯==)(,0)(。
第五讲 因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p 维变量:),...,,(21'=p X X X x它的均值向量μ=)(x E ,协方差矩阵V =(σij )p ⨯p 都存在。
第一节 正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F 1, F 2, … , F m (m <p )称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i 的特殊因子,记为:εi 。
于是,我们有:变量X i 的信息=公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1.2 正交因子模型设总体),...,,(21'=pX X X x ,均值向量μ=)(x E ,协方差矩阵p p V x Va r⨯=)(。
因子模型有形式:其中m<p ,F 1,F 2,…,F m 称为所有变量的公共因子;εi 称为变量X i 的特殊因子。
如果引入以下向量与矩阵:),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为:εμ+=-F A x 对于正交的因子模型,还要进一步要求:z 1. m m I F Var F E ⨯==)(,0)(。
即有:j i F F Cov F Var F E j i i i ≠===0),(,1)(,0)(公共因子是互相不相关的。
z 2. 0),(,],...,[)(,0)(221===F Cov diag Var E pεοσεε。
即:mj p i F Cov Var E j i i i i ,...,2,1;,...,2,10),(,)(,0)(2=====,εοεε特殊因子和公共因子不相关。
1.3 因子载荷矩阵1.矩阵A 称为因子载荷矩阵(component matrix),系数a ij 称为变量X i 在因子F j 上的载荷(loading)。
由于∑=+=mk j i k ik j i F F a Cov F X Cov 1),(),(ε⎪⎪⎩⎪⎪⎨⎧++++=-++++=-++++=-pm pm p p p p m m m m F a F a F a X F a F a F a X F a F a F a X εμεμεμ 221122222121221121211111ij mk j i j k ik a F Cov F F Cov a =+=∑=1),(),(ε特别,如果总体是标准化的,则有Var (X i )=1,从而有:),()()(),(),(j i j i j i j i F X Cov F Var X Var F X Cov F X ==ρ于是:),(j i ij F X a ρ=即变量X i 在公共因子F j 上的载荷a ij 就是X i 与F j 的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的一种方法,由于其估计结果和变量的主成分仅相差一个常数倍,因此就冠以主成分法的名称。
在学到这里的时候,不要和主成分分析混为一谈。
主成分法是SPSS 系统默认的方法,在一般情况下,这是比较好的方法。
以数据“应征人员”为例,按特征值大于1提取公共因子。
在用不同方法获得因子载荷时,公共因子对总体方差的贡献率以主成分法为最高:关于主成分法的内容可参看任何一本多元统计分析书,例如:《应用多元统计分析》,高惠璇著,北京大学出版社,p301。
1.4 因子模型的不唯一性设T 是一个正交矩阵,由I T T =',因子模型εμ+=-F A x与模型 εμ+'=-))((F T AT x 等价。
后者载荷矩阵为AT ,新的公共因子为F T G'=。
第二节 变量的共同度与因子的方差贡献率3.1 变量的共同度定义 载荷矩阵A 的第i 行元素的平方和:p i a h mj ij i,...,2,1,122==∑=称为变量X i 的共同度(communality)。
共同度表示公共因子F能在多大的程度上解释变量X i 。
关于这一点,可从分析变量X i 的方差入手:)()()()(121i mk k ik mk i k ik i Var F Var a F a Var X Var εε+=+=∑∑==注意到正交因子模型的假设:Var (F k )=1,k =1,…,m ;另外,记Var (εi )=σi 2。
于是得:22212)(i i i mk ik i h a X Var σσ+=+=∑=这就是把变量X i 的方差分解为两部分:一部分是2i h ,它是由公共因子产生的;另一部分是2i σ,是由特殊因子产生的。
所以共同度被理解为公共因子能够解释原有变量的程度。
对于标准化的变量,Var (X i )=1,因此有:122=+i i h σ2.2 公共因子的方差贡献率定义 载荷矩阵A 第j 列的平方和:m j a q pi ij j ,...,2,1,122==∑=称为因子F j 对总体x的贡献(initial eigenvalues)。
第三节 方差最大正交旋转3.1 因子旋转的意义1.正交因子模型只是一个数学模型,所得的因子在专业上不一定能反映问题的实质,或者说:因子作为一个综合变量,其专业意义在许多情况下不容易解释。
因子旋转就是针对这一问题,提出的一种改进的方法。
2.因子旋转的依据:因子模型的不唯一性。
正是由于因子模型的不唯一性,如果模型ε+=F A x不适合专业解释,那么作一个正交变换T ,模型改变为:εε+=+'=G B TF T A x ))(( 在新模型中再去寻找因子的专业解释。
3.2 方差最大正交旋转 *1.因子载荷的离散程度因子F j 在总体),...,,(21'=p X X X x上载荷的分散程度可以通过以下一组“标准化”的载荷平方值表示:m j ha ha ha ppj jj,...,2,1,,,,2222222121=令m j d pd ha d p i ijj iijij ,...,2,1,1,1222===∑=于是因子F j 的载荷离散平方和:m j d d D pi j ij j ,...,2,1,)(12=-=∑=全部公共因子载荷的离散总平方和:∑==m j j D D 12.方差最大化正交旋转(Varimax)选择正交变换(矩阵)T ,使得经变换后的因子模型:εε+=+'=G B F T AT x ))(( 的公共因子G具有最大的载荷离散总平方和D 。
由此确定的因子载荷矩阵B ,对每个公共因子来说,载荷最为分散,因此比较容易对因子的专业意义作出解释。
第四节 因子得分4.1 因子得分函数因子模型将总体中的原有变量分解为公共因子与特殊因子的线性组合:p i F a F a F a X i m im i i i ,...,2,1,2211=++++=ε按照这个思路,也可以把每个公共因子表示成原变量的线性组合:m j X b X b X b F p jp j j j ,...,2,1,2211=+++=称这个线性表达式为因子得分函数。
用它可以计算出每个观察值在各公共因子上的取值,从而在一定程度上解决了公共因子不可观察的问题。
获得因子得分函数的关键问题是怎样估计参数b j1,b j2,…,b jp 。
*4.2 因子得分函数的估计(Thompson 方法)根据回归分析中最小二乘估计的方法,应有:j j F X X X b ''=-1)(ˆ其中:),...,,(,)ˆ,...,ˆ,ˆ(ˆ2121'='=jn j j j jpj j j F F F F b b b b⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p X X X X X X X X X X212222111211但是,j F是不可观察的。
因此上述公式尚不能给出因子得分函数的系数估计。
在总体变量标准化的条件下,根据正交因子模型的假设j F X'是总体x与因子j F 的样本相关系数,所以可以用因子载荷矩阵A 的第j 列),...,,(21'=pj j j j a a a a代替。
同样道理,在标准化的条件下,矩阵X X '是总体x的相关矩阵,即:X X R '=所以有:j j a R b 1ˆ-=从而得到:m j x R a x b F j j j ,...,2,1,ˆ1='='=-第五节 KMO 检验与Bartlett 球形检验5.1 因子分析对样本的要求和任何统计分析问题一样,因子分析也要求样本具有一定的容量。
这从两个方面来说:从变量个数p 考量,则样本容量n应有n>5p;即使这样,样本容量也不能太少,一般应在100以上。
以上要求在实际问题中往往都达不到。
这时可以适当放宽要求,结合检验来判断结果的可靠性。
5.2 因子分析可行性与效果检验1.Bartlett球形检验检验各变量是否独立,通过相关阵是否单位阵来判断。
只有在原假设:各变量相互独立被拒绝,因子分析才能进行。
2.KMO检验检查各变量间的偏相关性,用来判断因子分析效果:0≤KMO≤1。
通常使用的标准是:当KMO>0.7,因子分析效果较好,越大越好;当KMO<0.5,此时不适合用因子分析法。
5.3 关于因子的解释因子分析得到的公共因子应该可以解释,即有实际意义。
否则,就应该重新设计原始变量集合。
第六节因子分析应用举例例数据data09,此文件收录了15个企业的7个主要经济指标。
试对这7个指标提取2个公共因子,作因子分析。
选择命令菜单:Data Reduction \ Factor,在Factor Analysis 对话框中,将变量固定资产率、固定资产利率、资金利率、资金利税率、流动资金周转天数、销售收入利税率和全员劳动生产率输入Variables,打开Number of factors中键入2(因子个数)。
返回,打开Varimax。
返回,打开选择Save as variables中的Regression和Dis-play factor score coefficient matrix这是一张方差解释表,Initial Eigenvalues一栏中的Total便是每个公共因子的方差贡献值,系统计算出全部7个因子的方差贡献值,并按降序排列。