第六章因子分析
- 格式:docx
- 大小:18.18 KB
- 文档页数:5
第五讲 因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p 维变量:),...,,(21'=p X X X x它的均值向量μ=)(x E ,协方差矩阵V =(σij )p ⨯p 都存在。
第一节 正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F 1, F 2, … , F m (m <p )称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i 的特殊因子,记为:εi 。
于是,我们有:变量X i 的信息=公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1.2 正交因子模型设总体),...,,(21'=pX X X x ,均值向量μ=)(x E ,协方差矩阵p p V x Va r ⨯=)( 。
因子模型有形式:其中m<p ,F 1,F 2,…,F m 称为所有变量的公共因子;εi 称为变量X i 的特殊因子。
如果引入以下向量与矩阵:),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为:εμ+=-F A x 对于正交的因子模型,还要进一步要求:z 1. m m I F Var F E ⨯==)(,0)(。
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
第五讲因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p维变量:它的均值向量,协方差矩阵V=(ij)pp都存在。
第一节正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F1, F2, … , F m(m<p)称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i的特殊因子,记为:i。
于是,我们有:变量X i的信息=公共因子可以表达部分公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:1.2 正交因子模型设总体,均值向量,协方差矩阵。
因子模型有形式:其中m<p,F1,F2,…,F m称为所有变量的公共因子;i称为变量X i的特殊因子。
如果引入以下向量与矩阵:则因子模型的矩阵形式为:对于正交的因子模型,还要进一步要求:z1. 。
即有:公共因子是互相不相关的。
z2. 。
即:特殊因子和公共因子不相关。
1.3 因子载荷矩阵1.矩阵A称为因子载荷矩阵(component matrix),系数a ij称为变量X i在因子F j上的载荷(loading)。
由于特别,如果总体是标准化的,则有Var(X i)=1,从而有:于是:即变量X i在公共因子F j上的载荷a ij就是X i与F j的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的一种方法,由于其估计结果和变量的主成分仅相差一个常数倍,因此就冠以主成分法的名称。
在学到这里的时候,不要和主成分分析混为一谈。
主成分法是SPSS系统默认的方法,在一般情况下,这是比较好的方法。
第6章--因子分析第六章因子分析一、填空题1. 因子分析常用的两种类型为 ____________ 和 ___________ 。
2. 因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现______________ 与____________ 间的相互关系。
3•因子分析就是通过寻找众多变量的______________ 来简化变量中存在的复杂关系的一种方法。
4 •因子分析是把每个原始变量分解成两个部分即____________ 、。
5 •变量共同度是指因子载荷矩阵中__________________________ 。
6 •公共因子方差与特殊因子方差之和为________ 。
7.求解因子载荷矩阵常用的方法有______________________ 和________________ &常用的因子旋转方法有 ____________________ 和__________________ 。
9. Spss中因子分析采用__________________ 命令过程。
10•变量X i的方差由两部分组成,一部分为 ___________ ,另一部分为__________二、判断题1. 在因子分析中,因子载荷阵不是唯一的。
()2. 因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()3. 因子分析和主成分分析的核心思想都是降维。
()4.因子分析有两大类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而Q型因子分析是从样品的相关矩阵出发。
()5. 特殊因子与公共因子之间是相互独立的。
()6. 变量共同度是因子载荷矩阵列元素的平方和。
()7. 公共因子的方差贡献是衡量公共因子相对重要性指标。
()8. 对因子载荷阵进行旋转的目的是使结构简化。
()三、简答题1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?2 •因子模型的矩阵形式UF ,其中:F F1, ,F m 1, , P U U ij pm请解释式中F、、U的统计意义。
第六章因子分析
第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共
因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的
特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二
、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因
子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足
:(1)(2),即公共因子与特殊因子是不相关的(3)
,即各公共因子不相关且方差为1(4),即各个特殊因子不
相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量
看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因
子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成
分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变
异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低
变量维数的方法。
但因子分析的本质是从显在变量去“提
炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为
即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,
的标准差为1,且的标准差为1则
(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示
的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要
性。
(二)变量共同度的统计意义设因子载荷矩阵为,称第行元素的平方和,即
为变量的共同度。
由因子模型,知即变量
的方差由两部分组成:第一部分为共同度,它描述了全部公共因子对变量的总方差所作的贡献,反映了公共因子对
变量的影响程度。
第二部分为特殊因子对变量的方差的贡献,通常称为个性方差如果对变量作了标准化处理,则(
三)公因子的方差贡献的统计意义设因子载荷矩阵,称第列元素的平方和,即
为公共因子对的贡献,即表示同一公共因子对各变量所提供的方差
贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。
§6.2因子分析的步骤因子分析的一般步骤可以分为确
定因子载荷矩阵、因子旋转和计算因子得分三步。
一、因子载荷的求解对于因子载荷阵的求解方法有很多,在这里介绍主
成分法和主轴因子法。
(一)、主成分法主成分法确定因子载荷是在进行因子分析前先对数据进行一次主成分分析。
假定从相关矩阵出发求解主成分,设有个变量,则可以找出个主成分。
将这个主成分按大到小顺序排列为
,则主成分与原始变量之间存在以下关系:由于为随机向量的相关矩阵的特征值所
对应的特征向量的分量,且特征向量间彼此正交,之间的转换关系是可逆的,由此解出由得转换关系如
下:将上式中每一等式只保留前个主成分而把后面的部分用代替,则:将
转化为合适的公共因子,只需要把主成分变成方差为1的变量,即将除以其标准差()即可。
于是令
则:需指出:这样得到的
之间并不独立,因此它并不完全符合因子模型的假设前提,也就是说所得的因子载荷矩阵并不完全正确。
但是当共同度较大时,特殊因子
所起的作用很小,因而特殊因子间的相关性所带来的影响几乎可以忽略。
(二)、主轴因子法假定原始变量
已作了标准化处理,的相关矩阵令
则称为的约相关阵。
中的主对角线元素是,非主对角线元素和的完全一样,并且是
一个非负定矩阵记(特点,限制条件)
利用这种方法求得的的解使得第一公共因子的贡献
达到最大,第二公因子的贡献达到次之,....,第m个公共因子
的贡献最小。
即相应的“贡献”依次为。
求解过程:利用
极值定理,构造函数求偏导获得。
二、因子旋转因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合
理解释。
有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。
例如,可能有些变量在多个公共因子上都有较大的载荷
,有些公共因子对许多变量的载荷也不小,说明它对多个变量都有较明显的影响作用。
这时需要通过因子旋转的方法,使每一个变量仅在
一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比
较小,至多达到中等大小。
而对于公共因子而言,它在大部分变量上的载荷较
大,在其他变量上的载荷较小,使同一列上的载荷尽可能地靠近1和0,两极分离。
因子旋转方法有正交旋转和斜交旋转两类正交旋转是指对载荷矩阵作一正交变换,右乘正交矩阵,使得,旋转后的公共因子向量为
,它的各个分量是互不相关的公共因子。
这里介绍最大方差旋转法。
令则的第j列元素平方的相对方差可定义为:所谓最大方差旋转法就是选择正
交矩阵,使得矩阵所有m个列元素平方的相对方差之和达到最大。
三、因子得分在因子分析模型中,如果不考虑特殊因子的影响,当
可逆时,可以非常方便地从每一个样品的指标取值计算出其在因子上的相应取值:,即
该样品在因子上的“得分”情况,简称为该样品的因子得分。
但因子分析模型在实际应用中要求因此不能精确计算
出因子的得分情况,只能对因子得分进行估计,通常采用汤姆孙回归法。
假设公共因子可对个原始变量作回归,即
如果都标准化了,回归的常数项为0,即由因子载荷的统计意义知,对于任意的
都有
记为因子得分系数矩阵,则上式可写成矩阵形式为于
是即得因子得分的估算式其中的相关系数矩阵,一般为标准化变
量。
§6.3实例分析例6.1为研究消费者对购买牙膏的偏好程度,通过市场拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不满意,7表示非常同意)。
V1:购买预防蛀牙的牙膏是重要的V2:我喜欢使牙齿亮泽的牙膏V3:牙膏应当保护牙龈V4:我喜欢使口气清新的牙膏V5:预防坏牙不是牙膏提供的一项重要利益V6:购买牙膏时最重要的考虑是富有魅力的
牙膏例6.22001年我国其中的31个省、市和自治区的城镇居民家
庭平均每人全年消费性支出(单位:元)的8个主要变量数据是x1(食品)、x2(衣着)、x3(家庭设备用品及服务)、x4(医疗保健)、x5(交通和通信)、x6(娱乐教育文化服务)、x7(居住)、x8(杂项商品和服务)。
使用因子分析方法对不同地区进行综合评价。
(可以根据因子得分系数矩阵,求出各地区的因子得分,从而对全国31个省、市和自治区的城镇居民的生活水平进行简要的综合评价。
,其中为因子得分系数矩阵,为标准化变量)。