第六章 因子分析 (2)
- 格式:docx
- 大小:12.34 KB
- 文档页数:2
第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
第六讲因⼦分析第五讲因⼦分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,⽽且包含原变量提供的⼤部分信息。
因⼦分析就是为解决这⼀问题提供的统计分析⽅法。
以后,如⽆特别说明,都假定总体是⼀个p维变量:它的均值向量,协⽅差矩阵V=(ij)pp都存在。
第⼀节正交因⼦模型1.1 公共因⼦与特殊因⼦从总体中提取的综合变量:F1, F2, … , F m(m于是,我们有:变量X i的信息=公共因⼦可以表达部分公共因⼦不可表达部分这就是所谓因⼦模型。
⽬前,公共因⼦可以表达的部分由公共因⼦的线性组合表⽰。
即上⾯的因⼦模型可以写成以下的形式:1.2 正交因⼦模型设总体,均值向量,协⽅差矩阵。
因⼦模型有形式:其中m如果引⼊以下向量与矩阵:则因⼦模型的矩阵形式为:对于正交的因⼦模型,还要进⼀步要求:z1. 。
即有:公共因⼦是互相不相关的。
z2. 。
即:特殊因⼦和公共因⼦不相关。
1.3 因⼦载荷矩阵1.矩阵A称为因⼦载荷矩阵(component matrix),系数a ij称为变量X i在因⼦F j上的载荷(loading)。
由于特别,如果总体是标准化的,则有Var(X i)=1,从⽽有:于是:即变量X i在公共因⼦F j上的载荷a ij就是X i与F j的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的⼀种⽅法,由于其估计结果和变量的主成分仅相差⼀个常数倍,因此就冠以主成分法的名称。
在学到这⾥的时候,不要和主成分分析混为⼀谈。
主成分法是SPSS系统默认的⽅法,在⼀般情况下,这是⽐较好的⽅法。
以数据“应征⼈员”为例,按特征值⼤于1提取公共因⼦。
在⽤不同⽅法获得因⼦载荷时,公共因⼦对总体⽅差的贡献率以主成分法为最⾼:⽅法贡献率 %Principle components 81.476Maximum likelihood74.304Unweighted least squares74.485Principal axis factoring74.462Alpha factoring74.540Image factoring69.365关于主成分法的内容可参看任何⼀本多元统计分析书,例如:《应⽤多元统计分析》,⾼惠璇著,北京⼤学出版社,p301。
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
第6章--因子分析第六章因子分析一、填空题1. 因子分析常用的两种类型为 ____________ 和 ___________ 。
2. 因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现______________ 与____________ 间的相互关系。
3•因子分析就是通过寻找众多变量的______________ 来简化变量中存在的复杂关系的一种方法。
4 •因子分析是把每个原始变量分解成两个部分即____________ 、。
5 •变量共同度是指因子载荷矩阵中__________________________ 。
6 •公共因子方差与特殊因子方差之和为________ 。
7.求解因子载荷矩阵常用的方法有______________________ 和________________ &常用的因子旋转方法有 ____________________ 和__________________ 。
9. Spss中因子分析采用__________________ 命令过程。
10•变量X i的方差由两部分组成,一部分为 ___________ ,另一部分为__________二、判断题1. 在因子分析中,因子载荷阵不是唯一的。
()2. 因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()3. 因子分析和主成分分析的核心思想都是降维。
()4.因子分析有两大类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而Q型因子分析是从样品的相关矩阵出发。
()5. 特殊因子与公共因子之间是相互独立的。
()6. 变量共同度是因子载荷矩阵列元素的平方和。
()7. 公共因子的方差贡献是衡量公共因子相对重要性指标。
()8. 对因子载荷阵进行旋转的目的是使结构简化。
()三、简答题1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?2 •因子模型的矩阵形式UF ,其中:F F1, ,F m 1, , P U U ij pm请解释式中F、、U的统计意义。
第五章主成分分析
clear
set more off
cd
"C:\Users\zhou\OneDrive\Lectures_ebook\multivariate_statistics\labora tory\03principal"
use data
*定义变量的标签
label var area "省份"
label var x1 "GDP(亿元)"
label var x2 "居民消费水平(元)"
label var x3 "固定资产投资(亿元)"
label var x4 "职工平均工资(元)"
label var x5 "货物周转量(亿吨公里)"
label var x6 "居民消费价格指数(上年100)"
label var x7 "商品零售价格指数(上年100)"
label var x8 "工业总产值(亿元)"
describe
sum
corr
//findit factortest
//ssc install factortest
//check the data
factortest x1-x8
pca x1-x8, correlation /*主成分估计*/
pca x1-x8, covariance component(3) /*主成分估计*/
//test
estat kmo /*KMO检验,越高越好*/
estat smc /*SMC检验,值越高越好*/
screeplot /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/ loadingplot , yline(0) xline(0)/*载荷图 */
loadingplot , combined factors(3) yline(0) xline(0)/*载荷图 */
predict f1 f2 f3 /*预测变量得分*/
scoreplot,mlabel(area) yline(0) xline(0) /*得分图*/
scoreplot,xtitle("经济社会总量") ytitle("人民生活水平") mlabel(area) yline(0) xline(0) /*得分图*/
scatter f2 f3,xtitle("人民生活水平") ytitle("物价水平") mlabel(area) yline(0) xline(0) /*得分图*/
scoreplot, factors(3) mlabel(area) /*得分图*/
scoreplot,combined factors(3) mlabel(area) yline(0) xline(0) /*得分图*/
//ranking by score
describe f1-f3
sort f1 //sorting
gen rank_nature=_n //ranking
browse area f1 rank_nature // show dat
gsort -f1 //generalized sorting
gen rank_nature1=_n //ranking
browse area f1 rank_nature rank_nature1 // show dat
cor x1-x8
matrix CM=r(C) //define covariance matrix
pcamat CM, comp(3) n(1000) names(a1 a2 a3 a4 a5 a6 a7 a8)
//rotate /*旋转*/。