实验课:因子分析
实验目的
理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。
因子分析
一、基础理论知识
1 概念
因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点
(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型
根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理
假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :
当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个
综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。
线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为:
Lij 是原变量在各主成分上的载荷
无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。
zi 与zj 相互无关;
z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。
Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。
主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。
从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。
??
?
???
?????
???=np n n p p x x x x x x x x x X 2
1
222
21
11211??
?
??
?
?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111??
?
??
?
?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111
5分析步骤
5.1 确定待分析的原有若干变量是否适合进行因子分析(第一步)
因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。其潜在的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。
进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为0,方差为1)。
SPSS 在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下3种: 巴特利特球形检验(Bartlett Test of Sphericity )
反映象相关矩阵检验(Anti-image correlation matrix ) KMO (Kaiser-Meyer-Olkin )检验 (1)巴特利特球形检验
该检验以变量的相关系数矩阵作为出发点,它的零假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。
巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。
(2)反映象相关矩阵检验
该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映象相关矩阵。
偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。
(3)KMO (Kaiser-Meyer-Olkin )检验
该检验的统计量用于比较变量之间的简单相关和偏相关系数。
KMO 值介于0-1,越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。
??????
?????
???=pp p p p p r r r r r r r r r R
2
1
222
21
11211∑∑
∑===----=
n k n
k j kj
i ki n
k j kj i ki
ij x x x x x x x x
r 1
1
2
2
1)()()
)((
其中,Kaiser 给出一个KMO 检验标准:KMO>0.9,非常适合;0.8 5.2 构造因子变量 因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前者应用最为广泛。 主成分分析法(Principal component analysis ): 该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi (主成分)。求相关系数矩阵的特征根λi (λ1,λ2,…,λp>0)和相应的标准正交的特征向量li ;根据相关系数矩阵的特征根,即公共因子Zj 的方差贡献(等于因子载荷矩阵L 中第j 列各元素的平方和),计算公共因子Zj 的方差贡献率与累积贡献率。 主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。 公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m (m ≤p )个主成分。也有学者认为累积方差贡献率应在80%以上。 5.3 因子变量的命名解释 因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子/主成分Z1,Z2,…,Zm 是对原有变量的综合。原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么? 在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因子变量更具有可解释性。 计算主成分载荷,构建载荷矩阵A 。 ) ,,2,1(1 p i p k k i =∑=λλ) ,,2,1(11p i p k k i k k =∑∑==λ λ),,2,1,(p j i l a ij i ij ==λ??????????????=??????????????m pm p p m m m m pm p p m m l l l l l l l l l a a a a a a a a a A λλλλλλλλλ (211122) 211211212111112212111211= 计算主成分载荷,构建载荷矩阵A 。载荷矩阵A 中某一行表示原有变量 Xi 与公共因子/因子变量的相关关系。载荷矩阵A 中某一列表示某一个公共因子/因子变量能够解释的原有变量 Xi 的信息量。有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。 正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。 方差最大正交旋转(varimax orthogonal rotation )——基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。 斜交旋转(oblique rotation )——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变量的贡献的总和也发生了改变。 斜交旋转因为因子间的相关性而不受欢迎。但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。 无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分化,要么接近于0,要么接近于1。从而使原有因子变量更具有可解释性。 5.4 计算因子变量得分 因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。估计因子得分的方法主要有:回归法、Bartlette 法等。计算因子得分应首先将因子变量表示为原始变量的线性组合。即: 回归法,即Thomson 法:得分是由贝叶斯Bayes 思想导出的,得到的因子得分是有偏的,但计算结果误差较小。贝叶斯(BAYES )判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。 ?????? ?+++=+++=+++=p mp m m m p p p p z a z a z a x z a z a z a x z a z a z a x 22112222121212121111???????+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111??? ??? ????????=??????????????m pm p p m m m m pm p p m m l l l l l l l l l a a a a a a a a a A λλλλλλλλλ (211122) 211211212111112212111211=?? ??? ??+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111 Bartlett法:Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。 因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。关于因子得分的进一步应用将在案例介绍一节分析。 5.5 结果的分析解释 此部分详细见案例分析 二、案例分析 1 研究问题 石家庄18个县市14个指标因子,具体来说有人均GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重(%)、每万人拥有执业医师数量、每千人拥有病床数。 要求根据这14项内容进行因子分析,得到维度较少的几个因子。 2 实现步骤 【1】在“Analyze”菜单“Data Reduction”中选择“Factor”命令,如下图所示。 中选择这14个变量,使之添加到Variables框中。 如图所示。 Statistics框用于选择哪些相关的统计量,其中: Univariate descriptives(变量描述):输出变量均值、标准差; Initial solution (初始结果) Correlation Matrix框中提供了几种检验变量是否适合做引子分析的检验方法,其中: Coefficients (相关系数矩阵) Significance leves (显著性水平) Determinant (相关系数矩阵的行列式) Inverse (相关系数矩阵的逆矩阵) Reproduced (再生相关矩阵,原始相关与再生相关的差值) Anti-image (反影像相关矩阵检验) KMO and Bartlett’s test of sphericity (KMO检验和巴特利特球形检验)本例中,选中该对话框中所有选项,单击Continue按钮返回Factor Analysis 对话框。 【4】单击“Extraction”按钮,弹出“Factor Analysis:Extraction”对话框,选择因子提取方法,如下图所示: 因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:Principle Components Analysis (主成分分析) Unweighted least squares(未加权最小平方法) Generalized least squares (综合最小平方法) Maximum likelihood (最大似然估价法) Principal axis factoring (主轴因子法) Alpha factoring (α因子) Image factoring (影像因子) Analyze框中用于选择提取变量依据,其中: Correlation matrix (相关系数矩阵) Covariance matrix (协方差矩阵) Extract框用于指定因子个数的标准,其中: Eigenvaluse over (大于特征值) Number of factors (因子个数) Display框用于选择输出哪些与因子提取有关的信息,其中: Unrotated factor solution (未经旋转的因子载荷矩阵) Screen plot (特征值排列图) Maximun interations for Convergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。 本例选用Principal components方法,选择相关系数矩阵作为提取因子变量的依据,选中Unrotated factor solution和Scree plot项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择Eigenvaluse over项,在该选项后面可以输入1,指定提取特征值大于1的因子。单击Continue按钮返回Factor Analysis对话框。【5】单击Factor Analysis对话框中的Rotation按钮,弹出Factor Analysis: Rotation 对话框,如下图所示: 该对话框用于选择因子载荷矩阵的旋转方法。旋转目的是为了简化结构,以帮助我们解释因子。SPSS默认不进行旋转(None)。 Method框用于选择因子旋转方法,其中: None(不旋转) Varimax(正交旋转) Direct Oblimin(直接斜交旋转) Quanlimax(四分最大正交旋转) Equamax(平均正交旋转) Promax(斜交旋转) Display框用于选择输出哪些与因子旋转有关的信息,其中: Rotated solution(输出旋转后的因子载荷矩阵) Loading plots(输出载荷散点图) 本例选择方差极大法旋转Varimax,并选中Rotated solution和Loading plot 项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回Factor Analysis对话框。 【6】单击Factor Analysis对话框中的Scores按钮,弹出Factor Analysis: Scores 对话框,如下图所示: 该对话框用以选择对因子得分进行设置,其中: Regression(回归法):因子得分均值为0,采用多元相关平方; Bartlett (巴特利法):因子得分均值为0,采用超出变量范围各因子平方和被最小化; Anderson-Rubin (安德森-洛宾法):因子得分均值为0,标准差1,彼此不相关; Display factor score coefficient matrix:选择此项将在输出窗口中显示因子得分系数矩阵。 【7】单击Factor Analysis对话框中的Options按钮,弹出Factor Analysis: Options 对话框,如下图所示: 该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中: Missing Values框用于选择缺失值处理方法: Exclude cases listwise:去除所有缺失值的个案 Exclude cases pairwise:含有缺失值的变量,去掉该案例 Replace with mean:用平均值代替缺失值 Cofficient Display Format框用于选择载荷系数的显示格式: Sorted by size:载荷系数按照数值大小排列 Suppress absolute values less than:不显示绝对值小于指定值的载荷量 本例选中Exclude cases listwise项,单击Continue按钮返回Factor Analysis 对话框,完成设置。单击OK,完成计算。 3 结果与讨论 (1)SPSS输出的第一部分如下: 第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分析的个案数。这个是步骤3中选中Univariate descriptives项的输出结果。 Descriptive Statistics Mean Std. Deviation Analysis N 人均GDP(元/人) 22600.5211 8410.55464 18 人均全社会固定资产投资额15190.9515 5289.14499 18 人均城镇固定资产投资额10270.3642 4874.14616 18 人均一般预算性财政收入585.1712 550.45659 18 第三产业占GDP比重(%) 29.0612 9.46858 18 人均社会消费品零售额6567.2566 3068.75463 18 人均实际利用外资额(万美元/ 人) 23.5667 40.31361 18 人均城乡居民储蓄存款12061.2384 7363.08659 18 农民人均纯收入4852.5556 1202.52970 18 在岗职工平均工资18110.3889 2374.05754 18 人才密度指数8.1548 5.37552 18 科技支出占财政支出比重(%) 1.3494 .50193 18 每万人拥有执业医师数量12.6883 8.88691 18 每千人拥有病床数 2.3608 1.16077 18 (2)SPSS输出结果文件中的第二部分如下: 该表格给出的是18个原始变量的相关矩阵 Correlation Matrix 人均GDP(元/人) 人均全社会固定 资产投资额 人均城镇固定资 产投资额 Correlation 人均GDP(元/人) 1.000 .503 .707 人均全社会固定资产投资额.503 1.000 .883 人均城镇固定资产投资额.707 .883 1.000 人均一般预算性财政收入.776 .571 .821 第三产业占GDP比重(%) .567 .507 .759 人均社会消费品零售额.737 .247 .600 人均实际利用外资额(万美元/ 人) .454 .356 .648 人均城乡居民储蓄存款.707 .480 .780 农民人均纯收入.559 -.073 .130 在岗职工平均工资.789 .325 .544 人才密度指数.741 .470 .737 科技支出占财政支出比重(%).582 .378 .486 每万人拥有执业医师数量.434 .520 .733 每千人拥有病床数.573 .565 .761 Correlation Matrix 人均一般预算性财政收入第三产业占GDP 比重(%) 人均社会消费品 零售额 Correlation 人均GDP(元/人) .776 .567 .737 人均全社会固定资产投资额.571 .507 .247 人均城镇固定资产投资额.821 .759 .600 人均一般预算性财政收入 1.000 .830 .693 第三产业占GDP比重(%) .830 1.000 .646 人均社会消费品零售额.693 .646 1.000 人均实际利用外资额(万美元/ 人) .797 .822 .616 人均城乡居民储蓄存款.907 .882 .839 农民人均纯收入.132 .278 .516 在岗职工平均工资.736 .548 .609 人才密度指数.795 .745 .812 科技支出占财政支出比重(%).729 .575 .490 每万人拥有执业医师数量.818 .844 .627 每千人拥有病床数.911 .806 .629 Correlation Matrix 人均实际利用外资额(万美元/人)人均城乡居民储 蓄存款农民人均纯收入 Correlation 人均GDP(元/人) .454 .707 .559 人均全社会固定资产投资额.356 .480 -.073 人均城镇固定资产投资额.648 .780 .130 人均一般预算性财政收入.797 .907 .132 第三产业占GDP比重(%) .822 .882 .278 人均社会消费品零售额.616 .839 .516 人均实际利用外资额(万美元/ 人) 1.000 .792 -.007 人均城乡居民储蓄存款.792 1.000 .264 农民人均纯收入-.007 .264 1.000 在岗职工平均工资.388 .647 .411 人才密度指数.752 .868 .315 科技支出占财政支出比重(%).570 .626 .210 每万人拥有执业医师数量.795 .885 -.075 每千人拥有病床数.784 .866 .000 Correlation Matrix 在岗职工平均工 资人才密度指数科技支出占财政支出比重(%) Correlation 人均GDP(元/人) .789 .741 .582 人均全社会固定资产投资额.325 .470 .378 人均城镇固定资产投资额.544 .737 .486 人均一般预算性财政收入.736 .795 .729 第三产业占GDP比重(%) .548 .745 .575 人均社会消费品零售额.609 .812 .490 人均实际利用外资额(万美元/ 人) .388 .752 .570 人均城乡居民储蓄存款.647 .868 .626 农民人均纯收入.411 .315 .210 在岗职工平均工资 1.000 .539 .421 人才密度指数.539 1.000 .577 科技支出占财政支出比重(%).421 .577 1.000 每万人拥有执业医师数量.477 .739 .519 每千人拥有病床数.575 .719 .769 Correlation Matrix 每万人拥有执业医师数量每千人拥有病床 数 Correlation 人均GDP(元/人) .434 .573 人均全社会固定资产投资额.520 .565 人均城镇固定资产投资额.733 .761 人均一般预算性财政收入.818 .911 第三产业占GDP比重(%) .844 .806 人均社会消费品零售额.627 .629 人均实际利用外资额(万美元/ .795 .784 人) 人均城乡居民储蓄存款.885 .866 农民人均纯收入-.075 .000 在岗职工平均工资.477 .575 人才密度指数.739 .719 科技支出占财政支出比重(%).519 .769 每万人拥有执业医师数量 1.000 .912 每千人拥有病床数.912 1.000 (3)SPSS输出结果的第四部分如下: KMO and Bartlett's Test .551 Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity Approx. Chi-Square 324.227 df 91 Sig. .000 该部分给出了KMO检验和Bartlett球度检验结果。其中KMO值为0.551,根据统计学家Kaiser给出的标准,KMO取值小于0.6,不太适合因子分析。Bartlett球度检验给出的相伴概率为0.00,小于显著性水平0.05,因此拒绝Bartlett 球度检验的零假设,认为适合于因子分析。 (4)SPSS输出结果文件中的第六部分如下: Communalities Initial Extraction 人均GDP(元/人) 1.000 1.000 人均全社会固定资产投资额 1.000 1.000 人均城镇固定资产投资额 1.000 1.000 人均一般预算性财政收入 1.000 1.000 第三产业占GDP比重(%) 1.000 1.000 人均社会消费品零售额 1.000 1.000 人均实际利用外资额(万美元/ 人) 1.000 1.000 人均城乡居民储蓄存款 1.000 1.000 农民人均纯收入 1.000 1.000 在岗职工平均工资 1.000 1.000 人才密度指数 1.000 1.000 科技支出占财政支出比重(%) 1.000 1.000 每万人拥有执业医师数量 1.000 1.000 每千人拥有病床数 1.000 1.000 Extraction Method: Principal Component Analysis. 这是因子分析初始结果,该表格的第一列列出了18个原始变量名;第二列是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到18个特征值,它们是银子分析的初始解,可利用这18个出世界和对应的特征向量计算出银子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1;第三列是根据因子分析最终解计算出的变量共同度。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。(此处由于软件的原因有点小问题) 这时由于因子变量个数少于原始变量的个数,因此每个变量的共同度必然小于1。 (5)输出结果第六部分为Total Variance Explained表格 Total Variance Explained Compo nent Initial Eigenvalues Total % of Variance Cumulative % 1 9.139 65.279 2 1.718 12.269 3 1.01 4 7.240 4 .659 4.706 5 .53 6 3.827 6 .361 2.577 7 .258 1.844 8 .133 .952 9 .077 .549 10 .049 .349 11 .031 .224 12 .020 .140 13 .005 .038 14 .001 .005 100.000 Extraction Method: Principal Component Analysis. Total Variance Explained Compo nent Initial Eigenvalues Extraction Sums of Squared Loadings Cumulative % Total % of Variance Cumulative % 1 65.279 9.139 65.279 65.279 2 77.548 1.718 12.269 77.548 3 84.788 1.01 4 7.240 84.788 4 89.494 .659 4.706 89.494 5 93.321 .53 6 3.82 7 93.321 6 95.898 .361 2.57 7 95.898 7 97.743 .258 1.844 97.743 8 98.695 .133 .952 98.695 9 99.244 .077 .549 99.244 10 99.593 .049 .349 99.593 11 99.817 .031 .224 99.817 12 99.958 .020 .140 99.958 13 99.995 .005 .038 99.995 Extraction Method: Principal Component Analysis. Total Variance Explained Compo nent Rotation Sums of Squared Loadings Total % of Variance Cumulative % 1 4.794 34.24 2 34.242 2 2.262 16.158 50.400 3 1.846 13.188 63.587 4 1.571 11.222 74.809 5 1.548 11.060 85.869 6 .844 6.028 91.898 7 .567 4.048 95.946 8 .273 1.948 97.894 9 .131 .938 98.832 10 .068 .482 99.314 11 .046 .329 99.643 12 .035 .252 99.895 13 .014 .100 99.995 Extraction Method: Principal Component Analysis. 该表格是因子分析后因子提取和因子旋转的结果。其中,Component列和Initial Eigenvalues列(第一列到第四列)描述了因子分析初始解对原有变量总体描述情况。第一列是因子分析13个初始解序号。第二列是因子变量的方差贡献(特征值),它是衡量因子重要程度的指标,例如第一行的特征值为9.139,后面描述因子的方差依次减少。第三列是各因子变量的方差贡献率(% of Variance),表示该因子描述的方差占原有变量总方差的比例。第四列是因子变量的累计方差贡献率,表示前m个因子描述的总方差占原有变量的总方差的比例。第五列和第七列则是从初始解中按照一定标准(在前面的分析中是设定了提取因子的标准是特征值大于1)提取了3个公共因子后对原变量总体的描述情况。各列数据的含义和前面第二列到第四列相同,可见提取了5个因子后,它们反映了原变量的大部分信息。第八列到第十列是旋转以后得到的因子对原变量总体的刻画情况。各列的含义和第五列到第七列是一样的。 (6)SPSS输出的该部分的结果如下: Component Matrix a Component 1 2 3 4 5 6 人均一般预算性财政收入.959 -.075 .015 .158 -.140 -.023 人均城乡居民储蓄存款.959 .008 -.154 -.107 -.039 .001 每千人拥有病床数.910 -.272 -.089 .204 -.051 .040 第三产业占GDP比重(%) .890 -.087 -.137 -.141 .067 .373 人才密度指数.886 .098 -.098 -.179 .151 -.259 人均城镇固定资产投资额.868 -.162 .404 -.183 .078 .006 每万人拥有执业医师数量.861 -.362 -.183 -.137 -.115 .069 人均实际利用外资额(万美元/ .815 -.271 -.346 -.079 .064 -.012 人) 人均社会消费品零售额.805 .370 -.218 -.203 .026 -.223 人均GDP(元/人) .797 .458 .282 .099 -.029 -.163 科技支出占财政支出比重(%).712 .000 -.097 .621 .302 -.008 在岗职工平均工资.706 .386 .158 .145 -.531 .080 农民人均纯收入.271 .887 -.002 -.088 .245 .253 人均全社会固定资产投资额.611 -.328 .690 -.074 .163 .028 Extraction Method: Principal Component Analysis. a. 13 components extracted. 该表格是最终的因子载荷矩阵A,对应前面的因子分析的数学模型部分。根据该表格可以得到如下因子模型: X=AF+aε x1=0.959F1-0.075F2+0.015F3+0.158 F4-0.140F5-0.023F6-0.096F7+0.017F8-0.117F9 +0.004F10-0.062F11-0.040 F12+0.021 F13 …… Component Matrix a Component 7 8 9 10 11 人均一般预算性财政收入-.096 .017 -.117 .004 -.062 人均城乡居民储蓄存款.109 -.022 -.134 -.073 -.016 每千人拥有病床数.158 .034 .061 .106 -.046 第三产业占GDP比重(%) -.079 -.039 -.044 -.049 .036 人才密度指数-.066 -.252 .066 -.017 -.035 人均城镇固定资产投资额-.024 .094 .001 .015 -.087 每万人拥有执业医师数量.200 -.081 .015 .073 .061 人均实际利用外资额(万美元/ -.330 .115 .080 .021 .023 人) 人均社会消费品零售额.177 .191 .035 -.054 .027 人均GDP(元/人) -.116 -.005 -.101 .094 .081 科技支出占财政支出比重(%).046 -.005 .023 -.059 .014 在岗职工平均工资-.042 -.032 .110 -.058 .000 农民人均纯收入.036 -.006 .039 .053 -.030 人均全社会固定资产投资额.044 .006 .055 -.045 .050 Extraction Method: Principal Component Analysis. a. 13 components extracted. Component Matrix a Component 12 13 人均一般预算性财政收入-.040 .021 人均城乡居民储蓄存款.089 -.015 每千人拥有病床数-.004 -.042 第三产业占GDP比重(%) -.066 -.019 人才密度指数-.019 -.006 人均城镇固定资产投资额-.004 .018 每万人拥有执业医师数量.008 .040 人均实际利用外资额(万美元/ .046 .003 人) 人均社会消费品零售额-.044 -.001 人均GDP(元/人) -.003 -.011 科技支出占财政支出比重(%).002 .016 在岗职工平均工资.011 .002 农民人均纯收入.028 .011 人均全社会固定资产投资额.017 -.006 Extraction Method: Principal Component Analysis. a. 13 components extracted. (7)SPSS输出的该部分的结果如下: 该表格是按照前面设定的方差极大法对因子载荷矩阵旋转后的结果。未经过旋转的载荷矩阵中,因子变量在许多变量上都有较高的载荷。 经过旋转之后,第一个因子含义略加清楚,基本上放映了“每万人拥有执业医师数量”、“第三产业占GDP比重(%)”、“人均实际利用外资额(万美元/人)”;第二个因子基本上反映了“人均全社会固定资产投资额”、“人均城镇固定资产投资额”;第三个因子反映了“在岗职工平均工资”…… Rotated Component Matrix a Component 1 2 3 4 5 6 每万人拥有执业医师数量.877 .278 .182 .163 -.125 .181 第三产业占GDP比重(%) .861 .299 .185 .184 .261 -.010 人均实际利用外资额(万美元/ .806 .133 .102 .242 -.047 .142 人) 人均城乡居民储蓄存款.767 .255 .306 .239 .174 .311 每千人拥有病床数.718 .316 .284 .477 -.082 .165 人均一般预算性财政收入.636 .338 .475 .392 .018 .153 人均全社会固定资产投资额.220 .953 .113 .146 -.063 .002 人均城镇固定资产投资额.500 .772 .239 .123 .096 .177 在岗职工平均工资.288 .161 .896 .130 .239 .107 人均GDP(元/人) .198 .386 .559 .290 .429 .246 科技支出占财政支出比重(%).340 .166 .154 .895 .127 .077 农民人均纯收入-.012 -.044 .187 .063 .972 .105 人均社会消费品零售额.498 .101 .285 .156 .396 .663 人才密度指数.583 .283 .207 .218 .229 .291 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 7 iterations. Rotated Component Matrix a Component 7 8 9 10 11 每万人拥有执业医师数量.105 -.121 -.004 .089 -.060 第三产业占GDP比重(%) .030 .069 -4.382E-5 -.131 .033 SPSS因子分析(因素分析)——实例分析 提起因子分析那是老生常谈,分析人士大都喜欢讨论主成分与因子分析。我也凑个热闹,顺便温习温习,时间长了就会很模糊。 一、概念 探讨存在相关关系的变量之间,是否存在不能直接观察到的但对可观测变量的变化其支配作用的潜在因子的分析方法就是因子分析,也叫因素分析。通俗点:原始变量是共性因子的线性组合。 二、简单实例 现在有12个地区的5个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这12个地区进行综合评价,请确定出这12 个地区的综合评价指标。点击下载 三、解决方案 1、不同地区的不同指标不同,这导致目前我们拥有的5个指标数据很难对这12个地区给一个明确的评价。所以,有必要确定综合评价指标,便于对比。因子分析是一种选择,当然还有其他的方法。5个指标即为我们分析的对象,直接选入。 2、描述统计选项卡。我们要对比因子提取前后的方差变化,所以选定“初始分析结果”;现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数”;比较重要的还有KMO和球形检验,它告诉我们数据是不是适合做因子分析。选定。其他选择自定。 3、抽取选项卡。提取因子的方法有很多,最常用的就是主成分法。这里选主成分。关于特征值,不想解释太多,这和显著性水平一样,都是统计学的一个基本概念。因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。 4、是否需要旋转?因子分析要求对因子给予命名和解释,对因子旋转与否取决于因子的解释。如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。这里直接旋转,便于解释。至于旋转就是坐标变换,使得因子系数向1和0靠近,对公因子的命名和解释更加容易。 5、要计算因子得分,就必须先写出因子的表达式。而因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。前面说到,因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用 现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 问题 题项 从未使用 很少使用 有时使用 经常使用 总是使用 1 2 3 4 5 a1 电脑 a2 录音磁带 a3 录像带 a4 网上资料 a5 校园网或因特网 a6 电子邮件 a7 电子讨论网 a8 CAI 课件 a9 视频会议 a10 视听会议 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 i m im i i i i U F F F F Z +++++=αααα · · · 332211 i Z 为第i 个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的 那批分数中的相对位置的。) m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关系数,它反映了第i 个变量在 第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相 一.研究目的:为了研究农民收入,我们选取了其中7种主要影响因素,包括财政用于农业的支出的比重(%),第二、三产业从业人数占全社会从业人数的比重(%),非农村人口比重,乡村从业人员占农村人口的比重(%),农业总产值占农林牧总产值的比重(%),农作物播种面积(千公顷),农村用电量(亿千瓦时)。(数据见最后一页) 二.研究变量:在经济生活中,根据以上分析,我们在影响农民收入因素中引入7个变量。即设置变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人 农村口的比重,x5-农业总产值占农林牧总产值的比重,x6-农作物播种面积,x7 — 用电量。 一、研究方法:SPSS中的因子分析。 具体操作步骤 (1)定义变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人口的 农村用电比重,x5-农业总产值占农林牧总产值的比重,x6-农作物播种面积,x7 — 量。 (2)导入数据: file-open-data (3)变量标准化Analyze-Descriptive Statistics-Descriptives " 勾选Save standardized values as variables保存变量,再点击ok,就完成了对变量的标准化。 (3)因子分析 Analyze—Dimension Reduction—Faction 点击右侧的Description选项,选择Statistics选项组中的initial solution,勾选Correlation Matrix 选项组中的Coefficients和KMO and Bartlelts test of sphericity,点击Continue。 点击右侧Extraction选项,其中Method选Principal components,Analyze选择Correlation matrix,Display中选择Unrotated factor solution,Extract如图,点击Continue. SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产与供应业,建筑业,批发与零售业,交通运输、仓储与邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产与供应业,建筑业,批发与零售业,交通运输、仓储与邮政业作为变量。 实验方法:因子分析法 软件:spss19、0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2、 Opening excel data source——OK、 第二步: 1、数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量)、 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction—— Factor ,变量选择标准化后的数据、 3.点击右侧Descriptive,勾选Correlation Matrix选项组中的 Coefficients与KMO and Bartlett’s text of sphericity,点击 Continue、 4、点击右侧Extraction,勾选Scree Plot与fixed number with factors,默认3个,点击Continue、 5、点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的Loding Plot(s);点击Continue、 6、点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue、 SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2. Opening excel data source——OK. 第二步: 1.数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction——Factor ,变量选择标准化后的数据. 3.点击右侧Descriptive,勾选Correlation Matrix选项组中的 Coefficients和KMO and Bartlett’s text of sphericity,点击 Continue. 4.点击右侧Extraction,勾选Scree Plot和fixed number with factors,默认3个,点击Continue. 5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的Loding Plot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue. 7.点击右侧Options,勾选Coefficient Display Format选项组中所有选项,将Absolute value blow改为,点击Continue. 8.返回主对话框,单击OK. 输出结果分析: 因子分析 ? 因子分析(Factor analysis ):用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法。 ? 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 ? 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 ? 分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为??????????????=np n n p p x x x x x x x x x X 212222111211 SPSS因子分析经典案例 因子分析已经被各行业广泛应用,各种案例琳琅满目,以前在百度空间发表过相关文章,是以每到4至6月,这些文章总会被高校毕业生扒拉一遍,也总能收到各种魅惑的留言,因此,有必要再次发布这经典案例以飨读者。 什么是因子分析? 因子分析又称因素分析,传统的因子分析是探索性的因子分析,即因子分析是基于相关关系而进行的数据分析技术,是一种建立在众多的观测数据的基础上的降维处理方法。其主要目的是探索隐藏在大量观测数据背后的某种结构,寻找一组变量变化的共同因子。 因子分析能做什么? 人的心理结构具有层次性,即分为外显和内隐。但是作为具有同一性的个体来说,内隐的方面总是和外显的方面相互作用,内隐方面制约着外显特征。所以我们经常说,一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。 反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜存在),这就是因子分析所能做的。 具体来说主要应用于: (1)个体的综合评价:按照综合因子得分对case进行排序; (2)调查问卷效度分析:问卷所列问题作为输入变量,通过KMO、因子特征值贡献率、因子命名等判断调查问卷架构质量; (3)降维处理,结果再利用:因子得分作为变量,进行聚类或其他分析。 案例描述: 高中大家都读过吧,那是一个以成绩论英雄的时代,理科王子、文科小生是时代标签。为什么我们会将数学、物理、化学归并为理科,其他的归并为文科,有没有数据支持?今天我们将用科学的方法找到答案。 100个学生数学、物理、化学、语文、历史、英语成绩如下表(部分),请你来评价他们。 S P S S因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件??? 1.opendatadocument——opendata——open; 2.Openingexceldatasource——OK. 第二步: 1.数据标准化:在最上面菜单里面选中Analyze——DescriptiveStatistics——OK?(变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中 Analyze——DimensionReduction——Factor?,变量选择标准化后的数据. 3.点击右侧Descriptive,勾选CorrelationMatrix选项组中的 Coefficients和KMOandBartlett’stextofsphericity,点击Continue. 4.点击右侧Extraction,勾选ScreePlot和fixednumberwithfactors,默认3个,点击Continue. 5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的LodingPlot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Displayfactorscorecoefficientmatrix;点击Continue. 7.点击右侧Options,勾选CoefficientDisplayFormat选项组中所有选项,将Absolutevalueblow改为0.60,点击Continue. 8.返回主对话框,单击OK. 输出结果分析: 1.描述性统计量 因子分析与主成分分析 一、问题概述 现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。 二、数据处理与分析 1.因子分析 打开数据后,在SPSS中进行因子分析的步骤如下: 选择“分析---降维---因子分析”,在弹出的对话框里 (1)描述---系数、KMO与Bartlett的球形度检验 (2)抽取---碎石图、未旋转的因子解 (3)旋转---最大方差法、旋转解、载荷图 (4)得分---保存为变量、显示因子得分系数矩阵 (5)选项---按大小排序 点击确定得到如下各图: 图3-1 图3-2 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.620 Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000 图3-3 公因子方差 图3-6 成份矩阵a 图3-9 (2)因子模型中各统计量的意义 A)因子载荷错误!未找到引用源。:因子载荷错误!未找到引用源。为第i个变量在第j个因子上的载荷,实际上就是错误!未找到引用源。与错误!未找到引用源。的相关系数,表示变量错误!未找到引用源。依赖因子错误!未找到引用源。的程度,反应了第i个变量错误!未找到引用源。对于第j个因子错误!未找到引用源。的重要性。 B)变量错误!未找到引用源。的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为错误!未找到引用源。,公式为:错误!未找到引用源。=错误!未找到引用源。(j=1,2,….,k) 因子分析作业: 全国30个省市的8项经济指标如下: 要求:先对数据做标准化处理,然后基于标准化数据进行以下操作 1、给出原始变量的相关系数矩阵; 2、用主成分法求公因子,公因子的提取按照默认提取(即特征值大于1),给出公因子的方差贡献度表; 3、给出共同度表,并进行解释; 4、给出因子载荷矩阵,据之分析提取的公因子的实际意义。如果不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,要求给各个公因子赋予实际含义; 5、先利用提取的每个公因子分别对各省市进行排名并作简单分析。最后构造一个综合因子,计算各省市的综合因子的分值,并进行排序并作简单分析。 1、输入数据,依次点选分析描述统计描述,将变量x1到x8选入右边变量下面,点选“将标 准化得分另存为变量”,点确定即可的标准化的数据。 依次点选分析降维因子分析,打开因子分析窗口,将标准化的8个变量选入右边变量下面,点选描述相关矩阵下选中系数及KMO和Bartlett的检验,点继续,确定,就可得出8个变量的相关系数矩阵如下图。 由表中数据可以看出大部分数据的绝对值都在以上,说明变量间有较强的相关性。 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.621 Bartlett 的球形度检验近似卡方 df28 Sig..000 由上图看出,sig.值为0,所以拒绝相关系数为0(变量相互独立)的原假设,即说明变量间存 在相关性。 2、依次点选在因子分析窗口点选抽取方法:主成分;分析:相关性矩阵;输出:未旋转的因子解,碎石图;抽取:基于特征值(特征值大于1);继续,确定,输出结果如下3个图。 解释的总方差 成份 初始特征值提取平方和载入 合计方差的 %累积 %合计方差的 %累积 % 1 2 3 4.403 实验指导之四 因子分析的SPSS操作方法 以例为例进行因子分析操作。 1.在SPSS的数据编辑窗口(见图1)点击Analysize →Data Reduction →Factor,打开Factor Analysis对话框如图 2. 图1 因子分析操作 图2 Factor Analysis 对话框 将参与因子分析的变量依次选入Variables框中。例中有8个参与因子分析的变量,故都选入变量框内。 2.单击Descriptives 按钮,打开Descriptives对话框如图3所示。 Statistics栏,指定输出的统计量。 图3 Descriptives对话框 Univariate descriptives 输出每个变量的基本统计描述; Initial solution 输出初始分析结果。输出主成分变量的相关或协方差矩阵的对角元素。(本例选择) Correlation Matrix栏指定输出考察因子分析条件和方法。 Coefficients相关系数矩阵; Significance levels 相关系数假设检验的P值; Determinant 相关系数矩阵行列式的值; KMO and Bartlett′s test of Sphericity KMO和巴特利检验(本例选择)巴特利检验是关于研究的变量是否适合进行因子分析的检验. 拒绝原假设意味着适合进行因子分析. KMO值等于变量间单相关系数的平方和与单相关系数平方和加上偏相关系数平方和之比, 值越接近1, 意味着变量间的相关性越强,越适合进行因子分分析, KMO值越接近0, 则变量间的相关性越弱. 越不适合进行因子分析. Inverse 相关系数矩阵的逆矩阵; Reproduced 再生相关阵; Anti-image 反映象相关矩阵。 3.单击Extraction 按钮,打开Extraction对话框选项,见图4。 因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解 [例11-1]下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行因子分析。 图 ???对话框(图框。 图 钮返回 图11.3?描述性指标选择对话框 ???点击Extraction...钮,弹出FactorAnalysis:Extraction对话框(图11.4),系统提供如下因子提取方法: 图11.4?因子提取方法选择对话框 ???Principalcomponents:主成分分析法; ???Unweightedleastsquares:未加权最小平方法; ???Generalizedleastsquares:综合最小平方法; ???Maximumlikelihood:极大似然估计法; ???Principalaxisfactoring:主轴因子法; ???Alphafactoring:α因子法; ???对话框。 ???5种因图 ???旋转的目的是为了获得简单结构,以帮助我们解释因子。本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。 ???点击Scores...钮,弹出弹出FactorAnalysis:Scores对话框(图11.6),系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。 图11.6?估计因子分方法对话框? ?11.2.3?结果解释 ??在输出结果窗口中将看到如下统计数据: ??系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有25例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett检验表明:Bartlett值=326.28484,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。 好。今KMO值 NumberofCases?=?????25 CorrelationMatrix: X1???????X2???????X3???????X4???????X5???????X6???????X7 X1????????1.00000 X2?????????.58026??1.00000 因子分析的基本概念与步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握与认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”与“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量与海量数据仍就是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠与高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单与最直接的解决方案就是削减变量的个数,但这必然又会导致信息丢失与信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson与Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富与完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不就是原有变量的简单取舍,而就是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解释 SPSS探索性因子分析的过程 现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一. 因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二. 数学模型 Z i i1F1 i2^ i3F3 …im F m U i 乙为第i个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。) F m为共同因子; m为所有变量共同因子的数目; U为变量Z的唯一因素; i个变量与第im为因子负荷。(也叫因子载荷,统计意义就是第 m个公共因子的相关系数,它反映了第i个变量在第m个公共因子上的相对重要性也就是第m个共同因子对第i个变量的解释程 度。) 因子分析的理想情况,在于个别因子负荷im不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则U彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷.就是第i个原有变量和第m个因子变量间的相关系数,也就是Z在第m个共同因子变量上的相对重要性,因此,.绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于0.8,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能 9.46 9.55 4.94 8.21 9.41 7.31 5.35 4.52 3.08 6.44 1.04 4.25 4.50 2.42 5.11 12.00 11.74 8.07 9.10 12.50 11.58 2.77 1.79 3.75 2.45 16.18 3.51 2.10 4.66 3.10 2.42 1.05 1.29 1.72 0.91 11.2.1数据预备 激活数据治理窗口,定义变量名:分不为X1、X2、X3、X4、X5、X6、X7,按顺序输入相应数值,建立数据库,结果见图11.1。 图11.1原始数据的输入 11.2.2统计分析 激活Statistics菜单选Data Reduction的Factor...命令项,弹出F actor Analysis对话框(图11.2)。在对话框左侧的变量列表中选变量X1至X7,点击?钮使之进入Variables框。 图11.2因子分析对话框 点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框(图11. 3),在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求运算有关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对有关系数矩阵进行统计学检验。点击Continue钮返回Factor Analysis对话框。 图11.3描述性指标选择对话框 点击Extraction...钮,弹出Factor Analysis:Extraction对话框(图11.4),系统提供如下因子提取方法: S P S S探索性因子分析的 过程 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT 现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 Z为第i个变量的标准化分数;(标准分是一种由原始分出来的,它是用来说明原始分i 在所属的那批分数中的相对位置的。) m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关 系数,它反映了第i 个变量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子 31. 因子分析 一、基本原理 因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。 因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。 因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。 因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。 得到估计的因子模型后,还必须对得到的公因子进行解释。即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。该公因子的重要程度就是在因子模型矩 阵中相应于这个因子的系数。 由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。 每个样本都可以计算其在各个公因子上的得分,利用因子得分以及该公因子的方差贡献比例,又可以计算每个样本的综合得分。 二、因子分析实例 例1(综合评价问题)对我国30个省市经济发展的8个指标进行分析和排序。数据文件如下: x1=GDP;x2=居民消费水平;x3=固定资产投资; x4=职工平均工资;x5=货物周转量;x6=居民消费价格; x7=商品价格指数;x8=工业总产值。 1. 【分析】——【降维】——【因子分析】,打开“因子分析”窗口,将变量“x1-x8”选入【变量】框; 实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个 综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为: Lij 是原变量在各主成分上的载荷 无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。 zi 与zj 相互无关; z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。 Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。 主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。 从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。 ?? ? ??? ????? ???=np n n p p x x x x x x x x x X 2 1 222 21 11211?? ? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111?? ? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111SPSS因子分析(因素分析)——实例分析
SPSS探索性因子分析报告地过程
spss因子分析实例
SPSS因子分析报告实例操作步骤
SPSS因子分析实例操作步骤
SPSS因子分析法
SPSS因子分析经典案例
SPSS因子分析实例操作步骤
应用统计学因子分析与主成分分析案例解析_SPSS操作分析
因子分析SPSS操作
SPSS操作方法:因子分析09
(完整版)SPSS因子分析法-例子解释
【精品管理学】spss因子分析案例 共(13页)
SPSS因子分析法例子解释
SPSS探索性因子分析的过程
【管理学】spss因子分析案例 共
SPSS探索性因子分析的过程
spss学习系列31.因子分析
SPSS因子分析法22