SAS学习系列34.-因子分析
- 格式:docx
- 大小:232.58 KB
- 文档页数:27
因子分析SPSS操作因子分析是一种多变量统计方法,旨在发现潜在的结构和相关性,以便简化数据集并解释变量之间的关系。
SPSS(统计软件包社会科学)是一种广泛使用的统计软件,可以帮助研究人员进行因子分析。
在SPSS中进行因子分析的步骤如下:1.数据准备:-确保数据集已经导入到SPSS中。
-检查和清洗数据,确保数据完整、准确,并且符合因子分析的前提条件。
2.因子分析模型:- 打开SPSS软件并选择“Analyze”菜单。
- 从下拉菜单中选择“Dimension Reduction”>“Factor Analysis”。
3.变量选择:- 从左侧的变量列表中选择要进行因子分析的变量,并将它们移动到右侧的“Variables”框中。
-这些变量应该是连续变量,而非分类变量。
4.因子提取:- 在“Factor Analysis”对话框的“Extraction”选项卡中选择因子提取方法。
- 确定要提取的因子数量。
可以使用Kaiser标准(主成分分析时为特征值大于1)或Scree Plot来指导因子数量的选择。
5.因子旋转:- 进入“Rotation”选项卡,选择适当的因子旋转方法。
- 常用的方法包括Varimax、Promax、Quartimax等。
-因子旋转的目标是最大化因子载荷的简单性和解释性。
6.结果解释:-在因子分析的结果中,可以查看各个变量的因子载荷矩阵,它描述了每个变量在每个因子上的影响程度。
-可以选择将因子载荷阈值设置为一定值,以便筛选出具有较高负载的变量。
-查看每个因子的解释方差,以了解它们对原始变量的解释程度。
7.结果可视化:-可以使用SPSS的图表功能来可视化因子分析结果。
-比如,可以绘制因子载荷矩阵的热图,用不同颜色表示不同的负载水平。
-还可以绘制因子解释方差的条形图,以比较每个因子的贡献程度。
需要注意的是,因子分析在使用时需要考虑以下几点:-样本量必须足够大,一般建议至少大于观测变量数的10倍。
因子分析的原理及步骤因子分析是一种多变量统计方法,用于探索观测数据背后的潜在结构,包括变量之间的关系和潜在因子的存在。
在因子分析中,我们希望将多个观测变量解释为较小数量的潜在因子,这有助于简化数据和理解数据背后的结构。
因子分析的基本原理是假设观测变量通过潜在因子来解释,这些潜在因子无法直接观测到,只能通过观测变量的共同方差来间接体现。
根据这个假设,因子分析通过对观测变量之间的协方差矩阵进行分解,得到潜在因子与观测变量之间的关系,以及每个观测变量对于每个潜在因子的贡献。
因子分析的步骤如下:1. 收集数据:首先,需要收集包含多个观测变量的数据集。
这些变量可以是定量的,如身高、体重等,也可以是分类变量,如性别、职业等。
数据集应该是相对完整和可靠的。
2. 确定分析目标:在进行因子分析之前,需要明确分析的目标。
例如,我们可能希望找到最能解释原始数据的因子数目,或者找到最能准确预测观测变量的因子。
3. 数据预处理:在进行因子分析之前,需要对数据进行预处理。
常见的预处理方法包括标准化、缺失值处理等。
标准化可以使得不同变量之间的量级一致,从而减少因子分析结果的偏差。
4. 估计因子载荷:因子载荷是指每个观测变量对于每个因子的贡献。
通过估计因子载荷,我们可以了解每个观测变量与每个因子之间的关系强度。
常用的估计方法包括主成分分析和最大似然估计。
5. 确定因子数目:在因子分析中,一个重要的问题是如何确定因子的数目。
常用的方法有Kaiser准则和屏蔽图。
Kaiser准则认为,仅保留特征值大于1的因子。
屏蔽图则通过观察各个因子的特征值曲线,选择特征值明显下降的截止点。
6. 解释因子:在确定了因子数目之后,我们可以解释每个因子所代表的含义。
这需要仔细研究每个因子的载荷矩阵和观测变量之间的关系。
通常,我们将大于0.4的载荷定义为显著载荷,表示该观测变量对该因子的贡献较大。
7. 旋转因子:旋转因子是为了更好地解释因子结构而进行的。
因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。
例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。
虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。
虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。
变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。
学生智力因子分析摘要:因子分析是指研究从变量群中提取共性因子的统计技术。
最早由英国心理学家C.E.斯皮尔曼提出。
他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。
因子分析可在许多变量中找出隐藏的具有代表性的因子。
将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
本文通过对40名学生的12项智力指标进行因子分析,找出潜在的因子。
关键词:因子分析,潜在因子,智力一、背景分析二、研究目标某研究收集了40名学生的12项智力指标。
这12项指标分别为常识(x1)、类同(x2)、计算(x3)、词汇(x4)、理解(x5)、数字广度(x6)、填图(x7)、图片排列(x8)、积木(x9)、拼图(x10)、译码(x11)和迷津(x12)。
将原始数据经过标准化处理后,计算其相关系数矩阵,结果列在下表中,试进行探索性因子分析,找出潜在因子,并找出其支配的指标。
三、数据描述1.sas程序data ex17_2 (type=corr);infile cards missover; input _name_ $3. x1-x12; _type_='Corr';if _n_=1 then _type_='N'; else _type_='Corr';cards;df 40 40 40 40 40 40 40 40 40 40 40 40x1 1.000 . . . . . . . . . . .X2 0.6904 1.000 . . . . . . . . . .X3 0.4115 0.4511 1.000 . . . . . . . . .X4 0.4580 0.7068 0.4018 1.000 . . . . . . . .X5 0.5535 0.6620 0.4122 0.7119 1.000 . . . . . . .X6 0.3923 0.6317 0.4520 0.4583 0.5299 1.000 . . . . . .X7 0.1415 0.3009 0.2025 0.2665 0.2480 0.1590 1.000 . . . . . X8 0.0077 0.0344 0.1855 0.1065 0.0003 0.1100 0.3595 1.000 . . ..X9 0.2385 0.3523 0.3646 0.3644 0.3388 0.3982 0.5004 0.3314 1.000 .. .x10 0.0333 0.1726 0.1311 0.1757 0.1998 0.0342 0.5758 0.1420 0.28081.000 . .x11 0.0898 0.3878 0.2041 0.3191 0.3186 0.2914 0.2537 0.2025 0.39710.1468 1.000 .x12 0.2215 0.2427 0.4124 0.2169 0.1459 0.0985 0.4222 0.2156 0.50160.2286 0.0776 1.000;run;proc factor data=ex17_2 rotate=varimax reorder;var x1-x12;run;2.输出结果这是用主成分分析法提取初始公因子的第一部分结果,相关矩阵特征值总和为12 (指标数),前4个特征值都大于1,下面将根据这4个较大的特征值提取4个相应的初始公因子.含有4个公因子的初始公因子模型为:X1=0.63945F1-0.39857F2-0.30050F3-0.14330F4…X12=0.47558F1+ 0.44754F2 -0.58084F3+ 0.00825F4第1~第4个公因子能解释的方差分别为4.5719767、1.8813496、1.0527141和1.0214560。
主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程上一系列文章介绍了主成分分析概述。
今天,我们将介绍使用PRINCOMP过程进行主成分分析。
在SAS中,某种统计方法可能可以通过多个过程步实现。
这时候有必要了解过程步之间的区别。
比如,主成分分析就可以通过PROC FACTOR或PROCPRINCOMP实现。
PRINCOMP过程使用PROC PRINCOMP进行主成分分析时,其输入可以是原始数据集、协方差矩阵或相关矩阵等,其输出数据集包含特征根、特征向量以及标准化或未标准化的主成分得分。
此外,使用者还可以通过ODS图像选项输出陡坡图(Scree Plot)、成分特征图(Component Pattern Plot)等图形,这些图形都是进行主成分分析的有用工具。
过程步PROC PRINCOMP的一般形式为:其中:•PROC PRINCOMP语句中常见的选项如表12.1所示。
•BY语句指定分组变量。
PROC PRINCOMP根据BY语句中的变量对原数据进行分组分析。
若BY语句中的变量多于一个,那么仅最后一个变量起作用。
该语句要求原始数据已按照BY语句中的变量排序。
•VAR 语句指定数据集中用来进行主成分分析的变量,这些指定变量类型必须为数值型。
表12.1 PROC PRINCOMP常见的选项及含义例12.1:数据集sashelp.cars包含不同型号的汽车的一些参数,共有15个变量以及428条观测,具体变量的含义如表12.2所示。
现在要根据数据集sashelp.cars中的变量MPG_City、MPG_Highway、Weight、Wheelbase以及 Length,对其进行主成分分析。
表12.2 数据集sashelp.cars中的变量具体信息示例代码如下:程序的输出结果中包含了数据集的一些简单统计量,具体如图12.3所示。
图12.3 数据集sashelp.cars的简单统计量紧接着是相关矩阵以及该矩阵对应的特征值,如图12.4所示。
第二十三章因子分析SAS程序设计一、因子分析定义1、因子分析(factor analysis)的概念:是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
P171因子分析:是要找出某个问题中可直接测量的,具有一定相关性的众多指标,如何受少数几个在专业上有意义,又不可测量的,且相对独立的因子支配的规律,从而可用众多指标的测定值来间接确定各因子的状态。
有一些可测量相关指标,受一些因子的影响,因子分析就是要找出这些因子。
因子分析的基本思想:通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个新随机变量去描述多个变量关系,这少数几个新随机变量是不可观察的,通常称为因子。
然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,受某个因子的影响,不同组之间的变量相关性较低,受另一些因子的影响。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
如股票价格的影响因素经过因子分解以后得出两个主要因子,市场因子和行业因子。
如根据运动员的各项运动成绩,百米速度、跳高、跳远、投掷等十项全能成绩,归纳四个主要因子:耐力、短跑速度、爆发性臂力和腿力。
如考试成绩的影响因素:智力因子、记忆力因子等2、企业的经营状况可以用很多财务指标来表示,资产负债率、流动比率、每股收益、主营利润、净利润增长率、主营业务增长率等。
这些指标经过因子分析后归纳为几个重要因子。
偿债能力、盈利能力、增长能力等。
财务指标分类2、因子分析的意义●因子分析研究变量间的关系;●对数据压缩●3、因子分析与主成分分析的区别与联系(A)相同之处(1)、二者都是用线性模型。
(2)、都是从协方差矩阵中得到信息(3)、都可以对数据压缩(4)、因子分析中用主成分法求初始解(5)各主成分之间无关与各因子之间无关(6)应用于综合评价排序(B)区别之处因子分析与主成分分析的差异Γ是任一个m ×M 的正交阵。
SAS学习系列34.-因子分析
34.因子分析
(一)基本原理
一、概述
因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。
通常情况下,这些相关因素并不能直观观测。
因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
主成分分析是因子分析的特例。
主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。
因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。
二、原理
假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m<p )个共同因素f 1,…f m 的影响,再加上其它影响因素。
表示为:
用矩阵表示为
111p p m m p X A f e ⨯⨯⨯⨯=+
其中,共同影响因素f 1,…f m 是均值为0方差为1的随机变量,称为公共因子;A p×m 称为因子载荷矩阵,a ji 是第j 变量在第i 公共因子上的负荷,即X j 在坐标轴f i 上的投影;e i 是变量X i 所特有的因子,均值为0方差为σi 2,称为特殊因子。
各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即COV(e i , e j )=0, COV(e, f )=0. 因子分析就是用f 1,…f m 代替X 1, …, X p , 达到降维的目的。
主成份分析中,残差通常是彼此相关的。
因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。
而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。
在开始提取公共因子时,已假定它们彼此不相关且具有单位方差。
故向量X 的协方差矩阵Σ可以表为
Σ=D(X)=D(Af+e)=AA T +D
其中,D=diag(σ12, …, σp 2). 若假定X 已标准化,即每个X i 都均值为0
方差为1. 则
1122221
1var()i i i im m p i ij i i X a f a f a f X a σ==+++⎧⎪⎨==+⎪⎩∑ 记2
21m
i
ij j h a ==∑称为变量共同度,则有221, 1,...,i i h i p σ=+=. h i 2反映了公共因子f 对X i 的影响(贡献),即X i 对共同因素f 的依赖程度;σi 2为剩余方差,若h i 2接近1,σi 2很小,则表明因子分析的效果好。
公共因子f j 对X i 的影响,可由A 中第j 列元素来描述,
221p
i ij i g a ==∑
称为公共因子f j 对X 的贡献,是衡量公共因子重要性的尺度。
a ij 为第i 个变量与第j 个公共因子的相关系数,反映了它们的相关程度:
三、求因子载荷矩阵
若X 的协方差矩阵∑和D 已知,则根据∑-D =AA T 求出A
1122(,,)m m A λξλξλξ=
其中,λ1≥λ2≥…λm >λm+1=…=λp =0为∑*=∑-D 的特征值,ξi 为相应的特征向量。
但在实际问题中,并不知道∑和D ,就需要从n 个样品,p
个指标的np 个样本数据,估计因子载荷a ij 和特殊因子方差σi 2. 常用的参
数估计法有:主成分法、主因子解法、极大似然法。
(1)主成分法
记样本数据的协方差矩阵为ˆ∑,其特征值λ1≥λ2≥…≥λp ≥0, 相
应的特征向量为ξi . 当最后p-m 个特征值较小时,对ˆ∑
做谱分解: 111222ˆ=T T T m m m D λξξλξξλξξ∑+++ 先取111a λξ=,看11
ˆT a a ∑-是否接近对角矩阵,若是,说明只取一个公共因子就行了,所有指标主要受到这一个公共因子的影响;若否,再取222a λξ=,看1122
ˆT T a a a a ∑--是否接近对角矩阵……象主成分分析一样,直接取前q 个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。
此时,特殊因子方差为
221ˆ, 1,...,q
i
ii ki k a i p σ==∑-=∑ (2)主因子解法
主因子解法是对主成分法的修正,记样品数据的相关矩阵为R ,设R= AA T + D ,则R* = R –D = AA T 称为约相关矩阵。
若已知特殊因
子方差的初始估计*2ˆ()i σ
,则*2*2ˆ()1()i i h σ=-,故
计算R *的特征值λ1*≥λ2*≥…≥λp *>0,相应的特征向量为u i *, 则有近似分解式:R* = AA T , 其中
令
则A和D为因子模型的一个解,称为主因子解。
在实际中特殊因子方差是未知的,以上得到的解是近似解。
为了得到近似程度更好的解,常常采用迭代主因子法。
即利用上面得到的
作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。
变量共同度h i2常用的初始估计有以下三种方法:
①取第i个变量与其他所有变量的多重相关系数的平方;
②取第i个变量与其他变量相关系数绝对值的最大值;
③取1(等价于主成分解)。
(3)极大似然法
假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。
设p维观测向量X(1),...,X(n)为来自正态总体N p(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).
μ=,则似然函数为A,D的函数:φ(A,D),设∑= AA T +D,取X
求A,D使φ(A,D)达到最大。
为保证得到唯一解,可附加计算上方便的唯一性条件:A T D-1A = 对角阵,用迭代方法可求得极大似然估计A和D。
四、公共因子的解释
得到估计的因子模型后,还必须对得到的公因子进行解释。
即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。
该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。
因子解释是一种主观的方法,有时侯通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。
1. 因子旋转
将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。
它并不影响变量X i的共同度h i2,却会改变因子的方差贡献g j2。
因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。
设p维可观测向量X满足因子模型:X = AF +e。
T为正交矩阵,则因子模型可写为
X = ATT T F + e = A*F* + e
其中A* = AT,F* = T T F. 易知,
∑= AA T + D = A*A*T + D
其中A* = AT. 这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子解。
在这个意义下,因子解是不惟一的。
由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。
有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。
这些旋转方法的目标是一致的,只是策略不同。
如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。
倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。
在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。
因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。
2. 因子得分
计算因子得分,是用原有变量来描述因子,第j个因子在第i个样品上的值可表示为:
F ji = βj1x i1 + βj2x i2+…+ βjp x ip j = 1, …, k
其中,x i1, …, x ip分别是第1, …, p个原有变量在第i个样品上的取值,βj1, …, βjp分别是第j个因子和第1, …, k个原有变量间的因子值系数。
可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(βj1, …, βjp)总和,权数的大小表示了变量对因子的重要程度。
于是有
F j = βj1X1+βj2X2+…+βjp X p j = 1, …, k
称为因子得分函数。
由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。
因此,对因子值系数通常采用最小二乘意义下的回归法进行估计。
可将上式看作是因子变量F j对p个原有变量的线性回归方程(其中常数项为0)。
可以证明,式中回归系数的最。