主成分、因子分析步骤
- 格式:doc
- 大小:687.00 KB
- 文档页数:13
因子分析︱使用Stata做主成份分析因子分析是一种常用的多变量数据分析方法,可以用于降维、变量筛选和构建综合指标等方面。
在实际应用中,Stata是一款功能强大的统计软件,可以方便地进行因子分析。
本文将介绍如何使用Stata进行主成份分析。
首先,我们需要准备好需要进行因子分析的数据。
假设我们有一份包含10个变量的数据集,每一个变量都代表了某种特征或者指标。
我们希翼通过因子分析来找出这些变量的共同因素,并将其转化为更少的几个主成份。
在Stata中,我们可以使用“factor”命令来进行主成份分析。
首先,我们需要加载数据集。
假设我们的数据集名为“data”,我们可以使用以下命令加载数据:```use data```接下来,我们可以使用“factor”命令进行主成份分析。
以下是一个示例命令:```factor var1-var10, pcf```在上述命令中,“var1-var10”表示我们要进行因子分析的变量范围,而“pcf”表示使用主成份法进行因子分析。
执行该命令后,Stata会输出一份关于因子分析结果的报告。
报告中的一项重要指标是共同度(communality),它表示每一个变量与所有因子的相关程度。
共同度越高,说明变量与因子之间的关联越强。
我们可以根据共同度来判断每一个变量对应的主成份是否合适。
此外,报告还会给出每一个主成份的解释方差比例(proportion of variance explained)。
解释方差比例表示每一个主成份能够解释原始数据中的多少方差。
通常,我们希翼选择解释方差比例较高的主成份,以便更好地代表原始数据。
在进行因子分析后,我们还可以使用“rotate”命令对主成份进行旋转,以便更好地解释数据。
Stata提供了多种旋转方法,如方差最大旋转(varimax rotation)和直角旋转(orthogonal rotation)等。
我们可以根据需要选择合适的旋转方法。
除了使用命令行进行因子分析,Stata还提供了可视化工具来匡助我们更好地理解和解释数据。
主成分分析、因子分析步骤最大收敛性迭代次数:默认25.(3)因子旋转(Rotation)对话框设置因子旋转的方法,常选择“最大方差法”。
“输出”框中的“旋转解”。
(4)因子得分(Scores)对话框设置“保存为变量”,则可将新建立的因子得分储存至数据文件中,并产生新的变量名称。
(5)选项(Options)对话框设置2结果分析(1)KMO及Bartlett’s检验(很、Communalities(称共同度)表示公因子对各个变量能说明的程度,每个变量的初始公因子方差都为1,共同度越大,公因子对该变量说明的程度越大,也就是该变量对公因子的依赖程度越大。
共同度低说明在因子中的重要度低。
一般的基准是<0.4就可以认为是比较低,这时变量在分析中去掉比较好。
(3)解释的总方差至此已经将5个问项降维到两个因子,在数据文件中可以看到增加了2个变量,fac1_1、fac2_1,即为因子得分。
(4)成分矩阵与旋转成分矩阵成分矩阵是未旋转前的因子矩阵,从该表中并无法清楚地看出每个变量到底应归属于哪个因子。
旋转后的因子矩阵,从该表中可清楚地看出每个变量到底应归属于哪个因子。
此表显示旋转后原始的所有变量与新生的2个公因子之间的相关程度。
一般的,因子负荷量的绝对值0.4以上,认为是显着的变量,超过0.5时可以说是非常重要的变量。
如味道与饭量关于因子1的。
=-0.010*X1+0.425*X2-0.038*X3+0.408*X4-0.316*X5因子2的分数=0.447*X1-0.036*X2+0.424*X3+0.059*X4-0.371*X5(6)因子转换矩阵元件转换矩阵元件 1 21 .723 -.6912 .691 .723撷取方法:主体元件分析。
转轴方法:具有Kaiser正规化的最大变异法。
因子转换矩阵是主成分形式的系数。
(7)因子得分协方差矩阵,【得分】:“保存为变量”【方法】:“回归”;再选中“显示因子得分系数矩阵”。
因子分析和主成分分析的方法步骤
一、主成分分析
步骤(详细步骤见算法大全低二十九章:多元分析)
1)对原始数据进行标准化处理
2)计算相关系数矩阵R
3)计算特征值和特征向量
(要对特征向量进行正则化,即特征向量值/sqrt(对应的特征值),这一步需要自己计算)
4)根据累计贡献率得到主成分P,计算综合评价值
5)②计算综合得分
二、因子分析
步骤(详细步骤见算法大全低二十九章:多元分析)
1.选择分析的变量
2.计算所选原始变量的相关系数矩阵
3.提出公共因子
4.因子旋转
5.计算因子得分
用SPSS解决步骤:
注:以上为主成分分析和因子分析对应的操作步骤,对得到的结果进行相应的分析可以参考《SPSS 统计分析高级教程》中的主成分分析和因子分析。
数据分析中的因子分析和主成分分析在数据分析领域,因子分析和主成分分析是两种常用的多变量分析方法。
它们可以用来处理大量的数据,找出数据的内在规律,并将数据简化为更少的变量。
本文将介绍因子分析和主成分分析的定义、应用以及它们在数据分析中的区别和联系。
一、因子分析因子分析是一种用于研究多个变量之间的潜在因素结构及其影响的统计方法。
它通过将多个观测变量转化为少数几个无关的因子,来解释变量之间的相关性。
因子分析的基本思想是将多个相关观测变量归因于少数几个潜在因子,这些潜在因子不能被观测到,但可以通过观测变量的变化来间接地推断出来。
因子分析通常包括两个主要步骤:提取因子和旋转因子。
提取因子是指确定能够解释原始变量方差的主要共性因子,常用的方法有主成分分析法和最大似然估计法。
旋转因子是为了减少因子之间的相关性,使得因子更易于解释。
常用的旋转方法有正交旋转和斜交旋转。
因子分析的应用非常广泛,可以用于市场研究、社会科学调查、心理学、金融等领域。
例如,在市场研究中,因子分析可以用来确定消费者购买行为背后的潜在因素,从而更好地理解市场需求。
二、主成分分析主成分分析是一种通过线性变换将原始变量转化为一组线性无关的主成分的统计方法。
主成分是原始变量的线性组合,具有较大的方差,能够尽可能多地解释原始数据。
主成分分析的主要思想是将原始变量投影到一个新的坐标系中,使得新坐标系上的第一主成分具有最大方差,第二主成分具有次最大方差,以此类推。
通过选择解释原始数据方差较多的前几个主成分,我们可以实现数据的降维和主要信息提取。
主成分分析在数据降维、特征提取和数据可视化等领域有广泛的应用。
例如,在图像处理中,主成分分析可以用来压缩图像数据、提取重要特征,并且可以在保留图像主要信息的同时减少存储空间的需求。
三、因子分析和主成分分析的区别和联系因子分析和主成分分析在某些方面有相似之处,但也存在明显的区别。
首先,因子分析是用于研究多个观测变量之间的潜在因素结构,而主成分分析是通过线性变换将原始变量转化为一组线性无关的主成分。
主成分、因⼦分析步骤主成分、因⼦分析步骤主成分分析、因⼦分析步骤不同点主成分分析因⼦分析概念具有相关关系的p个变量,经过将原数据中多个可能相关的变量综合成少数⼏线性组合后成为k个不相关的新个不相关的可反映原始变量的绝⼤多数信息的变量综合变量主要减少变量个数,以较少的主成分找寻变量间的内部相关性及潜在的共同因素,⽬标来解释原有变量间的⼤部分变适合做数据结构检测异,适合于数据简化强调强调的是解释数据变异的能⼒,强调的是变量之间的相关性,以协⽅差为导向,重点以⽅差为导向,使⽅差达到最⼤关⼼每个变量与其他变量共同享有部分的⼤⼩最终结形成⼀个或数个总指标变量反映变量间潜在或观察不到的因素果应⽤变异解它将所有的变量的变异都考虑只考虑每⼀题与其他题⽬共同享有的变异,因释程度在内,因⽽没有误差项⽽有误差项,叫独特因素是否需主成分分析作综合指标⽤,因⼦分析需要经过旋转才能对因⼦作命名与解要旋转不需要旋转释是否有只是对数据作变换,故不需要假因⼦分析对资料要求需符合许多假设,如果假假设设设条件不符,则因⼦分析的结果将受到质疑因⼦分析1 【分析】?【降维】?【因⼦分析】(1)描述性统计量(Descriptives)对话框设置KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是否适合作因⼦分析)。
(2)因⼦抽取(Extraction)对话框设置⽅法:默认主成分法。
主成分分析⼀定要选主成分法分析:主成分分析:相关性矩阵。
输出:为旋转的因⼦图抽取:默认选1.最⼤收敛性迭代次数:默认25.(3)因⼦旋转(Rotation)对话框设置因⼦旋转的⽅法,常选择“最⼤⽅差法”。
“输出”框中的“旋转解”。
(4)因⼦得分(Scores)对话框设置“保存为变量”,则可将新建⽴的因⼦得分储存⾄数据⽂件中,并产⽣新的变量名称。
(5)选项(Options)对话框设置2 结果分析(1)KMO及Bartlett’s检验KMO 和 Bartlett 的检验取样⾜够度的 Kaiser-Meyer-Olkin 度量。
主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
主成分分析、因子分析步骤不同点主成分分析因子分析概念具有相关关系的p个变量,经过线性组合后成为k个不相关的新变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量主要目标减少变量个数,以较少的主成分来解释原有变量间的大部分变异,适合于数据简化找寻变量间的部相关性及潜在的共同因素,适合做数据结构检测强调重点强调的是解释数据变异的能力,以方差为导向,使方差达到最大强调的是变量之间的相关性,以协方差为导向,关心每个变量与其他变量共同享有部分的大小最终结果应用形成一个或数个总指标变量反映变量间潜在或观察不到的因素变异解释程度它将所有的变量的变异都考虑在,因而没有误差项只考虑每一题与其他题目共同享有的变异,因而有误差项,叫独特因素是否需要旋转主成分分析作综合指标用,不需要旋转因子分析需要经过旋转才能对因子作命名与解释是否有假设只是对数据作变换,故不需要假设因子分析对资料要求需符合许多假设,如果假设条件不符,则因子分析的结果将受到质疑因子分析1 【分析】→【降维】→【因子分析】(1)描述性统计量(Descriptives)对话框设置KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是否适合作因子分析)。
(2)因子抽取(Extraction)对话框设置方法:默认主成分法。
主成分分析一定要选主成分法分析:主成分分析:相关性矩阵。
输出:为旋转的因子图抽取:默认选1.最大收敛性迭代次数:默认25.(3)因子旋转(Rotation)对话框设置因子旋转的方法,常选择“最大方差法”。
“输出”框中的“旋转解”。
(4)因子得分(Scores)对话框设置“保存为变量”,则可将新建立的因子得分储存至数据文件中,并产生新的变量名称。
(5)选项(Options)对话框设置2 结果分析(1)KMO及Bartlett’s检验KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
.515Bartlett 的球形度检验近似卡方 3.784df 6Sig. .706当KMO值愈大时,表示变量间的共同因子愈多,愈适合作因子分析。
根据Kaiser的观点,当KMO>0.9(很棒)、KMO>0.8(很好)、KMO>0.7(中等)、KMO>0.6(普通)、KMO>0.5(粗劣)、KMO<0.5(不能接受)。
(2)公因子方差公因子方差起始撷取卫生 1.000 .855饭量 1.000 .846等待时间 1.000 .819味道 1.000 .919亲切 1.000 .608撷取方法:主体元件分析。
Communalities(称共同度)表示公因子对各个变量能说明的程度,每个变量的初始公因子方差都为1,共同度越大,公因子对该变量说明的程度越大,也就是该变量对公因子的依赖程度越大。
共同度低说明在因子中的重要度低。
一般的基准是<0.4就可以认为是比较低,这时变量在分析中去掉比较好。
(3)解释的总方差第二列统计的值是各因子的特征值,即各因子能解释的方差,一般的,特征值在1以上就是重要的因子;第三列%是各因子的特征值与所有因子的特征值总和的比,也称因子贡献率;第四列是因子累计贡献率。
如因子1的特征值为2.451,因子2的特征值为1.595,因子3,4,5的特征值在1以下。
因子1的贡献率为49.0%,因子2的贡献率为31.899%,这两个因子贡献率累积达80.9%,即这两个因子可解释原有变量80.9%的信息,因而因子取二维比较显著。
至此已经将5个问项降维到两个因子,在数据文件中可以看到增加了2个变量,fac1_1、fac2_1,即为因子得分。
(4)成分矩阵与旋转成分矩阵成分矩阵是未旋转前的因子矩阵,从该表中并无法清楚地看出每个变量到底应归属于哪个因子。
旋转后的因子矩阵,从该表中可清楚地看出每个变量到底应归属于哪个因子。
此表显示旋转后原始的所有变量与新生的2个公因子之间的相关程度。
一般的,因子负荷量的绝对值0.4以上,认为是显著的变量,超过0.5时可以说是非常重要的变量。
如味道与饭量关于因子1的负荷量高,所以聚成因子1,称为饮食因子;等待时间、卫生、亲切关于因子2的负荷量高,所以聚成因子2,又可以称为服务因子。
(5)因子得分系数矩阵元件评分系数矩阵元件1 2卫生-.010 .447饭量.425 -.036等待时间-.038 .424。
因子1的分数=-0.010*X1+0.425*X2-0.038*X3+0.408*X4-0.316*X5因子2的分数=0.447*X1-0.036*X2+0.424*X3+0.059*X4-0.371*X5(6)因子转换矩阵元件转换矩阵元件 1 21 .723 -.6912 .691 .723撷取方法:主体元件分析。
转轴方法:具有 Kaiser 正规化的最大变异法。
因子转换矩阵是主成分形式的系数。
(7)因子得分协方差矩阵看各因子间的相关系数,若很小,则因子间基本是两两独立的,说明这样的分类是较合理的。
主成分分析1 【分析】——【降维】——【因子分析】(1)设计分析的统计量【相关性矩阵】中的“系数”:会显示相关系数矩阵;【KMO和Bartlett的球形度检验】:检验原始变量是否适合作主成分分析。
【方法】里选取“主成分”。
【旋转】:选取第一个选项“无”。
【得分】:“保存为变量”【方法】:“回归”;再选中“显示因子得分系数矩阵”。
2 结果分析(1)相关系数矩阵相关性矩阵食品 衣着 燃料 住房 交通和通讯娱乐教育文化相关食品 1.000 .692 .319 .760 .738 .556 衣着 .692 1.000 -.081 .663 .902 .389 燃料 .319 -.081 1.000 -.089 -.061 .267 住房 .760 .663 -.089 1.000 .831 .387 交通和通讯 .738 .902 -.061 .831 1.000 .326 娱乐教育文化.556.389.267.387.3261.000两两之间的相关系数大小的方阵。
通过相关系数可以看到各个变量之间的相关,进而了解各个变量之间的关系。
由表中可知许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。
(2)KMO 及Bartlett ’s 检验KMO 与 Bartlett 检定Kaiser-Meyer-Olkin 测量取样适当性。
.602 Bartlett 的球形检定 大约 卡方 62.216 df 15显著性.000根据Kaiser 的观点,当KMO >0.9(很棒)、KMO >0.8(很好)、KMO >0.7(中等)、KMO >0.6(普通)、KMO >0.5(粗劣)、KMO <0.5(不能接受)。
(3)公因子方差Communalities起始 擷取 食品 1.000 .878 衣着 1.000.825燃料 1.000 .841住房 1.000 .810交通和通讯 1.000 .919娱乐教育文化 1.000 .584擷取方法:主體元件分析。
Communalities(称共同度)表示公因子对各个变量能说明的程度,每个变量的初始公因子方差都为1,共同度越大,公因子对该变量说明的程度越大,也就是该变量对公因子的依赖程度越大。
共同度低说明在因子中的重要度低。
一般的基准是<0.4就可以认为是比较低,这时变量在分析中去掉比较好。
80.9%,即这两个因子可解释原有变量80.9%的信息,因而因子取二维比较显著。
(5)成分矩阵(因子载荷矩阵)元件矩阵a元件1 2食品.902 .255衣着.880 -.224燃料.093 .912住房.878 -.195交通和通讯.925 -.252娱乐教育文化.588 .488撷取方法:主体元件分析。
a. 撷取 2 个元件。
该矩阵并不是主成分1和主成分2的系数。
主成分系数的求法:各自主成分载荷向量除以主成分方差的算数平方根。
则第1主成分的各个系数是向量(0.925,0.902,0.880,0.878,0.588,0.093)除以568.3后才得到的,即(0.490,0.478,0.466,0.465,0.311,0.049)才是主成分1的特征向量。
第1主成分的函数表达式:Y1=0.490*Z交+0.478*Z食+0.466*Z衣+0.465*Z住+0.311*Z娱+0.049*Z燃(6)因子得分因子得分显示在SPSS的数据窗口里。
通过因子得分计算主成分得分。
(7)主成分得分主成分的得分是相应的因子得分乘以相应方差的算数平方根。
即:主成分1得分=因子1得分乘以3.568的算数平方根主成分2得分=因子2得分乘以1.288的算数平方根【转换】—【计算变量】(8)综合得分及排序综合得分是按照下列公式计算:综合得分Y为:【数据】——【排序个案】。