四川师范大学 SPSS 实验九 主成分分析与因子分析
- 格式:docx
- 大小:483.54 KB
- 文档页数:8
因子分析因子分析一、基础理论知识1 概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法.从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法.它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例.2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多.3 类型根据研究对象的不同,把因子分析分为R型和Q型两种.当研究对象是变量时,属于R型因子分析;当研究对象是样品时,属于Q型因子分析.但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :当p 较大时,在p 维空间中考察问题比较麻烦。
实验课:因子分析实验目的理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。
因子分析一、基础理论知识1 概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
主成分分析、因子分析步骤不同点主成分分析因子分析概念具有相关关系的p个变量,经过线性组合后成为k个不相关的新变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量主要目标减少变量个数,以较少的主成分来解释原有变量间的大部分变异,适合于数据简化找寻变量间的部相关性及潜在的共同因素,适合做数据结构检测强调重点强调的是解释数据变异的能力,以方差为导向,使方差达到最大强调的是变量之间的相关性,以协方差为导向,关心每个变量与其他变量共同享有部分的大小最终结果应用形成一个或数个总指标变量反映变量间潜在或观察不到的因素变异解释程度它将所有的变量的变异都考虑在,因而没有误差项只考虑每一题与其他题目共同享有的变异,因而有误差项,叫独特因素是否需要旋转主成分分析作综合指标用,不需要旋转因子分析需要经过旋转才能对因子作命名与解释是否有假设只是对数据作变换,故不需要假设因子分析对资料要求需符合许多假设,如果假设条件不符,则因子分析的结果将受到质疑因子分析1 【分析】→【降维】→【因子分析】(1)描述性统计量(Descriptives)对话框设置KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是否适合作因子分析)。
(2)因子抽取(Extraction)对话框设置方法:默认主成分法。
主成分分析一定要选主成分法分析:主成分分析:相关性矩阵。
输出:为旋转的因子图抽取:默认选1.最大收敛性迭代次数:默认25.(3)因子旋转(Rotation)对话框设置因子旋转的方法,常选择“最大方差法”。
“输出”框中的“旋转解”。
(4)因子得分(Scores)对话框设置“保存为变量”,则可将新建立的因子得分储存至数据文件中,并产生新的变量名称。
(5)选项(Options)对话框设置2 结果分析(1)KMO及Bartlett’s检验KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
一、参考文献:主成分分析在SPSS中的操作应用张文霖理论与方法2005利用SPSS进行主成分分析佚名计量经济分析方法与建模高铁梅2009二、数据选用张文霖文中的数据GDP PGDP NYZJZ GYZJZ DSCY GDZCTZ JBJSTZ SHXF HGCK DFCZSR 5458.2 13000 14883.3 1376.2 2258.4 1315.9 529 2258.4 123.7 399.7 10550 11643 1390 3502.5 3851 2288.7 1070.7 3181.9 211.1 610.2 6076.6 9047 950.2 1406.7 2092.6 1161.6 597.1 1968.3 45.9 302.3 2022.6 22068 83.9 822.8 960 703.7 361.9 941.4 115.7 171.8 10636 14397 1122.6 3536.3 3967.2 2320 1141.3 3215.8 384.7 643.7 5408.8 40627 86.2 2196.2 2755.8 1970.2 779.3 2035.2 320.5 709 7670 16570 680 2356.5 3065 2296.6 1180.6 2877.5 294.2 566.9 4682 13510 663 1047.1 1859 964.5 397.9 1663.3 173.7 272.9 11770 15030 1023.9 4224.6 4793.6 3022.9 1275.5 5013.6 1843.7 1202 2437.2 5062 591.4 367 995.7 542.2 352.7 1025.5 15.1 186.7三、首先,在SPSS中操作3.1 操作步骤第1步选择【Analyze】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框第2步在主对话框中将所有原始变量选入【Variables】第3步点击【Descriptives】,在【correlation Matrix】下选择【Coefficients】,点击【Continue】回到主对话框第4步点击【Extraction】,在【Display】下选择【ScreePlot】,点击【Continue】回到主对话框第5步点击【Rotation】,在【方法】下选择【无】,点击【Continue】回到主对话框第6步点击【得分】,在【保存为变量】前打勾,在【方法】中选择【回归】,在【显示因子得分系数矩阵】前打勾3.2 步骤结果解释第3步的结果变量之间的存在较强的相关关系,适合作主成分分析是以自变量X 作为被解释变量,对应的公共因子载荷平方之和。
主成分分析、因子分析实验报告--SPSS主成分分析、因子分析实验报告SPSS一、实验目的主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis,FA)是多元统计分析中常用的两种方法,旨在简化数据结构、提取主要信息和解释变量之间的关系。
本次实验的目的是通过使用 SPSS 软件对给定的数据集进行主成分分析和因子分析,深入理解这两种方法的原理和应用,并比较它们的结果和差异。
二、实验原理(一)主成分分析主成分分析是一种通过线性变换将多个相关变量转换为一组较少的不相关综合变量(即主成分)的方法。
这些主成分是原始变量的线性组合,且按照方差递减的顺序排列。
主成分分析的主要目标是在保留尽可能多的数据信息的前提下,减少变量的数量,从而简化数据分析和解释。
(二)因子分析因子分析则是一种探索潜在结构的方法,它假设观测变量是由少数几个不可观测的公共因子和特殊因子线性组合而成。
公共因子解释了变量之间的相关性,而特殊因子则代表了每个变量特有的部分。
因子分析的目的是找出这些公共因子,并估计它们对观测变量的影响程度。
三、实验数据本次实验使用了一份包含多个变量的数据集,这些变量涵盖了不同的领域和特征。
数据集中的变量包括具体变量 1、具体变量 2、具体变量 3等,共X个观测样本。
四、实验步骤(一)主成分分析1、打开 SPSS 软件,导入数据集。
2、选择“分析”>“降维”>“主成分分析”。
3、将需要分析的变量选入“变量”框。
4、在“抽取”选项中,选择主成分的提取方法,如基于特征值大于1 或指定提取的主成分个数。
5、点击“确定”,运行主成分分析。
(二)因子分析1、同样在 SPSS 中,选择“分析”>“降维”>“因子分析”。
2、选入变量。
3、在“描述”选项中,选择相关统计量,如 KMO 检验和巴特利特球形检验。
4、在“抽取”选项中,选择因子提取方法,如主成分法或主轴因子法。
主成分分析、因⼦分析实验报告SPSS⼀、实验⽬的及要求:1、⽬的⽤SPSS软件实现主成分分析、因⼦分析及其应⽤。
2、内容及要求⽤SPSS对2009年我国88个房地产上市公司做因⼦分析,并做出相关解释。
⼆、仪器⽤具:三、实验⽅法与步骤:准备⼯作:把实验所⽤数据从Word⽂档复制到Excel,并进⼀步导⼊到SPSS 数据⽂件中,以备后续分析。
四、实验结果与数据处理:在因⼦分析的SPSS操作中所⽤到的部分选项的设置如下⾯四个图所⽰,其余为软件默认的选项,因此不再列⽰,具体的分析如这些表之后所⽰。
图⼀图⼆图三图四分析结果:由表1可知,巴特利特球度检验统计量的观测值为398.287,相应的概率p值接近0,⼩于显著性⽔平 (取0.05),所以应拒绝原假设,认为相关系数矩阵与单位矩阵有显著差异。
同时,KMO值为0.637,根据Kaiser给出的KMO度量标准(0.9以上表⽰⾮常适合;0.8表⽰适合;0.7表⽰⼀般;0.6表⽰不太适合;0.5以下表⽰极不适合)可知原有变量不算特别适合进⾏因⼦分析。
表2为公因⼦⽅差,即因⼦分析的初始解,显⽰了所有变量的共同度数据。
第⼀列是因⼦分析初始解下的变量共同度,它表明,对原有10个变量如果采⽤主成分分析⽅法提取所有特征根(10个),那么原有变量的所有⽅差都可被解释,变量的共同度均为1(原有变量标准化后的⽅差为1)。
事实上,因⼦个数⼩于原有变量的个数才是因⼦分析的⽬标,所以不可提取全部特征根;第⼆列是在按指定提取条件(这⾥为特征根⼤于1)提取特征根时的共同度。
可以看到,总资产报酬率、成交量、流通市值、总市值的绝⼤部分信息可被因⼦解释,这些变量的信息丢失较少。
但⽑利率这⼀变量的信息丢失相当严重(近70%),净资产收益率、应收应付⽐率两个变量的信息丢失较为严重(近40%)。
因此本次因⼦提取的总体效果并不理想。
表3展⽰了特征根及累积贡献率情况,按照特征根⼤于1的原则,选⼊了4个公共因⼦,其累积⽅差贡献率为72.343%,同时也可以看出,因⼦旋转后,累计⽅差⽐并没有改变,也就是没有影响原有变量的共同度,但却重新分配了各个因⼦解释原有变量的⽅差,改变了各因⼦的⽅差贡献,使各因⼦更易于解释。
主成分分析和因子分析
示例分析:
经济到底好不好,通过综合得分评价。
首先看样本数量是否合适,然后判断有无相关性,再然后提取主成分,再然后找到能解释实际情况的主成分,再然后找到主成分之间的非多重共线性关联,最后得到综合得分。
1、主成分分析
一、数据变换
SPSS会对数据的测量尺度进行自动变换,方便后期的数据处理。
二、主成分分析的操作在因子分析中进行
三、输入原变量,得到新变量
四、原变量的信息提取量
五、新提取得到的变量所含有的原变量信息量
六、原变量与新变量之间的关系
例:GDP=a1*Z1+ b1*Z2+ c1*Z3
居民消费水平= a2*Z1+ b2*Z2+ c2*Z3
七、综合得分
///////////////////////////////////////////////////////////
2、因子分析
一、判断数据样本数量是否足够
二、在样本量足够的前提下,判断因子间是否有关系,是强(弱)关系
1、Sig<0.05则说明有相关性。
2、KMO>0.5则说明有一定程度的相关性,值越大越好。
三、根据碎石图判断因子个数
陡坡上的点为因子数量
四、判断因子能否解释实际情况。
五、如果因子不能解释实际情况,则需要旋转,再进行因子分配常用最大方差法,如果结果不理想,则换用其他的方法
指标再分解、融合
六、可以解释实际情况,最后得到得分。
主成分分析因子分析实验报告实验目的:实验步骤:1.收集数据:我们选择了一个包含10个观测变量的数据集,其中包括身高、体重、年龄、血压等变量。
数据集总共有100个样本。
2.数据预处理:在进行主成分分析和因子分析之前,我们首先进行数据预处理,包括缺失值填充、异常值处理和数据标准化等。
通过这些步骤,我们可以确保数据的准确性和可靠性。
3. 主成分分析(PCA):在进行PCA之前,我们需要确定主成分的数量。
我们使用Kaiser准则和累计方差解释比来确定主成分的个数。
接下来,我们使用PCA方法进行主成分分析,并计算每个主成分的贡献率和累计贡献率。
此外,我们还绘制了特征值图,以便更好地理解主成分的贡献。
4. 因子分析(FA):在进行因子分析之前,我们需要确定因子的数量和旋转方法。
我们使用Bartlett球形检验和Kaiser-Meyer-Olkin (KMO)测度来确定因子的数量。
然后,我们使用最大方差旋转方法进行因子分析,以获得更清晰和可解释的因子结构。
我们计算每个因子的贡献率和累计贡献率,并通过因子载荷矩阵来解释因子和变量之间的关系。
5.结果分析:根据主成分和因子的贡献率和解释性,我们可以确定最重要的主成分和因子。
通过对主成分和因子的解释,我们可以深入了解变量之间的关联性和结构。
此外,我们还可以利用主成分和因子进行变量降维,以便更好地理解和解释数据。
实验结果:在主成分分析中,我们确定了3个主成分,其中第一个主成分的贡献率为35%,第二个主成分的贡献率为22%,第三个主成分的贡献率为16%。
累计贡献率达到73%,说明这3个主成分可以很好地解释观测变量之间的关系。
从特征值图中可以看出,前3个主成分的特征值明显大于其他主成分。
在因子分析中,我们确定了2个因子,并使用最大方差旋转方法进行了因子分析。
第一个因子解释了25%的方差,第二个因子解释了18%的方差。
因子载荷矩阵显示了变量和因子之间的关系,可以用来解释因子的含义。
实验编号:9四川师大实验报告2018年6月28日_计算机科学学院_2016_级_5_班实验名称:《商务统计学》
姓名:____邓雅心____ 成绩:_________________
同组人:指导教师:朱贵琼
●实验题目:实验九主成分分析与因子分析
●实验内容:
共有1个小题,对每题进行SPSS操作,将分析结果进行解释并形成
实验报告
某大型超市为了确定影响咖啡销售的因素,决定在一段时间内对店内
的5种咖啡的销量进行统计。
特用16种属性来描述5种咖啡,如下
页数据表,而参与调查的顾客则针对每个属性,依据个人喜好来判断
是否会因为某一属性而选择某种咖啡。
请回答:
(1)影响咖啡销量的主要因素有哪些?
(2)如果想改善某一种咖啡的销量,应该从哪些方面入手?
一、提出原假设 H0:相关系数矩阵是单位矩阵;
二、分析方法:因子分析
三、SPSS操作
(一)建立数据文件,录入变量
(二)菜单操作:分析→降维→因子分析
(三)统计结果分析
相关系数矩阵
由表可知,此案例不适合用相关显著性检验分析相关性
由表可知,前两个因子的特征值>1.其累计之和占总方差的81.836%,即前两个因子解释原始变量的81.836%的变异,最后结果是确定提取两个因子
由表可知,16个变量在第一个因子上的载荷较高,与第1个
因子的相关程度高,第1个因子很重要;第2个、第3个因子与原有变量的相关性较小,这两个因子对原有变量的解释作用不显著。
根据碎石图检验(Scree test)准则,曲线开始变平的前一个点被认为是提取的最大因子数,即最大因子数是3。
结论:第一个因子对所有属性的销量有绝对值较大的相关系数;第二个子对属性2,3,4,10,14销量有绝对值较大的相关系数;第三个因子对属性4,11,12的销量有绝对值较大的相关系数。