运用spss做因子分析与主成分分析(1)讲解
- 格式:ppt
- 大小:3.02 MB
- 文档页数:29
主成分分析和因子分析的SPSS实现比较主成分分析和因子分析是多元统计方法中关系密切的两种方法,应用范围十分广泛,可以解决经济、教育、科技、社会等领域中的综合评价问题。
主成分分析采用降维的思想,将研究对象的多个相关变量(指标)综合为少数几个不相关的变量,反映原变量提供的主要信息。
因子分析是主成分分析的推广和发展,它将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它属于多元分析中处理降维的一种统计方法。
但是,在许多论文中用SPSS进行综合分析时,出现这两种方法运用混淆的错误。
比如,主成分分析中对变量进行了因子旋转,因子分析的公因子系数错误等问题。
本文就此对主成分分析和因子分析的异同进行比较,并在SPSS和DPS软件上如何实现给予说明。
一、主成分分析与因子分析的异同点两者的相同点:1、思想一致:都是降维的思想;2、应用范围一致:都要求变量之间具有不完全的相关性;3、数据处理过程一致:数据的无量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因子个数;4、合成方法一致:都没有考虑原始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。
两者的不同点:1、方差损失上:主成分解释了原始变量的全部方差,无方差损失;因子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失;2、唯一性:主成分分析不存在因子旋转,主成分是唯一的;因子分析进行因子旋转,解不唯一;3、实际意义:主成分没有实际意义;公因子有实际意义;4、应用:主成分侧重信息贡献、影响力综合评价;因子分析侧重成因清晰性的综合评价。
二、SPSS上的实现1、主成分分析在SPSS上的实现(1)将原始数据无量纲化。
传统主成分分析进行无量纲化处理的方法是“中心标准化”,这在SPSS中通过Analyse-DescriptiveStatistics-Descriptive中Save standardized values as variables执行。
因子分析与主成分分析摘要:通过搜集相关数据,采用因子分析法和主成份分析法,对我国各个省市自治区经济发展基本情况的八项指标进行分析。
具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。
这是一个综合分析问题,八项指标较多,用主成分分析法进行综合评价。
关键词:由于样本数比较多,这里不再给出,可参见factor1.sav文件引言:因子分析是寻找潜在的起支配作用的因子模型的方法。
因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低。
每组变量代表一个基本结构,这个基本结构称为公共因子。
对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
通过因子分析得来的新变量是对每个原始变量进行内部剖析。
因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。
具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。
基本步骤:在SPSS中进行因子分析的步骤如下:选择“分析---降维---因子分析”,在弹出的对话框里(1)描述---系数、KMO与Bartlett的球形度检验(2)抽取---碎石图、未旋转的因子解(3)旋转---最大方差法、旋转解、载荷图(4)得分---保存为变量、显示因子得分系数矩阵(5)选项---按大小排序点击确定得到如下各图图3-1图3-2KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
.620Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
SPSS主成分与因⼦分析实验⽬的 学会使⽤SPSS的简单操作,掌握主成分与因⼦分析。
实验要求 使⽤SPSS。
实验内容实验步骤 (1)主成分分析,分析⽰例——对30个省市⾃治区经济基本情况的⼋项指标进⾏分析,详情见factorl.sav⽂件。
SPSS操作,点击【分析】→【降维】→【因⼦】,在打开的【因⼦分析】对话框中,把x1~x8都选⼊【变量】中,点击【描述】,勾选【系数】,点击【继续】,单击【确定】。
SPSS在调⽤因⼦分析的过程中,⾸先会对原始变量进⾏标准化,因此以后的输出结果中通常情况下都是指标准化后的变量。
在结果输出中会涉及⼀些因⼦分析的内容,因此这⾥只给出与主成分分析有关的部分如下:相关性矩阵GDP 居民消费⽔平固定资产投资职⼯平均⼯资货物周转量居民消费价格指数商品价格指数⼯业总产值相关性GDP 1.000.267.951.187.617-.273-.264.874居民消费⽔平.267 1.000.426.716-.151-.235-.593.363固定资产投资.951.426 1.000.396.431-.280-.359.792职⼯平均⼯资.187.716.396 1.000-.357-.145-.543.099货物周转量.617-.151.431-.357 1.000-.253.022.659居民消费价格指数-.273-.235-.280-.145-.253 1.000.763-.125商品价格指数-.264-.593-.359-.543.022.763 1.000-.192⼯业总产值.874.363.792.099.659-.125-.192 1.000 上表为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性⽐较强,的确存在信息上的重叠。
总⽅差解释成分初始特征值提取载荷平⽅和总计⽅差百分⽐累积 %总计⽅差百分⽐累积 %1 3.75446.92446.924 3.75446.92446.9242 2.20327.53274.456 2.20327.53274.4563 1.20815.09689.551 1.20815.09689.5514.4035.04294.5935.214 2.67397.2666.138 1.72298.9887.066.82999.8178.015.183100.000提取⽅法:主成分分析法。
利用SPSS进行主成分分析【例子】以全国31个省市的8项经济指标为例,进行主成分分析。
第一步:录入或调入数据(图1)。
图1 原始数据(未经标准化)第二步:打开“因子分析”对话框。
沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。
图2 打开因子分析对话框的路径图3 因子分析选项框第三步:选项设置。
首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。
在本例中,全部8个变量都要用上,故全部调入(图4)。
因无特殊需要,故不必理会“Value ”栏。
下面逐项设置。
图4 将变量移到变量栏以后⒈设置Descriptives选项。
单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
图5 描述选项框在Statistics 栏中选中Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。
在Correlation Matrix 栏中,选中Coefficients 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant 复选项,则会给出相关系数矩阵的行列式,如果希望在Excel 中对某些计算过程进行了解,可选此项,否则用途不大。
其它复选项一般不用,但在特殊情况下可以用到(本例不选)。
设置完成以后,单击Continue 按钮完成设置(图5)。
⒉ 设置Extraction 选项。
打开Extraction 对话框(图6)。
因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(∏ρινχιπαλ χομπονεντσ),因此对此栏不作变动,就是认可了主成分分析方法。
如何用SPSS软件进行主成分分析如何用SPSS软件进行主成分分析一、引言主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降维技术,用于分析多变量之间的相互关系。
通过将原始变量转化为一组线性无关的新变量,利用这些新变量来解释原始变量的变化,从而降低数据的维度。
SPSS软件是一款广泛应用于社会科学、市场调研、数据分析等领域的统计分析工具,本文将介绍如何使用SPSS软件进行主成分分析。
二、数据准备在进行主成分分析之前,首先需要准备好待分析的数据。
SPSS 软件支持导入多种数据格式,包括Excel、CSV等。
在导入数据后,需要对数据进行清洗和预处理,确保数据的质量和一致性。
如果数据中存在缺失值,可以使用SPSS的数据清洗工具进行处理。
三、进行主成分分析1. 打开SPSS软件,并创建一个新的数据文件。
2. 在菜单栏中选择“分析(Analyze)”,然后选择“数据准备(Data Preparation)”,再选择“主成分分析(Principal Components)”。
3. 在弹出的对话框中,选择要进行主成分分析的变量。
可以通过拖拽变量到“已选择”栏中或使用“添加”按钮来选择变量。
4. 在“变量列表”中,可以对每个变量选择分析方法。
默认为主成分分析(PCA),也可以选择常量法(Constant)、特殊值法(Special Value)等分析方法。
5. 点击“统计”按钮,在弹出的对话框中选择输出的统计量。
可以选择主成分得分、特征根等信息。
6. 点击“提取”按钮,在弹出的对话框中选择提取的因子个数。
可以通过查看特征根的大小来确定提取的因子个数。
7. 点击“旋转”按钮,选择因子旋转的方法。
常用的旋转方法包括方差最大旋转(Varimax)和直角旋转(Orthogonal)等。
8. 点击“选项”按钮,可以进一步设置分析的参数,如缺失值处理、小数位数等。
9. 点击“确定”按钮开始进行主成分分析。
《SPSS数据分析教程》——主成分分析主成分分析的原理是基于多元统计中的线性代数知识。
假设我们有一个包含p个变量的数据集,我们的目标是找到一组新的变量(即主成分),使得它们能够更好地解释原始数据的方差。
具体来说,主成分是原始变量的线性组合,通过计算协方差矩阵的特征值和特征向量来确定。
特征值表示方差的大小,特征向量表示主成分的方向。
主成分分析的步骤如下:1.数据准备:收集并导入数据到SPSS软件中,确保数据的格式正确,并删除缺失值。
2.变量标准化:主成分分析基于变量之间的协方差矩阵,为了消除不同变量之间的量纲差异,需要对数据进行标准化处理。
选择“数据”菜单下的“标准化”选项,在弹出的对话框中选择需要标准化的变量,并指定标准化的方法。
3.因子分析:选择“分析”菜单下的“降维”选项,再选择“主成分”。
在弹出的对话框中,将原始变量移入右侧的“因子”框中。
可以选择是否计算主成分得分和旋转主成分。
得分可以用于后续的回归分析或聚类分析,旋转可以使主成分更具解释性和可解释性。
4.结果解释:主成分分析后,SPSS会显示特征值和特征向量的汇总表。
特征值表示主成分解释的方差比例,特征向量表示主成分的权重。
通常,我们选择特征值大于1的主成分,因为它们能够解释原始数据的较大比例的方差。
通过观察特征向量,可以解释主成分的意义,比如一些主成分与一些变量之间的相关性。
5.结果可视化:为了更好地理解主成分分析的结果,可以使用散点图或其他图表进行可视化。
选择“图表”菜单下的“散点图”选项,将主成分得分画在散点图上,可以观察主成分之间的相关性和数据的集中程度。
上述是主成分分析的基本步骤和SPSS操作流程。
通过主成分分析,我们可以将复杂的高维数据转化为一组简单的主成分,方便我们对数据进行分析和解释。
同时,主成分分析也可以作为其他数据分析方法的前期处理步骤,如聚类分析、回归分析等。
因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。
例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。
虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。
虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。
变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。