当前位置:文档之家› (完整版)SPSS因子分析法-例子解释

(完整版)SPSS因子分析法-例子解释

(完整版)SPSS因子分析法-例子解释
(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤

一、因子分析的意义

在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:

计算量的问题

由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。

变量间的相关性问题

收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。

因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点:

↓因子个数远远少于原有变量的个数

原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

↓因子能够反映原有变量的绝大部分信息

因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

↓因子之间的线性关系并不显著

由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。

↓因子具有命名解释性

通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

释性有助于对因子分析结果的解释评价,对因子的进一步应用有重要意义。例如,对高校科研情况的因子分析中,如果能够得到两个因子,其中一个因子是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因子分析就是较为理想的。因为这两个因子均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因子,另一个反映了科研产出方面的情况,可命名为科研产出因子。

总之,因子分析是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

二、因子分析的基本概念

1、因子分析模型

因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors )和唯一因子(unique factors )。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings )表示。

因子分析最常用的理论模式如下:

j m jm j j j j U F a F a F a F a Z ++???+++=332211(j=1,2,3…,n ,n 为原始变量总数)

可以用矩阵的形式表示为U AF Z +=。其中F 称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用j X 表示,这里模型中实际上是以F 线性表示各个原始变量的标准化分数j Z ),因此又称为公共因子。因子可理解为高维空间中互相垂直的m 个坐标轴,A 称为因子载荷矩阵,)...3,2,1,...3,2,1(m i n j a ji ==称为因子载荷,是第j 个原始变量在第i 个因子上的负荷。如果把变量j Z 看成m 维因子空间中的一个向量,则

ji a 表示j Z 在坐标轴i F 上的投影,相当于多元线性回归模型中的标准化回归系数;U 称为

特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。

其中,

(1)j Z 为第j 个变量的标准化分数; (2)i F (i=1,2,…,m )为共同因素; (3)m 为所有变量共同因素的数目; (4)j U 为变量j Z 的唯一因素; (5)ji a 为因素负荷量。

2、因子分析数学模型中的几个相关概念 因子载荷(因素负荷量factor loadings )

所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。可以证明,在因子不相关的前提下,因子载荷ji a 是变量j Z 和因子i F 的相关系数,反映了变量j Z 与因子i F 的相关程度。因子载荷ji a 值小于等于1,绝对值越接近1,表明因子i F 与变量j Z 的相关性越强。同时,因子载荷ji a 也反映了因子i F 对解释变量j Z 的重要作用和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间的相关关系。因素分析的理想情况,在于个别因素负荷量ji a 不是很大就是很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则j U 彼此间或与共同因素间就不能有关联存在。一般说来,负荷量为0.3或更大被认为有意义。所以,当要判断一个因子的意义时,需要查看哪些变量的负荷达到了0.3或0.3以上。

↓变量共同度(共同性,Communality )

变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平方和,也就是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量能被因子说明的程度越高,即因子可解释该变量的方差越多。共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关矩阵,提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方总和。变量j Z 的共同度2

h 的数学定义为:∑==m

i ji a h 12

2

,该式表明变量j Z 的共同度是因子

载荷矩阵A 中第j 行元素的平方和。由于变量j Z 的方差可以表示成122=+u h ,因此变量j Z 的方差可由两个部分解释:第一部分为共同度2h ,是全部因子对变量j Z 方差解释说明的比例,体现了因子全体对变量j Z 的解释贡献程度。变量共同度2h 越接近1,说明因子全体解释说明了变量j Z 的较大部分方差,如果用因子全体刻画变量j Z ,则变量j Z 的信息丢失较少;第二部分为特殊因子U 的平方,反应了变量j Z 方差中不能由因子全体解释说明的比例,2u 越小则说明变量j Z 的信息丢失越少。

总之,变量d 共同度刻画了因子全体对变量j Z 信息解释的程度,是评价变量j Z 信息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。

↓因子的方差贡献(特征值eigenvalue )

因子的方差贡献(特征值)的数学定义为:2

1

2

∑==n

j ji i a S ,该式表明,因子i F 的方差

贡献是因子载荷矩阵A 中第i 列元素的平方和。因子i F 的方差贡献反映了因子i F 对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。

为了便于说明,以三个变量抽取两个共同因素为例,三个变量的线性组合分别为:

12121111U F a F a Z ++= 22221212U F a F a Z ++= 32321313U F a F a Z ++=

素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是个别变量与共同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因素之间关系程度。而各变量的唯一因素大小就是1减掉该变量共同性的值。(在主成分分析中,有多少个原始变量便有多少个“component ”成分,所以共同性会等于1,没有唯一因素)。

至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。在因素分析之共同因素抽取中,特征值大的共同因素会最先被抽取,其次是次大者,最后抽取的共同因素之特征值最小,通常会接近0(在主成分分析中,有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因素越少越好,但抽取因素之累积解释的变异量则越大越好。

3、社会科学中因素分析通常应用在三个层面: (1)显示变量间因素分析的组型(pattern )

(2)侦测变量间之群组(clusters ),每个群组所包括的变量彼此相关很高,同构型较大,亦即将关系密切的个别变量合并为一个子群。

(3)减少大量变量数目,使之称为一组涵括变量较少的统计自变量(称为因素),每个因素与原始变量间有某种线性关系存在,而以少数因素层面来代表多数、个别、独立的变量。

因素分析具有简化数据变量的功能,以较少层面来表示原来的数据结构,它根据变量间彼此的相关,找出变量间潜在的关系结构,变量间简单的结构关系称为“成份”(components )或“因素”(factors ).

三、因素分析的主要方式

围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:

1、因子分析的前提条件

由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。

SPSS 提供了四个统计量可帮助判断观测数据是否适合作因子分析: (1)计算相关系数矩阵Correlation Matrix

在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。

(2)计算反映象相关矩阵Anti-image correlation matrix

反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。

反映象相关矩阵的对角线上的元素为某变量的MSA (Measure of Sample Adequacy )统计量,其数学定义为:

∑∑∑≠≠≠+=

i

j i

j ij

ij

i

j ij

i p r

r MSA 2

2

2

,其中,ij r 是变量i x 和其他变量j x (i j ≠)间的简单相关系

数,ij p 是变量j x (i j ≠)在控制了剩余变量下的偏相关系数。由公式可知,某变量i x 的

i MSA 统计量的取值在0和1之间。当它与其他所有变量间的简单相关系数平方和远大于

偏相关系数的平方和时,i MSA 值接近1。i MSA 值越接近1,意味变量i x 与其他变量间的相关性越强;当它与其他所有变量间的简单相关系数平方和接近0时,i MSA 值接近0。

i MSA 值越接近0,意味变量i x 与其他变量间的相关性越弱。

观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与(1)中最后所述理由相同,一般少采用此方法。

(3)巴特利特球度检验Bartlett test of sphericity

Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。

(4)KMO(Kaiser-Meyer-Oklin Measure of Smapling Adequacy)

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。

综上所述,经常采用的方法为巴特利特球度检验Bartlett test of sphericity和KMO (Kaiser-Meyer-Oklin Measure of Smapling Adequacy)。

2、抽取共同因子,确定因子的数目和求因子解的方法

将原有变量综合成少数几个因子是因子分析的核心内容。本步骤正是研究如何在样本数据的基础上提取和综合因子。决定因素抽取的方法,有“主成份分析法”(principal components analysis)、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映象因素抽取法等。使用者最常使用的是主成份分析法与主轴法,其中,又以主成份分析法使用最为普遍,在SPSS使用手册中,也建议研究者多采用主成份分析法来估计因素负荷量(SPSS Inc,1998)。所谓主成份分析法,就是以较少的成份解释原始变量方差的较大部分。进行主成份分析时,先要将每个变量的数值转换成标准值。主成份分析就是用多个变量组成一个多维空间,然后在空间内投射直线以解释最大的方差,所得的直线就是共同因子,该直线最能代表各个变量的性质,而在此直线上的数值所构

F)。但是在空间内还有剩余的方差,成的一个变量就是第一个共同因子,或称第一因子(

1

所以需要投射第二条直线来解释方差。这时,还要依据第二条准则,即投射的第二条直线与第一条直线成直交关系(即不相关),意为代表不同的方面。第二条直线上的数值所

F)。依据该原理可以求出第三、第四或更多的因子。构成的一个变量,称为第二因子(

2

原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。

因子数目的确定没有精确的定量方法,但常用的方法是借助两个准则来确定因子的个数。一是特征值(eigenvalue)准则,二是碎石图检验(scree test)准则。特征值准则就是选取特征值大于或等于1的主成份作为初始因子,而放弃特征值小于1的主成份。因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简数据的目的。碎石检验准则是根据因子被提取的顺序绘出特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。

3、使因子更具有命名可解释性

通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转

(rotation),通过坐标变换使因子解的意义更容易解释。转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小,转轴后,使得变量在每个因素的负荷量不是变大(接近1)就是变得更小(接近0),而非转轴前在每个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变得更容易。转轴后,每个共同因素的特征值会改变,但每个变量的共同性不会改变。常用的转轴方法,有最大变异法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)、直接斜交转轴法(Direct Oblimin)、Promax转轴法,其中前三者属于“直交转轴法”(orthogonal rotations),在直交转轴法中,因素(成份)与因素(成份)间没有相关,亦即其相关为0,因素轴间夹角为90°;而后二者(直接斜交转轴、Promax转轴法)属“斜交转轴”(oblique rotations),采用斜交转轴法,表示因素与因素间彼此有某种程度的相关,亦即因素轴间的夹角不是90°。

直交转轴法的优点是因素间提供的信息不会重叠,观察体在某一个因素的分数与在其它因素的分数,彼此独立不相关;而其缺点是研究者迫使因素间不相关,但在实际情境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较多人为操控方式,不需要正确响应现实世界中自然发生的事件(Bryman&Cramer,1997)。

所谓直交旋转法(orthogonal rotations),就是要求各个因子在旋转时都要保持直角关系,即不相关。在直交旋转时,每个变量的共同性(commonality)是不变的。不同的直交旋转方法有不同的作用。在直交旋转法中,常用于社会科学研究的方式是Varimax旋转法。该方法是在旋转时尽量弄清楚在每一个因子上各个变量的因子负荷情况,也即让因子矩阵中每一列的 的值尽可能变成1或0,该旋转法的作用是突出每个因子的性质,可以更清楚哪些变量是属于它的。由此可见,Varimax旋转法可以帮助找出多个因子,以澄清概念的内容。Quartimax旋转法可以则可以尽量弄清楚每个变量在各个因子上的负荷情况,即让每个变量在某个因子上的负荷尽可能等于1,而在其它因子上则尽可能等于0。该方法可以增强第一因子的解释力,而使其它因子的效力减弱。可见Quartimax旋转法适合于找出一个最强效力的因子。Equamax旋转法则是一种折中的做法,即尽可能简化因子,也可弄清楚负荷情况。其缺点是可能两方面都未照顾好。

斜交旋转(oblique rotarion)方法是要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。斜交旋转中,因子之间的夹可以是任意的,所以用斜交因子描述变量可以使因子结构更为简洁。选择直接斜交旋转时,必须指定Delta值。该值的取值范围在0~-1之间,0值产生最高相关因子,大的负数产生旋转的结果与直交接近。Promax斜交旋转方法也允许因子彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。

综上所述,不同的因子旋转方式各有其特点。因此,究竟选择何种方式进行因子旋转取决于研究问题的需要。如果因子分析的目的只是进行数据简化,而因子的确切含义是什么并不重要,就应该选择直交旋转。如果因子分析的目的是要得到理论上有意义的因子,应该选择斜交因子。事实上,研究中很少有完全不相关的变量,所以,从理论上看斜交旋转优于直交旋转。但是斜交旋转中因子之间的斜交程度受研究者定义的参数的影响,而且斜交选装中所允许的因子之间的相关程度是很小的,因为没有人会接受两个高度相关的共同因子。如果两个因子确实高度相关,大多数研究者会选取更少的因子重新进行分析。因此,斜交旋转的优越性大打折扣。在实际研究中,直交旋转(尤其是Varimax 旋转法)得到更广泛的运用。

4、决定因素与命名

转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后之分数存储,作为其它程序分析之输入变量。

5、计算各样本的因子得分

因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一步的分析奠定基础。

此外,在因素分析中,研究者还应当考虑以下几个方面(Bryman&Cramer,1997):(1)可从相关矩阵中筛选题项

题项间如果没有显著的相关,或相关太小,则题项间抽取的因素与研究者初始构建的层面可能差距很大。相对的题项间如果有极其显著的正/负相关,则因素分析较易构建成有意义的内容。因素分析前,研究者可从题项间相关矩阵分布情形,简扼看出哪些题项间有密切关系。

(2)样本大小

因素分析的可靠性除与预试样本的抽样有关外,预样本数的多少更有密切关系。进行因素分析时,预试样本应该多少才能使结果最为可靠,学者间没有一致的结论,然而多数学者均赞同“因素分析要有可靠的结果,受试样本数要比量表题项数还多”,如果一个分量表有40个预试题项,则因素分析时,样本数不得少于40。

此外,在进行因素分析时,学者Gorshch(1983)的观点可作为参考:

①题项与受试者的比例最好为1:5;

②受试总样本总数不得少于100人。如果研究主要目的在找出变量群中涵括何种因素,样本数要尽量大,才能确保因素分析结果的可靠性。

(3)因素数目的挑选

进行因素分析,因素数目考虑与挑选标准,常用的准则有两种:一是学者Kaiser所提的准则标准:选取特征值大于1的因素,Kaiser准则判断应用时,因素分析的题项数最好不要超过30题,题项平均共同性最好在0.70以上,如果受试样本数大于250位,则平均共同性应在0.60以上(Stevens,1992),如果题项数在50题以上,有可能抽取过多的共同因素(此时研究者可以限定因素抽取的数目);二为CATTELL(1996)所倡导的特征值图形的陡坡检验(scree test),此图根据最初抽取因素所能解释的变异量高低绘制而成。

“陡坡石”(scree)原是地质学上的名词,代表在岩石斜坡底层发现的小碎石,这些碎石价值性不高。应用于统计学之因素分析中,表示陡坡图底端的因素不具重要性,可以舍弃不用。因而从陡坡图的情形,也可作为挑选因素分析数目的标准。

在多数的因素分析中,根据Kaiser选取的标准,通常会抽取过多的共同因素,因而陡坡图是一个重要的选取准则。在因素数目准则挑选上,除参考以上两大主要判断标准外,还要考虑到受试者多少、题项数、变量共同性的大小等。

四、因素分析的操作说明

Statistics/Data Reduction/Factor…

(统计分析/数据缩减/因子…)

出现“Factor Analysis”(因子分析)对话框,将左边框中鉴别度达显著性的a1~a22选如右边“Variables”(变量)下的空框中。

其中五个按钮内的图标意义如下:

?Descriptives(描述性统计量)按钮,会出现“Factor Analysis:Descriptives”(因子分析:描述性统计量)对话窗口

1.“Statistics”(统计量)选项框

(1)“ Univariate descriptives”(单变量描述性统计量):显示每一题项的平均数、标准差。

(2)“ Initial solution”(未转轴之统计量):显示因素分析未转轴前之共同性(communality)、特征值(eigenvalues)、变异数百分比及累积百分比。

2.“Correlation Matric”(相关矩阵)选项框

(1)“ Coefficients”(系数):显示题项的相关矩阵;

(2)“ Significance levels”(显著水准):求出前述矩阵的显著水准;

(3)“ Determinant”(行列式):求出前述相关矩阵的行列式值;

(4)“ KMO and Bartlett’s test of sphericity”(KMO与Bartlett的球形检定):显示KMO抽样适当性参数与Bartlett的球形检定;

(5)“ Inverse”(倒数模式):求出相关矩阵的反矩阵;

(6)“ Reproduced”(重制的):显示重制相关矩阵,上三角形矩阵代表残差值;而主对角线及下三角形代表相关系数;

(7)“ Anti-image”(反映象):求出反映象的共变量及相关矩阵;

在“Factor Analysis:Descriptives”对话窗口中,选取“ Initial solution”、“ KMO and Bartlett’s test of sphericity”二项。

?Extraction…(萃取…)按钮,会出现“Factor Analysis:Extraction”(因子分析:萃取)对话窗口

1.“Method”(方法)选项框:下拉式选项内有7种选取因素的方法

(1)“Principal components”法:主成份分析法抽取因素,此为SPSS内定方法;

(2)“Unweighted least squares”法:未加权最小平方法;

(3)“Ggeneralized least square”法:一般化最小平方法;

(4)“Mmximum likelihood”法:最大概似法;

(5)“Principal-axis factoring”法:主轴法;

(6)“Alpha factoring”法: 因素抽取法;

(7)“Image factoring”法:映象因素抽取法;

2.“Analyze”(分析)选项方框

(1)“ Correlation matrix”(相关矩阵):以相关矩阵来抽取因素;

(2)“ Covariance matrix”(共变异系数矩阵):以共变量矩阵来抽取因素。

3.“Display”(显示)选项方框

(1)“ Unrotated factor solution”(未旋转因子解):显示未转轴时因素负荷量、特征值及共同性;

(2)“ Screet plot”(陡坡图):显示陡坡图

4.“Extract”(萃取)选项方框

(1)“ Eigenvalue over:”(特征值):后面的空格内定为1,表示因素抽取时,只抽取特征值大于1者,使用者可随意输入0至变量总数之间的值;

(2)“Number of factors”(因子个数):选取此项时,后面的空格内输入限定之因

素个数。

在“Factor Analysis:Extraction”对话窗口中,抽取因素方法选择“Principal components”,选取“ Correlation matrix”、并勾选“ Unrotated factor solution”、 Screet plot”等项,在抽取因素时限定在特征值大于1者,在“ Eigenvalue over:”后面的空格内输入1。

?Rotation…(萃取…)按钮,会出现“Factor Analysis:Rotation”(因子分析:旋转)对话窗口

1.“Method”(方法)选项框内有6中因素转轴方法

(1)“ None”:不需要转轴;

(2)“ Varimax”:最大变异法,属正交转轴法之一;

(3)“ Quarimax”:四次方最大值法,属正交转轴法之一;

(4)“ Equamax”:相等最大值法,属正交转轴法之一;

(5)“ Direct Oblimin”:直接斜交转轴法,属斜交转轴法之一;

(6)“ Promax”:Promax转轴法,属斜交转轴法之一。

2.“Display”(显示)选项框:

(1)“ Rotated solution”(转轴后的解):显示转轴后的相关信息,正交转轴显示因素组型(pattern)矩阵及因素转换矩阵;斜交转轴则显示因素组型、因素结构矩阵与因素相关矩阵。

(2)“ Loading plot”(因子负荷量):绘出因素的散布图。

3.“Maximum Iterations for Convergence”:转轴时执行的叠代(iterations)最多次数,后面内定的数字25(算法执行转轴时,执行步骤的次数上限)。

在“Factor Analysis:Rotation”对话窗中,选取“ Varimax”、“ Rotated solution”等项。研究者要勾选“ Rotated solution”选项,才能显示转轴后的相关信息。

?Score…(分数)按钮

1.“ Save as variable”(因素存储变量)框

勾选时可将新建立的因素分数存储至数据文件中,并产生新的变量名称(内定为fact_1、fact_2等)。在“Method”框中表示计算因素分数的方法有三种:(1)“ Regression”:使用回归法;

(2)“ Bartlett”:使用Bartlette法;

(3)“ Anderson-Robin”:使用Anderson-Robin法;

2.“ Display factor score coefficient matrix”(显示因素分数系数矩阵)选项勾选时可显示因素分数系数矩阵。

?Options…(选项)按钮,会出现“Factor Analysis:Options”(因子分析:选项)对话窗口

1.“Missing Values(遗漏值)框选项:遗漏值的处理方式。

(1)“ Exclude cases listwise”(完全排除遗漏值):观察值在所有变量中没有遗漏者才加以分析;

(2)“ Exclude cases pairwise”(成对方式排除):在成对相关分析中出现遗漏值的观察值舍弃;

(3)“ Replace with mean”(用平均数置换):以变量平均值取代遗漏值。

2.“Coefficient Display Format(系数显示格式)框选项:因素负荷量出现的格式。

(1)“ Sorted by size”(依据因素负荷量排序):根据每一因素层面之因素负荷量的大小排序;

(2)“ Suppress absolute values less than”(绝对值舍弃之下限):因素负荷量小于后面数字者不被显示,内定的值为0.1。

在“Factor Analysis:Options”对话窗口中,勾选“ Exclude cases listwise”、“ Sorted by size”等项,并勾选“ Suppress absolute values less than”选项,正式的论文研究中应呈现题项完整的因素负荷量较为适宜。

按Continue按钮,再按OK确定。

五、因素分析的结果解释

1.报表1——KMO测度和Bartlett球形检验表

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling

Adequacy.

.857

Bartlett's Test of Sphericity Approx. Chi-Square 1187.740 df 231 Sig. .000

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本,此处的KMO值为0.857,表示适合进行因素分析。Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。本例中,

Bartlett球形检验的2 值为1187.740(自由度为231),伴随概率值为0.000<0.01,达到了

显著性水平,说明拒绝零假设而接受备择假设,即相关矩阵不是单位矩阵,代表母群体的相关矩阵间有共同因素存在,适合进行因素分析。

2.报表2——共同因子方差(共同性)表

Communalities

Initial Extraction

a1 1.000 .719

a2 1.000 .656

a3 1.000 .734

a4 1.000 .675

Extraction Method: Principal Component Analysis.

上表报告的是共同因子方差,即表明每个变量被解释的方差量。初始共同因子方差(Initial Communalities)是每个变量被所有成份或因子解释的方差估计量。对于主成份分析法来说,它总是等于1,因为有多少个原始变量就有多少个成份(Communalitie),因此共同性会等于1。

抽取共同因子方差是指因子解中每个变量被因子或成份解释的方差估计量。这些共同因子方差是用来预测因子的变量的多重相关的平方。数值小就说明该变量不适合作因子,可在分析中将其排除。

3.报表3.1——旋转前总的解释方差

Total Variance Explained

Extraction Method: Principal Component Analysis.

上表叫做总的解释方差表。左边第一栏为各成份(Component)的序号,共有22个变量,所以有22个成份。第二大栏为初始特征值,共由三栏构成:特征值、解释方差和累积解释方差。Total栏为各成份的特征值,栏中只有5个成份的特征值超过了1;其余成份的特征值都没有达到或超过1。%of Variance栏为各成份所解释的方差占总方差的百分比,即各因子特征值占总特征值总和的百分比。Cumulative%栏为各因子方差占总方差的百分比的累计百分比。如在%of Variance栏中,第一和第二成份的方差百分比分别为37.024、12.400,而在累计百分比栏中,第一成份的累计百分比仍然为37.024,第二成份的累计方差百分比为49.424,即是两个成份的方差百分比的和(37.024+12.400)。

第三大栏为因子提取的结果,未旋转解释的方差。第三大栏与第二大栏的前五行完全相同,即把特征值大于1的四个成份或因子单独列出来了。这四个特征值由大到小排列,所以第一个共同因子的解释方差最大。

3.报表3.2——旋转后总的解释方差

Total Variance Explained

Extraction Method: Principal Component Analysis.

第四大栏为旋转后解释的方差。(方便显示起见,放在了表3.1下面,作为表3.2)Total栏为旋转后的特征值。与旋转前的Total栏相比,不难发现,四个成份的特征值有所变化。旋转前的特征值从8.145到1.066,最大特征值与最小特征值之间的差距比较大,而旋转后的特征值相对集中。尽管如此,旋转前、后的总特征值没有改变,最后的累计方差百分比也没有改变,让然为65.913%。

4.表4——碎石图

碎石图和结果3的被解释的总方差的作用相同,都是为了确定因子的数目。从碎石图可以看出,从第6个因子开始,以后的曲线变得比较平缓,最后接近一条直线。据此,可以抽取5个因子。最后决定抽取多少个因子,还要看后面的结果。

5.表5——未旋转成份矩阵(显示全部载荷)

Component Matrix(a)

Component

1 2 3 4 5

a6 .796 .273 .065 -.194 .071

a12 -.734 .354 .253 .178 .119

a3 .731 .419 -.030 -.150 .019

a1 .730 .391 -.104 -.137 .061

a8 .727 .108 -.137 -.040 .106

a10 -.726 .355 -.145 .332 .014

a2 .682 .397 -.139 -.118 -.011

a20 .653 .042 .095 .544 -.184

a11 -.637 .505 .216 .158 .156

a5 .635 .413 -.171 -.005 .094

a7 .598 .270 -.295 .236 .242

a22 .567 .115 -.223 .164 -.243

a17 .567 -.181 .426 .247 -.390

a9 -.547 .094 -.378 .193 .467

a19 .527 .053 .397 .146 .206

a13 -.527 .509 .066 .052 -.142

a14 -.545 .607 -.030 .164 -.113

a15 -.455 .561 .332 -.142 -.093

a4 .501 .556 .255 -.224 -.003

a18 .375 -.130 .469 .083 .413

a21 .516 .031 -.116 .599 -.123

a16 -.366 .278 -.209 -.196 -.455

Extraction Method: Principal Component Analysis.

a 5 components extracted.

上表的成份矩阵是每个变量在未旋转的成份或因子上的因子负荷量。比如

543216071.0194.0065.0273.0796.0F F F F F a +-++=。如果如下图所示,在因子分析的

options 选项卡选项中选择Suppress absolute values less than 选项,则其中小于0.10的因子负荷量将不被显示,这样将使得表格更加清晰、明了。比如每个数字代表了该变量与未旋转的因子之间的相关,这些相关有助于解释各个因子。也就是说,如果一个变量在某个因子上有较大的负荷,就说明可以把这个变量纳入该因子。但是常常会有这种情况,很多的变量同时在几个未旋转的因子上有较大的负荷,这就使得解释起来比较困难,因此查看旋转以后的结果能较好地解决这个问题。

7.表7——旋转的成份矩阵

Rotated Component Matrix(a)

Component

1 2 3 4

5 a3 .819 -.109 .122 .164

a1 .815 -.152 .135 a2 .778 -.129 .160

a6 .772 -.231

.221

.227

a5 .742 .222

a4 .718 .192 .162 .305

a8 .616 -.352 .207 .157 a7 .598 -.156 .403 .149

-.256 a11 -.176 .814 -.142 -.204 a12 -.356

.769 -.157

-.174 a14 .767 -.299

-.165 a15 .737 -.300

.140

a13

.691

-.262

a10 -.336 .669 -.260 -.387

a21 .216 -.137 .758 .110

a20 .289 -.139 .737 .226 .265

a22 .428 -.238 .441 -.133 .137

a18 .120 -.120 .715 .121

a16 .289 -.138 -.623

a19 .313 .188 .557 .233

a9 -.250 .259 -.755

a17 -.215 .437 .242 .667

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

A Rotation converged in 7 iterations.

上表为旋转后的成份矩阵表,表中各变量根据负荷量的大小进行了排列。旋转后的因子矩阵与旋转前的因子矩阵有明显的差异,旋转后的负荷量明显地向0和1两极分化了。从旋转后的矩阵表中,可以很容易地判断哪个变量归入哪个因子(上表中用黑体数字标出的变量分属不同的因子)。从上表看出,最后一个因子只有两个变量,包含的变量不多,因此删除这个因子可能更为合适。但是删除了一个因子后,因素结构会有所改变,需要重新进行因子分析。

六、因素分析的命名和结果汇报

因子分析通过Varimax旋转之后得出的因子,可根据量表项目的含义进行命名。一般说来,给因子命名应该简明扼要,反映出该因子中所有变量所表达的潜在结构。如果进行的是探索性因素分析,就可以根据量表的内容进行命名。如果要验证已有的理论结构,那么对于得出的因子应采用该研究领域已被广为接受的术语进行命名,与其他研究保持一致,以免引起概念上不必要的混乱。

SPSS的因子分析产生了大量的表格结果,在研究报告或论文写作中显然不大可能有足够的篇幅对所有分析结果进行汇报,但可摘要汇报。一般的做法是,把各因子旋转后的特征值、解释方差、累计解释方差,以及各因子所包含的问卷问题及其对因子的负荷量等主要统计量汇总并制表,格式见下两表。

spss统计分析期末考试题

《统计分析软件》试(题)卷 班级 xxx班姓名 xxx 学号 xxx 说明:1.本试卷分析结果写在每个题目下面(即所留空白处); 2.考试时间为100分钟; 3.每个试题20分。 一、(20分)已经给出某个班的学生基本情况及其学习成绩的两个SPSS数据文件,学生成绩一.sav;学生成绩二.sav。要求: (1)将所给的两个SPSS数据文件“学生成绩一.sav”与“学生成绩二.sav”合并,并保存为“成绩.sav.” (2)对所建立的数据文件“成绩.sav”进行以下处理: 1)按照性别求出男、女数学成绩的各种统计量(包括平均成绩、标准差等)。 2)计算每个学生的总成绩、并按照总成绩的大小进行排序 3)把数学成绩分成优、良、中三个等级,规则为优(X≥85),良(75≤X ≤84),中(X≤74),并对优良中的人数进行统计。

分析: 描述统计量 性别N极小值极大值均值标准差 男数学477.0085.0082.2500 3.77492有效的 N (列表状态)4 女数学1667.0090.0078.50007.09930有效的 N (列表状态)16

注:成绩优良表示栏位sxcj 优为1 良为2 中为3 由表统计得,成绩为优的同学有4人,占总人数的20%;良的同学有12人,占总人数的60%;中的同学有4人,占总人数的40%。 二、(20分)为了解笔记本电脑的市场情况,针对笔记本电脑的3种品牌,进行了满意度调查,随机访问了30位消费者,让他们选出自己满意的品牌,调查结果见下表,其中变量“职业”的取值中,1表示文秘人员,2表示管理人员,3表示工程师,4表示其他人;3个品牌变量的取值中,1表示选择,0表示未选数据见Excel数据文件“调查.exe”。根据所给数据完成以下问题 (1)将所给数据的Excel文件导入到SPSS中,要求SPSS数据文件写出数据结构(包括变量名,变量类型,变量值标签等)命,并保存为:“调查. Sav”。 (2)试利用多选项分析,利用频数分析来分析消费者对不同品牌电脑的满意度状况;分析不同职业消费者对笔记本品牌满意度状况。 分析:

SPSS相关分析在学生成绩分析中的应用

SPSS相关分析在学生成绩分析中的应用 [摘要] 成绩分析是每所学校期中、期末考试之后对教学常规管理的一项基本要求,也是全面提高教学成绩重要的方法和途径。随着IT技术的发展,各学校分别采用了不同的应用软件对成绩进行质量分析,从中发现问题并加以改进,以提高教师的教学质量。本文介绍了SPSS统计软件的相关分析功能在考试成绩分析中的应用,建立了成绩分析模型,并给出了对学生考试成绩进行分析的SPSS 软件操作方法。运用此方法,可以直观、高效、科学地对学生的成绩质量进行分析。 [关键词] SPSS;相关分析;成绩;应用 1 相关分析概述 任何事物的变化都是与其他事物相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。当一个变量x取一定值时,另一变量y可以按照确定的函数公式取一个确定的值,记为y = f(x),则称y是x的函数,也就时说y与x两变量之间存在函数关系。函数关系是一一对应的确定性关系,比较容易分析和测度。可是在现实中,变量之间的关系往往并不那么简单。描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。在实际中,因为研究目的不同,变量的类型不同,采用的相关分析方法也不同。比较常用的相关分析方法是二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离分析,统称二元变量的相关分析。 二元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进行分析。在二元变量的相关分析过程中比较常用的几个相关系数是Pearson简单相关系数、Spearman和Kendall’s tau-b等级相关系数。 二元定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量、“收入”变量、“成绩”变量等都是典型的定距变量。Pearson 简单相关系数就是用来衡量定距变量间的线性关系。 定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1——小学及以下;2——初中;3——高中、中专、技校;4——大学专科;5——大学本科;6——研究生以上。由小到大的取值能够代表学历由低到高。Spearman和Kendall’s tau-b等级相关系数就是用于衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。

SPSS探索性因子分析报告地过程

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 问题 题项 从未使用 很少使用 有时使用 经常使用 总是使用 1 2 3 4 5 a1 电脑 a2 录音磁带 a3 录像带 a4 网上资料 a5 校园网或因特网 a6 电子邮件 a7 电子讨论网 a8 CAI 课件 a9 视频会议 a10 视听会议 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 i m im i i i i U F F F F Z +++++=αααα · · · 332211 i Z 为第i 个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的 那批分数中的相对位置的。) m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关系数,它反映了第i 个变量在 第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相

SPSS分析中学生成绩

2017年《SPSS技术应用》 ----期末考核论文 基于SPSS的中学化学例题教学效果研究 ----以延吉市某中学为例 二〇一七年六月

摘要 课程改革以来,课堂教学备受关注,尤其是如何实现高效课堂,是目前中学师生迫切需要解决的问题。中学化学是一门自然科学,本身具有微观性和抽象性的特点,使初中生在学习时比较困难,而例题是指导学生如何运用所学知识的范例,例题教学是中学化学课堂常见的教学方法。 本文通过调查统计对一个班级初中生实施案例教学前后的化学成绩,用SPSS统计软件进行对所得数据进行了描述量统计,方差齐性分析,独立单样本T 检验分析和相关分析,得出了在中学化学课堂上实施案例教学,有利于增强学生学习兴趣,提高学习积极性,进而提高化学成绩的结果。得出中学化学教师应该根据教学内容合理地选择例题并充分利用例题,以促进初中生对化学概念原理的认识和理解,对化学规律和方法的掌握以及化学学习效率的提高。 关键词:中学化学案例教学 SPSS软件统计分析

目录摘要II 目录III 第一章绪论1 1.1 研究背景1 1.2 研究目的及意义1 1.3 国内外研究现状2 1.3.1 SPSS应用国内外研究现状2 1.3.2 案例教学国内外发展与研究3 第2章相关概念及理论依据4 2.1 概念界定4 2.1.1例题4 2.1.2例题教学4 2.1.3 描述性统计分析4 2.1.4 T检验4 2.1.5 相关分析5 第三章教学实施结果统计分析6 3.1 数据来源6 3.2 数据分析6 3.1.1描述性统计结果7 3.1.2 独立单样本t-检验结果7 3.1.2 相关分析结果9 第4章结论与建议10 4.1 研究结论10 4.2 研究建议10 参考文献11

SPSS因子分析法

因子分析 ? 因子分析(Factor analysis ):用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法。 ? 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 ? 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 ? 分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为??????????????=np n n p p x x x x x x x x x X 212222111211

因子分析SPSS操作

因子分析作业: 全国30个省市的8项经济指标如下: 要求:先对数据做标准化处理,然后基于标准化数据进行以下操作 1、给出原始变量的相关系数矩阵; 2、用主成分法求公因子,公因子的提取按照默认提取(即特征值大于1),给出公因子的方差贡献度表; 3、给出共同度表,并进行解释; 4、给出因子载荷矩阵,据之分析提取的公因子的实际意义。如果不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,要求给各个公因子赋予实际含义; 5、先利用提取的每个公因子分别对各省市进行排名并作简单分析。最后构造一个综合因子,计算各省市的综合因子的分值,并进行排序并作简单分析。 1、输入数据,依次点选分析描述统计描述,将变量x1到x8选入右边变量下面,点选“将标

准化得分另存为变量”,点确定即可的标准化的数据。 依次点选分析降维因子分析,打开因子分析窗口,将标准化的8个变量选入右边变量下面,点选描述相关矩阵下选中系数及KMO和Bartlett的检验,点继续,确定,就可得出8个变量的相关系数矩阵如下图。 由表中数据可以看出大部分数据的绝对值都在以上,说明变量间有较强的相关性。 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.621 Bartlett 的球形度检验近似卡方 df28 Sig..000 由上图看出,sig.值为0,所以拒绝相关系数为0(变量相互独立)的原假设,即说明变量间存 在相关性。 2、依次点选在因子分析窗口点选抽取方法:主成分;分析:相关性矩阵;输出:未旋转的因子解,碎石图;抽取:基于特征值(特征值大于1);继续,确定,输出结果如下3个图。 解释的总方差 成份 初始特征值提取平方和载入 合计方差的 %累积 %合计方差的 %累积 % 1 2 3 4.403

SPSS分析中学生成绩

$ 2017年《SPSS技术应用》 ----期末考核论文 ~ 基于SPSS的中学化学例题教学效果研究 ----以延吉市某中学为例 二〇一七年六月 ?

摘要 课程改革以来,课堂教学备受关注,尤其是如何实现高效课堂,是目前中学师生迫切需要解决的问题。中学化学是一门自然科学,本身具有微观性和抽象性的特点,使初中生在学习时比较困难,而例题是指导学生如何运用所学知识的范例,例题教学是中学化学课堂常见的教学方法。 本文通过调查统计对一个班级初中生实施案例教学前后的化学成绩,用SPSS统计软件进行对所得数据进行了描述量统计,方差齐性分析,独立单样本T 检验分析和相关分析,得出了在中学化学课堂上实施案例教学,有利于增强学生学习兴趣,提高学习积极性,进而提高化学成绩的结果。得出中学化学教师应该根据教学内容合理地选择例题并充分利用例题,以促进初中生对化学概念原理的认识和理解,对化学规律和方法的掌握以及化学学习效率的提高。 关键词:中学化学案例教学 SPSS软件统计分析

目录 摘要 ..................................................................... II 目录 ..................................................................... III 第一章绪论.. (1) 研究背景 (1) 研究目的及意义 (1) 国内外研究现状 (2) SPSS应用国内外研究现状 (2) 案例教学国内外发展与研究 (3) 第2章相关概念及理论依据 (4) 概念界定 (4) 例题 (4) 例题教学 (4) 描述性统计分析 (4) T检验 (4) 相关分析 (5) 第三章教学实施结果统计分析 (6) 数据来源 (6) 数据分析 (6) 描述性统计结果 (7) 独立单样本t-检验结果 (8) 相关分析结果 (9) 第4章结论与建议 (10) 研究结论 (10) 研究建议 (10) 参考文献 (11)

(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

SPSS因子分析法例子解释

因子分析的基本概念与步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握与认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”与“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量与海量数据仍就是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠与高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单与最直接的解决方案就是削减变量的个数,但这必然又会导致信息丢失与信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson与Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富与完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不就是原有变量的简单取舍,而就是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解释

统计分析与SPSS应用 期末作业

统计分析与SPSS的应用 原始数据:10级市场营销2班成绩 分析一:综测成绩四分位数 上表表明:综测成绩的最小值为68.61分,最大值为89.15分。其中25%的学生综测成绩为74.4100分,50%的学生综测成绩为80.3740分,75%的学生综测成绩为85.2200分。四分位数差从侧面证实了学生综测成绩呈一定左偏分布。

分析二:综测成绩直方图 上图表明:该班学生的综测成绩均分为80.07分,标准差为5.62。从图中可以看出,综测成绩呈左偏性分布,在85分左右的学生人数最多,70分左右的学生人数最少。 分析三:综测成绩的基本统计量分析 上表表明:综测成绩的极差为20.55分,意味着数据相对较分散。另外,综测成绩的最小值和最大值分别为68.61分和89.15分,平均分为80.0734分,标准差为5.61963。从偏度系数可以看出,系数小于0,偏度标准误差为0.421,因而该班综测成绩呈左偏分布,。从峰度系数可以看出,峰度值小于0,峰度标准误差为0.821,因而数据的分布比标准正态分布更加平缓,称

为平峰分布。 分析四:各科成绩的统计量分析比较 各科成绩统计量结果分析表 由上表可知:宏观经济学的全距最大,而生产与运作管理的全距最小,表明宏观经济学的成绩离散程度最高,而生产与运作管理的成绩离散程度最低;同时,对于标准差而言,也是宏观经济学的标准差最大而生产与运作管理的标准差最小。各科成绩平均分最高的为体育成绩,平均分最低的为英语成绩。各科成绩中只有人力资源管理的成绩是呈右偏分布,其他各科成绩均呈左偏分布。另外,各科成绩中,只有宏观经济学的成绩呈尖峰分布,其他各科呈平峰分布。

SPSS因子分析实例操作步骤

SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2. Opening excel data source——OK.

第二步: 1.数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction——Factor ,变量选择标准化后的数据.

3.点击右侧Descriptive,勾选Correlation Matrix选项组中的Coefficients和 KMO and Bartlett’s text of sphericity,点击Continue. 4.点击右侧Extraction,勾选Scree Plot和fixed number with factors,默认3个,点击Continue.

5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的Loding Plot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue.

SPSS探索性因子分析的过程

S P S S探索性因子分析的 过程 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 Z为第i个变量的标准化分数;(标准分是一种由原始分出来的,它是用来说明原始分i 在所属的那批分数中的相对位置的。)

m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关 系数,它反映了第i 个变量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子

SPSS因子分析法22

实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个 综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为: Lij 是原变量在各主成分上的载荷 无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。 zi 与zj 相互无关; z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。 Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。 主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。 从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。 ?? ? ??? ????? ???=np n n p p x x x x x x x x x X 2 1 222 21 11211?? ? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111?? ? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

使用SPSS进行探索式因素分析的教程

使用S P S S进行探索式因素分析的教程

第4章探索式因素分析 在社会与行为科学研究中,研究者经常会搜集实证性的量化资料來做验证,而要证明这些资料的可靠性与正确性,则必须依靠测量或调查工具的信度或效度(杨国枢等,2002b)。一份好的量表应该要能够将欲研究的主题构念(Construct,它是心理学上的一种理论构想或特质,无法直接观测得到)清楚且正确的呈现出来,而且还需具有「效度」,即能真正衡量到我们欲量测的特性,此外还有「信度」,即该量表所衡量的结果应具有一致性、稳定性,因此为达成「良好之衡量」的目标,必须有以下两个步骤:第一个步骤是针对量表的题项作项目分析,以判定各项目的区别效果好坏;第二步骤则是建立量表的信度与效度。量表之项目分析、信度检验已于第2、3章有所说明,本章将探讨量表之效度问题。 4-1 效度 效度即为正确性,也就是测量工具确实能测出其所欲测量的特质或功能之程度。一般的研究中最常使用「内容效度」(Content Validity)与「建构效度」(Construct Validity)来检视该份研究之效度。 所谓「内容效度」,是指该衡量工具能足够涵盖主题的程度,此程度可从量表内容的代表性或取样的适切性来加以评估。若测量内容涵盖所有研究计划所要探讨的架构及内容,就可说是具有优良的内容效度。在一般论文中,常使用如下的描述来「交代」内容效度: 而所谓「建构效度」系指测量工具的内容,即各问项是否能够测量到理论上的构念或特质的程度。建构效度包含收敛效度(Convergent Validity)与区别效度(Discriminant Validity),收敛效度主要测试以一个变量(构念)发展出的多项问项,最后是否会收敛于一个因素中(同一构念不同题目相关性很高);而区别效度为判别问项可以与其它构念之问项区别的程度(不

基于SPSS统计软件对学生成绩的分析

基于SPSS统计软件对学生成绩的分析 陈利利 摘要:应用统计软SPSS,对某校法律专业一、二班76名学生的民法科目的期末成绩进行分析。学生绩分析是教师应做的一项比较麻烦的工作,主要包括:计算平均值和标准差,绘制学生成绩分布直方图等。SPSS(Statistics Package for Social Science)社会科学统计软件是全球知名的统计分析软件之一。运用SPSS 统计软件对学生成绩进行分析处理,速度快、直观、全面,对后续的教学工作和课程评价有着重要意义。 关键字:频数分析,描述统计,独立样本t检验 一、数据调查 (1)数据调查方法:由于学校的班级和考试科目比较多,如果对于每一个学生的学习成绩进行普查,会加大工作难度,并且不利于从繁杂的数据中获取信息。因此本文采用抽样的方法进行数据调查。 (2)数据来源:抽取2015级法律专业一班、二班,共七十六名同学,采集民法和英语的期末成绩作为本次统计分析的对象。 二、SPSS软件应用分析 统计分析的目的在于研究总体特征。描述性统计分析是统计分析的第一步,是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析。做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。 1、频数分析(Frequencies)1 频数分析多适用于离散变量,其功能是描述离散变量的分布特征。对把握数据的分布特征是非常有用的。 (1)民法成绩的频数分析 输出的结果及解释:系统输出的频数检验结果见表1、表2和图1。 表 1法律专业学生民法成绩统计表 1频数分析多适用于离散变量,其功能是描述离散变量的分布特征。

SPSS学习系列31. 因子分析

31. 因子分析 一、基本原理 因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。 因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。 因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。 因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。 得到估计的因子模型后,还必须对得到的公因子进行解释。即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。该公因子的重要程度就是在因子模型矩

阵中相应于这个因子的系数。 由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。 每个样本都可以计算其在各个公因子上的得分,利用因子得分以及该公因子的方差贡献比例,又可以计算每个样本的综合得分。 二、因子分析实例 例1(综合评价问题)对我国30个省市经济发展的8个指标进行分析和排序。数据文件如下: x1=GDP;x2=居民消费水平;x3=固定资产投资; x4=职工平均工资;x5=货物周转量;x6=居民消费价格; x7=商品价格指数;x8=工业总产值。 1. 【分析】——【降维】——【因子分析】,打开“因子分析”窗口,将变量“x1-x8”选入【变量】框;

spss分析学生成绩方法

spss分析学生成绩方法 考试成绩只是一些零散的数据,对其进行科学的处理能够为我们提供更有价值的信息,因此,合理运用统计学工具,对数据做出深层次的剖析来指导后续的教学活动尤为重要。 1 SPSS 软件简介 SPSS 是Statistical Program for Social Sciences 的简称,即社会科学统计程序。作为统计分析工具,其统计和数据分析功能强大,理论严谨、内容丰富,广泛用于自然科学、技术科学、社会科学的各个领域。它的统计过程包括描述性统计、相关分析、回归分析、聚类分析、数据简化、多重响应等几大类。其统计功能囊括了教育统计学中所有的项目,包括集中量数和差异量数、相关分析、回归分析、方差分析、卡方检验、t 检验等,能够满足成绩分析全部指标的分析计算,为教师考试分析及教学工作起到一定的导向作用。 2 利用SPSS 对学生成绩进行分析 2. 1 课程选取及成绩来源 依据延安大学信息与计算科学专业培养方案及教学大纲,选取其核心课程高等代数及解析几何,对本专业2012 级学生两门课程的学习成绩进行基本描述性统计、正态分布检验,并对其关系进行相关性分析,从而了解解析几何、高等代数之间的相互影响,促进本校教学方法的改进和发展。成

绩数据来源于学校教务系统中的成绩库,对该年级共46 名学生成绩进行分析。 2. 2 成绩分析 2. 2. 1 高等代数1、2 的成绩分析 从高等代数1、2 成绩的均值、标准差、众数、最值、极差等方面的比较,可以看到该班的高等代数1比高等代数2 成绩略好一些,高等代数1 学生的成绩较高等代数2 的成绩有轻度的分化现象,原因可能是由于学生刚进入大学未能适应新的学习环境所致。调用分析描述探索过程( 双侧检验) ,进行正态分布检验。结果显示,该班的高等代数1、2 成绩在0. 01 水平下显著相关,说明随着高等代数学习的深入,内容难度逐渐增加,因此学好高等代数1 是必要条件,可以为后面的学习打下坚实的基础。 2. 2. 2 解析几何成绩分析 基本描述性统计操作过程同高等代数,得到如从解析几何成绩的描述性统计分析可以看出,该班的解析几何成绩绝大部分为中等及良好分数段,有10. 9% 的学生成绩为不及格,8. 7% 的学生成绩为优秀。可能由于同学们认为有中学学习几何的基础,存在侥幸心理,导致成绩未达到预期的效果。得出: 高等代数、解析几何在0. 01 显著水平下两两相关,两门课程相关性很大。数学是一门对逻辑思维能力要求很高的学科,学科内部各知识也是相通的,所以这两门课

SPSS因子分析法内容与案例

实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis):就就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来瞧,主成分分析就是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis):就是因子分析的一个特例,就是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)与因子分析(FA)就是两种把变量维数降低以便于描述、理解与分析的方法,而实际上主成分分析可以说就是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不就是对原始变量的取舍,而就是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量就是对某些原始变量信息的综合与反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

基于SPSS的学生成绩影响因素分析

软件开发 1.模型 基础的数据挖掘模型有决策树,聚类分析,关联分析,神经网络、回归分析、时间序列等,本报告选取前三种进行实验并分析结果。 ■■1.1■决策树 决策树是根据数据生成规则的一种简捷高效的预测模型,他代表的是对象属性与对象值之间的一种映射关系。易于理解和实现,能够直接体现数据的特点,能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,易于通过静态测试来对模型进行评测,可以测定模型可信度,给定一个观察的模型,很容易根据决策树推出相应逻辑表达式。 模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。操作步骤理解如下: (1)找分割点:贪心算法,选当前纯度差最大的情况作为分割点。 (2)分割成N1、N2。 (3)对N1、N2重复1,2,直到每个节点足够“纯”。纯度的度量:熵,纯度差:信息增益,C4.5算法中用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 ■■1.2■聚类 聚类的作用是对未分类的、无规律的变量进行处理,使这些数据能够反映出一定的规律性或特殊的分类性。 聚类可以用来对样品或者变量进行处理,对n个样品进行聚类的方法称为Q型聚类,常用的统计量称为“距离”;对m个变量进行聚类的方法称为R型聚类,常用个统计量称为“相似系数”。 将样本聚类,从分析结果可以得出各类的特点;将变量聚类,可从大量指标中提取出主要因素,在不造成巨大的信息丢失的同时减少指标数量。 ■■1.3■关联分析 关联分析用于发现大量数据中不同项之间的联系,实际应用中可在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 其分析过程是挖掘满足具有最小支持度阈值的所有项集——频繁项集,并在其中提取满足置信度的规则——强规则。 本实验中采用著名的Apriori算法,作为挖掘产生布尔关联规则所需频繁项集的基本算法。 2.实验 ■■2.1■数据来源 尝试爬取的数据很难清洗,缺失值较多,难以保证实验质量,比较UCI、kaggle等网站数据后在UCI(http:// https://www.doczj.com/doc/3413846106.html,/ml/) Machine Learning Repository 上取得student数据集,共394条数据,因数据量较少恐影响实验结果,因此按照千次有放回抽样进行扩充,并与原数据合并,共1394条数据进行实验,数据特征包含:学校,性别,年龄,地址,家庭规模,父母同居与否,母亲教育程度,父亲教育程度,母亲职业,父亲职业,选校原因,监护人,到学校的路程,每周学习时间,之前挂科数,额外教育支持,家庭教育支持,该课程额外支付,是否参加课外活动,上过幼儿园否,是否有意升学,家里有没网络,是否恋爱,家庭关系好坏,休闲时间长短,与朋友出门,工作日酒精消费,周末酒精消费,最近健康状况,逃课数,第一学期成绩,第二学期成绩,最终成绩。 ■■2.2■实验流程 本次实验在SPSS平台进行,版本:19.0.0.329。SPSS 全称统计产品与服务解决方案,集成数据挖掘所需的常见模型,可完成决策树、聚类、关联分析等实验。 2.2.1 决策树 spss重新编码功能对G3进行离散,0~12分视为不及格,标0,高于12视为及格,标1。 决策树模型简洁易用,本次试验所用数据集完整度高,不存在缺失等情况,由于该模型忽略属性之间的相关性,因此选择不同导向性、两两不相关的属性进行分析。 基于SPSS的学生成绩影响因素分析 作者/陈卓,济宁市兖州区第一中学 摘要:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”互联网在日常运营中生成、累积了规模庞大的用户网络行为数据。用数据挖掘的方法有目的地收集和分析这些数据,使之成为信息,把隐没在杂乱无章的数据中的信息集中、萃取和提炼出来,找出研究对象的内在规律,是发挥数据价值的一种选择。本分析报告探究统计学意义上高中生学习成绩受哪些因素影响,希望在熟悉数据挖掘等理论基础的同时,能发掘有意义的研究价值,给与正处于高中生活中的同学及家庭一些启迪。 关键词:数据挖掘,SPSS,决策树,聚类,关联分析 www?ele169?com | 43

相关主题
文本预览
相关文档 最新文档