当前位置:文档之家› 使用SPSS进行探索式因素分析的教程

使用SPSS进行探索式因素分析的教程

使用SPSS进行探索式因素分析的教程
使用SPSS进行探索式因素分析的教程

第4章探索式因素分析

在社会与行为科学研究中,研究者经常会搜集实证性的量化资料來做验证,而要证明这些资料的可靠性与正确性,则必须依靠测量或调查工具的信度或效度(杨国枢等,2002b)。一份好的量表应该要能够将欲研究的主题构念(Construct,它是心理学上的一种理论构想或特质,无法直接观测得到)清楚且正确的呈现出来,而且还需具有「效度」,即能真正衡量到我们欲量测的特性,此外还有「信度」,即该量表所衡量的结果应具有一致性、稳定性,因此为达成「良好之衡量」的目标,必须有以下两个步骤:第一个步骤是针对量表的题项作项目分析,以判定各项目的区别效果好坏;第二步骤则是建立量表的信度与效度。量表之项目分析、信度检验已于第2、3章有所说明,本章将探讨量表之效度问题。

4-1 效度

效度即为正确性,也就是测量工具确实能测出其所欲测量的特质或功能之程度。一般的研究中最常使用「内容效度」(Content Validity)与「建构效度」(Construct Validity)来检视该份研究之效度。

所谓「内容效度」,是指该衡量工具能足够涵盖主题的程度,此程度可从量表内容的代表性或取样的适切性来加以评估。若测量内容涵盖所有研究计划所要探讨的架构及内容,就可说是具有优良的内容效度。在一般论文中,常使用如下的描述来「交代」内容效度:

本研究问卷系以理论为基础,参考多数学者的问卷内容及衡量项目,并针对研究对象的特性加以修改,并经由相关专业人员与学者对其内容审慎检视,继而进行预试及修正,因此本研究所使用之衡量工具应能符合内容效度的要求。

本研究之各研究变项皆经先前学者之实证,衡量工具内容均能足够地涵盖欲探讨的研究主题。另外,本研究于正式施测前,亦针对问卷之各题项与相关领域的学者、专家进行内容适切度之讨论,因此,研究采用之衡量工具应具内容效度。

在内容效度方面,主要是根据文献探讨及专家研究者的经验。然因本研究问卷设计之初,考虑目前相关的文献中,尚未对本研究议题提出实证性问卷,故只能自行设计量表,对于内容效度是否达成,尚有疑虑。

而所谓「建构效度」系指测量工具的内容,即各问项是否能够测量到理论上的构念或特质的程度。建构效度包含收敛效度(Convergent Validity)与区别效度(Discriminant Validity),收敛效度主要测试以一个变量(构念)发展出的多项问项,最后是否会收敛于一个因素中(同一构念不同题目相关性很高);而区别效度为判别问项可以与其它构念之问项区别的程度(不同构念不

同题目相关性很低)。衡量收敛效度的统计方式可使用探索式因素分析法(Exploratory factor analysis),简称因素分析。进行因素分析时,若发现各构念的衡量项目皆可收敛于同一个共同因素之下,则表示该量表的收敛效度是可被接受的。至于区别效度,则可采用因素分析与皮尔森相关分析,首先,必须在因素分析法中,各构念的衡量项目皆没有与其它构念的衡量项目收敛于同一个共同因素之下,此外,在皮尔森相关系数矩阵中,不同构念的衡量项目彼此之间关联性很低,如皮尔森系数皆小于0.3,若出现上述两现象显示不同构念的衡量项目间彼此皆不具有强烈的关连性,据此,即可显示出区别效度是可以被接受的。进行量表之建构效度评估时,虽理应同时检视收敛效度与区别效度,然审视国内之硕士论文或一些期刊论文都可发现,大部分都只以因素分析进行收敛效度之评估,并据以说明量表的建构效度,其方法如:同一构念中,若因素负荷量的值愈大(通常取0.5以上者才保留该项目,否则删除后再重新执行一次因素分析),表示收敛效度愈高。此外,也可使用属线性结构方程(Linear Structural Equation)领域的验证性因素分析(Confirmatory Factor Analysis),以进行模式的适合度检定,并检定各构念是否具有足够的收敛效度与区别效度。

4-1因素分析的意义

因素分析(Factor Analysis)属于多元统计分析技术的一种,其主要目的是浓缩数据。它透过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想的变量来表示其基本的数据结构。这些假想变量能够反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系,我们把这些假想变量称之为基础变量,即因素(Factors)。因素分析就是研究如何以最少的信息遗失,而能把众多的观测变量浓缩为少数几个因素。

一般在对实际问题做研究时,研究者往往希望尽可能地多多收集与研究主题相关的变量,以期能针对问题有比较全面性的、完整性的掌握和认识。虽然收集这些数据需投入许多的人力、物力与时间成本,虽然它们能够较为整体而精确地描述研究主题,但将这些资料实际用在分析、建模时,这些变量未必能真正发挥研究者预期的作用,也就是说研究者的「投入」和「产出」并非呈合理的正比,相反的,这样的搜集资料行为反而会给研究者于统计分析时带来许多问题,这些问题如下:

■计算量的问题

由于研究者所收集的变量相当多,如果这些变量都投入数据的分析与建模,无疑的,这将会增加分析过程中于计算上的工作量。虽然,目前计算机运用普遍且其计算能力亦相当优异,然而对于此种高维的变量和庞大的数据仍是于计算上所不容忽视的。

■变数间的相关性问题

由于研究者针对特定之主题所收集到的诸多变量之间通常或多或少都会存在着相关性。也就是说,变量之间往往具有信息的高度重迭性和高度相关性,这些特质将会给统计方法的应用带来许多不便。例如,在多元线性回归分析中,如果这些众多的解释变量之间,存在着较强且显着的

相关性,即存在着高度的多重共线性,那么于回归方程的参数估计时,将带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。

为解决上述的问题,最简单且最直接的解决方法即是精减变量之个数,但是这又必然会导致信息的漏失和信息不完整等现象产生,这是一个Trade-off的问题。为此,研究者无不希望探索一种更有效的解决方法,期盼它既能大大减少参与数据分析、建模的变量个数,也同时不会造成信息的大量漏失。而因素分析正是这样一种能够有效降低变量维数(个数),并已得到广泛应用的分析方法。因素分析是由心理学家所发展出来的,最初心理学家借助因素分析模型来解释人类的行为和能力,1904年Charles Spearman在美国心理学杂志上发表了第一篇有关因素分析的文章,在往后的三四十年里,因素分析的理论和数学基础理论逐步获得发展和改善,也因此,这个统计分析工具逐渐被人们所认识和接受。50年代以来,随着计算机的普及和各种统计软件的出现,因素分析在社会学、经济学、医学、地质学、气象学和市场营销等越来越多的领域得到了应用。

因素分析以最少的信息漏失为前提,试图将众多的原始变量综合成较少几个综合指标,这些综合指标即名为因素(factor)。一般而言,因素具有以下几个特点:

■因素个数远少于原始变量的个数

原始变量综合成少数几个因素后,因素将可以替代原始变量参与数据建模,这将大大减少分析过程中的计算工作量。

■因素能够反映原始变量的绝大部分信息

因素并不是原始变量的简单取舍,而是原始变量重组后的结果,因此不会造成原始变量信息的大量遗失,并能够代表原始变量的绝大部分信息。

■因素之间的线性关系不显着

由原始变量重组出来的因素之间的线性关系较弱,因素参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。

■因素具有命名解释性

通常,因素分析产生的因素能够透过各种方式最终获得命名解释性。因素的命名解释性有助于对因素分析结果的解释评价,对因素的进一步应用有重要意义。例如,对高校科研情况的因素分析中,如果能够得到两个因素,且其中一个因素是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因素分析就是较为理想的。因为这两个因素均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因素,另一个反映了科研产出方面的情况,可命名为科研产出因素。总之,因素分析是研究如何以最少的信息遗失将众多原始变量浓缩成少数几个因素,如何使因素具有一定

的命名解释性的多元统计分析方法。 4-2 因素分析的数学模型

因素分析的核心价值在于它能使用较少且相互独立的因素来反映原始变量的绝大部分信息。由于任何一个变量都可以透过

x

x

x z σ-=

(x 为x 的平均数,x σ为x 标准差)

的转换而变成标准化变量,经标准化后的变量并不会改变原始变量之间的相关系数,也就是说不失其一般性。在此我们所讨论的变量都是标准化变量。设原有p 个变数p x x x ,,,21 且每个变量的平均数为0,标准差均为1。现将每个原始变数用)(p k k <个因素k f f f ,,,21 的线性组合来表示,即:

113132121111u f a f a f a f a x k k +++++= 223232221212u f a f a f a f a x k k +++++= 333332321313u f a f a f a f a x k k +++++=

(4-1)

p k pk p p p p u f a f a f a f a x +++++= 332211

式(4-1)就是因素分析的数学模型,此模型在型式上和多元回归模型很相似,也可用矩阵的型式表示为U AF X +=。其中F 称为因素,由于它们出现在每个原始变量的线性表达式中,因此又称为共同因素(Common factors ),它们是各个原始变量所共同拥有的因素,解释了变量之间的相关程度。因素也可被想象成是高维空间中互相垂直的k 个坐标轴。A 称为因素负荷矩阵,ij a 称为因素负荷(Factor loading ),它是第i 个原始变数在第j 个因素上的负荷,相当于多元回归分析中的标准回归系数。U 称为特殊因素(Unique factor ),它是每个原始变量所特有的因素,相当于多元回归中的残差项,它表示了原始变量不能被因素所解释的部分,其平均数为0。

因素分析模型中假设p 个特殊因素之间是彼此独立的,特殊因素和共同因素之间也是彼此独立的。此外该模型中,每一个原始变量都是由k 个共同因素和一个特殊因素的线性组合来表示,而我们所感兴趣的只是这些能够代表较多信息的共同因素,因此往后如果没有特殊说明的话,本书中所经常提到的因素一词,实际上所指的就是共同因素。共同因素的个数最多可以等于原始变量的数量。因为在求因素解时,通常都会使第一个因素之代表性最高(即拥有最多的信息),之后的其它因素之代表性日益衰减,因此,如果忽略掉最后几个因素,则对原始变量的代表性也不会有什么损失。所以,因素分析模型中,共同因素的个数,往往远远小于原始变量的个数。如果把特殊因素当作是残差项看待,那么因素分析模型和多元线性回归模型在型式上非常相近,他们都是用其它变量的线性组合加上一个残差项来表示一个变量,但是回归模型中的自变量是可观测的,而因素分析模型中的因素是假想变量,是不可观测的,这就使得它有别于一般的线性模型。

4-3 因素分析的相关概念

因素分析之数学模型中蕴藏着几个重要的相关概念,搞懂这些概念不仅有助于因素分析之意义的理解,更有利于明暸因素与原始变量间的关系、因素的重要程度以及辅助评估因素分析的效果。为了进一步了解该模型所蕴含的意义,下面我们将讨论因素分析中常用的几个统计量。

■ 因素负荷

因素负荷可说是因素分析模型中最重要的一个统计量,它连接了原始变量和共同因素。当共同因素之间完全不相关时,我们可以很容易的证明出因素负荷ij a 其实就是第i 个变数和第j 个因素之间的相关系数。在大部分的情况下,我们通常会假设共同因素之间是彼此正交的(Orthogonal ),也就是说假设共同因素之间不相关。因此,因素负荷不仅说明了原始变量是如何由因素线性组合而成,而且也反映了因素和变量之间的相关程度,ij a 的绝对值越大,表示共同因素j f 与变数i x 的关系越紧密。

假设有一个五个原始变量、两个共同因素的模型:

121125.020.096.0u f f x ++= 221232.029.087.0u f f x ++= 321323.088.017.0u f f x ++= 421432.076.057.0u f f x ++= 521541.034.086.0u f f x ++=

从这个因素分析模型中,可以很容易看出,共同因素1f 与变数5421,,,x x x x 的关系密切,因为其间的因素负荷较大,这说明了共同因素1f 代表了这些变量所共同散发出来的信息,共同因素2f 与变数43,x x 关系密切,因此共同因素2f 主要代表了这两个变量所共同的信息。

此外,因素负荷还可以用来估计原始变量之间的相关系数,当共同因素之间彼此不相关时,由因素分析模型很容易可以推导出变量j i x x ,之间的相关系数为:

jk ik j i j i ij a a a a a a +++= 2211γ

即任何两个原始变量之间的相关系数等于所对应的因素负荷乘积之和。这说明了因素分析模型假设原始变量之间的潜在关系可以透过共同因素来加以描述,如果我们把变量i x 和因素之间的负荷想象为路径系数,则变量i x 和变数j x 之间的关系可以透过图4-1明确地表示出来。

︰ ︰ ︰

图4-1 变数i x 和变数j x 之间的关系图

由因素模型所导出的变量间的相关系数可以用来辅助判断因素解是否合适,如果由原始观测资料所计算出的相关系数和从模型中所导出的变量间的相关系数相差很小,那么我们可以认为模型非常适切的拟合了原始观测资料,因素解是合适的。因素分析模型是从解释变量之间的相关关系出发的,他的最佳解即是原始变量之间的实际相关关系。

■ 共通性(Communality )

所谓共通性是指原始变量的变异数中由共同因素所决定之部分所占的比例。变数i x 的共通性记做2i h 。当共同因素之间彼此正交时,共通性等于和该变量有关的因素负荷的平方和,用方程式可表示为:

2222112ik i i k

j ij i a a a a h +++==∑=

(4-2)

由式4-2可轻易理解,变数i x 的共通性即是因素负荷矩阵A 中第i 列中所有元素的平方和。读者对4-2的公式也可这样来记忆,共通性通常是以2i h 来代表,为何要使用「h 」这个字母,因为水平这个字的英文为「horizontal 」,引申到矩阵中的话即代表一列,故第i 个变量的共通性即为负荷矩阵A 中第i 列中所有元素的平方和。

由于变量i x 是标准化变量,所以变量i x 的变异数可以表示成221i i u h +=,也就是说原始变量i x 的变异数可由两个部分来加以解释:第一部分为共同因素所决定,即共通性2i h ,它是变数i x 之

变异数能被共同因素所能解释说明的部份,其说明了所有因素对变量i x 的解释贡献程度。共通性越大,代表变量能被因素说明的程度也越高。共通性越接近1,代表因素解释说明了变量i x 的大部分变异数,也就是说,如果我们使用因素来描述变量i x 时,则变数i x 的信息遗失较少,第二部分则由特殊因素所决定,即特殊因素的平方,它反映了变量i x 的变异数中不能由所有因素解释说明的部份,2i u 越小则说明变量i x 的信息遗失越少。总之,变数i x 的共通性描述了所有因素对变量i x 所蕴含之信息的解释程度,是评价变量i x 之信息遗失程度的重要指针。如果大部份之原始变量的共通性均较高(如高于0.8),则代表所萃取出的因素确实能够反映原始变量的大部分(80%以上)的信息,而仅有较少的信息遗失,因此因素分析的效果较好。所以,共通性是衡量因素分析效果的重要依据。对于上面所举的五个原始变量、两个共同因素的例子,可计算出每个变量的共通性见表4-1。9616.021=h 表示1f 和2f 两个因素解释了1x 变量之信息量的96.16%。共通性这个指针以原始变量为中心,它的意义在于说明如果用共同因素替代原始变量后,原来每个变量的信息被保留的程度。

表4-1 因素负荷矩阵、特征值、共通性与因素贡献度 1f

2f

2i h

1x

0.96 0.2 0.9616

2x 0.87 0.29 0.8410 3x

0.17 0.88 0.8033 4x 0.57 0.76 0.9025 5x

0.86 0.34 0.8552

特征值(k V )

2.77 1.59 5/k V

0.55

0.32

■ 因素的贡献程度

每个共同因素对数据的解释能力,可以用该因素所解释的总变异数来衡量,通常称此为该因素的贡献度(Contributions ),记为k V 。它等于和该因素有关的因素负荷的平方和,即

∑==p

i ik

k a V 12 (4-3)

因素分析中的特征值是每个变量在某一共同因素之因素负荷量的平方和,因此特征值其实就等于k V ,而所有共同因素的总贡献度则为:

∑==

k

p p V V 1

(4-4)

然而在实际的研究中更常用相对性的指标,即每个因素所解释的变异数占所有变量总变异数的比例。相对指标衡量了共同因素的相对重要性。假设p 是表示原始变量之数量,则p V k /表示了第k 个因素所解释的变异数的比例,而p V /则表示所有共同因素累积解释的变异数比例,它可以用来作为因素分析结束的判断指标。如表4-1,在上例中,55.05/1=V 、32.05/2=V 这代表第一个因素解释了所有变量总变异数的55%,第二个因素解释了上述总变异数的32%,两个因素一共解释了总变异数的87%。p V k /的值越高,代表相对应因素k f 的重要性越高。因此,因素的变异数贡献和变异数贡献率是衡量因素重要性的关键指标。

4-4 因素分析的基本步骤

进行因素分析时,通常包括以下四个主要步骤:

1、因素分析的前提条件

由于因素分析的主要目的是简化数据或者找出基本的数据结构,此即将原始变量中的信息重迭部分萃取出来并整合成因素,进而最终实现减少变量个数与萃取出因素的目的。因此要能够进行因素分析,必须要求原始变量之间应存在较强的相关关系。否则,如果原始变量间是相互独立、

不存在信息重迭,那么也就无法将其整合和缩简,也就无须进行因素分析了。所以本步骤的主要目的就是希望透过各种方法分析、检验原始变量间是否存在相关关系,是否适合于进行因素分析。一般而言,如果相关矩阵中的大部分相关系数都小于0.3,则不适合做因素分析。

2、因素萃取

将原始变量整合成少数几个因素是因素分析的主要目的。本步骤中就是要去确定因素的个数和求因素解的方法。

3、使因素容易命名与具可解释性

将原始变量整合为少数几个因素后,如果因素的实质涵义无法厘清,则极不利于进一步的分析。本步骤就是希望透过各种方法(因素旋转)使萃取出来的因素,其实质涵义能够清楚的表达出来,进而使研究者能根据其涵义而对因素加以命名并深入的解释它。

4、计算各样本的因素得分

因素分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因素代替原始变量参与数据分析与建模。本步骤将透过各种方法计算各样本在各因素上的得分,并以这些因素得分替代原始变量值,为进一步的分析奠定基础。下面将依次对上述基本步骤进行详细讨论。

4-4-1 因素分析的前提条件

因素分析的目的是从众多的原始变量中求同舍异整合出少数几个具有代表性的因素,在这过程中,需要一个潜在的前提条件,即原始变量之间应具有较强的相关关系。这个道理并不难理解,如果原始变量之间不存在较强的相关关系,那么就无法从中整合出能够反映某些变量共同特性的几个较少的共同因素。因此,一般在因素分析时需先验证因素分析的前提条件,即验证原始变量间是否相关。SPSS软件中提供了下列几种方法帮助研究者判断观测资料是否适合做因素分析。

■反映象相关矩阵(Anti-image correlation matrix)

反映象相关矩阵中各元素的值等于负的偏相关系数。偏相关系数是控制其它变量不变,计算一个自变量对因变量的净相关系数。如果原始变量之间确实存在较强的相互重迭性以及互相影响,也就是说,如果原始变量中确实能够萃取出共同因素,那么变量之间的偏相关系数应该很小,因为它与其它变量重迭的解释影响被扣除掉了。所以如果反映象相关矩阵中大部分元素的值都较大的话,应该考虑该观测数据可能不适合做因素分析。

反映象相关矩阵的对角在线的元素为某变量的MSA(Measure of Sample Adequacy)统计量,其数学定义为:

∑∑∑≠≠≠+=

i

j i

j ij ij i

j ij i p MSA 2

22

γγ (4-5)

其中,ij γ是变数i x 和其它变量)(i j x j ≠间的简单相关系数,ij p 是变数i x 和其它变量)(i j x j ≠间在控制了其它变量下的偏相关系数。由式(4-5)可知,某变数i x 的i MSA 统计量的值在0和1之间。当变数i x 与其它所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,i MSA 值接近1。i MSA 的值越接近于1,意味着变数i x 与其它变量间的相关性越强。而当它与其它所有变量间的简单相关系数平方和接近0时,i MSA 的值则接近0。i MSA 值越接近于0,意味变数i x 与其它变量间的相关性越弱。藉由以上的观念,仔细观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其它大多数元素的绝对值均较小,对角在线元素的值较接近l ,则说明了这些变量的相关性较强,适合进行因素分析。反之如果反映象相关矩阵中大部分元素的值都较大的话,应该考虑该观测数据可能不适合做因素分析。 ■ 相关系数矩阵

计算原始变量间的简单相关系数矩阵并进行统计检验。相关系数矩阵计算出来后,仔细观察相关系数矩阵,如果相关系数矩阵中的大部份相关系数值均小于0.3,即各个变数间大多为弱相关的划,那么原则上这些变量是不适合进行因素分析的。 ■ 巴特利特球形检验(Bartlett test of sphericity )

巴特利特球形检验以原始变量的相关系数矩阵为基础,判断相关系数矩阵是否为单位矩阵,即相关系数矩阵为对角矩阵(对角元素不为0,非对角元素均为0)且主对角上的元素均为1,因为如果相关系数矩阵为单位矩阵的话,代表各变量间没有相关,因此观测资料也就不适合做因素分析了。故巴特利特球形检验的虚无假设0H 为相关系数矩阵是单位矩阵。巴特利特球形检验的检验统计量将根据相关系数矩阵的行列式计算而得到,且其机率分配近似服从卡方分配。如果该统计量的值倾向于较大的值,且所对应的机率p 值小于预设的显着水平(一般设05.0=α),则应拒绝虚无假设,亦即可认为相关系数矩阵并非单位矩阵,所以原始变量适合作因素分析;反之,如果该统计量的值倾向于较小的值且所对应的机率p 值大于预设的显着水平,则不能拒绝虚无假设,因此可以认为相关系数矩阵与单位矩阵无显着差异,原始变量不适合作因素分析。 ■ KMO 检验(Kaiser-Meyer-Olkin test )

KMO 检验从比较原始变量之间的简单相关系数和偏相关系数的相对大小出发,因此须建立一个能比较变量间简单相关系数和偏相关系数的指标,此指标称为KMO 检验统计量,其数学定义为:

∑∑∑∑∑∑≠≠≠+=

i

j i

j ij ij i

j ij p KMO 2

22

γγ (4-6)

其中,ij γ是变数i x 和其它变量)(i j x j ≠间的简单相关系数,ij p 是变数i x 和其它变量)(i j x j ≠间在控制了其它变量下的偏相关系数。KMO 与MSA 的主要差异在于KMO 将相关系数矩阵中的所有元素都加入到了平方和的计算中。由式(4-6)可知,KMO 统计量的值会介于0和1之间。当所有变量间的偏相关系数平方和远远小于简单相关系数平方和时,KMO 值接近1。KMO 值越接近于1,意味着变数间的相关性越强,原始变量越适合做因素分析;当所有变量间的简单相关系数平方和接近0时,KMO 值接近0。KMO 值越接近于0,意味着变数间的相关性越弱,原始变量越不适合做因素分析。Kaiser 订出了常用的KMO 统计量之衡量标准:0.9以上表示非常适合做因素分析;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。 4-4-2 因素萃取和因素负荷矩阵的求解

在探索性因素分析中,求解初始因素这一步骤的主要目的是确定能够解释原始变量之间相关关系的最小因素个数,也就是说根据样本数据求出因素负荷矩阵。根据所依据的准则不同,有很多种求解因素负荷矩阵的方法,主要可以分为两类:一类是基于主成份分析模型的主成份分析法(Principle components factoring ),另一类是以共同因素模型为基础的共同因素分析法,包括主轴因素法(Principle axis factoring )、最大概似法(Maximum likelihood factoring )、最小平方法(Least squares factoring )、Alpha 法(Alpha factoring )、映象分析法(Image analysis factoring )等等。主成份分析法实际上是一种独立于因素分析的一种资料化简技术。因素分析中会把主成份分析的结果作为一个初始因素解,这是因为在确定因素个数时,常会用到主成份分析所产生的一个统计量---特征值。其它的求因素解的方法,如主轴因素法也采用了和主成份分析类似的算法,所以,主成份分析在因素分析中占有重要的地位。在此,仅将对在因素分析中占有重要地位且使用最为广泛的主成份分析法作简单讨论。

■ 主成份分析法求解因素负荷矩阵

主成份分析法能够为因素分析提供初始解,因素分析是主成份分析结果的延承和推广。在主成份分析法中,可以藉由坐标轴变换的手段,将原有的p 个相关变数i x 标准化后进行线性组合,而转换成另一组不相关的变数i y ,如下式: p p x x x x y 131********μμμμ++++= p p x x x x y 23232221212μμμμ++++= p p x x x x y 33332321313μμμμ++++=

(4-7)

p pp p p p p x x x x y μμμμ++++= 332211

式(4-7)为主成份分析的数学模型。其中12

2221=+++ip i i μμμ (i=1,2,3,…,p )

。要求得式(4-7)中的每个系数,必须遵守下列原则:

(1) i y 与j y (p j i j i ,,3,2,1,; =≠)相互独立。

(2) 1y 是变数p x x x ,,,21 的一切线性组合中变异数最大的;2y 是1y 不相关的变数p x x x ,,,21 的一切线性组合中变异数最大的;p y 是与121,,,-p y y y 都不相关的p x x x ,,,21 的一切线性

组合中变异数最大的。

根据上述原则所确定出来的变量p y y y ,,,21 ,依次称为原始变数p x x x ,,,21 的第1、第2、第3、…、第p 个主成份。其中1y 在总变异数中所占的比例最大,它整合原始变量p x x x ,,,21 的能力最强,其余主成份p y y y ,,,32 在总变异数中所占比例依次递减,即其余主成份p y y y ,,,32 整合原始变量p x x x ,,,21 的能力依次减弱。在主成份分析的实务应用中,一般研究者只会选取前面几个变异数较大的主成份。这样的好处是既能减少变量的数目,又能够用较少的主成份反映原始变量的绝大部分信息。

基于上述说明可见,主成份分析法的核心是透过原始变量的线性组合以及各个主成份的求解来实现变量降维的作用。现将主成份分析之数学模型的系数求解步骤归纳如下: (1)将原始变量进行标准化处理。 (2)计算变量的简单相关系数矩阵R 。

(3)求矩阵R 的特征值0321≥≥≥≥≥p λλλλ 及对应的单位特征向量p μμμ,,,21 。 透过上述步骤,计算i i i x y 'μ=便得到各个主成份。其中的p 个特征值和对应的特征向量便是因素分析的初始解。

现在重新回到因素分析模型中来。因素分析利用上述p 个特征值和对应的特征向量,并在此基础之上求出因素负荷矩阵A :

????

?

?

????

??=

??????????=p pp p p p p p p pp p p p p a a a a a a a a a A λμλμλμ

λμλμλμλμλμλμ

2

21

122

221

1212211

112

1

22221

11211 (4-8)

由于因素分析的目的是减少变量个数,因此在因素分析的数学模型中,因素数目k 小于原始变数个数p 。所以在计算因素负荷矩阵时,只选取前k 个特征值和其对应的特征向量,而得到式(4-9)所示的,只包含k 个因素的因素负荷矩阵:

?????

?????

??=

??????????=k

kp p p k k k k pk p p k k a a a a a a a a a A λμλμλμλμλμλμλμλμλμ

2

21

122

221

1212

211

112

122221

11211

(4-9)

根据主成份分析法所求出的因素负荷矩阵具有下面的性质:

1、 主成份k f f f ,,,21 之间是不相关的,且k f 的变异数等于k λ。

2、 ∑=k

k p λ,即所有特征值的和等于原始变量的数量。这是因为假设原始变量已经过标准化处

理,变异数会等于1,所以p 个变数的变异数之和等于p ,而p k λ则表示了第k 个主成份所解释的变异数的比例。

3、 变数i x 与主成份k f 之间的相关系数,就是所谓的因素负荷,其值为: k ki ik a λμ=

4、 每个主成份所解释的变异数等于所有变量在该主成份上之负荷的平方和:

即∑=i

ik

k a 2λ,此即表4-1因素负荷矩阵中,每一直行各元素的平方和。

■ 决定因素个数

有p 个变量就应该有p 个主成份,但是因素分析的目的是为了简化数据,所以我们不会自找麻烦用p 个主成份,而是只萃取出前几个主成份作为初始因素,那么到底需要几个因素才能代表原来数据中的主要信息部分呢?虽然目前还没有精确的定量方法可以用来辅助决定因素个数,但在实务应用上还是有一些准则可以帮我们决定因素的个数,常用的有以下三个:

◆ 特征值准则

所谓特征值准则就是取特征值大于等于1的主成份来作为初始因素,放弃特征值小于1的主成份。因为每个变量的变异数为1,该准则认为每个保留下来的因素至少应该能解释一个变量的变异数,否则达不到精简的目的。特征值准则是实务应用中最普遍的确定因素个数的方法。

◆ 碎石检验准则

在碎石检验准中,将按照因素被萃取出的顺序,画出因素的特征值随因素个数变化的散布图,根据图的形状来判断因素的个数(图4-2)。该图的形状像一个山峰,从第一个因素开始,曲线迅速下降,然后下降趋势变得较为平缓,最后变成近似一条直线,一般而言,曲线开始变平缓的前一个点可被认为是萃取的最大因素个数。因为后面的这些散布点就好像是山脚下的「碎石」,舍去这些「碎石」,并不损失很多信息,该准则因此而得名。

◆ 累积变异数贡献率

第一个因素的累积变异数贡献率定义为:

∑===

p i p

p

V c 1

111λλ

(4-10)

由式(4-10)可知,第一个因素的变异数贡献率是它的变异数贡献除以总变异数。由于原有的p 个变量已经进行了标准化处理(平均数为0,变异数为1),因此总变异数为p 。 第二个因素的累积变异数贡献率定义为:

∑=+=+=

p i p

p

V V c 1

2

1212λλλ (4-11)

由此,前k 个因素的累积变异数贡献率定义为:

∑∑∑====

=k

i p

i i

k

i i k k p

V

c 111λλ (4-12)

根据式(4-12)可计算出因素的累积变异数贡献率。通常选取累积变异数贡献率大于0.85时的特征值个数为因素个数k 。

表4-2 各因素的特征值及百分比

因素

特征值 占全体的百分比(%)

累积百分比(%)

1 3.20 64.00% 64.00%

2 1.27 25.40% 89.40%

3 0.25 5.00% 94.40%

4 0.18 3.60% 98.00% 5

0.10

2.00%

100.00%

图4-2 因素分析的陡坡图

表4-2为某数据组经因素分析后的结果,该表列出了所有候选因素的特征值及累积的变异解释百分比,根据特征值准则,对于表4-2的资料,应该选取两个因素,从陡坡图来看也应该选取两个因素,这两个因素累计解释了原始资料中总变异数的89.4%。因素累积的变异解释百分比,也是确定因素个数时可以参考的指标,一般选取的因素数量应要求使累积的变异解释百分比能达到70~80以上。

当然在有些特定的情况下,研究者已经事先确定了因素的个数,也可以在SPSS 中直接设定要萃取的因素个数。这种方法在检验有关因素个数的理论和假设或者重复做某些特定工作时非常方便。在实务的研究中,研究者很少仅仅依赖某一准则来决定因素个数,而是应该结合几个准则进行综合判断。保留的因素是否有意义,是否能被解释,也是在确定因素时应该考虑的重点。保

留的因素太多,在解释因素时可能会比较困难。

4-4-3 因素的命名

初始因素解虽然达到了数据化简的目的。在求解初始因素这一步骤中,我们确定了共同因素个数,确定了每个变量的共同因素的变异数。但是根据初始因素解,往往很难解释因素的意义,因为大多数因素都和很多变量相关。因素的命名解释是因素分析的另一个重要问题。观察因素负荷矩阵,如果因素负荷ij a 的绝对值在第i 列的很多行上都有较大的取值(通常大于0.5),则表示原始变量i x 与多个因素同时有较大的相关关系。也就是说,原始变量i x 的信息需要由多个因素来共同解释;如果因素负荷ij a 的绝对值在第j 行的很多列上都有较大的取值,则表示因素j f 能够同时解释许多变量的信息,且对每个变量i x 只能解释其中的较少部分信息。因素j f 不能典型代表任何一个原始变量i x 。在这种情况下,因素j f 的实际含义是模糊不清的。而在实际分析工作中,研究者总是希望对因素的实际含义有比较清楚的认识。为解决这个问题,可透过因素旋转的方式使一个变量只在尽可能少的因素上有比较高的负荷。最理想状态是,使某个变量i x 在某个因素j f 上的负荷趋近于1,而在其它因素上的负荷趋近于0。这样,一个因素j f 就能够成为某个变量i x 的典型代表,于是因素的实际含义也就能够清楚表达了。

所谓因素旋转就是将因素负荷矩阵A 右乘一个正交矩阵 后得到一个新的矩阵B 。因素旋转的目的是想透过改变坐标轴的位置,重新分配各个因素所解释的变异数的比例,使因素结构更为简单,更易于解释。因素旋转不会改变模型对数据的拟合程度,也不会改变每个变量的共通性2i h ,但却会改变因素的变异数贡献k V 。所谓「简单的因素结构」是指每个变量在尽可能少的因

素上有比较高的负荷。以因素为轴,因素负荷为坐标而做图,则每个变量是该空间中的一个点,该图称为因素负荷图。如图4-3和图4-4所示。

图4-3是以两个因素1f 、2f 为坐标轴的因素负荷图。可以看到,图中的10个变量(10个

点)在因素1f 、2f 上均有一定的负荷,因此,因素1f 、2f 的含义不清。在图4-4中,坐标轴旋转后,在新的坐标轴中,10个变量中有6个变量在因素'1f 上有较高的负荷,而这6个变数在因子'2f 上的负荷几乎为0。此外,其余的4个变量在因素'2f 上有较高的负荷,在因素'1f 的负荷几

圖4-3 因素負荷圖

圖4-4 座標軸旋轉後的因素負荷

乎为0。此时,因素'1f 、'2f 的含义就较为清楚,它们分别是对原有6个变量和其它4个变量的整合与缩减。因此,坐标旋转后应尽可能使原始变量点出现在某个坐标轴的附近,并同时远离其它坐标轴。在某个坐标轴附近的变量只在该因素上有较高负荷,而在其它因素上只有很低的负荷。

因素旋转的方式有两种:一种为正交旋转,另一种为斜交旋转。正交旋转是指坐标轴在旋转过程中始终保持互相垂直,于是新产生的因素仍可保持不相关性。而斜交旋转中坐标轴中的夹角可以是任意度数,因此新产生的因素之间无法保证不具相关性。在使因素能被容易命名与解释方面,斜交旋转通常会优于正交旋转,但却也牺牲了一些代价,即无法保持因素的不相关性。因此实务应用上一般会选用正交旋转方式。正交旋转方式通常有四次方最大法(Quartimax )、变异数最大法(Varimax )和等量最大法(Equalmax )等。这些旋转方法的目标是一致的,只是策略不同而已,其中最常用的为变异数最大法。 4-4-4 计算因素得分

在前面几小节我们主要解决了用因素来线性地表示一组原始变量的相关问题。如果我们要使用这些因素做其它的研究,比如把得到的因素作为自变量来做回归分析、对样本进行分类或评价,这些都需要对因素进行测度,算出因素对应每个样本上的值,这些值称为因素得分(Factor scores)。因素得分是因素分析的最终结果,在因素分析的实务应用中,当因素确定以后,便可计算各因素在每个样本上的具体数值(因素得分),这些因素得分所形成的变量称为因素变量。于是,在以后的分析中就可以因素变量代替原始变量进行数据分析与建模,进而实现降维和简化问题的目标。

计算因素得分的过程其实就是用原始变量来描述因素的过程,第j 个因素在第i 个样本上的值可表示为:

),,3,2,1(????332211k j x x x x F pi jp i j i j i j ji =++++=ωωωω

(4-13)

式(4-13)中,pi i i x x x ,,,21 分别是第p ,,2,1 个原始变数在第i 个样本上的值,jp j j ωωω

?,,?,?21 ,分别是第j 个因素和第p ,,2,1 个原始变量间的因素值系数。可见,它是原始变量线性组合的结果(与因素分析的数学模型正好相反),因素得分可看作是各变量值的加权(jp j j ωωω

?,,?,?21 )总和,权重的大小表示了该变量对因素的重要程度。因此:

),,3,2,1(????332211k j x x x x F p jp j j j j =++++=ωωωω

(4-14)

式(4-14)称为因素得分函数。由于因素个数k 小于原始变数个数p ,因此式(4-14)中方程式的个数会少于变数的个数。所以,对因素值系数通常采用最小平方法意义下的回归法进行估计。可将式(4-14)当作是因素变量j F 对p 个原始变量的线性回归方程(其中常数项为0)。很容易可以证明出,式(4-14)中之回归系数的最小平方估计应该满足:

J j S R W =

(4-15)

在式(4-15)中,),,?,?(21jp j j j W ωωω

=;R 为原始变数的相关系数矩阵;),,,(21pj j j j s s s S =是第p ,,2,1 个变数与第j 个因素的相关系数。当各因素解正交时有),,,(21'

pj j j J

j a a a A S ==,pj j j a a a ,,,21 第p ,,2,1 个变数在第j 个因素上的因素负荷,于是:

1'

-=R A W J j

(4-16)

其中,1-R 为相关系数矩阵的逆矩阵。根据式(4-16)可计算出因素变量j F 的因素值系数,再利用式(4-14)可计算出第j 个因素在各个样本上的因素得分。

4-5 以因素分析法进行项目分析

利用因素分析法可藉由因素负荷量来判断个别题项与相对因素的关系,进而删除因素负荷量较低的题项。运用因素分析法删除因素负荷量较低的题项时,将使用主成份分析之单一因素的原始负荷量来辅助判断,其过程如下:

1、 开启「Service_Q.sav 」后,执行【Analyze 】/【Data Reduction 】/【Factor 】。

2、 待出现「Factor Analysis 」 对话框后,将左边清单中的变量Q1至Q30选入右边的「Variables:」

清单方块中。

3、 直接按「Extraction …」钮,此时会出现「Factor Analysis: Extraction 」对话框,由于我们将进

行主成份分析且只萃取出一个因素,因此在此对话框中,请于「Method:」中选取「Principal components 」法,然后于「Number of factors:」后方的文字输入方块中输入1。

4、 设定好后,按「Continue 」钮,回到「Factor Analysis 」 对话框后,再按「OK 」,即可跑出

分析报表。

执行后所产生的分析报表有三个,分别为共同性(Communalities )、解说总变异量(Total Variance Expanded )与未转轴的成份矩阵(Component Matrix ),由于我们想藉由因素负荷量来删除因素负荷量较低(因素负荷量小于0.3)的题项,因此只看未转轴的成份矩阵表即可,如表4-3。

表4-3 未转轴的成份矩阵表

Component Matrix

Component 1

1.停车方便性 0.247

2.服务中心便利性 0.284

3.有专人引导服务 0.721

4.人员服装仪容 0.211

5.人员礼貌谈吐

0.205

6.总修复时间0.866

7.备有免费申诉或咨询电话0.727

8.未服务前的等候时间0.803

9.营业时间符合需求0.909

10.完成异动作业时间0.866

11.备有电子布告栏0.673

12.完成服务所花时间0.804

13.协助客户解决问题能力0.892

14.人员的专业知识0.888

15.计费交易正确性0.935

16.客户资料保密性0.910

17.准时寄发缴费通知0.785

18.备有报纸杂志0.690

19.提供新信息0.682

20.话费维持合理价位0.909

21.临柜排队等候0.882

22.缴纳电费方便性0.757

23.实时处理客户抱怨0.822

24.备有舒适及足够座椅0.881

25.内外环境整洁0.735

26.柜台清楚标示服务项目0.881

27.申请业务手续简便0.784

28.提供实时信息0.759

29.能立即给予满意回复0.260

30.不因忙而忽略消费者0.287

Extraction Method: Principal Component Analysis.

a.1 components extracted.

观察表4-3的未转轴的成份矩阵表,其中问卷的Q1、Q2、Q4、Q5、Q29与Q30等六题其因素负荷量都小于0.3,代表这些题项与相对因素的关系较弱,因此也可列为优先考虑删除的题项。至此,有关项目分析的各种方法已经介绍完毕,兹将其结果详列如表4-4。表4-4中,有灰色底纹的储存格代表该题项在某种检验上不合格,可予以删除。范例问卷原本有30到题目,经完整的项目分析后,删除Q1、Q2、Q4、Q5、Q19、Q25、Q28、Q29与Q30共9题,因此,实测时问卷将只剩21题。

表4-4 项目分析总整理

题目内容遗漏平均数标准差偏态极端组相关因素

检验t值负荷

1.停车方便性0% 3.22 0.54 0.65 -4.10* 0.2389 0.247

2.服务中心便利性0%

3.27 1.26 -0.32 -5.85* 0.2693 0.284

3.有专人引导服务0% 3.34 1.19 -0.50 -15.48* 0.7084 0.721

4.人员服装仪容0% 3.47 1.10 -0.84 -4.92* 0.2273 0.211

5.人员礼貌谈吐0% 3.53 1.14 -0.55 -4.33* 0.2155 0.205

6.总修复时间0% 3.50 1.15 -0.46 -1

7.82* 0.8313 0.866

7.备有免费申诉或咨询电话0% 3.32 1.22 -0.39 -16.18* 0.7166 0.727

8.未服务前的等候时间0% 3.51 1.16 -0.39 -15.57* 0.7713 0.803

9.营业时间符合需求0% 3.40 1.22 -0.38 -27.15* 0.9009 0.909

10.完成异动作业时间0% 3.49 1.14 -0.44 -17.69* 0.8322 0.866

11.备有电子布告栏0% 3.40 1.25 -0.44 -10.74* 0.6505 0.673

12.完成服务所花时间0% 3.51 1.15 -0.38 -15.46* 0.7722 0.804

13.协助客户解决问题能力0% 3.45 1.14 -0.27 -29.00* 0.8745 0.892

14.人员的专业知识0% 3.55 1.14 -0.49 -22.73* 0.8687 0.888

15.计费交易正确性0% 3.40 1.23 -0.38 -27.16* 0.9185 0.935

16.客户资料保密性0% 3.47 1.14 -0.31 -28.11* 0.8923 0.910

17.准时寄发缴费通知0% 3.42 1.24 -0.43 -25.03* 0.7553 0.785

18.备有报纸杂志0% 3.42 1.26 -0.45 -12.40* 0.6623 0.690

19.提供新信息0% 1.73 0.79 0.52 -19.72* 0.6432 0.682

20.话费维持合理价位0% 3.48 1.14 -0.33 -27.81* 0.8906 0.909

21.临柜排队等候0% 3.45 1.21 -0.49 -19.92* 0.8527 0.882

22.缴纳电费方便性0% 3.49 1.29 -0.50 -25.36* 0.73 0.757

23.实时处理客户抱怨0% 3.63 1.07 -0.33 -18.22* 0.8005 0.822

24.备有舒适及足够座椅0% 3.13 1.18 -0.26 -20.41* 0.8657 0.881

25.内外环境整洁0% 4.87 0.38 -3.00 -7.65* 0.7167 0.735

26.柜台清楚标示服务项目0% 3.12 1.18 -0.24 -20.64* 0.866 0.881

27.申请业务手续简便0% 3.35 0.96 -0.07 -15.79* 0.7562 0.784

28.提供实时信息 6.80% 3.48 1.29 -0.51 -25.39* 0.732 0.759

29.能立即给予满意回复0% 3.29 0.94 -0.49 -5.27* 0.2598 0.260

30.不因忙而忽略消费者 5.62% 3.34 0.95 -0.58 -4.93* 0.2926 0.287

4-6 以因素分析法萃取因素

经过前测阶段的项目分析后,最后定稿的问卷总共包含21道题项,将原始问卷经文书处理并重新予以编号后,即形成实测问卷。待资料重新搜集完成后即可针对欲研究的主题,逐步进行分析。当然在这阶段中所搜集回来的数据将不再进行项目分析,但仍需检验实测问卷的信、效度。信度分析可用第3章所提到的相关技术加以检验,而效度分析之建构效度则可使用本章所介绍的

因素分析检验。经正式施测后,所搜集回来的资料共有338笔有效问卷(serviceQ_ok.sav),其Cronbach’s α系数为0.9760,表示本研究之问卷具有相当高之信度,也就是说这份问卷的稳定性及一致性均相当高。

4-6-1 因素分析的基本操作

接下来,我们将进行因素分析并检测问卷之效度,详细的操作步骤如下:

1、开启「serviceQ_ok.sav」,然后执行【Analyze】/【Data Reduction】/【Factor】。

2、待出现「Factor Analysis」对话框(如图4-5)后,将欲参与因素分析的变量Q1~Q30选入

Variables方框中。

圖4-5

图4-5 设定「Factor Analysis」对话框

3、在「Factor Analysis」对话框的下方,按「Descriptives …」钮以设定输出结果,如图4-6所

示,读者请遵照图中核选状态进行演练。在「Factor Analysis: Descriptives」对话框中,有两个方框分别为「Statistics」方框、「Correlation Matrix」方框。在「Statistics」方框中可设定要输出哪些基本统计量,其中Univariate descriptives表示输出各个变量的基本描述统计量;

Initial solution表示输出因素分析的初始解。而「Correlation Matrix」方框中则可设定检验因素分析前提条件的方法及输出结果,其中Coefficients表示输出相关系数矩阵;Significance levels表示输出相关系数检验的机率p值;Determinant表示输出变量相关系数矩阵的行列式值;Inverse表示输出相关系数矩阵的逆矩阵(与相关系数矩阵的乘积为单位矩阵));

Anti--image表示输出反映象相关矩阵;KMO and Bartlett’s test of sphericity表示进行巴特利特球形检验和KMO检验。

圖4-6

图4-6设定「Factor Analysis: Descriptives」对话框

4、在「Factor Analysis」对话框的下方按「Extraction …」钮,则将跳出「Factor Analysis: Extraction」

对话框,在此对话框中可以指定萃取因素的方法,如图4-7所示。于「Method」下拉式清单中提供了数种萃取因素的方法,其中「Principal components」就是主成份分析法,它是SPSS 预设的方法;而在「Analyze」方框中可设定萃取因素时的输入数据,其中「Correlation」为相关系数矩阵,当原始变量存在数量级的差异时,通常选择此选项;而「Covariance matrix」为共变数矩阵。此外在「Extract」方框中则可选择如何确定因素的数量,在「Eigenvalues over」选项后方的文字方块中可输入一个特征值(默认值为1),这代表SPSS将萃取大于该值的特征值来形成因素;也可在「Number of factors」选项后方直接输入欲萃取之因素的个数。在对话框右边的「Display」方框中,可选择未来将输出哪些与因素萃取有关的信息,其中「Unrotated factor solution」表示可输出未旋转的因素负荷矩阵;「Scree plot」表示输出因素的陡坡图。

图4-7设定「Factor Analysis: Extraction 」对话框

5、 在「Factor Analysis 」对话框的下方按「Rotation…」钮,可开启「Factor Analysis: Rotation 」

对话框,在此对话框中可设定因素旋转的方法,如图4-8所示。此对话框的Method 方框中提供了数种转轴的方法以供选择,其中「None 」表示不旋转(预设选项);「Varimax 」为变异数最大法;「Quartimax 」为四次方最大法;「Equamax 」为等量最大法;其它的选项都属于斜交旋转法。而在「Display 」方框则可指定有关输出与因素旋转之相关信息,其中「Rotated Solution 」表示输出旋转后的因素负荷矩阵;「Loading plots 」表示输出旋转后的因素负荷散布图。

图4-8设定「Factor Analysis: Rotation 」对话框

6、 在「Factor Analysis 」对话框的下方按「Scores…」钮,可开启「Factor Analysis: Scores 」对

话框,在此对话框中可选择计算因素得分的方法,如图4-9所示。核取「Save as variables 」选项时,表示将所计算出来的因素得分自动储存到SPSS 的特有变量中,萃取出几个因素便产生几个SPSS 变量。这些特有变量的名称相当特殊,其格式为m FACn _,其中n 是因素的编号,以数字序号的格式出现;m 表示是第几次分析的结果,这是因为进行因素分析时,有时并不一定只进行一次结果就会很完美了。而当核取「Display factor score coefficient matrix 」选项时,表示输出因素得分函数中的各因素得分系数。在「Method 」方框中则可设定计算因素得分的方法,其中Regression 为回归法为默认值,最常用。

图4-9设定「Factor Analysis: Scores 」对话框

7、 在「Factor Analysis 」对话框的下方按「Option…」钮,可开启「Factor Analysis: Option 」对

话框,在此对话框中可设定遗漏值的处理方法和因素负荷矩阵的输出方法,如图4-10所示。在「Missing Values 」方框中可设定如何处理遗漏值。在「Coefficient Display Format 」方框中则可设定因素负荷矩阵的输出方式,其中「Sorted by size 」表示依因素负荷之大小,降序输出因素负荷矩阵;而在「Suppress absolute values less than 」选项后方的文字方块中可输入一数值,表示将来的报表中只输出大于该输入值的因素负荷。一般此值可设定为0.5,如此也能符合建构效度之要求。

圖4-7

圖4-8 圖4-9 圖4-10

图解spss探索分析实例

图解spss探索分析实例 最后更新:2012-12-10 阅读次数:【字体:小中大】 探索分析是在对数据的基本特征统计量有初步了解的基础上,对数据进行的更为深入详细的描述性观察分析。它在一般描述性统计指标的基础上,增加了有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。主要的分析如下: (1)观察数据的分布特征:通过绘制箱锁图和茎叶图等图形,直观地反映数据的分布形式和数据的一些规律,包括考察数据中是否存在异常值等。过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实地反映数据的总体特征。 (2)正态分布检验:检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此,检验数据是否符合正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。 (3)方差齐性检验:用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前,就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平(Significance)小于0.05,那么就可以拒绝方差相同的假设。 探索分析的具体操作步骤如下: 打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【探索】(Explore)命令,SPSS将弹出"探索"(Explore)对话框,如图3-9所示。 在"探索"(Explore)对话框中,左边的变量列表为原变量列表,通过单击按钮可选择一个或者几个变量进入右边的"因变量列表"(Dependent List)框、"因子列表"(Factor List)框和"标注个案"(Label Cases by)列表框。因变量是用户所研究的目标变量。因子变量是影响因变量的因素,例如分组变量。标注个案是区分每个观测量的变量,如雇员的ID等。例如,研究同一班级男生和女生的身高差距时,就可将"身高"变量列入"因变量列表"(Dependent List)

统计分析软件SPSS详细教程

10.11统计分析软件&SPSS建立数据 目录 10.11统计分析软件&SPSS建立数据 (1) 10.25数据加工作图 (1) 11. 08绘图解答&描述性分析: (3) 2.描述性统计分析: (4) 四格表卡方检验:(检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布) (7) 第七章非参数检验 (10) 1.单样本的非参数检验 (11) (1)卡方检验 (11) (2)二项分布检验 (12) 2.两独立样本的非参数检验 (13) 3.多独立样本的非参数检验 (16) 4.两相关样本的非参数检验 (16) 5.多相关样本的非参数检验 (18) 第五章均值检验与T检验 (20) 1.Means过程(均值检验)( (20) 4. 单样本T检验 (21) 5. 两独立样本T检验 (22) 6.两配对样本T检验 (23) 第六章方差分析 (25) 单因素方差分析: (25) 多因素方差分析: (29) 10.25数据加工作图 1.Excel中随机取值:=randbetween(55,99) 2.SPSS中新建数据,一列40个,正态分布随机数:先在40那里随便输入一个数表示选择40个可用的,然后按一下操作步骤: 3.排序:个案排秩

4.数据选取:数据-选择个案-如果条件满足: 计算新变量: 5.频次分析:分析-统计描述-频率

还原:个案-全部 6.加权: 还原 7.画图: 11. 08绘图解答&描述性分析:1.课后题:长条图

2.描述性统计分析: (1)频数分析:

(2)描述性分析: 描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准化得分,并以变量形式存入数据文件中,以便后续分析时应用。 操作: 分析—描述性分析:然后对结果进行筛选,去掉异常值,就得到标准化的数据: 任何形态的数据经过Z标准化处理之后就会是正态分布的<—错误!标准化是等比例缩放的,不会改变数据的原始分布状态, (3)探索分析:(检验是否是正态分布:茎叶图、箱图) 实例:

SPSS探索性因子分析的过程

问题 题项 从未使用 很少使用 有时使用 经常使用 总是使用 1 2 3 4 5 a 1 电脑 a 2 录音磁带 a 3 录像带 a 4 网上资料 a 5 校园网或因特网 a 6 电子邮件 a 7 电子讨论网 a 8 CAI 课件 a 9 视频会议 a 10 视听会议 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 i m im i i i i U F F F F Z +++++=αααα · · · 332211 i Z 为第i 个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所 属的那批分数中的相对位置的。) m F 为共同因子; m 为所有变量共同因子的数目;

i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关系数,它反映了第i 个变 量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于0.8,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子负荷的平方和),在因子分析的的共同因子抽取中,特征值最大的共同因子会最先被抽取,其次是次大者,最后抽取的共同因子的特征值会最小,通常会接近于0。将每个共同因子的特征值除以总题数,为此共同因子可以解释的变异量,因子分析的目的之一,即在因素结构的简单化,希望以最少的共同因子能对总变异量做最大的解释,因而抽取的因素越少越好,但抽取的因子的累积变异量越大越好。 三.SPSS 中实现过程 (一)录入数据

使用SPSS进行探索式因素分析的教程

第4章 探索式因素分析 在社会与行为科学研究中,研究者经常会搜集实证性的量化资料來做验证,而要证明这些资料的可靠性与正确性,则必须依靠测量或调查工具的信度或效度(杨国枢等,2002b )。一份好的量表应该要能够将欲研究的主题构念(Construct ,它是心理学上的一种理论构想或特质,无法直接观测得到)清楚且正确的呈现出来,而且还需具有「效度」,即能真正衡量到我们欲量测的特性,此外还有「信度」,即该量表所衡量的结果应具有一致性、稳定性,因此为达成「良好之衡量」的目标,必须有以下两个步骤:第一个步骤是针对量表的题项作项目分析,以判定各项目的区别效果好坏;第二步骤则是建立量表的信度与效度。量表之项目分析、信度检验已于第2、3章有所说明,本章将探讨量表之效度问题。 4-1 效度 效度即为正确性,也就是测量工具确实能测出其所欲测量的特质或功能之程度。一般的研究中最常使用「内容效度」(Content Validity )与「建构效度」(Construct Validity )来检视该份研究之效度。 所谓「内容效度」,是指该衡量工具能足够涵盖主题的程度,此程度可从量表内容的代表性或取样的适切性来加以评估。若测量内容涵盖所有研究计划所要探讨的架构及内容,就可说是具有优良的内容效度。在一般论文中,常使用如下的描述来「交代」内容效度: 而所谓「建构效度」系指测量工具的内容,即各问项是否能够测量到理论上的构念或特质的程度。建构效度包含收敛效度(Convergent Validity )与区别效度(Discriminant Validity ),收敛效度主要测试以一个变量(构念)发展出的多项问项,最后是否会收敛于一个因素中(同一构念不同题目相关性很高) ;而区别效度为判别问项可以与其它构念之问项区别的程度(不同构

SPSS皮尔逊相关分析实例操作步骤

S P S S皮尔逊相关分析实 例操作步骤 Prepared on 21 November 2021

SPSS皮尔逊相关分析实例操作步骤 选题: 对某地29名13岁男童的身高(cm)、体重(kg),运用相关分析法来分析其身高与体重是否相关。 实验目的: 任何事物的存在都不是孤立的,而是相互联系、相互制约的。相关分析可对变量进行相关关系的分析,计算29名13岁男童的身高(cm)、体重(kg),以判断两个变量之间相互关系的密切程度。 实验变量: 编号Number,身高height(cm),体重weight(kg) 原始数据: 实验方法: 软件:

操作过程与结果分析: 第一步:导入Excel数据文件? 1.open data document——open data——open; 2. Opening excel data source——OK. 第二步:分析身高(cm)与体重(kg)是否具有相关性 1.在最上面菜单里面选中Analyze——correlate——bivariate?,首先 使用Pearson,two-tailed,勾选flag significant correlations 进入如下界面: 2.点击右侧options,勾选Statistics,默认Missing Values,点击 Continue 输出结果: 图为基本的描述性统计量的Array输出表格,其中身高的均值 (mean)为、标准差(standard deviation)为、样本容量 (number of cases)为29;体重的均值为、标准差为、样本容量为29。两者的平均值和标准差值得差距不 显着。 Correlations 身高(cm)体重(kg) 身高(cm)Pearson Correlation1.719** Sig. (2-tailed).000 Sum of Squares and Cross- products Covariance N2929 体重(kg)Pearson Correlation.719**1 Sig. (2-tailed).000 Sum of Squares and Cross- products Covariance N2929

SPSS统计分析练习及答案

SPSS 统计分析练习题目 -2012-10-26 学号:________________________ 姓名:___________________________ (注:将本文件以学号+姓名.doc 的形式另存为一个文件,例2008144154葛爽.doc ,然后以附件形式发送至 all689@https://www.doczj.com/doc/0711533802.html, ,时间截止到2012年10月31日。没有指明数据文件名称的题目需自行在SPSS 中建立数据文件并录入相应数据,回答问题时应将SPSS 中的主要输出结果粘贴于答案中。) 1.一所国际新闻学校每年从各大高校中招募刚刚毕业的本科生参加培训,进而作为记者参加新闻工作。大多数刚刚毕业的学生以前没有任何做记者的经验,所以在正式成为一名记者之前,必须进行一段时间的学习,作为职业的预备课程。该国际新闻学校于是设计了两种培训方案: 方案A :学生参加为期15周的全天课程听课学习,随后参加预备课程考试; 方案B :学生直接先参加6个月的记者实习,再进行为期15周的全天课程听课学习,最后进行预备课程考试。 为了评估两种方案各自的有效性,学校随机选出了20名学生参加实验。事前还根据他们的文学等相关学科的成绩对这20人进行了分组,20人分成10组,每组中2人的成绩相近,然后随机地将2人分配去参加方案A 和方案B 的培训。 下表是这20人预备课程本学期的成绩单: 1 2 3 4 5 6 7 8 9 10 A 50 68 72 54 42 60 56 72 63 61 B 62 62 58 74 60 66 64 64 78 66 请问上面的数据是否证明了先参加实践对提高平均测试分数的效果显著? Independent Samples Test 1.843.1911.54518.140.60006239921373013731.5455.331.143.6000623993098710987 Equal varia Equal varia assumed X F Sig.vene's Test f ality of Varian t df g. (2-taile Mean ifferenc td. Erro ifferenc Lower Upper 5% Confiden nterval of the Difference t-test for Equality of Means 因p=0.140>0.05,故不能证明先参加实践对提高平均测试分数的效果显著。 2.早在1990年,美国巴维利亚的6个省报道了他们的婴儿死亡率(每1000名活着出生的婴儿的死亡数)以及母乳喂养率(母乳喂养婴儿的比例)的数据如下: 省号码 死亡率(每1000名婴儿中的死亡人数) 母乳喂养率(%) 1 250 60 2 320 30 3 170 90 4 300 60 5 270 40

SPSS因子分析法例子解释

因子分析的基本概念与步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握与认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”与“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量与海量数据仍就是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠与高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单与最直接的解决方案就是削减变量的个数,但这必然又会导致信息丢失与信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson与Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富与完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不就是原有变量的简单取舍,而就是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解释

SPSS分析报告实例

SPSS与数据统计分析期末论文影响学生对学校服务满意程度的因素分析

一、数据来源 本次数据主要来源自本校同学,调查了同学们年级、性别、助学金申请情况、生源所在地、学院、毕业学校、游历情况、家庭情况、升高、体重、近视程度、学习时间、经济条件、兴趣、对学校各方面的评价、与对学校总评价以及建议等共41条信息,共收集数据样本724条。我们将运用SPSS,对变量进行频数分析、样本T检验、相关分析等手段,旨在了解同学们对学校提供的满意程度与什么因素有关。 二、频数分析 可靠性统计 克隆巴赫 Alpha 项数 .985 62 对全体数值进行可信度分析

本次数据共计724条,首先从可靠性统计来看,alpha值为0.985,即全体数据绝大部分是可靠的,我们可以在原始数据的基础上进行分析与处理。 其中,按年级来看,绝大多数为大二学生填写(占了总人数的67.13%),之后分别依次为大二(23.76%)、大四(4.14%)、大一(4.97%)。而从专业来看,占据了数据绝大多数样本所在的学院为机械、材料、经管、计通。 三、数据预处理 拿到这份诸多同学填写的问卷之后,我们首先应对一些数据进行处理,对于数据的缺失值处理,由于我们对本份调查的分析重点方面是关于学生的经济情况的,因此对于确实的部分数据,升高、体重、近视度数、感兴趣的事等无关项我们均不需要进行缺失值的处理,而我们可能重点关注的每月家里给的钱、每月收入以及每月支出,由于其具有较强主观性,如果强行处理缺失值反而会破坏数据的完整性,因此我们筛去未填写的数据,将剩余数据当作新的样本进行分析。 而对于一些关键的数据,我们需要做一些必要的预处理,例如一些调查项,我们希望得到数值型变量,但是填写时是字符型变量,我们就应该新建一个数字型变量并将数据复制,以便后续分析。同时一些与我们分析相关的缺省值,一些明显可以看出的虚假信息,我们都需要先进行处理。而具体预处理需要怎么做,这将会在其后具体分析时具体给出。

SPSS概览数据分析实例详解

第一章SPSS概览--数据分析实例详解 1.1 数据的输入和保存 1.1.1 SPSS的界面 1.1.2 定义变量 1.1.3 输入数据 1.1.4 保存数据 1.2 数据的预分析 1.2.1 数据的简单描述 1.2.2 绘制直方图 1.3 按题目要求进行统计分析 1.4 保存和导出分析结果 1.4.1 保存文件 1.4.2 导出分析结果 希望了解SPSS 10.0版具体情况的朋友请参见本网站的SPSS 10.0版抢鲜报道。 例1.1 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同(卫统第三版例4.8)? 患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 解题流程如下:

1.将数据输入SPSS,并存盘以防断电。 2.进行必要的预分析(分布图、均数标准差的描述等),以确定应采 用的检验方法。 3.按题目要求进行统计分析。 4.保存和导出分析结果。 下面就按这几步依次讲解。 §1.1 数据的输入和保存 1.1.1 SPSS的界面 当打开SPSS后,展现在我们面前的界面如下: 请将鼠标在上图中的各处停留,很快就会弹出相应部位的名称。 请注意窗口顶部显示为“SPSS for Windows Data Editor”,表明现在所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面,有菜单栏、

SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

SPSS案例分析

某道路弯道处53车辆减速前观测到得车辆运行速度,试检验车辆运行速度就是否服从正态分布. 这道题目得解答可以先通过绘制样本数据得直方图、P-P图与Q-Q图坐车粗略判断,然后利用非参数检验得方法中得单样本K—S检验精确实现。 一、初步判断 1、1绘制直方图 (1)操作步骤 在SPSS软件中得操作步骤如图所示. (2)输出结果

通过观察速度得直方图及其与正态曲线得对比,直观上可以瞧到速度得直方图与正太去线除了最大值外,整体趋势与正态曲线较吻合,说明弯道处车辆减速前得运行速度有可能符合正态分布。 1、2绘制P-P图 (1)操作步骤 在SPSS软件中得操作步骤如图所示。

(2)结果输出

根据输出得速度得正态P-P图,发现速度均匀分布在正态直线得附近,较多部分与正态直线重合,与直方图得结果一致,说明弯道处车辆减速前得运行速度可能服从正态分布。 二、单样本K-S检验 2、1单样本K—S检验得基本思想 K—S检验能够利用样本数据推断样本来自得总体就是否服从某一理论分布,就是一种拟合优得检验方法,适用于探索连续型随机变量得分布。 单样本K-S检验得原假设就是:样本来自得总体与指定得理论分布无显著差异,即样本来自得总体服从指定得理论分布。SPSS得理论分布主要包括正态分布、均匀分布、指数分布与泊松分布等。 单样本K-S检验得基本思路就是: 首先,在原假设成立得前提下,计算各样本观测值在理论分布中出现得累计概率值F(x),;其次,计算各样本观测值得实际累计概率值S(x);再次,计算实际累计概率值与理论累计概率值得差D(x);最后,计算差值序列中得最大绝对值差值,即 通常,由于实际累计概率为离散值,因此D修正为: D统计量也称为K—S统计量。 在小样本下,原假设成立时,D统计量服从Kolmogorov分布。在大样本下,原假设成立时,近似服从K(x)分布:当D小于0时,K(x)为0;当D大于0时, 容易理解,如果样本总体得分布与理论分粗得差异不明显,那么D不应较大。如果D统计量得概率P值小于显著性水平α,则应拒绝原假设,认为样本来自得总体与指定得分布有显著差异如果D统计量得P值大于显著性水平α,则不能拒绝原假设,认为,样本来自得总体与指定得分布无显著差异.在SPSS中,无论就是大样本还就是小样本,仅给出大样本下得与对应得概率P值。 2、2软件操作步骤 单样本K-S检验得操作步骤如图所示

SPSS多元线性回归分析报告实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method选择Stepwise. 进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、

Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue. 3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

SPSS因子分析实例操作步骤

SPSS因子分析实例操作步骤 实验目的: 弓I入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1. open data document ------- o pen data ------- o pen; 2. Opening excel data source OK.

第二步: 1.数据标准化:在最上面菜单里面选中Analyze ----- Descriptive Statistics --------- O K (变量选择除年份、合计以外的所有变量) 2.降维:在最上面菜单里面选中Analyze ----------- Dimension Reduction ----- Factor ,变量选择标准化后的数据.

3. 点击右侧 Descriptive ,勾选Correlation Matrix 选项组中的 Coefficients 和 KMO and Bartlett ' s text of sphericity, Con ti nue. -Statistics ---------------------------- ■ I ■■■■■■:■■ all ■■?■■■■■■■■■■ ■■■ Ml ■■■ ?■ ■ ■ na ■ ■■■ ^Univariate descripbves l^iTlir- ill ii-fillliRtili l?9 II Will M ill i-fBIid-'i III nill^ J Initial solution Correlation Matrix R CoefTidents . Jnv&rss [J Significance leveisLJ Reproduced I : De term j nmnt [. . Ant-image J KMO and BartletTs test of sphericity Continue Cancel Help i\____ — ■— ______________________________________________________________________________ 4. 点击右侧 Extraction, 勾选 Scree Plot 禾口 fixed number with factors 默认3个,点击Continue. 翰 Factor Analysis 点击 壬亠 Factor Analysis; Descriptiv-es

SPSS皮尔逊相关分析实例操作步骤

SPSS皮尔逊相关分析实例操作步骤 选题: 对某地29名13岁男童的身高(cm)、体重(kg),运用相关分析法来分析其身高与体重是否相关。 实验目的: 任何事物的存在都不是孤立的,而是相互联系、相互制约的。相关分析可对变量进行相关关系的分析,计算29名13岁男童的身高(cm)、体重(kg),以判断两个变量之间相互关系的密切程度。 实验变量: 编号Number,身高height(cm),体重weight(kg) 原始数据: 皮尔逊相关分析法 软件:

spss19.0 操作过程与结果分析: 第一步:导入Excel数据文件 1. open data document——open data——open; 2. Opening excel data source——OK. 第二步:分析身高(cm)与体重(kg)是否具有相关性 1.在最上面菜单里面选中Analyze——correlate——bivariate ,首先 使用Pearson,two-tailed,勾选flag significant correlations 进入如下界面: 2.点击右侧options,勾选Statistics,默认Missing Values,点击 Continue 输出结果: 图为基本的描述性统计量的Array输出表格,其中身高的均值 (mean)为152.576cm、标准差 (standard deviation)为 8.3622、样本容量(number of cases)为29;体重的均值为37.65kg、标准差为5.746、样本容量为29。 两者的平均值和标准差值得差距不显著。

SPSS统计分析教程独立样本T检验

独立样本T检验 下面我们要用SPSS来做成组设计两样本均数比较的t检验,选择Analyze==>Compare Means==>Independent-Samples T test,系统弹出两样本t检验对话框如下: 将变量X选入test框内,变量 group选入grouping框内,注意这时 下面的Define Groups按钮变黑,表示 该按钮可用,单击它,系统弹出比较组 定义对话框如右图所示: 该对话框用于定义是哪两组相比,在两 个group框内分别输入1和2,表明是 变量group取值为1和2的两组相比。 然后单击Continue按钮,再单击OK 按钮,系统经过计算后会弹出结果浏览 窗口,首先给出的是两组的基本情况描 述,如样本量、均数等(糟糕,刚才的 半天工夫白费了),然后是t检验的结 果如下: Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper X Equal variances .032 .860 2.524 22 .019 .4363 .1729 7.777E-02 .7948

差是否齐,这里的戒严结果为F = 0.032,p = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t= 2.524,ν=22,p=0.019。从而最终的统计结论为按α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。

SPSS方差分析案例实例

S P S S方差分析案例实例 Prepared on 22 November 2020

SPSS第二次作业——方差分析 1、案例背景: 在一些大型考试中,为了保证结果的准确和一致性,通常针对一些主观题,都采取由多个老师共同评审的办法。在评分过程中,老师对学生的信息不可见,同时也无法看到 其他评分,保证了结果的公正性。然而也有特殊情况的发生,导致了成绩的不稳定,这 就使得对不同教师的评分标准考察变得十分必要。 2、案例所需资料及数据的获取方式和表述,变量的含义以及类型: 所需资料:抽样某地某次考试中不同教师对不同的题目的学生成绩的评分; 获取方式:让一组学生前后参加四次考试,由三位教师进行批改后收集数据; 变量含义、类型:一份试卷的每道主观题由三名教师进行评定,3个教师的评定结果可 看成事从同一总体中抽出的3个区组,它们在四次评定的成绩是相关样本。 表1如下: 3、分析方Array法: 用方差分析的方 法对四个总体的 平均数差异进行 综合性的F检 验。 4、数据的检验和预处理: a) 奇异点的剔除:经检验得无奇异点的剔除; b) 缺失值的补齐:无;

c) 变量的转换(虚拟变量、变量变换):无; d) 对于所用方法的假设条件的检验:进行正态性和方差齐性的检验。 ?正态性,用QQ图进行分析得下图: 得到近似满足正态性。 ?对方差齐性的检验: 用SPSS对方差齐性的分析得下表: 易知P〉,接受方差齐性的假设。 5、分析过程: a) 所用方法:单因素方差分析;方差分析中的多重比较。 b) 方法细节: ●单因素方差分析 第一步,提出假设: H0:μ1=μ2=μ3;(教师的评定基本合理,即均值相同) H1:μi(i=1,2,3)不全相等;(教师的评定不够合理,均值有差异) 第二步,为检验H0是否成立,首先计算以下统计量: 1,计算水平均值及总体均值: 表2 三位教师评选结果的均值

SPSS教程中文完整版

SPSS统计与分析 统计要与大量的数据打交道,涉及繁杂的计算和图表绘制。现代的数据分析工 作如果离开统计软件几乎是无法正常开展。在准确理解和掌握了各种统计方法原理 之后,再来掌握几种统计分析软件的实际操作,是十分必要的。 常见的统计软件有SAS,SPSS,MINITAB,EXCEL 等。这些统计软件的功能和作用大同小异,各自有所侧重。其中的SAS 和SPSS 是目前在大型企业、各类院校以及科研机构中较为流行的两种统计软件。特别是SPSS,其界面友好、功能强大、易学、易用,包含了几乎全部尖端的统计分析方法,具备完善的数据定义、操 作管理和开放的数据接口以及灵活而美观的统计图表制作。SPSS 在各类院校以及科研机构中更为流行。 SPSS(Statistical Product and Service Solutions,意为统计产品与服务解决方案)。自20 世纪60 年代SPSS 诞生以来,为适应各种操作系统平台的要求经历了多次版本更新,各种版本的SPSS for Windows 大同小异,在本试验课程中我们选择PASW Statistics 18.0 作为统计分析应用试验活动的工具。 1.SPSS 的运行模式 SPSS 主要有三种运行模式: (1)批处理模式 这种模式把已编写好的程序(语句程序)存为一个文件,提交给[开始]菜单上[SPSS for Windows]→[Production Mode Facility]程序运行。 (2)完全窗口菜单运行模式 这种模式通过选择窗口菜单和对话框完成各种操作。用户无须学会编程,简单 易用。 (3)程序运行模式 这种模式是在语句(Syntax)窗口中直接运行编写好的程序或者在脚本(script)窗口中运行脚本程序的一种运行方式。这种模式要求掌握SPSS 的语句或 脚本语言。本试验指导手册为初学者提供入门试验教程,采用“完全窗口菜单运行模式”。 2.SPSS 的启动 (1)在windows[开始]→[程序]→[PASW],在它的次级菜单中单击“SPSS 12.0 for Windows”即可启动SPSS 软件,进入SPSS for Windows 对话框,如图1.1, 图 1.2 所示。

SPSS统计分析方法及应用教学大纲

《SPSS统计软件》课程教学大纲 一、说明 (一)课程定义: 本课程是网络与新媒体专业的选修课程。SPSS统计软件应用课程,是以计算机科学为支持,将统计软件为运用工具,用所学习的统计学理论与方法为指导,系统介绍对社会经济现象数据的搜集、整理、分析等综合技能。 开设本门课程,能更好的帮助学生理解和掌握统计学的理论及方法,注重学生的实际操作与应用能力的培养。通过该课程的学习,使学生掌握spss统计软件,为其以后的学习和工作打好基础。 (二)编写依据: 本课程大纲根据武汉体育学院体育科技学院人文社科系网络与新媒体专业人才培养方案(2018版)编写。 (三)目的任务: 通过SPSS软件实验教学,培养学生根据实际问题建立SPSS数据文件、利用SPSS软件提供的各种统计功能进行数据的整理与分析,并结合相关的专业知识对分析结果给出解释,为学生以后的工作打下坚实的基础。要求学生课前做好实验准备,课中积极接受和沟通,课后认真总结并写好实验报告。 (四)学时数与学分数: 本课程教学总学时为36课时,2学分。具体学时分配参照下表。 (五)适用对象: 网络与新媒体专业大三学生。 (六)课程编码: KY1810A01

二、教学内容与学时分配 三、教学内容与知识点 第一章SPSS统计分析软件概述 第一节SPSS使用基础 知识点:SPSS软件的基本窗口、退出。 第二节 SPSS的基本运行方式 知识点:窗口菜单方式、程序运行方式、混合运行方式。第二章SPSS数据文件的建立和管理 第一节 SPSS数据文件 知识点:SPSS数据文件的特点、基本组织方法。 第二节 SPSS数据的结构和定义方法

SPSS案例研究分析实例(消费习惯)

SPSS案例分析实例(消费习惯)

————————————————————————————————作者:————————————————————————————————日期:

Spss论文 购物习惯的统计学分析课程名称:SPSS 所在专业:经济学+软件工程 所在班级:09-1 姓名:李丽媛杨晓楠孙同哲胡贞玉 学号:0918250102 0918250104 0918250105 0918250114

一.描述性统计分析 最大似然确定数分析 男性与女性的年龄、家庭成员数量、家庭月收入、购物频率、自用商品、礼 品、消费者类型最大似然确定数的分析 表1-1 M-Estimators e 2.14 2.16 2.14 2.161.83 1.81 1.83 1.81............ 3.17 3.17 3.15 3.171.86 1.84 1.86 1.842.04 2.05 2.04 2.052.14 2.16 2.14 2.161.83 1.81 1.83 1.812.14 2.16 2.14 2.161.78 1.77 1.78 1.77............3.63 3.60 3.60 3.60.... 4.25 4.29 4.17 4.28....3.48 3.46 3.48 3.46....... . 1,男;2女1212121212121212121212 年龄婚否交通状况家庭成员数量家庭月收入购物频率购物场所自用商品礼品消费者类型固定商场购买 Huber's M-Esti m ator a Tukey's Biwei g ht b Hampel 's M-Esti m ator c Andrews' Wave d Th e wei g hti n g constant i s 1.339.a. The wei g hti n g constant i s 4.685.b. The wei g hti n g constants are 1.700, 3.400, and 8.500c. The wei g hti n g constant i s 1.340*pi. d. Some M-Esti m ators cannot be computed because of the hi g hl y centrali z ed di s tri b uti o n a round t he medi a n. e. 表1-1表示的是男性与女性的年龄、家庭成员数量、家庭月收入、购物频率、自用商品、礼品、消费者类型从4个不同权重下分别作中心趋势的粗略最大似然确定数。

相关主题
文本预览
相关文档 最新文档