SPSS的相关分析
- 格式:docx
- 大小:2.53 MB
- 文档页数:14
第10章相关分析 (225)1 双变量相关分析 (225)1.1 双变量相关分析的数据特征 (225)1.2 皮尔逊相关系数 (225)1.3 肯德尔相关系数 (228)1.4 例题3 (230)2 偏相关关系 (232)2.1 偏相关关系 (232)2.2 例题 (232)3 距离相关分析 (234)3.1 特征 (234)3.2 主要参数 (235)3.3 例题 (235)3.4 实例介绍 (237)第10章相关分析相关分析是研究变量之间关系密切程度的一种统计方法,包括双变量相关分析、偏相关分析和距离相关分析。
1 双变量相关分析1.1 双变量相关分析的数据特征当某一个事物存在着多个变量时,而各个变量之间呈数量关系时,可以用双变量相关分析来研究,并做出统计学推断。
双变量相关分析可以输出两两变量之间的相关系数,相关系数的种类有皮尔逊相关系数、肯德尔相关系数、斯皮尔曼等级相关系数等。
1.2 皮尔逊相关系数X和Y有线性函数关系,两变量间的相关系数是+1~-1,相关系数没有单位。
1.2.1 例题133名产妇进行产前检查,测定X1-X6六项指标,试计算X1-X4的皮尔逊相关系数。
1.2.2 SPSS过程Data,analyze,correlate,打开bivariate对话框,选择x1-x4→variables,选择pearson 相关系数,two-tail,flag significant correlations,打开options对话框,means and standard deviations,exclude case pairwirs,continue,ok.two-tail,双尾检验;Flag significant correlations:用星号显示有显著性相关的相关系数;Exclude case pairwirs:剔除有缺失值的配对变量;Cross-product deviations and covarances:显示每一对变量的离均差交叉积与协方差。
相关系数是衡量变量之间相关程度的度量,也是很多分析的中的当中环节,SPSS 做相关分析比较简单,主要是区别如何使用这些相关系数,如果不想定量的分析相关性的话,直接观察散点图也可以。
相关系数有一些需要注意的地方:1、两变量之间存在相关,仅意味着存在关联,并不意味着因果关系。
2、相关系数不能进行加减乘除运算,没有单位,不同的相关系数不可比较3、相关系数大小容易受到数据取值区间大小和数据个数大小的影响。
4、相关系数也需要进行检验确定其是否有统计学意义相关系数的假设检验中H0:相关系数=0,变量间没有相关性H1:相关系数≠0,变量间有相关性相关系数很多,我们一般根据变量的类型进行选择,我们知道变量类型由低级到高级可以分为定类、定序、定距、定比四种类型,而变量的数据类型则可以分为连续型或者离散型,注意不要混淆一、定距、定比变量,基本上也就是连续变量一般使用pearson相关系数,也称为积差相关系数,是一种线性相关系数,使用最为广泛,适用条件是两变量需要为线性关系,并且都来自正态分布总体,且要求成对出现二、定序、定距、定比变量一般使用spearman等级相关系数也称为秩相关系数,该系数利用了变量的次序信息,而且对原始数据没有过多要求,因此比pearson相关系数使用范围更广,它利用两变量的秩次大小作为分析依据,也可以认为是基于秩次的pearson相关系数,当数据不符合pearson相关系数的要求时,可以选择使用spearman相关系数,但是如果是定距或定比变量,还是建议用pearson相关系数,spearman 相关系数的效能略低。
三、只限定序变量1.Gamma相关系数2.Kendall等级相关系数,分为τ-a,τ-b,τ-c三种3.Somer's D相关系数四、定类变量定类变量的相关性大都是根据卡方值衍生而来1、person卡方实际上也就是卡方检验2.列联系数3.φ-Phi系数4.Cramer's V系数mbda(λ)系数6.Goodman and Kruskal的Tau-y系数五、二分类变量1.相对危险度RR值2.优势比OR值=========================================================熟悉了各种相关系数的情况之后,我们来看一下在SPSS中的操作1.分析—描述性统计—交叉表此过程一般用来分析列联表的,由于数据的组成大多是列联表形式,因此该过程包含了很多种相关系数2.分析—相关—双变量此分析为简单相关分析,是最常用的相关分析。
SPSS-相关分析相关分析(⼆元定距变量的相关分析、⼆元定序变量的相关分析、偏相关分析和距离相关分析)定义:衡量事物之间,或称变量之间线性关系相关程度的强弱并⽤适当的统计指标表⽰出来,这个过程就是相关分析变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。
相关分析的⽅法较多,⽐较直接和常⽤的⼀种是绘制散点图。
图形虽然能够直观展现变量之间的相关关系,但不很精确。
为了能够更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进⾏相关分析总体相关系数,记为ρ;样本相关系数,记为 r。
统计学中,⼀般⽤样本相关系数 r 来推断总体相关系数相关系数的取值范围在1和+1之间,即1≤r≤+1若0<r≤1,表明变量之间存在正相关关系,即两个变量的相随变动⽅向相同;若-1≤r<0,表明变量之间存在负相关关系,即两个变量的相随变动⽅向相反;当|r| =1时,其中⼀个变量的取值完全取决于另⼀个变量,两者即为函数关系;若 r= +1,表明变量之间完全正相关;若 r= -1,表明变量之间完全负相关。
当r= 0时,说明变量之间不存在线性相关关系,但这并不排除变量之间存在其他⾮线性关系的可能。
根据经验可将相关程度分为以下⼏种情况:若r≥0.8 时,视为⾼度相关若0.5≤r<0.8 时,视为中度相关当0.3≤r<0.5 时,视为低度相关当 r<0.3 时,说明变量之间的相关程度极弱,可视为不相关⼆元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进⾏分析。
1.⼆元定距变量的相关分析定义:通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进⾏分析。
定距变量:⼜称为间隔(interval)变量,它的取值之间可以⽐较⼤⼩,可以⽤加减法计算出差异的⼤⼩。
Pearson简单相关系数⽤来衡量定距变量间的线性关系对Pearson简单相关系数的统计检验是计算t统计量SPSS操作2.⼆元定序变量的相关分析定序变量:⼜称为有序(ordinal)变量、顺序变量,它取值的⼤⼩能够表⽰观测对象的某种顺序关系(等级、⽅位或⼤⼩等)Spearman和Kendall's tua-b等级相关系数⽤以衡量定序变量间的线性相关关系,它们利⽤的是⾮参数检验的⽅法。
相关分析
一、判断适用的相关系数种类
对两个随机变量之间进行“相关分析”时:
(1)先判断是否符合Pearson相关的使用条件(也就是积差相关或积矩相关的使用条件,如下图),其中线性关系通过绘制“散点图”来判断。
如果有线性趋势且符合其他使用条件,则采用“Pearson积差相关系数”;
(2)如果不符合Pearson相关的使用条件且两变量不都是有序变量,则采用“Spearman秩相关系数”。
即,不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料等,不符合使用积矩相关系数来描述关联性,可采用秩相关,也称等级相关,最常用的就是Spearman秩相关系数;
(3)如果不符合Pearson相关的使用条件且两变量都是有序变量,则采用“Kendall's tau-b 等级相关系数”
二、分析结果的判定
原则:先看p值所代表的相关显著水平(即是否具有统计学意义),再看r值所代表的相关程度。
判定:见下图
三、注意事项
相关关系并且不一定是因果关系,也有可能是伴随关系。
第8章SPSS的相关分析学习目标:1.明确相关关系的含义以及相关分析的主要目标。
2.掌握散点图的含义,熟练掌握绘制散点图的具体操作。
3.理解简单相关系数、Spearman相关系数、Kendall相关系数的基本原理,熟练掌握计算各种相关系数的具体操作,能够读懂分析结果。
4.理解偏相关系分析的主要目标以及与相关分析之间的关系,熟练掌握偏相关分析的具体操作,能够读懂分析结果。
8.1 相关分析相关分析是分析客观事物之间关系的数量分析方法,明确客观事物之间有怎样的关系对理解和运用相关分析是极为重要的。
客观事物之间的关系大致可归纳为两大类关系,它们是函数关系和统计关系。
相关分析是用来分析事物之间统计关系的方法。
所谓函数关系指的是两事物之间的一种一一对应的关系,即荡一个变量x取一定值时,另一变量y可以依确定的函数取唯一确定的值。
例如,商品的销售额与销售量之间的关系,在单价确定时,给出销售量可以唯一地确定出销售额,销售额与销售量之间是一一对应的关系,且这个关系可以被y=Ρx(y表示销售额,Ρ表示单价,x表示销售量)这个数学函数精确地描述出来。
客观世界中这样的函数关系有很多,如圆面积和圆半径、出租车费和行程公里数之间的关系等。
另一类普遍存在的关系是统计关系。
统计关系指的是两事物之间的一种非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。
例如,家庭收入和支出、子女身高和父母身高之间的关系等。
这些事物之间存在一定的关系,但这些关系却不能像函数关系那样可用一个确定的数字函数描述,且当一个变量x取一定值时,另一变量y的值可能有若干个。
统计关系可再进一步划分为线性相关和非线性相关关系。
线性相关又可分为正线性相关和负线性相关。
正线性相关关系指两个变量线性的相随变动方向相同,而负线性相关关系指两个变量线性的相随变动方向相反。
事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各有差异。
如何测度事物间统计关系的强弱是人们关注的问题。
相关分析正是一种简单易行的测度事物之间统计关系的有效工具。
绘制散点图和计算相关系数是相关分析最常用的工具,他们的互相结合能够达到较为理想的分析效果。
8.2绘制散点图8.2.1散点图的特点绘制散点图是相关分析过程中极为常用且非常直观的分析方式。
它将数据以点的形式画在直角平面上。
通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。
在实际分析中,散点图经常表现出某些特定的形状。
如绝大多数的数据点组成类似于“橄榄球”的形状,或集中形成一根“棒状”,而剩余的少数数据点零散地分布在四周。
通常“橄榄球”和“棒状”代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描绘出来,使数据的主要特征更突显。
图8—1是常见的几种散点图以及反映出的统计关系的强弱程度。
8.2.2 散点图的应用举例在利用SPSS绘制散点图之前,应先将数据按一定方式组织起来。
对每个变量应设置相应的SPSS变量。
案例8—1利用第2章案例2—1的住房状况问卷调查数据,分析家庭收入与打算购买的住房面积之间存在怎样的统计关系。
具体数据在可供下载的压缩包中,文件名为“住房状况调查.sav”。
这里,首先利用散点图进行初步分析。
SPSS绘制散点图的基本操作步骤如下:(1)选择菜单:【Graphs】→【Scatter】于是出现如图8—2所示的窗口。
(2)选择散点图的类型。
SPSS提供了四种类型的散点图。
(3)根据所选择的散点图类型,按Define按钮对散点图作具体定义。
不同类型的散点图具体的定义选项略有差别。
一、简单散点图(Simple)简单散点图是表示一堆变量间统计关系的散点图。
应定义的选项主要有:●指定某个变量为散点图的纵轴变量,选入【Y Axis】框中。
●指定某个变量为散点图的横轴变量,选入【X Axis】框中。
●可指定作为分组的变量到【Set Markers by】框中,表示按该变量的不同取值将样本数据分成若干组,并在一张图上分别以不同颜色绘制若干个散点图。
该项可以省略。
●可指定标记变量到【Label Cases by】框中,表示将标记变量的各变量值标记在散点图的相应点的旁边。
该项可以省略。
这里,选择简单散点图,操作窗口如图8—3所示。
二、重叠散点图(Overlay)重叠散点图是表示多对变量间统计关系的散点图。
应定义的选项主要有:●两个变量为一对,指定绘制哪些变量间的散点图。
其中,前一个变量作为图的纵轴变量,后一个变量作为图的横轴变量,并可通过Swap pair按钮进行横纵轴变量的调换。
●可指定标记变量到【Label Case by】框中。
含义同简单散点图。
三、矩阵散点图(Matrix)矩阵散点图以放行矩阵的形式分别显示多对变量间的统计关系。
矩阵散点图的关键是弄清各矩阵单元中的纵横变量。
以3×3的矩阵散点图为例,变量分别x1,x2,x3,矩阵散点图的横纵变量如表8—1所示(括号中的前一个变量作为纵轴变量,后一个变量作为横轴变量)。
对角线的格子中显示参与绘图的若干个变量的名称,应特别注意这些变量所在的行和列,它们决定了矩阵散点图中各单元的横纵坐标。
例如,x3在第三行第三列的格子上,则第三行上的所有图形都以x3为纵轴,第三列上的所有图形都以x3为横轴。
应定义的选项主要有:●指定参与绘图的若干个变量到【Matrix Variables】框中。
选择变了的先后顺序决定了矩阵对角线上变量的排列顺序。
●可指定分组变量到【Set Markers by】框中。
同简单散点图。
●可指定标记变量到【Label Cases by】框中。
同简单散点图。
四、三维散点图(3—D)三维散点图以立体图的形式展现三对变量间的统计关系。
应定义的选项主要有:●置顶三个变量为散点图各轴的变量,分别选入X Axis,Y Axis,Z Axis框中。
●可指定分组变量到【Set Markers by】框中。
同简单散点图。
●可指定标记变量到【Label Cases by】框中。
同简单散点图。
家庭收入与计划购买住房面积的简单散点图如图8—4所示。
由图8—4粗略可知大部分的数据点集中在一定区域中,有少部分数据点“脱离”整体数据较远,家庭收入与计划购买的住房面积之间存在一定正的弱相关关系。
由于案例样本量比较大,因此散点图中的点很密集,在一定程度上影响了图形观察效果。
为此,可以对该散点图进行调整,在其基础上绘制葵花式散点图。
葵花式散点图通常将集中在一起的数据点的中心作为“花心”,以“花瓣”的多少表示“花心”周围数据点的多少。
为绘制葵花式散点图应在SPSS输出窗口中选中相应的散点图形,进入SPSS的图形编辑窗口。
鼠标双击图形空白处,出现如图8—5所示的窗口。
在图8—5所示的窗口中,选中【Show Sunflowers】选项,表示绘制葵花式散点图。
图8—6就是家庭收入与计划购买住房面积的葵花式散点图,其中用圆圈住的是数据点较为密集的位置。
进一步,如果我们希望得到能够代表数据对主要结构和特征的“棒状”,可以再编辑该散点图,选中【Total】项并选择如何得到“棒状”的方式。
一般可选择线性回归(Linear regression)、二项式回归(Quardratic)或三项式回归(Cubic regression)方法。
这里,我们采用了线性回归方法,如图8—7所示。
散点图编辑结果如图8—8所示。
8.3 计算相关系数8.3.1 相关系数的特点虽然散点图能够直观地展现变量之间的统计关系,但并不精确。
相关系数以数值的方式很精确地反映了两个变量间线性相关的强弱程度。
利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤:第一,计算样本相关系数γ。
利用样本数据计算样本相关系数。
样本相关系数反映了两变量间线性相关程度的强弱。
对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即●相关系数γ的取值在-1~+1之间。
●γ>0表示两变量存在真的线性相关关系;γ<0表示两变量存在负的线性相关关系。
●γ=1表示两变量存在完全正相关关系;γ=-1表示两变量存在完全负相关关系;γ=0表示两变量不存在线性相关关系。
●|γ|>0.8表示两变量之间具有较强的线性关系;|γ|<0.3表示两变量之间的线性相关关系较弱。
第二,对样本来自的两总体是否存在显著的线性关系进行推断。
由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关关系进行统计推断。
基本步骤是:●提出原假设,即两总体无显著的线性关系,存在零相关。
●选择检验统计量。
对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。
具体内同间后面的讨论。
●计算检验统计量的观测值和对应的概率Ρ-值。
●决策。
如果检验统计量的概率Ρ-值小于给定的显著性水平α,则不能拒绝原假设,可以认为两总体存在零相关。
8.3.2 相关系数的种类对不同类型的变量应采用不同的相关系数来度量,常用相关系数主要有Pearson简单相关系数、Spearman相关系数和Kendallτ相关系数等。
一、Pearson简单相关系数Pearson简单相关系数用来度量定距型变量间的线性相关关系。
如测度收入和储蓄、身高和体重、工龄和收入等变量间的线性相关关系时可用Pearson简单相关系数,它的数学定义为:式中,n为样本数;xi和yi分别为两变量的变量值。
由式(8.1)可进一步得知简单相关系数,也即式(8.2)说明简单相关系数是n个xi和yi分别标准化后的积的平均数。
于是可知简单相关系数有以下几个特点:●X和y在式(8.1)或式(8.2)中式对称的,说明x与y的相关系数等同于y与x的相关系数。
●由于相关系数是x和y标准化后的结果,因此简单相关系数是无量纲的。
●对x和y作线性变换后可能会改变它们之间相关系数的符号(相关的方向),但不会改变相关系数的值。
●相关系数能够用于度量两变量之间的线性关系,但它并不是度量非线性关系的有效工具。
Pearson简单相关系数的检验统计量为t统计量,其数学定义为:式中,t统计量服从n—2个自由度的t分布。
SPSS将自动计算Pearson简单相关系数、t检验统计量的观测值和对应的概率Ρ-值。
二、Spearman等级相关系数Spearman等级相关系数用来度量定序变量间的线性相关关系。
该系数的设计思想与Pearson简单相关系数完全相同,仍然可依照(8.1)计算,相应点指标特征也想死。
然而在计算Spearman等级相关系数时,由于数据为非定距的,因此计算时并不直接采用原始数据(xi,yi),而是利用数据的秩,即将两变量的秩(Ui,Vi)代替(xi,yi)带入式(8.1)中,于是其中的xi和yi的取值范围被限制在1~n之间,且式(8.1)可被简化为:式中,。