spss软件相关分析

  • 格式:doc
  • 大小:176.50 KB
  • 文档页数:14

下载文档原格式

  / 14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

两变量间相关关系的测量方法

在物理类文献中见到判断相关的方法比较单一,不如社会学那么丰富。尽管有不少相关系数以前并未遇到,但也在整理的过程中同时学习。下面是自己整理的两变量间相关关系的测量方法。难免疏漏,请各位加以修正补充。

一、相关关系

事物之间的联系大致可以分为两类,一类是确定性关系,变量之间存在着一一对应的关系,即函数关系;另一类是不完全确定的关系,两个变量之间存在着相互依赖、相互影响的关系,却不是严格的一一对应关系,称为相关关系。相关关系反映的是变量之间是否存在联系亦即联系的程度。确定性关系与相关关系之间往往无法截然区分,一方面,由于测量误差等随机因素的影响,确定性关系在现实中往往通过相关关系表现出来;另一方面,当人们对客观事物的内部规律了解得更深刻时,相关关系又有可能转化为确定性关系。

二、变量类型

依据测量尺度,在社会科学研究中一般将变量分为定类变量、定序变量和定距变量三大类(此外,还有“定比变量”,社会科学研究不作区分)。它们之间的关系是从定类变量开始,后一个变量比前一个变量的层次高,后一个变量除具有前一个变量的特征外,还具有自己的特点。

定类变量:变量的取值仅仅只有类别属性之分,例如性别,没有大小、优劣之别。在社会调查研究活动中,凡是涉及到类型划分社会现象均属于定类变量。

定序变量:变量的取值除了有类别属性之分外,还有等级或次序的区别,例如教育程度,态度量度。凡属于等级或次序上有区别的变量均为定序变量。

定距/定比变量:变量的取值除了具有类别、次序区别之外,还有类别之间、序列之间的标准化距离的变量。变量的值之间可以比较大小,两个值的差有实际意义。在对社会现象的调查研究中,凡是可以用固定标准测量的、可以划分出距离的变量,均属于定距变量。

其中,定距/定比变量的区别:定距变量=0,不表示“没有”,因此这一测量类型所得出的数据在数学运算上只能进行加、减运算,而不能做乘除等运算;定比变量=0,表示“没有”,即有一个有实际意义的零点(绝对零点),因此,定比变量除了可做加减运算,又能做乘除运算。(但两者在SPSS中没有太大的区别)。

对研究变量的不同特征遵循如下的分类方法:

三、基本方法

(一)绘制散点图

(略)

(二)计算相关系数

对不同类型的变量数据,应采用不同的相关系数来度量。1.定类变量——定类变量

(1)φ-Phi系数

描述2×2数据相关程度最常用的一种相关系数

对于一个具体的2×2维列联表

X1 X2

Y1 a b

Y2 c d

(2)C系数,也称列联系数

列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。

当一张表格超过2维时,Phi的值不一定是在0---1之间,为了获得0≤Phi ≤1,皮尔逊建议用列联系数

C的最高限取决于行数和列数,一般达不到上限1。

(3)Cramer's V系数

V的最高上限可以达到1。

PRE(减少误差比例测量法,Propoctionate reduction in error)数值的意义:就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。

PRE=(E1—E2)/E1

E1:当不知道X变量去估计Y变量时所产生的误差(全部误差)

E2:知道X变量再去估计Y变量产生的误差

E1—E2为剩余的误差

Lambda和Tau-y 系数都是具有PRE性质的系数

(4) Lambda(λ)系数

这种相关测量法也叫做Cuttman’s coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。

分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。简写成λ系数。

非对称形式——测量两个变量间的关系有自变量与因变量之分。简写成λy(x为自变量,y为因变量)

一般来说,系数在0~1之间取值,值越大表明相关程度越高。

Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。同时,这也说明Lambda系数测量X 、Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman和 Kruskal的 Tau-y 系数。

(5) Goodman and Kruskal的Tau-y系数

这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。

在那么多相关系数中,在进行研究时,一般选择哪一个比较好?

在定类——定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数,Phi、C、V系数没有消减误差比例的意义,而且假定两个变量之间的关系是对称的。在这三个系数中,由于V 不受表的大小的影响,因此用得比较多,也比较适合于进行社会学研究。

三、基本方法

(一)绘制散点图

(略)

(二)计算相关系数

对不同类型的变量数据,应采用不同的相关系数来度量。 常用的I 行J 列表格

1.定类变量——定类变量 2×2表格的相关度量 以卡方为基础的量度 (1)φ-Phi 系数

在相关度量法中不采用拟合优度卡方是因为拟合优度卡方过分依赖于样本数大小。将卡方除以n 针对样本量n 进行修正就是φ系数:

,或者

变量X 和Y 的边缘分布的变异影响φ的大小。在其他数值保持不变的情况下,边缘分布越不平衡,φ值越小。当一个或两个边缘分布非常偏斜的时候,较不敏感的量度方法可能是更好的选择。φ是一个对称量度系数,对φ的计算并不依赖于哪个变量是因变量。 I×J 表格的相关量度法