当前位置:文档之家› 双变量关联性分析

双变量关联性分析

双变量关联性分析
双变量关联性分析

第十三章双变量关联性分析

在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。这类关系在统计学上称为两个随机变量之间的关联性。如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。

第一节直线相关

一、直线相关的概念及其统计描述

例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。据此回答两变量是否有关联?其方向与密切程度如何?

表13.1 15名正常成年人体重和双肾体积的测量值

编号体重(kg) 双肾体积(ml)

1 43 217.22

2 74 316.18

3 51 231.11

4 58 220.96

5 50 254.70

6 65 293.84

7 54 263.28

8 57 271.73

9 67 263.46

10 69 276.53

11 80 341.15

12 48 261.00

13 38 213.20

14 85 315.12

15 54 252.08

初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测

点的分布情况,称为散点图(scatter plot),如图13.1所示。

体重(kg) x

图13.115名正常成年人体重和双肾体积的散点图

由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。

(a) (b) (c) (d)

图13.2 常见的散点图

图13.2(a)、(b)中散点近似呈椭圆形分布,其变化趋势接近一直线,其中图13.2(a)中两变量同时增大或减小,变化趋势同向,称为正相关(positive correlation)。图13.2(b)中一个变量随着另一个变量的增大而减小,变化趋势相反,称为负相关(negative correlation)。如全部数据点恰好散布在一条直线上,称为完全相关,这种特殊情况在实际医学研究中并不存在。图13.2(c)中各点总的趋势杂乱无章或大致呈圆形散布,则该两变量间无相关,也称零相关(zero correlation)。图13.2(d)中各点散布也非直线趋势,亦属无相关,由于统计学中提到的相关通常是指直线相关,故无相关是指无直线关系,但可能存在非直线相关。

二、相关系数的意义及计算

(

m

l

)

y

定量描述两个变量间直线关系的方向和密切程度的指标,称为直线相关系数(linear correlation coefficient),又称Pearson积矩相关系数(Pearson product moment coefficient),其公式为:

()()

x x y y

l

r

--

?

==(13.1)

=

相关系数r没有单位,取值范围在[1,1]

-之间,其正负表示两变量间直线相关的方向,大于0为正相关,小于0为负相关,等于0为零相关。相关系数的绝对值大小表示两变量间直线相关的密切程度,绝对值越接近于1,说明相关密切程度越高;绝对值越接近于0,说明相关密切程度越低。

现结合图13.1解释相关系数的含义。经横纵坐标上x与y处两条相互垂直的直线可将此图分为4个象限,若两变量呈正相关,多数数据处于第一、三象限,此时式(13.1)的分子为正数,0

r>;若两变量呈负相关,多数数据处于第二、四象限,此时式(13.1)的分子为负数,0

r<。其中一个极端是所有数据均位于经过点(x,y)的直线上,即全部数据点要么都在第一、三象限,要么都在第二、四象限,此时式(13.1)的分子各项的正负号完全相同,相加后得到其最大或最小值,1

r=或1

r=-,分别对应于完全正相关或完全负相关;另一个极端是所有数据围绕点(x,y)成圆形均匀分布在4个象限内,此时式(13.1)的分子各项相加后正负号相互抵消,分子为0,0

r=,即零相关。

通过以上解释可知,式(13.1)中位于分子的离均差乘积和(

xy

l)可反映两变量直线相关的方向和密切程度。如同在单变量描述中,用离均差平方和的平均值即方差来反映数据的离散程度,以消除样本含量不同的影响一样,可将两变量的离均差乘积之和取平均,得到样本协方差,以便不同样本含量的问题比较其相关性。协方差用符号Cov表示,计算公式为:

(,)

1

xy

l

Cov x y

n

=

-

(13.2)

协方差的取值大小与x、y的量纲有关,不同实际问题中的协方差不可直接比较。为了消除量纲的影响,将两变量分别进行标准化(每个观察值减去均数再

除以其标准差)后再计算协方差,使之成为无单位的系数,便于不同问题进行比较。如此得到标准化的协方差,即相关系数的另一种形式:

(,)

x y

Cov x y r S S =

(13.3)

当上式右端分别为总体协方差和总体标准差时(其各自分子除以n 而非

1-n ),左端便是总体相关系数,习惯上记为ρ。若ρ≠0,称两总体有直线相关关系;若ρ=0,则称两总体无直线相关关系。

例13.2 计算例13.1中体重与双肾体积之间的样本相关系数。 由式(13.1)分别算出

22()/2555.733xx l x x n =-=∑∑

22()/20270.495yy l y y n =-=∑∑

()/6301.038xy l xy x y n =-=∑∑∑

0.875l r =

=

说明两变量间呈正相关,双肾体积随体重增加而增大,但需进行假设检验以推断总体上这种相关关系是否存在。

三、相关系数的统计推断

用样本计算出来的相关系数r 是一个样本统计量,存在抽样误差,需要对总体相关系数ρ是否为0作假设检验。假定随机变量x 和y 均服从正态分布,可用以下方法进行推断:

1. t 检验

r r

r t S -=

(13.4) 式中, r S 为样本相关系数r 的标准误,计算公式为:

2

12

--=n r S r (13.5)

当0H 成立时, r t 服从自由度为2-=n ν的t 分布。 2. 查表法

根据自由度2-=n ν,查相关系数界值表(附表14),||r 越大,P 值越小;||

r

越小,P 值越大。

以上两方法若得到α≤P ,则拒绝0H ,可认为两变量间存在直线相关关系;若α>P ,则不拒绝0H ,尚不能认为两变量间存在直线相关关系。

例13.3 例13.2中算得r =0.875,试检验该相关系数是否具有统计学意义。 (1) 建立检验假设,确定检验水准

0H :0=ρ,即体重和双肾体积之间无直线相关关系

1H :0≠ρ,即体重和双肾体积之间有直线相关关系

05.0=α

(2) 计算检验统计量 由式(13.4)和式(13.5)得

6.517r t =

=

=

213n ν=-=

(3) 确定P 值,作出统计推断

查t 界值表(附表3),得001.0

如果直接查相关系数界值表(附表14),13ν=,0.05,13r =0.514, 0.001,13r =0.760,

001.0

假设检验是回答两变量间的相关关系是否具有统计学意义,P 值越小并不表示相关性越强,回答相关的强弱需要计算总体相关系数ρ的置信区间。由于一般情况下(0≠ρ时)ρ的抽样分布并不对称,故先对r 按式(13.6)作z 变换:

1z tan h r -= 或 11z ln()21r r

+=

- (13.6) 式中,tan h 为双曲正切函数,1tan h -为反双曲正切函数。

由于变换后的z 近似地服从均数为)11ln(21ρρ-+,标准差为3

1

-n 的正态分布,

故z 的(1α-)置信区间可按下式计算:

z z 骣?+??桫 (13.7)

将式(13.7)的上、下限代入式(13.8),即得到总体相关系数ρ的(α-1)置信区间。

tan z r h = 或 2z 2z

1

1

e r e -=+ (13.8) 例13.3(续) 继例13.2中算得r =0.875后,试估计总体相关系数ρ的95%置信区间。

将r =0.875代入式(13.6),得

11110.875z ln()ln() 1.354021210.875

r r ++===--

将z 1.3540=,96.12/05.0=Z 和15n =代入式(13.7),得z 的95%置信区间

(0.7882,1.9198) ;将z 的上、下限分别代入式(13.8),得

ρ的下限:2z (20.7882)2z

(20.7882)11

0.657411e e e e ??--==++ ρ的上限:2z (21.9198)2z

(21.9198)11

0.957911

e e e e ??--==++ 故体重和双肾体积总体相关系数的95%置信区间为(0.6574,0.9579)。

四、相关分析应用中应注意的问题

1. 进行相关分析前应先绘制散点图

散点图能使我们直观地看出两变量间有无线性关系并发现可能的离群点(outlier),当散点有线性趋势时,才能进行相关分析。

2. 直线相关分析的统计推断要求两个随机变量均服从正态分布

若某一变量是人为选定而非随机变量,如研究大鼠某项生理指标与不同给药剂量的关系,给药剂量通常是研究者人为控制的非随机变量,不服从正态分布,则不宜做直线相关分析。

3. 出现离群点时慎用相关

图13.3 (a)中可见一个明显远离主体数据的离群点,计算时是否包含此点可分别得到负相关或零相关两种不同结论。对离群点的处理需认真核实数据的收集和录入过程,或进行重复观察。

4. 相关关系不一定是因果关系

如测量某小学各年级学生的右手长度及其算术计算能力,可能会得到这两个

变量有统计学意义的相关关系,但显然两者并非因果关系,可能是学生年龄与二者的潜在联系造成了这种假象。因此需结合专业知识及其他研究方法,才能对两变量间的相关是否确为因果关系作出判断。

5. 分层资料不可盲目合并

图13.3(b)显示,将无相关性的两样本合并后造成正相关的假象;图13.3(c)显示,将原本具有相关性的分层资料合并后无相关性。

(a) (b) (c)

图13.3 误用相关的几种情况

第二节 秩相关

一、秩相关的概念及统计描述

前述直线相关适用于二元正态分布资料,对于不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料,都不宜用积矩相关系数来分析相关性。此时,可采用秩相关(rank correlation),也称等级相关来分析两个变量间相关的方向与密切程度。该法不以特定的总体分布为前提,属于非参数统计方法。其中最常用的统计量是Spearman 秩相关系数s r ,又称等级相关系数,其值同样在[1,1]-之间,无单位,s r <0为负相关,s r > 0为正相关。类似于直线相关,秩相关系数s r 是总体秩相关系数s 的估计值。

计算Spearman 秩相关系数可将n 对实测值i x 与i y (i =1,2,3,…,n )分别从小到大编秩(相同秩次取平均值),然后将秩次代入式(13.1)得到。

例13.4 某研究者对15例30~50岁成年男子的舒张压(mmHg)与夜间最低血氧含量分级进行研究,结果见表13.2,试分析两者的关联性。

表13.2 15例成年男子的舒张压与夜间最低血氧含量分级测量值

编号

舒张压 秩次

夜间最低血氧 秩次

p i 含量分级y

q i (1) (2) (3) (4)

(5) 1 75 1 1 2 2 80 2.5 1 2 3 80 2.5 2 5.5 4 90 5.5 1 2.0 5 90 5.5 2 5.5 6 90 5.5 2 5.5 7 90 5.5 3 9.5 8 95 8.5 2 5.5 9 95 8.5 3 9.5 10 100 10.5 3 9.5 11 100 10.5 3 9.5 12 110 12 4 13.5 13 115 13 4 13.5 14 120 14 4 13.5 15 125 15 4 13.5 合计

120

120

将两变量x 、y 成对的观察值分别从小到大编秩,以p i 表示x i 的秩次,q i 表示y i 的秩次,分别见表13.2中第(3)、(5)栏,观察值相同的取平均秩;将i p 、i q 直接替换式(13.1)中的x 和y ,即用秩次作为分析变量值,直接计算Pearson 积矩相关系数。

22()/273.5pp i i l p p n =-=∑∑ 22()/263.0qq i i l q q n =-=∑∑

()/240.5pq i i i

i l p q p q n =-=∑∑∑

0.897s l r =

=

判断由样本算得的秩相关系数是否有统计学意义,也应作假设检验。

二、秩相关系数的假设检验

总体秩相关系数s ρ的假设检验,可用以下方法进行推断:当n ≤50时,可查等级相关系数界值表(附表15),若s r 超过临界值,则拒绝0H ;当n >50时,则采用式(13.4)和式(13.5)作t 检验。

例13.5 对例13.4的秩相关系数作假设检验。

(1) 建立检验假设,确定检验水准

0H :0=s ρ,即舒张压与夜间最低血氧含量分级无相关关系

1H :0≠s ρ,即舒张压与夜间最低血氧含量分级有相关关系

05.0=α

(2) 计算检验统计量

0.897s l r =

=

(3) 确定P 值,作出统计推断

本例中1550n =<,查等级相关系数界值表(附表15),得15,0.001||s r r >=0.779,P <0.001,按05.0=α水准,拒绝0H ,接受1H ,可以认为舒张压与夜间最低血氧含量分级之间有正相关关系。

第三节 分类变量的关联性分析

两个定量变量的关联性可用Pearson 积矩相关系数或秩相关系数来描述;而两个分类变量间的关联性可用Pearson 列联系数(contingency coefficient)等统计量来描述,其假设检验可采用列联表(contingency table)的独立性2χ检验。

一、2×2列联表的关联性分析

例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年,并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存在关联性?

表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表 是否在校 是否知晓 合 计 是 否 是 156 62 218 否 27 139 166 合 计

183

201

384

本例中,关联性问题对应的检验假设:0H :青少年是否在校与对艾滋病是否知晓之间互相独立;1H :青少年是否在校与对艾滋病是否知晓之间互相关联。

两变量x 和y 互相独立,即指变量x 的概率分布与变量y 的概率分布无关,

否则称这两变量之间存在关联性。根据随机事件独立性的定义,若两个随机事件同时发生的联合概率等于每个事件发生的边际概率相乘,则两随机事件是相互独立的。如表13.3中,无论在校与否,是否知晓艾滋病的概率称为各自的边际概率(可用

156270.48384+=和62139

0.52384

+=来估计)。同样,无论是否知晓艾滋病,在校与否的概率也称为各自的边际概率(可用

156620.57384+=和27139

0.43384

+=来估计)。于是在独立性假定满足的条件下,“是否在校”和“对艾滋病是否知晓”组成的四种情况下的联合概率就等于相应边际概率的乘积。如在校且同时知晓艾滋病的联合概率为在校的边际概率与知晓艾滋病的边际概率相乘

(218/384)(183/384)0.27?=,余类推。

为了便于公式表示,将2×2列联表的一般形式整理如表13.4。表中ij A 为两变量不同水平组合下(,i j x y )的实际观察频数,ij π为相应的联合概率;i n 为变量x

取水平i 时的合计频数,

ri π为相应边际概率;j m 为变量y 取水平j 时的合计频数,cj π为相应边际概率,i =1,2,j =1,2,21n n +=21m m +=n ,12121r r c c ππππ+=+=。

表13.4 2×2列联表的一般形式及概率表达

1y 2y

合 计

1x 11A (11π)

12A (12π) 1n (1r π)

2x

21A (21π) 22A (22π) 2n (2r π) 合 计 1m (1c π)

2m (2c π)

n (1)

这里进行关联性检验的统计量仍为第十一章中的2χ拟合优度统计量:

2

2

() ij ij ij

A T T χ-=∑

其中,ij A 为实际频数,ij T 为理论频数。0H 成立时,该统计量服从2χ分布。

此公式中理论频数的计算如下:

若独立性假设0H 成立,则两变量不同水平组合所对应的在表13.4每一格子中的联合概率等于相应变量的边际概率的乘积:

2,1,==j i cj

ri ij πππ (13.9)

若分别用i

n n

和j m n 来估计边际概率ri π和cj π,代入(13.9) 式,得到各联合概

率估计值:

?,1,2

j i ij m n i j n n π

??

??== ? ?????

例如前述在校且同时知晓艾滋病的联合概率()11?π

为在校的边际概率11218?384r n n π??== ?

?

?与知晓艾滋病的边际概率11183?384c m n π?

?== ???相乘为 1111218183?0.27384384n m n n π

????????===

??? ????

??????? 于是,在0H 成立的条件下,理论频数ij T 的估计公式为

?,1,2i j

ij ij n m T n i j n

π

?=== (13.10)

不难看出,此2χ值的计算与两样本率比较的2χ检验公式(11.2)完全一样。四格表的专用公式(11.5)也仍然适用。在计算理论频数的过程中,由于用样本估

计值代替了两个独立参数1?r π

和1?c π,故此处2χ分布的自由度为其计算公式中累计求和次数减1再减去所估计参数个数,即1214=--=ν或1)12)(12(=--=ν。

现就例13.6的数据作两变量关联性分析。 (1) 建立检验假设,确定检验水准

0H :青少年是否在校与对艾滋病是否知晓之间互相独立

1H :青少年是否在校与对艾滋病是否知晓之间互相关联

05.0=α

(2) 计算检验统计量

将表13.3中数据代入式(11.5)得到:

222

()(1561396227)384

115.508()()()()218166183201

ad bc n a b c d a c b d χ-?-??===++++???

1ν=

(3) 确定P 值,作出统计推断

查2χ界值表(附表9),得220.005,7.88χχ 1>=,0.005P <,按05.0=α水准,拒绝0H ,接受1H ,可以认为青少年是否在校与对艾滋病是否知晓之间有关联。

关于两个分类变量关联的程度,我们可用Pearson 列联系数来描述,其计算公式为

n

r +=22χχ (13.11)

本例中,Pearson 列联系数为:

0.481

84

r =

= 列联系数介于0和1之间, 理论上也应对总体列联系数是否不等于0作假设检验,但这个检验等价于上述两分类变量独立性的2χ检验。

需要特别强调的是,虽然表13.3的数据和第十一章中两样本率比较的四格表数据看上去非常相似,甚至2χ检验公式及应用条件也完全相同,但在抽样机制和所回答问题上二者却有着根本区别。两样本率比较是从两个总体中分别抽取样本(区分两总体的分组变量不必是随机变量),两样本有各自的频数分布,所检验的是两个总体的概率分布是否不同。而这里的分类变量关联性与前述直线相关一样,是从同一个总体中进行随机抽样,对样本中的每个个体,考察其两种属性的关系,要检验的是两个分类变量之间是否存在关联性或者说是否独立。

二、R×C 列联表的关联性分析

例13.7 为研究自我效能感与领导行为类型是否有关,某研究者抽样调查了来自某省各三甲医院的238名护士长,并对每个个体按自我效能感和领导行为类型两种属性交叉分类,如表13.5所示。试分析两变量的关联性。

表13.5 自我效能感与领导行为交叉分类表

自我效能感

领导行为类型合计 pm pM Pm PM 低 67 25 13 17 122 高 32 12 34 38 116 合计

99

37

47

55

238

(1) 建立检验假设,确定检验水准

0H :自我效能感与领导行为类型之间无关联

1H :自我效能感与领导行为类型之间有关联

05.0=α

(2) 计算检验统计量

将表13.5数据代入式(11.8)计算2χ值:

2

2

222222

22

(1)

672513173212238(12299122371224712255116991163734381)

116471165534.213(41)(21)3

R C

A n n n χν=- =+++++

?????? ++-?? = =--=∑

(3) 确定P 值,作出统计推断

查2χ界值表(附表9),220.005,12.84χχ 3>=,0.005P <,按05.0=α水准,拒绝0H ,接受1H ,可以认为自我效能感与领导行为类型之间有关联,其列联系数为

0.355r =

=

=

小 结

1.两变量关联性分析的目的在于推断从某一总体中随机抽取的同一份样本观测出的两个变量间是否存在关联性,以及这种关联性的密切程度如何,这种关联并不表示专业上的因果关系。

2.对于服从二元正态分布的同一样本中两个定量变量,须先作散点图,观察到存在线性趋势后方可计算Pearson 相关系数;对于不服从正态分布的资料或有序分类变量,应采用Spearman 秩相关系数来分析其关联性;对于两个反映属性的分类变量,可作交叉分类的频数表,用Pearson 列联系数和独立性2χ检验来分析其关联性。

3.在研究设计上,用于关联性分析的两个变量应均为随机变量,关联性是对两随机变量是否独立进行推断。对于直线相关或秩相关分析,若其中一个变量是人为设定的,不宜作关联性分析。若两个分类变量中其中之一为固定分组,比较组间频率分布是否相同,其统计推断计算公式与关联性分析的独立性2χ检验

所用公式恰好相同,但不宜计算Pearson列联系数或讨论关联性。关联性分析所回答的问题是同一样本两种属性之间是否独立,而非比较不同总体的频率分布是否不同。

(王彤)

相关性分析(相关系数)

相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值一般介于-1~1之间。相关系数不是等距度量值,而只是一个顺序数据。计算相关系数一般需大样本. 相关系数又称皮(尔生)氏积矩相关系数,说明两个现象之间相关关系密切程度的统计分析指标。 相关系数用希腊字母γ表示,γ值的范围在-1和+1之间。 γ>0为正相关,γ<0为负相关。γ=0表示不相关; γ的绝对值越大,相关程度越高。 两个现象之间的相关程度,一般划分为四级: 如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。 相关系数的计算公式为<见参考资料>. 其中xi为自变量的标志值;i=1,2,…n;■为自变量的平均值, 为因变量数列的标志值;■为因变量数列的平均值。 为自变量数列的项数。对于单变量分组表的资料,相关系数的计算公式<见参考资料>. 其中fi为权数,即自变量每组的次数。在使用具有统计功能的电子计算机时,可以用一种简捷的方法计算相关系数,其公式<见参考资料>. 使用这种计算方法时,当计算机在输入x、y数据之后,可以直接得出n、■、∑xi、∑yi、∑■、∑xiy1、γ等数值,不必再列计算表。 简单相关系数: 又叫相关系数或线性相关系数。它一般用字母r 表示。它是用来度量定量变量间的线性相关关系。 复相关系数: 又叫多重相关系数

常用相关分析方法及其计算

二、常用相关分析方法及其计算 在教育与心理研究实践中,常用的相关分析方法有积差相关法、等级相关法、质量相关法,分述如下。 (一)积差相关系数 1. 积差相关系数又称积矩相关系数,是英国统计学家皮尔逊(Pearson )提出的一种计算相关系数的方法,故也称皮尔逊相关。这是一种求直线相关的基本方法。 积差相关系数记作XY r ,其计算公式为 ∑∑∑===----= n i i n i i n i i i XY Y y X x Y y X x r 1 2 1 2 1 ) ()() )(( (2-20) 式中i x 、i y 、X 、Y 、n 的意义均同前所述。 若记X x x i -=,Y y y i -=,则(2-20)式成为 Y X XY S nS xy r ∑= (2-21) 【 式中 n xy ∑称为协方差,n xy ∑的绝对值大小直观地反映了两列变量的一致性程 度。然而,由于X 变量与Y 变量具有不同测量单位,不能直接用它们的协方差 n xy ∑来表示两列变量的一致性,所以将各变量的离均差分别用各自的标准差 除,使之成为没有实际单位的标准分数,然后再求其协方差。即: ∑∑?= = )()(1Y X Y X XY S y S x n S nS xy r Y X Z Z n ∑?= 1 (2-22) 这样,两列具有不同测两单位的变量的一致性就可以测量计算。 计算积差相关系数要求变量符合以下条件:(1)两列变量都是等距的或等比的测量数据;(2)两列变量所来自的总体必须是正态的或近似正态的对称单峰分布;(3)两列变量必须具备一一对应关系。 2. 积差相关系数的计算

利用公式 (2-20)计算相关系数,应先求两列变量各自的平均数与标准差,再求离中差的乘积之和。在统计实践中,为方便使用数据库的数据格式,并利于计算机计算,一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。即: ∑∑∑∑∑∑∑---= 2 22 2) () (i i i i i i i i XY y y n x x n y x y x n r (2-23) (二)| (三)等级相关 在教育与心理研究实践中,只要条件许可,人们都乐于使用积差相关系数来度量两列变量之间的相关程度,但有时我们得到的数据不能满足积差相关系数的计算条件,此时就应使用其他相关系数。 等级相关也是一种相关分析方法。当测量得到的数据不是等距或等比数据,而是具有等级顺序的测量数据,或者得到的数据是等距或等比的测量数据,但其所来自的总体分布不是正态的,出现上述两种情况中的任何一种,都不能计算积差相关系数。这时要求两列变量或多列变量的相关,就要用等级相关的方法。 1. 斯皮尔曼(Spearman)等级相关 斯皮尔曼等级相关系数用R r 表示,它适用于两列具有等级顺序的测量数据,或总体为非正态的等距、等比数据。 斯皮尔曼等级相关的基本公式如下: ) 1(612 2--=∑n n D r R (2-24) 式中: Y X R R D -=____________对偶等级之差; n ____________对偶数据个数。 , 如不用对偶等级之差,而使用原始等级序数计算,则可用下式 )]1() 1(4[13+-+?-= ∑n n n R R n r Y X R (2-25) 式中: X R ___________X 变量的等级; Y R ____________Y 变量的等级; n ____________对偶数据个数。 (2-25)式要求∑∑=Y X R R ,∑∑=2 2Y X R R ,从而保证22Y X S S =。在观测变量中没有相同等级出现时可以保证这一条件。但是,在教育与心理研究实践中,搜集到的观测变量经常出现相同等级。在这种情况下,∑∑=Y X R R 的条件仍可得

excel两个工作表双变量分析

lklangzi| 2008-12-4 19:27

然后表二的数据在E,F,G,H,I 列(行列交叉处为空白,即E1),整个数据范围为E1:I8 然后在E1输入 =FV(B2,60,B1) 然后选中E1:I8 点击双变量求解菜单 在行引用中输入B1,列引用中输入B2 ************* 如果不明白,可以发消息给我,我发个样表给你 如果在表2中的数据象上面的一样,那在B2中输入: =FV($A2/12,60,B$1) 不知是不是这个意思? ? 2008-12-04 20:27 ? 回复 ? ? lklangzi ? 21位粉丝 ? 6楼 谢谢。我知道答案后会一地时间 和大家分享。也请大家多帮帮我。 ? 2008-12-04 20:27 ? 回复 ? 行天2000 ? 4位粉丝 ? 7楼 再看了下楼主的要求,似乎有两种理解。“每月存款额”变化是指一 个人每个月存的钱不同呢,还是不同的人每月存的钱(一个人每个 月存的钱相同)不同?另外,“年利率”是每年都在变化,还是在60个月中是固定不变的? ? 2008-12-04 21:18 ? 回复 ? ? lklangzi 8楼

假设你表一的数据在A,B两列(共4行,文字在A列.数字在B列) 你将它复制到表二的A1:B4 然后表二的数据在E,F,G,H,I列(行列交叉处为空白,即E1),整个数据 范围为E1:I8 然后在E1输入 =FV(B2,60,B1) 然后选中E1:I8 点击双变量求解菜单 在行引用中输入B1,列引用中输入B2 上面这个好像就是这道题的最好解答了。 双变量好像不能在两个表格里计算。

非参数双变量相关分析方法

通讯作者:陈平雁 非参数双变量相关分析方法Spearman 和 Kendall 的Monte Carlo 模拟比较 南方医科大学公共卫生与热带医学学院生物统计学系(510515) 胡 军 张 超 陈平雁 提 要 目的 对Spear man 和K endall s tau -b 两种非参数双变量相关分析方法在偏态分布和等级变量条件下进行模拟比较。方法 应用SAS 9 13软件编程,采用M onte Carlo 方法,设置不同偏态分布类型、样本量及总体相关系数,比较两种非参数方法的样本相关系数及相对误差的大小。结果 Spear man 方法较之Kendall 方法,估计的相关系数与总体相关系数更为接近,且相对误差更小。结论 在双变量为偏态分布和等级变量条件下,Spearman 法优于Kendall 方法。 关键词 非参数相关 模拟研究 Spear man 法 K endall s tau -b 法 对于双变量相关分析,无论是教科书还是权威统计软体SAS 及SPSS 等,通常介绍的方法为Pearson 积差相关系数,Spearman 和Kendall s tau -b 秩相关系数。Pearson 相关适用于双变量正态分布的数据, Spearman 和Kendall s 秩相关适用于等级资料、非双变量正态分布的资料以及分布不确定的数据 1-5 。 一般而言,当资料服从双变量正态分布时,使用Pear -son 法是无可争议的,而且较非参数方法效率高也是无争议的。但在偏态分布或等级变量条件下,Spear -man 法和Kendall 法两种非参方法何者为优却未见报道。为此,本研究拟对两方法进行模拟比较,以期为资料分析时选择方法提供参考。 模拟研究方法 采用Monte Carlo 方法,利用SAS 中IML 矩阵运算模块及随机数函数从双变量偏态分布总体进行抽样。总体相关系数 设置为0 3、0 6及0 9。样本量n 设置为10、30、60及100。在每个总体中按样本量的不同重复抽样2000次,而后计算并比较各种条件下样本相关系数与总体相关系数的相对误差,即 相对误差=(r - )/ 。 偏态分布双变量数据的获得可参照Fleishman 的研究结果 6 ,由标准正态分布进行转换,其公式为: Y =a +bz +cZ 2+dZ 3 其中Y 为服从一定偏度和峰度的偏态分布随机变量,Z 为标准正态分布随机变量,a 、b 、c 、d 为参数,a =-c 。本研究设置两种偏态分布类型: 偏度系数 1=0 75,峰度系数 2=1 2; 1=2, 2=7。 等级资料数据的生成,先由SAS 中IM L 矩阵运算模块及随机数函数从双变量标准正态分布总体进行抽样,而后将连续型计量数据划分为等级资料。具体作法如表1。 表1 标准正态分布数据转化为等级资料的具体设置 连续性变量等级变量 X -21-22 8 结 果 1 双变量偏态分布 图1和图2描绘了不同参数组合下Spearman 法(方法S)和Kendall 法(方法K)的相对误差。由两图可见,两种偏度和峰度系数设置的结果相近。样本相关系数r 均低于总体相关系数 。样本量的变化对结果影响不大。随总体相关系数的不同,Spearman 法变化不大;Kendall 法则有较大波动,总体相关系数愈小相对误差愈大。Spearman 法的相对误差明显小于Kendall 法,即Spearman 方法的样本相关系数r 均比Kendall 方法更接近总体相关系数 。 图1 偏态分布下Spear man 与K endall 方法相对误差 对比图( 1=0 75, 2=1 2) 590 中国卫生统计2008年12月第25卷第6期

第十一章双变量统计分析

第十一章双变量统计分析 在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。在这一讲中我们介绍几种双变量的统计分析方法。 一、交互分类表 交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 1、条件次数表:表10-1是交互分类表的一个例子: 表10-1 500名工人的文化水平与工资收入交互分类表(人) (1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。 (2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r ×c。这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含

不同类别数。 2、条件百分表: 条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。如上表可改成百分表为: 表10-2 500名工人文化水平与工资收入的交互百分表(%) 在计算条件百分表时,最好能依据下列准则: (1)每个表的顶端要有表号和标题。加上表号,可以方便讨论和减少混乱。简明标题,能使读者容易领会表内统计数值的意义。 (2)绘表时所用的线条,要尽可能简短。舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。 (3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。如果表内每个数值都附有%符号,就太繁复了。 (4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。 (5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。写出这些

SPSS双变量相关性分析

数学建模SPSS 双变量相关性分析 关键词:数学建模相关性分析SPSS 摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时, 要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出 评价结果。本文由数学建模中的双变量分析出发, 首先阐述最主要的三种数据分 析:Pearson 系数,Spearman 系数和Kendall 系数的原理与应用,再由实际建模 问题出发,阐述整个建模过程和结果。 相关性分析是指对两个或多个具备相关性的变量元素进行分析, 从而衡量两 个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才 可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵 盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的 定义也有很大的差异。 双变量相关分析中有三种数据分析:Pearson 系数,Spearman 系数和Kendall 系数。 Pearson 相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定 距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩 和高考成绩等变量间的线性相关关系。 当两个变量都是正态连续变量,而且两者 之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有 Pearson 简单相关系数r 。 X X Y Y r ------------------------------------- 2 — 2 \ X X Y Y Spearman 相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关 分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对 于服从Pearson 相关系数的数据亦可计算 Spearman 相关系数,但统计效能要低 一些。Spearman 相关系数的计算公式可以完全套用 Spearman 相关系数计算公式, 但公式中的x 和y 用相应的秩次代替即可。 设有n 组观察对象,将Xi 、Yi (i=1,2,…,n )分别由小到大编秩。并用 Pi 表示Xi 的秩,Qi 表示Yi 的秩 两者秩和为: 两者平均秩为: 秩相关系数r s 计算公式为: l XY l XX I YY n(n + 1) 2 =(n + 1) =2 Pave

相关性分析

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。 分类: 1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述 (1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地, ·|r|>0.95 存在显著性相关; ·|r|≥0.8 高度相关; ·0.5≤|r|<0.8 中度相关; ·0.3≤|r|<0.5 低度相关; ·|r|<0.3 关系极弱,认为不相关 (2)负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0; (3)无线性相关:r=0。 如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1

2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的 变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系 3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析(1)不相似性测度: ·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。 ·b、对计数数据使用卡方。 ·c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。 (2)相似性测度: ·a、等间隔数据使用统计量Pearson相关或余弦。 ·b、测度二元数据的相似性使用的统计量有20余种 分析的类别: 网络分析、 财务分析、又称有用性分析,是财务会计的一部分,是指会计信息要同信息使 用者的经济决策相关联,即人们可以利用会计信息做出有关的经济决策,相关性分 析的目的在于提高使用者的经济决策能力和预测能力 经济分析、相关性的统计与分析是经济学中常用的一种方法。相关性是指当两 个因素之间存在联系,一个典型的表现是:一个变量会随着另一个变量变化。相关 又会分成正相关和负相关两种情况 统计分析、相关性系数的计算过程可表示为:将每个变量都转化为标准单位, 乘积的平均数即为相关系数。两个变量的关系可以直观地用散点图表示,当其紧密 地群聚于一条直线的周围时,变量间存在强相关性 数学分析、当两个变量的标准差都不为零时,相关性系数才有定义。当一个或 两个变量带有测量误差时,他们的相关性就会受到削弱 几何分析、对于居中的数据来说(居中也就是每个数据减去样本均值,居中后 它们的平均值就为0),相关性系数可以看作是两个随机变量中得到的样本集向量 之间夹角的cosine函数 大气分析、对回归因素所引起的变差与总变差之间的相关性分析

第十一章 两变量关联性分析

第十一章两变量关联性分析习题 一、是非题 1、Pearson相关系数的假设检验.苦结论为不拒绝H0,可以认为两变量间无关系. () 2、在同样样本量的情况下.Pearson相关系数|r|越接近1(P<0.05).说明两变量间直线关系越密切. ( ) 3、计算关联系数时两随机变量不能为无序分类资料. () 4、|r|越大(P<0.05),说明X对Y的影响幅度越大. () 5、ρ≠0,意味着X和Y之间的因果关系成立. () 二、选择题 1.下列式中可以取负值的是: A.l xx B.l xy C.l yy D.关联系数 2.直线相关系数的假没检验,其自由度为: A.n B.n-1 C.n-2 D.2n-1 3.计算Pearson相关系数要求: A.应变量Y是正态变量.而自变量X可以不满足正态的要求 B.自变量X是正态变量.而应变量Y可以不满足正态的要求 C.应变量Y是定量指标.而自变量X可以是任何类型的数据 D.两变量都要求为满足正态分布规律的随机变量 4.两组资料进行相关性分析.一个r0.01,v1>r1>r0.05,v1,另一个r2>r0.01,v2,可认为:A.第l组资料两变量关系密切

B.第2组资料两变量关系密切 C.很难说哪一组变量关系密切 D.t r1>t r2 三、筒答题 1.r、r s和列联系数的应用条件有何不同? 2.应用线性相关分析时应该意哪些问题? 3.线性相关分析的基本步骤是什么? 4.关联性分析的χ2检验与两个或多个频数分布比较的χ2检验的设计和意义有什么区别? 5.线性相关分析中绘制散点图的目的是什么?能否用散点图来代替相关系数?

常用相关分析方法及其计算

二、常用相关分析方法及其计算 在教育与心理研究实践中,常用的相关分析方法有积差相关法、等级相关法、质量相关法,分述如下。 (一)积差相关系数 1. 积差相关系数又称积矩相关系数,是英国统计学家皮尔逊(Pearson )提出的一种计算相关系数的方法,故也称皮尔逊相关。这是一种求直线相关的基本方法。 积差相关系数记作XY r ,其计算公式为 ∑∑∑===----= n i i n i i n i i i XY Y y X x Y y X x r 1 2 1 2 1 ) ()() )(( (2-20) 式中i x 、i y 、X 、Y 、n 的意义均同前所述。 若记X x x i -=,Y y y i -=,则(2-20)式成为 Y X XY S nS xy r ∑= (2-21) 式中n xy ∑称为协方差,n xy ∑的绝对值大小直观地反映了两列变量的一致性程 度。然而,由于X 变量与Y 变量具有不同测量单位,不能直接用它们的协方差 n xy ∑来表示两列变量的一致性,所以将各变量的离均差分别用各自的标准差 除,使之成为没有实际单位的标准分数,然后再求其协方差。即: ∑∑?= = )()(1Y X Y X XY S y S x n S nS xy r Y X Z Z n ∑?= 1 (2-22) 这样,两列具有不同测两单位的变量的一致性就可以测量计算。 计算积差相关系数要求变量符合以下条件:(1)两列变量都是等距的或等比的测量数据;(2)两列变量所来自的总体必须是正态的或近似正态的对称单峰分布;(3)两列变量必须具备一一对应关系。 2. 积差相关系数的计算 利用公式 (2-20)计算相关系数,应先求两列变量各自的平均数与标准差,再

《相关性分析》Word文档

第八章相关分析 【教学目的与要求】 通过本章的学习,使学生了解相关关系和相关分析基本概念,掌握相关分析理论。学生必须深刻领会相关关系的概念,弄清相关分析和回归分析之间的关系,掌握相关分析和回归分析的统计分析方法。 【重点和难点】 相关分析的概念 相关系数的含义与计算 回归方程的建立 回归系数的含义 【课堂讲授内容】 前述分析方法如综合分析法、动态分析法、因素分析法、抽样推断法均是对同一现象的数量特征进行描述和分析,而相关分析与之最大区别为相关分析侧重于两个现象之间的数量联系的研究,当然也不排除时间数列的自相关分析。相关分析有广义与狭义之分,广义的相关分析还包括回归分析,本章的相关分析是广义的概念。 第一节相关分析概述 一、变量关系的类型 在大量变量关系中,存在着两种不同的类型:函数关系和相关关系。 函数关系是指变量之间存在的一种完全确定的一一对应的关系,它是一种严格的确定性的关系。 相关关系是指两个变量或者若干变量之间存在着一种不完全确定的关系,它是一种非严格的确定性的关系。 两者之间的联系: ①由于人类的认知水平的限制,有些函数关系可能目前表现为相关关系。 ②对具有相关关系的变量进行量上的测定需要借助于函数关系。 二、相关关系的种类 按照相关关系涉及的因素的多少,可分为单相关 复相关 按照相关关系的方向,可分为正相关 负相关 按照相关的表现形式,可分为直线相关 曲线相关

按照相关的程度,可以分为 完全相关 完全不相关 不完全相关 三、相关分析的内容 对于相关关系的分析我们可以借助于若干分析指标(如相关系数或相关指数)对变量之间的密切程度进行测定,这种方法通常被称作相关分析 (狭义概念),广义的相关分析还包括回归分析。对于存在的相关关系的变量,运用相应的函数关系来根据给定的自变量,来估计因变量的值 ,这种统计分析方法通常称为回归分析。相关分析和回归分析都是对现象的之间相关关系的分析。广义相关分析包括的内容有: 确定变量之间是否存在相关关系及其表现形式 狭义相关分析 确定相关关系的密切程度 确定相关关系的数学表达式 回归分析 确定因变量估计值误差的程度 第二节 一元线性相关分析 一、 相关关系密切程度的测定 在判断相关关系密切程度之前,首先确定现象之间有无相关关系。确定方法有:一是根据自己的理论知识和实践经验综合分析判断;二是用相关图表进一步确定现象之间相关的方向和形式。在此基础上通过计算相关系数或相关指数来测定相关关系密切的程度。相关系数是用来说明直线相关的密切程度;相关指数则是用来判断曲线相关的密切程度。这是主要介绍相关系数的计算。 相关系数是用来分析判断直线相关的方向和程度的一种统计分析指标,其计算方法中最简单是最常用的为积差法,是用两个变量的协方差与两变量的标准差的乘积之比来计算的,计算公式如下: σ σσy x xy r 2 = ∑∑--∑--= ) )(2 2 ))((y y x x y y x x (1)

第十一章两变量关联性分析实习指导(定)资料

第十章 两变量关联性分析 [教学要求] 了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。 熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。 掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson 积差相关、Spearman 等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。 [重点难点] 第一节 线性相关 对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson 积差相关系数; ∑∑∑===----==n i n i n i yy xx xy y y x x y y x x l l l r 112 2 1)()())(( 对积差相关系数r 的假设检验可用查表法或t 检验。 这里要注意的是不可用相关系数检验所得P 值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。 第二节 秩相关 对不满足正态分布的两变量随机样本,可采用Spearman 秩相关来分析。这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。 教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足

Pearson 积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。 Spearman 秩相关系数或等级相关系数的计算公式同Pearson 积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson 积差相关系数的计算公式中去计算;秩相关系数用s r 表示,对其检验也是用查表法或t 检验。若以i p 表示X i 秩次;i q 表示Y i 的秩次,d i =i p -i q 表示成对秩次的差值,则Spearman 秩相关系数的计 算也可采用下式: )1(6112 --=∑=n n d r n i i s 显然Pearson 积差相关与Spearman 秩相关之间有联系也有区别。 主要联系是: 1.两者都可用于刻划两变量间线性相关的方向与密切程度,其取值范围与数值大小的统计学意义解释也相同。 2.两者都要求个体间满足独立性。 3.Spearman 秩相关系数的计算可采用对秩次的Pearson 积差相关系数的计算来实现。 4.样本量大时,两者的假设检验方法近似。 主要区别是: 1.Pearson 积差相关要求数据服从正态分布,属于参数统计量;而Spearman 秩相关系不要求正态分布,属于非参数统计量。 2.两者总体参数的假设检验方法不完全相同(主要是s ρρ与的分布不同)。 第三节 分类变量的关联性分析 首先要明了这里分析的资料是按两种属性分类的频数表资料,含配对分类频数资料。包括双向无序和单向有序两种类型。这些资料都可用2χ的独立性检验和列联系数来考察和刻划两变量间的关联性。这里要注意的是本章所介绍的关联性分析的2χ检验所用的公

怎样分析变量间的关系汇总

变量间的相关关系 一、变量间关系的度量 1.变量间的关系: 函数关系:(1)是一一对应的确定关系 (2)设有两个变量 相关关系:(1)变量间关系不能用函数关系精确表达(2)变量间存在着一定的客观规律 二、相关的种类 1.完全相关、不完全相关、不相关 2.正相关与负相关

3.线性相关与非线性相关 4.单相关与复相关 三、用图形来显示变量间的关系 做散点图 四、测度变量间的关系强度----计算相关系数 1. 相关系数的概念 是在线性相关的情况下,用来说明相关关系密切程度的统计分析指标。 2. 相关系数的计算: 3. 根据相关系数判断相关的程度 ()[]() [] ∑∑∑∑∑∑∑---= 2 2 2 2 y y n x x n y x xy n γ

相关系数的取值是在+1和-1之间,即11+≤≤-r 。若10+≤≤r ,表示X 与Y 之间存在正的相关关系,若01≤≤-r ,表示X 与Y 之间存在负的相关关系;若r-+1,,表示X 、Y 之间为完全正相关关系,若r=-1,表示X 与Y 之间为完全负相关关系,当r=0时,表示Y 的取值与X 无关,即二者之间不存在线性相关关系,但不能说明两者之间没有任何关系。它们可能会存在非线性相关关系。 五、总体中也存在这样的关系吗?----假设检验 1. 为什么要对相关系数进行显著性检验? 因为两个变量之间存在相关关系是根据样本计算出来得出的结论,这一结论是否正确还吸引仅仅系检验,相关系数是一个随机变量,由于是随机的,所以具有一定的偶然性,两个不相关的变量,其相关系数也可能较高,要从样本相关系数判断总体中是否也有这样的关系,则

双变量关联性分析

第十三章双变量关联性分析 在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。这类关系在统计学上称为两个随机变量之间的关联性。如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。 第一节直线相关 一、直线相关的概念及其统计描述 例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。据此回答两变量是否有关联?其方向与密切程度如何? 表13.1 15名正常成年人体重和双肾体积的测量值 编号体重(kg) 双肾体积(ml) 1 43 217.22 2 74 316.18 3 51 231.11 4 58 220.96 5 50 254.70 6 65 293.84 7 54 263.28 8 57 271.73 9 67 263.46 10 69 276.53 11 80 341.15 12 48 261.00 13 38 213.20 14 85 315.12 15 54 252.08 初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测

点的分布情况,称为散点图(scatter plot),如图13.1所示。 体重(kg) x 图13.115名正常成年人体重和双肾体积的散点图 由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。 (a) (b) (c) (d) 图13.2 常见的散点图 图13.2(a)、(b)中散点近似呈椭圆形分布,其变化趋势接近一直线,其中图13.2(a)中两变量同时增大或减小,变化趋势同向,称为正相关(positive correlation)。图13.2(b)中一个变量随着另一个变量的增大而减小,变化趋势相反,称为负相关(negative correlation)。如全部数据点恰好散布在一条直线上,称为完全相关,这种特殊情况在实际医学研究中并不存在。图13.2(c)中各点总的趋势杂乱无章或大致呈圆形散布,则该两变量间无相关,也称零相关(zero correlation)。图13.2(d)中各点散布也非直线趋势,亦属无相关,由于统计学中提到的相关通常是指直线相关,故无相关是指无直线关系,但可能存在非直线相关。 二、相关系数的意义及计算 双 肾 体 积 ( m l ) y

相关性分析(相关系数)

简单相关系数: 又叫相关系数或线性相关系数。它一般用字母r 表示。它是用来度量定量变量间的线性相关关系。 复相关系数: 又叫多重相关系数 复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。 偏相关系数: 又叫部分相关系数:部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。偏相关系数的假设检验等同于偏回归系数的t检验。复相关系数的假设检验等同于回归方程的方差分析。 典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性无关的综合指标.再用两组之间的综合指标的直线相关系敷来研究原两组变量间相关关系 可决系数是相关系数的平方。 意义:可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。 相关系数(correlation coefficient) 相关系数是表示两个变量(X,Y)之间线性关系密切程度的指标,用r表示,其值在-1至+1间。如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r 的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。计算相关系数的公式为: 定义与说明

相关系数,或称线性相关系数、皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC)等,是衡量两个随机变量之间线性相关程度的指标。它由卡尔·皮尔森(Karl Pearson)在1880年代提出[1],现已广泛地应用于科学的各个领域。 相关系数计算公式 相关系数(r)的定义如右图所示,取值范围为[-1,1],r>0表示正相关,r<0表示负相关,|r|表示了变量之间相关程度的高低。特殊地,r=1称为完全正相关,r=-1称为完全负相关,r=0称为不相关。通常|r|大于时,认为两个变量有很强的线性相关性。[2] 样本相关系数常用r表示,而总体相关系数常用ρ表示。 在线性关系不显著时,还可以考虑采用秩相关系数(rank correlation),如斯皮尔曼秩相关系数(Spearman's rank correlation coefficient)等。 相关性质 (1)对称性:X与Y的相关系数(rXY)和Y与X之间的相关系数(rYX)相等; (2)相关系数与原点和尺度无关; (3)若X与Y统计上独立,则它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性; (4)相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;(5)相关系数只是两个变量之间线性关联的一个度量,不一定有因果关系的含义。 Pearson相关系数

相关性分析

相关分析 【教学目的与要求】 通过本章的学习,使学生了解相关关系和相关分析基本概念,掌握相关分析理论。学生必须深刻领会相关关系的概念,弄清相关分析和回归分析之间的关系,掌握相关分析和回归分析的统计分析方法。 【重点和难点】 相关分析的概念 相关系数的含义与计算 回归方程的建立 回归系数的含义 【课堂讲授内容】 前述分析方法如综合分析法、动态分析法、因素分析法、抽样推断法均是对同一现象的数量特征进行描述和分析,而相关分析与之最大区别为相关分析侧重于两个现象之间的数量联系的研究,当然也不排除时间数列的自相关分析。相关分析有广义与狭义之分,广义的相关分析还包括回归分析,本章的相关分析是广义的概念。 第一节相关分析概述 一、变量关系的类型 在大量变量关系中,存在着两种不同的类型:函数关系和相关关系。 函数关系是指变量之间存在的一种完全确定的一一对应的关系,它是一种严格的确定性的关系。 相关关系是指两个变量或者若干变量之间存在着一种不完全确定的关系,它是一种非严格的确定性的关系。 两者之间的联系: ①由于人类的认知水平的限制,有些函数关系可能目前表现为相关关系。 ②对具有相关关系的变量进行量上的测定需要借助于函数关系。 二、相关关系的种类 按照相关关系涉及的因素的多少,可分为单相关 复相关 按照相关关系的方向,可分为正相关 负相关 按照相关的表现形式,可分为直线相关 曲线相关

完全相关 完全不相关 不完全相关 三、相关分析的内容 对于相关关系的分析我们可以借助于若干分析指标(如相关系数或相关指数)对变量之间的密切程度进行测定,这种方法通常被称作相关分析 (狭义概念),广义的相关分析还包括回归分析。对于存在的相关关系的变量,运用相应的函数关系来根据给定的自变量,来估计因变量的值 ,这种统计分析方法通常称为回归分析。相关分析和回归分析都是对现象的之间相关关系的分析。广义相关分析包括的内容有: 确定变量之间是否存在相关关系及其表现形式 狭义相关分析 确定相关关系的密切程度 确定相关关系的数学表达式 回归分析 确定因变量估计值误差的程度 第二节 一元线性相关分析 一、 相关关系密切程度的测定 在判断相关关系密切程度之前,首先确定现象之间有无相关关系。确定方法有:一是根据自己的理论知识和实践经验综合分析判断;二是用相关图表进一步确定现象之间相关的方向和形式。在此基础上通过计算相关系数或相关指数来测定相关关系密切的程度。相关系数是用来说明直线相关的密切程度;相关指数则是用来判断曲线相关的密切程度。这是主要介绍相关系数的计算。 相关系数是用来分析判断直线相关的方向和程度的一种统计分析指标,其计算方法中最简单是最常用的为积差法,是用两个变量的协方差与两变量的标准差的乘积之比来计算的,计算公式如下: σ σσy x xy r 2 = ∑∑--∑--= ) )(2 2 ))((y y x x y y x x (1)

三种相关分析方法的差异

在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同 两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格; 计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用spearman或kendall相关 Pearson相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析Kendall 复选项等级相关计算分类变量间的秩相关,适用于合并等级资料Spearman 复选项等级相关计算斯皮尔曼相关,适用于连续等级资料 注: 1若非等间距测度的连续变量因为分布不明-可用等级相关/也可用Pearson相关,对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用Spearman 或Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。 在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:

SPSS相关分析报告案例讲解要点

相关分析 、两个变量的相关分析:Bivariate 1相关系数的含义 相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关 关系强弱程度和方向的统计量,通常用r表示。 ①相关系数的取值范围在-1和+1之间,即:—W r< 1o ②计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量 为负相关。 ③相关系数r的数值越接近于1 ( -1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或-,则表示两个现象完全直线性相关。如果 =0,则表示两个现象完全不相关(不是直线相关) ④r 0.3,称为微弱相关、0.3 0.5,称为低度相关、0.5 r 0-8,称为显著(中度)相关、0.8 1,称为高度相关 ⑤r值很小,说明X与丫之间没有线性相关关系,但并不意味着X与丫之 间没有其它关系,如很强的非线性关系。 ⑥直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数R o 2 ?常用的简单相关系数 (1)皮尔逊(Pearson )相关系数 皮尔逊相关系数亦称积矩相关系数, 1890年由英国统计学家卡尔?皮尔逊 提出。定距变量之间的相关关系测量常用Pearson系数法。计算公式如下: n (X i x)(y i y) i 1 m n I 2 2 J (X i X) (y i y) V i 1 i 1 (1)式是样本的相关系数。计算皮尔逊相关系数的数据要求:变量都是服 从正态分布,相互独立的连续数据;两个变量在散点图上有线性相关趋势;样本 容量n 30。 (2)斯皮尔曼(Spearman )等级相关系数

Spearman 相关系数又称秩相关系数,是用来测度两个定序数据之间的线性 相关程度的指 标。 当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间 的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的,其计算 对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及 (2)式中,g 为等级相关系数;d 为每对数据等级之差;n 为样本容量。 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格, 只要两个变量 的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资 料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等 级相关来进行研究。 (3)肯德尔(Kendall )等级相关系数 肯德尔(Kendall )等级相关系数是在考虑了结点(秩次相同)的条件下,测 度两组定序数据或等级数据线性相关程度的指标。它利用排序数据的秩,通过计 算不一致数据对在总数据对中的比例, 来反映变量间的线性关系的。其计算公式 如下: (3)式中,「K 是肯德尔等级相关系数;i 是不一致数据对数;n 为样本容量。 计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等级相关系数的数据 要求相同。 3.相关系数的显著性检验 通常,我们用样本相关系数r 作为总体相关系数P 的估计值,而 r 仅说明样 本数据的X 与丫的相关程度。有时候,由于样本数据太少或其它偶然因素,使 得样本相关系数r 值很大,而总体的X 与丫并不存在真正的线性关系。I 因而有 总体相关系数P 是否为零(即原假设是:总体中两个变量间的相关系数为 过程包括: 差额平方, 通过公式计算得到相关系数。其计算公式为: 「R 1 6 d 2 n n 2 1 即检验

相关主题
文本预览
相关文档 最新文档