第十三章 双变量关联性分析
【思考与习题】
一、思考题
1.两变量间的关联性是否可解释为因果关系?
2.2?2列联表的关联性分析与两样本率比较的2χ检验有何不同?
3.相关系数r 经假设检验有统计学意义,且得到的P 值很小,是否表示两变量间一定有很强的直线关系?
4.简述Pearson 积矩相关与Spearman 秩相关的区别与联系。
二、案例辨析题
为研究年龄与牙齿AKP 酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP 酶反应活性,如表13-1所示。问年龄与牙齿AKP 酶反应活性之间有无关系?
表13-1 281例患者年龄与牙齿AKP 酶反应活性的分布 年龄
AKP 酶反应活性
合计 —
+ ++ <31 5 17 36 58 31~ 2 34 54 90 51~ 24 97 12 133 合计
31
148
102
281
按照R×C 表的2χ检验结果,得2χ=84.533,005.0
三、最佳选择题
1.Pearson 积矩相关系数的假设检验,其自由度为 A .1-n B .2-n C .12-n
D .)1(2-n
E .n
2.积矩相关系数的计算公式是 A .xy xy yy
l r l l =
B .xx
xx yy
l r l l =
C .xy xx yy l r l l =
D .yy xx yy l r l l =
E .xy xx yy
l r l l =
3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系 B. 不存在直线相关关系 C. 有直线相关关系
D. 有直线相关关系,且为正相关
E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()n
xx i l x x ==-∑
D .1()()n
xy i l x x y y ==--∑
E .21
()n
yy i l y y ==-∑
5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联
B .体重与肺活量有关联
C .体重与肺活量有直线关系
D .体重与肺活量有因果关系
E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A .xy xx yy
l r l l =
B .n
r +=
2
2χχ
C .2
2χχn
r +=
D .1
2
-=n r χ E .n
r +=
22χχ
7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验
8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关 B .积矩相关或列联系数 C .列联系数或等级相关 D .积矩相关 E .等级相关
9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <0.05,对2r 进行假设检验,得到P <0.001,可以认为
A.第一组的两个变量关系比第二组密切
B.第二组的两个变量关系比第一组密切
C.更有理由认为第一组的两个变量之间有直线关系
D.更有理由认为第二组的两个变量之间有直线关系
E.两组变量关系同样密切
四、综合分析题
1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。
表13-2 10名某病成年男性患者的血浆清蛋白含量( x )及血红蛋白含量( y )
编号血浆清蛋白含量(g/L) 血红蛋白含量(g/L)
1 36 119
2 37 121
3 39 128
4 38 127
5 3
6 121
6 35 119
7 34 111
8 34 109
9 35 109
10 34 105
2.某医院用两种方法对已确诊的50名乳腺癌患者进行检查,结果如表13-3所示。两种检查方法是否有关联?
表13-3 50名乳腺癌患者的两种检查结果
乙法
甲法
合计阳性阴性
阳性18 9 27 阴性8 15 23 合计26 24 50
3.为探讨流行性出血热的早期分度和最后定型之间的关系,某研究对404例该病患者的病情资料进行分析,如表13-4所示。据此回答:是否早期分度越高,最后定型越重?
表13-4 404例流行性出血热患者的病情转化情况
早期分度
最后定型
合计轻型中型重型
轻度98 20 1 119
中度 5 136 21 162
重度 1 2 120 123
合计104 158 142 404
【习题解析】
一、思考题
1.双变量关联性分析的目的在于推断从某一总体中随机抽取的同一份样本观测出的两个变量间是否存在关联性,以及这种关联性的密切程度如何。关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,是否确为因果关系还需结合专业知识、因果逻辑上的时间先后顺序等作进一步判定。2.2?2列联表的关联性分析与两样本率比较的2χ检验的数据形式非常相似,2χ检验的公式以及应用条件也完全相同。但区别在于:两样本率比较的2χ检验是从两个总体中分别抽取样本,两样本有各自的频数分布,所检验的是两总体的率是否相同;而2?2列联表的关联性分析是从同一个总体中进行随机抽样,对样本中的每个个体考察其两个变量的关系,检验两个分类变量之间是否存在关联性或者说是否独立。
3.P值越小,说明越有理由拒绝
H,犯I型错误的概率越小。相关系数r经假设检验有统计学意义且得到非常小的P值,表示有足够的理由认为两变量总体相关系数0
≠
ρ,只能定性回答两变量是否存在直线相关,并非意味着其直线相关的强度。若要定量回答相关性的强弱,需结合样本相关系数r的大小和总体相关系数ρ的置信区间来说明。
4.区别:①Pearson积矩相关适用于二元正态分布资料,Spearman秩相关适用
于不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料。②Pearson 积矩相关是基于原始数据进行统计分析,而Spearman 秩相关是将原始数据进行秩变换后进行统计分析。③Pearson 积矩相关是参数检验方法,而Spearman 秩相关不以特定的总体分布为前提,为非参数检验的方法。联系:①两种相关系数的取值都介于-1和1之间,无单位,小于 0 为负相关,大于0为正相关。②用原始数据的秩次来计算Pearson 相关系数,得到的即为Spearman 秩相关系数。
二、案例辨析题
该案例是对同一样本的两个分类变量之间的关联性进行分析,2χ检验的计算方式不变,结果仍为84.533,但下结论时最好不要从“不同年龄的AKP 酶反应活性不同”演绎到“两变量有关系”,而应为“按α=0.05水准,拒绝0H ,可认为年龄与AKP 酶反应活性之间有关”。此外,可结合列联系数说明其关联强度,2284.533
0.48184.533281
r n
χχ=
=
=++。
由于年龄与AKP 酶反应活性都是有序分类变量,可考虑进行Spearman 秩相关分析,得0.487-=s r ,单侧001.0
三、最佳选择题
1. B
2. C
3. C
4.D
5.A
6.B
7.B
8.C
9. D
四、综合分析题 1.解:
(1) 由散点图(略)结合两个变量的正态性检验,可进行直线相关分析。 由式(13.1)分别算出
22()/27.6xx l x x n =-=∑∑
22()/568.9yy l y y n =-=∑∑
()/114.8xy l xy x y n =-=∑∑∑
0.916xy xy yy
l r l l =
=
但需进行假设检验以推断总体上这种相关是否存在。 (2) 检验相关是否具有统计学意义 1) 建立检验假设,确定检验水准
0H :0=ρ,即血浆清蛋白含量及血红蛋白含量之间无直线相关关系
1H :0≠ρ,即血浆清蛋白含量及血红蛋白含量之间有直线相关关系
05.0=α
2) 计算检验统计量 由式(13.4)和式(13.5)得
2
2
0.916 6.458110.9162
102
r r t r n =
=
=----
28n ν=-=
3) 确定P 值,作出统计推断
查t 界值表(附表3),得001.0
SPSS 操作 数据录入:
打开SPSS Data Editor 窗口,点击Variable View 标签,定义要输入的变量,no 表示个体编号,x 表示血浆清蛋白含量,y 表示血红蛋白含量;再点击Data View 标签,录入数据(见图13-1,图13-2)。
图13-1 Variable View 窗口内定义要输入的变量
图13-2 Data View窗口内录入数据分析:
Graphs →Scatter/Dot …→ Simple Scatter
Define
Y Axis框:y
X Axis框:x
OK
Analyze → Descriptive Statistics →Explore …
Dependent list框:x y
Plots …→Normality plots with tests
Continue
OK
Analyze→Correlate→Bivariate …
Variables框:x y
OK
输出结果
39
38
37
36
35
34
130
125
120
115
110
105
血浆清蛋白含量
Tes ts of Nor mality
.17610.200*.90210.232.20410.200*
.92310
.384
血浆清蛋白(X )
血红蛋白(Y )
Statistic df Sig.
Statistic df
Sig.
Kolmogorov-Sm irnov a
Shapiro-Wilk
This is a low er bound of the true significance.*. Lilliefors Significance Correction
a.
Cor relations
1
.916**.000
1010.916**1.0001010
P earson Correlation
Sig. (2-tailed)N
P earson Correlation Sig. (2-tailed)N
血浆清蛋白(x )
血红蛋白(y )
血浆清蛋白(x )
血红蛋白(y )
Correlation is significant at the 0.01 level (2-tailed).
**.
(3) 结果解释
通过对血浆清蛋白和血红蛋白两变量的正态性检验可以看出:两者的P 值分别为0.200,0. 200,可以认为两变量都服从正态分布,故进行Pearson 积矩相关分析。两者相关系数为0.916,001.0
2.解:此问题属于配对设计列联表的关联性分析。
(1) 建立检验假设,确定检验水准
0H :甲法和乙法之间互相独立
血红蛋白含量
1H :甲法和乙法之间互相关联
05.0=α
(2) 计算检验统计量
将表13-3中数据代入式(11.5)得:
222
()(181598)50
5.059()()()()27232624
ad bc n a b c d a c b d χ-?-??===++++???
1ν=
(3) 确定P 值,作出统计推断
查2χ界值表(附表9),得0.010.025P <<,按05.0=α水准,拒绝0H ,接受
1H ,可以认为甲法和乙法之间互相关联。
进一步计算Pearson 列联系数,22 5.059
0.3035.05950
r n
χχ==
=++
SPSS 操作 数据录入:
打开SPSS Data Editor 窗口,点击Variable View 标签,定义要输入的变量,f 表示四格表每个格子的实际频数,r 表示“行变量”乙法检查结果(1为阳性,0为阴性),c 表示“列变量”甲法检查结果(1为阳性,0为阴性);再点击Data View 标签,录入数据(见图13-3,图13-4)。
图13-3 Variable View 窗口内定义要输入的变量
图13-4 Data View 窗口内录入数据
分析:
Data → Weight Cases…
Weight cases by : Frequency Variable 框:f OK
Analyze →Descriptive Statistics → Crosstabs Rows 框:r Columns 框:c
Statistics :
Chi-square
Nominal
Contingency coefficient
Continue
Cells
:Counts
Observed Expected
Continue OK
输出结果
乙法 * 甲法 Cros s tabulation
1582311.012.023.09182713.014.027.024265024.0
26.0
50.0
Count
E xpected Count Count
E xpected Count Count
E xpected Count
阴性阳性
乙法
Total
阴性
阳性甲法Total
Chi-Square Te s ts
5.059b 1.0253.8621.0495.1431.023
.046.024
4.9571
.026
50
P earson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association
N of Valid Cases
Value df
Asym p. Sig.(2-sided)
E xact Sig.(2-sided)
E xact Sig.(1-sided)
Computed only for a 2x2 table
a. 0 cells (.0%) have expected count less than 5. The m inimum expected count is 11.04.
b.
Sym me tric M easure s
.303.025
.318.134 2.324.024c .318.134
2.324.024c
50
Contingency Coefficient Nominal by Nom inal
P earson's R
I nterval by Interval Spearman Correlation
Ordinal by Ordinal N of Valid Cases
Value
Asym p.Std. E rror a
Approx. T b Approx. Sig.
Not assuming the null hypothesis.
a. Using the asymptotic standard error assuming the null hypothesis.
b. Based on normal approxim ation.
c.
3.解:
(1) 本题为等级资料,应采用Spearman 秩相关分析,并用单侧检验。
表13-5 404例流行性出血热患者的病情转化情况
早期分度
x 最后定型 y
合计 秩次范围 平均秩次
p i 轻型 中型 重型 轻度 98 20 1 119 1~119 60 中度 5 136 21 162 120~281 200.5 重度 1 2 120 123 282~404
343
合计 104 158 142 404
- - 秩次范围 1~104 105~262 263~404 - - - 平均秩次q i
52.5
183.5
333.5
-
-
-
将n 对实测值i x 与i y (i =1,2,3,…,n )分别从小到大编秩(相同秩次取平均值),以i p 表示i x 的秩次,i q 表示i y 的秩次,将i p 、i q 直接替换式(13.1)中的x 和y ,即用秩次作为分析变量值,直接计算Pearson 积矩相关系数。
22()/4845143pp i i l p p n =-=∑∑ 22()/4833900qq l q q n =-=∑∑
()/431364
pq l pq p q n
=-=∑∑∑ 0.891pq s pp qq
l r l l =
=
但需进行假设检验以推断总体上这种相关是否存在。
(2) 对总体秩相关系数s ρ作假设检验,本例中s r =0.891,40450n =>,采用式(13.4)和式(13.5)作t 检验。
1)建立检验假设,确定检验水准
0H :0=s ρ,即流行性出血热的早期分度和最后定型无相关关系
1H :0≠s ρ,即流行性出血热的早期分度和最后定型有正相关关系
单侧05.0=α 2) 计算检验统计量 由式(13.4)和式(13.5)得
2
2
0.89139.349110.8912
4042
s s
r t r n =
=
=----
2402n ν=-=
3) 确定P 值,作出统计推断
查t 界值表(附表3),得001.0
SPSS 操作 数据录入:
打开SPSS Data Editor 窗口,点击Variable View 标签,定义要输入的变量,f 为每个格子实际例数,行变量r 为早期分度(取值1、2、3分别表示轻度、中度、重度),列变量c 为最后定型(取值1、2、3分别表示轻型、中型、重型)。再点击Data View 标签,录入数据(见图13-5,图13-6)。
图13-5 Variable View窗口内定义要输入的变量
图13-6 Data View窗口内录入数据
分析:
Data →Weight Cases…
Weight cases by:
Frequency Variable框:f
OK
Analyze → Correlate →Bivariate …
Variables框:r c
Correlation Coefficients Spearman
Test of Significance One-tailed
OK
输出结果
Cor relations
1.000.891**
..000404404.891** 1.000.000.404404
Correlation Coefficient Sig. (1-tailed)N
Correlation Coefficient Sig. (1-tailed)N
早期分度
最后定型
Spearman's rho
早期分度最后定型
Correlation is significant at the 0.01 level (1-tailed).
**.
(3) 结果解释:
Spearman 秩相关系数0.8910s r =>,001.0