第7章卡方检验
- 格式:pps
- 大小:1.55 MB
- 文档页数:47
第七章1下列不能用X2检验的是。
A. 成组设计的两样本频率的比较B. 配对设计的两样本频率的比较C. 多个样本频率的比较D. 频率发布的比较E. 等级资料实验效应的比较2.通常分析四格表在情况下需用Fisher精确概率计算法。
A.T<5B.T<1或n<40C.T<1且n<40D.1≤T<5且n<40E.T<5或n<403.三个样本频率比较,X2>X2,可以认为。
0.01(2)A.各总体频率不等或不全相等 B.各总体频率均不相等 C.各样本频率均不相等 D.各样本频率不等或不全相等 E.各总体频率相等4.当四格表的周边合计数不变时,如果某格的实际数有变化,则其理论频数。
A.增大 B.减小 C.不变 D.不确定 E.随该格实际频数的增减而增减5.对于总合计数 n为500的5个样本率的资料做X2检验,其自由度为。
A.499 B.496 C.1 D.4 E.9 6.从甲、乙两篇论文中,查到同类研究的两个率比较的四格表资料以及χ2检验结果,甲论文χ2>χ20.01(1),乙论文χ2>χ20.05(1)。
若甲、乙两论文的样本量相同,则可认为。
A.两论文结果有矛盾 B.两论文结果基本一致 C.甲论文结果更可信D.甲论文结果不可信 E.甲论文说明两总体的差别大7.用两种方法检查已确诊的乳腺癌患者120名,甲法检出率为60%,乙法检出率为50%,甲乙两法的一致检出率为35%,则整理成四格表后表中的d(即两法均未检出者)为。
A.30 B.18 C.24 D.48 E.428.用甲乙两种方法检查已确诊的鼻咽癌患者100名,甲法阳性者80名,乙法阳性者60名,两法均为阳性者50名,欲检验两法结果有无差别,宜选用。
A .普通四格表χ2检验B .配对四格表χ2检验C . u 检验D .t 检验E .秩和检验9. 两组二分类资料发生率比较,样本总例数100,则2χ检验自由度为 。
A. 1B. 4C. 95D. 99E. 10010.设两定性因素为A 和B ,每因素的两水平用+和-表示,则配对四格表的因素和水平搭配为:A .A+,A -,B+,B - B .A+A -,A -A+,B+B -,B -B+C .A+A+,A -A -,B+B+,B -B -D .A+B+,A+B -,A -B+,A -B -E .以上都不是11.三行四列表作2χ检验当有4个格子的1<T<5时, 。
卡方检验(Chi-square test)stat9@检验(Chi-square test)是现代统计学的创始人K. Pearson 提出的一种具有广泛用途的统计方法。
该检验可用于两个及多个率(或者构成比)之间的比较,分类资料的关联度分析,拟合优度检验等。
2一、卡方检验的基本思想首先介绍一个抽样分布:卡方分布⏹属连续型分布⏹可加性是其基本性质⏹唯一参数,即自由度(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(Chi-square distribution),记为χ()12或χ21(). 图形:02468100.00.10.20.32220.05(1)0.05/22220.01(1)0.01/23.84(1.96)6.63(2.5758)ZZχχ======(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为 ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.● 图形: ●自由度ν很大时,2()νχ近似地服从正态分布.有2()2(),22Z ννχνχννν-=服从均数为,方差为的正态分布0.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3×ÔÓɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(Chi-square distribution )性质:若χνχν2122(),()互相独立, 则χνχν2122()()+服从χ2分布, 自由度=+νν12 χνχν2122()()-服从χ2分布, 自由度=-νν12称该分布具有可加性。
卡方检验的基本思想组别有效无效合计有效率(%)试验组99 5 10495.20 (p 1)对照组7521 9678.13 (p 2)合计1742620087.00 (p c )表7-1 两组降低颅内压有效率的比较(P112)实际频数A (actual frequency)理论频数T (theoretical frequency)nn n column row T C R =⨯=总例数合计列合计行)()(RC四格表(fourfold table)它反映了理论数与实际数的吻合情况,该统计量近似地服从自由度为ν的卡方分布。
)1)(1(,)(22--=-=∑C R TT A νχ2222(9990.48)(513.52)(7583.52)(2112.48)290.4813.5283.5212.4812.86(21)(21)1v χ----=+++==--=查附表8,P7150.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3×ÔÓɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(Chi-Square distribution )χ2检验的基本公式22(),(1)(1)A T R C T χν-==--∑上述检验统计量由K.Pearson 提出,因此许多统计软件上常称这种检验为Pearson’s Chi -square test ,下面将要介绍的其他卡方检验都是在此基础上发展起来的。
二、四格表资料专用公式为了省去计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a 、b 、c 、d )计算卡方值的公式:2222222()()()()()()()()()()()()(()()()()())1;A T Ta b a c a b b d c d b d a b d a b c d a b c d a b c d a b a c a b b d c d b d a b c d a b c d a b c ad bc n a b c d a c d db χχν-=++++++⎡⎤⎡⎤⎡⎤---⎢⎥⎢⎥⎢⎥+++++++++⎣⎦⎣⎦⎣⎦=++++++++++++++++++=-⋅++=++∑ 基本公式:(四格表检验专用公式)上面的例子20.005,1220.05,1220.05,12200(9921575)212.86 , 110496174267.88;0.0053.84;0.053.84; 0.05P P P υχχχχχχ⨯⨯-⨯===⨯⨯⨯=<≥=≤<=>如果如果查附表8,P715三、连续性校正公式χ2分布是一连续型分布,而四格表资料属离散型资料,对其进行校正称为连续性校正(correction for continuity),亦称Yates 校正(Yates'correction )。
校正公式:22(0.5)c A T Tχ--=∑))()()(()2/(22d b c a d c b a n n bc ad c ++++--=χ一般认为:四格表在n>40时出现有任一格1 ≤T <5时,需要校正。
例子2(468618782)782 3.14 , 152266414c υχ⨯-⨯-⨯===⨯⨯⨯因为有一格1<T <5,且n >40时,所以应用连续性校正χ2检验。
例7-2 P114四、精确概率法(Fisher ’s exact probability)在无效假设成立的前提下且周边合计固定时,产生任意一个四格表(i)的概率P i 服从于超几何分布,其计算式为:()()()()i !!!!P !!!!!a b c d a c b d a b c d n ++++=原理:P 值为在无效假设成立的前提下,得到现有样本四格表以及更极端情况下的四格表的概率。
四格表资料分析小结(重要)⏹Fisher’s exact probability法均适用⏹卡方检验是一种近似检验(1)当n≥40,T>5时,可用。
然而当P值接近0.05时最好用Fisher’s exact probability法;(2) 当n≥40,有任一格1≤T<5时,可用Yates校正公式;(3) 当n<40或有T<1时,用Fisher’s exact probability。
7.2 配对四格表资料的χ2检验若a (甲+乙+)、b (甲+乙-)、c (甲-乙+)、d (甲-乙-)。
将a 、b 、c 、d 四种情况的对子数填入四格表配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理;(3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子,研究是否存在某种病因或危险因素。
P114例7-3观察的结果只有阳性、阴性两种可能,清点成对资料时发现则存在四种情况。
⏹(1)两种方法都出现阳性(共有11例);⏹(2)免疫荧光法阳性而乳胶凝集法却是阴性(共有12例);⏹(3)免疫荧光法阴性而乳胶凝集法却是阳性(共有2例);⏹(4)两种检测方法均为阴性结果(共有33例)。
上述几种情况整理成配对四格表(表7-3)配对四格表资料的χ2检验(McNemar's test ) 1,)1(2402=+--=<+νχc b c b c b 时,需作连续性校正, 1,)(2240c =+-=≥+νχcb c b b 时,当H 0:b ,c 来自同一个实验总体(B=C );H 1:b ,c 来自不同的实验总体();α=0.05。
B C ≠注:B=C=(b+c)/2补充:配对设计R×R表⏹配对四格表实为配对2×2表⏹实际工作中分类可能是多个(R个)McNemar 检验的推广()2211=(1,2,...,)2Ri i i i i iin m R i R R n m A χ=--=+-∑1R ν=-例子某研究所欲比较X 线与CT 对强直性脊柱炎(AS )骶髂关节病变的诊断价值,分析临床诊断为AS 的患者136例,对272个骶髂关节分别拍摄X 线平片与CT 扫描,结果见下。
问两种方法诊断骶髂关节病变的分级有无差别?231.5864130.005P χν==-=<7.4行×列表资料的检验χ2专用公式)1(22-=∑CR n n An χ1、多个样本率的比较2、样本构成比的比较3、双向无序分类资料的关联性检验自由度ν = (R -1)(C -1)多个样本率或两个构成比比较的 2检验表7-8 三种疗法有效率的比较疗法有效无效合计有效率(%)物理疗法199720696.60药物治疗1641818290.11外用膏药1182614481.94合计4815153290.41H0:π1 =π2 =π3 ,即三种疗法治疗周围性面神经麻痹的总体有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等α=.0052222199726532(1)206481206511445121.04χ=+++-⨯⨯⨯= 2)12)(13(=--=ν查χ2界值表,得p <0.005,按α=0.05水准,拒绝H 0,接受H 1,三种疗法治疗周围性面神经麻痹的有效率有差别。
双向无序分类资料的关联性检验表7-10 某地5801人的血型ABO血型MN血型合计M N MNO4314909021823A3884108001598B4955879502032AB137********合计1451166626845801问题:(1)两分类变量(行、列变量)有无关联?(2)关联程度如何?分析步骤:H 0:两种血型系统间无关联(独立性检验)H 1:两种血型系统间有关联05.0=α2222431490325801(1)18231451182316663482684χ=+++-⨯⨯⨯ 6)13)(14(=--=ν213.16=结论:两种血型系统间虽然有关联性(有统计学意义),但列联系数数值较小,仍可认为关系不太密切。