第九章 x2检验.
- 格式:pps
- 大小:1.42 MB
- 文档页数:65
x2检验本章重点1.熟悉x2检验的基本思想。
2.掌握x2检验在四格表资料、行×列表资料中的应用。
3.掌握配对计数资料的x2检验。
χ2 检验是一种用途广泛的假设检验方法,本章只介绍它在分类变量资料中的应用: χ2 检验的适用范围:1.推断两个或两个以上总体率或构成比之间有无差异;2.配对计数资料差异的显著性。
检验统计量:χ2应用:计数资料第一节 四格表资料的χ2 检验目的:推断两个总体率(构成比)是否有差别要求:两样本的两分类个体数排列成四格表资料一、四格表资料的基本公式x2检验基本思想检验“实际数”和假设“理论数”的差异是否是由于抽样误差引起(两个样本率的差异体现在“实际数”和假设“理论数”的差异中)。
实际数,用四格表表示,称为四格表资料,分别为a 、b 、c 、d ,其他的数据是从这四个实际数推算出来的,称为理论数(表中括号内的数据)。
实际数用A 表示,理论数T 表示。
A :表示实际频数,即实际观察到的例数。
T :理论频数,即如果假设检验成立,应该观察到的例数。
TRC :第R 行C 列的理论频数nR :相应的行合计,nC :相应的列合计n 为总例数检验统计量χ2 值反映了实际频数与理论频数的吻合程度。
Χ2检验是检验实际数与理论数差异程度的指标。
A 与T 的值越接近, χ2越小,相反,实际数与理论数之间的差数越大, χ2值也就越大。
所得χ2值如果小于界值的χ2,P>0.05,即接受了原假设,可认为两组人群的治疗效果差异无统计学意义。
反之,如果所得χ2值大于查表所得χ2值,则P<0.05,即差异有统计学意义。
自由度计算公式Χ2值的大小,除了取决于A-T 的差值外,还取决于格子数的多少,格子数越多, χ2值越大,只有排除了这种影响, χ2值才能正确反映A 与T 的吻合程度,因此,在查χ2表时,要考虑自由度的大小。
22(), ()(1)A T Tχν-=∑=-行数-1列数 R C RC n n T n=计算公式:V=(行-1)(列-1) 四格表资料由2行2列组成,V=(2-1)(2-1)=1自由度即自由变动的范围,由于四格表周边的合计数已经固定,因此只要算出任一格的理论数,其余三个格子的理论数就没有自由变动的余地了,四格表的自由度V=1。
X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。
一、两个率的比较(一)X2检验的基本公式下页末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5,其中对照组未用抗凝药。
两组病人的病死率不同,抗凝药组为25.33%,对照组为40.8%。
造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。
为了区别这两种情况,应当进行X2检验。
其基本步骤如下:1.首先将资料写成四格表形式,如表3.6。
将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一格,这些数字称为实际频数,符号为A,即实际观察得来的数字。
2.建立检验假设为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为35%(即70/200),记为H0:π1=π2。
即不论用或不用抗凝药,病死率都是35%,所以亦可以换一种说法:病死率与疗法无关。
上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。
当H0被拒绝时,就意味着接受其对立假设即备择假设H1。
此例备择假设为两总体病死率不相等,记为H1:π1≠π2因为我们观察的是随机现象,所以无论是接受或拒绝H0都冒有一定风险,即存在着错判的可能性。
一般要求,当错误地被拒绝的概率α不超过一定的数值,如5%(或0.05),此值称为检验水准,记为α=0.05。
3.计算理论频数根据“检验假设”推算出来的频数称理论频数,符号为T。
计算方法如下:假设两总体病死率相同,都是35.0%,那么抗凝血组治疗75人,其死亡的理论频数应为75×35.0%=26.25人,而生存的理论频数为75-26.25=48.75人。
用同样方法可求出对照组的死亡与生存的理论频数,前者为43.75人。
后者为81.25人。
然后,把这些理论频数填入相应的实际频数格内,见表3.6括号内数字。
计算理论频数也可用下式(3.4)TRC=nRnC/N (3.4)式中,TRC为R行与C列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N为总例数。
《医学统计学》部分习题参考答案颜虹主编第二版第三章统计描述一、最佳选择题1.C2.A3.D4.B5.E6.E7.C8.D9.C10.C11.A12.D三、计算分析题P53-1素食前X1素食后X2X1-X2平均187.75平均168.25平均19.5中位数179中位数165中位数19标准差33.18885标准差26.79593标准差16.80838方差1101.5方差718.0217方差282.5217 4)第四章常见的概率分布一、最佳选择题1.D2.D3.B4.D5.B6.E7.E8.C9.D10.C11.C三、计算分析题P73-41120124.4 1.15793.8u -==-2125124.40.1578953.8u -==查标准正态分布表得1()( 1.1579)( 1.16)0.123u Φ=Φ-≅Φ-=2()(0.15795)(0.16)1(0.16)10.43640.5636u Φ=Φ≅Φ=-Φ-=-=21()()0.56360.1230.4406u u Φ-Φ=-=该地身高界于120cm 到125cm 范围内的8岁男童比例为44.06%。
20044.06%89()⨯≈人200名8岁男童中身高界于120~125cm 范围的人数约为89人。
P73-5Poisson 0.99967Binominal 0.9998P73-6解:(1)由题意可知,随机误差变量X 服从正态分布,其中μ=2,σ=4。
要求测量误差的绝对值不超过3的概率,即求P P ≤≤≤(X 3)=(-3X 3),作标准化变化132 1.254u --==-2320.254u -==1()( 1.25)0.1056u Φ=Φ-=2()(0.25)1(0.25)10.40130.5987u Φ=Φ-Φ-=-=21()()0.59870.10560.4931u u Φ-Φ=-=即测量误差的绝对值不超过3的概率为0.4931。
(2)根据题意,以Y 表示测量误差的绝对值不超过3,则Y 服从二项分布,其中n=3,0.4931π=,根据题意,至少有1次误差的绝对值不超过3的概率为003033(1)1(0)1(1)10.50690.86975P Y P Y C ππ-≥=-==--=-=P73-7解:根据医学知识可知健康成人血清总胆固醇值过高或过低为异常,故应制定双侧医学参考值范围因为已经假定血清总胆固醇值服从正态分布,故可用正态分布法求该指标的95%医学参考值范围,即 1.96μσ±。
医学统计学x2检验公式1. 首先,让我们来了解什么是医学统计学中的x2检验。
x2检验是一种用于比较两个或多个类别变量之间差异的统计方法。
它的目的是确定观察到的频数与期望的频数之间的差异是否显著。
2. 在x2检验中,我们需要计算一个统计值x2(chi-square),它表示观察到的频数与期望的频数之间的偏离程度。
x2值越大,说明观察到的频数与期望的频数之间的差异越大。
3. x2检验的公式如下:x2 = Σ((观察值-期望值)^2 / 期望值)其中,Σ表示对所有类别进行求和,观察值是指实际观察到的频数,期望值是指根据某种假设或模型计算得到的频数。
4. 为了更好地理解x2检验的公式,让我们通过一个简单的例子来说明。
假设我们研究了两种不同的治疗方法对某种疾病的疗效,观察了200名患者的治疗结果,得到以下数据:治疗方法疾病痊愈未痊愈方法A 120 30方法B 50 05. 在这个例子中,我们对两种治疗方法的疗效进行比较。
我们假设两种方法的疗效相同,即期望的频数是根据总样本数和各个类别的比例计算得到的。
6. 首先,我们需要计算每个类别的期望频数。
对于方法A的疾病痊愈类别,期望频数计算公式为:(方法A总样本数/总样本数)* 总痊愈人数= (150/200)* 170 = 127.5。
7. 同样地,对于未痊愈类别,期望频数计算公式为:(方法A总样本数/总样本数)* 总未痊愈人数= (150/200)* 30 = 22.5。
8. 对于方法B的疾病痊愈类别,期望频数计算公式为:(方法B总样本数/总样本数)* 总痊愈人数= (50/200)* 170 = 42.5。
9. 同样地,对于未痊愈类别,期望频数计算公式为:(方法B总样本数/总样本数)* 总未痊愈人数= (50/200)* 30 = 7.5。
10. 现在,我们可以使用x2检验的公式来计算统计值x2了。
根据上述公式,我们将计算每个类别的(观察值-期望值)^2 / 期望值,并对所有类别求和。
医学统计学第九章分类变量资料统计推断第九章χ2检验主要内容:一、四格表资料的χ2检验二、配对四格表资料的χ2检验三、R×C列联表资料的χ2检验第一节率的标准误与总体率的区间估计一、率的抽样误差与标准误在抽样调查中,由抽样造成的样本率与总体率之差,称为率的抽样误差,其大小可用率的标准误描述。
联想:抽样误差和均数的标准误x /x S复习率的标准误的计算公式:(1)p nππσ-=σp 为总体率的标准误,π为总体率, n 为样本含量。
复习(1)p p p S n-= 当π未知时,可用样本率p 作为估计值,计算出样本率的标准误S p ,作为σp 估计值.例1 为了解某地人群结核菌素试验阳性率情况,某医疗机构在该地人群中随机检测了1773人,结核菌素试验阳性有682人,阳性率为38.47%,试计算其标准误。
%16.10116.017733847.03847.0==)-(1=p s 分析:π未知,用p 来估计,s p 为δp 的估计,p=38.47%,1-p=61.53%二、总体率的区间估计①点估计:π=p②区间估计:按一定的概率(1-α),以p来估计π所在的范围。
一般α=0.05或0.01。
1、查表法因其计算比较复杂,统计学家已经编制了总体率可信区间估计用表,可根据样本含量n和阳性数x查阅统计学专著中的附表。
当n较小,如n 50,特别是p接近于0或1时,按二项分布原理估计总体率的可信区间。
例2 某市抽查了20名献血员乙型肝炎表面抗原(HBsAg)携带情况,阳性者4人,求该市献血员HBsAg阳性率的95%可信区间。
分析:n=20,实际发生数x=4,查表得上行:6~44(95%),下行4~51(99%)*如果n=20,实际发生的12(x大于n/2),如何查?先找n=20,1-x=8,查表得a~b,然后算得(100-b)~(100-a)2、正态近似法条件:n 足够大,p 和(1-p)均不太小,且np≥5和n(1-p)≥5时,p 近似服从正态分布。
公式:α=0.05 u 0.05=1.96α=0.01 u 0.01=2.58p 为样本率,S p 为样本率的标准误, u α是双侧概率为α的u 介值p p u S α±复习总体率的95%可信区间:p±1.96sp总体率的99%可信区间:p±2.58Sp置信区间的意义理论上,此范围内包括总体率的可能性为95%(99%)。
在100次抽样估计中,95(99)次正确,5(1)次错误。
例3 某地随机抽样368名5岁儿童,检查龋齿患病率为62.50%。
估计该地儿童龋齿患病率的95%的置信区间。
0252.0368)6250.01(6250.0)1(=-⨯=-=n p p s p p ±1.96s p =0.6250±1.96×0.0252 =0.5756~0.6744该地儿童龋齿患病率的95%的置信区间为57.56%~67.44%。
复习第二节率的u检验应用条件:当n足够大,p和(1-p)均不太小,且np≥5和n(1-p)≥5时,p近似服从正态分布。
一、样本率与总体率的比较p 为样本率 π0为总体率σp 为根据总体率计算的标准误。
0000||||(1)pp p u nππσππ--==-例4 已知某地一般人群高血压患病率为13.26%,某医师在农村随机抽取460人进行观察,有43人确诊为高血压。
问该人群患病率是否低一般人群?分析:本例,n =,460,属于大样本,同时样本率为p ,np 和n (1-p )均大于5,可采用u 检验。
①假设 H 0:π=π0(该人群患病率与一般人群相同) H 1: π<π0(该人群患病率小于一般人群)α=0.05 (单侧检验) ②计算u 值 n =460 , X =43 p =43/460=0.0935()4727.2460/1326.011326.01326.00935.0)1(||=-⨯-=--=n p u πππ③确定P值,判断结果u=2.4727>1.64,P<0.05,按 =0.05的水准拒绝H0,接受H1。
可认为该人群患病率低一般人群。
例5 一般情况下,直肠癌围术期并发症发生率为30%,现某医院手术治疗了385例直肠癌患者,围术期出现并发症有100例,并发症发生率为26%,问该院直肠癌患者围术期并发症发生率与一般情况比较有无统计学差异。
分析:本例,n=385,属于大样本,同时样本率为26%,np和n(1-p)均大于5,可采用u检验。
1. 建立检验假设H 0: π=π0,H 1: π≠π0,α=0.052. 计算u 值3. 确定P 值,判断结果本题u =1.713<1.96,P >0.05,按α=0.05的水准不拒绝H 0,差异没有统计学意义,故尚不能认为该院直肠癌患者围术期并发症发生率与一般情况不同。
713.1385)3.01(3.026.03.0=--=u二、两样本率比较应用条件:n1与n2均较大p1、(1-p1)、p2、(1-p2)均不太小,n1p1、n1(1-p1)、n2p2、n2(1-p2)均≥5计算公式:1212p p p p u s --=121212*********p p X X X X s n n n n n n -⎛⎫⎛⎫++=-+ ⎪⎪++⎝⎭⎝⎭两样本率之差的标准误 X 1、X 2两样本的阳性数21p p s -例6为研究人群中HBV感染的性别差异,某医师对115例受检者进行分析,其中男性受检者62例,感染12例;女性受检者53例,感染3例。
问男女HBV感染率是否有性别差异?①假设 H0:π1=π2H 1: π1≠π2α=0.05②计算u 值n 1=62 X 1=12 p 1=12/62=0.1935n 2=53 X 2=3 p 2=3/53=0.05660630.053162153623121536231221=⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛++-++=-p p s 173.20630.00566.01935.0=-=u③确定P值,判断结果, u=2.173>1.96,P<0.05,按 =0.05的水准拒绝H0。
可认为HBV感染率有性别差异,男高于女。
接受H1第三节χ2检验(chi-square test)χ2检验(卡方检验)可用于两个及两个以上样本率(构成比)的比较、两属性变量间的关联分析等。
一、四格表资料的χ2检验四格表资料表分组阳性数阴性数合计甲 a b a+b乙 c d c+d合计 a+c b+d a+b+c+d=n(一)χ2检验的基本思想例7两组人群流感发病率比较分组发病人数未发病人数合计发病率(%) 服药组 40 190 230 17.39对照组 50 130 180 27.78合计 90 320 410 21.95(一)χ2检验的基本思想分组 发病人数 未发病人数 合计 发病率(%) 服药组 40(50.49) 190(179.51) 230 21.95 对照组 50(39.51) 130(140.49 ) 180 21.95 合计 90 320 410 21.95 两组人群流感发病率比较T 22=180-39.51=140.49T 11=230*90/410=50.49 T 12=230-50.49=179.51 T 21=180*90/410=39.51 根据H 0 :π1=π2=π0 =0.2195理论频数的计算公式:nn n T c R RC R 为行数,C 列数n R 行合计频数,n C 列合计频数分组 发病人数 未发病人数 合计 发病率(%)服药组 (50.49) (179.51) 230 21.95对照组 (39.51) (140.49) 180 21.95合计 90 320 410 21.95两组人群流感发病率比较40 190 50 130 T T A x 22)(-∑=基本公式 A 为实际频数,T 为理论频数基本公式的χ2值,反映实际数与理论数相差的情况。
若H0成立,则实际数与理论数相差不应太大,较大χ2值出现的概率较小。
χ2值越大,越有理由推翻H0 。
χ2大小与格子数有关,格子数越多,v越大,χ2越大。
若χ2≥χ2 0.05,v(查χ2界值表P205),则可按α=0.05的检验水准拒绝H0。
χ2值、P值与统计结论的关系(α=0.05)χ2值P值结论、统计学意义<χ20.05,v>0.05 不拒绝H0 ,差异无显著性≥χ20.05,v≤0.05 拒绝H0,接受H1 ,差异有显著性≥χ20.01,v≤0.01 拒绝H0,接受H1 ,差异有高度显著性(二)χ2检验的步骤1、基本公式应用条件:n≥40,且每格T≥5。
例7①建立假设:H0:π1=π2H1: π1≠π2α=0.05②计算χ2值36.649.140)49.140130(51.39)51.3950(51.179)51.179190(49.50)49.5040()(222222=-+-+-+-=-∑=TT A x V =(R -1)(C -1) =(2-1)(2-1) =1③确定P 值,判断结果查χ2界值表:χ20.05,1=3.84χ20.01,1=6.636.63=χ20.01,1>6.36=χ2>3.84=χ20.05,10.01<P <0.05,按 =0.05的水准拒绝H 0,接受H 1。
故可认为两组发病率的差别有统计学意义,服药组较低。
2、专用公式分组 阳性数 阴性数 合计 甲 a b a +b 乙 c d c +d合计 a +c b +d a +b +c +d =n四格表资料表))()()(()(22d b c a d c b a n bc ad x ++++-=2、专用公式(例7)))()()(()(22d b c a d c b a n bc ad x ++++-=36.632090180230410)5019013040(2=⨯⨯⨯⨯⨯-⨯=结论同前。
(略)3、四格表资料χ2检验的校正应用条件:n≥40,有1≤T <5))()()(()2/|(|)5.0|(|2222d b c a d c b a n n bc ad x TT A x ++++--=--∑=例8某研究所研制出甲乙两种隔离服,用于预防传染病。
在某医院随机抽取11名医生穿甲隔离服,30名医生穿乙隔离服。
其感染情况如表。
问穿两种隔离服的医生感染率是否有差别?表8 穿甲乙两种隔离服医生某种传染病感染率隔离服感染未感染合计感染率(%)甲 1 10 11 9.09乙 13 17 30 43.33合计 14 27 41 34.15①假设H0:π1=π2H1: π1≠π2α=0.05②计算χ2值(最小)T11=11×14/41=3.76(<5)用四格表资料χ2检验的校正法计算821.22714301141)2/41|1310171(|))()()(()2/|(|222=⨯⨯⨯⨯-⨯-⨯=++++--=d b c a d c b a n n bc ad x V =(R -1)(C -1) =(2-1)(2-1) =1③确定P值,判断结果查χ2界值表,χ20.05,1=3.84χ20.01,1=6.63χ2<χ20.05,1。