第7章卡方检验
- 格式:pps
- 大小:1.55 MB
- 文档页数:47
第七章1下列不能用X2检验的是。
A. 成组设计的两样本频率的比较B. 配对设计的两样本频率的比较C. 多个样本频率的比较D. 频率发布的比较E. 等级资料实验效应的比较2.通常分析四格表在情况下需用Fisher精确概率计算法。
A.T<5B.T<1或n<40C.T<1且n<40D.1≤T<5且n<40E.T<5或n<403.三个样本频率比较,X2>X2,可以认为。
0.01(2)A.各总体频率不等或不全相等 B.各总体频率均不相等 C.各样本频率均不相等 D.各样本频率不等或不全相等 E.各总体频率相等4.当四格表的周边合计数不变时,如果某格的实际数有变化,则其理论频数。
A.增大 B.减小 C.不变 D.不确定 E.随该格实际频数的增减而增减5.对于总合计数 n为500的5个样本率的资料做X2检验,其自由度为。
A.499 B.496 C.1 D.4 E.9 6.从甲、乙两篇论文中,查到同类研究的两个率比较的四格表资料以及χ2检验结果,甲论文χ2>χ20.01(1),乙论文χ2>χ20.05(1)。
若甲、乙两论文的样本量相同,则可认为。
A.两论文结果有矛盾 B.两论文结果基本一致 C.甲论文结果更可信D.甲论文结果不可信 E.甲论文说明两总体的差别大7.用两种方法检查已确诊的乳腺癌患者120名,甲法检出率为60%,乙法检出率为50%,甲乙两法的一致检出率为35%,则整理成四格表后表中的d(即两法均未检出者)为。
A.30 B.18 C.24 D.48 E.428.用甲乙两种方法检查已确诊的鼻咽癌患者100名,甲法阳性者80名,乙法阳性者60名,两法均为阳性者50名,欲检验两法结果有无差别,宜选用。
A .普通四格表χ2检验B .配对四格表χ2检验C . u 检验D .t 检验E .秩和检验9. 两组二分类资料发生率比较,样本总例数100,则2χ检验自由度为 。
A. 1B. 4C. 95D. 99E. 10010.设两定性因素为A 和B ,每因素的两水平用+和-表示,则配对四格表的因素和水平搭配为:A .A+,A -,B+,B - B .A+A -,A -A+,B+B -,B -B+C .A+A+,A -A -,B+B+,B -B -D .A+B+,A+B -,A -B+,A -B -E .以上都不是11.三行四列表作2χ检验当有4个格子的1<T<5时, 。
第七章 次数资料分析---χ2检验第一节 χ2检验的原理与方法1.χ2分布χ2分布是从正态分布派生出来的一种分布。
⏹[定义]设X 1,X 2,X 3,…,X n 相互独立同分布,且X i ~N(0,1),则随机变量χ2= x i 2n i=1的分布称为具有n 个自由度的χ2分布。
记作: χ2 = x i 2n i=1 ~χ2(n ) 即:n 个标准正态分布的随机变量的平方和,服从自由度为n 的χ2分布。
⏹[推论]若随机变量X 1,X 2,X 3,…,X n 相互独立,且X i ~N(μ, σ2),则χ2= (x i −μ)2σ2n i=1~χ2(n)⏹[自由度]在计算χ2的过程中,如果有一个统计量代替了其中的一个参数,则其自由度为(n-1);如果有两个统计量代替了其中的两个参数,则其自由度为(n-2)。
χ2= ~χ2(n-1)22212)1()(σσS n x x ni i -=-∑=2.χ2分布的性质⏹χ2分布的“可加性”—在进行χ2统计分析时,可将相邻的数据合并在一起统计⏹χ2分布为非对称的连续性分布,分布区间为[0,+∞]⏹χ2分布曲线因自由度不同而异不同自由度的概率分布密度曲线 2χ 3.χ2检验的基本原理与方法χ2检验是与计数数据相关联的,因而用于计数资料或间断性数据的检验。
⏹[基本原理] 用于实际观测值(O )与理论推算值(E )之间的偏离程度来计算χ2值的大小,根据χ2的概率来检验观测值与理论值的差异程度和符合程度的大小。
⏹[检验方法]按照假设检验的一般步骤,对计数资料进行右尾检验。
如果有k 组资料,则检验统计量的值按下式计算:χ2=(A i −T i )2T iki=1【k:类别;A i :实际观测值;T i :理论推算值】⏹[连续性矫正] 当自由度df ≧2时,一般不作连续性矫正。
但在自由度df =1时,需进行连续性矫正,统计量计算公式:x c2= (∣A i −T i ∣−0.5)2T iki=1第二节 适合性检验1.适合性检验的定义所谓适合性检验,就是检验某一试验结果类别频数的划分是否符合某一理论比例。
《统计分析与SPSS的应用(第五版)》课后练习答案第一章练习题答案1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案)英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。
●数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据;●结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。
3、SPSS的数据集:●SPSS运行时可同时打开多个数据编辑器窗口。
每个数据编辑器窗口分别显示不同的数据集合(简称数据集)。
●活动数据集:其中只有一个数据集为当前数据集。
SPSS只对某时刻的当前数据集中的数据进行分析。
4、SPSS的三种基本运行方式:●完全窗口菜单方式、程序运行方式、混合运行方式。
●完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。
●程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。
该方式适用于大规模的统计分析工作。
●混合运行方式:是前两者的综合。
5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名.spv是结果查看器窗口中的SPSS分析结果文件的扩展名.sps是语法窗口中的SPSS程序6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。
7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。
题目:四个表资料的卡方检验,其校正条件是()选项A:总例数大于40选项B:实际数为0选项C:有一个理论上小于5大于1,且n40选项D:有实际数小于1答案:有一个理论上小于5大于1,且n40题目:四个表资料的卡方检验无需校正,应满足的条件是()选项A:总例数大于40,且理论数均大于或等于5选项B:理论数大于5选项C:实际数均大于1选项D:总例数大于40答案:总例数大于40,且理论数均大于或等于5题目:四格表中的一个实际频数为1时,下面哪项成立()选项A:作χ2检验不必校正选项B:就不能作χ2检验选项C:还不能确定是否可做χ2检验选项D:必须用校正的χ2检验答案:还不能确定是否可做χ2检验题目:作两样本率的假设检验,其检验假设是?()选项A:P1=P2选项B:/uploads/01337/images/unit5/zsd_11.png=http://openmedia/uploads/01337/images/unit5/zsd_11.png0选项C:π1=π2选项D:/uploads/01337/images/unit7/x.png1=http://openmedia.ouc /uploads/01337/images/unit7/x.png2答案:π1=π2题目:两个四格表一个χ2χ20.01,1,另一个χ2χ20.05,1,可认为以下哪项正确?()选项A:后者两个百分数相差较大选项B:前者两个百分数相差较大选项C:前者更有理由认为两总体率不同选项D:后者者更有理由认为两总体率不同答案:前者更有理由认为两总体率不同题目:若n≤40,或1T≤5时,需用确切概率计算法选项A:对选项B:错答案:错。
卡方检验(Chi-square test)stat9@检验(Chi-square test)是现代统计学的创始人K. Pearson 提出的一种具有广泛用途的统计方法。
该检验可用于两个及多个率(或者构成比)之间的比较,分类资料的关联度分析,拟合优度检验等。
2一、卡方检验的基本思想首先介绍一个抽样分布:卡方分布⏹属连续型分布⏹可加性是其基本性质⏹唯一参数,即自由度(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(Chi-square distribution),记为χ()12或χ21(). 图形:02468100.00.10.20.32220.05(1)0.05/22220.01(1)0.01/23.84(1.96)6.63(2.5758)ZZχχ======(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为 ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.● 图形: ●自由度ν很大时,2()νχ近似地服从正态分布.有2()2(),22Z ννχνχννν-=服从均数为,方差为的正态分布0.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3×ÔÓɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(Chi-square distribution )性质:若χνχν2122(),()互相独立, 则χνχν2122()()+服从χ2分布, 自由度=+νν12 χνχν2122()()-服从χ2分布, 自由度=-νν12称该分布具有可加性。
卡方检验的基本思想组别有效无效合计有效率(%)试验组99 5 10495.20 (p 1)对照组7521 9678.13 (p 2)合计1742620087.00 (p c )表7-1 两组降低颅内压有效率的比较(P112)实际频数A (actual frequency)理论频数T (theoretical frequency)nn n column row T C R =⨯=总例数合计列合计行)()(RC四格表(fourfold table)它反映了理论数与实际数的吻合情况,该统计量近似地服从自由度为ν的卡方分布。
)1)(1(,)(22--=-=∑C R TT A νχ2222(9990.48)(513.52)(7583.52)(2112.48)290.4813.5283.5212.4812.86(21)(21)1v χ----=+++==--=查附表8,P7150.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3×ÔÓɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(Chi-Square distribution )χ2检验的基本公式22(),(1)(1)A T R C T χν-==--∑上述检验统计量由K.Pearson 提出,因此许多统计软件上常称这种检验为Pearson’s Chi -square test ,下面将要介绍的其他卡方检验都是在此基础上发展起来的。
二、四格表资料专用公式为了省去计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a 、b 、c 、d )计算卡方值的公式:2222222()()()()()()()()()()()()(()()()()())1;A T Ta b a c a b b d c d b d a b d a b c d a b c d a b c d a b a c a b b d c d b d a b c d a b c d a b c ad bc n a b c d a c d db χχν-=++++++⎡⎤⎡⎤⎡⎤---⎢⎥⎢⎥⎢⎥+++++++++⎣⎦⎣⎦⎣⎦=++++++++++++++++++=-⋅++=++∑ 基本公式:(四格表检验专用公式)上面的例子20.005,1220.05,1220.05,12200(9921575)212.86 , 110496174267.88;0.0053.84;0.053.84; 0.05P P P υχχχχχχ⨯⨯-⨯===⨯⨯⨯=<≥=≤<=>如果如果查附表8,P715三、连续性校正公式χ2分布是一连续型分布,而四格表资料属离散型资料,对其进行校正称为连续性校正(correction for continuity),亦称Yates 校正(Yates'correction )。
校正公式:22(0.5)c A T Tχ--=∑))()()(()2/(22d b c a d c b a n n bc ad c ++++--=χ一般认为:四格表在n>40时出现有任一格1 ≤T <5时,需要校正。
例子2(468618782)782 3.14 , 152266414c υχ⨯-⨯-⨯===⨯⨯⨯因为有一格1<T <5,且n >40时,所以应用连续性校正χ2检验。
例7-2 P114四、精确概率法(Fisher ’s exact probability)在无效假设成立的前提下且周边合计固定时,产生任意一个四格表(i)的概率P i 服从于超几何分布,其计算式为:()()()()i !!!!P !!!!!a b c d a c b d a b c d n ++++=原理:P 值为在无效假设成立的前提下,得到现有样本四格表以及更极端情况下的四格表的概率。
四格表资料分析小结(重要)⏹Fisher’s exact probability法均适用⏹卡方检验是一种近似检验(1)当n≥40,T>5时,可用。
然而当P值接近0.05时最好用Fisher’s exact probability法;(2) 当n≥40,有任一格1≤T<5时,可用Yates校正公式;(3) 当n<40或有T<1时,用Fisher’s exact probability。
7.2 配对四格表资料的χ2检验若a (甲+乙+)、b (甲+乙-)、c (甲-乙+)、d (甲-乙-)。
将a 、b 、c 、d 四种情况的对子数填入四格表配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理;(3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子,研究是否存在某种病因或危险因素。
P114例7-3观察的结果只有阳性、阴性两种可能,清点成对资料时发现则存在四种情况。
⏹(1)两种方法都出现阳性(共有11例);⏹(2)免疫荧光法阳性而乳胶凝集法却是阴性(共有12例);⏹(3)免疫荧光法阴性而乳胶凝集法却是阳性(共有2例);⏹(4)两种检测方法均为阴性结果(共有33例)。
上述几种情况整理成配对四格表(表7-3)配对四格表资料的χ2检验(McNemar's test ) 1,)1(2402=+--=<+νχc b c b c b 时,需作连续性校正, 1,)(2240c =+-=≥+νχcb c b b 时,当H 0:b ,c 来自同一个实验总体(B=C );H 1:b ,c 来自不同的实验总体();α=0.05。
B C ≠注:B=C=(b+c)/2补充:配对设计R×R表⏹配对四格表实为配对2×2表⏹实际工作中分类可能是多个(R个)McNemar 检验的推广()2211=(1,2,...,)2Ri i i i i iin m R i R R n m A χ=--=+-∑1R ν=-例子某研究所欲比较X 线与CT 对强直性脊柱炎(AS )骶髂关节病变的诊断价值,分析临床诊断为AS 的患者136例,对272个骶髂关节分别拍摄X 线平片与CT 扫描,结果见下。
问两种方法诊断骶髂关节病变的分级有无差别?231.5864130.005P χν==-=<7.4行×列表资料的检验χ2专用公式)1(22-=∑CR n n An χ1、多个样本率的比较2、样本构成比的比较3、双向无序分类资料的关联性检验自由度ν = (R -1)(C -1)多个样本率或两个构成比比较的 2检验表7-8 三种疗法有效率的比较疗法有效无效合计有效率(%)物理疗法199720696.60药物治疗1641818290.11外用膏药1182614481.94合计4815153290.41H0:π1 =π2 =π3 ,即三种疗法治疗周围性面神经麻痹的总体有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等α=.0052222199726532(1)206481206511445121.04χ=+++-⨯⨯⨯= 2)12)(13(=--=ν查χ2界值表,得p <0.005,按α=0.05水准,拒绝H 0,接受H 1,三种疗法治疗周围性面神经麻痹的有效率有差别。
双向无序分类资料的关联性检验表7-10 某地5801人的血型ABO血型MN血型合计M N MNO4314909021823A3884108001598B4955879502032AB137********合计1451166626845801问题:(1)两分类变量(行、列变量)有无关联?(2)关联程度如何?分析步骤:H 0:两种血型系统间无关联(独立性检验)H 1:两种血型系统间有关联05.0=α2222431490325801(1)18231451182316663482684χ=+++-⨯⨯⨯ 6)13)(14(=--=ν213.16=结论:两种血型系统间虽然有关联性(有统计学意义),但列联系数数值较小,仍可认为关系不太密切。