第十二讲 卡方检验
- 格式:ppt
- 大小:189.50 KB
- 文档页数:39
卡方检验的原理和步骤卡方检验(Chi-squared test)是一种用于统计学中的假设检验方法,主要用于检验两个或更多个分类变量之间是否存在相关性。
它的原理和步骤可以概括如下:原理:卡方检验是基于卡方统计量的方法,卡方统计量是通过计算实际观察值与期望理论值之间的差异来判断变量间是否存在相关性。
具体来说,卡方统计量是通过计算每个观察值与对应期望值之间的差异平方的总和来衡量的。
如果差异较小,说明实际观察值与期望值之间较为接近,两个变量间可能不存在相关性;如果差异较大,则说明实际观察值与期望值之间存在较大差异,两个变量间可能存在相关性。
步骤:1.建立假设:在进行卡方检验之前,需要明确两个变量之间的假设。
通常有两种假设:原假设(H0)和备择假设(Ha)。
原假设是指两个变量之间没有相关性,备择假设是指两个变量之间存在相关性。
2.构建列联表:列联表(Contingency table)是用来统计两个或多个分类变量的交叉频次分布的表格。
在卡方检验中,我们需要根据实际观察数据构建列联表。
3.计算期望值:在卡方检验中,我们需要计算期望理论值。
期望理论值是指如果两个变量之间不存在相关性,那么我们可以根据边际总计与变量间的分布来计算出的预期频次。
一般情况下,期望理论值可以通过边际总计和整体频率来计算。
4.计算卡方统计量:在有了观察值和期望理论值后,我们可以通过计算卡方统计量来判断两个变量之间是否存在相关性。
卡方统计量的计算公式为:χ2=∑((O-E)^2/E),其中χ2为卡方统计量,O为观察值,E为期望理论值。
计算出卡方统计量后,可以根据自由度去查找对应的临界值。
5.决策:根据卡方统计量的计算结果,我们可以通过比较卡方统计量与对应自由度的临界值来进行决策。
如果卡方统计量小于临界值,则接受原假设,即认为两个变量之间没有相关性;如果卡方统计量大于临界值,则拒绝原假设,即认为两个变量之间存在相关性。
6.结论:最后,根据决策结果,我们可以得出结论,即两个变量之间是否存在相关性。
第一页PPT:同学们好,我们今天来一起学习卡方检验的基本思想。
第二页PPT:我们看一个研究案例,某神经内科医师欲比较A、B两种药物治疗脑血栓病人的疗效,将病情轻重、病程相近且满足实验人选标准的200例脑血管栓塞患者随机分为两组,结果见表1。
问两药治疗近期有效率是否有差别?请同学们思考一个问题,结合已学的知识关于两个率的比较我们会使用什么方法呢,那我们继续带着这个问题进入到我们今天的课程学习。
第三页PPT:这节课需要掌握的理论知识有:1.X2检验的定义、主要用途2.X2分布、X2检验的基本思想(这是重点内容)以及应用完全随机设计的四格表X2检验方法是我们这节课的难点内容。
第四页PPT:离散型概率分布有二项分布和泊松分布基于二项分布的假设检验方法可以做两样本率比较的检验问题,条件是np、n(1-p)均大于5,可以做Z检验进行,也是解决我们的案例问题。
第五页PPT:在医学研究中,进行两组或多组样本的总体率(或构成比)之间的差别是否具有统计学意义,X2检验(chi-square test)是解决此类问题较为常用的统计方法,。
X2检验是英国统计学家K.Pearson提出的一种具有广泛用途的假设检验方法,常用于分类变量资料的统计推断。
第六页PPT:X2检验主要用于:1.推断两个及多个总体率或总体构成比之间有无差别2.两种属性或两个变量之间有无关联性3.频数分布的拟合优度检验4.百分率线性趋势检验第七页PPT:我们来继续看我们的案例,两药有效率的比较问题。
表中我们A 药、B药的有效和无效分别为99、5、75、21,我们可以用a.b.c.d 来表示,表中其余的数据是由abcd这4个数据推算出来,我们习惯将这种资料形式称为四格表。
为什么叫四个表因为它有效的就是四个格子。
a.b.c.d是我们实际观察所得到的频数,我们叫实际频数(actual frequency),用A表示。
根据我们的研究目的,我们要比较两个率是否有差别的问题。
卡 方 检验 Chi-square test 大理学院 巫秀美2012.11.15卡方检验主要内容2 概述--基本思想2×2表卡方检验配对四格表卡方检验R×C表卡方检验Fisher确切概率检验多个样本率的多重比较有序分组资料的线性趋势检验资料类型与统计分析方法Quantitative data <-> numeric variable▪Discrete variable▪Continuous variable▪Analyzed in the form of quantityQualitative data <-> categorical variable▪Ordinal variablediscrete▪Nominal variable▪Analyzed in the form of counts卡方检验概述2 检验之方法原理残差:表示某一个类别观察值和理论值的偏离程度▪设A代表某个类别的观察频数(Actual number),E计算出的期望频数(Expected number)代表基于H,A与E之差称为残差残差有正有负,相加后会彼此抵消,总和仍然为0。
为此将残差平方后求和,以表示样本总的偏离无效假设的程度。
卡方检验概述χ2 检验,其基本的无效假设是:▪H 0:行分类变量与列分类变量无关联 ▪H 1:行分类变量与列分类变量有关联▪α=0.05▪统计量 ,其中A i 是样本资料的计数,T i 是在H 0为真的情况下的理论数(期望值)。
其统计量逼近卡方分布221()ki i Pi i A T T χ=-=∑卡方分布(χ2 distribution)若Z 1, Z 2, Z 3,… , Z ν互相独立,均服从 N (0, 1),则Z 1 2+ Z 2 2+Z 3 2+… + Z ν 2的分布称自由度为ν的χ2分布, 记为χ (ν)2 ,或简记为χ2。
图形:单峰,正偏峰;自由度很大时,近似地服从正态分布。