第十一章 卡方检验资料
- 格式:ppt
- 大小:439.00 KB
- 文档页数:8
第十一章2χ检验2χ检验(chi-square test)是英国统计学家K. Pearson于1900年提出的,以2χ分布(chi-square distribution)和拟合优度检验(goodness-of-fit test)为理论依据,是一种应用范围很广的统计方法。
本章主要介绍率或构成比比较的2χ检验,频数分布的拟合优度2χ检验,线χ检验,以及四格表的Fisher确切概率法。
性趋势2第一节2χ检验的基本思想2χ检验是在2χ分布的基础上,利用样本信息考察样本频数分布与假设成立条件下的理论频数分布之间差异的假设检验方法。
下面以例11.1为例,说明2χ检验的基本思想。
例11.1 某研究者欲比较血塞通注射液和银杏达莫注射液治疗急性脑梗死的效果,将240例急性脑梗死患者随机分为两组,一组给予血塞通注射液治疗,另一组给予银杏达莫注射液治疗,一个疗程后观察结果,见表11.1。
问两种针剂治疗急性脑梗死的有效率是否有差别?表11.1 血塞通和银杏达莫治疗急性脑梗死的疗效血塞通114 6 120 95.00银杏达莫104 16 120 86.67合计218 22 240 90.83表11.1中,114、6、104、16这4个数据是分组变量药物(一般作为行变量)与效应指标疗效(一般作为列变量)交叉分组后,基于样本观察到的发生频数,称为实际频数(actual frequency),用符号A表示。
行合计、列合计、总合计及有效率是根据这4个基本数据计算而来。
该类型资料称为22⨯列联表资料,亦称四格表(fourfold table)资料。
血塞通组的有效率(95.00%)和银杏达莫组的有效率(86.67%)仅是样本观察的结果,由于存在抽样误差,需进行假设检验,才能得到关于两种针剂治疗急性脑梗死的总体有效率是否有差别的结论。
当两样本含量均比较大时,可以采用第十章介绍的两样本率比较的Z检验,还可采用本章介绍的2χ检验。
一、对总体建立假设例11.1的无效假设为012:H ππ=,即两种针剂治疗急性脑梗死的有效率相同。
卡方检验什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的基本原理卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
卡方值的计算与意义χ2值表示观察值与理论值之问的偏离程度。
计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。
因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。
考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为:其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。
卡方检验(计数资料)四格表资料的卡方检验四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1. 专用公式:若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=(ad-bc)2*n/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)(列数-1)2. 应用条件:要求样本含量应大于40且每个格子中的理论频数不应小于5。
当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。
行X列表资料的卡方检验行X列表资料的卡方检验用于多个率或多个构成比的比较。
1. 专用公式:r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]2. 应用条件:要求每个格子中的理论频数T均大于5或1<t<1或1<t<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行x列表资料卡方检验的应用条件。
而多个率的两两比较可采用行x 列表分割的办法。
列联表资料的卡方检验:同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1. R*C 列联表的卡方检验:R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行X列表资料的卡方检验相同。
2. 2*2列联表的卡方检验:2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。
当用一般四格表的卡方检验计算时,卡方值=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d),此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=(|b-c|-1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。