χ2检验
- 格式:ppt
- 大小:2.05 MB
- 文档页数:129
普通四格表χ2检验的条件(一)普通四格表χ2检验的条件什么是χ2检验?χ2检验是统计学中常用的一种推断方法,用于检验样本频数分布是否符合假设的理论分布。
在实际应用中,常使用χ2检验来检验分类变量的独立性或某一样本的分布是否符合某一特定的理论分布。
普通四格表在χ2检验中,普通四格表(2x2表)是最常见的一种形式。
它由两个二元分类变量构成,每个变量各有两个取值。
用表格的形式可以表示为:取值1 取值2变量1 a b变量2 c d其中,a、b、c、d分别表示四个不同的样本频数。
χ2检验的条件进行χ2检验需要满足以下两个条件:1.样本的观测值应为独立随机变量所谓独立随机变量,就是指样本中的每一个观测值都不受其他观测值的影响,具有随机性。
不满足独立性的样本数据是不适合进行χ2检验的。
2.样本频数应符合要求要进行χ2检验,样本数据不仅需要独立,还需要满足一定的频数条件。
通常要求每个样本频数均不低于5。
如果某些样本频数低于5,需要合并相邻的样本数据,使其频数大于或等于5。
χ2检验是一种常用的统计推断方法,可以用来检验样本分布是否符合理论分布。
在进行χ2检验时,需要满足样本独立随机的条件和样本频数的要求。
对于普通四格表(2x2表),需注意样本频数是否符合要求。
导致χ2检验失效的因素1.样本容量过小当样本容量比较小时,会导致样本频数无法满足χ2检验的要求,从而导致检验结果不可靠。
2.样本数据不独立如果样本数据不是独立随机的,那么进行χ2检验就没有任何意义。
如连续测量的数据,通常采用t检验等方法进行统计分析。
3.样本数据分布不服从正态分布χ2检验在进行前是基于样本符合正态分布的假设的,如果样本数据不服从正态分布,则χ2检验的结果也会失真。
如何避免偏差?1.增加样本容量通常来说,样本容量越大,偏差越小。
在实际应用中,可以通过增加样本容量来提高数据的可靠性,避免因样本容量过小导致的偏差。
2.建立模型检验在样本数据不独立、不符合正态分布的情况下,可以使用其他的检验方法,如logistic回归、多元分析等方法,来建立模型检验数据的假设。
2χ检验法2χ检验法是一种针对总体分布的假设检验。
当总体X 的分布未知时,我们根据一组样本12,,...,nx x x 的值检验关于总体分布的假设:0H :总体X 的分布函数为F(x);(1)若总体X 是离散的,则以上假设相当于0H :总体X 的分布率为()i i P X x p ==; (2)若总体X 是连续的,则以上假设相当于0H :总体X 的概率密度为()f x ;基本思想:将随机实验可能的结果的全体Ω分成k 个互不相容的事件12,,...,,()k i i A A A p A p =。
现重复作同一实验n 次,记事件A i 出现的频率为/i f n ,则当假设H 0为真且n 足够大时,/i f n 与i p 之间应该差异很小。
定理:若n 充分大(n>=50),则当H 0为真时总有2221()(1)ki i i if np k r np χχ=-=--∑,r 为被估计的参数的个数。
结论:对于假设0H (总体X 的分布函数为F(x)),当2221()(1)ki i i if np k r np αχχ=-=--≥∑时,我们认为原假设0H 不成立。
(α称为置信水平,通常取α=0.05)例1.婴儿出生时刻某医院为了研究一天中婴儿出生时刻的分布规律,对2880名婴儿进行了调查,据此分析婴儿出生时解:0H :婴儿出生时刻服从一天内的均匀分布。
记A i 表示婴儿出生时刻落在第i 小时(i=0,1,…,23),则对均匀分布有()1/24i P A =。
利用Excel 很容易计算出221()40.8333ki i i if np np χ=-==∑,在置信水平1-α=0.95下,利用Mathematica计算20.05(23)χ(若查表则更快捷)如下:调入统计函数库 取2(23)χ分布 调入代数函数库解不等式结果为35.1725验证所得结果由于40.8333>35.1725,故假设H 0不成立,即认为婴儿出生时刻不服从均匀分布。