总体分布的卡方拟合检验
- 格式:pdf
- 大小:257.61 KB
- 文档页数:12
卡方检验是一种基于χ2分布的假设检验方法,其应用十分广泛,特别是在离散变量的分析中,χ2分布最早于1875年由F.Helmet提出,他计算出来自正态总体的样本方差分布服从χ2分布,1900年Karl Pearson在做拟合优度研究时也得出χ2分布,并且提出χ2统计量,将其用于假设检验。
【卡方检验的主要用途包括以下几个方面】1.检验某个连续变量的分布是否与某种理论分布相一致。
如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等2.某无序分类变量各属性出现的概率是否等于指定概率,如骰子各面出现的概率是否等于1 \6,硬币正反两面是否等于0.5等3.检验两个无序分类变量之间是否独立,有无关联,如收入与性别是否有关。
4.控制某种分类因素之后,检验两个无序分类变量各属性之间是否独立,如上述控制年龄因素之后,收入与性别是否有关,5.检验两个或多个样本率(总体率)或构成比之间是否存在差别,也称为同质性检验。
6.多个样本(总体)之间的多重比较7.不同的方法作用于同一个变量时,产生的效果是否一致(配对检验)。
如两种治疗方法作用于同一组病人,疗效是否一样在以上用途中,除了第一点是针对连续变量之外,其余都是针对无序分类变量,由此可见,卡方检验大部分是用在分类变量的检验中发挥作用。
================================================ ==【卡方检验基本思想】卡方检验是以渐进χ2分布为基础,它的零假设H0是:观察频数与期望频数没有差别。
通过构造χ2统计量,得出P值,并以此进行检验。
应该来讲,凡是通过构造χ2统计量进行检验的都属于卡方检验,卡方检验是一类检验(希腊字母χ的英文音标就近似读为“卡”),我们在描述这些不同的卡方检验的时候,通常会加上特定名称来加以区分,如Pearson卡方、McNemar配对卡方、似然比卡方等。
由于是pearson最早提出用卡方统计量做假设检验,所以我们平时说的卡方检验,很多时候就是指pearson卡方。
拟合的卡⽅检验实验中⼀个常见的任务是,⼿头有⼀组数据,要拟合⼀条曲线。
然后要检验拟合的优度。
在使⽤卡⽅(χ2)或者约化卡⽅(reduced chi-squares,χ2red )检验时,会遇到⾃由度到底等于⼏的问题。
本⽂先参考[1-2]介绍了测量数据为何服从正态分布,再参考[3]介绍了线性回归的概念和⽅法,最后参考[4]解释了⾃由度的问题。
整篇⽂章不涉及⾼深的数学知识,也没有数学意义上的严格证明,只有直观解释和物理上的推导,是为理⼯科实验数据处理⽽总结的。
测量的物理量的均值设x 1,x 2,⋯,x n 是⼀组独⽴同分布的随机变量且x i ∼N (µ,σ2)。
记¯x =1n ∑i x i以及S 2=1n −1∑i (x i−¯x )2令X =√n (¯x −µ)/S 则有X ∼t n −1,其中t n −1是⾃由度为n −1的t 分布[1],密度函数t n(x )如下,f n (x )=Γn +12Γn 2√n π1+x 2n −n +12当n →∞,有f n (x )→1√2πe −12x 2即当n →∞时,有X ∼N (0,1),或记为¯x∼N (µ,S 2/n ),n →∞如果我们每次测得的物理量的值服从某正态分布,则对这样的⼀组测量结果取均值,视该均值为⼀随机变量,则期望是µ,⽅差是S 2/n ,其中S 2是该组测量结果的样本⽅差。
当测量的物理量的值并不服从正态分布时,我们⼀样可以在n →∞时得到该结果,推导如下:符号同前,但取消x i ∼N (µ,σ2)的约束,⽽仅仅限定独⽴同分布,总体的均值为µ,⽅差为σ2。
记z =∑n i =1x i −nµ√n σ这时中⼼极限定理给出[2]lim其中\Phi(z_0)为标准正态分布N(0,1)的累积分布函数。
换⾔之,当n 很⼤时,随机变量z 趋于标准正态分布N(0,1),即\bar{x}\equiv\frac{1}{n}\sum_{i=1}^nx_i\sim N(\mu,\sigma^2/n), n\to\infin如果在上式中⽤样本⽅差S^2代替总体⽅差\sigma^2,则(8)式回到了(5)式,同时取消了x_i\sim N(0,1)的限制。
卡方检验的这点,你千万不能忽视哦!卡方检验卡方检验有两种用途:1、拟合优度检验( goodness of fit test ):用卡方统计量进行统计学检验,依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量的分布进行分析的目的。
2、拟合优度检验是对一个分类变量的检验,有时我们会遇到两个分类变量的问题(也就是列联表数据,横标目和纵标目各代表一个分类变量) ,看这两个分类变量是否存在联系。
现在,来个题考考大家!双向无序列联表资料什么时候能用卡方检验,什么时候要用精确概率法?传统的统计教材中一般认为:对双向无序的RxC 列联表资料进行卡方检验中,当样本量小,存在单元格的理论频数(又叫期望计数)小于5 ,或这样的单元格数超过总单元格数的20% ,才需要选用精确概率法。
其实,这种说法已经过时了。
John H. McDonald 在Handbook of Biological Statistics (3rd ed.) 一书中对卡方检验的适用条件进行了新的阐述。
完全颠覆了我的以往思路。
现总结归纳如下一、只要样本量小于1000 的列联表资料,都应该使用精确概率法。
因为,1000 以下样本量的精确概率法在Excel 、SAS 、SPSS 等软件中都可以轻松实现二、当样本量比1000 大很多时,即使在大型计算机上的强大软件(例如SAS )做精确概率法的运算都可能存在困难,所以对于样本量大于1000 时,应该使用卡方检验。
如果自由度只有1 ,可以使用Yates 连续性校正(但是对于如此大的样本量,Yates 连续性校正对P 值在准确性上的改进是微不足道。
)三、为了便于操作,McDonald 将其经验法则建立在总样本量的基础上,而不是最小的期望计数;如果一个或多个期望计数是非常小(个位数),即使总样本量大于1000 ,也应该使用精确概率法,只是但愿你的计算机能够处理这样的运算量。
卡方检验及其应用一、卡方检验概述:卡方检验主要应用于计数数据的分析,对于总体的分布不作任何假设,因此它属于非参数检验法中的一种。
它由统计学家皮尔逊推导。
理论证明,实际观察次数(f o )与理论次数(f e ),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:)(n f f f ee 2202~)(χχ∑-= 这是卡方检验的原始公式,其中当f e 越大,近似效果越好。
显然f o 与f e 相差越大,卡方值就越大;f o 与f e 相差越小,卡方值就越小;因此它能够用来表示f o 与f e 相差的程度。
根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。
一般用卡方检验方法进行统计检验时,要求样本容量不宜太小,理论次数≥5,否则需要进行校正。
如果个别单元格的理论次数小于5,处理方法有以下四种:1、单元格合并法;2、增加样本数;3、去除样本法;4、使用校正公式。
当某一期望次数小于5时,应该利用校正公式计算卡方值。
公式为:∑--=ee f f f 202)5.0(χ二、卡方检验的统计原理:• 卡方检验所检测的是样本观察次数﹙或百分比﹚与理论或总体次数﹙或百分比﹚的差异性。
• 理论或总体的分布状况,可用统计的期望值(理论值)来体现。
• 卡方的统计原理,是取观察值与期望值相比较。
卡方值越大,代表统计量与理论值的差异越大,一旦卡方值大于某一个临界值,即可获得显著的统计结论。
三、卡方检验的主要应用: 1、独立性检验独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。
如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。
独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。
知识点8.6
总体分布的卡方拟合检验
设总体X的分布函数F(x)未知, X
,⋯,X n是X的一个样本, 要
1
求检验假设
H0:F(x)=F0(x),H1:F(x)≠F0(x).
这里F
(x)是数学表达形式已知的分布函数. 备择假设表示F(x)
是除了F
(x)以外的某一函数, 通常可以不写出来.
用k −1个分点t 1,⋯,t k−1将实数轴分成k 个区间, 记为A i =
t i−1,t i ,其中t 0=−∞,t k =+∞.
H 0为真时, 有
p i =P(X ∈A i )=F 0(t i )−F 0(t i−1).
解决方案
A i +∞
−∞
t 1t i−1
t i ⋯
⋯如果F 0(x)中带有未知参数,则先利用样本求出未知参数的最大似然估计值,然后将估计值代入F 0x 计算概率p i .
记样本观测值x 1⋯,x n 落入区间A i 的频数为n i , 称其为实际频数.
从频率和概率之间关系的角度出发, Karl Pearson 提出了如下形式的检验统计量:
χ2
=i=1
k
n p i n i n
−p i
2
=
i=1
k
(n i −np i
)
2np i
np i 称为理论频数.
当H 0为真时, 在样本容量充分大的情况下, 该检验统计量近似服从χ2(k −r −1)分布, 其中r 为F 0(x)中待估计的未知参数个数.
由Bernoulli 大数定律可知,当试验次数较大时,事件发生的频率和概率出现较大偏差的概率是比较小的.所以当H 0为真时,对于给定的显著水平α有
P i=1
k
(n i −np i )2
np i
≥χα2
(k −r −1)≈α.
故H 0的拒绝域为:χα
2k −r −1,+∞.
H 0的接受域为:0,χα
2k −r −1.
注意事项
(1) 原假设H0中的总体分布也可以用分布律或密度函数来表示, 只要
在H
0为真时, 能够计算概率p
i
即可.
(2) 根据实践经验, 要求样本容量n≥50, 且要求理论频数np i≥5.
若np
i <5, 则应适当合并A
i
以满足此要求.
例1将一枚骰子抛掷120次, 结果如下
问这枚骰子的六个面是否匀称?取显著性水平为0.05.解将骰子六个面的点数作为总体X,
H0:P X=k=1
6
,k=1,2,⋯,6.
点数123456频数212819241612
分组数k =6, 待估计参数个数r =0,
χα
2k −r −1=
χ0.052
(5)
=11.07.
由于8.1<11.07, 故接受H 0, 即认为这枚骰子的六个面是匀称的.
分组n i
p i
np i
(n i −np i
)2/np
i
1211/6201/202281/62064/203191/6201/204241/62016/205161/62016/206
12
1/6
20
64/20Σ
χ2=8.1
例2从某纱厂生产的一批棉纱中抽取300条进行拉力强度试验, 得到数据如下, 检验该批棉纱的拉力强度是否服从正态分布(取显著水平为0.05).
拉力强度区间频数拉力强度区间频数拉力强度区间频数拉力强度区间频数0.50~0.6411.06~1.20371.48~1.62521.90~2.0416 0.64~0.7821.20~1.34531.62~1.76262.04~2.184 0.78~0.9291.34~1.48561.76~1.90192.18~2.321 0.92~1.0624
解
设棉纱的拉力强度为总体X , H 0:X~N μ,σ2.
以拉力强度区间的中点为观测值x i , 得到μ和σ2的最大似然估计值分别为
ෝμ=x =1
300i=1
13
x i n i =1.41,
ෝσ2=s n 2=1300
i=113
x i −x 2n i =0.0892.当H 0为真时,p i =Φ
t i −1.410.0892
−Φ
t i−1−1.410.0892
,i =1,⋯,13.
这样合并满足np i >5
np i <5需要合并分组这部分要重新计算合并后仍有np i <5要继续合并从而得计算表如下
这里也要
相应合并
分组拉力强度区间实际频数n i 概率p i 理论频数np i n i −np i
2
np i 10.50~0.6410.00381.140.017220.64~0.7820.01253.750.816730.78~0.9290.03309.900.081840.92~1.06240.070221.060.410451.06~1.20370.120436.120.021461.20~1.34530.166449.920.190071.34~1.48560.185355.590.003081.48~1.62520.166449.920.086791.62~1.76260.120436.122.8354101.76~1.90190.070221.060.2015111.90~2.04160.03309.903.7586122.04~2.1840.01253.750.016713
2.18~2.32
1
0.0038
1.14
0.0172
合并后的计算表
分组拉力强度区间实际频数n
i 概率p
i
理论频数np
i
(n i−np i)2/np i
10.50~0.92120.049314.790.5263
20.92~1.06240.070221.060.4104
31.06~1.20370.120436.120.0214
41.20~1.34530.166449.920.1900
51.34~1.48560.185355.590.0030
61.48~1.62520.166449.920.0867
71.62~1.76260.120436.122.8354
81.76~1.90190.070221.060.2015
91.90~2.32210.049314.792.6074
Σχ2=6.8822分组数k=9, 待估计参数个数r=2,χα2(k−r−1)=χ
0.05
2(6)=12.592.
由于6.8822<12.592, 故接受H
, 即认为该批棉纱的拉力强度服从正态分布.。