经典非参数假设检验方法全
- 格式:ppt
- 大小:1.25 MB
- 文档页数:96
非参数检验的检验方法非参数检验是一种假设检验的方法,它不依赖于总体分布的具体形式,而是基于样本数据进行推断。
相比于参数检验,非参数检验更加灵活和普适,可以适用于更广泛的情况。
非参数检验的主要思想是通过对样本数据的排序或者秩次变换,来推断总体的性质。
下面将介绍几种常见的非参数检验方法:1. Mann-Whitney U检验(又称Wilcoxon秩和检验):Mann-Whitney U检验用于比较两个独立样本的总体中位数是否相等。
它的基本思想是将两组样本的数据合并,按照从小到大的顺序进行排列,并为每个值分配一个秩次。
然后计算两组数据秩次和之差的绝对值,该值即为检验统计量U,根据U的大小可以进行推断。
2. Kruskal-Wallis H检验:Kruskal-Wallis H检验用于比较多个独立样本的总体中位数是否相等。
它的基本思想是将所有样本的数据合并,按照从小到大的顺序进行排列,并为每个值分配一个秩次。
然后计算每个样本的秩次和,以及总体的秩次和。
根据这些秩次和的差异来进行推断。
3. 秩和检验:秩和检验是一类常见的非参数检验方法,包括Wilcoxon符号秩检验和符号秩和检验。
这两种方法都是用来比较两个相关样本的总体中位数是否相等。
基本思想是将两个样本的差的符号进行标记,并用秩次表示绝对值大小的顺序。
然后根据秩次和的大小来进行推断。
4. Friedman检验:Friedman检验用于比较多个相关样本的总体中位数是否相等。
它的基本思想是将所有样本的数据进行秩次变换,并计算每个样本的秩次和。
然后根据秩次和的差异来进行推断。
在进行非参数检验时,需要注意以下几点:1. 样本独立性:非参数检验通常要求样本之间是独立的,即样本之间的观测值不受其他样本观测值的影响。
如果样本之间存在相关性,应考虑使用相关性检验或者非参数检验的相关版本。
2. 样本大小:非参数检验对样本的大小没有严格要求,但样本大小较小时可能会影响检验的统计功效。
非参数假设检验方法
非参数假设检验方法,那可真是个超棒的统计利器!咱先说说它的步骤吧。
嘿,你想想看,就像搭积木一样,第一步得先明确问题,确定咱要检验啥。
然后收集数据,这数据就像是建筑材料,得好好收集。
接着计算检验统计量,这就如同给积木搭出形状。
最后根据统计量判断是否拒绝原假设。
这步骤简单易懂吧?
注意事项也不少呢!数据得有代表性,不然就像盖房子用了劣质材料,那可不行。
样本量也不能太小,不然就像小娃娃搭的积木城堡,风一吹就倒啦。
说到安全性和稳定性,那可是杠杠的!它不像有些方法那么娇气,对数据的分布要求不高。
就好比一辆越野车,能在各种路况下行驶,不用担心路况不好就抛锚。
应用场景那可多了去啦!当数据不满足参数检验的条件时,非参数假设检验方法就大显身手啦。
比如研究不同年龄段的人对某种产品的喜好,数据可能乱七八糟的,这时候非参数检验就像救星一样。
它的优势也很明显啊,操作简单,容易理解,不需要太多高深的数学知识。
就像玩游戏,不需要看厚厚的说明书就能上手。
给你举个实际案例吧。
有个公司想知道新推出的广告有没有效果,就用了非参数假设检验方法。
结果发现广告确实提高了产品的知名度。
这效果,哇塞,杠杠的!
非参数假设检验方法就是这么牛!它简单易用,安全稳定,应用场景广泛,优势明显。
赶紧用起来吧!。
非参数检验方法一、什么是非参数检验非参数检验(Nonparameteric Tests)是指检验假设(比如均值、方差、分布类型)不依赖样本参数的方法,也可以称为不参数检验,将数据的描述性统计量和判别量作为假设检验的基本工具,而不主张假设服从某个具体的概率分布。
二、非参数检验的优点1、可以使用描述性统计量作为假设检验的基本工具,而不主张数据服从某个具体的概率分布,使得检验更加简单。
2、非参数检验的统计量倪比较有针对性,无论样本量大小,无论是否假定样本服从某个具体概率分布,它都能比较有效计算统计量的有效性、准确性。
3、非参数检验的抽样复杂度较低,当数据量较小时,可以获得较精确的结果。
4、非参数检验可以应用于连续变量或离散变量检验假设,使得非参数检验成为一种常见的统计检验方法。
三、常见的非参数检验方法1、Wilcoxon符号秩检验:Wilcoxon符号秩检验是用于比较两组数据之间不同水平上的秩和的检验,它的统计量是组间的秩和比,假设多个样本的总体服从同一分布,可以用来检验两组数据间的均值或中位数的差异性,即表明两个样本的分布是否有差异。
2、Kruskal-Wallis H检验:Kruskal-Wallis H检验是一种无序秩检验,它能检验总体中多组数据间的均值或中位数的比较,即用来检验多个样本构成的总体是否服从同一分布,要求多组样本的体积相等。
3、Friedman检验:Friedman检验是一种用于多个样本比较的非参数检验,它的检验统计量是秩求和检验,可以检验多个样本构成的总体是否服从相同的分布,从而比较多个样本之间的均值,中位数或众数相对应的所有统计量。
4、Spearman秩相关系数:Spearman秩相关系数是一种测量两个变量相关性程度的方法,它不要求变量服从某种分布,仅要求变量是分类变量或连续变量。
5、Cochran Q检验:Cochran Q检验是变量若干观测值服从同一分布的依赖性检验,可以检验多组数据的差异性是否具有统计学意义,一般用于比较不同实验组间的得分或响应相对于对照组的得分或响应的差异性。
统计学中的非参数检验方法介绍统计学是一门研究收集、分析和解释数据的科学。
在统计学中,我们经常需要进行假设检验,以确定样本数据是否代表了总体特征。
非参数检验方法是一种不依赖于总体分布假设的统计方法,它在现实世界中的应用非常广泛。
本文将介绍一些常见的非参数检验方法。
一、Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test)Wilcoxon符号秩检验是一种用于比较两个相关样本的非参数检验方法。
它的原理是将两个相关样本的差值按绝对值大小进行排序,并为每个差值分配一个秩次。
然后,通过比较秩次总和与期望总和的差异来判断两个样本是否具有统计学上的显著差异。
二、Mann-Whitney U检验(Mann-Whitney U Test)Mann-Whitney U检验是一种用于比较两个独立样本的非参数检验方法。
它的原理是将两个样本的所有观测值按大小进行排序,并为每个观测值分配一个秩次。
然后,通过比较两个样本的秩次总和来判断它们是否具有统计学上的显著差异。
三、Kruskal-Wallis检验(Kruskal-Wallis Test)Kruskal-Wallis检验是一种用于比较三个或更多独立样本的非参数检验方法。
它的原理是将所有样本的观测值按大小进行排序,并为每个观测值分配一个秩次。
然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。
四、Friedman检验(Friedman Test)Friedman检验是一种用于比较三个或更多相关样本的非参数检验方法。
它的原理类似于Kruskal-Wallis检验,但是对于相关样本,它将每个样本的观测值按照相对大小进行排序,并为每个观测值分配一个秩次。
然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。
五、秩相关系数检验(Rank Correlation Test)秩相关系数检验是一种用于检验两个变量之间相关性的非参数检验方法。
常见的几种非参数检验方法非参数检验是一种不需要对数据进行假设检验的统计方法,它不需要满足正态分布等前提条件,因此被广泛应用于实际数据分析中。
在本文中,我们将介绍常见的几种非参数检验方法。
一、Wilcoxon符号秩检验Wilcoxon符号秩检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号和秩来计算统计量,并通过查表或使用软件进行显著性判断。
二、Mann-Whitney U检验Mann-Whitney U检验是一种用于比较两个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
三、Kruskal-Wallis H检验Kruskal-Wallis H检验是一种用于比较多个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
四、Friedman秩和检验Friedman秩和检验是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
五、符号检验符号检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号来计算统计量,并通过查表或使用软件进行显著性判断。
六、秩相关检验秩相关检验是一种用于比较两个相关样本之间关系的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
七、分布拟合检验分布拟合检验是一种用于检验数据是否符合某个特定分布的非参数检验方法。
它基于样本数据与理论分布之间的差异来计算统计量,并通过查表或使用软件进行显著性判断。
八、重复测量ANOVA重复测量ANOVA是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本方差和均值来计算统计量,并通过查表或使用软件进行显著性判断。
九、Bootstrap法Bootstrap法是一种用于估计总体参数和构建置信区间的非参数方法。
它基于自助重采样技术来生成大量虚拟样本,以此估计总体参数和构建置信区间。
§4.3 非参数假设检验方法前面介绍的各种统计假设的检验方法,几乎都假定了总体服从正态分布,然后再由样本对分布参数进行检验。
但在实际问题中,有时不能预知总体服从什么分布,从而就需要根据样本来检验关于总体分布的各种假设,这就是分布的假设检验问题,也称为非参数假设检验。
本节主要介绍2χ拟合优度检验,柯尔莫哥洛夫—斯米尔诺夫(Kolmogrov-Smirnov )检验和独立性检验。
一、2χ拟合优度检验1. 多项分布的2χ检验法设总体X 是仅取m 个可能值的离散型随机变量,不失一般性,设X 的可能值是1,2,,,m " 且(),1,2,,i P X i p i m ===" 且1 1.mi i p ==∑设12(,,)T n X X X "是从总体X 中抽得的简单随机样本,12(,,)T n x x x "是样本观察值。
用i N 表示样本12(,,)T n X X X "中取值为i 的个数,即样本中出现事件{}X i =的频数,则i N 是样本的函数,所以12(,,,)T m N N N "是随机向量,且有1.mi i N n ==∑可证明12(,,,)T m N N N "服从多项分布,其概率分布为1211221212!(,,,),,!!!m n n n m m m m n P N n N n N n p p p n n n ===="""(4.21)需要检验假设0010::(1,2,,),i i i i H p p H p p i m =↔≠=" 其中0i p 是已知数。
检验的统计量?我们知道,频数是概率的反映。
如果总体的概率分布的确是10200(,,,)m p p p ",那么当观察个数n 愈来愈大时,频率i N n 与0i p 之间的差异将越来越小,因此频率i Nn与0i p 之间的差异程度可以反映出10200(,,,)m p p p "是不是总体的真分布。
第七章 非参数的假设检验
上一章讲的参数假设是在假设总体分布已知的情况下进行的,但在实际生活中,那种对总体的分布的假定并不是能随便做出的。
数据并不是来自所假定分布的总体,或者,数据根本并不是来自一个总体;还有可能数据因为种种原因被严重污染。
这样,在假定总体分布已知的情况下进行推断的做法就可能产生错误甚至得出灾难性的结论。
于是,人们希望在不对总体分布做出假定的情况下,尽量从数据本身来获得所需要的信息,这就是非参数统计推断的宗旨。
本章分别就单一样本、两样本及多样本的位置参数与尺度参数给出一些非参数的检验方法。
7.1 单总体位置参数的检验
设12,,,n X X X 为来自总体X 的容量为n 的样本,在有了样本观测值12,,,n x x x 之后,很自然地想要知道她所代表的总体的“中心”在哪里?它所代表的总体的分布是否与我们所希望的分布一样?这些问题中不涉及分布具体形式的假定,因此属于非参数的假设检验问题。
我们先考虑前一问题,分别介绍两常用的中位数符号和对称中心的Wilcoxon 符号检验,后面一节在介绍分布的拟合优度检验。
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt ex F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数. σμξξμ-=)( (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1. 2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x) ∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据 (2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i. 我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki i i i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ (7.16) 令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ 21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it jk je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj j kj jj j Y nP nP n 12122)(χ (7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛•⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nPit P nP it t t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j jj kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP it np it j jj j jj 121exp 2ο和)(2)1ln(22x x x x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--+-=⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======k j k j k j j j j j j k j j j k j k j j j j kj j jk P t n i t n P t n i n P t n i n t n P t n i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j j j k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=∑∑==∞→k j k j j j j k n P t t t t 1212121exp ),,(lim ϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rjlj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫ ⎝⎛-1122112k j j kj i k j j j u P t t (7.29) 由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(lim k j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj j k j j Z Y 12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; mθθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i iP θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ (7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|sup x F x F D n xn -= (7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|sup x F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ=n n n n dy y y f n n n nn n n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当(7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出αα=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,sup x F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+ ⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。