经典非参数假设检验的方法全共96页
- 格式:ppt
- 大小:17.19 MB
- 文档页数:96
⾮参数检验⽅法⾮参数检验的推断⽅法不涉及样本所属总体的分布形式,也不会使⽤均值、⽅差等统计量,⾮参数检验是通过研究样本数据的顺序和分布的性质来构成理论基础,下⾯介绍⼀些⾮参数检验经常使⽤的样本数据信息:1.顺序:将样本数据按照升序排列,可以得到X1≤X2≤X3≤Xi....≤Xn,其中Xi为第i个顺序量。
2.秩将样本数据按照升序排列,可以得到X1≤X2≤X3≤Xi....≤Xn,Ri为Xi在这⼀列数据中的位置,称为秩,R1,R2,R3...Rn为样本数据的秩统计量3.结如果样本数据中存在相同的值,那么在排序时就会出现秩相同的情况,这样的情况称为结,结的取值是对应的秩的均值。
注意是秩的均值⽽不是数据本⾝的均值。
⾮参数检验的统计理论都是根据上述概念计算⽽来,此外,和参数检验⼀样,当我们得到分析数据的时候,最先做的⼯作还是先通过图表和⼀些描述性统计量对数据整体进⾏探索性分析,掌握数据⼤致分布情况、有⽆极端值等,为后续正确选择分析⽅法打下基础。
================================================ ====⾮参数检验主要应⽤在以下场合:1.不满⾜参数检验的条件,且⽆适当的变换⽅法进⾏变换2.分布类型⽆法获知的⼩样本数据3.⼀端或两端存在不确定值,如>10004.有序分类变量求各等级之间的强度差别更进⼀步来讲,⾮参数检验可以做以下分析:⼀、单样本总体分布检验⼆、两独⽴样本差异性检验三、两配对样本差异性检验四、多个独⽴样本差异性检验五、多个相关样本差异性检验可以看出,以上应⽤除了第⼀点之外,其他都有对应的参数检验⽅法,这就要根据样本数据的实际情况来进⾏选择了:适合使⽤参数检验的优先使⽤参数检验,否则使⽤⾮参数检验。
================================================ =下⾯我们分别介绍⼀下上述应⽤对应的⾮参数检验⽅法⼀、单样本总体分布检验单样本总体分布检验主要⽤来检验某样本所在总体分布和某⼀理论分布是否存在显著差异,主要涉及的⾮参数检验⽅法有:1.卡⽅检验卡⽅检验可以检验样本数据是否符合某⼀期望分布或理论分布,这在卡⽅检验中有所介绍,在此不再多说2.⼆项分布检验⼆项分布检验主要⽤来检验样本数据是否符合某个指定的⼆项分布,该检验只适合⼆分类变量样本。
非参数假设检验方法
非参数假设检验方法,那可真是个超棒的统计利器!咱先说说它的步骤吧。
嘿,你想想看,就像搭积木一样,第一步得先明确问题,确定咱要检验啥。
然后收集数据,这数据就像是建筑材料,得好好收集。
接着计算检验统计量,这就如同给积木搭出形状。
最后根据统计量判断是否拒绝原假设。
这步骤简单易懂吧?
注意事项也不少呢!数据得有代表性,不然就像盖房子用了劣质材料,那可不行。
样本量也不能太小,不然就像小娃娃搭的积木城堡,风一吹就倒啦。
说到安全性和稳定性,那可是杠杠的!它不像有些方法那么娇气,对数据的分布要求不高。
就好比一辆越野车,能在各种路况下行驶,不用担心路况不好就抛锚。
应用场景那可多了去啦!当数据不满足参数检验的条件时,非参数假设检验方法就大显身手啦。
比如研究不同年龄段的人对某种产品的喜好,数据可能乱七八糟的,这时候非参数检验就像救星一样。
它的优势也很明显啊,操作简单,容易理解,不需要太多高深的数学知识。
就像玩游戏,不需要看厚厚的说明书就能上手。
给你举个实际案例吧。
有个公司想知道新推出的广告有没有效果,就用了非参数假设检验方法。
结果发现广告确实提高了产品的知名度。
这效果,哇塞,杠杠的!
非参数假设检验方法就是这么牛!它简单易用,安全稳定,应用场景广泛,优势明显。
赶紧用起来吧!。
统计学中的非参数检验方法介绍统计学是一门研究收集、分析和解释数据的科学。
在统计学中,我们经常需要进行假设检验,以确定样本数据是否代表了总体特征。
非参数检验方法是一种不依赖于总体分布假设的统计方法,它在现实世界中的应用非常广泛。
本文将介绍一些常见的非参数检验方法。
一、Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test)Wilcoxon符号秩检验是一种用于比较两个相关样本的非参数检验方法。
它的原理是将两个相关样本的差值按绝对值大小进行排序,并为每个差值分配一个秩次。
然后,通过比较秩次总和与期望总和的差异来判断两个样本是否具有统计学上的显著差异。
二、Mann-Whitney U检验(Mann-Whitney U Test)Mann-Whitney U检验是一种用于比较两个独立样本的非参数检验方法。
它的原理是将两个样本的所有观测值按大小进行排序,并为每个观测值分配一个秩次。
然后,通过比较两个样本的秩次总和来判断它们是否具有统计学上的显著差异。
三、Kruskal-Wallis检验(Kruskal-Wallis Test)Kruskal-Wallis检验是一种用于比较三个或更多独立样本的非参数检验方法。
它的原理是将所有样本的观测值按大小进行排序,并为每个观测值分配一个秩次。
然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。
四、Friedman检验(Friedman Test)Friedman检验是一种用于比较三个或更多相关样本的非参数检验方法。
它的原理类似于Kruskal-Wallis检验,但是对于相关样本,它将每个样本的观测值按照相对大小进行排序,并为每个观测值分配一个秩次。
然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。
五、秩相关系数检验(Rank Correlation Test)秩相关系数检验是一种用于检验两个变量之间相关性的非参数检验方法。
§4.3 非参数假设检验方法前面介绍的各种统计假设的检验方法,几乎都假定了总体服从正态分布,然后再由样本对分布参数进行检验。
但在实际问题中,有时不能预知总体服从什么分布,从而就需要根据样本来检验关于总体分布的各种假设,这就是分布的假设检验问题,也称为非参数假设检验。
本节主要介绍2χ拟合优度检验,柯尔莫哥洛夫—斯米尔诺夫(Kolmogrov-Smirnov )检验和独立性检验。
一、2χ拟合优度检验1. 多项分布的2χ检验法设总体X 是仅取m 个可能值的离散型随机变量,不失一般性,设X 的可能值是1,2,,,m " 且(),1,2,,i P X i p i m ===" 且1 1.mi i p ==∑设12(,,)T n X X X "是从总体X 中抽得的简单随机样本,12(,,)T n x x x "是样本观察值。
用i N 表示样本12(,,)T n X X X "中取值为i 的个数,即样本中出现事件{}X i =的频数,则i N 是样本的函数,所以12(,,,)T m N N N "是随机向量,且有1.mi i N n ==∑可证明12(,,,)T m N N N "服从多项分布,其概率分布为1211221212!(,,,),,!!!m n n n m m m m n P N n N n N n p p p n n n ===="""(4.21)需要检验假设0010::(1,2,,),i i i i H p p H p p i m =↔≠=" 其中0i p 是已知数。
检验的统计量?我们知道,频数是概率的反映。
如果总体的概率分布的确是10200(,,,)m p p p ",那么当观察个数n 愈来愈大时,频率i N n 与0i p 之间的差异将越来越小,因此频率i Nn与0i p 之间的差异程度可以反映出10200(,,,)m p p p "是不是总体的真分布。
§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt ex F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数. σμξξμ-=)( (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1. 2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x) ∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据 (2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i. 我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki i i i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ (7.16) 令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ 21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it jk je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj j kj jj j Y nP nP n 12122)(χ (7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛•⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nPit P nP it t t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j jj kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP it np it j jj j jj 121exp 2ο和)(2)1ln(22x x x x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--+-=⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======k j k j k j j j j j j k j j j k j k j j j j kj j jk P t n i t n P t n i n P t n i n t n P t n i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j j j k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=∑∑==∞→k j k j j j j k n P t t t t 1212121exp ),,(lim ϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rjlj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫ ⎝⎛-1122112k j j kj i k j j j u P t t (7.29) 由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(lim k j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj j k j j Z Y 12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; mθθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i iP θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ (7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|sup x F x F D n xn -= (7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|sup x F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ=n n n n dy y y f n n n nn n n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当(7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出αα=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,sup x F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+ ⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。