当前位置:文档之家› 非参数统计讲义

非参数统计讲义

非参数统计讲义
非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1

第一章 绪 论

本章主要内容: 1.非参数方法介绍 2.预备知识

第一节 非参数方法介绍

一. 非参数方法的概念和实例

复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。

先来看两个实例。

例 供应商供应的产品是否合格

某工厂产品的零件由某个供应商供应。合格零件标准长度为(±)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。

解答:

根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即

X ~),(2σμN

其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。

由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。

则零件合格的可能性近似等于

)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P

)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈

%66≈

这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢这是我们要思考的问题。

我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。

观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!

统计分析的结论与数据不吻合的!这是什么原因呢

我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概

是什么分布呢答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。

例 哪一个企业职工的工资高

这里有22名职工的工资情况,其中的12名职工来自企业1,另外的10名职工来自企业2。他们的工资(单位:千元)如附表。

仅从数据来看,显然企业1职工的工资较高。

根据我们已学过的参数统计的方法,这个问题用什么方法来解决呢(提

问)

采用参数数据分析方法,假设企业1和企业2职工的工资分别服从正态分布),(2σa N 和),(2σb N ,则该问题转化为假设检验问题:

b a H =:0, b a H >:1 即两样本t 检验。

计算可得,检验统计量的值 t=。

若取α=,其临界值为725.1)20(95.0=t ,不能拒绝原假设,即认为二者没有区别;

若取α=,其临界值为325.1)20(9.0=t ,仍不能拒绝原假设!计算p 值得到的结论也一样。

这个统计分析的结论显然与数据不吻合!之所以有问题,就是因为假设职工的工资服从正态分布的缘故。一般来说,工资、收入等的分布是不对称的,并且有一部分人的工资比较高,所以分布的右边有较长的尾巴。

对于以上的这样的问题,若想用参数数据的分析方法,就不能再假设总体服从正态分布,必须给它们赋一个较合理的分布函数,做到这点对于很多实际问题上是难度比较大的。除了这个办法之外,我们还可以用另外的处理办法,例如,非参数统计、参数和非参数方法相结合等等。这门课,我们主要讨论非参数方法。

二. 非参数统计方法特点

1.非参数统计方法通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体的分布不做假设,或者仅给出很一般的假设,例如连续型分布、对称分布等一些简单的假设,结果一般有较好的稳定性。所以适用范围非常宽泛。

在经典的统计框架下,正态分布一直是最引人注目的,但是对总体的分布不是随便做出来的,如以上两例,盲目地做出正态分布的假设有时候是起反作用的。

当数据的分布不是很明确,特别当样本含量不大,几乎无法对分布作推断的时候,此时使用参数方法就有一定的风险,我们就可以考虑用非参数的方法。

但要注意,非参数方法是与总体分布无关,而不是与所有分布无关!

2.非参数统计可以处理所有类型的数据。我们知道,统计数据按照数据类型可以分为两大类:定性数据和定量数据。一般地,参数统计是处理定量数据,如果所收集到的数据不符合参数模型的假定,比如:数据只有顺序,没有大小,则很多参数模型无能为力,此时只能尝试非参数方法。例如:研究急性白血病患儿血液中血小板数与出血症状之间的关系。血小板数可用数据衡量,但出血症状则只能分为:明显、较明显、有出血点和无这4类。类似于这样的“等级资料”,参数方法没辙,可用非参数方法中的Spearman等级相关方法来做。

3.在不知道总体分布的情况下,如何利用数据所包含的信息呢一组数据最基本的信息就是次序。非参数统计就是利用这个最基本的信息。如果把数据点按从小到大的次序排队,每一个具体数目都有它在整个数据中的位置,这称为该数据的秩(rank)。非参数统计的一个基本思想:用数据的秩代替数据,构造统计量进行统计推断。数据有多少个观察值,就有多少个秩。在一定的假设条件下,这些和由它们构成的统计量的分布是求得出来的,而且和原来的总体分布无关。就可以进行所需要的统计推断了。所以说,非参数统计只是和总体的分布无关,但和秩以及它们统计量的分布是密切相关的!

另外,其它与总体分布无关的统计方法也属于非参数统计。

4.在考虑非参数统计量的分布时,我们较多考虑这些统计量的渐近分布,由于利用到一些大样本方面的定理,得出来的渐近分布都服从正态分布或是由正态分布导出的分布,较容易计算和处理。

5.非参数方法与参数方法

通过刚才上面的解说,不要产生错觉,认为非参数方法总比参数方法有效!

非参数方法不是总比参数方法有效!

毕竟非参数方法利用到的数据信息非常有限。如果人们对总体有充分的了解且足以确定其分布类型,则非参数方法比参数方法效率低。

例如在总体分布族已知的情况下,非参数统计一般不如参数统计结果精确!另外,在总体分布是均匀分布时,正态的参数方法又比非参数方法好!这点可以通过计算渐近相对效率来说明。

三.非参数统计的历史

相对参数统计而言,非参数统计起步较晚,但有后来者居上的趋势。

非参数统计的形成主要归功于20世纪40年代~50年代化学家F. Wilcoxon 等人的工作。 Wilcoxon于1945年提出两样本秩和检验。1947年Mann 和

Whitney 两人将结果推广到两组样本量不等的一般情况。之后,相继涌现出大量论文。Savage 1962年统计的非参数论文就有3000多项。

Pitman 于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题。

1956年,J .L .Hodges 和E .L .Lehmann 则发现了一个令人惊讶的结果,与正态模型中t 检验相比较,秩检验能经受住有效性的较小损失。而对于重尾分布所产生的数据,秩检验可能更为有效。第一本论述非参数应用的书于1956年由出版,有人记载从1956年到1972年,该书被引用了1824次。这也说明非参数统计在这一时期的发展是相当活跃的。

60年代,J .L .Hodges 和E .L .Lehmann 从秩检验统计量出发,导出了若干估计量和置信区间。这些方法为后来非参数方法成功应用于试验设计数据开启了一道大门。之后,非参数统计的应用和研究获得了巨大的成功。

上世纪六十年代中后期,Cox 和Ferguson 最早将非参数方法应用于生存 分析。上世纪70年代到80年代,非参数统计借助计算机技术和大量计算获得了更稳健的估计和预测,以P. J. Huber 和F. Hampel 为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。

上世纪90年代有关非参数统计的应用和研究主要集中在非参数回归和非参数密度领域,其中较有代表性的人物是Silverman 和. Fan 。

四. 非参数统计主要内容

非参数统计可以分成两个范畴,一个是比较经典的基于秩的,以检验为主的非参数统计推断,而另一部分是近二三十年来发展的非参数回归、非参数密度估计、自助法以及小波方法等现代非参数统计方法。这两者均不对总体分布做较为确定的假设,但除此之外,这两部分内容在方法和概念上均没有多少共同点。我们首先介绍经典地基于秩的,以检验为主的非参数统计推断,这也是我们的主要内容,然后介绍现代非参数统计的部分内容。

第二节 预备知识

一、秩统计量

1.定义:设n Z Z ,,1 是来自连续分布)(z F 的简单随机样本,)()1(n Z Z ≤≤ 为其次序统计量。定义随机变量

r R i =,当)(r i Z Z =,n i ,,2,1 =。

当是唯一确定时,称样本观测值i Z 有秩i R ,n i ,,2,1 =。(由于)(z F 连续,因而i R 不唯一确定的概率为0。)

即i R 是第i 个样本单元i Z 在样本次序统计量),,()()1(n Z Z 中的位置。 例1:已知一组数据,请写出它们相应的秩。

(1)20,10,30。

解:先将该组数据从小到大排列如下:10,20,30。所以10对应的秩为1,20对应的秩为2,30对应的秩为3。 (2)200,100,300。

解:先将该组数据从小到大排列如下:100,200,300。所以100对应的秩为1,200对应的秩为2,300对应的秩为3。

注意:这两组数据显然区别较大,但他们对应的秩却都是1,2,3。没有差别!!

2.性质。

定理1 记),,(1n R R R =,集合

}),,1(),,(),,{(11的一个排列是n r r r r n n =?, 则R 在?上均匀分布。

证明:易知R 仅在?上取值。对任意一个?∈=),,(1n r r r , )},,(),,{(}{11n n r r R R P r R P ===

)},,(),,{()()1(1rn r n Z Z Z Z P == )},,(),,{()()1(1n dn d Z Z Z Z P ==

}{1dn d Z Z P <<= ,

其中k d i =,当i r k =时,即i d ),,1(n i =是i 在排列r 中的位置。又由于

()dn d d n Z Z Z d Z Z Z ,,,),,,(2121 ,

所以}{}{1n Z Z P r R P <<== 对任意?∈r ,上式均成立,所以对任意r ,这个概率均相等。而全部这样的事件互不相容且它们的和是必然事件,故对任意

?∈r ,有!/1}{n r R P ==。

定理2 ),,,(21n R R R R =的边缘分布也是均匀分布,特别一维边缘分布有

?????===其他。时,

当,

0,,2,1,1

)(n r n r R P i

二维边缘分布,当j i ≠时,有

???

??=≠-===其他。时,当,,

0,,2,1,,,)1(1

)(n s r s r n n s R r R P j i

证明: 当n r ,,1 ≠时,0)(==r R P i 。

当n r ,,1 =时,因为 ()n n Z Z Z d Z Z Z ,,,),,,(1221 , 于是有21R d R ,类似可证明:i R d R 1,n i ,,2 =。 所以,)()()(21r R P r R P r R P n ====== 。

又因为 φ===}{}{r R r R j i ,j i ≠ ,(考虑n 个样本两两不相等)

∑===n

i i

r R

P 1

1)(,

所以 n

r R P i 1

)(=

=。类似可证明二维边缘分布和高维边缘分布是均匀分布。 定理3 对秩统计量),,,(21n R R R R =,有

2

1

)(+=

n R E i ,n i ,,2,1 =, 12

)

1)(1()(-+=n n R Var i ,n i ,,2,1 =,

121

),(+-=n R R Cov j i ,n j i ,,2,1, =,j i ≠。 证明:由上定理可知,对于n i ,,2,1 =, 2

12)1(11)(1+=+==∑=n n n n n r

R E n

r i , 12

)

1)(1()()()(22-+=

-=n n ER R E R Var i i i ,

因为 ∑∑∑≠==??? ??+-??? ??

+-+??? ??+-=????????? ?

?+-=s r n

r n r n s n r n r n r 21212121012

2

1

于是有 ∑≠??

? ??+-??? ??

+-+=

--=s r j j i i j i n s n r n n ER R ER R E R R Cov 2121)1(1))((),( 12

121)1(112

+-=??? ??

+---=∑=n n r n n n

r 。

由以上三个定理知:仅依赖R 的统计量)(R S 关于连续分布构成的分布类是适应任何分布的。

二、次序统计量

1.定义:设有样本),,(1n X X X =。把n X X ,,1 按由小到大的次序排列为

)()2()1(n X X X ≤≤≤ , (1)

则),,,()()2()1(n X X X 称为样本X 的次序统计量,order statistics 。习惯上也常把序列(1)的一部分称为次序统计量。特别,)(i X 常称为第i 个次序统计量。如果n X X ,,1 是从分布F 中抽取的独立同分布样本,则称(1)是从F 中抽出的(大小为n 的)次序样本。

次序统计量在统计问题中有着广泛的应用,其理论也有深入的发展,也有不少这方面的专着。在一定程度上讲,次序统计量的研究已形成数理统计学和概率论的一个分支。但有点需要明确:次序统计量既可以用于典型的非参数统计问题,如找连续分布函数的分位数的置信区间;也可用于典型的参数统计问题,如用极差的适当倍数去估计正态分布的标准差。所以从学科角度,不好把次序统计量的理论与方法说成是非参数统计的一部分,但很多着作上,却往往把次序统计量纳入其中。所以我们先介绍次序统计量的相关知识。

2.基本分布

在应用上,最常见的情况是:n X X ,,1 是从一个有分布F 的总体中抽取的简单随机样本(即独立同分布样本)。 <1>.单个次序统计量)(r X 的分布。 以r F 记)(r X 的分布函数,依定义有

)

,,()()(1)(x r X X P x X P x F n r r 个小于中至少有 =<=

∑∑=-=-==n

r

j j

n j j n n

r

j n x F x F C x j X X P ))(1)((),,(1个小于中恰好有

?-----=

)(01)1()!()!1(!x F r

n r dt t t r n r n (2)

(2)中的最后一个等式是基于以下的(3)式: ?∑--=----=

-p r n r n

r j j n j j n dt t t r n r n p p C 0

1)1()!()!1(!)1( )10,,,1(≤≤=p n r

(3)

(3)的证明可依如下方法进行:当0=p 时,两边都是0。又两边都是关于p 的可导函数,且可证其一阶导数相同。注意(2)的积分是一个不完全β积分,其值可查不完全β函数表。

若F 有概率密度f ,则)(x F r 也有概率密度)(x f r ,且

)())(1)(()!

()!1(!

)(1x f x F x F r n r n x f r n r r -----=

。 (4)

特例: 当1=r 和n r =,即极小值与极大值的分布: n x F x F ))(1(1)(1--=,)())(1()(11x f x F n x f n --=; )()(x F x F n n =,)()()(1x f x nF x f n n -=。 <2>.两个次序统计量),()()(s r X X 的联合分布。

在实用中,最重要的是密度存在的情况,所以只给出两个次序统计量的联合密度函数的公式,推导可参见陈希孺和柴根象编写的《非参数统计教程》P23。 ),()())(1())()()(()!

()!1()!1(!

),(11y f x f y F x F y F x F s n r s r n y x f s n r s r rs ----------=

当y x <时;否则,为0。

特别地,全体次序统计量),,()()1(n X X 的联合密度函数为

)()(!),,(1112n n n y f y f n y y f =,当n y y << 1时;否则,为0。

3.总体分布F 为(0,1)均匀分布的情况。

当总体分布为(0,1)均匀分布)1,0(U 时,密度函数为)()()1,0(x I x f =。此时,当10≤≤x 时,有x x F =)(, )()1()!

()!1(!

)()1,0(1x I x x r n r n x f r n r r -----=

,)1()()!

()!1()!1(!

),(11s n r s r rs y x y x s n r s r n y x f ----------=

10<<

其他处为0。

这个情况的重要性并不由于其形式简单,而是在于下面的定理。

定理4 设随机变量X 的分布函数F 在),(∞-∞处处连续。记)(X F Y =。则Y 有分布)1,0(U 。 证法一:

由于分布函数只取[0,1]之间的值,有:当0=有有限的下确界

0x ,且由F 的连续性知,y x F =)(0。因而

y x F x X P x F X F P y Y P ==≤=≤=≤)()())()(()(000,10<

最后,由分布函数的右连续性知,对于0=y ,

0lim )(lim )0(00==≤=≤↓↓y y Y P Y P y y 。

证法二:

由于分布函数只取[0,1]之间的值,有:当0

y x F x X P x F X F P y Y P ==≤=<=<)()())()(()(000,10<

最后,由分布函数的右连续性知,对于0=y ,

0lim )(lim )0(00==≤=≤↓↓y y Y P Y P y y 。

注意:由此定理可知,若)()1(n X X ≤≤ 是从连续分布F 中抽出的次序样本,而记),()()(i i x F U =n i ,,2,1 =,则)()1(n U U ≤≤ 是从分布)1,0(R 中抽出的次序样本。注意)1,0(R 是一个完全确定的分布,与总体分布F 无关。正是这一点导致它在非参数统计中的应用,在理论上说,它可以把某些针对一般分布的问题转化为均匀分布之下的问题。

对于均匀分布,还有以下的结论需引起注意:

定理5. 随机变量θ服从)1,0(U 分布。设)(x F 是任意一个分布函数,且在

),(∞-∞上处处连续,定义})(:inf{)(1y x F x y F >=-,令)(1θξ-=F ,则ξ是服从

分布函数为)(x F 的随机变量。

证明:

显然)(1y F -也是一个单调不减的函数,并且y y F F =-))((1。记ξ的分布函数为)(x F ξ,则

)())(())(()()(1x F x F P x F P x P x F =<=<=<=-θθξξ, 所以)()(x F x F =ξ,即)(~x F ξ。

注意:以上定理说明,只要能产生服从)1,0(U 分布的随机变量,则对任意在

),(∞-∞上处处连续的分布函数)(x F ,就能生成以)(x F 为分布函数的随机变

量。

以下定理可做了解:

定理6. 以)()1(n X X ≤≤ 记)1,0(U 中大小为n 的次序样本。又n Z Z ,,1 为独立同分布的,1Z 有负指数分布,其密度为)0(>-x x

I e ,记∑-+=-+=

r n i i

r i n Z Y 11

)1/(,

n r ,,2,1 =,则 ),()log ,,log (1)()1(n n Y Y d X X --。

三、假设检验

1.显着性检验的基本思想

为了对总体的分布类型或分布中的未知参数作出推断,首先对它们提出一个假设0H ,然后在0H 为真的条件下,通过选取恰当的统计量来构造一个小概率事件,若在一次试验中,这个小概率事件居然发生了,就完全有理由拒绝

0H ,否则没有充分的理由拒绝0H ,从而接受0H 。

2.两种假设的选取

例2 某批发商欲从厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取了100个灯泡,得知样本均值为996小时。批发商是否应该购买这批灯泡(05.0=α)

即为单个正态总体均值的U 检验。假设检验取为

1000:0≥μH ,1000:1<μH

计算可得检验统计量的值2-=U ,查表可得05.0=α,100=n 时,该检验的拒绝域为]645.1,(--∞。

结论:在05.0=α时,拒绝0H ,即我们有充分的理由认为这批灯泡的寿命低于1000小时!

进一步提出一个问题:若我们将原假设和备择假设换一下,即

1000:0≤μH ,1000:1>μH

经计算,检验统计量2-=U ,查表可得05.0=α,100=n 时,该检验的拒绝域为),645.1[+∞。

结论:在05.0=α时,不能拒绝0H ,即这批灯泡的寿命可能低于1000小时!

从这个例子我们可以看出,就检验结果而言,拒绝原假设的理由是充分的,而接受原假设的理由是不充分的。所以一般把希望拒绝的,有把握拒绝的命题作为原假设!所以在零假设和备择假设的选取上一定要把握好这个原则!

3.两类错误

第一类错误:弃真,即:0H 是真的,但被拒绝了。 犯第一类错误的概率计算公式: }{)(00为真拒绝H H P =θα

第二类错误:存伪,即:0H 是假的,但被接受了。

犯第二类错误的概率计算公式:}{}{)(1000为真接受为假接受H H P H H P ==θβ 样本容量确定之后,不可能同时让犯两类错误的概率减少!所以采用的方法是控制犯第一类错误的概率,让犯第二类错误的概率尽可能地小。

4.显着性水平和功效

显着性水平α就是犯第一类错误的概率的最大值。即:

αθα≤)(sup ,0Θ∈θ

换句话说:当0H 为真,拒绝零假设的最大概率是α,则接受零假设的最小概率是α-1。

检验功效就是拒绝错误零假设的概率,即)(1θβ-。

注:不同于显着性水平α,若1H 是复杂假设时,功效不一定唯一! 5.p 值

检验的p 值就是根据已知的观测,犯第一类错误的最小概率。

若α≤p ,则拒绝0H ;若α>p ,则不拒绝0H 。

那么如何计算p 值呢

若令obs t 表示检验统计量T 的观察值,则在单边检验中, 当T 的值越大越能拒绝0H ,接受1H 时,)(t T P p ≥=值; 当T 的值越小越能拒绝0H ,接受1H 时,)(t T P p ≤=值。 而在双边检验中,)}(),(m in{2t T P t T P p ≤≥=值。 在本课程中很多地方要计算p 值,非常重要。

6.置信区间

定义:设),,(1n X X X =为来自总体的样本,若不论参数θ在参数空间Θ中取什么值,“区间))(),((21X g X g 包含θ”这个事件的概率,总不小于指定的常数α-1,即:

αθθ-≥<<1))()((21X g X g P ,一切Θ∈θ,

则称))(),((21X g X g 是θ的置信水平α-1的置信区间。

注意:(1)若α-1为置信水平,对于101<≤<αα,则11α-也是置信水平,

称一切置信水平中的最大者为置信系数。

(2)一般而言,α一般取值很小,所以α-1是很接近1的。例如取05.0=α,

置信区间的说明:以的概率保证被估计参数θ包含在区间))(),((21X g X g 中。

7.置信区间与假设检验的双边检验关系 考虑显着性水平为α的双边检验 00:θθ=H ,01:θθ≠H

得到它的拒绝域为: )(10X g ≤θ或)(20X g ≥θ 即: )((100X g P ≤θθ或αθ≤≥))(20X g 这等价于: αθθ-≥<<1))()((2010X g X g P ,

即,区间))(),((21X g X g 是0θ的置信系数为α-1的置信区间!

反之,设))(),((21X g X g 是参数θ的一个置信系数为α-1的置信区间,则对于任意的Θ∈θ,有

αθθ-≥<<1))()((21X g X g P , (5) 考虑显着性水平为α的双边检验 00:θθ=H ,01:θθ≠H

由(5)得: αθθ-≥<<1))()((2010X g X g P 即有: )((100X g P ≤θθ或αθ≤≥))(20X g 按显着性水平为α的假设检验的拒绝域的定义,

该检验的拒绝域为:)(10X g ≤θ或)(20X g ≥θ,接受域为)()(201X g X g <<θ。

四、相对效率与渐近相对效率

定义1:设1T 和2T 分别表示两种检验,用来检验相同的原假设和备择假设,取相等显着性水平α和相同功效β,2T 对1T 的相对效率定义为比值21/n n ,其中

1n 和2n 分别是检验1T 和2T 的样本容量。

从定义1可以看出:相对效率越大,则检验2T 越有效!

定义2:令1n 和2n 分别是在相同的显着性水平下,有相同功效的两个检验1T 和2T 的样本容量。如果α和β固定,当1n 趋于无穷时(这时2n 也必趋于无穷), 极限21/n n 存在,且与α和β独立,那么,21/n n 的极限称为第二个检验对第一个检验的渐近相对效率(ARE(2T ,1T ))。 注意:若极限21/n n 小于1,则说明1T 比2T 有效; 若极限21/n n 大于1,则说明2T 比1T 有效。

下表给出了几个不同的总体分布下,正态t 检验(t )、非参数统计的符号检验(S )和Wilcoxon 符号秩检验(W+)之间的渐近相对效率。

附表 100个零件的长度。

附表 两个企业职工的工资

相关主题
文本预览
相关文档 最新文档