当前位置:文档之家› 非参数统计讲义(2010版)

非参数统计讲义(2010版)

非参数统计讲义(2010版)
非参数统计讲义(2010版)

第一章 绪 论

第一章主要是通过与所学的参数统计的比较来介绍非参数统计的概念、背景、理论与应用的价值,目的是激发学生学习本课程的兴趣。为更好地掌握本课程的内容,本章将介绍和回忆所需的基本概念、基本公式和方法。

本章主要内容: 1.非参数方法介绍

2.预备知识

第一节 非参数方法介绍

一. 非参数方法的概念和实例

我们从接触数理统计开始,一直学习的都是参数统计,比如参数估计,总体 为正态时的假设检验等等。首先回忆什么是参数方法?

定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。

先来看两个实例。

例1.1 供应商供应的产品是否合格?

某工厂产品的零件由某个供应商供应。合格零件标准长度为(8.5±0.1)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在

8.4-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。

解答:

根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即

X ~),(2σμN

其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。

则零件合格的可能性近似等于

)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P

)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈

%66≈

这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢?这是我们要思考的问题。

我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!

统计分析的结论与数据不吻合的!这是什么原因呢?

我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢?答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。

例1.2 哪一个企业职工的工资高?

这里有22名职工的工资情况,其中的12名职工来自企业1,另外的10名职工来自企业2。他们的工资(单位:千元)如附表1.2。

仅从数据来看,显然企业1职工的工资较高。

根据我们已学过的参数统计的方法,这个问题用什么方法来解决呢?(提问) 采用参数数据分析方法,假设企业1和企业2职工的工资分别服从正态分布),(2σa N 和),(2σb N ,则该问题转化为假设检验问题:

b a H =:0, b a H >:1

即两样本t 检验。

计算可得,检验统计量的值 t=1.282。

若取α=0.05,其临界值为725.1)20(95.0=t ,不能拒绝原假设,即认为二者没有区别;

若取α=0.10,其临界值为325.1)20(9.0=t ,仍不能拒绝原假设!计算p 值得到的结论也一样。

这个统计分析的结论显然与数据不吻合!之所以有问题,就是因为假设职工的工资服从正态分布的缘故。一般来说,工资、收入等的分布是不对称的,并且有一部分人的工资比较高,所以分布的右边有较长的尾巴。

对于以上的这样的问题,若想用参数数据的分析方法,就不能再假设总体服从正态分布,必须给它们赋一个较合理的分布函数,做到这点对于很多实际问题上是难度比较大的。除了这个办法之外,我们还可以用另外的处理办法,例如,非参数统计、参数和非参数方法相结合等等。这门课,我们主要讨论非参数方法。

二. 非参数统计方法特点

1.非参数统计方法通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体的分布不做假设,或者仅给出很一般的假设,例如连续型分布、对称分布等一些简单的假设,结果一般有较好的稳定性。所以适用范围非常宽泛。

在经典的统计框架下,正态分布一直是最引人注目的,但是对总体的分布不是随便做出来的,如以上两例,盲目地做出正态分布的假设有时候是起反作用的。 当数据的分布不是很明确,特别当样本含量不大,几乎无法对分布作推断的时候,此时使用参数方法就有一定的风险,我们就可以考虑用非参数的方法。

但要注意,非参数方法是与总体分布无关,而不是与所有分布无关!

2.非参数统计可以处理所有类型的数据。我们知道,统计数据按照数据类

型可以分为两大类:定性数据和定量数据。一般地,参数统计是处理定量数据,如果所收集到的数据不符合参数模型的假定,比如:数据只有顺序,没有大小,则很多参数模型无能为力,此时只能尝试非参数方法。例如:研究急性白血病患儿血液中血小板数与出血症状之间的关系。血小板数可用数据衡量,但出血症状则只能分为:明显、较明显、有出血点和无这4类。类似于这样的“等级资料”,参数方法没辙,可用非参数方法中的Spearman等级相关方法来做。

3.在不知道总体分布的情况下,如何利用数据所包含的信息呢?一组数据最基本的信息就是次序。非参数统计就是利用这个最基本的信息。如果把数据点按从小到大的次序排队,每一个具体数目都有它在整个数据中的位置,这称为该数据的秩(rank)。非参数统计的一个基本思想:用数据的秩代替数据,构造统计量进行统计推断。数据有多少个观察值,就有多少个秩。在一定的假设条件下,这些和由它们构成的统计量的分布是求得出来的,而且和原来的总体分布无关。就可以进行所需要的统计推断了。所以说,非参数统计只是和总体的分布无关,但和秩以及它们统计量的分布是密切相关的!

另外,其它与总体分布无关的统计方法也属于非参数统计。

4.在考虑非参数统计量的分布时,我们较多考虑这些统计量的渐近分布,由于利用到一些大样本方面的定理,得出来的渐近分布都服从正态分布或是由正态分布导出的分布,较容易计算和处理。

5.非参数方法与参数方法

通过刚才上面的解说,不要产生错觉,认为非参数方法总比参数方法有效!非参数方法不是总比参数方法有效!

毕竟非参数方法利用到的数据信息非常有限。如果人们对总体有充分的了解且足以确定其分布类型,则非参数方法比参数方法效率低。

例如在总体分布族已知的情况下,非参数统计一般不如参数统计结果精确!另外,在总体分布是均匀分布时,正态的参数方法又比非参数方法好!这点可以通过计算渐近相对效率来说明。

三.非参数统计的历史

相对参数统计而言,非参数统计起步较晚,但有后来者居上的趋势。

非参数统计的形成主要归功于20世纪40年代~50年代化学家F. Wilcoxon 等人的工作。Wilcoxon于1945年提出两样本秩和检验。1947年Mann 和Whitney两人将结果推广到两组样本量不等的一般情况。之后,相继涌现出大量论文。Savage 1962年统计的非参数论文就有3000多项。

Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题。

1956年,J.L.Hodges和E.L.Lehmann则发现了一个令人惊讶的结果,与正态模型中t检验相比较,秩检验能经受住有效性的较小损失。而对于重尾分布所产生的数据,秩检验可能更为有效。第一本论述非参数应用的书于1956年由S.Siegel出版,有人记载从1956年到1972年,该书被引用了1824次。这也说明非参数统计在这一时期的发展是相当活跃的。

60年代,J.L.Hodges和E.L.Lehmann从秩检验统计量出发,导出了若

干估计量和置信区间。这些方法为后来非参数方法成功应用于试验设计数据开启了一道大门。之后,非参数统计的应用和研究获得了巨大的成功。

上世纪六十年代中后期,Cox 和Ferguson 最早将非参数方法应用于生存 分析。上世纪70年代到80年代,非参数统计借助计算机技术和大量计算获得了更稳健的估计和预测,以P. J. Huber 和F. Hampel 为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。

上世纪90年代有关非参数统计的应用和研究主要集中在非参数回归和非参数密度领域,其中较有代表性的人物是Silverman 和J.Q. Fan 。

四. 非参数统计主要内容

非参数统计可以分成两个范畴,一个是比较经典的基于秩的,以检验为主的非参数统计推断,而另一部分是近二三十年来发展的非参数回归、非参数密度估计、自助法以及小波方法等现代非参数统计方法。这两者均不对总体分布做较为确定的假设,但除此之外,这两部分内容在方法和概念上均没有多少共同点。我们首先介绍经典地基于秩的,以检验为主的非参数统计推断,这也是我们的主要内容,然后介绍现代非参数统计的部分内容。

第二节 预备知识

一、秩统计量

1.定义:设n Z Z ,,1 是来自连续分布)(z F 的简单随机样本,)()1(n Z Z ≤≤ 为其次序统计量。定义随机变量

r R i =,当)(r i Z Z =,n i ,,2,1 =。

当是唯一确定时,称样本观测值i Z 有秩i R ,n i ,,2,1 =。(由于)(z F 连续,因而

i R 不唯一确定的概率为0。

) 即i R 是第i 个样本单元i Z 在样本次序统计量),,()()1(n Z Z 中的位置。 例1:已知一组数据,请写出它们相应的秩。

(1)20,10,30。

解:先将该组数据从小到大排列如下:10,20,30。所以10对应的秩为1,20对应的秩为2,30对应的秩为3。

(2)200,100,300。

解:先将该组数据从小到大排列如下:100,200,300。所以100对应的秩为1,200对应的秩为2,300对应的秩为3。

注意:这两组数据显然区别较大,但他们对应的秩却都是1,2,3。没有差别!!

2.性质。

定理1 记),,(1n R R R =,集合}),,1(),,(),,{(11的一个排列是n r r r r n n =?,

则R 在?上均匀分布。

证明:易知R 仅在?上取值。对任意一个?∈=),,(1n r r r ,

)},,(),,{(}{11n n r r R R P r R P ===

)},,(),,{()()1(1rn r n Z Z Z Z P ==

)},,(),,{()()1(1n dn d Z Z Z Z P ==

}{1dn d Z Z P <<= ,

其中k d i =,当i r k =时,即i d ),,1(n i =是i 在排列r 中的位置。又由于

()dn d d n Z Z Z d Z Z Z ,,,),,,(2121 ,

所以}{}{1n Z Z P r R P <<== 对任意?∈r ,上式均成立,所以对任意r ,这个概率均相等。而全部这样的事件互不相容且它们的和是必然事件,故对任意?∈r ,有!/1}{n r R P ==。

定理2 ),,,(21n R R R R =的边缘分布也是均匀分布,特别一维边缘分布有

?????===其他。时,当,

0,,2,1,1)(n r n r R P i

二维边缘分布,当j i ≠时,有

?????=≠-===其他。时,当,,

0,,2,1,,,)1(1)(n s r s r n n s R r R P j i

证明: 当n r ,,1 ≠时,0)(==r R P i 。

当n r ,,1 =时,因为 ()n n Z Z Z d Z Z Z ,,,),,,(1221 ,

于是有21R d R ,类似可证明:i R d R 1,n i ,,2 =。

所以,)()()(21r R P r R P r R P n ====== 。

又因为 φ===}{}{r R r R j i ,j i ≠ ,(考虑n 个样本两两不相等)

∑===n i i r R

P 11)(,

所以 n

r R P i 1)(==。类似可证明二维边缘分布和高维边缘分布是均匀分布。 定理3 对秩统计量),,,(21n R R R R =,有

2

1)(+=

n R E i ,n i ,,2,1 =, 12

)1)(1()(-+=n n R Var i ,n i ,,2,1 =, 121),(+-=n R R Cov j i ,n j i ,,2,1, =,j i ≠。 证明:由上定理可知,对于n i ,,2,1 =,

2

12)1(11)(1+=+==∑=n n n n n r

R E n r i , 12

)1)(1()()()(22-+=-=n n ER R E R Var i i i , 因为 ∑∑∑≠==??? ??+-??? ??+-+??? ??+-=????????? ?

?+-=s r n r n r n s n r n r n r 2121212101221 于是有 ∑≠??? ??+-??? ??+-+=

--=s r j j i i j i n s n r n n ER R ER R E R R Cov 2121)1(1))((),( 12

121)1(112+-=??? ??+---=∑=n n r n n n r 。 由以上三个定理知:仅依赖R 的统计量)(R S 关于连续分布构成的分布类是适应任何分布的。

二、次序统计量

1.定义:设有样本),,(1n X X X =。把n X X ,,1 按由小到大的次序排列为

)()2()1(n X X X ≤≤≤ , (1)

则),,,()()2()1(n X X X 称为样本X 的次序统计量,order statistics 。习惯上也常把序列(1)的一部分称为次序统计量。特别,)(i X 常称为第i 个次序统计量。如果n X X ,,1 是从分布F 中抽取的独立同分布样本,则称(1)是从F 中抽出的(大小为n 的)次序样本。

次序统计量在统计问题中有着广泛的应用,其理论也有深入的发展,也有不

少这方面的专著。在一定程度上讲,次序统计量的研究已形成数理统计学和概率论的一个分支。但有点需要明确:次序统计量既可以用于典型的非参数统计问题,如找连续分布函数的分位数的置信区间;也可用于典型的参数统计问题,如用极差的适当倍数去估计正态分布的标准差。所以从学科角度,不好把次序统计量的理论与方法说成是非参数统计的一部分,但很多著作上,却往往把次序统计量纳入其中。所以我们先介绍次序统计量的相关知识。

2.基本分布

在应用上,最常见的情况是:n X X ,,1 是从一个有分布F 的总体中抽取的简单随机样本(即独立同分布样本)。

<1>.单个次序统计量)(r X 的分布。

以r F 记)(r X 的分布函数,依定义有

)

,,()()(1)(x r X X P x X P x F n r r 个小于中至少有 =<=

∑∑=-=-==n r j j

n j j n n r j n x F x F C x j X X P ))(1)((),,(1个小于中恰好有

?-----=)(01)1()!()!1(!x F r n r dt t t r n r n (2)

(2)中的最后一个等式是基于以下的(3)式: ?∑--=----=-p r n r n r j j n j j n dt t t r n r n p p C

1)1()!()!1(!)1( )10,,,1(≤≤=p n r (3)

(3)的证明可依如下方法进行:当0=p 时,两边都是0。又两边都是关于p 的可导函数,且可证其一阶导数相同。注意(2)的积分是一个不完全β积分,其值可查不完全β函数表。

若F 有概率密度f ,则)(x F r 也有概率密度)(x f r ,且

)())(1)(()!

()!1(!)(1x f x F x F r n r n x f r n r r -----=。 (4) 特例: 当1=r 和n r =,即极小值与极大值的分布:

n x F x F ))(1(1)(1--=,)())(1()(11x f x F n x f n --=;

)()(x F x F n n =,)()()(1x f x nF x f n n -=。

<2>.两个次序统计量),()()(s r X X 的联合分布。

在实用中,最重要的是密度存在的情况,所以只给出两个次序统计量的联合密度函数的公式,推导可参见陈希孺和柴根象编写的《非参数统计教程》P23。 ),()())(1())()()(()!

()!1()!1(!),(11y f x f y F x F y F x F s n r s r n y x f s n r s r rs ----------= 当y x <时;否则,为0。

特别地,全体次序统计量),,()()1(n X X 的联合密度函数为

)()(!),,(1112n n n y f y f n y y f =,当n y y << 1时;否则,为0。

3.总体分布F 为(0,1)均匀分布的情况。

当总体分布为(0,1)均匀分布)1,0(U 时,密度函数为)()()1,0(x I x f =。此时,当10≤≤x 时,有x x F =)(,

)()1()!

()!1(!)()1,0(1x I x x r n r n x f r n r r -----= ,)1()()!

()!1()!1(!),(11s n r s r rs y x y x s n r s r n y x f ----------= 10<<

这个情况的重要性并不由于其形式简单,而是在于下面的定理。

定理4 设随机变量X 的分布函数F 在),(∞-∞处处连续。记)(X F Y =。则Y 有分布)1,0(U 。

证法一:

由于分布函数只取[0,1]之间的值,有:当0

当1≥y 时,1)(=≤y Y P ;当10<=有有限的下确界0x ,且由F 的连续性知,y x F =)(0。因而

y x F x X P x F X F P y Y P ==≤=≤=≤)()())()(()(000,10<

最后,由分布函数的右连续性知,对于0=y ,

0lim )(lim )0(00==≤=≤↓↓y y Y P Y P y y 。

证法二:

由于分布函数只取[0,1]之间的值,有:当0

当1≥y 时,1)(=≤y Y P ;当10<

y x F x X P x F X F P y Y P ==≤=<=<)()())()(()(000,10<

最后,由分布函数的右连续性知,对于0=y ,

0lim )(lim )0(00==≤=≤↓↓y y Y P Y P y y 。

注意:由此定理可知,若)()1(n X X ≤≤ 是从连续分布F 中抽出的次序样本,而记),()()(i i x F U =n i ,,2,1 =,则)()1(n U U ≤≤ 是从分布)1,0(R 中抽出的次序样本。注意)1,0(R 是一个完全确定的分布,与总体分布F 无关。正是这一点导致它在非参数统计中的应用,在理论上说,它可以把某些针对一般分布的问题转化为均匀分布之下的问题。

对于均匀分布,还有以下的结论需引起注意:

定理 5. 随机变量θ服从)1,0(U 分布。设)(x F 是任意一个分布函数,且在),(∞-∞上处处连续,定义})(:inf{)(1y x F x y F >=-,令)(1θξ-=F ,则ξ是服从分布函数为)(x F 的随机变量。

证明:

显然)(1y F -也是一个单调不减的函数,并且y y F F =-))((1。记ξ的分布函数为)(x F ξ,则

)())(())(()()(1x F x F P x F P x P x F =<=<=<=-θθξξ,

所以)()(x F x F =ξ,即)(~x F ξ。

注意:以上定理说明,只要能产生服从)1,0(U 分布的随机变量,则对任意在),(∞-∞上处处连续的分布函数)(x F ,就能生成以)(x F 为分布函数的随机变量。

以下定理可做了解:

定理6. 以)()1(n X X ≤≤ 记)1,0(U 中大小为n 的次序样本。又n Z Z ,,1 为独立

同分布的,1Z 有负指数分布,其密度为)0(>-x x I e ,记∑-+=-+=

r n i i

r i n Z Y 11)1/(,n r ,,2,1 =,则 ),()log ,,log (1)()1(n n Y Y d X X --。

三、假设检验

1.显著性检验的基本思想

为了对总体的分布类型或分布中的未知参数作出推断,首先对它们提出一个假设0H ,然后在0H 为真的条件下,通过选取恰当的统计量来构造一个小概率事件,若在一次试验中,这个小概率事件居然发生了,就完全有理由拒绝0H ,否则没有充分的理由拒绝0H ,从而接受0H 。

2.两种假设的选取

例2 某批发商欲从厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取了100个灯泡,得知样本均值为996小时。批发商是否应该购买这批灯泡?(05.0=α)

即为单个正态总体均值的U 检验。假设检验取为

1000:0≥μH ,1000:1<μH

计算可得检验统计量的值2-=U ,查表可得05.0=α,100=n 时,该检验的拒绝域为]645.1,(--∞。

结论:在05.0=α时,拒绝0H ,即我们有充分的理由认为这批灯泡的寿命低于1000小时!

进一步提出一个问题:若我们将原假设和备择假设换一下,即

1000:0≤μH ,1000:1>μH

经计算,检验统计量2-=U ,查表可得05.0=α,100=n 时,该检验的拒绝域

为),645

.1[+∞。 结论:在05.0=α时,不能拒绝0H ,即这批灯泡的寿命可能低于1000小时! 从这个例子我们可以看出,就检验结果而言,拒绝原假设的理由是充分的,而接受原假设的理由是不充分的。所以一般把希望拒绝的,有把握拒绝的命题作为原假设!所以在零假设和备择假设的选取上一定要把握好这个原则!

3.两类错误

第一类错误:弃真,即:0H 是真的,但被拒绝了。

犯第一类错误的概率计算公式: }{)(00为真拒绝H H P =θα

第二类错误:存伪,即:0H 是假的,但被接受了。 犯第二类错误的概率计算公式:}{}{)(1000为真接受为假接受H H P H H P ==θβ

样本容量确定之后,不可能同时让犯两类错误的概率减少!所以采用的方法是控制犯第一类错误的概率,让犯第二类错误的概率尽可能地小。

4.显著性水平和功效

显著性水平α就是犯第一类错误的概率的最大值。即:

αθα≤)(s u p ,0Θ∈θ

换句话说:当0H 为真,拒绝零假设的最大概率是α,则接受零假设的最小概率是α-1。

检验功效就是拒绝错误零假设的概率,即)(1θβ-。

注:不同于显著性水平α,若1H 是复杂假设时,功效不一定唯一!

5.p 值

检验的p 值就是根据已知的观测,犯第一类错误的最小概率。

若α≤p ,则拒绝0H ;若α>p ,则不拒绝0H 。

那么如何计算p 值呢?

若令obs t 表示检验统计量T 的观察值,则在单边检验中,

当T 的值越大越能拒绝0H ,接受1H 时,)(t T P p ≥=值;

当T 的值越小越能拒绝0H ,接受1H 时,)(t T P p ≤=值。

而在双边检验中,)}(),(min{2t T P t T P p ≤≥=值。

在本课程中很多地方要计算p 值,非常重要。

6.置信区间

定义:设),,(1n X X X =为来自总体的样本,若不论参数θ在参数空间Θ中取什么值,“区间))(),((21X g X g 包含θ”这个事件的概率,总不小于指定的常数

α-1,即:

αθθ-≥<<1))()((21X g X g P ,一切Θ∈θ,

则称))(),((21X g X g 是θ的置信水平α-1的置信区间。

注意:(1)若α-1为置信水平,对于101<≤<αα,则11α-也是置信水平, 称一切置信水平中的最大者为置信系数。

(2)一般而言,α一般取值很小,所以α-1是很接近1的。例如取05.0=α, 置信区间的说明:以0.95的概率保证被估计参数θ包含在区间))(),((21X g X g 中。

7.置信区间与假设检验的双边检验关系

考虑显著性水平为α的双边检验

00:θθ=H ,01:θθ≠H

得到它的拒绝域为: )(10X g ≤θ或)(20X g ≥θ

即: )((100X g P ≤θθ或αθ≤≥))(20X g

这等价于: αθθ-≥<<1))()((2010X g X g P ,

即,区间))(),((21X g X g 是0θ的置信系数为α-1的置信区间!

反之,设))(),((21X g X g 是参数θ的一个置信系数为α-1的置信区间,则对于任意的Θ∈θ,有

αθθ-≥<<1))()((21X g X g P , (5)

考虑显著性水平为α的双边检验

00:θθ=H ,01:θθ≠H

由(5)得: αθθ-≥<<1))()((2010X g X g P

即有: )((100X g P ≤θθ或αθ≤≥))(20X g

按显著性水平为α的假设检验的拒绝域的定义,

该检验的拒绝域为:)(10X g ≤θ或)(20X g ≥θ,接受域为)()(201X g X g <<θ。

四、相对效率与渐近相对效率

定义1:设1T 和2T 分别表示两种检验,用来检验相同的原假设和备择假设,取相等显著性水平α和相同功效β,2T 对1T 的相对效率定义为比值21/n n ,其中1n

和2n 分别是检验1T 和2T 的样本容量。

从定义1可以看出:相对效率越大,则检验2T 越有效!

定义2:令1n 和2n 分别是在相同的显著性水平下,有相同功效的两个检验1T 和2T 的样本容量。如果α和β固定,当1n 趋于无穷时(这时2n 也必趋于无穷), 极限21/n n 存在,且与α和β独立,那么,21/n n 的极限称为第二个检验对第一个检验的渐近相对效率(ARE(2T ,1T ))。

注意:若极限21/n n 小于1,则说明1T 比2T 有效;

若极限21/n n 大于1,则说明2T 比1T 有效。

下表给出了几个不同的总体分布下,正态t 检验(t )、非参数统计的符号检验(S )和Wilcoxon 符号秩检验(W+)之间的渐近相对效率。

附表 1.1 100个零件的长度。

附表1.2 两个企业职工的工资

《-非参数统计-》课程教学大纲上课讲义

《非参数统计》课程教学大纲 Non-parametric statistics 课程代码:课程性质:专业方向理论课/选修 适用专业:统计开课学期:5 总学时数:32 总学分数:2.0 编写年月:2007.5 修订年月:2007.7 执笔:孙琳 一、课程的性质和目的 本课程是学习非参数统计和了解统计前沿的基本课程。本课程结合S-Plus 或R 软件来讲解非参数统计方法的原理与应用。本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一,理解非参数统计方法和参数统计方法的区别,理解非参数统计的基本概念,掌握非参数统计的基本方法,能应用非参数统计方法去解决实际问题。 二、课程教学内容及学时分配 第一章引言(2学时) 本章内容:统计的概念,非参数统计的方法,参数统计与非参数统计的比较, 本章要求:了解非参数统计的历史,了解非参数统计方法和参数统计方法的区别,认识非参数统计方法的必要性。 第二章 S-Plus基础(6学时) 本章内容:S-Plus环境,向量的定义和表示,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能, 本章要求:熟悉在S-Plus命令行中S-Plus基本数据处理,掌握在S-Plus命令行中进行基本数据基本运算,能编写简单的计算函数,会绘制基本图形。 第三章单一样本的推断问题(6学时) 本章内容:单样本推断问题,中心位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数 检验问题、定性数据检验问题和成对数据检验问题,秩和检验。

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1

第一章 绪 论 本章主要内容: 1.非参数方法介绍 2.预备知识 第一节 非参数方法介绍 一. 非参数方法的概念和实例 复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。 先来看两个实例。 例 供应商供应的产品是否合格 某工厂产品的零件由某个供应商供应。合格零件标准长度为(±)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。 解答: 根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即 X ~),(2σμN 其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。 则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢这是我们要思考的问题。 我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多! 统计分析的结论与数据不吻合的!这是什么原因呢 我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概

非参数统计

中国海洋大学本科生课程大纲 课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修 一、课程介绍 1.课程描述: 非参数统计是数理统计学的一个分支,它是针对参数统计而言的。所谓参数统计,简 单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立 的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体 分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获 得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路: 本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。 课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面: (1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量, 秩统计量的概念,一些统计量的近似分布。 (2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。 (3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与 独立性检验,多总体的比较。 - 1 -

(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。 3. 课程与其他课程的关系: 先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。 非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。 二、课程目标 非参数统计具有应用性广,稳健性好等特点。通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时,要求学生能够做到: (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布;理解并掌握U统计量秩统计量的概念;理解一些常用统计量的近似分布。重点是次序统计量及其分布; U统计量构造,秩统计量; (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想,掌握检验的一般步骤,掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。 三、学习要求 要完成所有的课程任务,学生必须: (1)按时上课,认真听讲,认真完成作业。其中有一些作业需要学生自编程序用机器完成。(2)按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。 (3)完成一定量的阅读文献和背景资料,可以以小组的形式讨论学习,促进同学间的心得交 - 1 -

非参数统计教学大纲

遵义师范学院课程教学大纲 非参数统计教学大纲 (试行) 课程编号:280020 适用专业:统计学 学时数:64 学分数: 4 执笔人:黄建文审核人: 系别:数学教研室:统计学教研室 编印日期:二〇一五年七月

课程名称:非参数统计 课程编码: 学分:4 总学时:64 课堂教学学时:64 实践学时: 适用专业:统计学 先修课程:高等数学、线性代数、概率论、数理统计 一、课程的性质与目标: (一)该课程的性质 本课程属专业方向选修课程。非参数统计形成于二十世纪四十年代,是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支,含有丰富的统计思想并在实践中有着广泛的应用。非参数统计方法不依赖于总体分布及其参数,适用于多种类型的数据,进行统计推断时仅需要一些非常一般性的假设,因而具有良好的稳健型,在总体分布未知的情况下往往比参数统计方法有效。 (二)该课程的教学目标 本课程的教学目的是使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生掌握本课程的基本知识、基本概念、基本原理和基本方法,能应用非参数统计方法解决一些简单的实际问题;注重学生统计思维能力和实践能力的培养,进一步培养学生重视原始资料的完整性与准确性、对数据处理持严肃认真态度的专业素质。 二、教学进程安排 课外学习时数原则上按课堂教学时数1:1安排。

三、教学内容与要求 第一章引言 【教学目标】 通过本章学习,使学生清楚非参数统计的研究对象,了解非参数统计的历史,明白非参数统计方法和参数统计方法的区别,认识学习非参数统计方法的必要性,了解非参数统计的一些基本概念与基本工具;通过对初等推断统计的简单回顾,要求学生提炼并把握推断统计思想的实质,为后续章节学习非参数统计的分析技巧和主要思想打下基础。 【教学内容和要求】 主要教学内容:非参数统计研究内容;非参数统计小史;初等推断统计回顾;非参数统计基本概念。 教学重点与难点:教学重点是通过与参数统计异同的比较,介绍非参数统计的研究内容与研究方法;教学难点是对检验的相对效率、秩检验统计量、U统计量等非参数统计基本概念的理解。 【课外阅读资料】 吴喜之.非参数统计.北京:中国统计出版社.2009.11 【作业】 思考:非参数统计方法相对于与参数统计的优点和缺点。

《非参数统计》教学大纲

《非参数统计》课程教学大纲 课程代码:090531007 课程英文名称:Non-parametric Statistics 课程总学时:40 讲课:32 实验:8 上机:0 适用专业:应用统计学 大纲编写(修订)时间:2017.6 一、大纲使用说明 (一)课程的地位及教学目标 《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。课程主要研究非参数统计的基本概念、基本方法和基本理论。本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。 通过本课程的学习,学生将达到以下要求: 1.掌握非参数统计方法原理、方法,具有统计分析问题的能力; 2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力; 3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力; 4.了解非参数统计的新发展。 (二)知识、能力及技能方面的基本要求 1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。 2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。 3.基本技能:掌握非参数统计方法的计算机实现。 (三)实施说明 1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。 2.教学方法:课堂讲授中要重点对基本概念、基本方法和解题思路的讲解;采用启发式教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力;增加讨论课,调动学生学习的主观能动性;注意培养学生提高利用统计软件分析问题的能力。讲课要联系实际并注重培养学生的创新能力。 3.教学手段:在教学中采用多媒体教学系统等先进教学手段,以确保在有限的学时内,全面、高质量地完成课程教学任务。 (四)对先修课的要求 本课程的教学必须在完成先修课程之后进行,本课程的先修课程为概率论与数理统计。要求学生取得概率论与数理统计课程学分。 (五)对习题课、实践环节的要求 1. 对重点、难点章节应安排习题课,例题的选择以培养学生消化和巩固所学知识,用以解决实际问题为目的。

第七章讲义非参数统计

第七章 非参数统计 非参数统计(亦称非参数检验),是根据样本资料对总体的某 种性质或关系进行假设检验的统计推断方法。 主要特点 (1)不要求总体分布已知或对总体分布作任何限制性假定; (2)不以估计总体参数为目的; (3)能用于定性变量(即定名测定和序列测定的变量); (4)方法直观,易于理解,运算比较简单。 (5)缺点是检验的功效不如参数检验方法。 本章主要内容 介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。 第一节 χ2检验 一、什么是χ2检验 χ 2 检验是运用χ 2 分布作为理论工具,在非参数统计中可用 于对总体的分布或随机变量的独立性进行的检验。 (一)χ2分布 χ 2 分布是由正态分布推导出来的一种连续型随机变量的概 率分布。 1.χ2分布的数学形式 设随机变量x 1,x 2,…,x k 相互独立且都服从正态分布N (μ, σ2)。将它们标准化转变为标准正态变量Z 1,Z 2,…,Z k ,k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。 21 2 1 2 2 22212 )(1 )( )( )( i k i i k i k Z x x x x ∑∑===-= -++-+-=μσσ μ σ μ σ μ χ

χ2~χ2(k),k 是自由度,表示定义式独立变量的个数。 当k=1时, 2.χ2分布的性质 (1)χ2分布的值恒为正值,且 ?(χ2, k) d χ2 =1; (2)χ2分布的数学期望是自由度k ,方差为2k ; (3)χ2分布取决于自由度k ,随着自由度增大而趋于对称。 一般当k ≥30时,χ2分布可用正态分布近似计算。 (二)χ2检验的原理 在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。 设有k 个观察值,f 0为它们的实际频数,f e 为理论频数。构造 一个统计量 数理统计证明,在大量试验中,若f 0与f e 相一致时,χ2服从χ2分布。 (f 0-f e )比较小时,χ2值也较小;(f 0-f e )比较大时,χ2也较 大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。 2 22)(Z x =-=σμχ? (χ2) χ2 (k) k=15 k=1 k=3 k=5 ? (χ2 ) χ2 χ2 0.05(4) ) (/)(21 2 为自由度k f f f e e o k i -=∑=χ∞0

非参数统计学讲义(第二章)讲稿

非参数统计学讲义 第二章 单样本模型 §1 符号检验和有关的置信区间 在有了一个样本 n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样 之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为 n s X t /μ-= 这里 X 为样本均值,而2 1 1 )(X X n S -∑-= 为样本标准差。t —检验的统计量在零假设下有n —1个自由度的t —分布。 检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t —检验也许是世界上用得最广泛的检验之一。但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。 本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了. 一、问题的提出 【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99): 表2-1 生活花费指数数据 66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110 110 110 111 113 115 116 117 118 155 192 在例子中,人们可能会问:①总体的平均(或者中间)水平1 是多少?②北京是在该水平之上还是之下? 可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计书中的均值就是一个位置参数.中位数是另一个位置参数.它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差. 这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置. 通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t 检验有关的方法进行的。然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。 1 刻划位置参数的量有:①平均值:∑i x n 1;②中位数:? ??+=++为偶数为奇数n x x n x M n n n 2/)(2/)1()()1(;③修整均值:∑-+=-=j n j i i j n x j T 1)(2)(, 2 n j < ;④众数;⑤中列数:2/)()1()(X X n -。

王静龙《非参数统计分析》课后计算题参考答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1) =0.026625957 S n H me H me P S + ==<≤ 另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设,即中位数低于6500 1.2

非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学 非参数统计检验方法的应用 阮曙芬1 程娇翼 1 张振中2 (1.中国地质大学数理学院,武汉 430074;2.中南大学数学科学与计算学院,长沙 410075) 摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验 1引言 非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验 符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。 设随机变量12,,...,n X X X 相互独立同分布,分布为()F x ,()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为12,,...,n X X X ,相互独立同分布,分布为()F x ;另一个样本为12,,...,n Y Y Y ,相互独立同分布,分布为()G x ,()F x , ()G x 连续。问随机变量Y 是否随机大于随机变量X ,即检验

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

非参数统计论文

非参数统计方法与实例 在统计学中,最基本的概念是总体、样本、随机变量、分布、估计和假设检验等,其中很大一部分食与正态理论相关的。在我们已经学过的知识里,总体的分布形式往往是给定的或已经假定了的,我们只需要在总体分布已知的基础上对参数进行估值或者进行检验。但是实际上,对总体的分布的假定并不是能随便做出的,数据可能并不是来自假定的总体分布,或者根本不是来自同一个总体。在这种假定下进行推断就可能产生错误的结论。于是,人们希望能在不假定总体分布的情况下,尽量从数据本身来获得所需的信息,这就是非参数统计的宗旨。在统计学的方法中,参数方法与非参数方法没有谁优谁劣之说,有的只是在具体情况下,谁更适用、谁更准确完整表示数据的信息。接下来,我将就参数统计与非参数统计分别分析其适用情形与优缺点,并详细介绍几种非参数统计的方法并有案例分析。 1、参数统计与非参数统计 非参数统计方法和参数统计方法共同组成统计分析方法,它们都是统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。 就上文我们可以看出,参数统计和非参数统计分别针对不同的数据来使用。参数统计方法的适用范围是很好确定的,它适用于数据分布已知或者可以做出比较正确的假定的数据,对这些数据进行检验、估计,得出数据总体的均值、方差等参数来描述数据特征。这样的数据一般都有这三个要求:1、抽样总体为正态分布或近似正态分布;2、各抽样总体为等方差或方差齐性;3、各变量值间是相互独立的。 而非参数统计,顾名思义,是不用估计参数来描述数据特征的方法,只通过对数据作一些诸如分布连续、有密度、具有某阶矩等一般性的假定来揭示数据特征,这也就赋予了非参数统计方法特别的适用数据范围,一般总结为以下四种:1、待分析数据不满足参数检验所要求的假定,因而无法应用参数检验;2、仅由一些等级构成的数据,不能应用参数检验。例如,在一些经济数据中,通常是将一个特征数据分级而不是采用具体数据,这样的数据时没办法做参数检验和估计的,因此非参数统计也就适用了;3、所提的问题的数据中并不包含的参数,也不能用参数检验;4、当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统

王静龙非参数统计分析课后计算题参考答案Word版

王静龙《非参数统计分析》课后习题计算题参考答案 习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957 S n H me H me P S +==<≤ 另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设,即中位数低于6500 1.2

非参数统计教学大纲

《非参数统计》课程教学大纲 一、课程基本信息 课程代码:G05306 课程名称:非参数统计 课程性质:选修课 课程类别:专业与专业方向课程 适用专业:统计学 总学时:48学时 总学分:3学分 先修课程:概率论、数理统计 后续课程:统计预测与决策 课程简介: 非参数统计是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支,含有丰富的统计思想并在实践中有着广泛的应用。形成于二十世纪四十年代,在二次世界大战后得到迅速发展,现已成长为一个体系博大、理论精深且富于实用价值的分支,是高等学校统计学专业本科生的一门专业选修课。非参数统计方法不依赖于总体分布及其参数,适用于多种类型的数据,进行统计推断时仅需要一些非常一般性的假设,因而具有良好的稳健型,在总体分布未知的情况下往往比参数统计方法有效。针对非参数统计方法,展开基本理论和方法的学习,课程内容依次介绍计数统计量、秩统计量、线性秩统计量、U统计量、功效函数、检验的渐近相对效率、由经验分布产生的非参数估计、Hodges-Lehmann估计等非参数统计的概念与方法。本课程的教学目的是使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生掌握本课程的基本知识、基本概念、基本原理和基本方法,能应用非参数统计方法解决一些简单的实际问题;注重学生统计思维能力和实践能力的培养,进一步培养学生重视原始资料的完整性与准确性、对数据处理持严肃认真态度的专业素质。 选用教材: 《非参数统计讲义》,孙山泽[M].北京:北京大学出版社,2002 参考书目: [1]《非参数统计方法》,吴喜之,王兆军[M].北京:高等教育出版社,2006; [2]《非参数统计分析》,王静龙[M].北京:高等教育出版社,2006; [3]《非参数统计方法》,李裕奇[M].北京:国防工业出版社,1998; [4]《非参数统计教程》,陈希孺,柴根象[M].上海:华东师范大学出版社,1993 二、课程总目标 通过本课程的学习,使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生能够理解掌握非参数统计的基本理论与分析方法,学会统计数据的非参数模型的建立与检验的基本方法,包括计数统计量、秩统计量、线性秩统计量、U统计量、功效函数、检验的渐近相对效率、由经验分布产生的非参数估计、Hodges-Lehmann估计等。从而能应用非参数统计方法

非参数统计讲义

第一章 绪 论 本章主要内容: 1.非参数方法介绍 2.预备知识 第一节 非参数方法介绍 一. 非参数方法的概念和实例 复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。 先来看两个实例。 例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。合格零件标准长度为(8.5±0.1)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在8.4-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。 解答: 根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即 X ~),(2σμN 其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。 则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢?这是我们要思考的问题。 我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多! 统计分析的结论与数据不吻合的!这是什么原因呢? 我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢?答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。

非参数统计分析

第十三章非参数统计分析 统计推断方法大体上可分为两大类。第一大类为参数统计方法。常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。 非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。 单样本情形: 检验样本所在总体的位置参数或者分布是否与已知理论值相同。 ①Chi-Square过程:针对二分类或者多分类资料 例题1:见书P243。检验样本分布情况是否与已知理论分布相同。运用卡方检验过程。 ②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。 例题2 :见书P246。检验某一比例是否与已知比例相等,运用二项分布过程。练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。 ③Runs过程:用于检验样本序列是否是随机出现的。二分类资料和连续性资料均可。 游程检验: 游程的含义: 假定下面是由0和1组成的一个这种变量的样本: 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。 游程检验的原理 判断数据序列是否是真随机序列。该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。例题3:见书P247。检验样本数据是否是随机出现的。 例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。 提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。 ④1-Sample--K –S 过程 原理:单样本的Kolmogorov-Smirnov检验(K-S检验)方法主要针对连续性资料,是用来检验一个样本数据的观测累积分布是否是已知的理论分布。这些

非参数统计主要内容

非参数统计主要容 一、知识点 1非参数统计方法与参数统计方法的主要区别有哪些 参数统计 主要是数理统计学中的方法,基于某种分布的,比如正态分布 指数分布,进行参数估计 检验 区间预测等等 非参数方法主要用于那些分布并不服从某一个已知的分布 也不知道他们的参数 不针对参数的求算进行的统计分析 4符号检验与符号秩和检验的区别与联系 符号检验并没有充分利用对称分布的信息,它并不能有效地解决对称中心θ是否为原点的检查问题。符号秩和检验 方法作为符号检验的改进,它能有效解决对称中心θ是否为原点的检验。 Wilcoxon 秩和及Wilcoxon 符号秩检验是对原假设的非参数检验,在不需要假设两个样本空间都为正态分布的情况下,测试它们的分布是否完全相同。 5Wilcoxon 检验统计量与Mann-Whitney U 统计量的计算及其关系。 这两者都是 适用与不知总体分布形态的,两独立样本,小样本资料的非参数检验。都是 秩和检验,SPSS 读的是Mann-Whitney U 检验的结果。 Wilcoxon signed-rank test 应用于两个related samples , Mann –Whitney U test 也叫Wilcoxon rank-sum test ,应用于两个independent samples 的情况。 公式和统计量不大一样,结果也略有所差异,但这不大影响使用这两种方法。 samples size 小的时候,是有列表的,sample size 大到20左右时,就可以使用正态分布来近似,不查表了 2秩统计量的性质,秩统计量的常用数字特征(期望、方差)会计算给定样本的、相同样本的随机秩法与平均秩法 3描述性统计量的计算方法(均值、方差、标准差、峰度) 方差var n 2 2 i i=1 1s =(x -x )n-1∑ 期望12n x +x +...+ x x = n 4 k 4 总体峰度 = μβσ 6会用符号检验和秩和检验处理单样本问题(配对数据)的中位数检验问题 7会用Mood 检验和Wilcoxon 秩和检验处理两样本问题 8会用Mood 检验和AB 检验方法来检验 两样本的尺度参数 9会用Kruskal-Wallis 检验方法处理多个独立样本的检验 10会用Friedman 检验方法处理区组设计问题

王静龙《非参数统计分析》教案

.引言 一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。 例如:分析下面的供应商的产品是否合格? 合格产品的标准长度为(±),随即抽取n=100件零件,数据如下: 表 经计算,平均长度为cm x 4958.8=,非常接近中心位置,样本标准差为 () 1047.011 2 =--= ∑=n i i n x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。 这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂 商,而用非参数分析却是另外一个结果。 以下是100个零件长度的分布表:

这说明有90%的零件长度在)2.05.8(±cm 之间,有9%的零件不合格,所以工厂不需要换供应商。 例2 哪一个企业职工的工资高? 表两个企业职工的工资 显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ,则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为b a H =:0,备择假设为b a H >:0 则 ))11(,(~2σn m b a N y x +-- 若0H 为真,则 其中])()([211 212 2∑∑==-+--+= n i i m i i w y y x x n m S 拒绝域为:}325.1{)}20({90.0≥=≥t t t 检测值为:282.1=t 故不能拒绝原假设,认为两企业的工资水平无差异。 也可以用值-P 检验 由于1073.0)282.1)20((=≥t P 故不能拒绝原假设,认为两企业的工资水平无差异。

相关主题
文本预览
相关文档 最新文档