非参数统计讲义
- 格式:doc
- 大小:1.17 MB
- 文档页数:20
非参数统计学讲义第二章 单样本模型 §1 符号检验和有关的置信区间在有了一个样本n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。
例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为ns X t /μ-=这里X 为样本均值,而211)(X X n S -∑-=为样本标准差。
t —检验的统计量在零假设下有n —1个自由度的t —分布。
检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。
t —检验也许是世界上用得最广泛的检验之一。
但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。
这时就要考虑使用非参数方法。
对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。
本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了.一、问题的提出【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99):表2-1 生活花费指数数据66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110110110111113115116117118155192在例子中,人们可能会问:①总体的平均(或者中间)水平1是多少?②北京是在该水平之上还是之下?可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。
非参数统计学讲义第一章 引 言 §1 序一、先修课程 1.线性代数 2.概率论 3.数理统计 4.相应的统计软件 二、参考书目1.张尧庭:《定性资料的统计分析》,广西师范大学出版社出版,1991、11; 2.易丹辉:《非参数统计——方法与应用》,中国统计出版社,1996、3; 3.S .西格耳著:《非参数统计》,科学出版社,1986、8;4.袁卫、易丹辉、何晓群等:《新编统计学教程》,经济科学出版社,1999、2; 5.陆璇:《数理统计基础》,清华大学出版社,1998、9; 6.易丹辉:《STATISTICA6.0》,中国统计出版社,2002、10;7.洪楠等:《STATISTICA for Windows 统计与图表分析教程》,清华大学出版社&北方交通大学出版社,2002、10。
三、几点要求1.复习数理统计的有关内容; 2.及时消化课件的内容; 3.按时完成作业; 四、简单回顾在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。
在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。
于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等.最常见的检验为对正态总体的t —检验,F —检验,2和最大似然比检验等.然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。
有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。
这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。
于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。
这就是非参数统计的宗旨。
因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论.这时,非参数方法往往优于参数方法。
第一章 绪 论本章主要内容: 1.非参数方法介绍 2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。
合格零件标准长度为(8.5±0.1)cm 。
这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在8.4-8.6cm 之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢?这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢?我们可以作出数据的直方图来分析数据的分布情况。
非参数统计讲义(总14页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。
合格零件标准长度为(±)cm 。
这也就是说合格零件长度的中心位置为,允许误差界为,即长度在-之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =,样本标准差为s=。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在~之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。
由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。
例 哪一个企业职工的工资高这里有22名职工的工资情况,其中的12名职工来自企业1,另外的10名职工来自企业2。
他们的工资(单位:千元)如附表。
仅从数据来看,显然企业1职工的工资较高。
根据我们已学过的参数统计的方法,这个问题用什么方法来解决呢(提问)采用参数数据分析方法,假设企业1和企业2职工的工资分别服从正态分布),(2σa N 和),(2σb N ,则该问题转化为假设检验问题:b a H =:0, b a H >:1即两样本t 检验。
计算可得,检验统计量的值 t=。
若取α=,其临界值为725.1)20(95.0=t ,不能拒绝原假设,即认为二者没有区别;若取α=,其临界值为325.1)20(9.0=t ,仍不能拒绝原假设!计算p 值得到的结论也一样。
这个统计分析的结论显然与数据不吻合!之所以有问题,就是因为假设职工的工资服从正态分布的缘故。
一般来说,工资、收入等的分布是不对称的,并且有一部分人的工资比较高,所以分布的右边有较长的尾巴。
对于以上的这样的问题,若想用参数数据的分析方法,就不能再假设总体服从正态分布,必须给它们赋一个较合理的分布函数,做到这点对于很多实际问题上是难度比较大的。
除了这个办法之外,我们还可以用另外的处理办法,例如,非参数统计、参数和非参数方法相结合等等。
这门课,我们主要讨论非参数方法。
二. 非参数统计方法特点1.非参数统计方法通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体的分布不做假设,或者仅给出很一般的假设,例如连续型分布、对称分布等一些简单的假设,结果一般有较好的稳定性。
所以适用范围非常宽泛。
在经典的统计框架下,正态分布一直是最引人注目的,但是对总体的分布不是随便做出来的,如以上两例,盲目地做出正态分布的假设有时候是起反作用的。
当数据的分布不是很明确,特别当样本含量不大,几乎无法对分布作推断的时候,此时使用参数方法就有一定的风险,我们就可以考虑用非参数的方法。
但要注意,非参数方法是与总体分布无关,而不是与所有分布无关!2.非参数统计可以处理所有类型的数据。
我们知道,统计数据按照数据类型可以分为两大类:定性数据和定量数据。
一般地,参数统计是处理定量数据,如果所收集到的数据不符合参数模型的假定,比如:数据只有顺序,没有大小,则很多参数模型无能为力,此时只能尝试非参数方法。
例如:研究急性白血病患儿血液中血小板数与出血症状之间的关系。
血小板数可用数据衡量,但出血症状则只能分为:明显、较明显、有出血点和无这4类。
类似于这样的“等级资料”,参数方法没辙,可用非参数方法中的Spearman等级相关方法来做。
3.在不知道总体分布的情况下,如何利用数据所包含的信息呢一组数据最基本的信息就是次序。
非参数统计就是利用这个最基本的信息。
如果把数据点按从小到大的次序排队,每一个具体数目都有它在整个数据中的位置,这称为该数据的秩(rank)。
非参数统计的一个基本思想:用数据的秩代替数据,构造统计量进行统计推断。
数据有多少个观察值,就有多少个秩。
在一定的假设条件下,这些和由它们构成的统计量的分布是求得出来的,而且和原来的总体分布无关。
就可以进行所需要的统计推断了。
所以说,非参数统计只是和总体的分布无关,但和秩以及它们统计量的分布是密切相关的!另外,其它与总体分布无关的统计方法也属于非参数统计。
4.在考虑非参数统计量的分布时,我们较多考虑这些统计量的渐近分布,由于利用到一些大样本方面的定理,得出来的渐近分布都服从正态分布或是由正态分布导出的分布,较容易计算和处理。
5.非参数方法与参数方法通过刚才上面的解说,不要产生错觉,认为非参数方法总比参数方法有效!非参数方法不是总比参数方法有效!毕竟非参数方法利用到的数据信息非常有限。
如果人们对总体有充分的了解且足以确定其分布类型,则非参数方法比参数方法效率低。
例如在总体分布族已知的情况下,非参数统计一般不如参数统计结果精确!另外,在总体分布是均匀分布时,正态的参数方法又比非参数方法好!这点可以通过计算渐近相对效率来说明。
三.非参数统计的历史相对参数统计而言,非参数统计起步较晚,但有后来者居上的趋势。
非参数统计的形成主要归功于20世纪40年代~50年代化学家F. Wilcoxon 等人的工作。
Wilcoxon于1945年提出两样本秩和检验。
1947年Mann 和Whitney两人将结果推广到两组样本量不等的一般情况。
之后,相继涌现出大量论文。
Savage 1962年统计的非参数论文就有3000多项。
Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题。
1956年,J.L.Hodges和E.L.Lehmann则发现了一个令人惊讶的结果,与正态模型中t检验相比较,秩检验能经受住有效性的较小损失。
而对于重尾分布所产生的数据,秩检验可能更为有效。
第一本论述非参数应用的书于1956年由出版,有人记载从1956年到1972年,该书被引用了1824次。
这也说明非参数统计在这一时期的发展是相当活跃的。
60年代,J.L.Hodges和E.L.Lehmann从秩检验统计量出发,导出了若干估计量和置信区间。
这些方法为后来非参数方法成功应用于试验设计数据开启了一道大门。
之后,非参数统计的应用和研究获得了巨大的成功。
上世纪六十年代中后期,Cox和Ferguson最早将非参数方法应用于生存分析。
上世纪70年代到80年代,非参数统计借助计算机技术和大量计算获得了更稳健的估计和预测,以P. J. Huber和F. Hampel为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。
上世纪90年代有关非参数统计的应用和研究主要集中在非参数回归和非参数密度领域,其中较有代表性的人物是Silverman和. Fan。
四. 非参数统计主要内容非参数统计可以分成两个范畴,一个是比较经典的基于秩的,以检验为主的非参数统计推断,而另一部分是近二三十年来发展的非参数回归、非参数密度估计、自助法以及小波方法等现代非参数统计方法。
这两者均不对总体分布做较为确定的假设,但除此之外,这两部分内容在方法和概念上均没有多少共同点。
我们首先介绍经典地基于秩的,以检验为主的非参数统计推断,这也是我们的主要内容,然后介绍现代非参数统计的部分内容。
第二节 预备知识一、秩统计量1.定义:设n Z Z ,,1 是来自连续分布)(z F 的简单随机样本,)()1(n Z Z ≤≤ 为其次序统计量。
定义随机变量r R i =,当)(r i Z Z =,n i ,,2,1 =。
当是唯一确定时,称样本观测值i Z 有秩i R ,n i ,,2,1 =。
(由于)(z F 连续,因而i R 不唯一确定的概率为0。
)即i R 是第i 个样本单元i Z 在样本次序统计量),,()()1(n Z Z 中的位置。
例1:已知一组数据,请写出它们相应的秩。
(1)20,10,30。
解:先将该组数据从小到大排列如下:10,20,30。
所以10对应的秩为1,20对应的秩为2,30对应的秩为3。
(2)200,100,300。
解:先将该组数据从小到大排列如下:100,200,300。
所以100对应的秩为1,200对应的秩为2,300对应的秩为3。
注意:这两组数据显然区别较大,但他们对应的秩却都是1,2,3。
没有差别!!2.性质。
定理1 记),,(1n R R R =,集合}),,1(),,(),,{(11的一个排列是n r r r r n n =ℜ,则R 在ℜ上均匀分布。
证明:易知R 仅在ℜ上取值。
对任意一个ℜ∈=),,(1n r r r ,)},,(),,{(}{11n n r r R R P r R P ===)},,(),,{()()1(1rn r n Z Z Z Z P ==)},,(),,{()()1(1n dn d Z Z Z Z P ==}{1dn d Z Z P <<= ,其中k d i =,当i r k =时,即i d ),,1(n i =是i 在排列r 中的位置。
又由于()dn d d n Z Z Z d Z Z Z ,,,),,,(2121 ,所以}{}{1n Z Z P r R P <<== 对任意ℜ∈r ,上式均成立,所以对任意r ,这个概率均相等。
而全部这样的事件互不相容且它们的和是必然事件,故对任意ℜ∈r ,有!/1}{n r R P ==。
定理2 ),,,(21n R R R R =的边缘分布也是均匀分布,特别一维边缘分布有⎪⎩⎪⎨⎧===其他。