非参数统计讲义
- 格式:doc
- 大小:1.35 MB
- 文档页数:16
非参数统计学讲义第一章 引 言 §1 序一、先修课程 1.线性代数 2.概率论 3.数理统计 4.相应的统计软件 二、参考书目1.张尧庭:《定性资料的统计分析》,广西师范大学出版社出版,1991、11; 2.易丹辉:《非参数统计——方法与应用》,中国统计出版社,1996、3; 3.S .西格耳著:《非参数统计》,科学出版社,1986、8;4.袁卫、易丹辉、何晓群等:《新编统计学教程》,经济科学出版社,1999、2; 5.陆璇:《数理统计基础》,清华大学出版社,1998、9; 6.易丹辉:《STATISTICA6.0》,中国统计出版社,2002、10;7.洪楠等:《STATISTICA for Windows 统计与图表分析教程》,清华大学出版社&北方交通大学出版社,2002、10。
三、几点要求1.复习数理统计的有关内容; 2.及时消化课件的内容; 3.按时完成作业; 四、简单回顾在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。
在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。
于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等.最常见的检验为对正态总体的t —检验,F —检验,2和最大似然比检验等.然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。
有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。
这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。
于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。
这就是非参数统计的宗旨。
因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论.这时,非参数方法往往优于参数方法。
非参数统计学讲义(第四章)讲稿2非参数统计学讲义第四章 多样本模型 §1 k 个相关样本的非参数检验在参数统计中,检验几个样本是否来自完全相同的总体,采用方差分析或F 检验。
运用F 检验的假定条件是:样本是从正态分布的总体中独立抽选的;总体具有相同的方差;数据的测量层次至少是定距尺度。
当被用来分析的数据不符合这些假定条件,或研究者不希望作这些假设,以便增加结论的普遍性时,不宜采用参数统计的方法,而必须运用非参数方法。
如果k (等于或大于3)个样本是按某种或某些条件匹配的,那么k 个样本称为相关的,否则为独立的。
k 个相关和独立样本的差别与两个相关和独立样本之间的差别类似。
本节介绍k 个相关样本的非参数检验。
一、 Cochran Q 检验1. 研究背景Cochran Q 检验也译为科库兰检验。
它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法。
这种匹配可以用不同形式获得。
例如,检验三种不同类型的采访形式对被采访者的有效回答是否有影响,可以抽选一些人,分成n 组,每组有3个匹配的被采访者,要求他们的有关情况相同。
每组的3名成员被随机地置于3种条件之下,即分别接受三种类型的采访,于是,就获得了3个匹配的样本,即k =3,每个样本有n 个观测结果。
k 个相关样本也可以采用同一组人,对不同的k 个条件的反应匹配成样本,这类似于两个相关样本中以研究对象作为自身的对照者。
例如,检验几种教学手段对学生掌握知识是否有显著不同,可以随机抽取n 个学生,让他们先后置于k 种教学手段之下,再作出评价。
这样可以获得k 个匹配的样本,每个样本有n 个观测结果。
在现实生活中,很多数据是以二元数据的形式出现的, 【例4-1】村民对四个候选人的评价得到结果:处理 区组:20个村民对A 、B 、C 、D 四个候选人的评价 i NA 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 16B 1 1 0 0 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 0 11C 0 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 1 0 9 D0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 1 0 0 0 6 j L1321232233122333212142其中:1表示同意;0表示不同意。
非参数统计学讲义第六章 分布检验和某些卡方检验§1 引 言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。
在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P 图,Q-Q 图来直接判断,但这种直观的方式很不精确。
本章将介绍几种分布的检验:K-S 检验,Lilliefors 检验和2χ检验。
实际上,K-S 检验是在针对2χ检验的缺点1上提出的。
它们是建立在经验分布函数基础上的检验结果。
§2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知0()F x ,假定其真实分布为()F x ,对应的检验类型有00:()()A H F x F x = 对x ∀ 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ∀ 10:()()H F x F x < 至少有一个x 00:()()C H F x F x = 对x ∀ 10:()()H F x F x > 至少有一个x 设()S x 为该组数据的经验分布函数,则()()i i I X x X x S x n n≤≤==∑的数目 二、基本方法Kolmogorov 于三十年代提出了一种基于经验分布的检验方法,基本思想是:由格里文科定理,当n →∞时,样本经验分布ˆnF 以概率1一致收敛到总体分布F ,为此可以定义()S x 到0()F x 的距离为00((),())sup ()()D S x F x S x F x =-当H 0成立时,由格氏定理,D 以概率1收敛到0,因此D 的大小可以度量0()F x 对总体分布拟合的好坏。
可供选择的检验统计量分别为; 类型A 0()()sup xD S x F x =-类型B 0(()())sup xD F x S x +=-类型C 0((()())sup xDS x F x -=-12χ检验与K-S 检验均属拟合优度检验,但2χ检验常用于定类尺度测量数据,K-S 检验还用于定序尺度测量数据;当预期频数较小时,2χ检验常需要合并邻近的类别才能计算,K-S 检验则不需要,因此它能比2χ检验保留更多的信息;对于特别小的样本数目,2χ检验不能应用,而K-S 检验则不受限制。
《-⾮参数统计-》课程教学⼤纲上课讲义《⾮参数统计》课程教学⼤纲Non-parametric statistics课程代码:课程性质:专业⽅向理论课/选修适⽤专业:统计开课学期:5总学时数:32 总学分数:2.0编写年⽉:2007.5 修订年⽉:2007.7执笔:孙琳⼀、课程的性质和⽬的本课程是学习⾮参数统计和了解统计前沿的基本课程。
本课程结合S-Plus 或R 软件来讲解⾮参数统计⽅法的原理与应⽤。
本课程的⽬的是使学⽣认识到⾮参数统计⽅法是统计中最常⽤的推断⽅法之⼀,理解⾮参数统计⽅法和参数统计⽅法的区别,理解⾮参数统计的基本概念,掌握⾮参数统计的基本⽅法,能应⽤⾮参数统计⽅法去解决实际问题。
⼆、课程教学内容及学时分配第⼀章引⾔(2学时)本章内容:统计的概念,⾮参数统计的⽅法,参数统计与⾮参数统计的⽐较,本章要求:了解⾮参数统计的历史,了解⾮参数统计⽅法和参数统计⽅法的区别,认识⾮参数统计⽅法的必要性。
第⼆章 S-Plus基础(6学时)本章内容:S-Plus环境,向量的定义和表⽰,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能,本章要求:熟悉在S-Plus命令⾏中S-Plus基本数据处理,掌握在S-Plus命令⾏中进⾏基本数据基本运算,能编写简单的计算函数,会绘制基本图形。
第三章单⼀样本的推断问题(6学时)本章内容:单样本推断问题,中⼼位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数检验问题、定性数据检验问题和成对数据检验问题,秩和检验。
本章要求:掌握符号检验,能⽤符号检验解中位数检验问题、定性数据检验问题和成对数据检验问题。
由成对数据检验问题引出符号秩和检验。
掌握Wilcoxon秩和检验法,掌握符号秩和检验,能⽤符号秩和检验解对称中⼼的检验问题和成对数据检验问题,初步理解秩的概念。
非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。
合格零件标准长度为(±)cm 。
这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。
由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。
例 哪一个企业职工的工资高这里有22名职工的工资情况,其中的12名职工来自企业1,另外的10名职工来自企业2。
他们的工资(单位:千元)如附表。
仅从数据来看,显然企业1职工的工资较高。
根据我们已学过的参数统计的方法,这个问题用什么方法来解决呢(提问)采用参数数据分析方法,假设企业1和企业2职工的工资分别服从正态分布),(2σa N 和),(2σb N ,则该问题转化为假设检验问题:b a H =:0, b a H >:1即两样本t 检验。
计算可得,检验统计量的值 t=。
若取α=,其临界值为725.1)20(95.0=t ,不能拒绝原假设,即认为二者没有区别;若取α=,其临界值为325.1)20(9.0=t ,仍不能拒绝原假设!计算p 值得到的结论也一样。
这个统计分析的结论显然与数据不吻合!之所以有问题,就是因为假设职工的工资服从正态分布的缘故。
一般来说,工资、收入等的分布是不对称的,并且有一部分人的工资比较高,所以分布的右边有较长的尾巴。
对于以上的这样的问题,若想用参数数据的分析方法,就不能再假设总体服从正态分布,必须给它们赋一个较合理的分布函数,做到这点对于很多实际问题上是难度比较大的。
除了这个办法之外,我们还可以用另外的处理办法,例如,非参数统计、参数和非参数方法相结合等等。
这门课,我们主要讨论非参数方法。
二. 非参数统计方法特点1.非参数统计方法通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体的分布不做假设,或者仅给出很一般的假设,例如连续型分布、对称分布等一些简单的假设,结果一般有较好的稳定性。
所以适用范围非常宽泛。
在经典的统计框架下,正态分布一直是最引人注目的,但是对总体的分布不是随便做出来的,如以上两例,盲目地做出正态分布的假设有时候是起反作用的。
当数据的分布不是很明确,特别当样本含量不大,几乎无法对分布作推断的时候,此时使用参数方法就有一定的风险,我们就可以考虑用非参数的方法。
但要注意,非参数方法是与总体分布无关,而不是与所有分布无关!2.非参数统计可以处理所有类型的数据。
我们知道,统计数据按照数据类型可以分为两大类:定性数据和定量数据。
一般地,参数统计是处理定量数据,如果所收集到的数据不符合参数模型的假定,比如:数据只有顺序,没有大小,则很多参数模型无能为力,此时只能尝试非参数方法。
例如:研究急性白血病患儿血液中血小板数与出血症状之间的关系。
血小板数可用数据衡量,但出血症状则只能分为:明显、较明显、有出血点和无这4类。
类似于这样的“等级资料”,参数方法没辙,可用非参数方法中的Spearman等级相关方法来做。
3.在不知道总体分布的情况下,如何利用数据所包含的信息呢一组数据最基本的信息就是次序。
非参数统计就是利用这个最基本的信息。
如果把数据点按从小到大的次序排队,每一个具体数目都有它在整个数据中的位置,这称为该数据的秩(rank)。
非参数统计的一个基本思想:用数据的秩代替数据,构造统计量进行统计推断。
数据有多少个观察值,就有多少个秩。
在一定的假设条件下,这些和由它们构成的统计量的分布是求得出来的,而且和原来的总体分布无关。
就可以进行所需要的统计推断了。
所以说,非参数统计只是和总体的分布无关,但和秩以及它们统计量的分布是密切相关的!另外,其它与总体分布无关的统计方法也属于非参数统计。
4.在考虑非参数统计量的分布时,我们较多考虑这些统计量的渐近分布,由于利用到一些大样本方面的定理,得出来的渐近分布都服从正态分布或是由正态分布导出的分布,较容易计算和处理。
5.非参数方法与参数方法通过刚才上面的解说,不要产生错觉,认为非参数方法总比参数方法有效!非参数方法不是总比参数方法有效!毕竟非参数方法利用到的数据信息非常有限。
如果人们对总体有充分的了解且足以确定其分布类型,则非参数方法比参数方法效率低。
例如在总体分布族已知的情况下,非参数统计一般不如参数统计结果精确!另外,在总体分布是均匀分布时,正态的参数方法又比非参数方法好!这点可以通过计算渐近相对效率来说明。
三.非参数统计的历史相对参数统计而言,非参数统计起步较晚,但有后来者居上的趋势。
非参数统计的形成主要归功于20世纪40年代~50年代化学家F. Wilcoxon 等人的工作。
Wilcoxon于1945年提出两样本秩和检验。
1947年Mann 和Whitney 两人将结果推广到两组样本量不等的一般情况。
之后,相继涌现出大量论文。
Savage 1962年统计的非参数论文就有3000多项。
Pitman 于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题。
1956年,J .L .Hodges 和E .L .Lehmann 则发现了一个令人惊讶的结果,与正态模型中t 检验相比较,秩检验能经受住有效性的较小损失。
而对于重尾分布所产生的数据,秩检验可能更为有效。
第一本论述非参数应用的书于1956年由出版,有人记载从1956年到1972年,该书被引用了1824次。
这也说明非参数统计在这一时期的发展是相当活跃的。
60年代,J .L .Hodges 和E .L .Lehmann 从秩检验统计量出发,导出了若干估计量和置信区间。
这些方法为后来非参数方法成功应用于试验设计数据开启了一道大门。
之后,非参数统计的应用和研究获得了巨大的成功。
上世纪六十年代中后期,Cox 和Ferguson 最早将非参数方法应用于生存 分析。
上世纪70年代到80年代,非参数统计借助计算机技术和大量计算获得了更稳健的估计和预测,以P. J. Huber 和F. Hampel 为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。
上世纪90年代有关非参数统计的应用和研究主要集中在非参数回归和非参数密度领域,其中较有代表性的人物是Silverman 和. Fan 。
四. 非参数统计主要内容非参数统计可以分成两个范畴,一个是比较经典的基于秩的,以检验为主的非参数统计推断,而另一部分是近二三十年来发展的非参数回归、非参数密度估计、自助法以及小波方法等现代非参数统计方法。
这两者均不对总体分布做较为确定的假设,但除此之外,这两部分内容在方法和概念上均没有多少共同点。
我们首先介绍经典地基于秩的,以检验为主的非参数统计推断,这也是我们的主要内容,然后介绍现代非参数统计的部分内容。
第二节 预备知识一、秩统计量1.定义:设n Z Z ,,1 是来自连续分布)(z F 的简单随机样本,)()1(n Z Z ≤≤ 为其次序统计量。
定义随机变量r R i =,当)(r i Z Z =,n i ,,2,1 =。
当是唯一确定时,称样本观测值i Z 有秩i R ,n i ,,2,1 =。
(由于)(z F 连续,因而i R 不唯一确定的概率为0。
)即i R 是第i 个样本单元i Z 在样本次序统计量),,()()1(n Z Z 中的位置。
例1:已知一组数据,请写出它们相应的秩。
(1)20,10,30。
解:先将该组数据从小到大排列如下:10,20,30。
所以10对应的秩为1,20对应的秩为2,30对应的秩为3。
(2)200,100,300。
解:先将该组数据从小到大排列如下:100,200,300。
所以100对应的秩为1,200对应的秩为2,300对应的秩为3。
注意:这两组数据显然区别较大,但他们对应的秩却都是1,2,3。
没有差别!!2.性质。
定理1 记),,(1n R R R =,集合}),,1(),,(),,{(11的一个排列是n r r r r n n =ℜ,则R 在ℜ上均匀分布。
证明:易知R 仅在ℜ上取值。
对任意一个ℜ∈=),,(1n r r r ,)},,(),,{(}{11n n r r R R P r R P ===)},,(),,{()()1(1rn r n Z Z Z Z P ==)},,(),,{()()1(1n dn d Z Z Z Z P ==}{1dn d Z Z P <<= ,其中k d i =,当i r k =时,即i d ),,1(n i =是i 在排列r 中的位置。
又由于()dn d d n Z Z Z d Z Z Z ,,,),,,(2121 ,所以}{}{1n Z Z P r R P <<== 对任意ℜ∈r ,上式均成立,所以对任意r ,这个概率均相等。
而全部这样的事件互不相容且它们的和是必然事件,故对任意ℜ∈r ,有!/1}{n r R P ==。