非参数统计学讲义(第二章)讲稿
- 格式:doc
- 大小:899.00 KB
- 文档页数:21
非参数统计讲义(总14页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。
合格零件标准长度为(±)cm 。
这也就是说合格零件长度的中心位置为,允许误差界为,即长度在-之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =,样本标准差为s=。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在~之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。
由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。
.引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。
例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8.5±0.1),随即抽取n=100件零件,数据如下:表1.18.503 8.508 8.498 8.347 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.504 8.502 8.503 8.501 8.505 8.492 8.497 8.150 8.496 8.501 8.489 8.506 8.497 8.505 8.501 8.500 8.499 8.490 8.493 8.501 8.497 8.501 8.498 8.503 8.505 8.510 8.499 8.489 8.496 8.500 8.503 8.497 8.504 8.503 8.506 8.497 8.507 8.346 8.310 8.489 8.499 8.492 8.497 8.506 8.502 8.505 8.489 8.503 8.492 8.501 8.499 8.804 8.505 8.504 8.499 8.506 8.499 8.493 8.494 8.490 8.505 8.511 8.502 8.505 8.503 8.782 8.502 8.509 8.499 8.498 8.493 8.897 8.504 8.493 8.494 7.780 8.509 8.499 8.503 8.494 8.511 8.501 8.497 8.493 8.501 8.495 8.461 8.504 8.691经计算,平均长度为cm x 4958.8=,非常接近中心位置8.5cm ,样本标准差为()1047.0112=--=∑=ni in x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。
《-⾮参数统计-》课程教学⼤纲上课讲义《⾮参数统计》课程教学⼤纲Non-parametric statistics课程代码:课程性质:专业⽅向理论课/选修适⽤专业:统计开课学期:5总学时数:32 总学分数:2.0编写年⽉:2007.5 修订年⽉:2007.7执笔:孙琳⼀、课程的性质和⽬的本课程是学习⾮参数统计和了解统计前沿的基本课程。
本课程结合S-Plus 或R 软件来讲解⾮参数统计⽅法的原理与应⽤。
本课程的⽬的是使学⽣认识到⾮参数统计⽅法是统计中最常⽤的推断⽅法之⼀,理解⾮参数统计⽅法和参数统计⽅法的区别,理解⾮参数统计的基本概念,掌握⾮参数统计的基本⽅法,能应⽤⾮参数统计⽅法去解决实际问题。
⼆、课程教学内容及学时分配第⼀章引⾔(2学时)本章内容:统计的概念,⾮参数统计的⽅法,参数统计与⾮参数统计的⽐较,本章要求:了解⾮参数统计的历史,了解⾮参数统计⽅法和参数统计⽅法的区别,认识⾮参数统计⽅法的必要性。
第⼆章 S-Plus基础(6学时)本章内容:S-Plus环境,向量的定义和表⽰,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能,本章要求:熟悉在S-Plus命令⾏中S-Plus基本数据处理,掌握在S-Plus命令⾏中进⾏基本数据基本运算,能编写简单的计算函数,会绘制基本图形。
第三章单⼀样本的推断问题(6学时)本章内容:单样本推断问题,中⼼位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数检验问题、定性数据检验问题和成对数据检验问题,秩和检验。
本章要求:掌握符号检验,能⽤符号检验解中位数检验问题、定性数据检验问题和成对数据检验问题。
由成对数据检验问题引出符号秩和检验。
掌握Wilcoxon秩和检验法,掌握符号秩和检验,能⽤符号秩和检验解对称中⼼的检验问题和成对数据检验问题,初步理解秩的概念。
非参数统计学讲义第二章 单样本模型 §1 符号检验和有关的置信区间在有了一个样本n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。
例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为ns X t /μ-=这里X 为样本均值,而211)(X X n S -∑-=为样本标准差。
t —检验的统计量在零假设下有n —1个自由度的t —分布。
检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。
t —检验也许是世界上用得最广泛的检验之一。
但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。
这时就要考虑使用非参数方法。
对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。
本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了.一、问题的提出【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99):表2-1 生活花费指数数据66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110110110111113115116117118155192在例子中,人们可能会问:①总体的平均(或者中间)水平1是多少?②北京是在该水平之上还是之下?可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。
一般的统计书中的均值就是一个位置参数.中位数是另一个位置参数.它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差.这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置.通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t 检验有关的方法进行的。
然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。
在右边的两个点分别是东京和香港。
1刻划位置参数的量有:①平均值:∑i x n 1;②中位数:⎩⎨⎧+=++为偶数为奇数n x x n x M n n n 2/)(2/)1()()1(;③修整均值:∑-+=-=j n j i i j n x j T 1)(2)(,2nj <;④众数;⑤中列数:2/)()1()(X X n -。
由于此时我们不知道总体是否为正态分布(或者数据表明它就不是一个正态分布),所以有关参数统计中的t-统计量就不能用,势必要选择非参数的统计量来解决这样的问题。
符号检验(Sign Test)是利用正、负号的数目对某种假设作出判定的非参数统计方法。
二、普通的符号检验1.基本方法如果所研究的问题,可以看作是只有两种可能:“成功”或“失败”,并且成功或失败的出现被假定遵从二项式分布,以“+”表示成功,以“-”表示失败,那么随机抽取的样本就有两个参数:成功的概率P+和失败的概率P—。
这样就可以构造一个假设:-+=PPH:0-+≠PPH:1这是双侧检验,对备择假设H1来说,不要求P+是否大于P—。
如果所研究的问题,要求考虑是P+比较大还是P—比较大,则需用单侧备择假设,即-+=PPH:0-+=PPH:0-++>PPH:-+-<PPH:这里+H表示P+是比较大的,-H被用来说明P—是比较大的。
为了检验上面的假设,普通的符号检验所定义的检验统计量为+S和-S。
+S表示为正符号的数目,-S表示为负符号的数目,nSS=+-+是符号的总数目。
要对假设作出判定,需要找到一个P值。
因为对于+S和-S来说,抽样分布是一个带有5.0=θ(θ表示成功的概率)的二项式分布,所以如果H0为真,从二项分布表中能够根据n、+S和-S查到P值。
若P值很小,表明H0为真的可能性很小,数据不支持H0,而支持H1。
注:①双边假设检验中的尾概率P-值应是单边假设检验中的P-值的2倍;②在n(20≤n)较小时,可以利用二项分布表查表,计算出精确的P-值;在n(n>20)较大时,则要用正态分布来近似,因为)2/1,(~nBink,所以)1,0(~2/2/4/2/NnnknnkZ-=-=,并且要作连续性修正。
Z+=Z-=(0.1)③普通的符号检验其判定可以归纳如表2—2所示。
表2-2 生活花费指数数据22注意与教材中取最小二者之间最小值的等价性。
2.应用在实际问题的研究中,常常会遇到难以用数值确切表达的问题,而采用符号检验可以帮助解决这类问题的研究。
【例2-2】女性在对事物的看法上是否倾向于比男性保守—些社会科学家对这样的事实很感兴趣,当夫妇俩人有一个类似的观点时,妻子可能比丈夫要保守。
为了验证这一事实是否成立,随机选取了50对夫妇进行调查。
按预先制定的问题每人分别被间问,结果只有10对夫妇的看法倾向性差异较大,而其中9对夫妇的妻子确实比丈夫保守。
分析;研究这—问题,可以看作是“成功”与“失败”的问题,妻子比丈夫保守为成功,妻子不如丈夫保守为失败。
因为希望得出妻子比丈夫较为保守的结论,故而备择假设是单侧的,即P +>P —。
这样建立的假设为:-+=P P H :0-++>P P H :由于在10对符合条件的夫妇中,有9对妻子比丈夫保守,因而+S =9,-S =1,n =10。
根据n =10,+S =9,查附表,+S 为9的右尾概率P =0.0107,也就是说,对于成功概率θ=0.5的二项分布来说,在10次试验中,有9次或9次以上成功的概率P 为0.0107,这是个极小的概率。
因此,可以得出结论:这批调查的数据不支持H 0,而支持备择假设,即妻子确实比丈夫要保守些。
【例2-3】广告对商品促销是否起作用人们一般认为广告对商品促销起作用,但是否对某种商品的促销起作用并无把握。
为了证实这一结论,随机对15个均销售该种商品的商店进行调查,得到的数据如表2—3。
表2-3 广告前后销售稿况表商 店 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 未作广告每日销量 2 2 2 2 2 3 3 3 2 3 2 3 2 3 3 广告后每日销量 2 334423 433 42344差值的符号+ + + + -+ ++ - + + +分析:由于假定随机油取的15个商店在广告前后其它条件均没有变化,如营业员人数,营业面积,服务质量等等,仅仅是考察广告的作用,因此符合普通符号检验的条件。
由于想得出广告起作用的结论,因而是单侧检验,即广告后销量增加。
建立的假设为-+=P P H :0-++>P P H :根据表2-3可知,+S =10,而-S =2,n =12。
在附表中,n =12,+S =l0的右尾概率P =0.0193。
这也是一个很小的概率,表示调查结果不支持H 0,而支持H 1,即广告确实对这种商品促销起了作用。
【例2-4】顾客对咖啡、茶的喜好是否有差异。
若有差异,是否更喜欢茶。
为了解顾客对咖啡,茶的喜好情况,在某商店随机抽取l5名顾客进行调查,结果有12名顾客更喜欢茶,2名顾客更喜欢咖啡,1名对两者同样爱好。
分析:顾客对咖啡、茶的喜好调查,其目的只是为了比较两者中哪个更受欢迎,并无定量的数值,因而可以来用符号检验。
在咖啡、茶中更喜欢茶为“成功”,反之为“失败”故可建立假设-+=P P H :0 -+≠P P H :1这一假设仅判定对二者喜欢程度有无差异。
由调查结果知:+S =12,-S =2,n =14。
查附表,n =14时,+S 与-S 中大者+S =12右尾概率的2倍是2×0.0065=0.0130。
显然P =0.0130很小,以显著性水平α=0.05,P 足够小,故这批数据不支持H 0,即顾客对咖啡和茶的喜爱有显著差异。
要判断是否更喜欢茶,建立单侧备择假设-+=P P H :0-++>P P H :根据上面的分析,n =14,+S =12时,附表显示的P 值为0.0065。
对于α=0.01,P 值也足够小,故数据不支持H 。
,而支持H +。
顾客在咖啡和茶中更喜欢茶。
三、位置的符号检验 1.基本方法一个随机抽取的样本,有n 个数据n x x x ,,,21 ,其实际的总体中位数记作M ,假定的中位数是某个特定值,记作M 0。
若研究问题时关心的是:真实的中位数M 是否不同于M 0,可以建立假设00:M M H =01:M M H ≠如果关心的是:真实的中位数M 是否大于或小于特定的数M 0,则应建立单侧备择假设00:M M H = 00:M M H = 0:M M H >+ 0:M M H <-只要样本数据n x x x ,,,21 能够被测量,至少是定距尺度测量,若定序尺度测量的,应能与M 0相比并决定大小次序,也就是说,数据与M 0比较的结果能用“十”或“一”表示,设定n x x x ,,,21 在M 0附近是连续的,则普通的符号检验方法可以应用。
这就是符号检验法用于单样本位置的推断。
检验统计量。
位置的符号检验所定义的检验统计量也是+S 和-S ,+S 表示每一个观察数据),,2,1(n i x i =与特定的数M 0的差值0M x D i i -=的符号为正的数目,即∑>-=+)0(M X I S i ;-S 表示i D 符号为负的数目,即(0)iS I XM -=-<∑。
n S S =+-+,n 表示符号的总数目。
由于M 为中位数,故每一个样本点要么大于M ,要么小于M (除去相等的那些点)且概率都为0.5。
所以一系列的样本观察值就相当于一个n 重Bernoulli 试验,从而有+S 和)2/1,(~n Biu S -。
+S 和-S 就是所要找的统计量,因为它满足统计量的要求:①样本的函数;②分布已知。