非参数统计复习过程
- 格式:ppt
- 大小:449.50 KB
- 文档页数:4
非参数统计Non-parametricStatistics一、课程基本信息学时:48(含实验8学时)学分:3考核方式:考试,平时成绩占总成绩30%。
中文简介:非参数统计为有效地分析试验设计及其实际问题中所获得的数据提供了丰富的统计工具。
本课程从问题背景与动机、方法引进、理论基础、计算机实现、应用实例等诸多方面介绍了非参数统计方法,其内容包括:基于二项分布的检验、列联表、秩检验、Ko1mogorov-Smirnov 型统计量等。
本课程在强调实用性的同时,突出了应用方法与理论的结合。
在人才培养体系中,该课程属于选修课程,但建议每个统计学专业的学生必须掌握若干种非参数统计方法,以其作为其他重要统计方法的补充。
特别是针对名义数据分析及有序数据分析时相当有用。
二、教学目的与要求非参数统计是研究随机现象存在的统计规律的学科,其在经济、工农业生产和科学技术等领域有广泛的应用,是一门应用性很强的一门课程。
本课程(1)使学生掌握非参数理论的基本原理和方法,重点掌握单样本,多样本的位置检验和尺度检验,以及相关检验和分布检验。
注意与参数统计的区别;(2)结合实际例子,运用非参数理论,提高学生运用该工具解决实际问题的能力。
(3)使学生进一步掌握具体与抽象、偶然与必然、特殊与一般等辨证关系,培养学生辨证唯物主义观点。
三、教学方法与手段教学中主要采用课堂教学的方法,当中穿插大量的案例,同时预留课堂讨论与练习的时间让学生进行实际的操作。
本课程同时设立计算机上机课程,由老师自编实验指导书详细指导学生进行上机实践,强调动脑与动手相结合,理论与实践相结合。
o五、推荐教材和教学参考资源教材:非参数统计:基于R语言案例分析,柳向东编,暨南大学出版社,2010年12月(第1版)参考资料:1)非参数统计,王星编著,北京:中国人民大学出版社,2(X)5年1月(第一版)2)非参数统计方法,吴喜之等,北京:高等教育出版社,1996年(第1版)3)孙山泽.非参数统计讲义.北京:北京大学出版社,2000。
非参数统计讲义(总14页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。
合格零件标准长度为(±)cm 。
这也就是说合格零件长度的中心位置为,允许误差界为,即长度在-之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =,样本标准差为s=。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在~之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。
由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。
非参数统计学讲义第二章 单样本模型 §1 符号检验和有关的置信区间在有了一个样本n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。
例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为ns X t /μ-=这里X 为样本均值,而211)(X X n S -∑-=为样本标准差。
t —检验的统计量在零假设下有n —1个自由度的t —分布。
检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。
t —检验也许是世界上用得最广泛的检验之一。
但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。
这时就要考虑使用非参数方法。
对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。
本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了.一、问题的提出【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99):表2-1 生活花费指数数据66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110110110111113115116117118155192在例子中,人们可能会问:①总体的平均(或者中间)水平1是多少?②北京是在该水平之上还是之下?可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。
非参数统计复习题非参数统计是一种统计方法,它不依赖于总体分布的具体形式,而是通过观测数据来进行推断和分析。
与参数统计相比,非参数统计更加灵活,适用范围更广。
在本文中,我们将回顾一些与非参数统计相关的复习题。
1. 什么是非参数统计?非参数统计是一种不依赖于总体分布的统计方法。
它不对总体分布做出任何假设,而是通过观测数据来进行统计推断。
非参数统计方法的优势在于适用范围广泛,可以处理各种类型的数据。
2. 请解释什么是秩和检验?秩和检验是一种非参数统计方法,用于比较两个独立样本的中位数是否相等。
它基于样本的秩次,将观测值转化为秩次,然后计算两个样本的秩和。
通过比较两个样本的秩和,可以判断它们是否来自同一总体。
3. 请解释什么是Wilcoxon符号秩检验?Wilcoxon符号秩检验是一种非参数统计方法,用于比较两个相关样本的中位数是否相等。
它基于样本差异的符号和秩次,通过比较符号秩和的大小来进行假设检验。
Wilcoxon符号秩检验适用于小样本或偏态分布的数据。
4. 请解释什么是Kruskal-Wallis检验?Kruskal-Wallis检验是一种非参数统计方法,用于比较三个或更多独立样本的中位数是否相等。
它基于样本的秩次,将观测值转化为秩次,并计算各组的秩和。
通过比较不同组的秩和,可以判断它们是否来自同一总体。
5. 请解释什么是Friedman检验?Friedman检验是一种非参数统计方法,用于比较三个或更多相关样本的中位数是否相等。
它基于样本差异的秩次,通过计算各组的秩和来进行假设检验。
Friedman检验适用于小样本或偏态分布的数据。
6. 请解释什么是Mann-Whitney U检验?Mann-Whitney U检验是一种非参数统计方法,用于比较两个独立样本的总体分布是否相等。
它基于样本的秩次,通过计算秩和来进行假设检验。
Mann-Whitney U检验适用于小样本或偏态分布的数据。
7. 请解释什么是Kolmogorov-Smirnov检验?Kolmogorov-Smirnov检验是一种非参数统计方法,用于比较一个样本的总体分布与一个已知分布是否相等。
2*5(选择) + 2*5(名解) + 6*5(简答) + 10*3(计算)+ 5*4(推导)名解(2*5)1.渐近相对效率(P15)针对零假设只取一个值的假设检验问题,在零假设的一个邻域内,固定势,令备择假设逼近零假设,将两个统计量的样本量比值的极限定义为渐进相对效率。
具体而言,对假设检验问题H0:θ=θ0↔H1:θ≠θ0取备择假设序列θi(i=1,2,…),θi≠θ0,且limi→∞θi=θ0。
在固定势1−β之下,我们考虑两个检验统计量V ni和T mi 。
其中V ni和T mi分别是备择为θi所对应的两个检验统计量序列,n i和m i是两个统计量分别对应的样本量。
势函数满足:lim i→∞g Vn i(θ0)=limi→∞g Tm i(θ0)=α,α<limi→∞g Vn i(θi)=limi→∞g Tm i(θi)=1−β<1.如果极限e VT=limi→∞m i n i存在,且独立于θi,α和β,则称 e VT是 V 相对于 T 的渐进相对效率,简记为 ARE(A,T)。
2.顺序统计量(P18)假设总体 X 有容量为n的样本 X1,X2,…,X n,将 X1,X2,…,X n按从小到大排序后产生统计量X(1)≤X(2)≤⋯≤X(n)则称统计量 {X(1),X(2),…,X(n)} 为顺序统计量。
3.秩次设样本X1,X2,…,X n是取自总体X的简单随机抽样,X1,X2,…,X n中不超过X i的数据个数,即R i=∑Inj=1(X j≤X i)称R i为X i的秩,X i是第R i个顺序统计量,X(Ri)=X i。
【相关知识点】秩统计量令R=(R1,…,R n),R是由样本产生的统计量,称为秩统计量。
4.秩和以秩次代表原始数据后,所得某些秩次之和,即按某种顺序排列的序号之和,称为秩和。
5. 核设 X 1,X 2,…,X n 取自分布族 ℱ={F (θ),θ∈Θ},如果待估参数 θ 存在样本量为 k 的无偏估计量ℎ(X 1,X 2,…,X k ),k <n ,即满足E ℎ(X 1,X 2,…,X k )=θ,∀θ∈Θ使上式成立的最小样本量为 k ,则称参数 θ 是 k 的可估参数。