当前位置:文档之家› 对非参数统计的认识

对非参数统计的认识

对非参数统计的认识
对非参数统计的认识

统计学原理

统计学原理 自评报告 所在院系:经济与管理学院管理学系基层组织:工商管理专业建设组

统计学原理自评报告 一、课程介绍 (一)课程主要内容与教学目的 统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域,因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。 通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用;弄懂各种概念,范畴等基本知识;掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。 (二)课程建设过程与现状 《统计学原理》课程在工商管理、经济学专业开设已10多年,现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来,课程专任教师致力于加强优秀课程建设,从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中,按照其规律和特点,以就业为导向、以应用能力为标准,加大课程改革力度,完善课程体系建设,强化方法和手段的应用。课程建设取得了阶段性成果。 1、教学内容

非参数统计题目及答案

1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下: 这一经验是否可靠。 解: H 0:θ2≤θ1≤θ 3 H 1 :至少有一个不等式成立 可得到 N=15 由统计量H= ) 112 +N N (∑=K i i N R 1i 2 -3(N+1)=)(1151512+(32×6.4+29×5.8+59×11.8)-3×(15+1)=5.46 查表(5,5,5)在P(H ≥4.56)=0.100 P(H ≥5.66)=0.0509 即P (H ≥5.46)﹥0.05 故取α=0.05, P ﹥α ,故接受零假设即这一检验可靠。

2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中: 值等等及你的结果。(利用Jonkheere-Terpstra 检验) 解: H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高 U 12=0+9+2+8+10+9+10+2+10+10+8+0.5+3=82.5 U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J= ∑≤j ij U i =82.5+80+89=251.5 大样本近似 Z= []72 )32()324 1 2 1i 22 2∑ ∑==+-+--k i i i k i n n N N n N J ()(~N (0,1) 求得 Z=3.956 Ф(3.956)=0.9451 取α=0.05 , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。

学年第一学期期末试卷检查工作总结

教学督导组2010-2011学年第一学期 期末试卷检查情况通报 根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求,教学督导组于4月1日至4月15日对全校21个院(系、部)上学期期末考试试卷进行了检查。本次检查按各院(系、部)试卷装订数量10%的比例进行抽查,最低基数为3本,全校共抽查试卷123本。各院系抽查试卷检查情况如下:2010-2011学年第一学期各院(系、部)期末试卷抽查情况一览表

(说明:①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1,总分为各等级的平均分。②公共课试卷命题错误、答案错误,责任在院(系、部),从总分中扣0.1分。) 从抽查结果看,全校总平均分为3.8分,比上学期的3.61分高出0.19分,各等级所占抽查总数比重与上学期相比情况见下表: 2009-2010学年第二学期与2010-2011学年第一学期 试卷抽查结果各等级比重对比表

从上表中可以看出,本学期与上学期相比,A级比重虽稍有下降,但B级比重增长较大,同时,C级、D级和F级的比重均有所减少,总体趋势表明试卷工作整体质量有所提高。 虽然试卷工作整体质量有所提高,但问题仍然较多,为了便于各院(系、部)教学管理人员和全体教师,对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解,我们将本次试卷检查中存在的问题,分类整理如下: 一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致,如:中文系的2本试卷,封面上都是《现代汉语》,但试卷印制的课程名称,一门是《现代汉语(上)》,一门是《现代汉语(下)》,这是2门不同课程的试卷;《大学英语》有(一)、(二)、(三)、 (四)四级,因此,必须在课程名称中标明是几级大学英语。 2.课程代码填写不正确,如政治学系《社会主义市场经济理论与实践》试卷,封面填写的课程代码为“(2010-2011-1)ZJ61010-97074-1”,正确的课程代码是“ZJ61010”。 3.属于集体阅卷,应当在封面上填写“集体阅卷”,或填写每一位阅卷老师的姓名,并在第一张试卷卷首的登分栏中签写全名,以后各试卷上只要签姓即可。化学化工学院《聚合物流变学》试卷中,出现两个阅卷人,但在封面上只填写了一位阅卷教师的姓名,里面的试卷上只签了“杜”,有姓无名。

非参数统计部分课后习题参考答案

课后习题参考答案 第一章p23-25 2、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。”(注意:该组均值为74.000)。你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分) 第三章p68-71 3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。 (1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分) 解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分) (2)符号检验(5分) 设假设组:H 0:M =M 0=5064 H 1:M ≠M 0=5064 符号检验:因为n +=11,n-=3,所以k=min(n+,n-)=3 精确检验:二项分布b(14,0.5), ∑=-=3 0287 .0)2/1,14(n b ,双边p-值为0.0576,大于a=0.05, 所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设。 正态近似:(5分) np=14/2=7,npq=14/4=3.5 z=(3+0.5-7)/5.3≈-1.87>Z a/2=-1.96 仍是在a=0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分) 7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该信号是纯粹随机干扰?(10分)

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

王静龙《非参数统计分析》课后计算题参考标准答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1. One Sample t-test for a Mea n Sample Statistics for x N Mea n Std. Dev. Std. Error 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mea n of x = 0 Alternative: Mea n of x A= 0 t Statistic Df Prob > t 0.861 25 0.3976 95 % Con fide nee In terval for the Mea n Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题二 1.1 S+=13 n 39 H o: me 6500 H〔:me 6500 PS 13 二BINOMDIST(13,39,0.5,1) =0.026625957 另外:在excel2010中有公式BINOM.INV(n,p,a)返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a的最小整数 * 1 m n m inf m ■ 2 i 0 i BINO M」N V(39,0.5,0.05)=14 * n 1 * d n d=sup d : m 1 13 2 i 0 i S+13 d 13 以上两种都拒绝原假设,即中位数低于6500 1.2

n 1 inf n * * 1 m n m inf m :- 2 i o i BINOM.INV(40,0.5,1 -0.025)=26 d=n-c=40-26=14 x 14 5800 x 26 6400 me x 20 6200 2. S + =40 n 70 H 0: me 6500 H 1: me 6500 2P S 40 2*(1-BIN0MDIST(39,70,0.5,1)) =0.281978922 则接受原假设,即房价中位数是 6500 3.1 S + =1552 n 1552 527 2079 inf m inf m=BINOM.INV(2079,0.5,0.975)=1084 则拒绝原假设,即相信孩子会过得更好的人多 3.2 P 为认为生活更好的成年人的比例,则 H 。: p 出:p n 比较大,则用正态分布近似 P S 1552 1039.5-1552+0.5 、519.75 =5.33E-112 另外:S +=1552 n 1552 527 2079

学年第一学期期末试卷检查工作总结

学年第一学期期末试卷检 查工作总结 Prepared on 21 November 2021

教学督导组2010-2011学年第一学期 期末试卷检查情况通报 根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求,教学督导组于4月1日至4月15日对全校21个院(系、部)上学期期末考试试卷进行了检查。本次检查按各院(系、部)试卷装订数量10%的比例进行抽查,最低基数为3本,全校共抽查试卷123本。各院系抽查试卷检查情况如下: 2010-2011学年第一学期各院(系、部)期末试卷抽查情况一览表

(说明:①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1,总分为各等级的平均分。②公共课试卷命题错误、答案错误,责任在院(系、部),从总分中扣分。) 从抽查结果看,全校总平均分为分,比上学期的分高出分,各等级所占抽查总数比重与上学期相比情况见下表: 2009-2010学年第二学期与2010-2011学年第一学期 试卷抽查结果各等级比重对比表 从上表中可以看出,本学期与上学期相比,A级比重虽稍有下降,但B级比重增长较大,同时,C级、D级和F级的比重均有所减少,总体趋势表明试卷工作整体质量有所提高。 虽然试卷工作整体质量有所提高,但问题仍然较多,为了便于各院(系、部)教学管理人员和全体教师,对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解,我们将本次试卷检查中存在的问题,分类整理如下: 一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致,如:中文系的2本试卷,封面上都是《现代汉语》,但试卷印制的课程名称,一门是《现代汉语(上)》,一门是《现代汉语(下)》,这是2门不同课程的试卷;《大学英语》有(一)、(二)、(三)、(四)四级,因此,必须在课程名称中标明是几级大学英语。

非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学 非参数统计检验方法的应用 阮曙芬1 程娇翼 1 张振中2 (1.中国地质大学数理学院,武汉 430074;2.中南大学数学科学与计算学院,长沙 410075) 摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验 1引言 非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验 符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。 设随机变量12,,...,n X X X 相互独立同分布,分布为()F x ,()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为12,,...,n X X X ,相互独立同分布,分布为()F x ;另一个样本为12,,...,n Y Y Y ,相互独立同分布,分布为()G x ,()F x , ()G x 连续。问随机变量Y 是否随机大于随机变量X ,即检验

统计学原理(精编文档).doc

【最新整理,下载后即可编辑】 统计学原理 自评报告 所在院系:经济与管理学院管理学系 基层组织:工商管理专业建设组

统计学原理自评报告 一、课程介绍 (一)课程主要内容与教学目的 统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域,因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。 通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用;弄懂各种概念,范畴等基本知识;掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。 (二)课程建设过程与现状 《统计学原理》课程在工商管理、经济学专业开设已10多年,现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来,课程专任教师致力于加强优秀课程建设,从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中,按照其规律和特点,以就业为导向、以应用能力为标准,加大课程改革力度,完善课程体系建设,强化方法和手段的应用。课程建设取得了阶段性成果。

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

非参数统计

中国海洋大学本科生课程大纲 课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修 一、课程介绍 1.课程描述: 非参数统计是数理统计学的一个分支,它是针对参数统计而言的。所谓参数统计,简 单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立 的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体 分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获 得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路: 本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。 课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面: (1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量, 秩统计量的概念,一些统计量的近似分布。 (2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。 (3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与 独立性检验,多总体的比较。 - 1 -

(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。 3. 课程与其他课程的关系: 先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。 非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。 二、课程目标 非参数统计具有应用性广,稳健性好等特点。通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时,要求学生能够做到: (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布;理解并掌握U统计量秩统计量的概念;理解一些常用统计量的近似分布。重点是次序统计量及其分布; U统计量构造,秩统计量; (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想,掌握检验的一般步骤,掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。 三、学习要求 要完成所有的课程任务,学生必须: (1)按时上课,认真听讲,认真完成作业。其中有一些作业需要学生自编程序用机器完成。(2)按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。 (3)完成一定量的阅读文献和背景资料,可以以小组的形式讨论学习,促进同学间的心得交 - 1 -

非参数统计(R软件)参考答案

内容: A.3, A.10, A.12 A.3 上机实践:将MASS数据包用命令library(MASS)加载到R中,调用自带“老忠实”喷泉数据集geyer,它有两个变量:等待时间waiting和喷涌时间duration,其中… (1) 将等待时间70min以下的数据挑选出来; (2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来; (3) 将等待时间70min以下喷泉的喷涌时间挑选出来; (4) 将喷涌时间大于70min喷泉的等待时间挑选出来。 解:读取数据的R命令: library(MASS);#加载MASS包 data(geyser);#加载数据集geyser attach(geyser);#将数据集geyser的变量置为内存变量 (1) 依题意编定R程序如下: sub1geyser=geyser[which(waiting<70),1]; #提取满足条件(waiting<70)的数据,which(),读取下标 sub1geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 57 60 56 50 54 (2) 依题意编定R程序如下: Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1]; #提取满足条件(waiting<70& (waiting!=57)的数据. Sub2geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 60 56 50 54 60 …… 原数据集的第1列为waiting喷涌时间,所以用[which(waiting<70),2] (3) Sub3geyser=geyser[which(waiting<70),2]; #提取满足条件(waiting<70)的数据,which(),读取下标 Sub3geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 4.000000 4.383333 4.833333 5.450000 4.866667…… 原数据集的第2列为喷涌时间,所以用[which(waiting<70),2] (4) Sub4geyser=geyser[which(waiting>70),1]; #提取满足条件(waiting<70)的数据,which(),读取下标 Sub4geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 80 71 80 75 77……. A.10 如光盘文件student.txt中的数据,一个班有30名学生,每名学生有5门课程的成绩,编写函数实现下述要求: (1) 以data.frame的格式保存上述数据; (2) 计算每个学生各科平均分,并将该数据加入(1)数据集的最后一列; (3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩; (4) 找出至少两门课程不及格的学生,输出他们的全部成绩和平均成绩; (5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。 先将数据集读入R系统 student=read.table("…",header=T)

王静龙非参数统计分析课后计算题参考答案Word版

王静龙《非参数统计分析》课后习题计算题参考答案 习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957 S n H me H me P S +==<≤ 另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设,即中位数低于6500 1.2

非参数统计分析

第十三章非参数统计分析 统计推断方法大体上可分为两大类。第一大类为参数统计方法。常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。 非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。 单样本情形: 检验样本所在总体的位置参数或者分布是否与已知理论值相同。 ①Chi-Square过程:针对二分类或者多分类资料 例题1:见书P243。检验样本分布情况是否与已知理论分布相同。运用卡方检验过程。 ②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。 例题2 :见书P246。检验某一比例是否与已知比例相等,运用二项分布过程。练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。 ③Runs过程:用于检验样本序列是否是随机出现的。二分类资料和连续性资料均可。 游程检验: 游程的含义: 假定下面是由0和1组成的一个这种变量的样本: 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。 游程检验的原理 判断数据序列是否是真随机序列。该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。例题3:见书P247。检验样本数据是否是随机出现的。 例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。 提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。 ④1-Sample--K –S 过程 原理:单样本的Kolmogorov-Smirnov检验(K-S检验)方法主要针对连续性资料,是用来检验一个样本数据的观测累积分布是否是已知的理论分布。这些

非参数统计部分课后习题参考答案

课后习题参考答案 第一章p23-25 2、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。我们对这两组数据作同样水平a=的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。第一组数据的检验结果为:df=7,t 值为,单边p 值为,结论为“拒绝H 0:u=100。”(注意:该组均值为);第二组数据的检验结果为:df=2,t 值为,单边p值为;结论为“接受H 0:u=100。”(注意:该组均值为)。你认为该问题的结论合理吗说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分) 第三章p68-71 3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。 (1)是否1998年索赔的中位数比前一年有所变化能否用单边检验来回答这个问题(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分) 解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分) (2)符号检验(5分) 设假设组:H 0:M =M 0=5064 H 1:M ≠M 0=5064 符号检验:因为n +=11,n-=3,所以k=min(n+,n-)=3 精确检验:二项分布b(14,, ∑=-=3 0287 .0)2/1,14(n b ,双边p-值为,大于a=,所以在a水平 下,样本数据还不足以拒绝零假设;但假若a=,则样本数据可拒绝零假设。查二项分布表得a=的临界值为(3,11),同样不足以拒绝零假设。 正态近似:(5分) np=14/2=7,npq=14/4= z=(3+/5.3≈>Z a/2= 仍是在a=的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分) 7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该

非参数统计参考答案

内容: , , 上机实践:将MASS数据包用命令library(MASS)加载到R中,调用自带“老忠实”喷泉数据集geyer,它有两个变量:等待时间waiting和喷涌时间duration,其中… (1) 将等待时间70min以下的数据挑选出来; (2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来; (3) 将等待时间70min以下喷泉的喷涌时间挑选出来; (4) 将喷涌时间大于70min喷泉的等待时间挑选出来。 解:读取数据的R命令: library(MASS);#加载MASS包 data(geyser);#加载数据集geyser attach(geyser);#将数据集geyser的变量置为内存变量 (1) 依题意编定R程序如下: sub1geyser=geyser[which(waiting<70),1]; #提取满足条件(waiting<70)的数据,which(),读取下标 sub1geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 57 60 56 50 54 (2) 依题意编定R程序如下: Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1]; #提取满足条件(waiting<70& (waiting!=57)的数据. Sub2geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 60 56 50 54 60 …… 原数据集的第1列为waiting喷涌时间,所以用[which(waiting<70),2] (3) Sub3geyser=geyser[which(waiting<70),2]; #提取满足条件(waiting<70)的数据,which(),读取下标 Sub3geyser[1:5];#显示子数据集sub1geyser的前5行 [1] …… 原数据集的第2列为喷涌时间,所以用[which(waiting<70),2] (4) Sub4geyser=geyser[which(waiting>70),1]; #提取满足条件(waiting<70)的数据,which(),读取下标 Sub4geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 80 71 80 75 77……. 如光盘文件中的数据,一个班有30名学生,每名学生有5门课程的成绩,编写函数实现下述要求: (1) 以的格式保存上述数据; (2) 计算每个学生各科平均分,并将该数据加入(1)数据集的最后一列; (3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩; (4) 找出至少两门课程不及格的学生,输出他们的全部成绩和平均成绩; (5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。 先将数据集读入R系统 student=("…",header=T) class(student):#显示数据集student的类型, [1] ""#student是数据框

非参数统计答案

1.4 对一批电器元件,抽取24个做加速寿命实验,测得其寿命数据为(单位:h): 575,778,880,969,984,1003,1008,1021,1031,1034,1053,1054,1226,1393,1493,1480,1513,1611,1612,1612,1624,1627,1631,1768, 求这批元件寿命分布的中位数的置信水平为0.95的置信区间。 解:a<-function(x,p=0.5,conf.level=0.95){ d<-(max(x)-min(x))/1e10 xgrid<-c(x,x+d,x-d) value.in.ci<-rep(NA,length(xgrid)) for(fff in 1:length(xgrid)){ x1<-c(sum(xxgrid[fff]));n<-sum(x1) value.in.ci[fff]<- binom.test(x1,n,p,alternative="two.sided",conf.level)$p.value>=1-conf.level } ci<-c(min(xgrid[value.in.ci]),max(xgrid[value.in.ci])) result<-as.data.frame(list(percentile=p,lower=ci[1],upper=ci[2])) class(result)<-"table" result } x<-c(575,778,880,969,984,1003,1008,1021,1031,1034,1053,1054,1226,1393,1439,1480,1513,161 1,1612,1612,1624,1627,1631,1768) a(x) percentile lower upper 0.5 1008 1611 例1.5.2 从某工厂的产品仓库中随机取16个零件,测得它们的长度(单位:cm)为: 2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10, 2.15,2.12,2.14,2.10,2.13,2.11,2.14,2.11, 求该零件长度分布的中位数的置信区间为0.95的置信区间。

第六章 非参数统计分析方法的SAS编程实现

第六章非参数统计分析方法的SAS编程实现 作者:薛富波最终修改日期: 一、npar1way过程语句格式简介 二、不同类型资料的非参数检验方法 1. 两独立样本差别的秩和检验 2.配对设计资料的秩检验 3.完全随机设计多组数据分布位置差别的秩和检验 三、几条重要提示 非参数统计分析方法(non-parametric statistics)是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定(assumption free statistics)的统计分析方法。其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料。 SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。 一、npar1way过程语句格式简介 npar1way过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。Npar1way过程的基本语句格式如下。 PROC NPAR1WAY <选项> ; BY 变量名; CLASS变量名; EXACT 统计量选项 ; FREQ变量名; OUTPUT < OUT=数据集名 > < 选项 > ; VAR 变量名; RUN; QUIT; Proc npar1way语句标志npar1way过程的开始,默认情况下(不列举任何选项):npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行

相关主题
文本预览
相关文档 最新文档