7、假设检验
- 格式:ppt
- 大小:432.50 KB
- 文档页数:34
实验7 假设检验(一)一、实验目的:1.掌握重要的参数检验方法(单个总体的均值检验,两个总体的均值检验,成对样本的均值的检验,两个总体方差的检验,二项分布总体的检验);2.掌握若干重要的非参数检验方法(Pearson拟合优度 2检验,Kolmogorov-Smirnov单样本和双样本检验)。
二、实验内容:练习:要求:①完成练习并粘贴运行截图到文档相应位置(截图方法见下),并将所有自己输入文字的字体颜色设为红色(包括后面的思考及小结),②回答思考题,③简要书写实验小结。
④修改本文档名为“本人完整学号姓名1”,其中1表示第1次实验,以后更改为2,3,...。
如文件名为“09张立1”,表示学号为09的张立同学的第1次实,法1Alt,即完法2:图标,工具。
)1.2.H0:H1:alternative hypothesis: true mean is not equal to 22595 percent confidence interval:172.3827 211.9173sample estimates:mean of x192.15P=0.002516<0.05,拒绝原假设,认为油漆工人的血小板计数与正常成年男子有差异3.(习题5.2)已知某种灯泡寿命服从正态分布,在某星期所生产的该灯泡中随机抽取10 只,测得其寿命(单位:小时)为1067 919 1196 785 1126 936 918 1156 920 948求这个星期生产出的灯泡能使用1000小时以上的概率。
解:源代码及运行结果:(复制到此处,不需要截图)> x<-c(1067, 919, 1196, 785, 1126, 936, 918, 1156, 920, 948)> p<-pnorm(1000,mean(x),sd(x))> 1-p[1] 0.4912059结论:这个星期生产出的灯泡能使用1000小时以上的概率为0.49120594.(习题5.3)为研究某铁剂治疗和饮食治疗营养性缺铁性贫血的效果,将16名患者按年龄、体重、病程和病情相近的原则配成8对,分别使用饮食疗法和补充铁剂治疗的方法,3个月后测得两种患者血红资白如下表所示,问两种方法治疗后的患者血红蛋白有无差异?H0:H1:5.,分别测试验组与对照组空腹腔血糖下降值(mmol/L)(1)检验试验组和对照组的的数据是否来自正态分布,采用正态性W检验方法(见第3章)、Kolmogorov-Smirnov检验方法和Pearson拟合优度 2检验;解:提出假设:H0:认为国产四类新药阿卡波糖股嚢与拜唐苹股嚢对空腹血糖的降糖效果不同H1:认为国产四类新药阿卡波糖股嚢与拜唐苹股嚢对空腹血糖的降糖效果相同①正态性W检验方法源代码及运行结果:(复制到此处,不需要截图)>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.6 0,2.50,6.00,-1.4)> shapiro.test(x)Shapiro-Wilk normality testdata: xW = 0.9699, p-value = 0.7527>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3②结论:试验组p=0.9771>0.05,对照组p=0.9368>0.05,所以检验试验组和对照组的的数据是来自正态分布③Pearson拟合优度 2检验源代码及运行结果:(复制到此处,不需要截图)>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.6 0,2.50,6.00,-1.4)> A<-table(cut(x,br=c(-6,-3,0,3,6,9)))> p<-pnorm(c(-3,0,3,6,9),mean(x),sd(x))> p> p<-c(p[1],p[2]-p[1],p[3]-p[2],p[4]-p[3],1-p[4])> p> chisq.test(A,p=p)Chi-squared test for given probabilitiesdata: AX-squared = 0.56387, df = 4, p-value = 0.967Warning message:In chisq.test(A, p = p) : Chi-squared近似算法有可能不准>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3 .10,1.70,-2.00)> B<-table(cut(y,br=c(-2,1,2,4,7)))> p<-pnorm( c(-2,1,2,4,7),mean(y),sd(y))> p> p(2H0:H1:t = -0.64187, df = 38, p-value = 0.5248alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:-2.326179 1.206179sample estimates:mean of x mean of y2.065 2.625结论:p=0.5248>0.05,不拒绝原假设,两组数据均值没有差异②方差不同模型源代码及运行结果:(复制到此处,不需要截图)>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.6 0,2.50,6.00,-1.4)>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3 .10,1.70,-2.00)> t.test(x,y)Welch Two Sample t-testdata: x and yt = -0.64187, df = 36.086, p-value = 0.525alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:(3解:提出假设:H0:试验组与对照组的方差相同H1:试验组与对照组的方差不相同源代码及运行结果:(复制到此处,不需要截图)>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.6 0,2.50,6.00,-1.4)>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3 .10,1.70,-2.00)> var.test(x,y)F test to compare two variancesdata: x and yF = 1.5984, num df = 19, denom df = 19, p-value = 0.3153alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.6326505 4.0381795sample estimates:ratio of variances1.598361结论:p= 0.3153>0.05,不拒绝原假设,试验组与对照组的方差相同6.(习题5.5)为研究某种新药对抗凝血酶活力的影响,随机安排新药组病人12例,对照组病人10例,(1(2(3解:(1H0:H1:H0:H1:> y<-c(162, 172 ,177 ,170 ,175, 152 ,157 ,159, 160 ,162)> ks.test(y,"pnorm",mean(y),sd(y))One-sample Kolmogorov-Smirnov testdata: yD = 0.22216, p-value = 0.707alternative hypothesis: two-sidedWarning message:In ks.test(y, "pnorm", mean(y), sd(y)) :Kolmogorov - Smirnov检验里不应该有连结(2)检验两组样本方差是否相同;提出假设:H0:两组样本方差相同H1:两组样本方差不相同源代码及运行结果:(复制到此处,不需要截图)> x<-c(126,125,136,128,123,138,142,116,110,108,115,140)> y<-c(162, 172 ,177 ,170 ,175, 152 ,157 ,159, 160 ,162)> var.test(x,y)F test to compare two variancesdata: x and yF = 1.9646, num df = 11, denom df = 9, p-value = 0.32alternative hypothesis: true ratio of variances is not equal to 1(3H0:H1:7.靠,随机抽选了400名居民,发现其中有57人是老年人。
《概率论与数理统计》第七章假设检验.第七章假设检验学习⽬标知识⽬标:理解假设检验的基本概念⼩概率原理;掌握假设检验的⽅法和步骤。
能⼒⽬标:能够作正态总体均值、⽐例的假设检验和两个正态总体的均值、⽐例之差的假设检验。
参数估计和假设检验是统计推断的两种形式,它们都是利⽤样本对总体进⾏某种推断,然⽽推断的⾓度不同。
参数估计是通过样本统计量来推断总体未知参数的取值范围,以及作出结论的可靠程度,总体参数在估计前是未知的。
⽽在假设检验中,则是预先对总体参数的取值提出⼀个假设,然后利⽤样本数据检验这个假设是否成⽴,如果成⽴,我们就接受这个假设,如果不成⽴就拒绝原假设。
当然由于样本的随机性,这种推断只能具有⼀定的可靠性。
本章介绍假设检验的基本概念,以及假设检验的⼀般步骤,然后重点介绍常⽤的参数检验⽅法。
由于篇幅的限制,⾮参数假设检验在这⾥就不作介绍了。
第⼀节假设检验的⼀般问题关键词:参数假设;检验统计量;接受域与拒绝域;假设检验的两类错误⼀、假设检验的基本概念(⼀)原假设和备择假设为了对假设检验的基本概念有⼀个直观的认识,不妨先看下⾯的例⼦。
例7.1 某⼚⽣产⼀种⽇光灯管,其寿命X 服从正态分布)200 ,(2µN ,从过去的⽣产经验看,灯管的平均寿命为1550=µ⼩时,。
现在采⽤新⼯艺后,在所⽣产的新灯管中抽取25只,测其平均寿命为1650⼩时。
问采⽤新⼯艺后,灯管的寿命是否有显著提⾼?这是⼀个均值的检验问题。
灯管的寿命有没有显著变化呢?这有两种可能:⼀种是没有什么变化。
即新⼯艺对均值没有影响,采⽤新⼯艺后,X 仍然服从)200 ,1550(2N 。
另⼀种情况可能是,新⼯艺的确使均值发⽣了显著性变化。
这样,1650=X 和15500=µ之间的差异就只能认为是采⽤新⼯艺的关系。
究竟是哪种情况与实际情况相符合,这需要作检验。
假如给定显著性⽔平05.0=α。
在上⾯的例⼦中,我们可以把涉及到的两种情况⽤统计假设的形式表⽰出来。
应用统计学第九章假设检验朱佳俊博士Applied Statistics 第一节假设检验的基本问题一、假设检验的基本概念对总体的概率分布或分布参数作出某种“假设”,根据抽样得到的样本观测值,运用数理统计的分析方法,检验这种“假设”是否正确,从而决定接受或拒绝“假设”,这就是本章要讨论的假设检验问题。
1、假设定义为一个调研者或管理者对被调查总体的某些特征所做的一种假定或猜想。
是对总体参数的一种假设。
常见的是对总体均值或比例和方差的检验;在分析之前,被检验的参数将被假定取一确定值。
2、假设检验(hypothesis test)(1)概念–事先对总体参数或分布形式作出某种假设–然后利用样本信息来判断原假设是否成立(2)类型–参数假设检验–非参数假设检验(3)特点–采用逻辑上的反证法–依据统计上的小概率原理... 因此我们拒绝假设 =20... 如果这是总体的真实均值样本均值μ= 50抽样分布H0这个值不像我们应该得到的样本均值...203、假设检验的基本思想小概率原理是假设检验的基本依据,即认为小概率事件在一次试验中几乎是不可能发生的。
当进行假设检验时,先假设H 0正确,在此假设下,若小概率事件A出现的概率很小,例如P (A )=0.01,经过取样试验后,A 出现了,则违反了上述原理,我们认为这是一个不合理的结果。
4、小概率原理5、原假设和备择假设(1)原假设(null hypothesis)研究者想收集证据予以支持的假设也称“研究假设”总是有符号≠, <或>表示为H 1–H 1 :μ<某一数值,或μ>某一数值–例如, H 1 :μ< 10cm ,或μ>10cm(2)备择假设(alternative hypothesis)研究者想收集证据予以支持的假设也称“研究假设”总是有符号≠, <或>表示为H1–H1 :μ<某一数值,或μ>某一数值–例如, H1 :μ< 10cm,或μ>10cm6、双侧检验与单侧检验(1)备择假设没有特定的方向性,并含有符号“≠”的假设检验,称为双侧检验或双尾检验(two-tailed test)(2)备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailed test)–备择假设的方向为“<”,称为左侧检验–备择假设的方向为“>”,称为右侧检验双侧检验与单侧检验(假设的形式)单侧检验H1: μ> μ0H1:μ< μ0H1: μ≠μ0备择假设H: μ≤μ0H: μ≥μ0H: μ= μ0原假设右侧检验左侧检验双侧检验假设二、假设检验中的两类错误与显示性水平1、假设检验中的两类错误(1)第Ⅰ类错误(弃真错误)–原假设为真时拒绝原假设–第Ⅰ类错误的概率记为α•被称为显著性水平(2)第Ⅱ类错误(取伪错误)–原假设为假时未拒绝原假设–第Ⅱ类错误的概率记为β(Beta)2、显著性水平(significant level)(1)是一个概率值(2)原假设为真时,拒绝原假设的概率–被称为抽样分布的拒绝域(3)表示为α(alpha)–常用的α值有0.01, 0.05, 0.10(4)由研究者事先确定三、检验统计量与拒绝域(一)检验统计量(test statistic)1、根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量2、对样本估计量的标准化结果–原假设H为真–点估计量的抽样分布点估计量的抽样标准差假设值—点估计量标准化检验统计量=3.标准化的检验统计量显著性水平和拒绝域(双侧检验)抽样分布临界值临界值α/2α/2 样本统计量拒绝H 0拒绝H 01 -α1 -置信水平显著性水平和拒绝域(单侧检验)0临界值α样本统计量拒绝H 0抽样分布1 -α置信水平(二)决策规则1、给定显著性水平α,查表得出相应的临界值z α或z α/2,t α或t α/22、将检验统计量的值与α水平的临界值进行比较3、作出决策–双侧检验:I 统计量I > 临界值,拒绝H 0–左侧检验:统计量< -临界值,拒绝H 0–右侧检验:统计量> 临界值,拒绝H 0四、利用P 值进行决策(一)什么是P 值(P -value)1、在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率–双侧检验为分布中两侧面积的总和2、反映实际观测到的数据与原假设H 0之间不一致的程度3、被称为观察到的(或实测的)显著性水平4、决策规则:若p 值<α, 拒绝H 0双侧检验的P 值α/ 2α/ 2Z拒绝H 0拒绝H 0临界值计算出的样本统计量计算出的样本统计量临界值1/2 P 值1/2 P 值临界值α样本统计量拒绝H 0抽样分布1 -1 -α置信水平计算出的样本统计量P 值左侧检验的P 值临界值α拒绝H 0抽样分布 1 -1 -α置信水平计算出的样本统计量P 值右侧检验的P 值五、假设检验步骤1、陈述原假设和备择假设2、从所研究的总体中抽出一个随机样本3、确定一个适当的检验统计量,并利用样本数据算出其具体数值4、确定一个适当的显著性水平,并计算出其临界值,指定拒绝域5、将统计量的值与临界值进行比较,作出决策–统计量的值落在拒绝域,拒绝H 0,否则不拒绝H 0–也可以直接利用P 值作出决策第二节一个总体参数的检验z 检验(单尾和双尾)z 检验(单尾和双尾)t 检验(单尾和双尾)t 检验(单尾和双尾)z 检验(单尾和双尾)z 检验(单尾和双尾)χ2 检验(单尾和双尾)χ2 检验(单尾和双尾)均值均值一个总体一个总体比率比率方差方差是z 检验x z nμσ−=否z 检验ns x z 0μ−=一、总体均值的检验σ是否已知小样本容量n大σ是否已知否t 检验ns x t 0μ−=是z 检验nx z σμ0−=(一)总体均值的检验(大样本)•1.假定条件–正态总体或非正态总体大样本(n ≥30)2.使用z 检验统计量σ2已知:σ2未知:)1,0(~0N nx z σμ−=)1,0(~0N nsx z μ−=1、总体均值的检验(σ2已知)【例】一种罐装饮料采用自动生产线生产,每罐的容量是255ml ,标准差为5ml 。
第七章、假设检验一、应用题:1.解:① 提出待检假设:01:1600;:1600H H μμ=≠② 选取统计量:~(0,1)u N ==③ 对于给定的检验水平0.05α=,查表确定临界值0.02521.96u u α== ,从而给出拒绝域:2{1.96}0.05P u u αα>=== ④ 计算判断:2.251.96u ==> 故拒绝0H ,接受1H ,即:不能认为该批电子元件的平均使用寿命为1600小时。
2.解:① 提出待检假设:01:1600;:1600H H μμ=<② 选取统计量:~(0,1)u N ==③ 对于给定的检验水平0.05α=,查表确定临界值0.05 1.645u u α==,从而给出拒绝域:{1.645}0.P u u αα<-=-== ④ 计算判断:002.251.645u ==-<- 故拒绝0H ,接受1H ,即认为该批电子元件的平均使用寿命显著降低。
3.解:① 提出待检假设:01:3000;:3000H H μμ=>②选取统计量:~(15)t t==③对于给定的检验水平0.05α=,查表确定临界值0.05(15) 1.753t tα==,从而给出拒绝域:{1.753}0.0P t tαα>===④计算判断:2.351.753t=≈>故拒绝H,接受1H,即:认为该批电子元件的平均使用寿命显著提高。
4.解:①提出待检假设:01:0.5;:0.5H Hμμ=≠②选取统计量:~(0,1)9u N==③对于给定的检验水平0.05α=,查表确定临界值0.02521.96u uα==,从而给出拒绝域:2{1.96}0.05P u uαα>===④计算判断:.51.81.969u==<故接受H,拒绝1H,即:认为这天的包装机工作正常。
5.解:①提出待检假设:01:0.5;:0.5H Hμμ=≠②选取统计量:~(8)t t==③对于给定的检验水平0.05α=,查表确定临界值0.0252(8) 2.31t tα==,从而给出拒绝域:2{2.31}0.05P t t αα>=== ④ 计算判断:.51.81.969t ==< 故接受0H ,拒绝 1H ,即:认为这天的包装机工作正常。