第八章 假设检验(分布拟合检验)
- 格式:ppt
- 大小:460.00 KB
- 文档页数:37
255第八章 假设检验统计推断的另一个问题是假设检验,即在总体的分布未知或总体的分布形式已知但参数未知的情况下,为推断总体的某些性质,提出关于总体的某种假设,然后根据抽样得到的样本观测值,运用统计分析的方法,对所提的假设作出接受还是拒绝的决策,这一决策的过程称之为假设检验.假设检验分为参数假设检验和非参数假设检验,仅涉及总体分布的未知参数的假设检验称为参数假设检验,不同于参数假设检验的称作非参数假设检验.本章介绍假设检验的基本概念以及正态总体参数的显著性检验.§1 假设检验的基本概念1.1假设检验的思想与方法下面我们通过例子说明假设检验的基本思想和方法. 例1.1 某化肥厂用自动打包机包装化肥,其均值为100kg,根据经验知每包净重X (单位: kg)服从正态分布,标准差为1 kg.某日为检验自动打包机工作是否正常,随机地抽取9包,重量如下:99.3, 98.7, 100.5, 101.2, 98.3, 99.7, 99.5, 102.1, 100.5 试问这一天自动打包机工作是否正常?本例的问题是如何根据样本值来判断自动打包机是否工作正常,即要看总体均值μ是否为100kg.为此,我们给出假设0:100H μ=现用样本值来检验假设0H 是否成立, 0H 成立意味着自动打包机工作正常,否则认为自动打包机工作不正常.在假设检验问题中,我们把与总体有关的假设称之为统计假设,把待检验的假设称之为原假设,记为0H ,与原假设0H 相对应的假设称为备择假设,记为1H .本例中的备择假设为1:100H μ≠.用样本值来检验假设0H 成立,称为接受0H (即拒绝1H ),否则称为接受1H (即拒绝0H ).如何检验0:100H μ=成立与否?我们知道,样本均值X 是μ的无偏256估计,自然地希望用X 这一统计量来进行判断,在0H 为真的条件下,X 的观测值x 应在100附近,即100x -比较小,也就是说,要选取一个适当的常数k ,使得k ⎫≥⎬⎭是一个小概率事件.我们称这样的小概率为显著性水平,记为()01αα<<.一般地,α取0.10,0.05,0.01等.注意到当0H 为真时,统计量()0,1.X U N =(1.1)对于给定的显著性水平α,令 {}P U k P k α⎫≥=≥=⎬⎭, (1.2)于是/2k u α=.设统计量X U =的观测值为x u =,如果/2u u α≥,则意味着概率为α的小概率事件发生了,根据实际推断原理(一个小概率事件在一次试验中几乎不可能发生),我们拒绝0H ,否则接受0H . 在本例中,若取α=0.05, /20.025 1.96u u α==,0.6 1.96μ===<,因此,接受原假设0H ,即自动打包机工作正常.从本例中可以看出, 假设检验的基本思想是:为验证原假设0H 是否成立,我们首先假定0H 是成立的,然后在0H 成立的条件下,利用观测到的样本提供的信息,如果能导致一个不合理的现象出现,即一个概率很小的事件在一次试验中发生了,我们有理由认为事先的假定是不正确的, 从而拒绝2570H ,因为实际推断原理认为,一个小概率事件在一次试验中是几乎不可能发生的.如果没有出现不合理的现象,则样本提供的信息并不能否定事先假定的正确性, 从而我们没有理由拒绝0H ,即接受0H .为了利用提供的信息,我们需要适当地构造一个统计量,称之为检验统计量,如 例1.1的检验统计量是X U =.利用检验统计量,我们可以确定一个由小概率事件对应的检验统计量的取值范围,称这一范围为假设检验的拒绝域,记为W ,如例1.1的拒绝域为{}/2W u αμ=≥.当u W ∈时,我们拒绝0H .当u W ∉时, 接受0H .1.2 假设检验的两类错误由于假设检验是依据实际推断原理和一个样本值作出判断的,因此,所作的判断可以会出现错误.如原假设0H 客观上是真的,我们仍有可能以α的概率作出拒绝0H 的判断,从而犯了“弃真”的错误,这种错误称为第一类错误, 犯这个错误的概率不超过给定的显著性水平α,为简单起见,记{}00P H H α=拒绝成立. (1.3)另外,当原假设0H 客观上是假的,由于随机性而接受0H ,这就犯了“取伪”的错误,这种错误称为第二类错误. 犯第二类错误的概率记为b ,即{}01P H H β=接受成立. (1.4)在检验一个假设时,人们总是希望犯这两类错误的概率都尽量小.但当样本容量n 确定后,不可能同时做到犯这两类错误的概率都很小,因此, 通常我们的做法是利用事前给定的显著性水平α来限制第一类错误,力求使犯第二类错误的概率b 尽量小,这类假设检验称为显著性检验.为明确起见,我们把两类错误列于表8.1中258表8.1 假设检验的两类错误1.3 假设检验的步骤从例1.1中可以看出假设检验的一般步骤为:(1)根据实际问题提出原假设0H 和备择假设1H ; (2)确定检验统计量Z ;(3)对于给定的显著性水平α,并在0H 为真的假定下利用检验统计量确定拒绝域W ;(4)由样本值算出检验统计量的观测值z ,当z W ∈时,拒绝0H .当z W ∉时, 接受0H .需要说明的是:原假设和备择假设的建立主要根据具体问题来决定.通常把没有把握不能轻易肯定的命题作为备择假设,而把没有充分理由不能轻易否定的命题作为原假设.在对参数θ的假设检验中,形如00:H θθ=,10:H θθ≠的假设检验称为双边检验.在实际问题中,有些被检验的参数,如电子元件的寿命越大越好,而一些指标如原材料的消耗越低越好,因此,需要讨论如下形式的假设检验:00:H θθ≤, 10:H θθ> (1.5)或00:H θθ≥, 10:H θθ< (1.6)我们称(1.5)为右边检验, (1.6)为左边检验; 左边检验和右边检验统称为单边检验.259§2 单个正态总体的均值与方差的假设检验设12,,,n X X X 是来自正态总体()2,N μσ的一个样本, 样本均值为X ,样本方差为2S .2.1 单个正态总体均值的假设检验1.2σ已知时,关于μ的假设检验 为检验假设00:H μμ=, 10:H μμ≠. 构造检验统计量X U =(0,1)U N . (2.1)当0H 为真时, 检验统计量U的观测值x u =,故对给定的显著性水平α,令/2P u αα⎫≥=⎬⎭得拒绝域为{}/2W u u α=≥. (2.2)当U 的观测值满足/2u u α≥,则拒绝0H ,即认为均值μ与0μ有显著差异;否则接受0H ,即认为μ与0μ无显著差异. 对假设00:H μμ≤, 10:H μμ>. 取检验统计量为X U =(2.3)260可得此假设检验的拒绝域为{}W u u α=≥ . (2.4)类似地,我们可得假设检验00:H μμ≥, 10:H μμ< 的拒绝域为{}W u u α=≤-.(2.5) 在上述检验中,我们都用到统计量X U =来确定检验的拒绝域,这种方法称为U 检验.例 2.1 设某厂生产的一种电子元件的寿命(单位:小时)(,40000)X N μ ,从过去较长一段时间的生产情况来看,此电子元件的平均寿命不超过1500小时,现在采用新工艺后,在所生产的电子元件中抽取25只,测得平均寿命x =1675小时.问采用新工艺后,电子元件的寿命是否有显著提高(显著性水平α=0.05)?解: 建立假设0:1500H μ≤, 1:1500H μ>.已知,25,200n σ==, x =1675, α=0.05,0.05 1.645u u α==,U 的观测值为0.054.375 1.645x u u ==>=,因此,拒绝0H ,接受1H ,即认为采用新工艺后,电子元件的寿命有显著提高.2.2σ未知时,关于μ的假设检验作单个总体均值的U 检验,要求总体标准差已知,但在实际应用中,2σ往往并不知道,我们自然想到用2σ的无偏估计2S代替它,构造检验统计量为()1XT t n=-. (2.6)考虑假设00:Hμμ=,10:Hμμ≠.对给定的显著性水平α,有()/21P t nαα⎫≥-=⎬⎭,(2.7)因此,检验的拒绝域为(){}/21W t t nα=≥-. (2.8)当检验统计量T的观测值xt=()/21t t nα≥-,则拒绝H,即认为均值μ与μ有显著差异,否则接受H,即认为μ与μ无显著差异.类似地,假设检验00:Hμμ≥,10:Hμμ<的拒绝域为(){}1W t t nα=≤--. (2.9)假设检验00:Hμμ≤,10:Hμμ>的拒绝域为(){}1W t t nα=≥-. (2.10)称上述检验方法为t检验.例2.2 健康成年男子脉搏平均为72次/分,高考体检时,某校参加体检的26名男生的脉搏平均为74.2次/分,标准差为6.2次/分,问此26名男生每分钟脉搏次数与一般成年男子有无显著差异 (α=0.05) ?解:建立假设:72Hμ=,1:72Hμ≠.261262已知26,74.2, 6.2n x s ===, α=0.05,()()/20.0252525 2.06t t α==, 计算T的观测值: 1.81x t ==,由于 |1.81|<2.06 ,故接受0H ,即认为此26名男生每分钟脉搏次数与一般成年男子无显著差别.2.2 单个正态总体方差的假设检验1. μ已知时,关于2σ的假设检验为检验假设2200:H σσ=, 2210:H σσ≠.选取检验统计量为()222211()nii Xn χμχσ==-∑ ,(2.11) 当0H 为真时, 检验统计量2χ不应偏大或偏小,即对给定显著性水平α,有()(){}2212P k k χχα≤⋃≥=.一般地,取()()2211/22/2,k n k n ααχχ-==,其拒绝域为()(){}22221/2/2W n n ααχχχχ-=≤≥或.类似地,我们可以讨论左边检验2200:H σσ≥, 2210:H σσ< 和右边检验2200:H σσ≤, 2210:H σσ> 的拒绝域(见表8.2).2. μ未知时,关于2σ的假设检验 欲检验假设2200:H σσ=, 2210:H σσ≠. 选取检验统计量为263()()222211n S n χχσ-=- (2.12) 当0H 为真时, 检验统计量2χ不应偏大或偏小,即对给定显著性水平α,有()(){}2212P k k χχα≤⋃≥=.一般地,取()()2211/22/21,1k n k n ααχχ-=-=-.因此,拒绝域为()(){}22221/2/211W n n ααχχχχ-=≤-≥-或 (2.13)以上的检验方法称为2χ检验.例 2.3 某厂生产一种电子产品,此产品的某个指标服从正态分布()2,N μσ,现从中抽取容量为8n =的一个样本,测得样本均值61.125x =,样本方差293.268s =.取显著性水平0.05α=,试就60μ=和μ未知这两种情况检验假设228σ=. 解: 检验假设222201:8,:8H H σσ=≠.(1) μ未知,取()2221n S χσ-=为检验统计量,由293.268s =,算出()228193.26810.20128χ-⨯==,又()()221/20.97517 1.690n αχχ--==和()()22/20.0251716.013n αχχ-==,即10.2012不在拒绝域内,故接受220:8H σ=.(2) μ已知,取222101()ni i X χμσ==-∑为检验统计量. ()()221/20.97582,180n αχχ-==,()()22/20.025817.535n αχχ==,264注意到,2222111()(()())()()n nniii i i i x xx x x x n x μμμ===-=-+-=-+-∑∑∑和221()(1)nii x x n s =-=-∑.由61.125x =和293.268s =,可算出检验统计量的观测值为822211(60)10.32818i i x χ==-=∑,即它不在拒绝域内,故接受220:8H σ=.§3 两个正态总体均值差与方差比的假设检验设()211,X N μσ ,()222,Y N μσ ,从总体X 和Y 中,分别独立地取出样本12,,,n X X X 和12,,,m Y Y Y ,样本均值依次记为X 和Y ,样本方差依次记为21S 和22S .3.1 两个正态总体均值差的假设检验1. 21σ与22σ已知时, 关于12μμ-的假设检验现检验假设012:H μμδ-=, 112:H μμδ-≠. 由第六章定理2.2可知,在0H 成立的条件下,检验统计量()0,1X Y U N =. (3.1)给定显著性水平α,令/2P u αα⎫⎪≥=⎬⎪⎭,可得拒绝域为{}/2W αμμ=≥. (3.2)常用的情况是0δ=,即原假设为012:H μμ=.265例3.1 某苗圃采用两种育苗方案作育苗试验,已知苗高服从正态分布.在两组育苗试验中,苗高的标准差分别为1218,20σσ==.现都取60株苗作为样本,测得样本均值分别为59.34x =厘米和49.16y =厘米.取显著性水平为0.05α=,试判断这两种育苗方案对育苗的高度有无显著性影响.解:建立假设012:H μμ=, 112:H μμ≠. 由题中给出的数据,我们算出统计量X YU =的观测值为2.93u ==另, 0.05α=,/20.025 1.96u u α==,因 2.93 1.96u =>,故拒绝012:H μμ=,认为这两种育苗方案对育苗的高度有显著性影响.2. 21σ与22σ未知但22212σσσ==时, 关于12μμ-的假设检验现检验假设012:H μμδ-=, 112:H μμδ-≠.由第六章定理4.2可知,在0H 成立的条件下,检验统计量()2X Y T t n m =+- ,(3.3) 其中, ()()22122112wn S m S Sn m -+-=+-.给定显著性水平α,使得(){}/22P T t n m αα≥+-=.得到拒绝域为(){}/22W t t n m α=≥+- . (3.4)266类似地,我们可得关于12μμ-的单边假设检验的拒绝域(见表8.2). 例 3.2 在针织品漂白工艺中,要考虑温度对针织品断裂强力的影响,为比较70℃和80℃的影响有无显著性差异.在这两个温度下,分别重复做了8次试验,得到断裂强力的数据如下(单位:牛顿)70℃: 20.5, 18.8, 19.8, 20.9, 21.5, 21.0, 21.2, 19.5 80℃: 17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.2, 19.1由长期生产的数据可知, 针织品断裂强力服从正态分布,且方差不变,问这两种温度的断裂强力有无显著差异(显著性水平0.05α=). 解:设X ,Y 分别表示70℃和80℃的断裂强力,因此()21,X N μσ ,()22,Y N μσ .建立假设012:H μμ=, 112:H μμ≠.取X YT =为检验统计量,8n m ==,由题中给出的数据可以计算:20.4,19.4,0.928w x y s ===,检验统计量的观测值为 2.16x yt ==.又()()/20.025214 2.1450t n m t α+-==,因2.16>2.1450,故拒绝原假设,即认为这两种温度的断裂强力有显著差异.3.2 两个正态总体方差比的假设检验1. 1μ和2μ已知时,检验假设2222012112:,:H H σσσσ=≠现检验假设2222012112:,:H H σσσσ=≠.由第六章的定理5.1可知,在0H 成立的条件下取检验统计量267211221()(,)()ni i mi i m X F F n m n Y μμ==-=-∑∑ , (3.5)给定显著性水平α,使()(){}12P F k F k α≤⋃≥=.一般地,取()()11/22/2,,,k F n m k F n m αα-==,注意到()()1/2/21,,F n m F m n αα-=.因此拒绝域为()()/2/21,,W F F F n m F m n αα⎧⎫⎪⎪=≤≥⎨⎬⎪⎪⎩⎭或 . (3.6)2. 1μ和2μ未知时,检验假设2222012112:,:H H σσσσ=≠ 现检验假设2222012112:,:H H σσσσ=≠.由第六章的定理5.2可知,在0H 成立的条件下取检验统计量2122(1,1)S F F n m S =-- , (3.7)给定显著性水平α,使()(){}12P F k F k α≤⋃≥=.一般地,取()()11/22/21,1,1,1k F n m k F n m αα-=--=--.拒绝域为 ()()/2/211,11,1W F F F n m F m n αα⎧⎫⎪⎪=≤≥--⎨⎬--⎪⎪⎩⎭或. (3.8)上述检验方法称为F 检验.例3.3 根据本节例3.2的数据,检验70℃和80℃时针织品断裂强力的方差是否相等(显著性水平为0.05α=)?解:建立假设2222012112:,:H H σσσσ=≠.268由数据,检验统计量的观测值为21220.8857 1.070.8286s F s ===,又()()/20.0251,17,7 4.99,F n m F α--==()()/20.0251110.201,17,7 4.99F m n F α==≈--,显然有()()210.02520.025210.20 1.07 4.997,77,7s F F s =<=<=,因此,接受0H ,即认为70℃和80℃时针织品断裂强力的方差是相等的.表8.2 正态总体参数的显著性检验列表(显著性水平为α)269270习题八1.在正常情况下,某炼钢厂的铁水含碳量(%)2(4.55,)X N σ .一日测得5炉铁水含碳量如下:4.48,4.40,4.42,4.45,4.47在显著性水平0.05α=下,试问该日铁水含碳量得均值是否有明显变化. 2.根据某地环境保护法规定,倾入河流的废物中某种有毒化学物质含量不得超过3ppm.该地区环保组织对某厂连日倾入河流的废物中该物质的含量的记录为:115,,x x .经计算得知15148ii x==∑, 1521156.26i i x ==∑.试判断该厂是否符合环保法的规定.(该有毒化学物质含量X 服从正态分布) 3.某厂生产需用玻璃纸作包装,按规定供应商供应的玻璃纸的横向延伸率不应低于65.已知该指标服从正态分布2(,)N μσ, 5.5σ=.从近期来货中抽查了100个样品,得样本均值55.06x =,试问在0.05α=水平上能否接受这批玻璃纸?4.某纺织厂进行轻浆试验,根据长期正常生产的累积资料,知道该厂单台271布机的经纱断头率(每小时平均断经根数)的数学期望为9.73根,标准差为1.60根.现在把经纱上浆率降低20%,抽取200台布机进行试验,结果平均每台布机的经纱断头率为9.89根,如果认为上浆率降低后均方差不变,问断头率是否受到显著影响(显著水平α=0.05)?5. 某厂用自动包装机装箱,在正常情况下,每箱重量服从正态分布2(100,)N σ.某日开工后,随机抽查10箱,重量如下(单位:斤):99.3,98.9,100.5,100.1,99.9,99.7,100.0,100.2,99.5,100.9.问包装机工作是否正常,即该日每箱重量的数学期望与100是否有显著差异?(显著性水平α=0.05) 6.某自动机床加工套筒的直径X 服从正态分布.现从加工的这批套筒中任取5个,测得直径分别为15,,x x (单位m μ:),经计算得到51124ii x==∑, 5213139i i x ==∑.试问这批套筒直径的方差与规定的27σ=有无显著差别?(显著性水平0.01α=)7.甲、乙两台机床同时独立地加工某种轴,轴的直径分别服从正态分布211(,)N μσ、222(,)N μσ(12,μμ未知).今从甲机床加工的轴中随机地任取6根,测量它们的直径为16,,x x ,从乙机床加工的轴中随机地任取9根,测量它们的直径为19,,y y ,经计算得知:61204.6ii x==∑, 6216978.9i i x ==∑91370.8ii y==∑ 92115280.2i i y ==∑问在显著性水平0.05α=下,两台机床加工的轴的直径方差是否有显著差异?8.某维尼龙厂根据长期正常生产积累的资料知道所生产的维尼龙纤度服从正态分布,它的标准差为0.048.某日随机抽取5根纤维,测得其纤度为1.32,1.55,1.36,1.40,1.44.问该日所生产得维尼龙纤度的均方差是否有显著变化(显著性水平α=0.1)?9.某项考试要求成绩的标准为12,先从考试成绩单中任意抽出15份,计算样本标准差为16,设成绩服从正态分布,问此次考试的标准差是否符合要求(显著性水平α=0.05)?10.某卷烟厂生产甲、乙两种香烟,分别对他们的尼古丁含量(单位:毫克)作了六次测定,获得样本观察值为:甲:25,28,23,26,29,22;乙:28,23,30,25,21,27.假定这两种烟的尼古丁含量都服从正态分布,且方差相等,试问这两种香烟的尼古丁平均含量有无显著差异(显著性水平α=0.05,)?对这两种香烟的尼古丁含量,检验它们的方差有无显著差异(显著性水平α=0.1)?【提供者:路磊】272。