- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
进一步,如果以L记为(3)的长度,即有
s L 3.92 n
(5)
从(5)看出区间长度随n的增大而减小,因此 可以通过改变样本容量n, 使置信区间达到所 给定的精度,若将(5)式变形为
s n 3.92 L 则对给定的精度可求出样本容量n的大小。这 在设计调查方案时是十分有用的。
s s 则所确定的区间 X u 2 , X u1 都是 n n m的置信度为 95%的置信区间,
13
例如,取2=0.02, 1=0.03, 得置信区间为 s s , X 1.88 (4) X 2.06 n n 在众多区间中,应取哪一个?注意到置信度 相同的置信区间的长度往往不同,例如,区 间(3)的长度和区间(4)的长度分别为
5
在对参数作区间估计时,常常提出以下两个 要求: (1) 可信度高,即随机区间 ( , ) 要以很大的 概率包含真值; (2) 估计精度高, 即要求区间长度 尽可能 小,或某种能体现这一要求的其他准则. 这两个要求往往是相互矛盾的,区间估计的 理论和方法的基本问题就是在已有的样本信 息下,找出较好的估计方法,以尽量提高可 信度和估计精度。奈曼提出的原则是:先保 证可信度,在这个前提下使精度提高。
ˆ 只是一个假设(假说, 参数是未知的, 假想),它可能是真,也可能是假,是真是假 有待于用样本进行验证(检验)。 下面将通过几个问题分析给出假设检验的有 关概念,然后总结给出假设检验的思想和方 法
29
一、统计假设 问题1 某大米加工厂用自动包装机将大米装 袋,每袋的标准重量规定为10kg,每天开工 时,需要先检验一下包装机工作是否正常。 根据以往的经验知道,自动包装机装袋重量 X服从正态分布N(m,s2). 某日开工后,抽取了 8袋,如果根据这8袋的重量判断“自动包装 机工作是正常的”这个命题是否成立?
2
s s x t 37.55, x t 39.45 2 2 n n 所求总体均值的区间估计为(37.55, 39.45)
26
第八章 假设检验
27
第一节 假设检验问题
28
本章讨论另一类统计推断问题——假设检验. 在参数估计中我们我们按照参数的点估计方 法建立了参数的估计公式, 并利用样本值确 ˆ, ˆ . 由于 定了一个估计值 认为参数真值
10
2
由此,我们给出求未知参数的置信区间的具 体做法如下: ˆ(X1,X2,…,Xn), 构造 (1) 利用的无偏估计量 一个样本 X1,…,Xn 的函数:G(X1,X2,…,Xn,). 在此函数中,包含待估参数, 而不含其他未 知参数,并且 G 的分布已知且不依赖于任何 未知参数. (2) 对于给定的置信度 1, 选取两个常数 a 和 b,使对一切, 有 P{a<G(X1,X2,…,Xn,)<b}=1.
33
问题4 某种疾病,不用药时其康复率为=0, 现发明一种新药(无不良反应),为此抽查n位 病人用新药的治疗效果,设其中有s人康复, 根据这些信息,能否断定“该新药有效”?
记H0:>0, H1:0, 则问题等价于检验H0成立, 还是H1成立.
3
定义 设总体 X 的分布中含有未知参数, (X1,X2,…,Xn)和 (X1,X2,…,Xn)是由样本 X1,X2,…,Xn 确定的两个统计量. 对给定的数 (0<<1), 如果对参数的任何值,都有 P{ } 1 (1) 则称随机区间 ( , ) 为参数的置信度为 1 的置信区间, , 分别称为的双侧置信区间 的置信下限和置信上限.
32
问题 3 某种电子元件的使用寿命 X 服从参数 为的指数分布, 现从一批元件中任取 n 个测 得其寿命值(样本), 如何判定 “元件的平均寿 命不小于 5000 小时”这个命题是否成立?
1 1 , H1 : 记: H 0 : . 则问题等价 5000 5000 于检验 H0 成立,还是 H1 成立.
4
P{ } 1 (1) (1)式的意义如下:若反复抽样多次(各次得到 的样本容量均为 n),每次样本值确定一个区 间( , ) ,每个这样的区间要么包含的真值, 要么不包含的真值,按伯努利大数定理,在 这样多的区间中,包含的真值的区间个数约 占 100(1)%. 如=0.05, 反复抽样 100 次, 得 100 个区间,其中包含真值的约占 95 个, 不包含真值的约占 5 个.
6
二、估计方法 例1 设总体X~N(m,s2), s2已知,m未知, X1,X2,…,Xn是来自总体X的样本,求m的置信 度为1的置信区间. 解 样本均值 X 是总体均值m的无偏估计, X的 取值比较集中于m附近,显然以很大概率包含 m的区间也应包含 X ,基于这种想法,我们从 X 出发,来构造m的置信区间,由于 X m ~ N (0,1) s/ n
8
由
X m u 2 s/ n
| m X |
得 mX u 2 s/ n
s
n
u
2
s
n
u m X
2
s
n
u
2
X
s
n
u m X
2
s
n
u
2
9
s s u , X u X n 2 n 2
f(x)
பைடு நூலகம்
2
2
u
2
O
u
x
16
2
第四节 正态总体参数的区间估计
17
由于服从正态分布的总体的广泛存在,而且 很多统计量的极限分布是正态分布,因此, 下面专门介绍正态总体N(m,s2)中的参数m和 s2的区间估计。
18
一、一个正态总体均值的区间估计 1. s2已知时,m的区间估计 从例1的求解中可以得到置信度为1的置信 区间为 s s u , X u (1) X n 2 n 2
2
分位点t ( n 1) 使下式成立:
2
P{| T | t ( n 1)} 1
2
22
X m P t (n 1) 1 2 2 S /n
/2
t ( n 1)
2 2
/2
t ( n 1)
23
X m S /n
31
问题2 一架天平标定的误差方差为104(克2), 重量为m的物体用它称得的重量X服从N(m,s2), 某人怀疑天平的精度,拿一物体称n次,得n 个数据, 由这些数据(样本)如何判断“这架天 平的精度是104(克2)”这个命题是否成立? 记H0: s2=104, 其H1:s2104. 则问题等价于检 验H0成立,还是H1成立.
和
s s 2 1.96 3.92 n n s s (1.88 2.06) 3.94 n n
14
由于区间越长,估计值分散的可能性越大, 所以区间长度是估计精度的反映. 为此,我们 在置信水平一定的前提下,选取区间长度最 短的一个,一般说来,若分布是对称的,单 峰的,那么关于峰点对称的置信区间的长度 最短,所以,对于例1,区间(3)是长度最短 的。
7
X m ~ N (0,1) s/ n
所以
X m P u 1 2 s / n
s s 即 PX u m X u 1 , n 2 n 2 其中 u/2 为标准正态分布的上 分位点, 这样 2 我们得到了m的置信度为 1的置信区间
( , ) 即是的置信度为 1的置信区间.
12
满足同一置信度的置信区间可能有很多个, 如例 1 中, 置信度为 95%(=0.05)的置信区间 s s , X 1.96 (3) 为 X 1.96 n n 对 于 任 给 的 1,2(0<2,1<1) 只 要 1+2 ==5%, 记相应的上 1,2 分位点为 u1 和 u 2
19
例 1 假设某地区放射性服从正态分布 2 N(m,7.3 ), 现取一大小为 49 的样本,其样本 均值 x 28.8, 求m的置信水平为 0.95(=0.05) 和 0.99(=0.01 的置信区间. 解 这里 n=49, s=7.3, =0.05. 查 N(0,1)分布 表得上 0.025 分位点 u0.025=1.96,
7.3 x u 28.8 1.96 26.8, 2 n 49 s 7.3 x u 28.8 1.96 30.8 2 n 49
20
s
因此,m的置信水平为0.95置信区间为 (26.8,30.8). 当=0.01时,查表得上0.005分位点u0.005=2.57, s 7.3 x u 28.8 2.57 26.12, 2 n 49 s 7.3 x u 28.8 2.57 31.48 2 n 49 因此,m的置信水平为0.99置信区间为 (26.12,31.48).
2
t (n 1)
2
S | X m | t ( n 1) n 2 S | m X | t ( n 1) n 2 S S t ( n 1) m X t ( n 1) n 2 n 2 S S X t ( n 1) m X t ( n 1) n 2 n 2
11
由此,我们给出求未知参数的置信区间的具 体做法如下:
(2) 对于给定的置信度 1, 选取两个常数 a 和 b,使对一切, 有 P{a<G(X1,X2,…,Xn,)<b}=1. (3) 将 a<G(X1,X2,…,Xn,)<b 变形为 ( X 1 , X 2 , , X n ) ( X 1 , X 2 , , X n ) ,
30
引号内的命题可能是真,也可能是假,只有 通过验证才能确定。如果根据抽样结果判断 它是真,则我们接受这个命题,否则就拒绝 接受它,此时实际上我们接受了“机器工作 不正常”这样一个命题。若用H0表示 “m=10”,用H1表示其对立面,即“m10”, 则问题等价于检验H0: m=10是否成立,若H0 不成立,则H1: m10成立.