- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a a a
f (u)
0.95
b
0.95
b
0.95
0b
我们总是希望置信区间尽可能短.
u
在概率密度为单峰且对称的情形,
u 当a=-b时求得的置信区间的长度为最短.
u a =-b
即使在概率密度不对称的情形,如 χ2分布,F分布, 习惯上仍取对称的分位点来计算未知参数的置信区间.
f (x)
X ~ 2 (n)
若我们能给出一个区间, 在此区间内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把握多了.
也就是说, 我们希望确定一个区间, 使我们能以比较高的可靠程度相信它包含真参数值.
湖中鱼数的真值
数理统计
[• ]
这里的“可靠程度”是用概率来度量的, 称为置信度或置信水平. 习惯上把置信水平记作 1- α, 这里 α是一个很小的正数.
使:P
X
n
u
2
1
从中解得:
P
X
n u 2
X
n
u
2
1
于是所求 μ的置信区间为:
X
n u 2 ,
X
n
u
2
也可简记为:
X
n
u
2
数理统计
2. 我们归纳出求置信区间的一般步骤如下:
数理统计
1) 明确问题, 是求什么参数的置信区间? 置信水平1-α是多少? 2) 寻找参数 θ的一个良好的点估计: f(X1,X2,…Xn); 3) 寻找一个待估参数θ和估计量 f的函数 G(f, θ), 且其分布为已知; 4) 对于给定的置信水平1-α, 根据G(f, θ)的分布, 确定常数a, b, 使:
数理统计
2 1
2 (n)
2 2 (n)
x
二、估计方法:
在求置信区间时, 要查表求分位点.
数理统计
1. 定义: 设 0<α<1 , 对随机变量X, 称满足:
P( X xα ) α P( X xα ) 1 α
的点 xα 为X的概率分布的上α分位点.
P(a X b) 1 α
c
P(X b) P(X a) 1 α
P(X b) 1 α 2 ,
F~ F(n1, n2)
P{F Fα (n1, n2 )} α
例1: 设 X1,…Xn是取自N(
解:选μ的点估计为 X,
寻找未知参数的
取:U X N (0,1) n
一个良好估计.
对给定的置信水平: 1-α, 查正态分布表得: uα/2,
第三节 区间估计
区间估计问题 估计方法
数理统计
一、区间估计(interval estimation)问题
数理统计
参数点估计是用样本算得的一个值去估计未知参数.
但是, 点估计值仅仅是未知参数的一个近似值,
它没有反映出这个近似值的误差范围, 使用起来把握不大.
区间估计正好弥补了点估计的这个缺陷 .
譬如, 在估计湖中鱼数的问题中, 若我们根据一个实际样本, 得到鱼数 N 的极大似然估计为1000条. 实际上, N的真值可能大于1000条, 也可能小于1000条.
置信水平的大小是根据实际需要选定的. 例如, 通常可取置信水平 1- α=0.95 或 0.9 等.
根据一个实际样本, 由给定的置信水平(degree of confidence), 我们求出一个尽可能小的区间 (θ, θ),—使:
—
P{θ < θ < θ}=1-α
—
称区间(θ, θ) 为 θ的置信水平为 1- α的置信区间(confidence interval).
P(a <G(f, θ)<b)=1-α; 5) 对“a<G(f, θ)<b” 作等价变形, 得到如下形式: θ< θ< θ,—
即: P{θ< θ< θ}=—1-α 于是(θ, θ)—就是 θ的100(1- α)%的置信区间.
可见, 关键的是寻找一个待估参数 θ和估计量 f 的函数 G(f, θ), 且 G(f, θ)的分布为已知, 不依赖于任何未知参数, 而这与总体分布有关,
P(X
a)
α 2
P( X b) 1 α 3 , P( X a) 2α 3
若 X为连续型随机变量, 则有:
a x1α 2 ,b xα 2
所求置信区间为: ( x1α 2 , xα 2 )
a x12α 3 ,b xα 3
所求置信区间为: ( x12α 3 , xα 3 )
数理统计
U
标准正态分布 的上α分位点 uα
U~N(0, 1)
P(U uα ) α
数理统计
自由度为n的χ2分布
的上α分位数
2
(n)
χ2~ χ2(n)
P( χ 2 χα2(n)) α
数理统计
T~t(n)
t分布的上α分位点 tα
T~t(n)
P{T tα (n)} α
数理统计
自由度为 n1, n2的F分布
的上α分位数 F (n1, n2 )
1.定义: 设 θ是 一个待估参数, 给定α>0,
数理统计
若由样本 X1, X2, … Xn确定的两个统计量:
θ=θ(X1, X2, … Xn)
——
—
θ=θ(X1, X2, … Xn) (θ<θ)
—
满足: P{θ< θ< θ}=1-α
—
则称区间 (θ, θ)是 θ的置信水平(置信度 )为1-α的置信区间.
θ和 θ分— 别称为置信下限和置信上限.
2. 这里有两个要求:
1) 要求 θ以很大的可能被包含在区间 (θ, θ)内—, 就是说, 概率 P{θ< θ <θ} 要— 尽可能大, 即要求估计尽量可靠.
2)
估计的精度要尽可能的高,
如要求区间长度
—
θ-
θ尽可能短,
或能体现该要求的其它准则.
可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下尽可能提高精度.
所以, 总体分布的形式是否已知, 是怎样的类型, 至关重要.
由: P(-1.75 ≤ U ≤ 2.33)=0.95
f (u)
数理统计
1.75
2.33 u
我们得到均值 μ的置信水平为1- α=0.95的置信区间为:
X 1.75 n , X 2.33 n 这个区间比前面一个要长一些.
类似地,我们可得到若干个不同的置信区间: