清华概率统计课件(第十一章 区间估计)
- 格式:pdf
- 大小:2.16 MB
- 文档页数:23
版高考数学一轮总复习概率与统计中的区间估计问题概率与统计是高中数学的重要内容之一,也是高考数学考试的重点知识点。
其中,区间估计是概率与统计中的一个重要概念,用于对总体参数进行估计。
本文将重点介绍区间估计的概念、原理和应用,并通过例题来进一步说明。
一、区间估计的概念区间估计是指利用样本统计量来对总体参数进行估计,并给出一个范围,可以称之为置信区间。
其中,总体参数可以是总体平均数、总体比例、总体标准差等。
置信区间由一个下限和一个上限构成,表示对总体参数的估计范围。
二、区间估计的原理区间估计的原理基于样本的随机性和样本统计量的抽样分布。
假设我们要估计总体平均数μ,首先从总体中随机抽取一个样本,然后计算样本平均数μ 。
根据中心极限定理,当样本容量足够大时,样本平均数的抽样分布近似服从正态分布。
假设我们希望得到一个置信水平为(1 − μ)的区间估计,那么我们需要找到样本平均数μ 与总体平均数μ之间的关系。
根据正态分布的性质,我们可以得到以下公式:μ − μ (μ/2) *μ/√μ≤ μ≤ μ + μ (μ/2) *μ/√μ其中,μ(μ/2)表示标准正态分布在尾部的面积,μ为显著性水平,μ为总体标准差,μ为样本容量。
三、区间估计的应用区间估计在实际问题中有着广泛的应用。
例如,某手机品牌声称其电池寿命平均为30小时,现在要对此进行验证。
我们可以随机抽取20部手机,记录其电池寿命,并计算样本平均数为28小时,样本标准差为3小时。
现在我们希望以95%的置信水平估计该手机品牌电池寿命的真实情况。
根据公式,我们可以得到置信区间为:28 - μ(0.025)*3/√20 ≤ μ≤ 28 + μ(0.025)*3/√20利用标准正态分布的对应值,我们可以计算出μ(0.025) ≈ 1.96,代入公式中得到:28 - 1.96*3/√20 ≤ μ≤ 28 + 1.96 *3/√20计算得到,置信区间为27.029小时≤ μ≤ 28.971小时。
区间估计的基本概念前面介绍了参数的点估计,讨论了估计量的优良性准则,给出了寻求估计量最常用的矩估计法和最大似然估计法.参数的点估计是用一个确定的值去估计未知参数,看似精确,实际上把握不大,没有给出误差范围,为了使估计的结论更可信,需要引入区间估计.Neyman(1894–1981)引例在估计湖中鱼数的问题中,若根据一个实际样本,得到鱼数N的最大似然估计为1000条.实际上,N的真值可能大于1000,也可能小于1000.为此,希望确定一个区间来估计参数真值并且满足:1.能以比较高的可靠程度相信它包含参数真值.“可靠程度”是用概率来度量的.2.区间估计的精度要高.可靠度:越大越好估计你的年龄八成在21-28岁之间区间:越小越好被估参数可靠度范围、区间一、置信区间的定义(Confidence Interval )对于任意θ∈Θ,满足设总体X 的分布函数F (x ,θ)含有一个未知参数θ,θ∈Θ,对于给定常数α(0<α<1),若由抽自X 的样本X 1,X 2,…,X n 确定两个统计量112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<≥-112ˆ(,,,)nX X X θ212ˆ(,,,)nX X X θ和则称随机区间是θ的置信水平为1−α的置信区间.12ˆˆ(,)θθ和分别称为置信下限和置信上限.1ˆθ2ˆθ(1)当X 连续时,对于给定的α,可以求出置信区间满足此时,找区间使得至少为1−α,且尽可能接近1−α.12ˆˆ(,)θθ112212ˆˆ{(,,,)(,,,)}1nnP X X X X X X θθθα<<=-12ˆˆ(,)θθ112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-12ˆˆ()P θθθ<<(2)当X 离散时,对于给定的α,常常找不到区间满足12ˆˆ(,)θθ说明:(2)估计的精度要尽可能高. 如要求区间长度尽可能短,或者能体现该要求的其他准则.(1)要求θ以很大的可能被包含在区间内,即概率尽可能的大.可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.12ˆˆ()P θθθ<<12ˆˆ(,)θθ21ˆˆθθ-(3)对于样本(X 1,X 2,…,X n )112212ˆˆ((,,,),(,,,))n n X X X X X X θθ以1−α的概率保证其包含未知参数的真值.随机区间112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-即有:(4)对于样本观测值(x 1,x 2,…,x n )可以理解为:该常数区间包含未知参数真值的可信程度为1−α.112212ˆˆ((,,,),(,,,))n n x x x x x x θθ常数区间只有两个结果,包含θ和不包含θ.此时,不能说:112212ˆˆ{(,,,)(,,,)}1n n P x x x x x x θθθα<<=-没有随机变量,自然不能谈概率如:取1−α=0.95.若反复抽样100次,样本观测值为112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-1121ˆˆ((,,),(,,))i i i in n x x x x θθ于是在100个常数区间中,包含参数真值的区间大约为95个,不包含真值的区间大约为5个.12,,,ii i nx x x1,2,,100i =对应的常数区间为1,2,,100i =对一个具体的区间而言,它可能包含θ,也可能不包含θ,包含θ的可信度为95%.1121ˆˆ((,,),(,,))i i i i nnx x x x θθ二、构造置信区间的方法枢轴量法1.寻求一个样本X 1,X 2,…,X n 和θ的函数W =W (X 1,X 2,…,X n ;θ),使得W 的分布不依赖于θ和其他未知参数,称具有这种性质的函数W 为枢轴量(Pivotal quantity ).3.若由不等式a <W (X 1,X 2,…,X n ;θ)<b 得到与之等价的θ的不等式2.对于给定的置信水平1−α,定出两个常数a 和b ,使得P {a <W (X 1,X 2,…,X n ;θ)<b }=1−α112212ˆˆ(,,,)(,,,)n n X X X X X X θθθ<<即有P {a <W (X 1, X 2,…, X n ;θ)<b }关键:1.枢轴量W (X 1, X 2,…, X n ;θ)的构造2.两个常数a ,b 的确定一般从θ的一个良好的点估计出发构造,比如MLE因此,是θ的一个置信水平为1−α的置信区间.112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα=<<=-12ˆˆ(,)θθf (w )ababab1−α1−α1−α希望置信区间长度尽可能短.对于任意两个数a 和b ,只要使得f (w )下方的面积为1−α,就能确定一个1−α的置信区间.f(w)abab ab1−α1−α1−α当W 的密度函数单峰且对称时,如:N (0,1),t 分布等,当a =−b 时求得的置信区间的长度最短.如:b =z α/2或t α/2(n )当W 的密度函数不对称时,如χ2分布,F 分布,习惯上仍取对称的分位点来计算未知参数的置信区间.χ21−αα/2α/222()n αχ21-2()n αχ单个正态总体参数的区间估计一、单个正态总体的情形X 1, X 2,…, X n 为来自正态总体N (μ,σ2)的样本,置信水平1−α.样本均值样本方差11nii X X n ==∑2211()1nii S X X n ==--∑0-4-3-2-1012340.050.10.150.20.250.30.350.4是枢轴量W 是样本和待估参数的函数,其分布为N (0,1),完全已知由于是μ的MLE ,且是无偏估计,由抽样分布定理知X ~(0,1)X W N nμσ-=1.均值μ的置信区间(方差σ2已知情形)单峰对称-4-3-2-1012340.050.10.150.20.250.30.350.4即等价变形为选择两个常数b =−a =z α/222{}1X P z z nααμασ--<<=-22{}1P X z X z nnαασσμα-<<+=-1−αα/2α/2z α/2−z α/2简记为因此,参数μ的一个置信水平为1−α的置信区间为22(,)X z X z nnαασσ-+2()X z nασ±置信区间的长度为22n l z nασ=说明:2.置信区间的中心是样本均值;4.样本容量n 越大,置信区间越短,精度越高;1.l n 越小,置信区间提供的信息越精确;5.σ越大,则l n 越大,精度越低.因为方差越大,随机影响越大,精度越低.3.置信水平1−α越大,则z α/2越大.因此,置信区间长度越长,精度越低;22n l z nασ=22(,)X z X z nnαασσ-+2.均值μ的置信区间(方差σ2未知情形)想法:用样本标准差S 代替总体标准差σ.是枢轴量包含了未知未知参数σ,~(0,1)X W N nμσ-=此时,因此不能作为枢轴量.~(1)X T t n Snμ-=-由抽样分布理论知:使即枢轴量~(1)X T t n Snμ-=-22((1)(1))1X P t n t n Snααμα---<<-=-22{(1)(1)}1P t n T t n ααα--<<-=-选择两个常数b =−a =t α/2 (n -1)等价于因此,方差σ2未知情形下均值μ的一个置信水平为1−α的置信区间为22{(1)(1)}1S S P X t n X t n nnααμα--<<+-=-22((1),(1))X t n X t n nnαα--+-例1.现从中一大批糖果中随机取16袋,称得重量(以克记)如下:506508 499 503 504 510 497 512 514 505 493 496 506 502 509 496设每袋糖果的重量近似服从正态分布. 试求总体均值μ的置信水平为0.95的置信区间.解:这是单总体方差未知,总体均值的区间估计问题.均值μ的置信水平1−α的置信区间为22((1),(1))x t n x t n nnαα--+-根据给出的数据,算得这里10.95,16n α-==/20.025(1)(15) 2.1315t n t α-==503.75, 6.2022x s ==因此,μ的一个置信水平为0.95的置信区间为6.20226.2022(503.75 2.1315,503.75 2.1315)1616(500.4,507.1)-⨯+⨯=此区间包含μ的真值的可信度为95%.22((1),(1))x t n x t n nnαα--+-3.方差σ2的置信区间(均值μ未知)σ2的常用点估计为S 2,且是无偏估计。