第八章 参数估计讲解
- 格式:doc
- 大小:2.09 MB
- 文档页数:29
参数估计知识点一、知识概述《参数估计》①基本定义:简单说,参数估计就是通过样本数据去猜总体的一些参数。
比如说,想知道全校学生的平均身高,不可能一个一个去量,那就找一部分学生(样本)量出他们的身高,然后根据这部分学生的身高数据来推测全校学生(总体)的平均身高,这个推测的过程就是参数估计。
②重要程度:在统计学里那可相当重要。
就像要了解一个大群体的情况,直接研究整体往往很难,通过参数估计从样本推测整体的情况就变得可行而且高效。
无论是搞市场调查,还是科学研究,这个工具相当好使。
③前置知识:得有点基本的数学知识,像平均数、方差这些概念要能明白,还得对抽样有点概念,知道怎么从一个大群体里抽取样本出来。
④应用价值:在各种实际场景里都有用。
比如企业想了解消费者对产品的满意度,不可能访谈每个消费者,抽样一部分做参数估计就好了。
还有估算农作物亩产量之类的,都可以用到。
二、知识体系①知识图谱:在统计学里,参数估计是推断统计的一部分,是和假设检验等方法相互联系的。
推断统计主要就是根据样本信息推断总体特征,而参数估计是其中很核心的一部分。
②关联知识:和抽样分布密切相关啊。
抽样分布是参数估计的理论基础,如果不知道抽样分布,那参数估计就像无根之木。
还和概率相关,毕竟在样本中各种数值出现是有概率的。
③重难点分析:掌握难度嘛,开始会觉得有点抽象。
关键在于理解样本和总体之间的关系,以及怎么根据不同的条件选择合适的估计方法。
④考点分析:在统计学考试里常考。
考查方式有直接给样本数据让进行参数估计,或者结合其他知识点,像给出抽样分布然后问参数估计的结果之类的。
三、详细讲解【理论概念类】①概念辨析:参数估计就是根据样本统计量去估计总体参数。
总体参数就是描述总体特征的数值,像总体均值、方差之类的。
样本统计量就是从样本里计算出来的值,比如说样本均值、样本方差等。
②特征分析:不确定性算一个特点吧。
毕竟样本不是总体,根据样本做的估计不可能完全精准。
参数估计知识点总结一、参数估计的基本概念参数估计是统计学中的一个重要问题,它是指从样本数据中估计总体参数的值。
在实际问题中,我们往往对总体的某个特征感兴趣,比如总体的均值、方差等,而这些特征通常是未知的。
参数估计就是利用样本数据来估计这些未知的总体参数值的方法。
在参数估计中,有两种主要的估计方法:点估计和区间估计。
点估计是指利用样本数据来估计总体参数的一个具体值,它通常用一个统计量来表示。
而区间估计则是利用样本数据来估计总体参数的一个区间范围,通常用一个区间来表示。
二、点估计点估计是参数估计中的一种方法,它是利用样本数据来估计总体参数的一个具体值。
在点估计中,我们通常使用一个统计量来表示参数的估计值,这个统计量通常是样本数据的函数。
1. 无偏估计无偏估计是指估计量的期望值等于所估计的总体参数的真实值。
对于一个无偏估计而言,平均来说,估计值和真实值是相等的。
无偏估计是统计学中一个很重要的性质,在实际问题中,我们希望能够得到一个无偏估计。
2. 一致估计一致估计是指当样本大小趋于无穷时,估计量收敛于真实参数的概率接近于1。
一致性是估计量的另一个重要性质,它保证了在样本较大的情况下,估计值能够越来越接近真实值。
3. 最大似然估计最大似然估计是一种常用的参数估计方法,它是利用样本数据来选择最有可能产生观测数据的参数值。
最大似然估计的原理是选择一个参数值,使得样本数据出现的概率最大。
最大似然估计的优点在于它的统计性质良好,且通常具有较好的渐近性质。
4. 贝叶斯估计贝叶斯估计是另一种常用的参数估计方法,它是基于贝叶斯定理的一种参数估计方法。
贝叶斯估计将参数视为随机变量,通过引入先验分布和后验分布来对参数进行估计。
贝叶斯估计的优点在于它能够利用先验知识对参数进行更为准确的估计。
三、区间估计区间估计是另一种常用的参数估计方法,它是利用样本数据来估计总体参数的一个区间范围。
区间估计的优点在于它能够提供参数值的估计范围,同时也能够反映估计的不确定性。
高考数学知识点解析参数估计的方法与性质高考数学知识点解析:参数估计的方法与性质在高考数学中,参数估计是一个重要的知识点,它在统计学和概率论中有着广泛的应用。
理解和掌握参数估计的方法与性质,对于解决相关的数学问题以及在实际生活中的数据分析都具有重要意义。
一、参数估计的基本概念参数估计是指从样本数据中估计总体参数的值。
总体参数是描述总体特征的数值,例如总体均值、总体方差等。
而样本则是从总体中抽取的一部分数据。
通过对样本数据的分析和处理,我们试图推测出总体参数的大致范围或准确值。
二、参数估计的方法1、点估计点估计是用一个具体的数值来估计总体参数。
常见的点估计方法有矩估计法和最大似然估计法。
(1)矩估计法矩估计法的基本思想是利用样本矩来估计总体矩,从而得到总体参数的估计值。
例如,对于总体均值的估计,可以用样本均值来代替;对于总体方差的估计,可以用样本方差来代替。
(2)最大似然估计法最大似然估计法是基于样本出现的概率最大的原则来估计参数。
假设总体服从某种分布,通过求解使得样本出现概率最大的参数值,即为最大似然估计值。
2、区间估计区间估计则是给出一个区间,认为总体参数落在这个区间内的可能性较大。
这个区间被称为置信区间,而与之对应的概率称为置信水平。
三、参数估计的性质1、无偏性如果一个估计量的期望值等于被估计的参数,那么这个估计量就是无偏估计量。
无偏性意味着在多次重复抽样和估计的过程中,估计量的平均值会趋近于真实参数值。
2、有效性在多个无偏估计量中,方差越小的估计量越有效。
有效性反映了估计量的精度,方差小表示估计值的波动较小,更接近真实值。
3、一致性当样本容量无限增大时,如果估计量的值越来越接近被估计的参数,那么这个估计量就是一致估计量。
一致性保证了在样本量足够大时,估计量能够准确地反映总体参数。
四、参数估计在实际问题中的应用1、质量控制在生产过程中,通过对样本产品的检测和参数估计,可以推断出整批产品的质量情况,从而决定是否需要调整生产流程。
医学统计学课件:参数估计xx年xx月xx日contents •参数估计概述•参数估计方法•参数估计在医学中的应用•参数估计的优缺点•参数估计的相关计算•医学统计学的未来发展目录01参数估计概述定义与意义参数估计利用样本信息对总体参数进行推断和估计。
意义通过参数估计,利用样本信息对总体特征进行推断、解释和预测,为研究设计和医学实践提供重要依据。
参数估计与点估计的关系参数估计包括点估计和区间估计。
点估计:用样本统计量估计总体参数的方法,是参数估计的基础。
区间估计:在点估计的基础上,给出总体参数的估计区间,是参数估计的拓展。
确定研究问题和研究假设。
设计研究方案和收集数据。
对样本数据进行分析,得到样本统计量和样本信息。
根据样本统计量和样本信息,构造合适的统计量(点估计)或区间估计量(区间估计)。
对所构造的统计量或区间估计量进行假设检验,判断其是否具有统计意义和实际意义。
根据参数估计的结果,进行推断分析和决策。
参数估计的基本步骤02参数估计方法1点估计23点估计是一种对总体参数的数值近似,通常用一个单一的数值来表示。
定义常见的点估计方法包括最大似然估计和矩估计。
方法点估计的优点是简单、直观,但可能存在精度不足的问题。
特点03特点区间估计的优点是能够给出总体参数的精度范围,但可能存在精度不足的问题。
区间估计01定义区间估计是一种对总体参数的区间范围的估计,通常用一个置信区间来表示。
02方法基于样本统计量和样本容量的信息,利用置信区间的计算公式来得到总体参数的置信区间。
定义贝叶斯估计是一种基于贝叶斯定理的参数估计方法,通常将总体参数看作是一个随机变量。
方法首先需要建立一个关于总体参数的先验分布,然后结合样本信息进行后验分布的计算,最后利用后验分布进行参数的估计。
特点贝叶斯估计的优点是能够充分利用先验知识和样本信息,从而得到更加精确的参数估计结果。
但是,贝叶斯估计方法需要更多的主观判断和计算成本。
贝叶斯估计03参数估计在医学中的应用样本均数和标准差估计通过分析临床试验数据,可以估计治疗组和对照组的均数和标准差,从而了解治疗效果和病情变化情况。
第八章参数估计统计推断是数理统计的重要组成部分,它包括统计估计和假设检验两类基本问题.统计估计是根据样本的信息对总体分布的概率特性(如分布类型、参数等)作出估计,统计估计又分为参数估计和非参数估计,本章只讨论参数估计问题.在实际问题中,经常遇到随机变量X (即总体X )的分布函数的形式已知,但它的一个或者多个参数未知的情形,此时写不出确切的概率密度函数.若通过简单随机抽样,得到总体X 的一个样本观测值12(,,,)n x x x ,我们自然会想到利用这一组数据来估计这一个或多个未知参数.诸如此类,利用样本去估计总体未知参数的问题,称为参数估计问题.参数估计问题有两类,分别是点估计和区间估计.第一节 点估计的概述用一个数值估计某个参数,这种估计就是点估计.比方说我们要考察某医院新出生婴儿的男女比例,抽查了100个婴儿,按后估计出这个比例值为0.83,这个比值就是“比例”这个未知数的点估计值.定义8.1 设总体X 的分布函数(,)F x q 形式已知,其中q 是待估计的参数,点估计问题就是利用样本12(,,,)n X X X ,构造一个统计量12ˆˆ(,,,)n X X X q q =来估计q ,我们称12ˆ(,,,)n X X X q 为q 的点估计量,它是一个随机变量.将样本观测值12(,,,)n x x x 代入估计量12ˆˆ(,,,)n X X X q q =,就得到它的一个具体数值12ˆ(,,,)n x x x q ,这个数值称为q的点估计值.一、矩估计法矩估计法的基本思想是用样本矩估计总体矩. 因为由大数定理知, 当总体的k 阶矩存在时,样本的k 阶矩依概率收敛于总体的k 阶矩.我们假设总体X 的分布函数为12(;,,,)k F x q q q ,其中12,,,k q q q 是待估参数.若总体X 为连续型随机变量,设密度函数为12(;,,,)k f x q q q ;若总体X 为离散型随机变量,设分布律为12{}(;,,,)k P X x p x q q q ==.12(,,,)n X X X 是来自总体的样本.假设总体X 的1阶至k 阶原点矩i m 都存在,则有1212()(;,,,)(,,,)i i i k i k E X x f x dx m q q q m q q q +?-?===ò(X 为连续型)1,2,,i k =或 1212()(;,,,)(,,,)ii i k i k x RE X x p x m q q q m q q q Î===å(X 为离散型)1,2,,i k =(其中R 是X 所有可能取值的集合).一般来说,他们是12,,,k q q q 的函数.根据样本矩依概率收敛于总体矩,样本矩的连续函数依概率收敛于总体矩的连续函数,我们可以用样本矩作为总体矩的估计量,而样本矩的连续函数作为总体矩的连续函数的估计量.即11ˆn ii i j j A X n m===å 1,2,,i k =得方程组12ˆ(,,,)i k i m q q q m= 1,2,,i k =解得12ˆˆ(,,,)i i n X X X q q = 1,2,,i k =称ˆiq 为i q 的矩估计量,这种方法称为矩估计法. 相应的估计值称为矩估计值,矩估计量与矩估计值统称为矩估计. 例8.1 设总体X 服从区间12(,)q q 上的均匀分布,即密度函数为1221121,-(;,)0,x f x q q q q q q ì<<ïï=íïïî其他其中12,q q 未知,12(,,,)n X X X 是来自总体的样本,求12,q q 的矩估计量.解12()2E X q q +=22222112(-)()()(())()122E X D X E X q q q q +=+=+ 令121112nj j A X n q q =+==å 222211221(-)1()122n j j A X n q q q q =++==å 解之得12,q q 的矩估计量为11ˆA q =-21ˆA q =例8.2 设总体X 服从泊松分布()p l ,参数l 未知,12(,,,)n X X X 是来自总体的一个样本,求参数l 的矩估计量.解 总体的1阶原点矩即数学期望为()E X l =用样本的1阶原点矩(即样本均值)代替总体的1阶原点矩得方程11ni i X n l ==å所以l 的矩估计量为11ˆni i X X n l ===å.矩估计法的优点是简单易行,并不需要事先知道总体服从什么分布.缺点是当总体类型已知时,没有充分利用分布提供的信息.一般场合下,矩估计量不具有唯一性.其主要原因在于建立矩估计法方程时,选取那些总体矩用相应样本矩代替带有一定的随意性.二、最大似然估计法先通过一个例子了解一下最大似然估计的基本思想.某同学与一位猎人一起去打猎,一只野兔从前方窜过, 只听一声枪响, 野兔应声倒下, 试猜测是谁打中的?由于只发一枪便打中,而猎人命中的概率一般大于这位同学命中的概率, 故一般会猜测这一枪是猎人射中的.这个例子所作的推断已经体现了最大似然法的基本思想 :一次试验就出现的事件有较大的概率.即在已经得到实验结果的情况下, 应该寻找使这个结果出现的可能性最大的那个q 作为q 的估计ˆq .下面分别就离散型总体和连续型总体情形作具体讨论. 离散型总体的情形: 设总体X 的概率分布为12{}(;,,,),k P X x p x q q q ==其中(1,2,,)i i k q =为未知参数.如果12(,,,)n X X X 是取自总体X 的样本,样本的观察值为12(,,,)n x x x ,则样本的联合分布律11121{,,}(;,,,),nn n i k i P X x X x p x q q q ====Õ对确定的样本观察值12(,,,)n x x x ,上式是未知参数(1,2,,)i i k q =的函数,记为121212121(,,,)(,,,;,,,)(;,,,)nk n k i k i L L x x x p x q q q q q q q q q ===Õ,并称其为似然函数.连续型总体的情形: 设总体X 的概率密度为12(;,,,)k f x q q q ,其中(1,2,,)i i k q =为未知参数,此时定义似然函数121212121(,,,)(,,,;,,,)(;,,,)nk n k i k i L L x x x f x q q q q q q q q q ===Õ.似然函数12(,,,)k L q q q 的值的大小意味着该样本值出现的可能性的大小, 在已得到样本值12(,,,)n x x x 的情况下, 则应该选择使12(,,,)k L q q q 达到最大值的那个(1,2,i i q =,)k 作为i q 的估计ˆiq . 这种求点估计的方法称为最大似然估计法. 定义8.2 若对任意给定的样本值12(,,,)n x x x , 存在12ˆˆ(,,,)(1,2,,)i i n x x x i k q q ==,使 1212ˆˆˆ(,,,)max (,,,),ik k L L q q q q q q q =则称12ˆ(,,,)(1,2,,)i n x x x i k q =为i q 的最大似然估计值.称相应的统计量12ˆ(,,,)i n X X X q 为i q 最大似然估计量. 它们统称为i q 的最大似然估计.由定义可知,求参数的最大似然估计问题,就是求似然函数的最大值点的问题.因此可以对似然函数12(,,,)k L q q q 关于i q 求导.又由于12(,,,)k L q q q 和12ln (,,,)k L q q q 有相同的最大值点,故只需求12ln (,,,)k L q q q 的最大值点即可.这样往往会给计算带来很大方便.在一般情况下, 12ln (,,,)k L q q q 在最大值点的一阶偏导数为零,此时只需解最大似然方程组12ln (,,,)0,1,2,,k iL i k q q q q ¶==¶即可得参数的最大似然估计.例8.3 设随机变量X 服从泊松分布,即分布律为-{},0,1,2,...!k e P X k k k ll ===.其中0l >是未知参数,求l 的最大似然估计.解 设12(,,,)n x x x 是样本12(,,,)n X X X 的一组观测值.于是似然函数为1--1211()(;,,...,)()!ni i i x x nn n n i i ii L L x x x e e x xl l l l l l ===å====ÕÕ两边取对数得对数似然函数为11ln ()-ln -ln(!)n n i i i i L n x x l l l ===+邋令1ln ()1-0ni i d L n x d l l l ==+=å解方程得22ˆln ()ˆ0xd L xd l l l l ==<且 从而得出l 最大似然估计为ˆX l =.例8.4 设12(,,,)n X X X 是来自正态总体2(,)N m s 的样本,其中2,m s 是未知参数.求2,m s 的最大似然估计.解 由已知得样本的似然函数为222122/22111(,)(,;,,...,)exp{-(-)}(2)2n n i n i L L x x x x m s m s m ps s ===å 两边取对数得222211ln (,)-ln(2)-2ln -(-)22n i i n L n x m s p s m s ==å分别关于m 和2s 求偏导数,得似然方程组2122241ln 1(-)0ln 1-(-)022ni i n i i L x Ln x m m s m ss s ==ì¶==ï¶ïí¶ï=+=ï¶îåå 解这一方程组得12211ˆ1ˆ(-)ni i ni i x x n x x n m s ==ì==ïïíï=ïîåå.由微积分知识易验证以上所求为m 和2s 的最大似然估计. 由上例我们可以总结出求最大似然估计的一般步骤如下:(1) 写出似然函数12(,,,)k L q q q ;(2) 写出对数似然函数12ln (,,,)k L q q q ,及方程组ln ()0,1,2,,iL i k q q ¶==¶;(3)解上述方程组得最大似然估计值12ˆˆ(,,,)(1,2,,)i i n x x x i k q q ==.值得注意的是,通过取对数得到对数似然方程,进而解对数似然方程组求最大值点的方法并不总是有效的,因此应该具体问题具体分析.例8.5设总体X 服从均匀分布,即概率密度函数为1,0(;)00,x f x q q q q qì<<ï=<<?íïî,未知其他求参数q 的最大似然估计.解 设12(,,,)n X X X 是来自总体的样本,似然函数为121(;,,,),0,1,2,,n i nL x x x x i n q q q =<?显然12(;,,,)n L x x x q 关于q 单调,要使12(;,,...,)n L x x x q 达到最大,就要使q 达到最小,由于()10max{},1,2,...,i n i i nx x x i n q #<??所以q 的最大似然估计值为1ˆmax{}i i nx q #=q 的最大似然估计量为121ˆ(,,...,)max{}n ii nX X X X q #=.习题8-1A 组1.其中03q <<,求q 的矩估计. 2.一批灯泡的使用寿命的抽取样本如下(单位:h ):1458, 1395, 1565, 1614, 1351, 1490, 1478, 1382, 1536, 1496 试用矩估计法针对这批灯泡的平均寿命m 及寿命方差2s 做出矩估计.3.设12(,,,)n X X X 是来自总体X 的样本,X 服从参数为p 的几何分布,即X 的分布律为-1{}(1-)(1,2,)k P X k p p k ===其中p 未知,01p <<,求p 的最大似然估计.4.已知总体X 的密度函数为-1,01(;)0.0,x x f x q q q q ì<<ï=>íïî其他求:(1)参数q 的矩估计;(2)参数q 的最大似然估计. B 组1. 设总体的分布律为2-2{}(-1)(1-)(2,3,,01)k P X k k k q q q ===<<,q 未知.求q 的矩估计和最大似然估计.2.设总体X 的密度函数为12-112221,(;,)0.0,x e x f x q q q q q q q -ìï³ï=>íïïî其他求12,q q 的最大似然估计.3.已知总体X 是离散型随机变量,X 的可能取值为0,1,2,且2{2}(1-)P X q ==,()2(1-)E X q =(q 为未知参数).求:(1)X 的概率分布;(2)对X 抽取容量为10的样本,其中5个取1,3个取2,2个取0.求q 的矩估计值和最大似然估计值.4.已知总体X 的密度函数为-(-2),2()0.0,x ex f x l l l ì>ï=>íïî其他12(,,,)n X X X 是来自总体X 的样本,2Y X =.(1)求Y 的期望()E Y (记()E Y b =); (2)求l 的矩估计量和最大似然估计量(3)利用上述结果求b 的最大似然估计量.第二节点估计量的评选标准对于总体的同一个未知参数,由于采用的估计方法不同,可能会产生多个不同的估计量.这就提出了一个问题,当总体的同一个参数存在不同的估计量时,究竟采用哪一个更好?这涉及到用什么样的标准来评价估计量的好坏问题,对此,我们介绍几个常用的评价标准:无偏性、有效性和一致性.一、无偏性在评价一个估计量的好坏时,我们当然希望估计量与被估参数越接近越好,但估计量是一个随机变量,它的取值随样本的观测值而变,有时与被估参数的真值近些,有时远些,我们只能从平均意义上看估计量是否与被估参数尽量接近,最好是等于被估参数.于是有无偏估计量的概念.定义8.3 设12ˆˆ(,,...,)n X X X q q =是未知参数的估计量,若对任意q 蜵有ˆ()E q q =,则称12ˆ(,,...,)nX X X q 是q 的无偏估计量. 例8.6 设12(,,...,)n X X X 是来自总体X 的样本,作为总体均值的估计有111ni i T X X n ===å, 21T X =, 311(0,1)n n i ii i i i T a X a a ===>=邋且,试证1T ,2T ,3T 都是无偏估计量.证 因为12,,...,n X X X 相互独立且服从同一分布,故有()()(1,2,,)i E X E X i n ==由数学期望的性质知111()()()ni i E T E X E X n ===å21()()()E T E X E X ==311()()()()()n n i i i i i E T a E X E X a E X =====邋因此1T ,2T ,3T 都是无偏估计量.由此可见一个未知数可以有多个不同的无偏估计量.例8.7 设总体的方差()D X 存在,试证样本二阶中心矩2B 是总体方差()D X 的有偏估计,而样本方差2S 是总体方差()D X 的无偏估计.证明22221111()[(-)][-()]n n i i i i E B E X X E X X n n====邋222211()-[()]()-[()]n i i E X E X E X E X n ===å22()[()]-()-[()]D X E X D X E X =+1-1()-()()n D X D X D X n n== 所以2B 是总体方差()D X 的有偏估计.而 22211(-)-1-1n ii n S X X B n n ===å 所以 222-1()()()()()-1-1-1n n n n E S E B E B D X D X n n n n==== 即而样本方差2S 是总体方差()D X 的无偏估计.二、有效性由例8.6可以看出一个参数的无偏估计量不是唯一的,假若参数q 有两个无偏估计量1ˆq 和2ˆq ,我们认为其观测值更密集在参数q 真值附近的一个较为理想.由于方差是随机变量取值与其数学期望的偏离程度的度量,所以无偏估计以方差小者为好.这就引出了评价估计量好坏的另一标准——有效性.定义8.4 设1112ˆˆ(,,...,)n X X X q q =和2212ˆ(,,...,)n X X X q q =都是q 的无偏估计量,若对q "蜵,有12ˆˆ()()D D q q £,且至少有一个q 蜵使不等式严格成立,则称1ˆq 比2ˆq 更有效.例8.8 在本节例8.6中,设总体X 的方差()D X 存在,试问1T ,2T ,3T 哪一个更有效? 解 11()()D T D X n=2()()D T D X = 2311()()()()ni i D T D X a D X n==?å注意,此处利用了不等式222111()n nni i iii i i a b ab ===7邋?得到了211ni i a n=³å所以1T 是三个估计量中最有效的估计量.三、一致性无偏性和有效性都是针对无偏估计而言的,且都是在样本容量固定的前提下提出的.我们自然希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值.这样,对一个好的估计量又有下面一致性的要求.定义8.4 设12ˆˆ(,,...,)nX X X q q =是q 的估计量,若对于任意q 蜵,满足对任意0e >X ,有ˆlim {-}1nP qq e <=,则称ˆq 是q 的一致估计量. 一致估计量的意义在于:只要样本容量足够大,就可以使一致估计量与参数真实值之间的差异大于eX 的概率足够地小,也就是估计量可以用任意接近于1的概率把参数真实值估计到任意的精度.一致性是点估计的大样本性质,这种性质是针对样本容量n ??而言,对于一个固定的样本容量n ,一致性是无意义的.与此相对,无偏性和有效性的概念是对固定的样本而言,不需要样本容量趋于无穷,这种性质也称为“小样本性质”.习题8-2A 组1.设总体X 的k 阶矩()kk E X m =存在,12(,,...,)n X X X 是来自总体X 的样本,证明:不管X 服从什么分布,11n kk i i A X n ==å是k m 的无偏估计量.2.设总体X 的密度函数为-1,0(,)00,x e x f x x q q q qìï>ï=>íï£ïî为常数12(,,...,)n X X X 是来自总体X 的样本.证明:样本均值X 是q 的无偏估计量.3.设ˆq是q 的无偏估计,且有ˆ()0D q >.证明:2ˆq 不是2q 的无偏估计. 4. 12(,,...,)n X X X 是来自总体2~(0,)X N s 的样本,其中2s 未知,令2211ˆn i i X n s ==å,试证2ˆs 是2s 的一致估计量. B 组1. 12(,,...,)n X X X 是来自总体X 的样本,设2(),()E X D X m s ==. (1)确定常数c ,使-1211(-)n i i i cX X +=å是2s 的无偏估计量.(2)确定常数c ,使22-X cS 是2m 的无偏估计.2.设1ˆq 和2ˆq 是q 的两个独立的无偏估计量,假定12ˆˆ()2()D D q q =,求常数12,C C ,使1122ˆˆˆC C q q q =+为q 的无偏估计量,并使得ˆ()D q 达到最小. 3.设总体21~(,)X N m s ,总体22~(,)Y N m s ,设112(,,...,)n X X X 是来自总体X 的样本,212(,,...,)n Y Y Y 是来自总体Y 的样本,两样本独立. (1)求参数12-m m 的一个无偏估计.(2)证明:1222211121[(-)(-)]-2n n wi i i i S X X Y Y n n ===++邋是2s 的无偏估计. 4. 设112(,,...,)n X X X 是来自均匀总体(0,)U q 的样本,证明q 的最大似然估计满足一致性要求.第三节 区间估计前面,我们讨论了参数的点估计,它是用样本算得的一个估计值去估计未知参数,这个估计值仅仅是未知参数的一个近似值,但其精度如何点估计本身不能回答.实际中,度量一个点估计的精度的最直观的方法是给出一个未知参数的一个区间,这就是我们常常用到的参数的另一种估计形式:区间估计.如估计某人的身高在1.70~1.72之间,估计,某项费用在1000 ~1400之间等等.一、区间估计问题定义8.5 设总体X 的分布中含有一个未知参数q ,12(,,,)n X X X q 和12(,,X X qn ,X )由样本12(,,,)n X X X 确定的两个统计量.对给定的(01)a a <<,如果对参数q的任何值,都有{}1-P q q q a <<?则称随机区间(,)q q 为参数q 的置信水平为1-a 的置信区间,,q q 分别称为q 的双侧置信区间的置信下限和置信上限,1-a 称为置信水平或置信度.当X 为连续型随机变量时,对于给定的(01)a a <<,我们总是可以按要求给出随机区间(,)q q ,使得{}1-P q q q a <<=.而当X 为离散型随机变量时,对于给定(01)a a <<,常常找不到区间(,)q q ,使得{}P q q q <<恰好为1-a .此时我们去找区间(,)q q ,使得{}P q q q <<至少为1-a ,且尽可能的接近1-a .置信区间的含义:若反复抽样多次(各次的样本容量相等,均为n ),每一组样本值确定一个区间(,)q q ,每个这样的区间要么包含q 的真值,要么不包含q 的真值.按伯努利大数定理,在这么多的区间中,包含q 真值的约占100(1-α)%,不包含q 真值的约仅占100%a .例如:若0.01a =,反复抽样1000次,则得到的1000个区间中,不包含q 真值的约为10个.在对参数q 作区间估计时,常提出以下两个要求:(1)可信度高,即随机区间(,)q q 要以很大的概率包含真值q ;(2)估计精度高,即要求区间的长度尽可能的小.而这两个要求往往是矛盾的,区间估计的理论和方法的基本问题就是在已有的样本信息下,找出较好的估计方法,以尽量提高可信度和精度.奈曼提出的原则是:先保证可信度,在这个前提下尽量提高精度.例8.9 设总体2~(,)X N m s ,2s 已知,m 未知,12(,,,)n X X X 是来自总体的样本,求m 的置信水平为1-a 的置信区间.解 我们知道样本均值X 是总体均值m 的无偏估计量,X 的取值大部分集中于m 附近,显然以很大概率包含m 的区间也应包含X ,因此,我们从X 出发,构造m 的置信区间.又因为~(0,1)X N 8.1 所以2}1-P u a a <= 即22{-1-P X u X u aam a <<+=其中2u a 是标准正态分布的上侧2a分位点(如图8.1),这样我们得到了m 的置信水平为1-a 的置信区间22(-X u X u aa+. 8.2图8.1由此,我们给出求未知参数q 的置信区间的具体做法如下:(1)寻找一个样本12(,,,)n X X X 和q 的函数12(,,,;)n W W X X X q =,使得W 的分布不依赖于q 和其他未知参数,称具有这种性质的函数W 为枢轴量.(2)对于给定的置信水平1-a ,定出两个常数,a b 使得12{(,,,;)}1-n P a W X X X b q a <<=. 将 12(,,,;)n a W X X X b q <<变形为 1212(,,,)(,,,)n n X X X X X X q q q <<,(,)q q 即是q 的置信水平为1-a 的置信区间.需要注意的是,置信水平为1-a 的置信区间并不是唯一的.如例8.9中,如果取1-a =0.95即0.05a =,查表可得0.02521.96u u a ==.于是,我们得到一个置信水平为0.95的置信区间(X X +. 8.3事实上,对于任意给定的1221,(01)a a a a <<<,只要210.05a a a +==,记相应的上侧1a 和2a 分位点分别为12,u u a a ,则所确定的区间21(-X u X u a a +都是m 的置信水平为95%的置信区间.例如120.03,0.02a a ==,得置信区间为(-X X + . 8.4那么在众多的区间中,我们应该使用哪一个呢?注意到置信水平相同的区间的长度往往是不同的,例如区间8.3的长度为2?,区间8.4的长度为(1.88+=,根据我们对置信区间的要求,我们应该在置信水平一定的前提下,选取区间长度最短的那一个区间.二、单个正态总体的区间估计由于我们遇到的很多总体都是服从或是近似服从正态分布的,且很多统计量的极限分布也是正态分布,因此,我们专门介绍正态总体2(,)N m s中的参数m和2s的区间估计.设已给定置信水平1-a,12(,,,)nX X X是来自总体2(,)N m s的样本.X和2S分别是样本均值和样本方差.1.均值m的区间估计(1)2s已知时,由本节例1X已得到m的一个置信水平为1-a的置信区间为22(-X u X ua a+. 8.5例8.10 对50名大学生的午餐费进行调查,得样本均值为4.10元,假如总体的标准差为1.75元,求大学生的午餐费m的置信水平为0.95的置信区间.解m的置信区间为22(-X u X ua a+,0.05a=,0.02521.96u ua==, 1.75s=, 50n=, 4.1x=.由8.5式得m的置信水平为0.95的置信区间为(3.61,4.59).(2)2s未知时,此时不能用8.2式给出的区间,因为其中含有未知参数s.考虑到2S是2s的无偏估计量,因此将8.1式中的s换成S有抽样分布定理知~(-1)Xt n. 8.6X作为枢轴量可得(参见图8.2)图8.222{-(-1)(-1)}1-X P t n t n a a a <= 即22{-((1-P X t n X t n a a m a <<+=于是得到m 的一个置信水平为1-a 的置信区间为22(-((X t n X t n a a +. 8.7例8.11 为估计一物体的重量m ,用天平秤了5次,得结果(克): 5.52, 5.48, 5.64, 5.51, 5.43.假定测量值是正态的,求m 的一个置信水平为0.95的置信区间.解 由已知 5.516,0.07765X S ==0.05a =,0.0252(4)(4) 2.7764t t a ==所以由8.7式得m 的一个置信水平为0.95的置信区间为22(-(((5.420,5.612)X t n X t n a a +=.2. 方差2s 的区间估计根据实际问题的需要,只介绍m 未知的情况.2S 是2s 的无偏估计量,因此有抽样分布定理知222(-1)~(-1)n S n c s. 8.8 取22(-1)n S s 作为枢轴量,即得(参见图8.3)图8.3222221-2(-1){(-1)(-1)}1-n S P n n aac c a s<<= 即 2222221-2(-1)(-1){}1-(-1)(-1)n S n S P n n a a s a c c <<=. 这就得到方差2s 的一个置信水平为1-a 的置信区间为222221-2(-1)(-1),(-1)(-1)n S n S n n a ac c 骣琪琪琪桫. 例8.12从某厂生产的滚珠中随机抽取10个,测得滚珠的直径(单位:mm )如下:14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8若滚珠直径服从正态分布2(,)N m s ,若m 未知,求滚珠直径方差2s 的置信水平为95%的置信区间.解 m 未知,计算样本方差20.0373S =,置信水平1-0.95a =,0.05a =,自由度-19n =,查表可得22/20.025(-1)(9)19.0n a c c ==,221-α/20.975χ(n -1)=χ(9)=2.70.则方差2s 的置信水平为95%的置信区间为2222/21-/2(-1)(-1)90.037390.0373, , 19.0 2.70(-1)(-1)n S n S n n a a c c 骣骣创琪琪=琪琪桫桫即(0.0177,0.1243).三、两个正态总体的区间估计在实际中常遇到下面的问题:已知产品的某一质量指标服从正态分布,但由于原料、设备条件、工艺过程的改变等因素,引起总体均值、总体方差有所改变.我们需要知道这些变化有多大,这就需要考虑两个正态总体均值差或方差比的估计.设112(,,,)n X X X 与212(,,,)n Y Y Y 分别来自于两个相互独立的正态总体211(,)N m sα和222(,)N m s 的样本,22,,,X Y X Y S S 分别是两个样本的均值和方差,给定置信水平1-(01)a a <<.1.两个总体均值12-m m 的区间估计 (1)21s 和22s 均已知因为X ,Y 分别为1m 和2m 的无偏估计,故-X Y 是12-m m 的无偏估计.由于2111~(,)X N n s m ,2222~(,)Y N n s m ,且X 和Y 相互独立, 所以22121212-~(-,)X Y N n n s s m m + 继而~(0,1)X Y U N =取U 为枢轴量,即得到12-m m 的一个置信水平为1-(01)a a <<的置信区间为--,-X Y u X Y u a a 骣琪+琪琪桫8.9 (2) 22212s s s ==,2s 未知.由上一章抽样分布定理知12~(-2)X Y T t n n =+()其中 2221212(-1)(-1).-2X Ywn S n S S n n +=+取T 为枢轴量,可得12-m m 的一个置信水平为1-(01)a a <<的置信区间/212/212--(-2)-(-2)X Y t n n S X Y t n n S a a 骣琪+++琪桫8.10例8.13某工厂一条生产灯泡的流水线,在工艺改变前后分别抽检若干件产品的寿命,得数据为改变前:216,1364,156;X n X S === 改变后:229,1407,172.Y n Y S ===假定灯泡寿命服从正态分布,且工艺改变前后方差不变,试求工艺改变前后平均寿命之差的置信度为95%的置信区间.解12.88,w S === 0.05,a =/2(13) 2.16,t a = -43,Y X= 2.1612.8814.7,创= 所以由8.10式得12-m m 的一个置信水平为0.95的置信区间为/2-(13)(43-14.7 , 4314.7)(28.3 , 57.3).Y X t S a 骣琪?=+=琪桫2.两个总体方差比2212s s 的区间估计我们仅讨论1m 和2m 都未知的情况,由抽样分布定理知22112222~(-1,-1)XYS F F n n S s s = 取F 为枢轴量得(如图8.4)图8.41-/212/212{(-1,-1)(-1,-1)}1-P F n n F F n n a a a <<=即 2221222/2121-/212211 1-α(-1,-1)(-1,-1)X X Y Y S S P F n n F n n S S a a s s 禳镲<<=睚镲铪于是得到2212s s 的一个置信水平为1-(01)a a <<的置信区间α2222/2121-/21211,(-1,-1)(-1,-1)XX Y YS S F n n F n n S S a a 骣琪琪桫.例8.14两个相互独立的正态总体21~(,)X N m s ,22~(,)Y N m s ,各取样本,125n =,212.7XS =,220n =,210.8YS =,求 2122s s 的置信度为95% 的置信区间 .解 2122s s 的置信区间为2222/2121-/21211,(0.347 , 2.737).(-1,-1)(-1,-1)X X Y YS S F n n F n n S S a a 骣琪=琪桫习题8-3A 组1.设某种油漆的9个样品,其干燥时间(以h 为单位)分别为: 6.0 5.7 5.8 6.5 7.0 6.3 5.6 6.1 5.0 设干燥时间总体服从正态分布2(,)N m s .(1)若由以往经验0.6()h s =,求m 的置信水平为0.95的置信区间; (2)若s 未知,求m 的置信水平为0.95的置信区间.2. 用两种工艺(或原料)A 和B 生产同一种橡胶制品.为比较两种工艺下产品的耐磨性,从两种工艺的产品中各随意抽取了若干件,测得如下数据: 工艺 A :185.82, 175.10, 217.30, 213.86, 198.40工艺 B :152.10, 139.89, 121.50, 129.96, 154.82, 165.60 假设两种工艺下产品的耐磨性X 和Y 都服从正态分布:2~(,),x X N a s 2~(,),y Y N b s(1)建立xy ss 的置信度为0.95置信区间;(2)建立-a b 的置信度为0.95置信区间.3.设某自动包装机包装洗衣粉,其重量服从正态分布,随机抽查12袋,测得重量分别为:1001 1004 1003 997 999 1000 1004 1000 996 1002 998 999求这批洗衣粉重量方差和标准差的置信区间(0.05a =).4.某大学从A 、B 两市招收的新生中分别抽5名、6名男生,测得身高值如下: A 市:172 178 180.5 174 175B 市:174 171 176.5 168 172.5 170设两市学生身高分别服从2212(,),(,)N N m s m s .求12-m m 的置信水平为0.95的置信区间.5. 为比较Ⅰ,Ⅱ两种型号步枪子弹的枪口速度,随机的取Ⅰ型号子弹10发,得到枪口速度的平均值为1500/x m s =,标准差为1 1.10/s m s =;随机的取Ⅱ型号子弹20发,得到枪口速度的平均值为2496/x m s =,标准差为2 1.20/s m s =.假设两总体都可认为近似的服从正态分布,且方差相等.求两总体均值差12-m m 的一个置信水平为0.95的置信区间. B 组1.一次等级考试,因急于评估试卷质量,教师先随机抽取36份试卷批改,平均分为72分,标准差13.2分,系主任要求在90%的可信度下,对全体考生的平均成绩做一个区间估计.2.某公司要对下一年职工医疗费情况作个预算,通常医疗费的标准差为120元.现要求在95%的置信度下,保证所估计的总体平均值在加减40元的范围内.问应该取多大的样本?3.假定吸烟者买烟的月支付近似服从正态分布,一机构随机抽取了容量为26的样本进行调查,得到样本平均值为80元,样本标准差为20元.试以95%的把握估计全部吸烟者月平均烟钱支出的置信区间.4.随机地从A 批导线中抽4根,又从B 批导线中抽5根,测得电阻值为: A 批导线:0.143 0.142 0.143 0137B 批导线:0.140 0.142 0.136 0.138 0.140设测定数据分别来自分布221122(,),(,)N N m s m s ,且样本相互独立.12,m m 均未知, (1)22212s s s ==未知时,求 12-m m 的一个置信水平为0.95的置信区间.(2) 求方差比2212s s 的置信水平为0.95的置信区间.第四节 单侧置信区间前面介绍的置信区间中置信限都是双侧的,但在有些实际问题,人们所关心的只是参数在一个方向的界限.例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.这时,可将置信上限取为 +∞,而只着眼于置信下限,这样求得的置信区间称为单侧置信区间.定义8.6 给定(01)a a <<,若有样本12(,,,)n X X X 确定的统计12(,,X X q q =,)n X ,对于任意q 蜵满足{}1-P q q a >?称随机区间(,)q +?是q 的置信水平为1-a 的单侧置信区间,q 称为q 的置信水平为1-a 的单侧置信下限.又若统计量q q =12(,,,)n X X X ,对于任意q 蜵满足{}1-P q q a <?称随机区间(-,)q ¥是q 的置信水平为1-a 的单侧置信区间,q 称为q 的置信水平为1-a 的单侧置信上限.例8.15 设总体2~(,)X N m s ,2,m s 均未知,设12(,,,)n X X X 是来自总体的样本.试求m 和2s 的置信度为1-a 的单侧置信区间.解 由~(-1)X t n 有(-1)}1-X P t n a a <= 即{-(-1)}1-P X n a m a >=于是得到m 的置信度为1-a 的单侧置信区间(-(-1),)X n a +?.m 的置信度为1-a 的单侧置信下限为-(-1)X n a m =.又由222(-1)~(-1)n S n c s 有 221-2(-1){(-1)}1-n S P n a c a s>= 即 2221-(-1){}1-(-1)n S P n a s a c <=于是得到2s 的置信水平为1-a 的单侧置信区间221-(-1)(0,)(-1)n S n a c . 2s 的置信水平为1-a 的单侧置信上限为2221-(-1)(-1)n S n a sc =. 习题8-4A 组1.设有某部门对所属区域的职工家庭人均月收入进行调查,现抽取20个家庭,所得的月平均收入234.7X =(元),21590.85S =,试以95%的置信度估计该区域职工家庭人均月收入的最低下限为多少?2.从汽车轮胎厂生产的某种轮胎中抽取10个样品进行磨损实验,直到轮胎行驶的磨坏为止,测得他们的行驶路程(千米)如下:41250, 41010, 42650, 38970, 40200 42550, 43500, 40400, 41870, 39800. 设汽车轮胎行驶路程服从正态分布2(,)N m s . 求:m 的置信水平为95%的单侧置信下限.3.设两位化验员A 、B 独立的对某种聚合物含氯量用相同的方法各做10次测定,其测定值的方差分别为20.5419A S =,20.6065B S =.设2A s ,2B s 分别为A 、B 所测定的测定值总体的方差,设总体均为正态分布,且两样本独立.求方差比22A B s s 的置信水平为0.95的单侧置信上限. B 组1. 设总体X 服从指数分布,其密度函数为-1,0()0,xe xf x q q ìï>ï=íïïî其他 其中0q >未知.从总体中抽取一容量为n 的样本12(,,,)n X X X .若已知22~(2)nXn c q. (1)求q 的置信水平为1-a 的单侧置信下限;(2)某种元件的寿命(以小时计算)服从上述指数分布,现从中抽得以容量为16的样本,测得样本均值为5010(h ),试求元件的平均寿命的置信水平为0.90的单侧置信下限.2. 松江A 、B 两所大学某学期期末高等数学考试采用同一套题目,A校认为该校学生高数考试成绩比B校学生成绩高10分以上。