参数估计基本知识
- 格式:ppt
- 大小:2.17 MB
- 文档页数:53
参数估计知识点一、知识概述《参数估计》①基本定义:简单说,参数估计就是通过样本数据去猜总体的一些参数。
比如说,想知道全校学生的平均身高,不可能一个一个去量,那就找一部分学生(样本)量出他们的身高,然后根据这部分学生的身高数据来推测全校学生(总体)的平均身高,这个推测的过程就是参数估计。
②重要程度:在统计学里那可相当重要。
就像要了解一个大群体的情况,直接研究整体往往很难,通过参数估计从样本推测整体的情况就变得可行而且高效。
无论是搞市场调查,还是科学研究,这个工具相当好使。
③前置知识:得有点基本的数学知识,像平均数、方差这些概念要能明白,还得对抽样有点概念,知道怎么从一个大群体里抽取样本出来。
④应用价值:在各种实际场景里都有用。
比如企业想了解消费者对产品的满意度,不可能访谈每个消费者,抽样一部分做参数估计就好了。
还有估算农作物亩产量之类的,都可以用到。
二、知识体系①知识图谱:在统计学里,参数估计是推断统计的一部分,是和假设检验等方法相互联系的。
推断统计主要就是根据样本信息推断总体特征,而参数估计是其中很核心的一部分。
②关联知识:和抽样分布密切相关啊。
抽样分布是参数估计的理论基础,如果不知道抽样分布,那参数估计就像无根之木。
还和概率相关,毕竟在样本中各种数值出现是有概率的。
③重难点分析:掌握难度嘛,开始会觉得有点抽象。
关键在于理解样本和总体之间的关系,以及怎么根据不同的条件选择合适的估计方法。
④考点分析:在统计学考试里常考。
考查方式有直接给样本数据让进行参数估计,或者结合其他知识点,像给出抽样分布然后问参数估计的结果之类的。
三、详细讲解【理论概念类】①概念辨析:参数估计就是根据样本统计量去估计总体参数。
总体参数就是描述总体特征的数值,像总体均值、方差之类的。
样本统计量就是从样本里计算出来的值,比如说样本均值、样本方差等。
②特征分析:不确定性算一个特点吧。
毕竟样本不是总体,根据样本做的估计不可能完全精准。
第三章参数估计重点:1.总体参数与统计量2.样本均值与样本比例及其标准误差难点:1.区间估计2.样本量确实定知识点一:总体分布与总体参数统计分析数据的方法包括:描绘统计和推断统计〔第一章〕推断统计是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。
通常有总体平均数〔μ〕总体方差〔σ2〕总体比例〔π〕知识点二:统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数,如样本均值〔〕、样本方差〔 s2〕、样本比例〔p〕等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。
统计量的取值是根据样本而变化的,不同的样本可以计算出不同的统计量值。
[例题·单项选择题]以下为总体参数的是( )a.样本均值b.样本方差c.样本比例d.总体均值答案:d解析:总体参数是对总体特征的某个概括性的度量。
通常有总体平均数、总体方差、总体比例题·判断题:统计量是样本的函数。
答案:正确解析:统计量是样本的函数,如样本均值〔〕、样本方差〔〕、样本比例〔p〕等。
构成统计量的函数中不能包括未知因素。
[例题·判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答案:错误解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一的,不同的样本可以计算出不同的统计量值。
〔一〕样本均值的抽样分布设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有n n种抽法,即可以组成n n不同的样本,在不重复抽样时,共有个可能的样本。
每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
参数估计知识点总结一、参数估计的基本概念参数估计是统计学中的一个重要问题,它是指从样本数据中估计总体参数的值。
在实际问题中,我们往往对总体的某个特征感兴趣,比如总体的均值、方差等,而这些特征通常是未知的。
参数估计就是利用样本数据来估计这些未知的总体参数值的方法。
在参数估计中,有两种主要的估计方法:点估计和区间估计。
点估计是指利用样本数据来估计总体参数的一个具体值,它通常用一个统计量来表示。
而区间估计则是利用样本数据来估计总体参数的一个区间范围,通常用一个区间来表示。
二、点估计点估计是参数估计中的一种方法,它是利用样本数据来估计总体参数的一个具体值。
在点估计中,我们通常使用一个统计量来表示参数的估计值,这个统计量通常是样本数据的函数。
1. 无偏估计无偏估计是指估计量的期望值等于所估计的总体参数的真实值。
对于一个无偏估计而言,平均来说,估计值和真实值是相等的。
无偏估计是统计学中一个很重要的性质,在实际问题中,我们希望能够得到一个无偏估计。
2. 一致估计一致估计是指当样本大小趋于无穷时,估计量收敛于真实参数的概率接近于1。
一致性是估计量的另一个重要性质,它保证了在样本较大的情况下,估计值能够越来越接近真实值。
3. 最大似然估计最大似然估计是一种常用的参数估计方法,它是利用样本数据来选择最有可能产生观测数据的参数值。
最大似然估计的原理是选择一个参数值,使得样本数据出现的概率最大。
最大似然估计的优点在于它的统计性质良好,且通常具有较好的渐近性质。
4. 贝叶斯估计贝叶斯估计是另一种常用的参数估计方法,它是基于贝叶斯定理的一种参数估计方法。
贝叶斯估计将参数视为随机变量,通过引入先验分布和后验分布来对参数进行估计。
贝叶斯估计的优点在于它能够利用先验知识对参数进行更为准确的估计。
三、区间估计区间估计是另一种常用的参数估计方法,它是利用样本数据来估计总体参数的一个区间范围。
区间估计的优点在于它能够提供参数值的估计范围,同时也能够反映估计的不确定性。
113第六章 参数估计一、 知识点1. 点估计的基本概念2. 点估计的常用方法(1) 矩估计法① 基本思想:以样本矩作为相应的总体矩的估计,以样本矩的函数作为相应的总体矩的同一函数的估计。
(2) 极大似然估计法设总体X 的分布形式已知,其中),,,(21k θθθθΛ=为未知参数,),,(21n X X X Λ为简单随机样本,相应的),,,(21n x x x Λ为它的一组观测值.极大似然估计法的步骤如下:① 按总体X 的分布律或概率密度写出似然函数∏==ni i n x p x x x L 121);();,,,(θθΛ (离散型)∏==ni i n x f x x x L 121);();,,,(θθΛ (连续型)若有),,,(ˆ21nx x x Λθ使得);,,,(max )ˆ;,,,(2121θθθn n x x x L x x x L ΛΛΘ∈=,则称这个θˆ为参数θ的极大似然估计值。
称统计量),,,(ˆ21nX X X Λθ为参数θ的极大似然估计量。
② 通常似然函数是l θ的可微函数,利用高等数学知识在k θθθ,,,21Λ可能的取值范围内求出参数的极大似然估计k l x x x nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 将i x 换成i X 得到相应的极大似然估计量k l X X X nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 注:当);,,,(21θn x x x L Λ不可微时,求似然函数的最大值要从定义出发。
3. 估计量的评选标准(1) 无偏性:设),,(ˆˆ21nX X X Λθθ=是参数θ的估计量,如果θθ=)ˆ(E ,则称θˆ为θ的无偏估计量。
(2) 有效性:设1ˆθ,2ˆθ是θ的两个无偏估计,如果)ˆ()ˆ(21θθD D ≤,则称1ˆθ较2ˆθ更有效。
4. 区间估计114 (1) 定义 设总体X 的分布函数族为{}Θ∈θθ),;(x F .对于给定值)10(<<αα,如果有两个统计量),,(ˆˆ111n X X Λθθ=和),,(ˆˆ122n X X Λθθ=,使得{}αθθθ-≥<<1ˆˆ21P 对一切Θ∈θ成立,则称随机区间)ˆ,ˆ(21θθ是θ的双侧α-1置信区间,称α-1为置信度;分别称1ˆθ和2ˆθ为双侧置信下限和双侧置信上限. (2) 单侧置信区间(3) 一个正态总体下未知参数的双侧置信区间(置信度为α-1)二、 习题 1. 选择题(1) 设n X X X ,,,21Λ是来自总体X 的一个样本,则以下统计量①)(211n X X + ②)2(14321n X X X X X n ++++-Λ ③)2332(101121n n X X X X +++-作为总体均值μ的估计量,其中是μ的无偏估计的个数是A.0B.1C.2D.3(2) 设321,,X X X 是来自正态总体)1,(μN 的样本,现有μ的三个无偏估计量321332123211216131ˆ;1254131ˆ;2110351ˆX X X X X X X X X ++=++=++=μμμ其中方差最小的估计量是A.1ˆμB.2ˆμC. 3ˆμD.以上都不是 (3) 设0,1,0,1,1为来自0-1分布总体B(1,p)的样本观察值,则p 的矩估计值为 。
参数估计方法与实例例题和知识点总结在统计学中,参数估计是一项重要的任务,它帮助我们通过样本数据来推断总体的特征。
这一过程对于做出合理的决策、进行科学研究以及解决实际问题都具有关键意义。
接下来,让我们深入探讨参数估计的方法,并通过实例例题来加深理解,同时对相关知识点进行总结。
一、参数估计的基本概念参数估计,简单来说,就是根据样本数据对总体参数进行推测和估计。
总体参数是描述总体特征的数值,例如总体均值、总体方差等。
而我们通过抽样得到的样本数据则是进行参数估计的基础。
二、参数估计的方法(一)点估计点估计是用一个数值来估计总体参数。
常见的点估计方法有矩估计法和极大似然估计法。
矩估计法的基本思想是利用样本矩来估计总体矩,从而得到总体参数的估计值。
例如,对于正态分布,我们可以用样本均值来估计总体均值,用样本二阶中心矩来估计总体方差。
极大似然估计法则是基于这样的思想:在给定样本观测值的情况下,找到使样本出现的概率最大的总体参数值。
(二)区间估计区间估计是给出一个区间,认为总体参数有一定的概率落在这个区间内。
常用的区间估计有置信区间。
置信区间的构建基于样本统计量的分布,以及给定的置信水平。
例如,对于总体均值的估计,我们可以构建一个置信水平为 95%的置信区间。
三、实例例题假设我们对某工厂生产的灯泡寿命进行抽样调查。
抽取了 50 个灯泡,其寿命的样本均值为 1000 小时,样本标准差为 100 小时。
(一)点估计我们可以用样本均值 1000 小时作为总体均值的点估计值。
(二)区间估计若要构建 95%的置信区间,由于样本量较大,我们可以使用正态分布近似。
标准正态分布的 95%置信区间对应的 z 值约为 196。
则总体均值的 95%置信区间为:\\begin{align}&1000 196 \times \frac{100}{\sqrt{50}}\\&1000 + 196 \times \frac{100}{\sqrt{50}}\end{align}\计算可得置信区间约为(9608,10392)。
统计学参数估计参数估计是统计学中的一个重要概念,它是指在推断统计问题中,通过样本数据对总体参数进行估计的过程。
这一过程是通过样本数据来推断总体参数的未知值,从而进行总体的描述和推断。
在统计学中,参数是指总体的其中一种特征的度量,比如总体均值、总体方差等。
而样本则是从总体中获取的一部分观测值。
参数估计的目标就是基于样本数据来估计总体参数,并给出估计的精确程度,即估计的可信区间或置信区间。
常见的参数估计方法包括点估计和区间估计。
点估计是一种通过单个数值来估计总体参数的方法。
点估计的核心是选择合适的统计量作为估计量,并使用样本数据计算出该统计量的具体值。
常见的点估计方法包括最大似然估计和矩估计。
最大似然估计是一种寻找参数值,使得样本数据出现的概率最大的方法。
矩估计则是通过样本矩的函数来估计总体矩的方法。
然而,点估计只能提供一个参数的具体值,无法提供该估计值的精确程度。
为了解决这个问题,区间估计被引入。
区间估计是指通过一个区间来估计总体参数的方法。
该区间被称为置信区间或可信区间。
置信区间是在一定置信水平下,总体参数的真值落在该区间内的概率。
置信区间的计算通常涉及到抽样分布、标准误差和分位数等概念。
在实际应用中,参数估计经常用于统计推断、统计检验和决策等环节。
例如,在医学研究中,研究人员可以通过对患者进行抽样调查来估计其中一种药物的有效性和不良反应的发生率。
在市场调研中,市场研究人员可以通过抽取部分样本来估计一些产品的市场份额或宣传效果。
参数估计的准确性和可靠性是统计分析的关键问题。
估计量的方差和偏倚是影响估计准确性的主要因素,通常被称为估计量的精确度和偏倚性。
经典的参数估计要求估计量是无偏且有效的,即估计量的期望值等于真值,并且方差最小。
总之,参数估计是统计学中的一个重要概念,它通过样本数据对总体参数进行估计,并给出估计值的精确程度。
参数估计在统计推断、统计检验和决策等领域具有广泛的应用。
估计量的准确性和可靠性是参数估计的关键问题,通常通过方差和偏倚的分析来评价估计量的性质。
第八章参数估计统计推断是数理统计的重要组成部分,它包括统计估计和假设检验两类基本问题.统计估计是根据样本的信息对总体分布的概率特性(如分布类型、参数等)作出估计,统计估计又分为参数估计和非参数估计,本章只讨论参数估计问题.在实际问题中,经常遇到随机变量X (即总体X )的分布函数的形式已知,但它的一个或者多个参数未知的情形,此时写不出确切的概率密度函数.若通过简单随机抽样,得到总体X 的一个样本观测值12(,,,)n x x x ,我们自然会想到利用这一组数据来估计这一个或多个未知参数.诸如此类,利用样本去估计总体未知参数的问题,称为参数估计问题.参数估计问题有两类,分别是点估计和区间估计.第一节 点估计的概述用一个数值估计某个参数,这种估计就是点估计.比方说我们要考察某医院新出生婴儿的男女比例,抽查了100个婴儿,按后估计出这个比例值为0.83,这个比值就是“比例”这个未知数的点估计值.定义8.1 设总体X 的分布函数(,)F x q 形式已知,其中q 是待估计的参数,点估计问题就是利用样本12(,,,)n X X X ,构造一个统计量12ˆˆ(,,,)n X X X q q =来估计q ,我们称12ˆ(,,,)n X X X q 为q 的点估计量,它是一个随机变量.将样本观测值12(,,,)n x x x 代入估计量12ˆˆ(,,,)n X X X q q =,就得到它的一个具体数值12ˆ(,,,)n x x x q ,这个数值称为q的点估计值.一、矩估计法矩估计法的基本思想是用样本矩估计总体矩. 因为由大数定理知, 当总体的k 阶矩存在时,样本的k 阶矩依概率收敛于总体的k 阶矩.我们假设总体X 的分布函数为12(;,,,)k F x q q q ,其中12,,,k q q q 是待估参数.若总体X 为连续型随机变量,设密度函数为12(;,,,)k f x q q q ;若总体X 为离散型随机变量,设分布律为12{}(;,,,)k P X x p x q q q ==.12(,,,)n X X X 是来自总体的样本.假设总体X 的1阶至k 阶原点矩i m 都存在,则有1212()(;,,,)(,,,)i i i k i k E X x f x dx m q q q m q q q +?-?===ò(X 为连续型)1,2,,i k =或 1212()(;,,,)(,,,)ii i k i k x RE X x p x m q q q m q q q Î===å(X 为离散型)1,2,,i k =(其中R 是X 所有可能取值的集合).一般来说,他们是12,,,k q q q 的函数.根据样本矩依概率收敛于总体矩,样本矩的连续函数依概率收敛于总体矩的连续函数,我们可以用样本矩作为总体矩的估计量,而样本矩的连续函数作为总体矩的连续函数的估计量.即11ˆn ii i j j A X n m===å 1,2,,i k =得方程组12ˆ(,,,)i k i m q q q m= 1,2,,i k =解得12ˆˆ(,,,)i i n X X X q q = 1,2,,i k =称ˆiq 为i q 的矩估计量,这种方法称为矩估计法. 相应的估计值称为矩估计值,矩估计量与矩估计值统称为矩估计. 例8.1 设总体X 服从区间12(,)q q 上的均匀分布,即密度函数为1221121,-(;,)0,x f x q q q q q q ì<<ïï=íïïî其他其中12,q q 未知,12(,,,)n X X X 是来自总体的样本,求12,q q 的矩估计量.解12()2E X q q +=22222112(-)()()(())()122E X D X E X q q q q +=+=+ 令121112nj j A X n q q =+==å 222211221(-)1()122n j j A X n q q q q =++==å 解之得12,q q 的矩估计量为11ˆA q =-21ˆA q =例8.2 设总体X 服从泊松分布()p l ,参数l 未知,12(,,,)n X X X 是来自总体的一个样本,求参数l 的矩估计量.解 总体的1阶原点矩即数学期望为()E X l =用样本的1阶原点矩(即样本均值)代替总体的1阶原点矩得方程11ni i X n l ==å所以l 的矩估计量为11ˆni i X X n l ===å.矩估计法的优点是简单易行,并不需要事先知道总体服从什么分布.缺点是当总体类型已知时,没有充分利用分布提供的信息.一般场合下,矩估计量不具有唯一性.其主要原因在于建立矩估计法方程时,选取那些总体矩用相应样本矩代替带有一定的随意性.二、最大似然估计法先通过一个例子了解一下最大似然估计的基本思想.某同学与一位猎人一起去打猎,一只野兔从前方窜过, 只听一声枪响, 野兔应声倒下, 试猜测是谁打中的?由于只发一枪便打中,而猎人命中的概率一般大于这位同学命中的概率, 故一般会猜测这一枪是猎人射中的.这个例子所作的推断已经体现了最大似然法的基本思想 :一次试验就出现的事件有较大的概率.即在已经得到实验结果的情况下, 应该寻找使这个结果出现的可能性最大的那个q 作为q 的估计ˆq .下面分别就离散型总体和连续型总体情形作具体讨论. 离散型总体的情形: 设总体X 的概率分布为12{}(;,,,),k P X x p x q q q ==其中(1,2,,)i i k q =为未知参数.如果12(,,,)n X X X 是取自总体X 的样本,样本的观察值为12(,,,)n x x x ,则样本的联合分布律11121{,,}(;,,,),nn n i k i P X x X x p x q q q ====Õ对确定的样本观察值12(,,,)n x x x ,上式是未知参数(1,2,,)i i k q =的函数,记为121212121(,,,)(,,,;,,,)(;,,,)nk n k i k i L L x x x p x q q q q q q q q q ===Õ,并称其为似然函数.连续型总体的情形: 设总体X 的概率密度为12(;,,,)k f x q q q ,其中(1,2,,)i i k q =为未知参数,此时定义似然函数121212121(,,,)(,,,;,,,)(;,,,)nk n k i k i L L x x x f x q q q q q q q q q ===Õ.似然函数12(,,,)k L q q q 的值的大小意味着该样本值出现的可能性的大小, 在已得到样本值12(,,,)n x x x 的情况下, 则应该选择使12(,,,)k L q q q 达到最大值的那个(1,2,i i q =,)k 作为i q 的估计ˆiq . 这种求点估计的方法称为最大似然估计法. 定义8.2 若对任意给定的样本值12(,,,)n x x x , 存在12ˆˆ(,,,)(1,2,,)i i n x x x i k q q ==,使 1212ˆˆˆ(,,,)max (,,,),ik k L L q q q q q q q =则称12ˆ(,,,)(1,2,,)i n x x x i k q =为i q 的最大似然估计值.称相应的统计量12ˆ(,,,)i n X X X q 为i q 最大似然估计量. 它们统称为i q 的最大似然估计.由定义可知,求参数的最大似然估计问题,就是求似然函数的最大值点的问题.因此可以对似然函数12(,,,)k L q q q 关于i q 求导.又由于12(,,,)k L q q q 和12ln (,,,)k L q q q 有相同的最大值点,故只需求12ln (,,,)k L q q q 的最大值点即可.这样往往会给计算带来很大方便.在一般情况下, 12ln (,,,)k L q q q 在最大值点的一阶偏导数为零,此时只需解最大似然方程组12ln (,,,)0,1,2,,k iL i k q q q q ¶==¶即可得参数的最大似然估计.例8.3 设随机变量X 服从泊松分布,即分布律为-{},0,1,2,...!k e P X k k k ll ===.其中0l >是未知参数,求l 的最大似然估计.解 设12(,,,)n x x x 是样本12(,,,)n X X X 的一组观测值.于是似然函数为1--1211()(;,,...,)()!ni i i x x nn n n i i ii L L x x x e e x xl l l l l l ===å====ÕÕ两边取对数得对数似然函数为11ln ()-ln -ln(!)n n i i i i L n x x l l l ===+邋令1ln ()1-0ni i d L n x d l l l ==+=å解方程得22ˆln ()ˆ0xd L xd l l l l ==<且 从而得出l 最大似然估计为ˆX l =.例8.4 设12(,,,)n X X X 是来自正态总体2(,)N m s 的样本,其中2,m s 是未知参数.求2,m s 的最大似然估计.解 由已知得样本的似然函数为222122/22111(,)(,;,,...,)exp{-(-)}(2)2n n i n i L L x x x x m s m s m ps s ===å 两边取对数得222211ln (,)-ln(2)-2ln -(-)22n i i n L n x m s p s m s ==å分别关于m 和2s 求偏导数,得似然方程组2122241ln 1(-)0ln 1-(-)022ni i n i i L x Ln x m m s m ss s ==ì¶==ï¶ïí¶ï=+=ï¶îåå 解这一方程组得12211ˆ1ˆ(-)ni i ni i x x n x x n m s ==ì==ïïíï=ïîåå.由微积分知识易验证以上所求为m 和2s 的最大似然估计. 由上例我们可以总结出求最大似然估计的一般步骤如下:(1) 写出似然函数12(,,,)k L q q q ;(2) 写出对数似然函数12ln (,,,)k L q q q ,及方程组ln ()0,1,2,,iL i k q q ¶==¶;(3)解上述方程组得最大似然估计值12ˆˆ(,,,)(1,2,,)i i n x x x i k q q ==.值得注意的是,通过取对数得到对数似然方程,进而解对数似然方程组求最大值点的方法并不总是有效的,因此应该具体问题具体分析.例8.5设总体X 服从均匀分布,即概率密度函数为1,0(;)00,x f x q q q q qì<<ï=<<?íïî,未知其他求参数q 的最大似然估计.解 设12(,,,)n X X X 是来自总体的样本,似然函数为121(;,,,),0,1,2,,n i nL x x x x i n q q q =<?显然12(;,,,)n L x x x q 关于q 单调,要使12(;,,...,)n L x x x q 达到最大,就要使q 达到最小,由于()10max{},1,2,...,i n i i nx x x i n q #<??所以q 的最大似然估计值为1ˆmax{}i i nx q #=q 的最大似然估计量为121ˆ(,,...,)max{}n ii nX X X X q #=.习题8-1A 组1.其中03q <<,求q 的矩估计. 2.一批灯泡的使用寿命的抽取样本如下(单位:h ):1458, 1395, 1565, 1614, 1351, 1490, 1478, 1382, 1536, 1496 试用矩估计法针对这批灯泡的平均寿命m 及寿命方差2s 做出矩估计.3.设12(,,,)n X X X 是来自总体X 的样本,X 服从参数为p 的几何分布,即X 的分布律为-1{}(1-)(1,2,)k P X k p p k ===其中p 未知,01p <<,求p 的最大似然估计.4.已知总体X 的密度函数为-1,01(;)0.0,x x f x q q q q ì<<ï=>íïî其他求:(1)参数q 的矩估计;(2)参数q 的最大似然估计. B 组1. 设总体的分布律为2-2{}(-1)(1-)(2,3,,01)k P X k k k q q q ===<<,q 未知.求q 的矩估计和最大似然估计.2.设总体X 的密度函数为12-112221,(;,)0.0,x e x f x q q q q q q q -ìï³ï=>íïïî其他求12,q q 的最大似然估计.3.已知总体X 是离散型随机变量,X 的可能取值为0,1,2,且2{2}(1-)P X q ==,()2(1-)E X q =(q 为未知参数).求:(1)X 的概率分布;(2)对X 抽取容量为10的样本,其中5个取1,3个取2,2个取0.求q 的矩估计值和最大似然估计值.4.已知总体X 的密度函数为-(-2),2()0.0,x ex f x l l l ì>ï=>íïî其他12(,,,)n X X X 是来自总体X 的样本,2Y X =.(1)求Y 的期望()E Y (记()E Y b =); (2)求l 的矩估计量和最大似然估计量(3)利用上述结果求b 的最大似然估计量.第二节点估计量的评选标准对于总体的同一个未知参数,由于采用的估计方法不同,可能会产生多个不同的估计量.这就提出了一个问题,当总体的同一个参数存在不同的估计量时,究竟采用哪一个更好?这涉及到用什么样的标准来评价估计量的好坏问题,对此,我们介绍几个常用的评价标准:无偏性、有效性和一致性.一、无偏性在评价一个估计量的好坏时,我们当然希望估计量与被估参数越接近越好,但估计量是一个随机变量,它的取值随样本的观测值而变,有时与被估参数的真值近些,有时远些,我们只能从平均意义上看估计量是否与被估参数尽量接近,最好是等于被估参数.于是有无偏估计量的概念.定义8.3 设12ˆˆ(,,...,)n X X X q q =是未知参数的估计量,若对任意q 蜵有ˆ()E q q =,则称12ˆ(,,...,)nX X X q 是q 的无偏估计量. 例8.6 设12(,,...,)n X X X 是来自总体X 的样本,作为总体均值的估计有111ni i T X X n ===å, 21T X =, 311(0,1)n n i ii i i i T a X a a ===>=邋且,试证1T ,2T ,3T 都是无偏估计量.证 因为12,,...,n X X X 相互独立且服从同一分布,故有()()(1,2,,)i E X E X i n ==由数学期望的性质知111()()()ni i E T E X E X n ===å21()()()E T E X E X ==311()()()()()n n i i i i i E T a E X E X a E X =====邋因此1T ,2T ,3T 都是无偏估计量.由此可见一个未知数可以有多个不同的无偏估计量.例8.7 设总体的方差()D X 存在,试证样本二阶中心矩2B 是总体方差()D X 的有偏估计,而样本方差2S 是总体方差()D X 的无偏估计.证明22221111()[(-)][-()]n n i i i i E B E X X E X X n n====邋222211()-[()]()-[()]n i i E X E X E X E X n ===å22()[()]-()-[()]D X E X D X E X =+1-1()-()()n D X D X D X n n== 所以2B 是总体方差()D X 的有偏估计.而 22211(-)-1-1n ii n S X X B n n ===å 所以 222-1()()()()()-1-1-1n n n n E S E B E B D X D X n n n n==== 即而样本方差2S 是总体方差()D X 的无偏估计.二、有效性由例8.6可以看出一个参数的无偏估计量不是唯一的,假若参数q 有两个无偏估计量1ˆq 和2ˆq ,我们认为其观测值更密集在参数q 真值附近的一个较为理想.由于方差是随机变量取值与其数学期望的偏离程度的度量,所以无偏估计以方差小者为好.这就引出了评价估计量好坏的另一标准——有效性.定义8.4 设1112ˆˆ(,,...,)n X X X q q =和2212ˆ(,,...,)n X X X q q =都是q 的无偏估计量,若对q "蜵,有12ˆˆ()()D D q q £,且至少有一个q 蜵使不等式严格成立,则称1ˆq 比2ˆq 更有效.例8.8 在本节例8.6中,设总体X 的方差()D X 存在,试问1T ,2T ,3T 哪一个更有效? 解 11()()D T D X n=2()()D T D X = 2311()()()()ni i D T D X a D X n==?å注意,此处利用了不等式222111()n nni i iii i i a b ab ===7邋?得到了211ni i a n=³å所以1T 是三个估计量中最有效的估计量.三、一致性无偏性和有效性都是针对无偏估计而言的,且都是在样本容量固定的前提下提出的.我们自然希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值.这样,对一个好的估计量又有下面一致性的要求.定义8.4 设12ˆˆ(,,...,)nX X X q q =是q 的估计量,若对于任意q 蜵,满足对任意0e >X ,有ˆlim {-}1nP qq e <=,则称ˆq 是q 的一致估计量. 一致估计量的意义在于:只要样本容量足够大,就可以使一致估计量与参数真实值之间的差异大于eX 的概率足够地小,也就是估计量可以用任意接近于1的概率把参数真实值估计到任意的精度.一致性是点估计的大样本性质,这种性质是针对样本容量n ??而言,对于一个固定的样本容量n ,一致性是无意义的.与此相对,无偏性和有效性的概念是对固定的样本而言,不需要样本容量趋于无穷,这种性质也称为“小样本性质”.习题8-2A 组1.设总体X 的k 阶矩()kk E X m =存在,12(,,...,)n X X X 是来自总体X 的样本,证明:不管X 服从什么分布,11n kk i i A X n ==å是k m 的无偏估计量.2.设总体X 的密度函数为-1,0(,)00,x e x f x x q q q qìï>ï=>íï£ïî为常数12(,,...,)n X X X 是来自总体X 的样本.证明:样本均值X 是q 的无偏估计量.3.设ˆq是q 的无偏估计,且有ˆ()0D q >.证明:2ˆq 不是2q 的无偏估计. 4. 12(,,...,)n X X X 是来自总体2~(0,)X N s 的样本,其中2s 未知,令2211ˆn i i X n s ==å,试证2ˆs 是2s 的一致估计量. B 组1. 12(,,...,)n X X X 是来自总体X 的样本,设2(),()E X D X m s ==. (1)确定常数c ,使-1211(-)n i i i cX X +=å是2s 的无偏估计量.(2)确定常数c ,使22-X cS 是2m 的无偏估计.2.设1ˆq 和2ˆq 是q 的两个独立的无偏估计量,假定12ˆˆ()2()D D q q =,求常数12,C C ,使1122ˆˆˆC C q q q =+为q 的无偏估计量,并使得ˆ()D q 达到最小. 3.设总体21~(,)X N m s ,总体22~(,)Y N m s ,设112(,,...,)n X X X 是来自总体X 的样本,212(,,...,)n Y Y Y 是来自总体Y 的样本,两样本独立. (1)求参数12-m m 的一个无偏估计.(2)证明:1222211121[(-)(-)]-2n n wi i i i S X X Y Y n n ===++邋是2s 的无偏估计. 4. 设112(,,...,)n X X X 是来自均匀总体(0,)U q 的样本,证明q 的最大似然估计满足一致性要求.第三节 区间估计前面,我们讨论了参数的点估计,它是用样本算得的一个估计值去估计未知参数,这个估计值仅仅是未知参数的一个近似值,但其精度如何点估计本身不能回答.实际中,度量一个点估计的精度的最直观的方法是给出一个未知参数的一个区间,这就是我们常常用到的参数的另一种估计形式:区间估计.如估计某人的身高在1.70~1.72之间,估计,某项费用在1000 ~1400之间等等.一、区间估计问题定义8.5 设总体X 的分布中含有一个未知参数q ,12(,,,)n X X X q 和12(,,X X qn ,X )由样本12(,,,)n X X X 确定的两个统计量.对给定的(01)a a <<,如果对参数q的任何值,都有{}1-P q q q a <<?则称随机区间(,)q q 为参数q 的置信水平为1-a 的置信区间,,q q 分别称为q 的双侧置信区间的置信下限和置信上限,1-a 称为置信水平或置信度.当X 为连续型随机变量时,对于给定的(01)a a <<,我们总是可以按要求给出随机区间(,)q q ,使得{}1-P q q q a <<=.而当X 为离散型随机变量时,对于给定(01)a a <<,常常找不到区间(,)q q ,使得{}P q q q <<恰好为1-a .此时我们去找区间(,)q q ,使得{}P q q q <<至少为1-a ,且尽可能的接近1-a .置信区间的含义:若反复抽样多次(各次的样本容量相等,均为n ),每一组样本值确定一个区间(,)q q ,每个这样的区间要么包含q 的真值,要么不包含q 的真值.按伯努利大数定理,在这么多的区间中,包含q 真值的约占100(1-α)%,不包含q 真值的约仅占100%a .例如:若0.01a =,反复抽样1000次,则得到的1000个区间中,不包含q 真值的约为10个.在对参数q 作区间估计时,常提出以下两个要求:(1)可信度高,即随机区间(,)q q 要以很大的概率包含真值q ;(2)估计精度高,即要求区间的长度尽可能的小.而这两个要求往往是矛盾的,区间估计的理论和方法的基本问题就是在已有的样本信息下,找出较好的估计方法,以尽量提高可信度和精度.奈曼提出的原则是:先保证可信度,在这个前提下尽量提高精度.例8.9 设总体2~(,)X N m s ,2s 已知,m 未知,12(,,,)n X X X 是来自总体的样本,求m 的置信水平为1-a 的置信区间.解 我们知道样本均值X 是总体均值m 的无偏估计量,X 的取值大部分集中于m 附近,显然以很大概率包含m 的区间也应包含X ,因此,我们从X 出发,构造m 的置信区间.又因为~(0,1)X N 8.1 所以2}1-P u a a <= 即22{-1-P X u X u aam a <<+=其中2u a 是标准正态分布的上侧2a分位点(如图8.1),这样我们得到了m 的置信水平为1-a 的置信区间22(-X u X u aa+. 8.2图8.1由此,我们给出求未知参数q 的置信区间的具体做法如下:(1)寻找一个样本12(,,,)n X X X 和q 的函数12(,,,;)n W W X X X q =,使得W 的分布不依赖于q 和其他未知参数,称具有这种性质的函数W 为枢轴量.(2)对于给定的置信水平1-a ,定出两个常数,a b 使得12{(,,,;)}1-n P a W X X X b q a <<=. 将 12(,,,;)n a W X X X b q <<变形为 1212(,,,)(,,,)n n X X X X X X q q q <<,(,)q q 即是q 的置信水平为1-a 的置信区间.需要注意的是,置信水平为1-a 的置信区间并不是唯一的.如例8.9中,如果取1-a =0.95即0.05a =,查表可得0.02521.96u u a ==.于是,我们得到一个置信水平为0.95的置信区间(X X +. 8.3事实上,对于任意给定的1221,(01)a a a a <<<,只要210.05a a a +==,记相应的上侧1a 和2a 分位点分别为12,u u a a ,则所确定的区间21(-X u X u a a +都是m 的置信水平为95%的置信区间.例如120.03,0.02a a ==,得置信区间为(-X X + . 8.4那么在众多的区间中,我们应该使用哪一个呢?注意到置信水平相同的区间的长度往往是不同的,例如区间8.3的长度为2?,区间8.4的长度为(1.88+=,根据我们对置信区间的要求,我们应该在置信水平一定的前提下,选取区间长度最短的那一个区间.二、单个正态总体的区间估计由于我们遇到的很多总体都是服从或是近似服从正态分布的,且很多统计量的极限分布也是正态分布,因此,我们专门介绍正态总体2(,)N m s中的参数m和2s的区间估计.设已给定置信水平1-a,12(,,,)nX X X是来自总体2(,)N m s的样本.X和2S分别是样本均值和样本方差.1.均值m的区间估计(1)2s已知时,由本节例1X已得到m的一个置信水平为1-a的置信区间为22(-X u X ua a+. 8.5例8.10 对50名大学生的午餐费进行调查,得样本均值为4.10元,假如总体的标准差为1.75元,求大学生的午餐费m的置信水平为0.95的置信区间.解m的置信区间为22(-X u X ua a+,0.05a=,0.02521.96u ua==, 1.75s=, 50n=, 4.1x=.由8.5式得m的置信水平为0.95的置信区间为(3.61,4.59).(2)2s未知时,此时不能用8.2式给出的区间,因为其中含有未知参数s.考虑到2S是2s的无偏估计量,因此将8.1式中的s换成S有抽样分布定理知~(-1)Xt n. 8.6X作为枢轴量可得(参见图8.2)图8.222{-(-1)(-1)}1-X P t n t n a a a <= 即22{-((1-P X t n X t n a a m a <<+=于是得到m 的一个置信水平为1-a 的置信区间为22(-((X t n X t n a a +. 8.7例8.11 为估计一物体的重量m ,用天平秤了5次,得结果(克): 5.52, 5.48, 5.64, 5.51, 5.43.假定测量值是正态的,求m 的一个置信水平为0.95的置信区间.解 由已知 5.516,0.07765X S ==0.05a =,0.0252(4)(4) 2.7764t t a ==所以由8.7式得m 的一个置信水平为0.95的置信区间为22(-(((5.420,5.612)X t n X t n a a +=.2. 方差2s 的区间估计根据实际问题的需要,只介绍m 未知的情况.2S 是2s 的无偏估计量,因此有抽样分布定理知222(-1)~(-1)n S n c s. 8.8 取22(-1)n S s 作为枢轴量,即得(参见图8.3)图8.3222221-2(-1){(-1)(-1)}1-n S P n n aac c a s<<= 即 2222221-2(-1)(-1){}1-(-1)(-1)n S n S P n n a a s a c c <<=. 这就得到方差2s 的一个置信水平为1-a 的置信区间为222221-2(-1)(-1),(-1)(-1)n S n S n n a ac c 骣琪琪琪桫. 例8.12从某厂生产的滚珠中随机抽取10个,测得滚珠的直径(单位:mm )如下:14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8若滚珠直径服从正态分布2(,)N m s ,若m 未知,求滚珠直径方差2s 的置信水平为95%的置信区间.解 m 未知,计算样本方差20.0373S =,置信水平1-0.95a =,0.05a =,自由度-19n =,查表可得22/20.025(-1)(9)19.0n a c c ==,221-α/20.975χ(n -1)=χ(9)=2.70.则方差2s 的置信水平为95%的置信区间为2222/21-/2(-1)(-1)90.037390.0373, , 19.0 2.70(-1)(-1)n S n S n n a a c c 骣骣创琪琪=琪琪桫桫即(0.0177,0.1243).三、两个正态总体的区间估计在实际中常遇到下面的问题:已知产品的某一质量指标服从正态分布,但由于原料、设备条件、工艺过程的改变等因素,引起总体均值、总体方差有所改变.我们需要知道这些变化有多大,这就需要考虑两个正态总体均值差或方差比的估计.设112(,,,)n X X X 与212(,,,)n Y Y Y 分别来自于两个相互独立的正态总体211(,)N m sα和222(,)N m s 的样本,22,,,X Y X Y S S 分别是两个样本的均值和方差,给定置信水平1-(01)a a <<.1.两个总体均值12-m m 的区间估计 (1)21s 和22s 均已知因为X ,Y 分别为1m 和2m 的无偏估计,故-X Y 是12-m m 的无偏估计.由于2111~(,)X N n s m ,2222~(,)Y N n s m ,且X 和Y 相互独立, 所以22121212-~(-,)X Y N n n s s m m + 继而~(0,1)X Y U N =取U 为枢轴量,即得到12-m m 的一个置信水平为1-(01)a a <<的置信区间为--,-X Y u X Y u a a 骣琪+琪琪桫8.9 (2) 22212s s s ==,2s 未知.由上一章抽样分布定理知12~(-2)X Y T t n n =+()其中 2221212(-1)(-1).-2X Ywn S n S S n n +=+取T 为枢轴量,可得12-m m 的一个置信水平为1-(01)a a <<的置信区间/212/212--(-2)-(-2)X Y t n n S X Y t n n S a a 骣琪+++琪桫8.10例8.13某工厂一条生产灯泡的流水线,在工艺改变前后分别抽检若干件产品的寿命,得数据为改变前:216,1364,156;X n X S === 改变后:229,1407,172.Y n Y S ===假定灯泡寿命服从正态分布,且工艺改变前后方差不变,试求工艺改变前后平均寿命之差的置信度为95%的置信区间.解12.88,w S === 0.05,a =/2(13) 2.16,t a = -43,Y X= 2.1612.8814.7,创= 所以由8.10式得12-m m 的一个置信水平为0.95的置信区间为/2-(13)(43-14.7 , 4314.7)(28.3 , 57.3).Y X t S a 骣琪?=+=琪桫2.两个总体方差比2212s s 的区间估计我们仅讨论1m 和2m 都未知的情况,由抽样分布定理知22112222~(-1,-1)XYS F F n n S s s = 取F 为枢轴量得(如图8.4)图8.41-/212/212{(-1,-1)(-1,-1)}1-P F n n F F n n a a a <<=即 2221222/2121-/212211 1-α(-1,-1)(-1,-1)X X Y Y S S P F n n F n n S S a a s s 禳镲<<=睚镲铪于是得到2212s s 的一个置信水平为1-(01)a a <<的置信区间α2222/2121-/21211,(-1,-1)(-1,-1)XX Y YS S F n n F n n S S a a 骣琪琪桫.例8.14两个相互独立的正态总体21~(,)X N m s ,22~(,)Y N m s ,各取样本,125n =,212.7XS =,220n =,210.8YS =,求 2122s s 的置信度为95% 的置信区间 .解 2122s s 的置信区间为2222/2121-/21211,(0.347 , 2.737).(-1,-1)(-1,-1)X X Y YS S F n n F n n S S a a 骣琪=琪桫习题8-3A 组1.设某种油漆的9个样品,其干燥时间(以h 为单位)分别为: 6.0 5.7 5.8 6.5 7.0 6.3 5.6 6.1 5.0 设干燥时间总体服从正态分布2(,)N m s .(1)若由以往经验0.6()h s =,求m 的置信水平为0.95的置信区间; (2)若s 未知,求m 的置信水平为0.95的置信区间.2. 用两种工艺(或原料)A 和B 生产同一种橡胶制品.为比较两种工艺下产品的耐磨性,从两种工艺的产品中各随意抽取了若干件,测得如下数据: 工艺 A :185.82, 175.10, 217.30, 213.86, 198.40工艺 B :152.10, 139.89, 121.50, 129.96, 154.82, 165.60 假设两种工艺下产品的耐磨性X 和Y 都服从正态分布:2~(,),x X N a s 2~(,),y Y N b s(1)建立xy ss 的置信度为0.95置信区间;(2)建立-a b 的置信度为0.95置信区间.3.设某自动包装机包装洗衣粉,其重量服从正态分布,随机抽查12袋,测得重量分别为:1001 1004 1003 997 999 1000 1004 1000 996 1002 998 999求这批洗衣粉重量方差和标准差的置信区间(0.05a =).4.某大学从A 、B 两市招收的新生中分别抽5名、6名男生,测得身高值如下: A 市:172 178 180.5 174 175B 市:174 171 176.5 168 172.5 170设两市学生身高分别服从2212(,),(,)N N m s m s .求12-m m 的置信水平为0.95的置信区间.5. 为比较Ⅰ,Ⅱ两种型号步枪子弹的枪口速度,随机的取Ⅰ型号子弹10发,得到枪口速度的平均值为1500/x m s =,标准差为1 1.10/s m s =;随机的取Ⅱ型号子弹20发,得到枪口速度的平均值为2496/x m s =,标准差为2 1.20/s m s =.假设两总体都可认为近似的服从正态分布,且方差相等.求两总体均值差12-m m 的一个置信水平为0.95的置信区间. B 组1.一次等级考试,因急于评估试卷质量,教师先随机抽取36份试卷批改,平均分为72分,标准差13.2分,系主任要求在90%的可信度下,对全体考生的平均成绩做一个区间估计.2.某公司要对下一年职工医疗费情况作个预算,通常医疗费的标准差为120元.现要求在95%的置信度下,保证所估计的总体平均值在加减40元的范围内.问应该取多大的样本?3.假定吸烟者买烟的月支付近似服从正态分布,一机构随机抽取了容量为26的样本进行调查,得到样本平均值为80元,样本标准差为20元.试以95%的把握估计全部吸烟者月平均烟钱支出的置信区间.4.随机地从A 批导线中抽4根,又从B 批导线中抽5根,测得电阻值为: A 批导线:0.143 0.142 0.143 0137B 批导线:0.140 0.142 0.136 0.138 0.140设测定数据分别来自分布221122(,),(,)N N m s m s ,且样本相互独立.12,m m 均未知, (1)22212s s s ==未知时,求 12-m m 的一个置信水平为0.95的置信区间.(2) 求方差比2212s s 的置信水平为0.95的置信区间.第四节 单侧置信区间前面介绍的置信区间中置信限都是双侧的,但在有些实际问题,人们所关心的只是参数在一个方向的界限.例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.这时,可将置信上限取为 +∞,而只着眼于置信下限,这样求得的置信区间称为单侧置信区间.定义8.6 给定(01)a a <<,若有样本12(,,,)n X X X 确定的统计12(,,X X q q =,)n X ,对于任意q 蜵满足{}1-P q q a >?称随机区间(,)q +?是q 的置信水平为1-a 的单侧置信区间,q 称为q 的置信水平为1-a 的单侧置信下限.又若统计量q q =12(,,,)n X X X ,对于任意q 蜵满足{}1-P q q a <?称随机区间(-,)q ¥是q 的置信水平为1-a 的单侧置信区间,q 称为q 的置信水平为1-a 的单侧置信上限.例8.15 设总体2~(,)X N m s ,2,m s 均未知,设12(,,,)n X X X 是来自总体的样本.试求m 和2s 的置信度为1-a 的单侧置信区间.解 由~(-1)X t n 有(-1)}1-X P t n a a <= 即{-(-1)}1-P X n a m a >=于是得到m 的置信度为1-a 的单侧置信区间(-(-1),)X n a +?.m 的置信度为1-a 的单侧置信下限为-(-1)X n a m =.又由222(-1)~(-1)n S n c s 有 221-2(-1){(-1)}1-n S P n a c a s>= 即 2221-(-1){}1-(-1)n S P n a s a c <=于是得到2s 的置信水平为1-a 的单侧置信区间221-(-1)(0,)(-1)n S n a c . 2s 的置信水平为1-a 的单侧置信上限为2221-(-1)(-1)n S n a sc =. 习题8-4A 组1.设有某部门对所属区域的职工家庭人均月收入进行调查,现抽取20个家庭,所得的月平均收入234.7X =(元),21590.85S =,试以95%的置信度估计该区域职工家庭人均月收入的最低下限为多少?2.从汽车轮胎厂生产的某种轮胎中抽取10个样品进行磨损实验,直到轮胎行驶的磨坏为止,测得他们的行驶路程(千米)如下:41250, 41010, 42650, 38970, 40200 42550, 43500, 40400, 41870, 39800. 设汽车轮胎行驶路程服从正态分布2(,)N m s . 求:m 的置信水平为95%的单侧置信下限.3.设两位化验员A 、B 独立的对某种聚合物含氯量用相同的方法各做10次测定,其测定值的方差分别为20.5419A S =,20.6065B S =.设2A s ,2B s 分别为A 、B 所测定的测定值总体的方差,设总体均为正态分布,且两样本独立.求方差比22A B s s 的置信水平为0.95的单侧置信上限. B 组1. 设总体X 服从指数分布,其密度函数为-1,0()0,xe xf x q q ìï>ï=íïïî其他 其中0q >未知.从总体中抽取一容量为n 的样本12(,,,)n X X X .若已知22~(2)nXn c q. (1)求q 的置信水平为1-a 的单侧置信下限;(2)某种元件的寿命(以小时计算)服从上述指数分布,现从中抽得以容量为16的样本,测得样本均值为5010(h ),试求元件的平均寿命的置信水平为0.90的单侧置信下限.2. 松江A 、B 两所大学某学期期末高等数学考试采用同一套题目,A校认为该校学生高数考试成绩比B校学生成绩高10分以上。
1. 简述评价估计量的标准。
答案:(1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。
(2)有效性:是指估计量的方差尽可能小。
对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。
(3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。
知识点:参数估计难易度:12. 为估计一批产品平均使用寿命的置信区间,从该批产品抽取50件作为样本进行估计,估计时采用的分布是什么?请说明理由。
如果随机抽取20件作为样本,估计时采用的分布是什么?假定条件是什么?答案:(1)抽取50件作为样本时,应采用采用正态分布进行估计。
因为n=50属于大样本,此时,样本均值经标准化后服从标准正态分布。
(2)抽取20件作为样本时,应采用采用t分布进行估计。
因为n=20属于小样本,由于总体方差未知,样本均值经标准化会服从自由度为n-1 的t分布。
此时的估计,假定该批产品的平均使用寿命服从正态分布。
知识点:参数估计难易度:33. 从全校学生中随机抽取200人组成一个随机样本,根据95%的置信水平,估计出全校学生平均月生活费支出为500元~600元。
(1)这里的95%的置信水平是指什么?(2)全校学生平均生活费支出的实际值是否在这一区间内?为什么?答案:(1)这里95%的置信水平是指:重复抽样所有样本量为200的样本,按相同的方法进行估计,在所构建的所有置信区间中,约有95%的置信区间包含全校学生平均月生活费支出的实际值。
(2)全校学生平均生活费支出的实际值是否在这一区间内我们并不知道。
因为这个区间是根据目前的这个样本构建出来的,而这个区间又是一个常数区间。
我们并不知道它是包含实际值的95%区间中的一个,还是不包含实际值的5%的区间中的一个。
知识点:参数估计难易度:34. 影响样本量大小的因素有哪些?简述这些因素与样本量的关系。
答案:(1)影响样本量大小的因素有所要求的置信水平、总体方差和估计时所希望的估计误差。
第九章参数估计抽样的真正目的在于根据已知的统计量来估计总体参数。
检验特定假设有一定用处,但估计方法的用处更大。
基本上有两种估计,即点估计和区间估计。
第一节点估计点估计也即点值估计,是以一个最适当的样本统计值来代表总体参数值。
为了确定每一种估计究竟如何,就必须掌握某种标准。
估计量如果具有无偏性、一致性和有效性这三个要求或标准,就可以认为这种统计量是总体参数的合理估计或最佳估计。
1.无偏性如果统计量的抽样分布的均值恰好等于被估计的参数之值,那么这一估计便可以认为是无偏估计。
换句话说,从最终的结果来看,估计量的期望值就是参数本身。
2.一致性虽然随机样本和总体之间存在一定的误差,但当样本容量逐渐增加时,统计量越来越接近总体参数,满足这种情况,我们就说该统计量对总体参数是一个一致的估计量。
3.有效性估计量的有效性指统计量的抽样分布集中在真实参数周围的程度。
总而言之,如果一个估计量满足无偏性、一致性和有效性这三条准则,就可称其为最佳估计量。
第二节区间估计如果总体均值正好就是样本的均值,这当然非常好。
但如果两者不尽相同,点估计往往会造成一些不必要的误解。
在许多场合,人们宁愿在原来点估计值两边加一个区间,使得我们对参数在预料之中有相当把握。
因此在推论统计中我们更多采用的是区间估计的方法。
所谓区间估计,就是在一定的抽样平均误差内设一个可置信的区间,然后联系到这个区间的精度,将样本的统计值推断为总体的参数值。
1.精确性和可靠性区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增加。
当然,设置一个区间是很容易的,当我们对参数被估计到的信心不足时,我们总可以放宽区间。
如果这个区间的大小不受限制,我们就可以把参数被估计到的信心提高到任何水平。
但是区间加大,估计的效度随之降低。
当我们的信心提高到绝对时,估计的价值也随之丧失贻尽。
这就是说,还存在需要考虑的另一方面——区间估计的精确性问题。
这样一来,我们又宁愿估计区间要尽量小一点,最好就是点估计。
统计学参数估计统计学参数估计是统计学中一种重要的方法,它通过观察样本数据来估计总体参数的值。
参数是描述总体特征的数值,例如总体均值、总体比例等。
参数估计的目的是根据样本信息对总体参数进行推断,从而得到总体特征的近似值。
参数估计的过程通常分为点估计和区间估计两种方法。
点估计是指根据样本数据求出总体参数的一个数值估计量,例如样本均值、样本比例等。
点估计的基本思想是用样本统计量作为总体参数的估计值,它是参数的无偏估计量时,表示点估计是一个良好的估计。
区间估计是指根据样本数据求出一个区间,这个区间包含总体参数的真值的概率较高,通常用置信区间表示。
区间估计的基本思想是总体参数位于一个区间中的可能性,而不是一个确定的值。
置信区间的构造依赖于样本统计量的分布以及总体参数的估计量的抽样分布。
点估计和区间估计的方法有很多,其中最常用的是最大似然估计和矩估计。
最大似然估计是指根据已知样本观测值,选择使样本观测值出现的概率最大的总体参数作为估计值。
最大似然估计的基本思想是找到一个参数值,使得已观测到的样本结果出现的概率尽可能大。
矩估计是指根据样本矩的观测值,选择使样本矩的偏差与总体矩的偏差最小的总体参数作为估计值。
矩估计的基本思想是利用样本矩估计总体矩,从而近似估计总体参数。
参数估计在实际应用中具有广泛的应用价值。
例如,在医学研究中,需要对患者的疾病概率进行估计,以帮助医生做出正确的诊断和治疗决策。
在经济学研究中,需要对经济指标(如GDP、通胀率等)进行估计,以帮助政府制定宏观经济政策。
在市场调研中,需要对消费者行为进行估计,以帮助企业确定产品定价和市场策略。
然而,参数估计也存在一些局限性。
首先,参数估计的结果仅仅是对总体参数的估计,并不是总体参数的确切值。
其次,参数估计的结果受到样本容量的影响,样本容量越大,估计结果越可靠。
另外,参数估计还需要满足一些假设条件,如总体分布的形式、样本的独立性等,如果这些假设条件不满足,估计结果可能会失效。
关于参数估计虽然⾮计算机专业,但因为⼀些原因打算学习西⽠书,可由于长时间没有碰过概率统计的知识,有所遗忘。
所以特意重新复习了⼀遍类似的知识,写在这⾥权当总结。
主要参考《概率论与数理统计》(陈希孺)。
参数估计就是根据样本推断总体的均值或者⽅差、或者总体分布的其他参数。
可以分两种,⼀种是点估计(估计⼀个参数的值),另⼀种是区间估计(估计⼀个参数的区间)。
参数估计的⽅法有多种,各种估计⽅法得出的结果不⼀定相同,很难简单的说⼀个必定优于另⼀个。
点估计点估计主要有三种⽅法:矩估计、最⼤似然估计、贝叶斯估计。
矩估计定义k阶样本原点矩为 $$a_k=\frac{1}{n}\sum n_{i=1}X_i k$$若k=1则原点矩显然就是样本均值\bar{X};再定义k阶样本中⼼矩为m_k=\frac{1}{n}\sum^n_{i=1}(X_i-\bar{X})^k.另⼀⽅⾯,总体分布设为f(x;\theta_1,\theta_2,...,\theta_k)则有m阶原点矩\alpha_m=\int x^mf(x;\theta_1,\theta_2,...,\theta_k){\rm d}x.矩估计的思想就是:令样本k阶矩等于总体k阶矩,得到⼀组⽅程,由此反解出\{\theta_i\}.⼀般原则是要求解n个参数,就选n个最低阶的矩,令它们相等并反解。
例题:设X_1,...,X_n为区间[\theta_1,\theta_2]上均匀分布总体中抽出的n个样本,估计出\theta_1,\theta_2.计算出样本中⼼矩m_1=\sum_iX_i/n和m_2=\sum_iX_i^2/n.再计算出总体中⼼矩分别为\frac{\theta_1+\theta_2}{2}和\frac{(\theta_1+\theta_2)^2}{12},令它们对应相等,解出来两个\theta即可。
极⼤似然估计符号同前,样本(X_1,...,X_n)的联合概率密度(PDF)为f(x_1;\theta_1,...,\theta_k)f(x_2;\theta_1,...,\theta_k)...f(x_n;\theta_1,...,\theta_k).现在反过来,固定样本\{X_i\}⽽把上⾯PDF看作关于\{\theta_i\}的“密度函数”,加引号是因为实际上\{\theta_i\}是固定参数⽽⾮随机变量,这⾥可以叫做似然函数(likehood, ⽽⾮probability)。
选择题:1. 在参数估计中,要求用来估计总体参数的估计量的平均值等于被估计的总体参数。
这种评价标准称为()A. 无偏性B. 有效性C. 一致性D. 充分性知识点:参数估计难易度:12. 评价估计量的一致性标准是指()A. 样本统计量的值恰好等于待估的总体参数B. 所有可能样本估计值的期望值等于待估总体参数C. 估计量与总体参数之间的误差最小D. 随着样本量的增大,估计量越来越接近总体参数知识点:参数估计难易度:13. 一项抽样研究表明,客运航班晚点平均时间的95%的置信区间为5分钟~20分钟之间。
这里的95%是指()A. 航班晚点的概率为95%B. 可以用95%的概率保证航班晚点的平均时间在5分钟~20分钟之间C. 在多次估计中,航班晚点的平均值在5分钟~20分钟之间的频率约为95%D. 100个航班中,有95个航班晚点知识点:参数估计难易度:34. 下面参数估计的陈述中,正确的是()A. 90%的置信区间将以90%的概率包含总体参数B. 当样本量不变时,置信水平越大得到的置信区间就越窄C. 当置信水平不变时,样本量越大得到的置信区间就越窄D. 当置信水平不变时,样本量越大得到的置信区间就越宽知识点:参数估计难易度:35. 总体均值的置信区间等于样本均值加减估计误差,其中的估计误差等于所要求置信水平的临界值乘以()A. 样本均值的标准误差B. 样本标准差C. 样本方差D. 总体标准差知识点:参数估计难易度:16. 从总体中抽取一个样本量为50的简单随机样本,用该样本均值构建总体均值99%的置信置信区间,这里的99%是指()A. 总体参数落在该样本所构造的区间内的概率为99%B. 在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为99%C. 总体参数落在该样本所构造的区间内的概率为1%D. 在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为1%知识点:参数估计难易度:27. 下面关于参数估计的陈述中,哪一个是正确的()A. 一个大样本给出的估计量比一个小样本给出的估计量更接近总体参数B. 一个小样本给出的估计量比一个大样本给出的估计量更接近总体参数C. 一个大样本给出的总体参数的估计区间一定包含总体参数D. 一个小样本给出的总体参数的估计区间一定不包含总体参数知识点:参数估计难易度:28. 要估计全校学生的平均月生活费支出,从全校学生中随机抽取200人,得到的平均月生活费支出为520元。