第6 章最大似然估计法

格式：pdf
大小：182.84 KB
文档页数：27

下载文档原格式

第六章-最大似然估计

(6-3)
第 2 页共 27 页
第六章最大似然估计
与非线性回归的情况一样，在 ML 估计中也需要假定参数的可识别性，具体如下：
假定（可识别假定）：对参数空间的任意
，有
其中，为参数的真值。
这里需要说明一下，与 LS 估计不同，在 ML 估计的框架中，用于保证估计量性质的约束条件无法很清晰的划分为几类简单的假定。因此，更常用的做法是直接给出这些约束条件（正则条件），而不是作为假定提出。我们之所以单独列出可识别假定，是因为它是整个极值估计的核心假定，且在性质证明中能直接看出。
CRLB 是指任意无偏估计量的方差所能达到的最低水平，计算如下：
(6-8)
以下简单证明 CRLB 的性质。
证明：已知密度函数
，满足
，其得分函数为，则有
。记
的估计量
其中，
注意到，对任意矩阵得
所以有当估计量为无偏估计时，即
，存在满秩矩阵，则有
，上式可化简为：
。。
，使
其中，
为
。
证明完毕。
称为
的估计量的 CRLB。当
第六章最大似然估计
，对应的检验统计量计算如下：
(6-23)
LR 检验统计量： LM 检验统计量：
(6-24)
(6-25)
其中，和分别表示无约束和有约束下的 ML 估计，和似然函数的估计。
在零假设下，上述的 Wald 检验、LR 检验和 LM 检验都收敛于
个数。
分别表示对应的，其中 J 为约束的
考虑线性约束
，Wald 检验统计量可计算如下：
(6-27)
其中，
，
；
残差。
又，有约束的对数似然函数可计算如下：

高等教育自学考试概率论与数理统计期末自学复习重要知识点

概率论与数理统计期末复习重要知识点第二章知识点：1.离散型随机变量：设X 是一个随机变量，如果它全部可能的取值只有有限个或可数无穷个，则称X 为一个离散随机变量。

2.常用离散型分布：（1）两点分布（0-1分布）：若一个随机变量X 只有两个可能取值，且其分布为12{},{}1(01)P X x p P X x p p ====-<<，则称X 服从12,x x 处参数为p 的两点分布。

两点分布的概率分布：12{},{}1(01)P X x p P X x pp ====-<<两点分布的期望：()E X p =；两点分布的方差：()(1)D X p p =-（2）二项分布：若一个随机变量X 的概率分布由式{}(1),0,1,...,.k kn k n P x k C p p k n -==-=给出，则称X 服从参数为n,p 的二项分布。

记为X~b(n,p)(或B(n,p)).两点分布的概率分布：{}(1),0,1,...,.k k n kn P x k C p p k n -==-= 二项分布的期望：()E X np =；二项分布的方差：()(1)D X np p =-（3）泊松分布：若一个随机变量X 的概率分布为{},0,0,1,2,...!kP X k ek k λλλ-==>=，则称X 服从参数为λ的泊松分布，记为X~P (λ)泊松分布的概率分布：{},0,0,1,2,...!kP X k ek k λλλ-==>=泊松分布的期望：()E X λ=；泊松分布的方差：()D X λ=4.连续型随机变量：如果对随机变量X 的分布函数F(x)，存在非负可积函数()f x ，使得对于任意实数x ，有(){}()xF x P X x f t dt-∞=≤=⎰，则称X 为连续型随机变量，称()f x 为X 的概率密度函数，简称为概率密度函数。

5.常用的连续型分布：（1）均匀分布：若连续型随机变量X 的概率密度为⎪⎩⎪⎨⎧<<-=其它,0,1)(bx a a b x f ，则称X 在区间（a,b ）上服从均匀分布，记为X~U(a,b)均匀分布的概率密度：⎪⎩⎪⎨⎧<<-=其它,0,1)(b x a a b x f 均匀分布的期望：()2a bE X +=；均匀分布的方差：2()()12b a D X -= （2）指数分布：若连续型随机变量X 的概率密度为00()0xe xf x λλλ-⎧>>=⎨⎩，则称X 服从参数为λ的指数分布，记为X~e (λ)指数分布的概率密度：00()0xe xf x λλλ-⎧>>=⎨⎩指数分布的期望：1()E X λ=；指数分布的方差：21()D X λ=（3）正态分布：若连续型随机变量X的概率密度为22()2()x f x x μσ--=-∞<<+∞则称X 服从参数为μ和2σ的正态分布，记为X~N(μ,2σ)正态分布的概率密度：22()2()x f x x μσ--=-∞<<+∞正态分布的期望：()E X μ=；正态分布的方差：2()D X σ=（4）标准正态分布：20,1μσ==，2222()()x t xx x e dtϕφ---∞=标准正态分布表的使用：（1）()1()x x x φφ<=--（2）~(0,1){}{}{}{}()()X N P a x b P a x b P a x b P a x b b a φφ<≤=≤≤=≤<=<<=-（3）2~(,),~(0,1),X X N Y N μμσσ-=故(){}{}()X x x F x P X x P μμμφσσσ---=≤=≤={}{}()()a b b a P a X b P Y μμμμφφσσσσ----<≤=≤≤=-定理1：设X~N(μ,2σ),则~(0,1)X Y N μσ-=6.随机变量的分布函数：设X 是一个随机变量，称(){}F x P X x =≤为X 的分布函数。

第六章参数估计

113第六章参数估计一、知识点1. 点估计的基本概念2. 点估计的常用方法(1) 矩估计法① 基本思想：以样本矩作为相应的总体矩的估计，以样本矩的函数作为相应的总体矩的同一函数的估计。

(2) 极大似然估计法设总体X 的分布形式已知，其中),,,(21k θθθθΛ=为未知参数，),,(21n X X X Λ为简单随机样本，相应的),,,(21n x x x Λ为它的一组观测值．极大似然估计法的步骤如下：① 按总体X 的分布律或概率密度写出似然函数∏==ni i n x p x x x L 121);();,,,(θθΛ （离散型）∏==ni i n x f x x x L 121);();,,,(θθΛ （连续型）若有),,,(ˆ21nx x x Λθ使得);,,,(max )ˆ;,,,(2121θθθn n x x x L x x x L ΛΛΘ∈=，则称这个θˆ为参数θ的极大似然估计值。

称统计量),,,(ˆ21nX X X Λθ为参数θ的极大似然估计量。

② 通常似然函数是l θ的可微函数，利用高等数学知识在k θθθ,,,21Λ可能的取值范围内求出参数的极大似然估计k l x x x nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 将i x 换成i X 得到相应的极大似然估计量k l X X X nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 注：当);,,,(21θn x x x L Λ不可微时，求似然函数的最大值要从定义出发。

3. 估计量的评选标准(1) 无偏性：设),,(ˆˆ21nX X X Λθθ=是参数θ的估计量，如果θθ=)ˆ(E ，则称θˆ为θ的无偏估计量。

(2) 有效性：设1ˆθ，2ˆθ是θ的两个无偏估计，如果)ˆ()ˆ(21θθD D ≤，则称1ˆθ较2ˆθ更有效。

4. 区间估计114 (1) 定义设总体X 的分布函数族为{}Θ∈θθ),;(x F ．对于给定值)10(<<αα，如果有两个统计量),,(ˆˆ111n X X Λθθ=和),,(ˆˆ122n X X Λθθ=，使得{}αθθθ-≥<<1ˆˆ21P 对一切Θ∈θ成立，则称随机区间)ˆ,ˆ(21θθ是θ的双侧α-1置信区间，称α-1为置信度；分别称1ˆθ和2ˆθ为双侧置信下限和双侧置信上限． (2) 单侧置信区间(3) 一个正态总体下未知参数的双侧置信区间（置信度为α-1）二、习题 1. 选择题(1) 设n X X X ,,,21Λ是来自总体X 的一个样本，则以下统计量①)(211n X X + ②)2(14321n X X X X X n ++++-Λ ③)2332(101121n n X X X X +++-作为总体均值μ的估计量，其中是μ的无偏估计的个数是A.0B.1C.2D.3(2) 设321,,X X X 是来自正态总体)1,(μN 的样本，现有μ的三个无偏估计量321332123211216131ˆ;1254131ˆ;2110351ˆX X X X X X X X X ++=++=++=μμμ其中方差最小的估计量是A.1ˆμB.2ˆμC. 3ˆμD.以上都不是 (3) 设0,1,0,1,1为来自0-1分布总体B(1,p)的样本观察值，则p 的矩估计值为。

概率论与数理统计教材第六章习题

X σ0 n
~ N(0,1)
对于置信水平1- ，总体均值的置信区间为对于置信水平 -α，总体均值的置信区间为
X
σ0
n
uα < < X +
2
σ0
n
uα
2
(2)设总体～ N(,σ 2 ), 未知，求的置信区间。设总体X～未知σ，的置信区间。设总体的置信区间
σ 0 ，则样本函数 t = X ~ t(n 1) 用 S 代替 S n
i =1
n1
n1
F
1
α ∑ Yj 2
2 j =1
n2
(
)
2
n2
10
2 2 及（1）设两个总体～ N(1,σ1 ) 及Y～ N(2 ,σ 2 ), 未知 1 2，）设两个总体X～～
2 σ1 的置信区间。求 2 的置信区间。 σ2
选取样本函数选取样本函数
2 2 S1 σ1 F = 2 2 ~ F(n1 1, n2 1) S2 σ2
∑x
i =1
n
i =1
i
n = 0.
1 p
得 p 的极大似然估计值为 p =
n
∑x
i =1
n
1 = x
i
12
1 θ 2. 设总体服从拉普拉斯分布：f ( x;θ ) = e ,∞< x < +∞, 设总体X 服从拉普拉斯分布： 2θ 求参数 θ 其中 > 0. 如果取得样本观测值为 x1 , x2 ,L, xn , 求参数θ
第六章参数估计
(一)基本内容
一、参数估计的概念 1 定义：取样本的一个函数θ ( X 1 , X 2 ,L , X n ), 如果以它的观测定义：

概率论与数理统计-第6章-第2讲-最大似然估计法

P(X1 1)P(X2 0)P(X3 1)
3
本讲内容
01 求最大似然估计的一般步骤 02 典型例题
01 求最大似然估计的一般步骤
(1) 构造似然函数 L(θ)
设X1, , X n是来自X 的样本, x1, , xn是其一组样本值，
若总体X 属离散型,其分布律 P( X x) p(x; ),
概率论与数理统计
第6章参数估计
第2讲最大似然估计法
主讲教师 |
第2讲最大似然估计法
上一讲介绍了矩估计，这一讲介绍点估计的另外一种方法— —最大似然估计法，它是在总体类型已知条件下使用的一种参数估计方法 .
它首先是由数学家高斯在1821年提出的，费歇在1922年重新发现了这一方法，并研究了它的一些性质，从而得到广泛应用.
即
L(
x1
,,
xn
;ˆ)
max
L(
x1,,
xn
;
)
ˆ(x1, , xn )称为参数的最大似然估计值.
ˆ( X1, , X n )称为参数的最大似然估计量.
一般，可由下式求得：
dL( ) 0或 d ln L( ) 0.
d
d
似然方程
6
01 求最大似然估计的一般步骤
注1
未知参数可以不止一个, 如1,…, k
ln
L
n
i1
(xi )2 2 2
n 2
ln(2
)
n 2
ln(
2)
似然方程组为
ln
L
1
2
n
(xi
i1
)
0
(
2 ) ln
L
1

系统辨识--第6章-极大似然估计

2.有色噪声情况
系统差分方程
a(z 1 ) y(k ) b(z 1 ) u(k ) c(z 1 ) (k )
a( z
1 )
1
a1 z
1
an z n
b( z
1 )
b0
b1 z 1
bn z n
c( z 1 ) 1 c1 z 1 cn z n
e(k) y(k) yˆ(k)
1、极大似然法 Ronald Aylmer Fisher (1890～1962) 英国实验遗传学家兼统计学家把渐进一致性、渐进有效性等作为参数估计量应具备的基本性质在1912年提出了极大似然法
6.1 极大似然法
1、极大似然法
辨识准则
以观测值的出现概率最大为准则
思路
设一随机试验已知有若干个结果Ａ,Ｂ,Ｃ,…，如果在一次试验中Ａ发生了，则可认为当时的条件最有利于Ａ发生，故应如此选择分布的参数，使发生Ａ的概率最大。
aˆn
bˆ0
bˆn
cˆ1
T
cˆn
用基本LS辨识获取任意取值
(2) 计算预测误差(残差)及J值
预测误差：
e(k) y(k) yˆ(k)
指标函数J值：
J
1
n N
e2 (k )
2 k n1
误差方差估计值： ˆ 2 2 J
N
2、动态系统模型参数的极大似然估计
(3)计算梯度矩阵及海赛矩阵
J nN e(k ) e(k )
2J θ 2
1
J
θ
θ θˆ 0
J 称为J的梯度矩阵
θ
2J θ 2
称为J的海赛矩阵
注意：上式中J的梯度矩阵和海赛矩阵，依不同辨识对象，需进行详细推导，推导出矩阵中每个元素的具体表达式。

西北工业大学《概率论与数理统计》课件-第六章参数估计

最大概率的思想就是最大似然法的基本思想 .
(2) 似然函数
定义6.1 设总体X的分布密度(或分布律)为 p(x; ), 其中 (1, 2, ,m )为未知参数. 又设
( x1, x2,, xn ) 为自总体X的样本(X1,X2,…,Xn) 的一个观察值，则称样本的联合分布
n
L( ) p(x1, x2, … , xn; ) p( xi; )
2º似然估计方程组与最大似然估计之间没有必然
从中解得 pˆ k n
参数 p的估计值
这时, 对一切 0< p <1, 均有
P{Y k; pˆ } P{Y k; p}
综上所述：设某试验的可能结果为： A1, A2 , ···, Ai , ···
若在一次试验中，某结果 Ai 出现，则应选择参数使Ai 出现的概率最大.
以上这种选择一个参数使得实验结果具有
(k 1,2,, m)
(4) 求最大似然估计(MLE)的步骤:
1 写出似然函数
(1, 2 , ,m )
n
L( ) L( x1, x2,, xn; ) p( xi; )
n
i 1
2 取对数 ln L( ) ln p( xi; )
i 1
3 解似然方程(组)
ln L

ln L
2
为来自总体X的简单随机样本. 矩估计法的具体步骤:
1 求出k E( X k ) (1,2,,m )， k 1,2,,m；
2 要求k Ak , k 1,2,, m
这是一个包含 m个未知参数1,2 ,,m的方程组.
3 解出其中1,2,,m , 用ˆ1,ˆ2,,ˆm表示.
4 用方程组的解ˆ1, ˆ2 , ,ˆm 分别作为 1,2 ,,m的估计量,这个估计量称为

概率论与数理统计第6章参数区间估计2,3节

n
E(X
k
)

E(X
k)
i1
i1
二、有效性
未知参数的无偏估计量不是唯一的.
设 ^1 和 ^2 都是参数的无偏估计量,
θˆ 1
θˆ 2
集中
分散
蓝色是采用估^ 计量 1 , 用 14 个样本值得到的 14 个估计值. 紫色是采用估^ 计量 2 , 用 14 个样本值得到的 14 个估计值.
若limD(ˆ)0，则ˆ是的一致估 . 计量 n
回顾例子.设总体X的概率密度为
f(x)6x3 (x),0x;
0, 其他
X1, X2,…, Xn 是取自总体X 的简单随机样本, (1) 求的矩估计量 ˆ；
(2) 求ˆ的方差D(ˆ).
解：矩估计 ˆ量 2X. D(ˆ)4D(X)4D(X)2
若滚珠直径服从正态分布X ~ N( , 2), 并且已知 = 0.16(mm),求滚珠直径均值的置信水平为95%
的置信区间.
解：由上面求解的置信水平为1- 的置信区间
Xσn 0 uα/,2 Xσn 0 uα/2
已 n 知 1,0 0 0 .1,6 0 .0,5 x110i110xi 14.92,
若进行n次独立重复抽样，得到n个样本观测值,
每个样本观测个值随确机(定 ˆ1区 ,ˆ2一 )间 .那么
每个区间的可真能，或值包不含包的含真 , 值
根据伯努利大数定理, 在这n个随机区间中,
包含真值1 的 0(1 0 约 )% 占 ,不包含 10 的 % 0. 约
便得 k的到最大似 ˆk(X 1,然 X 2, ,估 X n).计
第二节判别估计量好坏的标准

最大似然估计计算公式

最大似然估计计算公式
最大似然估计是一种常用的参数估计方法，它通过寻找最大化给定数据集的概率来估计参数的值。

在统计学中，我们经常面对未知参数的情况，而最大似然估计提供了一种有效的方法来估计这些参数。

在最大似然估计中，我们假设数据是从一个特定的概率分布中抽取的，并且我们希望找到使得这个数据集出现的概率最大的参数值。

换句话说，最大似然估计就是在给定数据集的情况下，寻找最有可能产生这个数据集的参数值。

举个例子来说，假设我们有一个硬币，我们不知道它是正面朝上的概率是多少。

我们可以进行一系列的抛硬币实验，然后利用这些实验的结果来估计这个概率。

最大似然估计就是通过最大化观测到的数据集出现的概率，来估计这个硬币正面朝上的概率。

在实际应用中，最大似然估计通常会涉及到一些复杂的数学计算，但是其基本思想是非常直观的。

通过找到使得观测数据出现概率最大的参数值，我们可以得到对未知参数的估计，从而对数据进行分析和预测。

最大似然估计在统计学中有着广泛的应用，比如在线性回归、逻辑回归、朴素贝叶斯分类器等模型中都会用到最大似然估计来估计参数。

它不仅在理论上具有重要意义，而且在实际应用中也被广泛采用。

总的来说，最大似然估计是一种重要的参数估计方法，通过最大化观测数据的出现概率来估计参数的值。

它在统计学中有着广泛的应用，是数据分析和模型建立中不可或缺的一部分。

通过深入理解最大似然估计的原理和应用，我们可以更好地理解数据背后的规律，从而做出更准确的预测和决策。

最大似然相位估计

最大似然相位估计最大似然相位估计是一种常用的参数估计方法，在信号处理和通信领域有广泛的应用。

该方法基于最大似然估计原理，通过寻找能使观测信号的概率密度函数达到最大的参数值来估计信号的相位。

最大似然相位估计方法可以有效地提取信号中的相位信息，对于提高信号的解调和恢复的性能具有重要的意义。

在估计信号相位的问题中，通常假设信号是高斯分布的，且只有相位是未知的，其它参数如幅度和频率是已知的。

基于这些假设，可以通过对信号进行采样和处理，利用最大似然估计方法估计信号的相位。

最大似然相位估计方法的核心思想是找到最大化似然函数的参数值。

似然函数是给定观测信号的条件下，参数的取值的概率密度函数。

通过对似然函数取对数，可以将似然函数的最大化问题转化为最小化问题。

最大似然估计方法的目标是找到使似然函数取最小值的参数。

最大似然相位估计方法的具体实现步骤如下：1. 建立似然函数：首先根据观测信号的概率密度函数和已知参数，建立似然函数。

通常假设观测信号为高斯分布，因此似然函数可以表示为观测信号的概率密度函数。

2. 取对数化：对似然函数取对数，将似然函数的最大化问题转化为最小化问题。

对数化后的似然函数通常被称为对数似然函数。

3. 求导计算：对对数似然函数进行求导，计算其关于参数的一阶导数。

根据导数为零的条件，求得使对数似然函数取最小值的参数值。

4. 解方程求解：将导数为零的条件转化为方程，通过求解方程得到参数的估计值。

在实际计算中，通常采用迭代方法求解方程。

最大似然相位估计方法的优点是估计结果的无偏性和一致性，即在样本数量趋于无穷的情况下，估计值将无偏且收敛于真实值。

此外，最大似然相位估计方法在高斯噪声下具有最小均方误差的性质，可以提高信号的解调和恢复的性能。

然而，最大似然相位估计方法也存在一些限制。

首先，该方法对于非高斯分布的观测信号不适用。

其次，在实际应用中，观测信号通常存在噪声的影响，噪声的存在会导致估计结果的偏差。

因此，需要对噪声进行建模，并考虑噪声对估计结果的影响。

吴赣昌编-概率论与数理统计-第6章(new)

ln L 0 1 ln L 0 2 ln L 0 m
ˆ , ˆ ,, ˆ 从中解出 1 2 m
在例6.4中，
n xi n xi n i 1 i 1 xi ln n xi ln(1 ) ln L( ) ln (1 ) i 1 i 1
1 n 解得矩法估计量为 ˆ Xi X n i 1
注：1
n n n 1 1 1 2 2 1 2 2 2 X 2 X X X i i (Xi X ) (Xi 2Xi X X ) n n n i 1 i 1 i 1 n i 1 n i 1 n n
i 1 n
xi !
e

e
n
x!
i 1 i
n
x
i
n
x
i 1
1
n
i 1
i
0
n 1 ˆ xi n i 1
d2 1 n n (ln L ( )) x 0 2 2 i d i 1 x ˆx
ˆx 所以
ˆ X L
二、极大似然估计法(R.A.Fisher费歇)
先看一个简单例子：某位同学与一位猎人一起外出打猎 . 一只野兔从前方窜过 . 只听一声枪响，野兔应声倒下 . 如果要你推测，是谁打中的呢？你会如何想呢?
1、极大似然估计法的基本思想
由样本的具体取值，选择参数θ的估计量 ˆ 使得取该样本值发生的可能性最大。一般说，事件A发生的概率与参数有关，取
n 2 i 2 i 1
n n n 1 ln L( , 2 ) ln 2 ln 2 ( xi 2 2 2 2 i 1 ln L( , 2 ) 1 n 2 ( xi ) 0 i 1 解得 2 n ln L ( , ) n 1 2 2 ( xi ) 0 2 4 2 2 i 1

6.1矩估计

有两种，一种是对未知参数作出点估计，另一种是
对未知参数作出区间估计，以下分别讨论
5
假如我们要估计某队男生的平均身高.
2 N ( , 0 . 1 ) （假定身高服从正态分布）
是要根据选出的样本（5个数）求出总体均值的估计. 而全部信息就由这5个数组成 .
现从该总体选取容量为5的样本，我们的任务
ˆ h ( A , , A ) j j 1 k
j=1,2,…,k
15
例设总体X的概率密度为
X1,X2,…,Xn是取自X的样本,求参数的矩估计.
数学期望是一阶原点矩
( 1) x , 0 x 1 f ( x) 其它 0,
其中
1
是未知参数,
解: 1 E ( X ) x( 1) x dx
23
矩法估计的缺点：(1)矩法估计有时会得到不合理的解；
(2)求矩法估计时，不同的做法会得到不同的解；
(通常规定，在求矩法估计时，要尽量使用低阶矩)
例设总体X~P(λ)，求 λ的矩估计。 n
解
若上例中，不是用1阶矩，而是用2阶矩 n 1 E ( X 2 ) D( X ) ( EX ) 2 ( X ) 2 X i2 n i 1 n n 1 1 2 2 2 ˆ ˆ X 不同 X X ( X X ) 与 i i n i 1 n i 1
14
设总体的分布函数中含有k个未知参数
1 , , k
,那么它的前k阶矩
1 ,, k
一般
都是这k个参数的函数,记为：
i gi (1,, k )
从这k个方程中解出
i=1,2,…,k
j h j ( 1 ,, k )

概率论与数理统计(王明慈第二版)第6章参数区间估计2,3节

第三节正态总体参数的区间估计
基本内容：一、区间估计的概念二、正态总体均值的区间估计三、正态总体方差的区间估计
一、区间估计的概念
定义设总体 X 的分布中含有未知参数，对于给定的概率 1- (0 < < 1), 若存在两个统计量 ˆ1(X1, X2, , Xn )与ˆ2(X1, X2, , Xn ), 使得
即
P
i
n 1
tα/
2
(n
-
1),
x
s n
tα/
2(n
1)
得到的95%的置信区间为
(14.92-0.138, 14.92+0.138) 即(14.782, 15.058) (mm)
三、正态总体方差 2 的区间估计
1. 已知均值= 0的正态总体 X, 求未知参数 2 1- 的置信区间
解：设总体 X ~ N( , 2), 有
k 1,2,L ,m
第三步: 解含m个参数ˆ1，ˆ2，L的，mˆ个m 方程组, 得
ˆk ˆk X1, X2, , Xn k 1,2, ,m
以ˆk作为参数的k 估计量.
第四步:将 θˆk中的X1 , X2 , , Xn换成x1 , x2 , , xn, 便得到θk的矩估计值θˆk ( x1 , x2 , , xn ).
例3. 设X1，X2，X3是来自总体X的样本, 且
总体均值E(X)= 未知, 则下列4个关于的
统计量中哪个更有效？( C )
A. X1 X 2 3X 3 ; 55 5
C. X1 X 2 X3 ; 333
B. X1 X 2 X 3 ; 424
D. X1 X 2 X 3 . 362
分析：利用P181的7题结论，可选C.

参数估计

第六章参数估计一、教材说明本章内容包括参数估计中基本的概念、参数估计的两种方法及评价估计量的四个标准.它们是参数估计最基本的内容,是以后学习参数估计其他内容的基础.1、教学目的与教学要求(1) 使学生了解参数估计中最基本的点估计及相关概念; (2) 使学生掌握矩估计及最大似然估计的方法;(3) 使学生掌握评价估计量优劣的四个标准,尤其是前三个标准; (4) 使学生了解矩估计、最大似然估计的原理. 2、本章的重点本章重点是求未知参数的矩估计与最大似然估计的方法以及如何对求出的估计量的优良性进行评价.二、教学内容本章主要分2节来讲述.一、参数估计问题这里所指的参数是指如下三类未知参数：1、类型已知的分布中所含的未知参数θ.如二点分布b(1, p )中的概率p ；正态分布),(2σμN 中的μ和2σ;2、分布中所含的未知参数θ的函数：如正态分布),(2σμN 的变量X 不超过给定值a 的概率)()(σμ-Φ=≤a a X P 是未知参数σμ,的函数；3、分布的各种特征数也都是未知参数，如均值EX ，方差VarX ，分布中位数等等. 一般场合，常用θ表示参数，参数θ所有可能取值的集合称为参数空间，记为Θ.参数估计问题就是根据样本对上述各种参数做出估计.二、概率函数总体X 的概率函数),(θx p 是指：当X 为离散型总体时，),(θx p 就是总体的分布列；当X 为连续性总体时，),(θx p 就是总体的密度函数.三、参数估计形式分为点估计与区间估计.设n x x x ,,,21 是来自总体的样本，我们用一个统计量),,(1^^n x x θθ=的取值作为θ的估计值，^θ称为θ的点估计量，简称估计.若给出参数θ的估计是一个随机区间),(θθ，使这个区间),(θθ包含参数真值的概率大到一定程度，此时称),(θθ为参数θ的区间估计.§6.1点估计的几种方法教学目的：要求学生了解参数点估计的基本思想，理解参数点估计的基本概念，熟练运用替换原理、矩法估计和最大似然估计对参数进行估计.教学重点：矩法估计、最大似然估计.教学难点：运用矩法估计、最大似然估计对参数进行估计.教学内容：本节内容包括替换原理及矩法估计，最大似然估计.6.1.1 替换原理及矩法估计用样本矩去替换总体矩（矩可以是原点矩也可以是中心矩），用样本矩的函数去替换总体矩的函数，这就是替换原理.用替换原理得到的未知参数的估计量称为矩法估计.注矩法估计适用于总体分布形式未知场合，因此只要知道总体相应的矩即可，而不必知道其具体分布. 一矩法估计在总体分布位置的情况下，用样本矩去替换总体矩如用样本均值x 估计总体均值()E X ，即^()=E X x . 用样本方差2n s 估计总体方差Var()X ，即^2ar()=s n V X用事件A 出现的频率估计事件A 发生的概率用样本p 分位数估计总体的p 分位数,特别地，用样本中位数去估计总体中位数. 例6.1.1 对某型号的20辆汽车记录其每5L 汽油的行驶里程，观测数据如下： 29.8 27.6 28.3 27.9 30.1 28.7 29.9 28.0 27.9 28.7 28.4 27.2 29.5 28.5 28.0 30.0 29.1 29.8 29.6 26.9经计算可得=28.695x ，2=0.9185n s ，0.5=28.6m ，由此给出总体均值，方差和中位数的估计分别为28.695,0.9185,28.6.二概率函数),(θx p 已知时未知参数的矩法估计设总体的概率函数)(1k x p θθ，，；，Θ∈),,(1k θθ 是未知参数，n x x x ,,,21 是总体X 的样本，若）（kX E 存在，则）（jX E k j ,<∀存在.设k j X E k j j j ,,2,1),,,(1 ===θθνμ）（，如果k θθ,,1 也能够表示成k μμ,,1 的函数k j k j j ,,2,1),,,(1 ==μμθθ，则可给出j θ的矩估计量为k j a a k j j ,,2,1),,,(ˆˆ1 ==θθ，其中k j x n a n i ji j ,,2,1,11==∑=设),,(1k g θθη =是k θθ,,1 的函数，则利用替换原理可得到η的矩估计量)ˆ,,ˆ(ˆ1kg θθη =，其中j θˆ是j θ的矩估计，k j ,,2,1 =. 例6.1.2 设总体为指数分布，其密度函数为0,);(>=-x e x p xλλλ，n x x x ,,,21 为样本，0>λ为未知参数，求λ的矩估计.解 λλ1),(~=∴EX Exp X ，EX 1=∴λ，x1ˆ=∴λ为λ的矩估计. 注 21),(~λλ=∴VarX Exp X ，VarX1=∴λ SS 11ˆ2==∴λ也为λ的矩估计.因此矩估计不唯一，此时，尽量采用低阶矩给出未知参数的估计.例6.1.3 设总体],[~b a U X ，n x x x ,,,21 为样本，求b a ,的矩估计.解 12)(,2],,[~2a b VarX b a EX b a U X -=+=∴ 由⎪⎩⎪⎨⎧-=+=12)(22a b VarX b a EX ，得⎩⎨⎧+=-=VarX EX b VarX EX a 33，所以b a ,的矩估计为ˆˆax b x ⎧=-⎪⎨=⎪⎩三矩估计的步骤（1）计算总体的各阶矩jEX ，k j ,,2,1 =，令k j EX k j j j ,,2,1),,,(1 ===θθνμ；（2）解出j θ，即k j k j j ,,2,1),,,(1 ==μμθθ；（3）令k j a a k j j ,,2,1),,,(ˆˆ1 ==θθ，其中k j x n a n i ji j ,,2,1,11==∑=；（4）若),,(1k g θθη =，则)ˆ,,ˆ(ˆ1k g θθη =为η的矩估计量. 6.1.2 最大似然估计最大似然原理一个试验有若干个可能的结果A ，B ，C ，，若在一次试验中结果A 出现，则一般认为试验条件对结果A 出现有利，也即A 出现的概率最大.例6.1.4 设有外形完全相同的两个箱子，甲箱有99个白球和一个黑球，乙箱有99个黑球和一个白球，今随机抽取一箱，并从中随机抽取一球，如果取出白球，问这球是从哪一箱取出的？解从甲乙两箱均可取出白球，但计算得P （取出白球甲箱）10099=〉〉P （取出白球乙箱）1001= 据最大似然原理，则认为该球是从甲箱取出的.例 6.1.5 产品分为合格品和不合格品两类，用随机变量X 表示某个产品是否合格，0=X 表示合格品，1=X 表示不合格品，从而),1(~p b X ，其中p 未知是不合格品率，现抽取n 个产品看是否合格，得到样本n x x x ,,,21 ，这批观测值发生的概率为：∑-∑=-=========-=-=∏∏ni ini iiix n x ni x x ni i i n n p pp p x X p x X x X x X p p L 11)1()1()(),,,()(1112211当n x x x ,,,21 已知时，)(p L 仅是p 的函数，既然一次抽样观测到n x x x ,,,21 ，此时应认为试验条件对该组样本的出现有利，即该组样本出现的概率最大，从而可求出当p =？时)(p L 达到最大，此时把求出的p =？做为参数p 的估计就得到p 的最大似然估计，问题转化为求)(p L 的最大值点.如果总体为连续型的，求未知参数的最大似然估计仍可转化为求)(p L 的最大值点问题.为此给出似然函数与最大似然估计的定义. 似然函数与最大似然估计定义 6.1.1 设总体X 的概率函数为Θ∈θθ),;(x p 是一个未知参数或几个未知参数组成的参数向量, n x x x ,,,21 为来自总体X 的样本，称样本的联合概率函数为似然函数，用),,;(1n x x L θ表示，简记为)(θL ，即∏===ni i n x p x x L L 11),(),,;()(θθθ如果统计量),,,(ˆˆ21nx x x θθ=满足 )(max )ˆ(θθθL L Θ∈= 则称),,,(ˆˆ21nx x x θθ=是θ的最大似然估计，简记为MLE. 由于x ln 是x 的单调增函数，因此对数似然函数)(ln θL 达到最大与似然函数)(θL 达到最大是等价的.求最大似然估计的两种方法 (1)似然方程法当)(θL 是可微函数时，)(θL 的极大值点一定是驻点，从而求最大似然估计往往借助于求下列似然方程（组）0)(ln =∂∂θθL 的解得到，而后利用最大值点的条件验证求出的是最大值点.例6.1.6 设一个试验有三种可能结果，其发生概率分别为23221)1(),1(2,θθθθ-=-==p p p ，现做了n 次实验，观测到三种结果发生的次数分别是321,,n n n ，求θ的最大似然估计.解略.例6.1.7对正态总体),(2σμN ，),(2σμθ=是二维参数, n x x x ,,,21 为其样本，求2,σμ的最大似然估计.解：R x ex f X x ∈=--222)(21),;(~σμσπσμ所以似然函数为：∏=----∑===-ni x ni i ni x eeL 1)(22122212222)()2(21),(μσσμπσσπσμ取对数：∑=--+-=ni ixn L 12222)(21)ln 2(ln 2),(ln μσσπσμ分别对μ，2σ求导数：⎪⎪⎩⎪⎪⎨⎧=-+-=∂∂=-=∂∂∑∑==n i i ni i x n L x L 12422120ˆ)(212)(ln 0ˆ)(1)(ln μσσσμσμ )2()1(由（1）11n i i x x n =⇒μ==∑，代入（2）2221111()()n n i i i i x x x n n ==⇒σ=-μ=-∑∑∴2,σμ的极大似然估计值分别为： x x n n i i ==∑=11ˆμ；∑=-=n i i x x n 122)(1ˆσ 2,μσ的极大似然估计量分别为：11ˆn i i X x n μ===∑，222*11ˆ(-)n i i x x s n σ===∑ （2）定义法虽然求导函数是求最大似然估计量最常用的方法，但并不是所有场合求导都是有效的. 例6.1.8 设n x x x ,,,21 是均匀分布),0(~θU X 的样本，求θ的最大似然估计. 解：由已知X 概率函数为10(,)=0x p x θθθ⎧<≤⎪⎨⎪⎩，，其它（θ＞0）设n x x x ,,,21 为取自X 的样本则，()11,0<()=;0,ni ni i x L f x θθθθ=⎧≤⎪=⎨⎪⎩∏其它⎪⎩⎪⎨⎧≤≤<=≤≤≤≤其它,0}{}{min 0111θθi ni i ni n x man x ，由于(,)p x θ与θ有关，不存在易解的似然方程，我们由定义，找)(θL 的最大值点，由)(θL 的表达式，θ越小nL θθ1)(=就越大因)(}{max n i L x x =≥θ，所以)(n x =θ时)(θL 达极大. 最大似然估计的不变性性质如果θˆ是θ的最大似然估计，则对任一函数)(θg ，)ˆ(θg 是)(θg 的最大似然估计. 注上述性质称为最大似然估计的不变性，从而使求复杂结构的参数的最大似然估计变得容易，具体应用略.例6.1.9 对正态总体),(2σμN ，),(2σμθ=是二维参数, n x x x ,,,21 为其样本，已知2,σμ的最大似然估计：11ˆn i i X x n μ===∑，222*11ˆ(-)n i i x x s n σ===∑，有最大似然估计的不变性可得标准差σ的MLE 为2*ˆs σ=，概率3-(<3)=()P X μσΦ的MLE 为*3-()xsΦ，总体0.90分位数0.900.90=+x u μσ⋅的MLE 为*0.90+x s u ⋅.§6．2点估计的评价标准教学目的：要求学生了解相合性、无偏性、有效性和均方误差的基本思想，理解相合性、无偏性、有效性和均方误差的基本概念，熟练掌握相合性、无偏性和有效性的判别方法.教学重点：相合估计、无偏估计和有效性.教学难点：如何确定相合估计、无偏估计和有效性.教学内容：本节内容包括相合性，无偏性，有效性和均方误差.我们已经看到，点估计有各种不同的求法，为了在不同的点估计间进行比较选择，就必须对各种点估计的好坏给出评价标准.数理统计中给出了众多的估计量评价标准，对同一估计量使用不同的评价标准可能会得到完全不同的结论，因此，在评价某一个估计好坏时，首先要说明是在哪一个标准下，否则所论好坏则毫无意义.但不管怎么说，有一个基本标准是所有的估计都应该满足的，它是衡量估计是否可行的必要条件，这就是估计的相合性.6.2.1 相合性定义6.2.1 设Θ∈θ为未知参数，),,,(ˆˆ21nn n x x x θθ=是θ的一个估计量，n 是样本容量，若对任一0>ε 有0)ˆ(lim =>-∞→εθθnn P 即),,,(ˆˆ21n n n x x x θθ=依概率收敛于θ，则称),,,(ˆˆ21nn n x x x θθ=为θ的相合估计. 相合性被认为是对估计的一个最基本要求，如果一个估计量在样本量不断增大时，它都不能把被估参数估计到任意指定的精度，那么这个估计是很值得怀疑的，通常，不满足相合性要求的估计一般不予考虑.注证明估计的相合性一般可应用大数定律或直接用定义来证，有时借助于依概率收敛的性质.例6.2.1设n x x x ,,,21 是来自正态总体),(2σμN 的样本，则由辛钦大数定律及依概率收敛的性质知：x 是μ的相合估计，*2s 是2σ的相合估计，2s 也是2σ的相合估计.相合性的判别定理定理6.2.1 设),,,(ˆˆ21nn n x x x θθ=是θ的一个估计量，若 0ˆlim ,ˆlim ==∞→∞→nn n n Var E θθθ 则),,,(ˆˆ21nn n x x x θθ=是θ的相合估计. 证明由切比雪夫不等式知：0>∀ε有22)ˆ()ˆ(εθθεθθ-≤≥-nnE P222ˆ2ˆ)ˆ(θθθθθθ+-=-）（）（n n n E E E 22ˆ2)ˆˆθθθθθ+-+=）（（）（n n n E E Var=-∴∞→2)ˆ(lim θθn n E ]ˆ2)ˆ(ˆ[lim 22θθθθθ+-+∞→nn n n E E Var 02022=+⨯-+=θθθθ 所以 0)ˆ(lim )ˆ(lim 022=-≤≥-≤∞→∞→εθθεθθn n n n E P 所以0)ˆ(lim =≥-∞→εθθnn P .例 6.2.2 设n x x x ,,,21 是均匀分布),0(~θU X 的样本，证明：θ的最大似然估计)(ˆn x =θ是θ的相合估计. 分析直接验证定理6.2.1的条件.证明略.定理 6.2.2 若nk n n θθθˆ,,ˆ,ˆ21 分别是k θθ,,1 的相合估计，),,(1k g θθη =是k θθ,,1 的连续函数，则)ˆ,,ˆ(ˆ1nkn n g θθη =是),,(1k g θθη =的相合估计，证明略.例 6.2.3 设一个试验有三种可能结果，其发生概率分别为23221)1(),1(2,θθθθ-=-==p p p ，现做了n 次实验，观测到三种结果发生的次数分别是321,,n n n ，n n n n =++321证明：n n 11ˆ=θ，,1ˆ32n n -=θnn n 2ˆ213+=θ均是θ的相合估计.分析直接验证定理6.2.2的条件. 证明略.6.2.2 无偏性定义6.2.2 ),,,(ˆˆ21nx x x θθ=是θ的一个估计，Θ∈θ，若对Θ∈∀θ，有θθ=ˆE ，则称),,,(ˆˆ21nx x x θθ=是θ的无偏估计，否则称为有偏估计. 注相合性是大样本所具有的性质，而无偏性对一切样本均可以用.无偏性可以改写成0)ˆ(=-θθE ，这表明无偏估计没有系统偏差，当我们使用),,,(ˆˆ21n x x x θθ=估计θ时，由于样本的随机性，),,,(ˆˆ21nx x x θθ=与θ总是有偏差的，这种偏差时而正，时而负，时而大，时而小，无偏性表示，把这些偏差平均起来其值为零，这就是无偏性的含义.例6.2.4 对任一总体而言，当总体的k 阶矩k μ存在时，样本的k 阶原点矩k a 是总体的k 阶矩k μ的无偏估计.当总体的2阶矩存在时，样本方差∑=--=ni i x x n S 122)(11是总体方差VarX 的无偏估计，但∑=-=ni i x x n S122*)(1不是总体方差VarX 的无偏估计. 注无偏性不具有不变性，即若),,,(ˆˆ21nx x x θθ=是θ的一个无偏估计，一般而言)ˆ(θg 不是)(θg 的无偏估计，除非)ˆ(θg 是θˆ的线性函数.例6.2.5 设正态总体~X ),(2σμN ，,n x x x ,,,21 为其样本，∑=--=ni i x x n S 122)(11是2σ的无偏估计，证明：2S S =不是σ的无偏估计.证明略.注（1）无偏估计可以不存在；（2）无偏估计可以不唯一；（3）无偏估计未必是一个好的估计.具体例子略.6.2.3 有效性参数的无偏估计可以有很多，如何在无偏估计中进行选择？直观的想法是希望该估计围绕在参数真值的波动越小越好，波动大小可用方差来衡量，因此人们常用无偏估计的方差的大小作为度量无偏估计优劣的标准，这就是有效性.定义6.2.3 设21ˆ,ˆθθ是θ的两个无偏估计，如果对任意的Θ∈θ，有 )ˆ()ˆ(21θθVar Var ≤ 且至少有一个Θ∈θ使得上述不等式严格成立，则称1ˆθ比2ˆθ有效.例 6.2.6 设n x x x ,,,21 为取自某总体的样本，记总体均值为μ，总体方差为2σ，则11ˆx =μ，x =2ˆμ都是μ的无偏估计，且1ˆμ比2ˆμ有效. 证明略.例 6.2.7 设n x x x ,,,21 为取自),0(~θU X 总体的样本，对θ的两个无偏估计)(211ˆ,2ˆn x nn x +==θθ，证明：1ˆθ比2ˆθ有效. 证明略.6.2.4 均方误差无偏估计是估计的一个优良性质，对无偏估计我们还可以通过其方差进行有效性的比较，然而不能由此认为：有偏估计一定是不好的估计，在有些场合，有偏估计比无偏估计更优，这就涉及如何对有偏估计进行评价.一般而言，在样本量一定时，评价一个点估计的好坏使用的度量指标总是点估计值),,,(ˆˆ21nx x x θθ=与参数真值θ的距离的函数，最常用的函数是距离的平方.由于具有随机性，可以对该函数求期望，这就是下式给出的均方误差2)ˆ()ˆ(θθθ-=E MSE 简单的推导可得到2)ˆ()ˆ()ˆ(θθθθ-+=E Var MSE 若θθ=ˆE ，则)ˆ()ˆ(θθVar MSE =.当),,,(ˆˆ21n x x x θθ=不是θ的无偏估计时，对均方误差)ˆ(θMSE ，不仅要看其方差的大小，还要看偏差大小.在均方误差的标准下，有些有偏估计优于无偏估计.例 6.2.8 设n x x x ,,,21 为取自),0(~θU X 总体的样本，在均方误差的标准下，)(012ˆn x n n ++=θ是θ的有偏估计，但)(012ˆn x n n ++=θ要优于)(11ˆn x nn +=θ这个无偏估计. 证明略.§6.3 最小方差无偏估计教学目的：要求学生了解最小方差无偏估计的基本思想，理解最小方差无偏估计的基本概念，能用零无偏估计法判别最小方差无偏估计.能计算总体分布的Fisher 信息量和待估参数的C-R 下界，能用C-R 不等式判别有效估计.掌握最大似然估计相合渐近正态性.教学重点：最小方差无偏估计、C-R 不等式.教学难点：零无偏估计法判断最小方差无偏估计和C-R 不等式.教学内容：本节内容包括：Rao-Blackwell 定理，最小方差无偏估计，Cramer-Rao 不等式.6.3.1 Rao-Blackwell 定理定理6.3.1 （Rao-Blackwell 定理）设X 和Y 是两个随机变量，(X)=,(X)>0E Var μ，我们用条件期望构造一个新的随机变量()Y ϕ，其定义为()=E(X|Y=y)Y ϕ，则有(())=,Var((Y))Var(X)E Y ϕμϕ≤.其中等号成立的充分必要条件是X 和()Y ϕ 几乎处处相等. 将定理6.3.1应用到参数估计问题中可得定理 6.3.2 设总体概率密度函数是(;)p x θ，12,,,n x x x 是其样本，12=(,,,)n T T x x x 是θ的充分统计量，则对θ的任一无偏估计^^12=(,,,)n x x x θθ，令~^=(|)E T θθ，则~θ也是θ的无偏估计，且~^Var()Var()θθ≤. 6．3.2 最小方差无偏估计定义6.3.1 对参数估计问题，设^θ是θ的无偏估计，若对θ的任一个无偏估计量~θ，在参数空间Θ上都有~~()()Var Var θθθθ≤则称^θ为θ的一致最小方差无偏估计，简记为UMVUE.如果UMVUE 存在，则它一定是充分统计量的函数.一般来说，如果依赖充分统计量的无偏估计只有一个，则它就是UMVUE. 下面给出一个UMVUE 的判断准则.定理6.3.3 设12=(,,,)n X x x x 是来自某总体的一个样本，^^=)X θθ（是θ的一个无偏估计，^<+Var θ∞（），若对任意一个满足(()=0E X ϕ）的()X ϕ都有 ^(,)=0,Cov θθϕθ∀∈Θ，则^θ是θ的UMVUE.例6.3.26.3.3 Gramer-Rao 不等式定义6.3.2 设总体的概率函数(;),,p x θθ∈Θ满足下列条件：（1）参数空间Θ是直线上的一个开区；（2）支撑{:(;)>0}S x p x θ=与θ无关；（3）导数(;)p x θθ∂∂对一切,θ∈Θ都存在；（4）对(;),p x θ积分与微分运算可交换次序，即(;)(;)p x dx p x dx θθθθ+∞+∞-∞-∞∂∂=∂∂⎰⎰（5）期望2[ln (;)]E p x θθ∂∂存在.则称2()[ln (;)]I E p x θθθ∂=∂为总体分布的费希尔（Fisher ）信息量. 例6.3.3定理6.3.4 (Gramer-Rao 不等式) 设定义6.3.2的条件满足，12,,,n x x x 是来自该总体X 的一个样本，12=(,,,)n T T x x x 为()g θ的任一无偏估计，若'()()=g g θθθ∂∂存在，且对一切,θ∈Θ对11--=1()=,,);)nn i n i g T x x p dx dx θθ∞∞∞∞∏⎰⎰（（x 的微分可在积分号下进行，即'11--=1111--=1=1()=,,)(;))=,,)[ln ;)];))nn i ni nnn i i ni i g T x x p dx dx T x x p p dx dx dx θθθθθθ∞∞∞∞∞∞∞∞∂∂∂∂∏⎰⎰∏∏⎰⎰（（x （（x （x对离散总体，则将上述积分改为求和符号后，等式仍然成立，则有'2[()]()()g Var T nI θθ≥ （6.3.9）该式称为克拉美-罗（C-R ）不等式，'2[()]()g nI θθ称为()g θ的无偏估计的方差的C-R 下界，简称()g θ C-R 下界.特别，对θ的无偏估计^θ，有^1()()Var nI θθ≥.§6.4 贝叶斯估计教学目的：要求学生了解贝叶斯估计的相关内容. 教学重点：贝叶斯估计的思想和简单贝叶斯估计的计算.教学难点：贝叶斯估计的思想.教学内容：本节内容包括统计推断的基础，贝叶斯公式的密度函数形式，贝叶斯估计，共轭先验分布6.4.1 统计推断的基础统计推断是根据样本信息对总体分布或总体的特征数进行推断.统计推断用到两种信息：总体信息和样本信息，而贝叶斯学派则认为统计推断还用到第三种信息：先验信息. （1）总体信息总体信息即总体分布或总体所属分布族提供的信息. （2）样本信息样本信息即抽取样本所得观测值提供的信息.（3）先验信息先验信息就是抽样之前有关统计问题的一些信息.例6．4.1基于上述三种信息进行统计推断的统计学称为贝叶斯统计学.贝叶斯学派的基本观点是：任一未知量θ都可看作随机变量，可用一个概率分布去描述，这个分布称为先验分布.6.4.2 贝叶斯公式的密度函数形式（1）总体依赖于参数θ的概率函数在经典统计中记为(;)p x θ，它表示参数空间Θ中不同的θ对应不同的分布.在贝叶斯统计学中记为(|)p x θ，它表示在随机变量θ取某个给定值时总体的条件概率函数.（2）根据参数 θ的先验信息确定先验分布πθ（）. （3）从贝叶斯观点来看，样本的产生要分两步，首先设想从先验分布)(θπ产生一个样本0θ.第二步从)|(0θX p 中产生一组样本，这时样本),,(1n x x X =的联合条件概率函数为)|()|,()|(01010θθθi ni n x p x x p X p =∏== ，这个分布综合了总体信息和样本信息.(4) 由于0θ是设想出来的，故要用πθ（）进行综合，样本X 和参数θ的联合分布为)()|(),(θπθθX p X h =.(5)有了样本观察值),,(1n x x X =后，对),(θX h 作如下分解：)()|(),(X m X X h θπθ=，)(X m 是X 的边际概率函数：⎰⎰ΘΘ==θθπθθθd X p d X h X m )()|(),()(，⎰Θ==θθπθθπθθθπd X p X p X m X h X )()|()()|()(),()|(，称为θ的后验分布.6.4.3 贝叶斯估计由后验分布)|(X θπ估计θ有三种常用方法：（1）使用后验分布的密度函数最大值点作为θ的点估计的最大后验估计；（2）使用后验分布的中位数作为θ的点估计的后验中位数估计；（3）使用后验分布的均值作为θ的点估计的后验期望估计. 用的最多的是后验期望估计，一般简称贝叶斯估计，记为^B θ.例6.4.2 例6.4.36.4.4 共轭先验分布定义6.4.1 设θ是总体参数，)(θπ是其先验分布，若对任意的样本观测值得到的后验分布)|(X θπ与)(θπ属于同一分布族，则称该分布族是θ的共轭先验分布族。

统计学,刘照德06-1第六章参数估计

第一节点估计
点估计的求解方法主要有： • 矩估计法 • 最大似然估计法
第一节点估计
一、矩估计法
• 矩估计法是一种常用的估计方法，其基本思想是，用样本原点矩作为总体原点矩的估计。
第一节点估计
• 设k个参数 ( , , )，求 k个参数 ˆ (ˆ ,ˆ ,ˆ ) 矩估计需要建立k个方程，方法是：设总体的一个样本观测值是 (x , x ,, x ) ，其l阶原点 1 A x 矩，总体观测量X的l阶原点矩 n ml E( X l ) ml ( ) ，用样本原点矩Al作为总体原点矩ml的估计，得出k个方程Al =ml(θ )(l =1,…,k)，解此方程组得出的即为参数的矩估计。
对于给定的抽样方法，不同的抽样，就有不同的 ˆ , ˆ) 估计区间 ( 1 2
在用同样方法构造的总体参数的多个估计区间中，包含总体参数真值的区间所占的比例称为置信水平，表示为 (1 - 。 2.为是未包含总体参数的区间所占的比例。 •
3. 常用的置信水平值有 99%, 95%, 90%
第一节点估计??????????222221???xexdxemxem??????2221??????aa??????21221??aaa????????????????niiniixxnxxnx12122211?????二最大似然估计法?最大似然方法的基本思想是固定样本观测值在可能的取值中挑选使似然函数达到最大从而概率p达到最大的作为参数的估计
1 2
ˆ) P(
ˆ 的抽样分布 1
B A
ˆ2 的抽样分布
ˆ

第一节点估计
• 3．一致性依设为的一个估计量，若当 n 时，，则称为的一致估计量。此即概率收敛于随着样本容量n的增大，点估计量越来越接近被估总体参数。

(整理)6极大似然估计.

第1章极大似然估计极大似然估计是非线性模型中非常重要的一种估计方法。

最小二乘法是极大似然估计在线性模型中的特例。

1.1 似然函数假设随机变量x t 的概率密度函数为 f (x t )，其参数用θ= (θ1, θ2, …, θk ) 表示，则对于一组固定的参数 θ 来说，x t 的每一个值都与一定的概率相联系。

即给定参数θ，随机变量x t 的概率密度函数为f (x t )。

相反若参数 θ 未知，当得到观测值x t 后，把概率密度函数看作给定x t 的参数 θ 的函数，这即是似然函数。

L (θ | x t ) = f (x t | θ )似然函数L (θ | x t ) 与概率密度函数f (x t | θ ) 的表达形式相同。

所不同的是在f (x t | θ ) 中参数 θ 是已知的，x t 是未知的；而在L (θ | x t ) 中x t 是已知的观测值，参数 θ是未知的。

存在N 个独立的观测值x =(x 1, x 2, …, x n )。

x i 的似然函数为221/22()1(,|)(|,)exp (2)2i i i i x L x f x μμσμσπσσ⎛⎫-==-⎪⎝⎭=1i x μφσσ-⎛⎫- ⎪⎝⎭其中，φ表示标准正态分布的概率密度函数，2()2x x φ⎛⎫=- ⎪⎝⎭x i 的对数似然函数为：21(,|)ln()ln ()2i i i x LnL x μμσσφσ-⎛⎫=-+ ⎪⎝⎭其中，21ln ()ln(2)22x x φπ=--(x 1, x 2, …, x n )的联合似然函数为21(,|)ln()ln ()2n i i x n LnL μμσσφσ=-⎛⎫=-+ ⎪⎝⎭∑x=2221()ln()ln(2)222n i i x n n μσπσ=----∑ 例 1.2 泊松分布的对数似然函数假设每5分钟到达商店的顾客的数目服从Poisson 分布，有N 个样本观测值(x 1, x 2, …, x N )。

第六章极大似然估计与空间过程模型

y .W . y
(6.1)
其中 W 是通常的空间权重矩阵，是一个空间自回归系数，y 是偏离的平均数，是独立同分布的误差项，虽然这个模型非常简单，它抓住了一个空间滞后因变量的 OLS 估计存在的一切影响，因此在应用时也不失一般性。用 r 来记的 OLS 估计：
r yL ' yL yL ' y
用 y L =Wy 作为空间滞后因变量，把人口参数 y 带入（6.1）和（6.2），得：
1
(6.2)
r yL ' yL yL '
类似于时间序列Biblioteka 二阶期望值不为零，所以 OLS 估计是有偏的。渐近一致的 OLS 估计依赖于以下两个条件： plim N
1
1
( y L ' y L )=Q，是一个有限的非奇异矩阵；
1/ 2 AB 0
(6.17)
在特殊条件下得到满足：
I W1 0 I W2 0
hi z 0, i
(6.18) (6.19) （6.20）
约束（6.20）是随机系数模型中比较熟悉的约束之一（另见第 9.4.1）。约束（6.1.8）和（6.1.9）使空间自回归系数可以采取的约束条件有效。对于标准化的权重矩阵来说这通常意味着该参数应小于 1。 6.2.4 普通模型极大似然估计的一阶条件。模型（6.13）的极大似然估计的一阶条件是通过对有关参数向量（6.15）的对数似然估计求偏导数而得到的。这涉及到一个乏味但浅显易懂的矩阵计算推导，这在附录 6.A 中有关于本章部分的一些详细的推导。一阶偏导数结果向量，向量的分数，假定为零，需要为参数值解决：
J det / y

第六章估计基本理论—参数估计

Cramer-Rao下界定义：任何一个无偏估计子方差的下界常叫做Cramer-Rao下界。
第六章估计基本理论—参数估计
8/58
第六章估计的基本理论—参数估计 6．1估计子的性能
主讲:刘颖 2009年秋
定理1.1：令 X（ x1,x2, ,xN)为一个样 fX 本 /是向量
X的条件密 ˆ是度的一个。无偏若估计子，且
即 ln fX|Kˆ
其K 中（）是的某个 x的不正包整含数。
主讲:刘颖 2009年秋
1．1估计子的性能令x(t)是一个与未知参数θ有关的随机信号，
x1,x2,,xN 是采样值，
θ的估计子记为 ˆg(x1,x2, ,xN )
其g中 (x1,x2, ,xN)是用来的估一计个样本函
1. 无偏性
无偏估计定义：若Eˆ,则 ˆ就是的一个无
否则就是有偏估计子。
参数估计：利用样本数据来估计待定的参数。参数估计方法：（1）点估计：需求一个估计子，它将给出待定参数的单个估计值，这个估计值叫点估计值。（2）区间估计：确定的是待定参数可能位于某个区间，这个区间叫做置信区间估值。
第六章估计基本理论—参数估计
3/58
第六章估计的基本理论—参数估计 6．1估计子的性能
主讲:刘颖 2009年秋
渐进无偏估计定义：
ˆ是的一个有l偏 ib m 估 ˆ0 ，计则 ˆ子是称，若
N
的渐进无偏估计子。
例题6.2 线性平稳过程的自相关函数的估计子为
R ˆ(m)1Nmx(n)x(nm)
Nn1 若假设观测数据 x(m)是独立的。判断它是否为无偏估计，若是有偏估计，再判断是否为渐进无偏估计。

第六章最大似然估计

第六章数理统计的基本概念一、基本教学要求与主要内容(一)教学要求1．理解总体、个体、简单随机样本和统计量的概念，掌握样本均值、样本方差及样本矩的计算。

2．了解分布、t分布和F分布的定义和性质，了解分位数的概念并会查表计算。

3．掌握正态总体的某些常用统计量的分布。

4．了解最大次序统计量和最小次序统计量的分布。

本章重点：统计量的概念及其分布。

(二)主要内容1．总体、个体我们把研究对象的全体称为总体(或母体)，把组成总体的每个成员称为个体。

在实际问题中，通常研究对象的某个或某几个数值指标，因而常把总体的数值指标称为总体。

设x为总体的某个数值指标，常称这个总体为总体X。

X的分布函数称为总体分布函数。

当X为离散型随机变量时，称X的概率函数为总体概率函数。

当X为连续型随机变量时，称X的密度函数为总体密度函数。

当X服从正态分布时，称总体X为正态总体。

正态总体有以下三种类型：(1)未知，但已知；(2)未知，但已知；(3)和均未知。

2．简单随机样本数理统计方法实质上是由局部来推断整体的方法，即通过一些个体的特征来推断总体的特征。

要作统计推断，首先要依照一定的规则抽取n个个体，然后对这些个体进行测试或观察得到一组数据，这一过程称为抽样。

由于抽样前无法知道得到的数据值，因而站在抽样前的立场上，设有可能得到的值为，n维随机向量()称为样本。

n称为样本容量。

(）称为样本观测值。

如果样本()满足（1）相互独立；(2) 服从相同的分布，即总体分布；则称()为简单随机样本。

简称样本。

设总体X的概率函数(密度函数)为，则样本（)的联合概率函数(联合密度函数为)3. 统计量完全由样本确定的量，是样本的函数。

即：设是来自总体X的一个样本，是一个n元函数，如果中不含任何总体的未知参数，则称为一个统计量，经过抽样后得到一组样本观测值，则称为统计量观测值或统计量值。

4. 常用统计量（1）样本均值：（2）样本方差：（3）样本标准差：它们的观察值分别为：这些观察值仍分别称为样本均值、样本方差和样本标准差。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

x
图 6.2、牛顿-拉夫森法
递推公式为，
10
xi+1
=
xi −
f (xi ) f ′(xi )
(6.12)
6.4 信息矩阵与无偏估计的最小方差
定义“信息矩阵”为对数似然函数的海赛矩阵之期望值（对
y 求期望）的负数，
I(θ)
≡
−
E
⎡⎢⎢⎣
∂
2
ln L(θ; ∂θ∂θ ′
y)
⎤⎥⎥⎦
(6.13)
11
−
∏n
L(θ; y1, ", yn ) = f (yi ; θ)
i=1
(6.1)
把似然函数取对数，将乘积形式转化为求和形式，
∑ ln L(θ; y1, ", yn ) =
n i=1
ln
f
(yi; θ)
(6.2)
“最大似然估计法”（Maximum Likelihood Estimation，
2
MLE）的思想是，给定样本取值后，该样本最有可能来自参数 θ 为何值的总体。即寻找 θˆ ML ，使得观测到样本数据的可能性最大，即最大化“对数似然函数”。
∑
n i=1
sˆisˆi′
来估计
I(θ)
，即
(∑ ) An var(θˆ ML ) =
n i=1
sˆisˆi′
−1
，其中 sˆi
≡
∂ ln
f
(yi ;θˆ ML ) ∂θ
为第
i
个观测值
对得分函数的贡献之估计值。此方法被称为“梯度向量外
积”（Outer Product of Gradients，OPG）或 BHHH 法。
权平均作为检验统计量，
∑ ∑ JB
≡
n 6
⎣⎢⎢⎡⎢⎜⎝⎜⎜⎛
1 nσˆ
3
n i=1
ei3
⎠⎞⎟⎟⎟2
+
1 4
⎝⎛⎜⎜⎜
1 nσˆ
4
e n 4
i=1 i
−
3⎠⎞⎟⎟⎟2
⎦⎥⎥⎤⎥
⎯d⎯→
χ2
(2)
27
LR
≡
−2
ln
⎢⎢⎣⎡⎢
L(βˆ R L(βˆ U
) )
⎥⎥⎦⎤⎥
=2⎢⎣⎡lnFra bibliotekL(βˆ U
)
−
ln
L(βˆ R
)⎥⎦⎤
⎯d⎯→
χ2
(K
)
(6.19)
3．拉格朗日乘子检验（Lagrange Multiplier Test，LM）：
考虑有约束条件的对数似然函数最大化问题，
mβax ln L(β) s.t. β = β0
教学用 PPT，《高级计量经济学及 Stata 应用》，陈强编著，高等教育出版社，© 2010 年
第 6 章最大似然估计法 6.1 最大似然估计法的定义假设{y1, ", yn} 为独立同分布，则样本数据的联合密度函数为 f (y1; θ) f (y2; θ)" f (yn; θ) 。
1
定义“似然函数”为，
=
0
(6.10)
8
求解 σ2 的 MLE 估计量为，
σˆM2 L
=
e′e n
≠ σˆO2LS
=
e′e n−K
≡
s2
(6.11)
6.3 最大似然估计的数值解
如果模型存在非线性，MLE 通常无解析解，而只能寻找数值解，比如“牛顿-拉夫森法”。
9
f (x)
(x0 , f (x0 ))
x*
0
x2
x1
x0
[I(θ)]−1
=
⎧⎪⎪⎪⎩⎪⎨−
E
⎣⎡⎢⎢
∂
2
ln L(θ; ∂θ ∂θ′
y)
⎤⎥⎥⎦⎫⎪⎪⎪⎭⎪⎬−1
(6.17)
第一种估计方法是，直接以 θˆML 替代 θ 可得，
An var
(θˆ ML
)
=
⎧⎪⎪⎨⎪⎪⎩−
E
⎡⎢⎢⎢⎣
∂
2
ln L(θˆ ML ∂θˆ ∂θˆ ′
;
(6.20)
22
引入拉格朗日乘子函数，
mβ,aλx ln L(β) − λ′(β −β0 )
(6.21)
LM 统计量为，
LM
≡
⎛⎜⎜⎜⎝⎜
∂
ln L(βˆ R ∂β
)
⎞⎠⎟⎟⎟⎟′
⎡⎢⎣I(βˆ R
)⎤⎥⎦−1
⎛⎝⎜⎜⎜⎜∂
ln L(βˆ R ∂β
)
⎞⎠⎟⎟⎟⎟
⎯d⎯→
χ2
(K
)
(6.22)
2
(X′X)−1 0
0 2σ 4
n⎞⎠⎟⎟⎟⎟
(6.16)
故 βˆ ML = βˆ OLS 均达到了无偏估计的最小方差。
命题：在高斯-马尔可夫定理中，如果加上扰动项为正态分布的假定，则 OLS 是“最佳无偏估计”（Best Unbiased
15
Estimator，BUE），而不仅仅是 BLUE。
∂
2
ln L(θ; ∂θ∂θ′
y)
表示的是对数似然函数在
θ
空间中的曲率
（curvature），取期望值之后的 I(θ) 即平均曲率。如果曲率
大，对数似然函数很陡峭，则较易根据样本分辨真实θ 的
位置；反之，如果曲率小，对数似然函数很平坦，则不易
根据样本判断真实θ 的位置，参见图 6.3。
12
ln L(θ; y)
20
其中，K 为约束条件的个数（即为解释变量的个数）。 2．似然比检验（Likelihood Ratio Test，LR）：
H0 Θ
图 6.4、无约束与有约束的参数空间
21
如果 H0 正确，则 ln L(βˆU )−ln L(βˆ R ) 不应该很大。在此例中，
βˆ R = β0 。LR 统计量为，
23
ln L(βˆU ) ln L(βˆR )
LR
LM ln L(β)
Wald
0
βˆ = β
βˆ
β
R
0
U
图 6.5、三类渐近等价的统计检验
24
6.8 准最大似然估计法
定义使用不正确的似然函数（ misspecified likelihood function）而得到的最大似然估计，如果仍然是真实参数的一致估计，则称为“准最大似然估计”（Quasi MLE，QMLE）或“伪最大似然估计”（Pseudo MLE）。
6.9 对正态分布假设的检验
25
最直观的方法是画图。可以把残差画成直方图，但直方图不连续。为了得到对密度函数的光滑估计，可以使用“核密度估计法”。
另一种画图方法是，将正态分布的分位数与残差的分位数画成散点图，即“分位数-分位数图”（Quantile-Quantile plot，QQ）。如果残差来自与正态分布，则该图上的散点应该集中在 45 度线附近。
MLE 估计量还具有“不变性”（invariance）的优点。利用 MLE 的不变性，可以大大简化计算。比如，对 (μ2 +σ2) 的 MLE 估计就是 (μˆM2 L + σˆM2 L ) 。
6.6 如何计算 MLE 的渐近协方差矩阵
17
最大似然估计量的渐近协方差矩阵为，
Avar(θˆ ML
)
=
26
严格的统计检验利用了正态分布的偏度与峰度性质。
对于残差{e1, ", en } ，其偏度与超额峰度的样本估计值分别
∑ 为
1 nσˆ 3
e n 3
i=1 i
与
⎛⎜⎜⎜⎝
1 nσˆ
4
∑n i=1
ei4
⎞⎠⎟⎟⎟
−
3
。较常用的“雅克-贝拉检验”
（Jarque and Bera, 1987，简记为 JB）使用它们的平方之加
6.5 最大似然法的大样本性质
在一定正则条件下，MLE 估计量拥有良好的大样本性质。
（1）一致性，即
plim
n→∞
θˆ
ML
=
θ
。
（2）渐近有效性，即渐近协方差矩阵 Avar(θˆ ML ) = n[I(θ)]−1，
在大样本下达到了克莱默-劳下限。
16
( ) （3）渐近正态，即 ( ) n θˆ ML −θ ⎯d⎯→ N 0, n[I(θ)]−1 ，可以近似地 ( ) 认为 θˆ ML ⎯d⎯→ N θ, [I(θ)]−1 。
y = Xβ +ε (6.6)
6
假设 ε | X ~ N (0, σ2In ) ，则被解释变量的条件分布为
y | X ~ N (Xβ, σ2In ) ，其条件概率密度函数为，
f
(y
|
X)
=
(2πσ 2
)−n
2
exp ⎨⎪⎪⎩⎧⎪−
1 2σ 2
(y
−
Xβ)′(y
−
Xβ )⎬⎪⎪⎭⎫⎪
本 x1 = 2 ，求对 μ 的最大似然估计。似然函数为
L(μ) =
1 2πσ 2
exp ⎧⎪⎪⎨⎪⎪⎩−(22−σ 2μ)2
⎫⎪⎪⎬⎪⎪⎭ 。似然函数在
μˆ
=
2
处取最大值。
μ=2
μ =5
5
图 6.1、选择参数使观测到样本的可能性最大
6.2 线性回归模型的最大似然法估计假设线性回归模型为，
max ln L(θ; y) θ∈Θ
(6.3)

第6 章最大似然估计法

合集下载

第六章-最大似然估计

高等教育自学考试概率论与数理统计期末自学复习重要知识点

第六章参数估计

概率论与数理统计教材第六章习题

概率论与数理统计-第6章-第2讲-最大似然估计法

系统辨识--第6章-极大似然估计

西北工业大学《概率论与数理统计》课件-第六章参数估计

概率论与数理统计第6章参数区间估计2,3节

最大似然估计计算公式

最大似然相位估计

吴赣昌编-概率论与数理统计-第6章(new)

6.1矩估计

概率论与数理统计(王明慈第二版)第6章参数区间估计2,3节

参数估计

统计学,刘照德06-1第六章参数估计

(整理)6极大似然估计.

第六章极大似然估计与空间过程模型

第六章估计基本理论—参数估计

第六章最大似然估计

文档推荐

最新文档

第6 章 最大似然估计法

合集下载

第六章-最大似然估计

高等教育自学考试 概率论与数理统计期末自学 复习重要知识点

第六章参数估计

概率论与数理统计教材第六章习题

概率论与数理统计-第6章-第2讲-最大似然估计法

系统辨识--第6章-极大似然估计

西北工业大学《概率论与数理统计》课件-第六章 参数估计

概率论与数理统计第6章参数区间估计2,3节

最大似然估计计算公式

最大似然相位估计

吴赣昌编-概率论与数理统计-第6章(new)

6.1矩估计

概率论与数理统计(王明慈第二版)第6章参数区间估计2,3节

参数估计

统计学,刘照德06-1第六章 参数估计

(整理)6极大似然估计.

第六章 极大似然估计与空间过程模型

第六章估计基本理论—参数估计

第六章最大似然估计

文档推荐

最新文档

第6 章最大似然估计法

高等教育自学考试概率论与数理统计期末自学复习重要知识点

西北工业大学《概率论与数理统计》课件-第六章参数估计

统计学,刘照德06-1第六章参数估计

第六章极大似然估计与空间过程模型