第6 章 最大似然估计法

  • 格式:pdf
  • 大小:182.84 KB
  • 文档页数:27

下载文档原格式

  / 27
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7
最优 σ2 。
在 第 一 步 , 选 择 β 使 得 ln L(β, σ2) 最 大 , 这 等 价 于 让 (y − Xβ)′(y − Xβ) 最小。
βˆ ML = βˆ OLS = (X′X)−1 X′y (6.9)
在第二步,对 σ2 求导,

n 2
1 σ2
+
1 2σ 4
e′e
6.9 对正态分布假设的检验
25
最直观的方法是画图。可以把残差画成直方图,但直方图 不连续。为了得到对密度函数的光滑估计,可以使用“核 密度估计法”。
另一种画图方法是,将正态分布的分位数与残差的分位数 画成散点图,即“分位数-分位数图”(Quantile-Quantile plot,QQ)。如果残差来自与正态分布,则该图上的散点 应该集中在 45 度线附近。
[I(θ)]−1
=
⎧⎪⎪⎪⎩⎪⎨−
E
⎣⎡⎢⎢

2
ln L(θ; ∂θ ∂θ′
y)
⎤⎥⎥⎦⎫⎪⎪⎪⎭⎪⎬−1
(6.17)
第 一 种 估 计 方 法 是 , 直 接 以 θˆML 替 代 θ 可 得 ,
An var
(θˆ ML
)
=
⎧⎪⎪⎨⎪⎪⎩−
E
⎡⎢⎢⎢⎣

2
ln L(θˆ ML ∂θˆ ∂θˆ ′
;
max ln L(θ; y) θ∈Θ
(6.3)
假设存在唯一内点解,则一阶条件为,
s(θ;
y)


ln
L(θ; ∂θ
y)
=
0
(6.4)
即对数似然函数的梯度向量 s(θ; y) 为 0 。该向量也被称为
3
“得分函数”或“得分向量”。
可将得分函数分解为,
∑ ∑ ∑ s(θ;
y)


ln
L(θ; ∂θ
y)

2
ln L(θ; ∂θ∂θ′
y)
表示的是对数似然函数在
θ
空间中的曲率
(curvature),取期望值之后的 I(θ) 即平均曲率。如果曲率
大,对数似然函数很陡峭,则较易根据样本分辨真实θ 的
位置;反之,如果曲率小,对数似然函数很平坦,则不易
根据样本判断真实θ 的位置,参见图 6.3。
12
ln L(θ; y)
19
6.7 三类渐近等价的统计检验
对于线性回归模型,检验原假设 H0 : β = β0 ,其中 βK×1 为未 知参数,β0 已知,共有 K 个约束。
1.沃尔德检验(Wald Test):如果 H0 正确,则 (βˆU −β0) 的绝 对值不应该很大。沃尔德统计量为,
W ≡ (βˆU −β0 )′ ⎡⎢⎣Var(βˆU )⎤⎥⎦−1 (βˆU −β0 ) ⎯d⎯→ χ2 (K ) (6.18)
教学用 PPT,《高级计量经济学及 Stata 应用》,陈强编著,高等教育出版社,© 2010 年
第 6 章 最大似然估计法 6.1 最大似然估计法的定义 假设{y1, ", yn} 为独立同分布,则样本数据的联合密度函数 为 f (y1; θ) f (y2; θ)" f (yn; θ) 。
1
定义“似然函数”为,
26
严格的统计检验利用了正态分布的偏度与峰度性质。
对于残差{e1, ", en } ,其偏度与超额峰度的样本估计值分别
∑ 为
1 nσˆ 3
e n 3
i=1 i

⎛⎜⎜⎜⎝
1 nσˆ
4
∑n i=1
ei4
⎞⎠⎟⎟⎟

3
。较常用的“雅克-贝拉检验”
(Jarque and Bera, 1987,简记为 JB)使用它们的平方之加
(6.7)
用假想值 β, σ2 来代替真实值 β, σ2 ,并取对数,
ln
L(β,
σ2 )
=

n 2
ln


n 2
ln
σ2

1 2σ 2
(y

Xβ)′(y

Xβ)
(6.8)
此最大化问题可分两步进行。第一步,在给定σ2 的情况下,
选择最优 β 。第二步,代入第一步中得到的最优 β ,选择
LR

−2
ln
⎢⎢⎣⎡⎢
L(βˆ R L(βˆ U
) )
⎥⎥⎦⎤⎥
=
2
⎢⎣⎡ln
L(βˆ U
)

ln
L(βˆ R
)⎥⎦⎤
⎯d⎯→
χ2
(K
)
(6.19)
3.拉格朗日乘子检验(Lagrange Multiplier Test,LM):
考虑有约束条件的对数似然函数最大化问题,
mβax ln L(β) s.t. β = β0
权平均作为检验统计量,
∑ ∑ JB

n 6
⎣⎢⎢⎡⎢⎜⎝⎜⎜⎛
1 nσˆ
3
n i=1
ei3
⎠⎞⎟⎟⎟2
+
1 4
⎝⎛⎜⎜⎜
1 nσˆ
4
e n 4
i=1 i

3⎠⎞⎟⎟⎟2
⎦⎥⎥⎤⎥
⎯d⎯→
χ2
(2)
27

n i=1
sˆisˆi′
来估计
I(θ)
,即
(∑ ) An var(θˆ ML ) =
n i=1
sˆisˆi′
−1
,其中 sˆi

∂ ln
f
(yi ;θˆ ML ) ∂θ
为第
i
个观测值
对得分函数的贡献之估计值。此方法被称为“梯度向量外
积”(Outer Product of Gradients,OPG)或 BHHH 法。
y = Xβ +ε (6.6)
6
假 设 ε | X ~ N (0, σ2In ) , 则 被 解 释 变 量 的 条 件 分 布 为
y | X ~ N (Xβ, σ2In ) ,其条件概率密度函数为,
f
(y
|
X)
=
(2πσ 2
)−n
2
exp ⎨⎪⎪⎩⎧⎪−
1 2σ 2
(y

Xβ)′(y

Xβ )⎬⎪⎪⎭⎫⎪
y
)
⎤⎥⎥⎥⎦⎫⎪⎪⎬⎪⎪⎭−1

第二种方法是,将期望算子忽略掉,即
18
An var(θˆ
ML
)
=
⎡⎢⎢⎢⎣−

2
ln L(θˆ ML ∂θˆ ∂θˆ ′
;
y
)
⎤⎥⎥⎥⎦−1
。此方法被称为“观测信息矩阵”
(Observed Information Matrix,OIM)法。
第三种方法利用信息矩阵等式,用
(6.20)
22
引入拉格朗日乘子函数,
mβ,aλx ln L(β) − λ′(β −β0 )
(6.21)
LM 统计量为,
LM

⎛⎜⎜⎜⎝⎜

ln L(βˆ R ∂β
)
⎞⎠⎟⎟⎟⎟′
⎡⎢⎣I(βˆ R
)⎤⎥⎦−1
⎛⎝⎜⎜⎜⎜∂
ln L(βˆ R ∂β
)
⎞⎠⎟⎟⎟⎟
⎯d⎯→
χ2
(K
)
(6.22)
(6.15)
统计学中的著名结论:假设θˆ 是对真实参数 θ 的任意无偏估 计,则在一定的正则条件下, θˆ 的方差不会小于[I(θ)]−1 ,即
14
Var(θˆ) ≥[I(θ)]−1。其中,[I(θ)]−1 被称为“克莱默-劳下限”。
在古典线性回归模型中,可以证明,
[
I(θ)]−1
=
⎛⎜⎜⎜⎜⎝σ
6.5 最大似然法的大样本性质
在一定正则条件下,MLE 估计量拥有良好的大样本性质。
(1)一致性,即
plim
n→∞
θˆ
ML
=
θ

(2)渐近有效性,即渐近协方差矩阵 Avar(θˆ ML ) = n[I(θ)]−1,
在大样本下达到了克莱默-劳下限。
16
( ) (3)渐近正态,即 ( ) n θˆ ML −θ ⎯d⎯→ N 0, n[I(θ)]−1 ,可以近似地 ( ) 认为 θˆ ML ⎯d⎯→ N θ, [I(θ)]−1 。
本 x1 = 2 , 求 对 μ 的 最 大 似 然 估 计 。 似 然 函 数 为
L(μ) =
1 2πσ 2
exp ⎧⎪⎪⎨⎪⎪⎩−(22−σ 2μ)2
⎫⎪⎪⎬⎪⎪⎭ 。似然函数在
μˆ
=
2
处取最大值。
μ=2
μ =5
5
图 6.1、选择参数使观测到样本的可能性最大
6.2 线性回归模型的最大似然法估计 假设线性回归模型为,
(6.14)
13
即“信息矩阵等式”。由此,可以证明信息矩阵 I(θ) 就是得
分函数的方差,
Var[s(θ; y)]= E ⎡⎣s(θ; y)s(θ; y)′⎦⎤ − E [ s (θ ; y )
]E [ s (θ ; y )
]′
=0
=0
= E ⎡⎣s(θ; y)s(θ; y)′⎤⎦
= I(θ)
20
其中,K 为约束条件的个数(即为解释变量的个数)。 2.似然比检验(Likelihood Ratio Test,LR):
H0 Θ
图 6.4、无约束与有约束的参数空间
21
如果 H0 正确,则 ln L(βˆU )−ln L(βˆ R ) 不应该很大。在此例中,
βˆ R = β0 。LR 统计量为,
x
图 6.2、牛顿-拉夫森法
递推公式为,
10
xi+1
=
xi −
f (xi ) f ′(xi )
(6.12)
6.4 信息矩阵与无偏估计的最小方差
定义“信息矩阵”为对数似然函数的海赛矩阵之期望值(对
y 求期望)的负数,
I(θ)


E
⎡⎢⎢⎣

2
ln L(θ; ∂θ∂θ ′
y)
⎤⎥⎥⎦
(6.13)
11

=
0
(6.10)
8
求解 σ2 的 MLE 估计量为,
σˆM2 L
=
e′e n
≠ σˆO2LS
=
e′e n−K

s2
(6.11)
6.3 最大似然估计的数值解
如果模型存在非线性,MLE 通常无解析解,而只能寻找数 值解,比如“牛顿-拉夫森法”。
9
f (x)
(x0 , f (x0 ))
x*
0
x2
x1
x0
2
(X′X)−1 0
0 2σ 4
n⎞⎠⎟⎟⎟⎟
(6.16)
故 βˆ ML = βˆ OLS 均达到了无偏估计的最小方差。
命题:在高斯-马尔可夫定理中,如果加上扰动项为正态 分布的假定,则 OLS 是“最佳无偏估计”(Best Unbiased
15
Estimator,BUE),而不仅仅是 BLUE。
23
ln L(βˆU ) ln L(βˆR )
LR
LM ln L(β)
W源自文库ld
0
βˆ = β
βˆ
β
R
0
U
图 6.5、三类渐近等价的统计检验
24
6.8 准最大似然估计法
定 义 使 用 不 正 确 的 似 然 函 数 ( misspecified likelihood function)而得到的最大似然估计,如果仍然是真实参数的 一致估计,则称为“准最大似然估计”(Quasi MLE,QMLE) 或“伪最大似然估计”(Pseudo MLE)。
θˆ ML
θˆ ML
θ
图 6.3、平坦(左)与陡峭(右)的对数似然函数
由于信息矩阵涉及到二阶偏导数,常将其表达为一阶偏导
数的乘积形式,
I(θ)


E
⎢⎢⎡⎣
∂2
ln L(θ; ∂θ∂θ′
y)
⎥⎥⎤⎦
=
E
⎢⎢⎡⎣

ln
L(θ; ∂θ
y)

ln L(θ; ∂θ′
y)
⎥⎥⎤⎦
=
E
⎡⎣s(θ;
y)s(θ;
y )′⎤⎦
=

(6.5) n
i=1
ln
f
(yi; θ)
∂θ
=
n i=1
∂ ln
f (yi; θ) ∂v

n i=1
si (θ; yi )
二阶条件要求,对数似然函数的海赛矩阵
∂2
ln L(θ; ∂θ ∂θ′
y)


⎛⎜⎜⎜⎝

ln L(θ;
∂θ ∂θ′
y ) ⎞⎠⎟⎟⎟
为负定矩阵。
4
例 假设 X ~ N(μ, σ2) ,σ2 已知。得到一个样本容量为 1 的样
MLE 估计量还具有“不变性”(invariance)的优点。利用 MLE 的不变性,可以大大简化计算。比如,对 (μ2 +σ2) 的 MLE 估计就是 (μˆM2 L + σˆM2 L ) 。
6.6 如何计算 MLE 的渐近协方差矩阵
17
最大似然估计量的渐近协方差矩阵为,
Avar(θˆ ML
)
=
∏n
L(θ; y1, ", yn ) = f (yi ; θ)
i=1
(6.1)
把似然函数取对数,将乘积形式转化为求和形式,
∑ ln L(θ; y1, ", yn ) =
n i=1
ln
f
(yi; θ)
(6.2)
“最大似然估计法”(Maximum Likelihood Estimation,
2
MLE)的思想是,给定样本取值后,该样本最有可能来自 参数 θ 为何值的总体。即寻找 θˆ ML ,使得观测到样本数据的 可能性最大,即最大化“对数似然函数”。