当前位置:文档之家› 3.2.4贝叶斯估计

3.2.4贝叶斯估计

3.2.4贝叶斯估计
3.2.4贝叶斯估计

四.贝叶斯估计

1.贝叶斯点估计

定义3.6 设总体X 的分布函数为(,)F x θ,θ为随机变量,()πθ为θ的先验分布。

若在决策空间D 中存在一个决策函

数)(*X d ,使得对决策空间D 中任一决策函数)(X d ,均有 (*)inf (),d

R d R d d =?∈D (下确界)

则称)(*X d 为参数θ的贝叶斯估计量。

由定义可见,贝叶斯估计量)(*X d 就是贝叶斯风险

)(d R 达到最小的决策函数。

注意,贝叶斯估计量依赖于先验分布()πθ,即对于不同的()πθ,θ的贝叶斯估计量是不同的,在常用损失函数下,贝叶斯估计有如下几个结论。

定理3.2 若给定θ的先验分布()πθ和平方损失函数

()2

(,)L θd θd =?

则θ的贝叶斯估计是 ()Θ()|()d x E θX x θh θx d θ===∫ 其中)(x h θ为参数θ的后验密度。

证明 由于

[]

{}

2

Θ()()

()()min χ

R d m x θd x h θx d θdx =?=∫∫

与[]2

Θ()()min .θd x h θx d θa s ?=∫(几乎处处)

是等价的。而

[]2

Θ

()()θd x h θx d θ?∫

2

Θ()()()()θE θx E θx d x h θx d θ??=?+??

?∫ 22

ΘΘΘ()()()()()2()()()(),θE θx h θx d θE θx d x h θx d θθE θx E θx d x h θx d θ????=?+?????????+???

???∫∫∫

其中 ()()||.E x h x d Θ=∫θθθθ

又 Θ()()()()θE θx E θx d x h θx d θ??????????∫

Θ()()()()E θx d x θE θx h θx d θ????=??????∫

,0)]()()][()([=??=x E x E x d x E θθθ

故 []Θ()()θd x h θx d θ?∫

2

2

ΘΘ()()()()()θE θx h θx d θE θx d x h θx d θ????=?+??

???∫∫ 显然,当()()d x E x θ= .a s 时,)(d R 达到最小。 定理3.3 设θ的先验分布为)(θπ,取损失函数为加权平方损失函数 ()2

(,)()L θd λθd θ=? 则θ的贝叶斯估计为[()]

*()[()]

E λθθx d x E λθx ?=

,这里略去不证。

定理3.4 设参数θ为随机向量,()1,,T

p θθθ=",对给定的先验分布)(θπ和二次损失函数

(,)()()T L θd d θQ d θ=??

其中Q 为正定矩阵,则θ的贝叶斯估计为后验分布)

(x h θ的均值向量,即 1()()*()()p E θx E θx d x E θx ??

==????

#

这个结论表明,在正定二次损失下,θ的贝叶斯估计不受正定矩阵Q 的选取的干扰,这一特性常被称为θ的贝叶斯估计关于Q 是稳健的。

证明 在二次损失下,任一个决策函数向量

()()

()

1(),,T

p d x d x d x ="的后验风险为(θ的条件期望)

()[()]T

E d θQ d θx ??

()[(*)(*)((*)(*))]T

E d d d θQ d d d θx =?+??+?

()()*(*)[*(*)]T T

d d Q d d E d θQ d θx =??+??

上述最后一个等式应有四项,但由于[(*)]0E d x θ?=,从而只有此结果。上式的第二项为常量,而第一项非负,故使上式最小仅需*()d d x =即可. 证毕.

定义 3.7 设)(x d d =为决策类D 中任一个决策函数,损失函数为))(,(x d L θ,则))(,(x d L θ对后验分布)(x h θ的数学期望称为后验风险,记为

))](,([)(x d L E x d R θ=

????

?=∑∫Θ为离散型变量。

当为连续型变量,

当θθθθθθθ,)())(,(,)()(,(i i i x h x d L d x h x d L

假如在D 中存在这样一个决策函数)(*x d ,使得

∈?=d x d R x d R d

),(inf )*( D.

则称)(*x d 为该统计决策问题在后验风险准则下的最优决策函数,或称为贝叶斯(后验型)决策函数。

在估计问题中,它又称为贝叶斯(后验型)估计。下面定理给出了贝叶斯决策函数*()d x 与贝叶斯后验型决策函数**()d x 的等价性。

定理3.5 对给定的统计决策问题(包括先验分布给定的情形)和决策函数类D ,当贝叶斯风险满足如下条件

∈?∞

,)(inf D.

则贝叶斯决策函数)(*x d 与贝叶斯后验型决策函数

)*(*x d 是等价的。

(即使后验风险最小的决策函数)*(*x d 同时也使贝叶斯风险最小。反之使贝叶斯风险最小的决策函数)(*x d 同时也使后验风险最小。)

定理3.6 设θ的先验分布为)(θπ,损失函数为绝对值损失 (,)L d d θθ=?

则θ的贝叶斯估计)(*x d 为后验分布)(x h θ的中位数。

证明* 略 设m 为)(x h θ的中位数,

又设)(x d d =为θ

的另一估计。为确定起见,先设m d >。由绝对损失函数的定义可得

??

?

??≥?<<+?≤?=?,,,),(2,,),(),(d m d d m d m m d m d L m L θθθθθθ

当d m <<θ时,上式中

m d d m d d m ?=+?≤+?)(2)(2θ。所以上式为

?

?

?>?≤?≤?,,,

,),(),(m m d m d m d L m L θθθθ 由中位数定义知21

)(≥≤x m P θ而2

1)(≤>x m P θ。由此可知后验风险的差为

()()[(,)(,)]R m x R d x E L θm L θd ?=? )()()()(x m P m d x m P d m >?+≤?≤θθ

.02/)(2/)(=?+?≤m d d m

于是对m d >有 )()(x d R x m R ≤

类似地,对m d <亦可证得上述不等式成立。这就表明后验分布中位数m 是使后验风险最小,故m 是θ的贝叶斯估计。

定理3.7 在线形损失函数

???>?≤?=.

),(,

),(),(10θθθθθd d d d d L k k

下,θ的贝叶斯估计)(*x d 为后验分布)(x h θ的k k k 1

01+上侧

分位数。

证明首先计算任一决策函数)(x d d =的后验风险

∫+∞

∞?=θθθd x h d L x d R )(),()(

∫∫∞

∞??+?=d d d x h d d x h d k k θθθθθθ)()()()(01

).)(()()()(001d x E d x h d k k k d

?+?+=∫∞?θθθθ

* 略利用积分号下求微分的法则,可得如下方程:

,0)()()

()(001=?+=∫∞?k k k d

d x h d d x d dR θθ

,)(0

10k k k d

d x h +=

∫∞?θθ

即 =+?

=∫∞

k k k d d x h 0101)(θθk k k 1

01+, 这表明d 是后验分布)(x h θ的

k k k 1

01+上侧分位数。

例3.11 设总体X 服从贝努利分布),1(p b ,

其中参数p 未知而p 在[0,1]上服从均匀分布,()12,,,T

n X X X "是来

自X 的样本。假定损失函数是二次损失函数

()2

(,)L p d p d =?,试求参数p 的贝叶斯估计及贝叶斯风

险。

解 由定理3.2知,当损失函数为二次损失函数时,欲求p 的贝叶斯估计需先求p 的后验分布

)(/)()()(x m p p x q x p h π=。

由于给定p ,X 的条件概率是()1()1x

x f x p p p ?=?所

以()12,,,T

n X X X "的条件概率是

()

()

1

1

11()11n

n

i

i

i i i i n

x x n x i x q x p p p p p ==??

=∑∑=?=?∏

而p 的先验概率密度为]1,0[,1)(∈=p p π,所以

()12,,,T

n X X X "与p 的联合密度为

()1

1(,)1n

n

i

i i i x n x f x p p p ==?

∑∑=?, ()12,,,T n X X X "的边缘分布是 ()

1

11

()1n

n

i

i i i x n x m x p

p dp ==?

∑∑=?∫1

1

(1,1)n n

i i i i x n x β===++?∑∑

1

1

()!()!/(1)!n

n

i i i i x n x n ===?+∑∑

最后两个等号成立是根据

()

1

1

10(,)1q p βp q x x dx ??=?∫ 和

(,)()()/(),(1)!p q p q p q n n β=ΓΓΓ+Γ+= 而得。

所以p 的后验分布为

()11111(,)

()()()!()!/(1)!

n

n

i

i

i i x n x n

n i i i i p p f x p h p x m x x n x n ==?

==∑∑?==???+∑∑???? ()

1

1

1

1

(1)!1()!()!

n

n

i

i i i x n x n

n

i i i i n p p x n x ==?

==∑+∑=

??∑∑

因此的贝叶斯估计是

1

0?()p

ph p x dp =∫ ()1

1

1

1

1

11!

(1)

()!()!

n

n

i i

i i x n x n

n

i i i i n p

p dp x n x ==+?

==∑

∑+=??∑∑∫

()1

11

1

1

1

(2)(1)

1!

()!()!(21)

n n

i i i i n

n

n

n

i i i i i i i i x n x n x n x x n x ======Γ+Γ?+∑∑+=

?

?Γ++?+∑∑∑∑

()1

1

1

1

1

[(1)!][()!]

1!

(2)!

()!()!

1.

2

n n

i i i i n

n

i i i i n

i i x n x n n x n x x n =====+?∑∑+=

?

+?∑∑+∑=

+

这个估计的贝叶斯风险为

()1

2

Θ

0??()(,)()R p E L p d p πp dp E p p dp ??==???∫∫ 1

2101

[]2

n

i

i x

E p dp n =+=?+∑∫ ∫??

????+?++∑==1

02

)2(1)2(11dp n i i E p n X n

而 ??

????+?+∑=p n X n i i E )2(112

=[]

2

12E

Y np p ?+?

其中1

n i i Y X ==∑服从二项分布(),B n p ,再把上式平方展开并分别求期望得

21(1(2))n

i i E x n p =+?+∑=2(1)(12)np p p ?+?

所以 ?()R p

[

]

∫?++?=1

2

)21()

2()1(1

dp p np p n []∫++?+?=

1

2

21)4()4(1

)

2(dp p n n p n

)2(61124341

)2(2+=???

??

?+?+?=

+n n n n 附带说明一点,对于p 的最大似然估计1

1?n

MLE i i p

x X n ===∑, 可求出其贝叶斯风险为1/6n 。

例3.12(略) 假设总体X 服从正态分布(),1N μ,其中参数μ是未知的,假定μ服从正态分布()0,1N ,并假设12,,,n X X X "是来自该总体的样本。对于给定的损失函数()()2

,L μd μd =?,试求μ的贝叶斯估计量。

解 给定μ,()12,,,T

n X X X "的条件分布密度为

()21211

1(,,,)exp 2n n i n

i q x x x μx μ=??=

??????∑"

()12,,,T

n X X X "与μ的联合密度是

()

2211

21

1(,)exp (1)222n i n i f x μx n μμnx π+=????=

?++?????????∑

()12,,,T

n X X X "的边缘分布密度是

∫+∞

∞?=μμd x f x m ),()(

()∫∑∞

+∞?=+???????????

??++?=μμμπd x n n i n i x 2)1(21exp 1

21222 ()[]

∫∑∞∞

?=+???????+??

??????=

μμμπd x n n i n i n x 2)1(21exp 21exp 1

2

12212 ()()

??????+∑???????????????

?+??==1122

1

22

122121exp 1

n x n x n i n i n π 于是μ的后验分布密度是

12

2

(,)1

()exp ()

2121f x n h x m x n nx n ??

??+==???????

??+??

????

?+??

??μμμπ 所以μ

的贝叶斯估计为

2

1?()1111n i

i h x d d nx

n n nx n x μ

μμμμμ∞

?∞=??

??==????

==++???∫?+?∑ 若X 服从(),1N μ,μ服从()20,N k ,()2

(,)L μd μd =?则

μ的贝叶斯估计为 2

21?1n k i

i k x nk μ==∑+

贝叶斯风险为()2

2

?1k k B nk μ=+,请读者自行计算。

由上所述可知,构造贝叶斯估计量主要取决两点:参数的先验分布和损失函数。在满足一定的条件下,可以证明贝叶斯估计量具有一致性,渐近正态性和渐近有效性。

例3.13 设1(,,)T n X X X ="是来自均匀分布()0,U θ的一个样本,又设θ的先验分布为pareto 分布,其分布函数与密度函数分别为

()100001,,()/,α

ααθF θθθπθαθθθθθ+??

=?≥=≥????

其中01α<<和00θ>为已知。

该分布记为0(,)Pa αθ。θ的数学期望0()/(1)E θαθα=?。在上述假设下,样本X 与θ的联合分布为

100(,)/,0,1,2,,,,0ααn i f x θαθθx θi n θθ++=<<=<<"

设1120max(,,,,)n θx x x θ=",则样本X 的边缘分布为

1

00111(),0()αα

i αn αn

θαθαθg x d θx θθαn θ∞+++==<<+∫

由此可得的后验密度函数

111

()(,)(),()αn

αn αn θf x θh θx θθg x θ

++++==>

这仍是pareto 分布1(,)Pa αθ。

在绝对值损失下,θ的贝叶斯估计?B

θ是后验分布的中位数,即?B

θ是下列方程的解。 1

?1

1

()(|)()B

n

n n F x h x d d +++Θ

+==∫∫

αθ

αθαθθθθθθ=111,?2

αn

B θθ+???=

?

?????

解之可得 ?B θ112αn θ+=

若取平方损失函数,则θ的贝叶斯估计1

?B θ是后验均值,即 1

?B θ10max(,,,)1

n αn

x x θαn +=+?".

例 3.14 设1(,,)n X X X ="为取自Γ分布Γ(,)r θ的一个样本,其中r 已知。其期望r

EX θ

=与1θ?成正比。通常人们对1θ?有兴趣,现求1θ?的估计。为此取Γ分布Γ(,)αβ作为θ的先验分布。容易获得θ的后验分布。

1

(

)

1

(),0n

i i θx βαnr h θx θ

e

θ=?++?∑∝>

若取如下平方损失函数 2

1(,)L θd d θ?

?=????

?

则1θ?的贝叶斯估计为

11110

11

?()Γ()

αrn

n i i θx βαnr B

n x βi i θE θx θe

d θαnr θ

+=??

???+∞

????+???

??

+??

∑??=??∑

==+∫

1/1n i i x βαnr =??

=++?????

∑ 若取如下损失函数 2

21(,)L θd θd θ??

=????

? 这时1θ?的贝叶斯估计为

112

1

10

1

210

()?()

n i i n i i θx βαnr

θx βαnr θ

e

d θE θθx θE θx θ

e

d θ

==??

???+∞

??+??

????

???+∞

??++??

?==∑

∫∫

111?11n i i B

x βαnr θαnr αnr =???

+??+???=

=++++∑

2.贝叶斯估计的误差

设?θ

是θ的一个贝叶斯估计,评定?θ的误差最好而又简便的方法是用后验均方误差或其平方根来度量,具体定义如下:

定义3.8 设参数θ的后验分布为)(x h θ,

贝叶斯估计为?θ,则2)?(θθ?的后验期望 2)?()?(θθθθ?=E x x MSE

称为?θ

的后验均方误差. 而其平方根2

1

)]?([x MSE θ称为?θ

的后验标准误差,其中符号E x θ表示对条件分布)(x h θ求期望。

估计量?θ

的后验均方误差越小,贝叶斯估计的误差越小。 由于 ()

2

|??()θx

MSE θx E θθ=?θx E =?[θ?E θ?2?]E

θθ+? |θx E =?(E θ?2?)θ2|?[]θx E E θθ+?+|?2(θx E E θ?)θ??()E θθ? |θx E =?(E

θ?2?)θvar()θx + |?(θx E

E θ=2?)var()θθx ?+ 其中var()θx =2|?[]θx E

E θθ?,由于?()E θE θx =,故|?2(θx E E θ?)θ??()E

θθ?=0 当?θ为θ的后验期望?()E θE θx =,即?θ=?E

θ时,有 ()

2

|??()E θx E

MSE θx E θθ=?var()θx =

var()θx 称为后验方差,其平方根[]1

2

(|)Var θx 称为后验标

准差。

这表明,当?θ为后验均值?()E

θE θx =时,可使后验均方差达到最小,所以在实际中常常取后验均值作为θ的贝叶斯估计值。

贝叶斯估计与经典统计中估计量方差的区别: 贝叶斯估计:后验方差及后验均方差只依赖于样本X,不依赖于θ,故当样本给定后,它们都是确定的实数,立即可以应用。

经典统计:估计量的方差常常还依赖于被估参数θ,估计

量方差的计算有时还要涉及抽样分布(估计量的分布)。

寻求抽样分布在经典统计学中时常是一个困难的数学问题。如用样本方差估计正态总体方差。估计量方差的计算要涉及估计量的分布。

然而,在贝叶斯估计中从不涉及寻求抽样分布问题,这是因为贝叶斯估计只考虑出现的样本X,对未出现的样本不加考虑。

注意:在贝叶斯估计中不用无偏性来评价一个估计量的好坏。这是因为

1). 在无偏估计的定义中?()E θ

X =θ,其中1(,,)T n X X X ="为样本。这里,数学期望是对样本空间中

所有可能样本X 而求的。

但是在实际中绝大多数样本尚未出现过,甚至重复数百次也不会出现的样本也要在评价估计量中占一席之地,这是不合理的。

2).另一方面,在实际使用中不少估计量只使用一次或数次,所以贝叶斯学派认为,评价一个估计量的好坏只能依据在试验中所收集到的观察值,不应该使用尚未观察到的数据。这一观点被贝叶斯学派称为“条件观点”。

据此,估计的无偏性在贝叶斯估计中不予考虑。 3.区间估计

前面曾经提到,后验分布在贝叶斯统计中占有重要地位,当求得参数θ的后验分布()h θx 以后,我们可以计算θ落在某区间[a,b]内的后验概率()P a θb x ≤≤,当θ为连续型变量,且其后验概率为1(01)αα?<<时,我们有不等式 ()P a θb x ≤≤.1α?=

反之若给定概率1-α,要找一个区间[a,b],使上式成立,这样求得的区间称为θ的贝叶斯区间估计。又称为贝叶斯置信区间。

当θ为离散型随机变量时,

对给定的概率1-α,满足上式的区间不一定存在,这时只要略微放大上式左端概率,才能找到a 与b,使得 ()P a θb x ≤≤1.α>? 这样的区间[a,b],也称为θ的贝叶斯区间估计。下面给出参数θ的贝叶斯区间估计的一般定义。

定义 3.9 设参数θ的后验分布为)(x h θ,对给定的样本12(,,,)T n X X X X ="和概率)10(1<

统计量,??()L L θθX =和()??U U

θθX =,使得 ??()1,L U

P θθθx α≤≤≥?

则称区间??,L U θθ???

?为参数θ的置信度为1-α的贝叶斯置信区间,或称为θ的1-α可信区间。而满足下式的?L

θ称为θ的1-α(单侧)置信下限:

?()1,L

P θθx α≥≥? 满足下式的?U

θ称为θ的1-α(单侧)置信上限: ?()1,U

P θθx α≤≥? 由以上可看出,求参数θ的贝叶斯置信区间只要利用θ的后验分布,而不需要再去寻求另外的分布。

在经典统计学中寻求参数θ的置信区间有时是困难的,因为首先要设法构造一个函数(含有待估参数的随机变量),且使该函数的概率分布为已知,分布中不含任何未知参数,这是一项技术性很强的工作,不熟悉“抽样分布”的人是很难完成的,二者相比,贝叶斯置信区

间的寻求要简单得多。

例 3.15** 设12(,,,)T n X X X X ="是来自正态总体

2(,)N θσ的一个样本,其中2

σ

已知。取θ的先验分布为正态

分布2(,)N μτ,则θ的密度函数为

)2

(),,πθθμθ?=

??∞<<+∞??

其中μ与2τ为已知常数,由此可求得样本X 与θ的联合密度函数为

()22221221111(,)exp 22,2n i i f x θk n θn θx x θμθμστ=???????

?=??++?+??????????????

其中 (1)/2

1

11

2,n

n n

i

i x k π

τσx n

?+??===∑

。 若再记2

2

2200,,σσA στn

??==+

222

2201

,,n

i

i B x σμτC σ

x

μτ????==?+?=+∑ 则有

()2

1221

1(,)exp 221exp /,2f x θk A θθB C k θB A A ?????=??+????

??

?

?=???????

其中()2211exp /2k k C B A ??

=?

?????

。由此容易算得样本X 的边

缘分布为 1/2

22()(,)πg x f x θd θk A ∞

?∞

??

==??

??

因而θ的后验分布为

()1

2

2

/(,)()exp ,()22/θB A f x θA h θx g x πA ?????

??==???????????

这正好是正态分布211(,)N μσ的密度函数。其中

22222

001122

2200,.x σμτστB μσA στστ

????+===++

据此可知

1

1

θμσ?服从标准正态分布(0,1)N ,于是可得 ασμθα?=≤?1}|{|

2/1

1

u P 即 ασμθσμαα?=+≤≤?1}{12/112/1u u P

其中2/αu 为标准正态分布的上侧/2α分位数。故可得θ的1-α贝叶斯置信区间为 ],[12/112/1σμσμααu u +? 例 3.16 对某个儿童作智力测验,设测验结果

~(,100)X N θ,其中在心理学中定义为儿童的智商,根据

多次测验,可设θ服从正态分布(100,225)N ,应用例3.15的结论,当1=n 时,可得在给定X x =条件下,该儿童智商θ的后验分布服从正态分布211(,)N μσ,其中

11001002254009,10022513

x x

μ×++=

=+

()2

2110022590069.238.3210022513

σ×=

==+

若该儿童在一次智商测验中得=x 115,则可得其智商θ的后验分布为2(100.38,8.32)N ,于是有

/2/2110.38

()1,8.32

ααθP u u α??≤

≤=? 其中u 2/α为标准正态分布的上侧分位数。当给定0.05

α=

时,查正态分布数值表求得/2 1.96αu =,故有

(110.38 1.968.32110.38 1.968.32)

(94.07126.69)10.95

P θP θα?×≤≤+×=≤≤=?=

于是得θ的0.95的贝叶斯置信区间为[94.07,126.69]. 在本例中,若不利用先验信息,仅利用当前抽样信息, 则也可运用经典方法求出θ的置信区间。由于X 服从 正态分布(,100)N θ和115x x ==,可求得θ的0.95置信区 间为

[]/2/2,115 1.9610,115 1.9610ααx u σx u σ????+?=?×+×??

[]95.4,134.6.=

我们发现在上述问题中,置信度相同(均为0.95)但两个区间长度不同,贝叶斯置信区间的长度短一些(区间长度短时,估计的误差小),这是由于使用了先验分布之故。

第五章贝叶斯估计

第五章贝叶斯统计 5.1 简介 到目前为止,我们已经知道了大量的不同的概率模型,并且我们前面已经讨论了如何用它们去拟合数据等等。前面我们讨论了如何利用各种先验知识,计算MAP参数来估计θ=argmax p(θ|D)。同样的,对于某种特定的请况,我们讨论了如何计算后验的全概率p(θ|D)和后验的预测概率密度p(x|D)。当然在以后的章节我们会讨论一般请况下的算法。 5.2 总结后验分布 后验分布总结关于未知变量θ的一切数值。在这一部分,我们讨论简单的数,这些数是可以通过一个概率分布得到的,比如通过一个后验概率分布得到的数。与全面联接相比,这些统计汇总常常是比较容易理解和可视化。 5.2.1最大后验估计 通过计算后验的均值、中值、或者模型可以轻松地得到未知参数的点估计。在5.7节,我们将讨 论如何利用决策理论从这些模型中做出选择。典型的后验概率均值或者中值是估计真实值的恰当选择,并且后验边缘分布向量最适合离散数值。然而,由于简化了优化问题,算法更加高效,后验概率模型,又名最大后验概率估计成为最受欢迎的模型。另外,通过对先验知识的取对数来正 则化后,最大后验概率可能被非贝叶斯方法解释(详情参考6.5节)。 最大后验概率估计模型在计算方面该方法虽然很诱人,但是他有很多缺点,下面简答介绍一下。在这一章我们将更加全面的学习贝叶斯方法。 图5.1(a)由双峰演示得到的非典型分布的双峰分布,其中瘦高蓝色竖线代表均值,因为他接近 大概率,所以对分布有个比较好的概括。(b)由伽马绘图演示生成偏态分布,它与均值模型完全不同。 5.2.1.1 无法衡量不确定性 最大后验估计的最大的缺点是对后验分布的均值或者中值的任何点估计都不能够提供一个不确定性的衡量方法。在许多应用中,知道给定估计值的置信度非常重要。我们在5.22节将讨论给出后验估计置信度的衡量方法。 5.2.1.2 深耕最大后验估计可能产生过拟合

贝叶斯估计方法学习感想及看法

关于贝叶斯估计方法学习感想及看法 经过半学期的课程学习,终于在参数估计这部分内容的学习上有了个终结。参数估计方面的学习主要分了经典学派的理论和贝叶斯学派的理论。在参数估计上经典学派运用的是矩法和极大似然估计,贝叶斯学派用的当然就是Bayes 估计。经典学派的学习在本科学习比较多,而Bayes 方法对我来说算是个新知识,在此只对Bayes 统计方法做个小结,然而由于知识有限性,只能粗略地从讲义中对Bayes 估计总结点观点出来。 贝叶斯统计中除了运用经典学派的总体信息和样本信息外,还用到了先验信息,其中的两个基本概念是先验分布和后验分布。 1,先验分布,总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于总体分布参数总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。 2,后验分布。根据样本分布和未知参数的先验分布,可以用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及本分布。可以看出Bayes 统计模型的特点是将参数θ视为随机变量,并具有先验分布H(θ)。Bayes 统计学派与经典学派的分歧主要是在关于参数的 认识上的分歧,经典学派视经典学派视θ为未知常数;而Bayes 学派视θ为随机变量且具有先验分布为随机变量且具有先验分布。两个学派分歧的根源在于对于概率的理解。经典学派视概率为事件大量重复实验频率的稳定值;而Bayes 学派赞成主观概率,将事件的概率理解为认识主体对事件发生的相信程度。个人认为将θ视为随机变量且具有先验分布具有实际意义,这也算Bayes 学派在二百年时间不断发展的一个前提。 然后用数学计算的观点来看看Bayes 估计: 一切估计的目的是要对未知参数θ作统计推断。在没有样本信息时,我们只能依据先验分布对θ作出推断。在有了样本观察值1(,,)n X x x = 之后,我们应依据(,)h X θ对θ作出推断。若把(,)h X θ作如下分解: ()(,)|()h X X m X θπθ= 其中()m X 是X 的边际概率函数: ??ΘΘ ==,)()|(),()(θθπθθθd X p d X h X m 它与θ无关,或者说)(X m 中不含θ的任何信息因此能用来对θ作出推断的仅是条件分布)|(X θπ,它的计算公式是:)|(X θπ=(,)h X θ/()m X 。 贝叶斯统计学关键是首先要想方设法先去寻求θ的先验分布h (θ),先验分布的确定方法有客观法,主观概率法,同等无知原则,共轭分布方法,Jeffreys

对贝叶斯估计的理解

对贝叶斯定理及其在信号处理中的应用的理解 信号估计中的贝叶斯方法是对贝叶斯定理的应用,要理解贝叶斯估计首先要理解贝叶斯定理。 一、 贝叶斯定理: 1. 贝叶斯定理的简单推导过程 贝叶斯定理就是条件概率公式(贝叶斯公式),所谓条件概率就是在事件A 发生的条件下事件B 发生的概率,常用(/)P B A 表示。一般情况下(/)P B A 与 (/)P A B 是不相等的。容易得到: (/)P B A = ()()P A B P A ,(/)P A B =() () P A B P B 所以 (/)P B A ()P A =(/)P A B ()P B , 对上式变形得贝叶斯公式: (/) P A B =(/)() () P B A P A P B (1) 若',A A 为样本空间的一个划分,可得全概率公式: ()P B =''(/)()(/)()P B A P A P B A P A + 所以(1)式可以改写为: '' (/)() (/)(/)()(/)() P B A P A P A B P B A P A P B A P A = + (2) 如果12n A A A ,,...,为样本空间的一个划分,由(2)式可得条件概率(/)j P A B 1 (/)() (/)(/)() j j j n i i i P B A P A P A B P B A P A == ∑ (3) (3)式就是当样本空间的划分为n 时的贝叶斯公式即贝叶斯定理。我们把其中的()(1,...)i P A i n =称为先验概率,即在B 事件发生之前我们对i A 事件概率的一个判断。(/)j P A B 称为后验概率,即在B 事件发生之后我们对i A 事件概率的重新评估。 2. 贝叶斯公式的事件形式

贝叶斯参数估计

Bayesian Parameter Estimation (贝叶斯参数估计) 09009128 曹祥09009131 严富函 贝叶斯估计的基本原理 ?假设 ?将待估计的参数看作符合某种先验概率分布的随机变量 ?估计方式 ?通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度

1 引言 概率密度估计的两种基本方法: 参数估计(parametric methods) : 根据对问题的一般性的认识,假设随机变量服从 某种分布,分布函数的参数通过训练数据来估计。 如:ML 估计,Bayesian估计。 非参数估计(nonparametric methods): 不用模型,而只利用训练数据本身对概率密度做 估计。如:Parzen窗方法,k -近邻估计。 n

(Bayes,Thomas)(1702─1761) 贝叶斯是英国数学家.1702年生于伦敦;1761年4月17日 卒于坦布里奇韦尔斯. 贝叶斯是一位自学成才的数学家.曾助理宗教事务,后来长期担任坦布里奇韦尔斯地方教堂的牧师.1742年,贝叶斯被 选为英国皇家学会会员. 如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯统计等等.

贝叶斯统计学派把任意一个未知参数都看成随机变量,应用一个概率分布去描述它的未知状况,该分布称为先验分布。 后验信息 统计推断 贝叶斯定理 先验信息 样本信息

3.3 贝叶斯估计 ML 估计: 根据每一类的训练样本估计每一类的类条件概率密度。 Bayesian 估计: 同样根据每一类的训练样本估计每一类的类条件概率密度。但不再把参数看成是一个未知的确定变量,而是看成未知的随机变量。通过对第i 类样本的观察,使概率密度分布转化为后验概 再求贝叶斯估计。 θ

基于贝叶斯估计的信息融合方法研究

基于贝叶斯估计的信息融合方法研究 摘 要:为了有效融合多个传感器的测量数据,得到准确的融合结果,本文以置信距离测度作为数据融合的融合度,利用分位图法,通过置信距离矩阵、关系矩阵寻找多传感器的最佳融合数,并以Bayes 估计理论为基础得到多传感器最优融合数据,最后将它与其它方法得到的融合数据进行了比较。 关键词:Bayes 估计;信息融合;分位图;传感器 Study on Information Fusion MethodsBased on Bayes Estimation Abstract :For getting accurate fused data by fusing multi-sensor measurement data, in this PaPer,the confidence distance measure is used to be fusion measure of data fusion.The useful fused data are looked for by confidence distance matrix and relation matrix through using a method of bitmap.The optimal fused data is given by Bayes estimation theory, and optimal fused results obtained by other methods are compared with it. Key words :Bayes estimation; information fusion; bitmap; sensor 1 引言 信息融合是把来自多种或多个传感器的信息和数据进行综合处理,得到更为准确可靠的理论,从而减少在信息处理中可能出现的失误。一个系统中同时使用着多个信息采集传感器,它们既可以是同种类型的,也可以是不同类型的。在实际应用中不同的传感器所测得的同一物体的某特性参数的数据会有偏差。这种偏差一方面来自传感器本身的误差,另一方面来自数据处理过程的数学方法。必须对传感器所测得的数据进行判断,以决定数据是否可信。信息融合的关键是对各个传感器所得数据的真实性进行判别,找出不同传感器数据之间的相互关系,从而决定对哪些传感器的数据进行融合。数据融合的目的在于运用一定的准则和算法,借助现代科技成果,自动对来自各信源的数据呈报进行联合、变换、相关和合成,从中提取质量的战术情报,洞察战场威胁态势,为作战指挥决策提供可靠依据[1]。本文以置信距离测度作为数据融合的融合度,利用置信矩阵、关系矩阵得到多传感器的最佳融合数,以Bayes 估计理论[2,3]为基础得到多传感器最优融合数据。 2 置信距离测度和置信距离矩阵的确定 用多传感器测量同一个指标参数时,设第i 个传感器和第j 个传感器测得的数据为 i X ,j X 。i X ,j X 都服从Gauss 分布,以它们的pdf 曲线作为传感器的特性函数,记成()x f i ,()x f j 。i x ,j x 为i X ,j X 的一次观测值。为了反应观测值i x ,j x 之间偏差的大小,引进 置信距离测度ij d (i ,j =1,2,…,m),ij d 的值称为第i 个传感器与第j 个传感器数据的置信距离测度[4],ij d 的值越小,i ,j 2个传感器的观测值越相近,否则偏差就很大,因此ij d 也称为i ,j 2个传感器的融合度。设 ()A ==?22dx x x f d i x x i ij j i (1) ()B ==?22dx x x f d j x x j ji i j (2) 式中, ()?? ???????????? ??--=2 21exp 21i i i i i x x x x f σσπ (3)

3.2.4贝叶斯估计

四.贝叶斯估计 1.贝叶斯点估计 定义3.6 设总体X 的分布函数为(,)F x θ,θ为随机变量,()πθ为θ的先验分布。 若在决策空间D 中存在一个决策函 数)(*X d ,使得对决策空间D 中任一决策函数)(X d ,均有 (*)inf (),d R d R d d =?∈D (下确界) 则称)(*X d 为参数θ的贝叶斯估计量。 由定义可见,贝叶斯估计量)(*X d 就是贝叶斯风险 )(d R 达到最小的决策函数。 注意,贝叶斯估计量依赖于先验分布()πθ,即对于不同的()πθ,θ的贝叶斯估计量是不同的,在常用损失函数下,贝叶斯估计有如下几个结论。 定理3.2 若给定θ的先验分布()πθ和平方损失函数 ()2 (,)L θd θd =? 则θ的贝叶斯估计是 ()Θ()|()d x E θX x θh θx d θ===∫ 其中)(x h θ为参数θ的后验密度。 证明 由于 [] {} 2 Θ()() ()()min χ R d m x θd x h θx d θdx =?=∫∫ 与[]2 Θ()()min .θd x h θx d θa s ?=∫(几乎处处)

是等价的。而 []2 Θ ()()θd x h θx d θ?∫ 2 Θ()()()()θE θx E θx d x h θx d θ??=?+?? ?∫ 22 ΘΘΘ()()()()()2()()()(),θE θx h θx d θE θx d x h θx d θθE θx E θx d x h θx d θ????=?+?????????+??? ???∫∫∫ 其中 ()()||.E x h x d Θ=∫θθθθ 又 Θ()()()()θE θx E θx d x h θx d θ??????????∫ Θ()()()()E θx d x θE θx h θx d θ????=??????∫ ,0)]()()][()([=??=x E x E x d x E θθθ 故 []Θ()()θd x h θx d θ?∫ 2 2 ΘΘ()()()()()θE θx h θx d θE θx d x h θx d θ????=?+?? ???∫∫ 显然,当()()d x E x θ= .a s 时,)(d R 达到最小。 定理3.3 设θ的先验分布为)(θπ,取损失函数为加权平方损失函数 ()2 (,)()L θd λθd θ=? 则θ的贝叶斯估计为[()] *()[()] E λθθx d x E λθx ?= ,这里略去不证。 定理3.4 设参数θ为随机向量,()1,,T p θθθ=",对给定的先验分布)(θπ和二次损失函数 (,)()()T L θd d θQ d θ=??

贝叶斯估计

信号的参数估计一般指参数在观测时间内不随时间变化,故是静态估计。若被估计参量是随机过程或非随机的未知过称,则称为波形估计或状态估计,波形估计或状态估计是动态估计。 3.2贝叶斯估计 贝叶斯估计是基于后验概率分布(posterior distribution )的一类估计方法,其中后验概率分布中采用了先验信息(prior information )。所谓先验信息,是指已知待估计参数的概率密度函数0()p θ,不管θ是随机变变量或是未知的固定常数。而后验概率分布具有下面的形式, 00 ()(|)(),1 (|)()p c p X p c p X p d θθθθθθ*==?。 注意两点:1,0()p θ不必满足标准化条件,即0()1p d θθ=?,但是0()p θ必须是非负的,并且0102 ()( ) p p θθ代表似真比(ratio of plausibility ),若0102 ()( )1p p θθ>,则说明在1θ和2θ两个值之间我们更倾向于1θ为真值; 2,()p θ*实际上就是(|)p X θ,是通过试验得到数据X 以后θ的概率密度函数,仅当0()1p d θθ=?时有明确的含义。 下面讨论中,()p θ代表0()p θ,(|)p X θ代表()p θ*。 类似于信号检测中的问题,贝叶斯估计在参数估计中对于不同的估计结果赋予了不同的代价值,然后求解平均代价最小的情况。 估计误差为θθ-,我们只关心估计误差的代价,于是代价函数 ()() c c θθθ-=,是估计误差的单变量函数。典型的代价函数有三种: ⑴ 平方型 () 2()c θθθ=-,它强调了大误差的影响 ⑵ 绝对值 () c θθθ=-,给出了代价随估计误差成比例增长 ⑶ 均匀型 () 1 c θε θεθε >?=? ?-<< 这种代价函数给出了估计误差绝对值大于某个值时,代价等于常数,而估计误差绝对值小于某个值时,代价等于零。

贝叶斯估计对比于经典估计的优势分析与其局限性

贝叶斯估计对比于经典估计的优势分析与其局限性 经典估计和贝叶斯估计 经典估计理论是通过一个随机抽样过程,从总体中随机抽取一定数量的样本,再结合总体分布或总体分布族提供的的信息,推断出总体分布或总体特征,在整个推断过程中,使用到了总体信息和样本信息。 贝叶斯估计在推断总体的过程中,不仅使用到了总体信息和样本信息,还须要使用先验信息。贝叶斯学派认为,通过历史资料和经验总结出先验信息,可以使统计推断更为精确。 经典估计的局限性 经典估计理论包括两种形式的估计,即点估计与区间估计。 点估计就是将估计值表示成一个数值,通过验证其是否具有充分性、无偏性、一致性和有效性来判断估计的精确程度。在估计的过程中,通常需要的是充分统计量,它包含了所有有关参数的信息,而在实际研究中,我们如果像做题目一样假设我们抽样的统计量就是充分统计量,就显得太过于主观。用于衡量有效性的是估计量关于参数值的方差,方差越小,有效性越高,但是在抽样调查中,我们都知道样本容量越大的样本统计量的方差越小,这使得有效性的标准在某种程度上失效。 区间估计相较于点估计具有更高的精确度,通过明确样本的误差,做出更可靠的估计,只要参数落在在估计区间的概率能被人们接受就足够,这种概率被称为置信水平。但是置信水平是人们主观确立的,不同的置信水平得出的置信区间就不一样,而且存在一定的重叠,估计区间中也包含了错误值,使得基于频率主义区间估计也具有一定的局限性。 经典估计局限性还包括将先验信息排除在外,这不符合科学推理原则,因为我们在进行估计的时候往往是在特定的背景下进行,就像《数理统计》贝叶斯估计中例1说的那样,工厂的生产是具有连续性的,在估计当天的产品合格率时,除了进行抽样检测,也需要联系过去一段时间该产品的合格率,从而做出更合理的估计。例如通过查询得知过去一段时间的产品合格率为0.95,而在今天的抽样中得出产品的合格率为0.8,如果简单地认为今天产品的合格率为0.8,显然不能让人接受。 贝叶斯估计的优势 相较于经典估计的频率主义,贝叶斯估计坚持主观主义的概率解释,它的估计必须依赖于先验概率的分布,而先验分布是试验者对于在进行试验之前得到的资料的主观意见,虽然这种主观意见与科学的客观性存在一定的矛盾,但是在一定程度上弥补了经典估计不能应用于不可重复独立事件的概率问题。例如,如果要估计在一场比赛中甲乙双方的胜率,双方世界排名相当,采用经典估计的方法,认为两个人胜利的概率分别为0.5,但是利用贝叶斯估计,查询两个人比赛的历史记录,发现在近5场比赛中甲方赢了四场,则可以估计甲获胜的概率应该更大。 贝叶斯估计需要利用到似然原则,而就像上课提到的那个问题一样,抛12 次硬币有3次正面朝上的二项分布和抛硬币得到3次正面向上的试验次数为12 的负二项分布的似然函数是相似的,似然函数与试验的设计没有关系。贝叶斯估

相关主题
文本预览
相关文档 最新文档