第3章 概率密度函数

  • 格式:ppt
  • 大小:4.17 MB
  • 文档页数:64

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3) 总体的子样:一个模式类中某些模式(总体中的一些元素) 的集合称之这个总体的子样。 (4) 统计量:由样本构造的函数d(xi,…,xn ),即针对不同要求构造 出样本的某种函数。
(5) 经验分布:由样本推断的分布。
(6) 估计:由样本按某种规则构造的一个统计量
θ’=θ(x1,x2,…,xn),用θ’的值作为被估参数集θ的近似值。
返回本章首页
• • • • •
参数估计的基本概念 (1)统计量 (2)参数空间 (3)点估计、估计量和估计值 (4)区间估计
返回本章首页
名词解释
(1) 训练(学习):在p(wi)、p(x|wi)或p(wi|x)不知道或不完全 知道时,而根据样本来确定他们,这项工作成为训练或学习。
(2) 总体(母体):一个模式类。
R 表示采取决策 k 总的平均损失。 R称为Bayes风险, 使R 最小的决策 k 称为Bayes决策。
返回本章首页
c
E d j 1
Bayes决策 确定 x 的真实状态 (模式类) i Bayes估计 根据一个样本集 H x1 , x2 ,„,x,找出估 N 计量 ˆ ,估计 H 所属总体分布的某个真实参数 使带来 的Bayes风险最小

p ( H )d ˆ

p(

H )d 1
ˆ) p( H )d 0 ˆ p( H )d E[ H ] 2 (

返回本章首页
由于 R 是关于 ˆ 的二次函数, ˆ 确使 R (ˆ H ) 或 R 最 小。上式表明, 的最小方差Bayes估计是在观测 条 件下的 的条件期望。在许多情况下,最小方差Bayes 估计是最理想的Bayes最优估计器。 对平方误差损失函数情况求解Bayes估计量的步骤如下: (1)确定 的先验分布 p( ); (2)由样本集 H x1 , x2 ,„,xN 求出样本联合分布 p( H ) (3)求 的后验分布 p( H ) p( ) p( H ) p(H ) p( )d
返回本章首页
假定某一类样本集
H x1 , x2 ,„,xN
N
由于样本是独立抽取的
p( H ) p( x1 , x2 ,„, x N ) p( xk )
k 1
似然函数的定义 N 个随机变量 x1 , x2 ,„,xN的似然函数是 N个随机变 量的联合密度,这个密度可以看成是 的函数。具体的 说,若 x1 , x2 ,„,xN 是独立地抽自密度 p( xk ) 总体 的样本,那么似然函数就是
T ˆ ˆ ˆ) p( H )d R( H ) ( ) (

ˆ H) min R min R(
返回本章首页
ˆ H) min R(
ˆ H) R( ˆ

ˆ) p( H ) d 0 2 (


ˆ) p ( H ) d p ( H ) d ˆ p ( H )d (
返回本章首页
R
N N N

ˆ H ) p ( H )dH R( ˆ ) p( H ) d p( H )dH ( ˆ ) p( H ) p( H )d dH (
Bayes估计的基本思想:所求得的 的估计值 ˆ应使估计损失 ˆ H) 的期望最小,这种使 R 或等价地使 R ( 取最小值的 的估 ˆ ,可得到不 计值 ˆ 称为 的Bayes估计。对于 不同的 ( ) 同的最佳Bayes估计。 这里假定损失函数为平方误差,即
ˆ H ) ( ˆ ) p( H ) d R ( H x1 , x2 ,„, x N R ( i x ) ( i , j ) P( j x )
j 1 c

i 1, 2,, c
ˆ H) R ( 考虑到 H 的各种取值,我们应求 在空间 中的 期望 , N E d E d E d 。
(3) 当X的N个样本确定后,似然函数l(θ)只是θ的函数。
(4) 但若换一组样本,l(θ)的形式也会发生改变。即使l(θ)的值
最大的θ’是样本x1,x2,…,xN的函数,记为θ’=d(x1,x2,…,xN)(其称 为θ的最大似然估计量)。
• l(θ)的对数形式ln l(θ)(记为H(θ),称其为对数似然函数),使
Bayes决策问题 Bayes估计问题
样本 x
决策 i 真实状态 i 状态空间 是离散空间 先验概率 P (i )
样本集 H x1 , x2 ,„,xN
估计量 ˆ 真实参数 参数空间是连续空间 参数的先验分布 p( )
返回本章首页
ˆ ) ( 令 为 ˆ 代替 所造成的损失,对于一个观测矢 量集合 H x1 , x2 ,„,xN ,当用 ˆ 作为 的估计时,在 观测 H 条件下的条件期望损失为
j 1
c
i 1,2,, c
x 是特征空间 E d中取任意值的随机变量,条件风险的期 望
R R(i x ) p( x )d x (i , j ) P( j x ) p( x )d x
Ed E d j 1
c
(i , j ) P( x, j )d x
H ( ) 为对数似然函数
N
H ( ) ln p( x1 , x2 ,„,x N ) ln p( xk ) ln p( xk ) ˆ H ( ) ln p( xk ) 0
k 1 k 1 k 1
N
N
返回本章首页
在N个样本独立抽取时,且设参数向量 {1 ,... s }
ˆ ) ( ˆ)T ( ˆ) (
返回本章首页
R
N N

ˆ ) p( H ) p( H )d dH ( ˆ)T ( ˆ) p( H ) p( H )d d H (
N
ˆ)T ( ˆ) p( H )d ] p( H )d H [ (
(7) 点估计:构造一个统计量d(x1,…,xn )作为参数θ的估计θ’。
(8) 估计量:在统计学中称θ’为θ的估计量。
(9) 估计值:将类别wi中的几个样本观察值x1i,…,xni代入统计量d 中所求得的第i类的具体数值θ’。 (10) 区间估计:在一区间内对θ进行估计,此区间称为置信区间。 (11) 参数空间:在概率密度形式已知,而未知的是其所含(几个) 参数时,则未知参数(记为θ)的取值范围(即集合)称为参数空间。
返回本章首页
• 参数估计——包括监督参数估计和非监督参数估 计 • 监督参数估计——样本所属的类别及类条件总体 概率密度函数的形式为已知,而表征概率密度函 数的某些参数是未知的 • 非监督参数估计——已知总体概率密度函数的形 式但未知样本所属类别,要求推断出概率密度函 数的某些参数 • 参数估计的方法——最大似然估计和Bayes估计 • 非参数估计——已知样本所属类别,但未知总体 概率密度函数的形式,要求我们直接推断概率密 度函数本身 • 参数估计的方法——Parzen窗法和 k N 近邻法
计。 ② 有时上述方程组无解,如无极值点。则,根据实际情况求 最大值点。
返回本章首页
返回本章首页
返回本章首页
返回本章首页
3.2 Bayes估计和Bayes学习
1 Bayes估计 这里我们先回顾一下前面讲述的最小风险Bayes决策。 x ——观察或测量到的 d 维模式特征向量;
1 , 2 1 , 2
3.1 最大似然估计
这里我们首先作如下 的合理假设: 1)估计的参数 是确定(非随机)而未知的量; 2)样本集按类别分开,假定有 c 类,则可分成 c个样本 集H1 , H 2 ,, H c ,其中 H j中的样本都是从概率密度为 的 p( x j ) 总体中独立的抽取出来的; 3)类条件概率密度函数 p( x j )具有某种确定的函数形 式。为表示 p( x j ) 同 j有关 ,记为 p( x j , j。 ) 4)假定 H i 中的样本不包含关于 j的任何信息,也就是 说不同类别的参数在函数上是独立的,即 H i 中的样本只 对 i 提供有关的信息,这样就可对每类进行独立处理。
返回本章首页
p( H )

Baidu Nhomakorabea
x1 C x2
x3
A
x4 x5 B x6
返回本章首页
最大似然估计的求解
• 设已得到属于同一类的N个样本,即
X = {x1,…,xN}
它们具有概率密度p(xk|θ) (k=1,…,N),且样本是独立抽取的, 则 p(X|θ) = p(x1,…,xN|θ) = ∏ p(xk|θ)
, , c ——状态空间
,, a ——决策空间 (i , j ) i 1, 2,, a j 1, 2,, c——损失函数,表示 真实状态为 j 而所采取的决策为 i 时所带来的某种损 失。
返回本章首页
给定 x ,我们采取决策 i 情况下的条件期望损失:
R(i x) (i , j ) P( j x)
H(θ)极大的θ同样使l(θ)取极大值。
H(θ) = ln l(θ) = ln p(X|θ)
= ln p(x1,…,xN|θ)
(2-28)
设 是有 r个分量的列向量 (1 ,2 ,„,r )T 用 表示梯度算子 1 r
H ( ) ln p( xk | ) ln p( xk | )
k 1 k 1
N
N
在该式对θ的偏导等于零的解,就是θ’。
H ( ) 0 其中梯度算子
1 s
k=1
N
(2-26)
p(X|θ)是θ的函数(将其称为相对于样本集X的θ的似然函数, 记为l(θ) ),即
l(θ) = p(X|θ) = ∏ p(xk|θ)
k=1
N
(2-27)
注:(1) l(θ)给出了从总体中抽出x1,…,xN这样N个样本的概率。
(2) 未知参数θ的最大似然估计θ’被定义为使l(θ)最大的θ值。
第3章 概率密度函数的估计
• • • • • 3.1 3.2 3.3 3.4 3.5 最大似然估计 Bayes估计和Bayes学习 正态分布的监督参数估计 非监督参数估计 总体分布的非参数估计
• 在上一章,我们介绍了先验概率和类条件概率密 度函数已知时,怎么去设计一个最优分类器,但 是在一般的模式识别问题中,要知道所讨论问题 的全部概率结构是不大可能的。通常对于研究的 问题只有一些一般性的、模糊的知识。可能有的 就是一些样本了。现在的问题就转变为如何利用 上述信息去对概率总体作出估计,从而进一步设 计出分类器。在模式识别问题中,先验概率的估 计并不困难,困难的是类条件概率密度函数的估 计,包括形式和参数两方面的问题。形式已知的 称为参数估计,未知的称为非参数估计。
L( ) p( x1 , x2 ,„, x N ) p( xk )
k 1 N
返回本章首页
极大似然估计的基本思想 如果在一次观察中一个事件出现了,那么我们就认为该 事件出现的可能性很大。事件 H x1 , x2 ,„,xN 在一 次观察中出现了,那么我们就可以认为达到了极大值。 使似然函数极大化的 ˆ 值就是 的极大似然估计。直观 ˆ 这个值是同实际观察到的样本最一致的参数 上看, 值。 用一个简单的例子来解释极大似然估计的基本思想。如 下图所示,一维样本服从正态分布 p( x ) N (, 2 ) ,并且 方差已知,要求通过抽取到的样本集 H x1 , x2 ,„,xN 用极大似然估计得到它的均值。
即从
ln p( xk | ) 0 的s个方程中求得θ’= {θ1,…,θs}。 k 1
N
如果以上方程的解θ’能使似然函数值最大,则θ’就是θ的最大 似然估计。
注意: ① 有时上述方程组可能有若干解。如下图中 a,b, ',d,e
都是解,但只有θ’才使似然函数最大,即θ’才是最大似然估