第三讲 贝叶斯分类器

  • 格式:pdf
  • 大小:4.13 MB
  • 文档页数:21

下载文档原格式

  / 21
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第 2 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
Байду номын сангаас
图 1 确定性分类决策
随机性分类决策: 特征空间中有多个类, 当样本属于某类时,其特征向量会以一定的概 率取得不同的值;现有待识别的样本特征向量取了某 值,则它按不同概率 有可能属于不同的类,分类决策将它按概率的大小划归到某一类别中。
第 5 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
50%,而一周内没有发生地震但也出现了生物异常反应的概率为 10%。假设某 一个地区属于地震高发区,发生地震的概率为 20%。问: 如果某日观察到明显的生物异常反应现象, 是否应当预报一周内将发生地震? 解: 把地震是否发生设成两个类别:发生地震为ω1,不发生地震为ω2; 则两个类别出现的先验概率 P1=0.2,P2=1-0.2=0.8; 设地震前一周是否出现生物异常反应这一事件设为 x,当 x=1 时表示出现了, x=0 时表示没出现; 则根据历史记录统计可得, ;p(x=1|ω1)=0.5, p(x=1|ω2)=0.1 所以,某日观察到明显的生物异常反应现象,此时可以得到将发生地震的概率 为: p(ω1|x=1)=(P1×p(x=1|ω1))/(P1×p(x=1|ω1)+P2×p(x=1|ω2)) =(0.2×0.5)/(0.2×0.5+0.8*0.1)=5/9 而不发生地震的概率为: p(ω2|x=1)=(P2×p(x=1|ω2))/(P1×p(x=1|ω1)+P2×p(x=1|ω2)) =(0.8×0.1)/(0.2×0.5+0.8*0.1)=4/9 因为 p(ω1|x=1)> p(ω2|x=1),所以在观察到明显的生物异常反应现象时, 发生地震的概率更高,所以应当预报一周内将发生地震。
P (i | x ) P ( j | x)
图 3 最小错误率贝叶斯分类器的分类决策边界
但是,其分类决策边界不一定是线性的,也不一定是连续的。
图 4 最小错误率贝叶斯分类器的非线性分类决策边界
例题: 地震预报是比较困难的一个课题, 可以根据地震与生物异常反应之间的联系 来进行研究。根据历史记录的统计,地震前一周内出现生物异常反应的概率为
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
第三讲 贝叶斯分类器
线性分类器可以实现线性可分的类别之间的分类决策,其形式简单,分类决 策快速。但在许多模式识别的实际问题中,两个类的样本之间并没有明确的分类 决策边界,线性分类器(包括广义线性分类器)无法完成分类任务,此时需要采 用其它有效的分类方法。 贝叶斯分类器就是另一种非常常见和实用的统计模式识 别方法。
P( AB) , 需要推导结 P( B )
2、 贝叶斯公式
进行逆概率推理的数学方法是贝叶斯于 1763 年提出的贝叶斯定理,它 的表述为: 设试验 E 的样本空间为 S , A 为 E 的事件, B 1 , B2 , … , B c 为 S 的一 个划分,且 P(A)>0 , P(B i)>0(i=1,2,……,c),则
图 2 随机性分类决策
对于随机性分类决策, 可以利用贝叶斯公式来计算样本属于各类的后 验概率: 设 i , i 1, 2, c 是特征空间 中不同 的类 , 每类都 有其出 现的先验 概率
P ( j ) ;在每类中,样本特征向量的取值服从一定的概率分布,其类条件概率密
度为 P ( x | j ) ; 当有待识别的特征向量 x 时, 其属于各类的后验概率 P( i | x) 为:
自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
由此可见,在进行分类决策时,可通过计算某个特征向量的似然比,把它与 两类之间的判决门限值进行比较,就可以完成分类决策。 对于多类问题,分类决策规则为:
若Lij ( x) ij , 对于任意的i, j 1, 2, c,i j成立,则x i
1 j c
可以发现,上述分类决策规则实为“最大后验概率分类器” ,它与“最小错 误率分类器”的关系可以简单分析如下: 当采用最大后验概率分类器时,分类错误的概率为

P (e )


P(error, x )dx P(error | x) P( x ) dx

第 4 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
一、 贝叶斯分类
1、 概率推理
贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知 其出现概率的情况下,如何完成推理和决策任务。概率推理是与确定性推 理相对应的。所谓确定性推理是指类似如下的推理过程: 如有条件 B ,就一定会有结果 A,如条件 B 不存在,则结果 A 一定不 成立;现出现了结果 A,则条件 B 一定存在。 在这一推理过程中,条件和结果之间的关系是确定的,条件自身和推 理结果也是确定的。 而概率推理是不确定性推理,它的一种推理形式可以表示为: 如有条件 B ,则可能会出现结果 A;现出现了结果 A,则条件 B 就有 存在的可能。 在这个推理过程中,时间之间的因果关系是一种概率关系,推理是在 结果已知的情况下,反推其条件出现的概率,也称为“逆概率推理” 。如果 对上述概率推理过程的内容用条件概率来表示,即为: 已知条件 B 出现时结果 A 会发生的条件概率 P( A | B) 果 A 已经发生时,条件 B 存在的概率,即 P( B | A) ?
P( x | i ) P( j ) 时,判决 x i P( x | j ) P(i )
Lij ( x)
P( x | i ) 称为似然比,它与待识别的特征向量有关; P( x | j )
称为判决门限,它仅与两类的先验概率有关。
第 6 页
ij
P( j ) P(i )
2、 最大似然比贝叶斯分类器
类条件概率 P ( x | i ) 也称为类 i 对特征向量 x 的似然函数,表达了某类中的 样本取某个特征值的可能性。 由最小错误率贝叶斯分类可知: 对于两类问题,当 P ( x | i ) P(i ) P( x | j ) P( j ) 时,判决 x i 即当
3、 贝叶斯分类
如果把样本属于某个类别作为条件,样本的特征向量取值作为结果, 则模式识别的分类决策过程也可以看作是一种根据结果推测条件的推理过 程。它可以分为两种类型: 确定性分类决策: 特征空间由决策边界划分为多个决策区域,当样本属于某类时, 其特 征向量一定落入对应的决策区域中, 当样本不属于某类时,其特征向量一 定不会落入对应的决策区域中;现有待识别的样本特征向量落入了某决策 区域中,则它一定属于对应的类。
如果根据样本属于各类的后验概率及其他因素对该样本进行分类决策,就 称为贝叶斯分类。 贝叶斯分类具有以下特点: 需要知道先验概率 先验概率是计算后验概率的基础。在传统的概率理论中,先验 概率可以由大量的重复实验 所获得的各类样本出现的频率来近似 获得,其基础是“大数定律” ,这一思想称为“频率主义” 。而在称 为“贝叶斯主义”的数理统计学派中,他们认为时间是单向的,许 多事件的发生不具有可重复性,因此先验概率只能根据对置信度的 主观判定来给出,也可以说由“信仰”来确定。这一分歧直接导致 了对贝叶斯公式应用范围和合理性的争议。 按照获得的信息对先验概率进行修正 在没有获得任何信息的时候,如果要进行分类判别,只能依据 各类存在的先验概率,将样本划分到先验概率大的一类中。而在获 得了更多关于样本特征的信息后,可以依照贝叶斯公式对先验概率 进行修正,得到后验概率,提高了分类决策的准确性和置信度。 分类决策存在错误率 由于贝叶斯分类是在样本取得某特征值时对它属于各类的概 率进行推测,并无法或者样本真实的类别归属情况,所以分类决策 一定存在错误率,即时错误率很低,分类错误的情况也可能发生。
P ( Bi | A) P ( A | Bi ) P ( Bi )
c

j
P( A | B ) P ( B )
j j 1
P ( A | Bi ) P ( Bi ) P ( A)
该公式称为“贝叶斯公式” ,其中: P( Bi | A) 称为后验概率,表示事件 A (结果 A )出现后,各不相容的条件 Bi
二、 各种贝叶斯分类器
根据分类决策规则的不同,贝叶斯分类有多种形式,下面介绍比较常见的几 种贝叶斯分类器。
1、 最小错误率贝叶斯分类器
当已知类别出现的先验概率 P (i ) 和每个类中的样本分布的类条件概率 密度 P ( x | i ) 时 ,可以求得一个待分类样本属于每类的后验概率 P( i | x) , 将其划归到后验概率最大的那一类中, 真正分类器称为最小错误率贝叶斯分 类器,其分类决策规则可表示为: 两类问题中,当 P (i | x ) P ( j | x) 时,判决 x i ; 对于多类情况,则当 P(i | x) max P( j | x) 时,判决 x i 。
出现无关,仅表示根据先验知识或主观推断,认为总体上各条件之间的出现可能 性有什么差别;
c
P( A) P( A | B j ) P( B j ) 由先验概率和类条件概率计算得到,它表达了结果
j 1
A 在各种条件下出现的总体概率,称为结果 A 的全概率。 贝叶斯公式给出了根据结果推测原因的数学方法, 在许多方面都有广泛的应 用,并在数理统计领域产生了基于该理论的贝叶斯学派。 贝叶斯及贝叶斯公式 托 马 斯 · 贝 叶 斯 ( Thomas Bayes ) (1702 ~ 1763) , 是 一 位 伟 大 的 英 国 数 学 家,他是英国皇家学会会员,也是一位长 老会牧师,其主要数学成就体现在概率论 和数理统计方面。贝叶斯公式发表于 1763 年其去世之后, 首次将归纳推理法用于概率 论基础理论,对于后续的统计决策、概率推 理和参数估计等领域的发展起到了重要的促 进作用,其影响延续至今,在信息时代的经 济学理论、数据处理与知识挖掘、信息检索、 人工智能等方面都能看到贝 叶 斯 公式 深入 和广泛的应用。 由于其宗教身份, 后人普遍猜测贝叶斯提出贝叶斯公式的目的是为了从理论 上对上帝是否存在进行证明(并且美国的斯蒂芬·安文在 2003 年出版的《上帝 的概率》一书中确实利用贝叶斯公式对上帝存在的概率进行了计算) 。但由于贝 叶斯公式中先验概率的获得有“主观主义”和“频率主义”两大派别,对于贝叶 斯公式的应用范围和合理性存在很大的争议。
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
c
而 P(error | x) P( j | x) max P( j | x )
i 1 1 j c
因此, P(error | x) 取得了最小值, P(e) 也取得了最小值, “最大后验概率分 类器”与“最小错误率分类器”是等价的。 对于最小错误率贝叶斯分类器,其分类决策规则也同时确定了分类决策边 界,为:
第 1 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
存在的概率,它是在结果出现后才能计算得到的,因此称为“后验” ;
P ( A | B j ) 称为类条件概率, 表示在各条件 Bi 存在时, 结果事件 A 发生的概率; P ( B j ) 称为先验概率,表示各不相容的条件 Bi 出现的概率,它与结果 A 是否
P (i | x ) P ( x | i ) P(i )
c

j
P( x | ) P( )
j j 1
P( x | i ) P(i ) P ( x)
第 3 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器