最小错误概率贝叶斯(2章)
- 格式:pdf
- 大小:1.29 MB
- 文档页数:52
第二章贝叶斯决策理论与统计判别方法课前思考1、机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?2、错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制?3、概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式?4、什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?学习目标这一章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。
在这个基础上指出了什么条件下能使错误率最小。
有时不同的错误分类造成的损失会不相同,因此如果错分类不可避免,那么有没有可能对危害大的错分类实行控制。
对于这两方面的概念要求理解透彻。
这一章会将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面(分界面),决策域等,要正确掌握其含义。
这一章会涉及设计一个分类器的最基本方法——设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。
这一章会开始涉及一些具体的计算,公式推导、证明等,应通过学习提高这方面的理解能力,并通过习题、思考题提高自己这方面的能力。
本章要点1、机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论3、模式识别的基本计算框架——制定准则函数,实现准则函数极值化的分类器设计方法4、正态分布条件下的分类器设计5、判别函数、决策面、决策方程等术语的概念6、 Bayes决策理论的理论意义与在实践中所遇到的困难知识点§2.1 引言在前一章中已提到,模式识别是一种分类问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。
模式识别第一章1.模式识别的类型(1)确定模式(2)非确定模式(3)随机模式2.模式的统计特性a)相似性-先验概率:P (v i)b)类条件概率密度:p (x|v i)3.模式的主要过程a)数据处理b)模式类的模型假设c)选择最优的模型并分类4.模式识别的定义Def:依据一定的规则,将模式进行分类的过程。
5.模式识别的典型应用(掌握5个以上)1)语音识别(例如:IBM ViaV oice系统)2)表情分析、年龄、种族、性别分类3)OCR: 车牌照、集装箱号码…4)手写体识别:汉王5)手势识别:基于视觉的,基于数据手套6)人脸识别、指纹识别、虹膜识别…7)军事目标识别8)生物信息、医学图像6.统计模式识别的基本思想模式被描述为一组测量值组成的随机特征向量,用概率统计理论对其进行建模,用统计决策理论划分特征空间来进行分类。
7.统计模式识别的一般过程(主要掌握测试模式)考察会细化,如具体分析汽车牌照识别过程第二章一、基于最小错误率的贝叶斯决策Note:考查公式,主要考计算题Example1:假设在某地区切片细胞中正常(ω1)和异常(ω2)两类的先验概率分别为P(ω1)=0.9,P(ω2)=0.1。
现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查得p(x|ω1)=0.2,p(x|ω2)=0.4,试对细胞x进行分类。
解:利用贝叶斯公式,分别计算出状态为x时ω1与ω2的后验概率而根据贝叶斯决策(2-2)则有P(ω1|x)=0.818>P(ω2|x)=0.0182因此判定该细胞为正常细胞比较合理。
请用公式(2-3)与(2-5)计算,检查一下结果是否一样?二、基于最小风险的贝叶斯决策Note:将X判为何类则应依据所有Ri,(i=1,…,c)中的最小值,即最小风险来定。
Example2:在Example1条件的基础上,并且已知λ11=0,(λ11表示λ(α1|ω的简写),λ12=6,λ21=1,λ22=0,按最小风险贝叶斯决策进行分类。
实验一贝叶斯决策一、 实验原理1. 最小错误率贝叶斯决策规则:对于两类问题,最小错误率贝叶斯决策有如下判决规则:1212(|)(|),;P x P x x x ωωωω>∈∈则反之,则。
由于先验概率i (P ω)可以确定,与当前样本x 无关,所以决策规则也可整理成下面的形式:121212(|)()(),()(|)P x P l x x x P P x ωωωωωω=>∈∈若,则否则。
2. 平均错误率决策边界把x 轴分割成两个区域,分别称为第一类和第二类的决策区域.样本在中但属于第二类的错误概率和样本在中但属于第一类的错误概率就是出现错误的概率,再考虑到样本自身的分布后就是平均错误率:212211()(|)()(|)()(|)P()(|)P()ttt tP e P x p x dx P x p x dxp x dx p x dxωωωωωω∞-∞∞-∞=+=+⎰⎰⎰⎰3. 此实验中的判决门限和平均错误率 (1) 判决门限假设随机脉冲信号f 中0的概率为,高斯噪声信号n 服从,信号叠加时的放大倍数为a ,叠加后的信号为*s f a n =+。
由最小错误率贝叶斯决策可得:1122()(|)()(|)P p x P p x ωωωω→→>化简计算得:220022(ln(1)ln )2aa a p p t μσ+---=(2) 平均错误率 由上述积分式可计算。
二、 实验内容1、 已知均值和方差,产生高斯噪声信号,计算其统计特性 实验中利用MATLAB 产生均值为0,方差为1的高斯噪声信号,信号统计分布的程序和结果如下:%产生高斯噪声并统计其特性x=0;%均值为0 y=1;%方差为1n=normrnd(x,y,[1 1000000]);%产生均值为0,方差为1的高斯噪声 m1=mean(n);%高斯噪声的均值 v1=var(n); %高斯噪声的方差 figure(1)plot(n(1:400)); title('均值为0,方差为1的高斯噪声'); figure(2)hist(n,10000); title('高斯噪声的统计特性');得到m1=-4.6534e-005;v1= 0.9971。
第二章:贝叶斯决策理论 主要考点:1. 最小错误率贝叶斯分类器;2. 最小风险贝叶斯分类器;3. 多元正态分布时的最小错误率贝叶斯分类器。
典型例题:P45,2.23,2.24。
例题1:在一个一维模式两类分类问题中,设12()1/3,()2/3p p ωω==,两类的类概率密度分别为2212(/)(1)),(/)(1))p x x p x x ωω=-+=--1)求最小错误率贝叶斯分类器的阈值。
2)设损失为0310L ⎛⎫= ⎪⎝⎭,求最小风险贝叶斯分类器的阈值。
解:由于p(w1)=1/3, p(w2)=2/3,则最小错误率贝叶斯分类器的阈值θ=p(w2)/p(w1)=2其相应的决策规则为:,)1()2()2/()1/(w p w p w x p w x p >< 则21{w w x ∈22>< 即 12l n 24l n 24w x x w x ⎧<-⎪⎪∈⎨⎪>-⎪⎩(2) 当L=0310时,122221113,01,0λλλλ====从而最小风险贝叶斯决策规则的阈值为:1222221111()()(30)*1/3.3/2()()(10)*2/3p w p w λλλλλ--===-- 判决规则为:12(/)(/)p x w p x w λ><,则21{w w x ∈23/2==>exp(4)3/2x -= 12ln(3/2)4ln(3/2)4w x x w x ⎧<-⎪⎪∈⎨⎪>-⎪⎩例2p45,2.23解:这里两类协方差矩阵相等。
负对数似然比判别规则为111222(/)()lnln 0(/)()x p x p x p x p ωωωωωω∈<⎧--=⇒⎨∈>⎩ ()()()()11111/2112221/2111122112211exp(()())(/)2||2ln ln11(/)exp(()())2||2[()()(11())()]/21111exp ,222020T i i i i nT T T T ix x p x p x x x x x x x x x p x x x x x x μμωπωμμπωμμπμμμμ------⎡⎤=---⎢∑--∑-∑-=---∑-∑=-∑---∑-+⎛⎫=+-- ⎪-⎝⎭⎥⎣⎦∑∑ =I.故()1111202021x x x x -⎛⎫-- ⎪-⎝⎭=例32.24 解: ()()()112111211111/211122221/2221112/34/32/34/311exp(()())(11()exp ,22/)2||2ln ln11(/)exp(()())2||2[()(T T T i i i i nT ix x p x p x p x x x x x x x μμωπωμμπμωμμπ------⎛⎫⎛⎫∑∑ ⎪ ⎪-⎝⎭⎝⎭--∑-∑-=--⎡⎤=---⎢⎥-∑-∑=-⎣⎦∑-∑∑4/3-2/34/32/3=,=故()()1121221122)()()]/211111120112020202/34/32/34/381ln213/4ln234433/T x x x x x x x x x x x x x μμμ---∑-++-⎛⎫⎛⎫⎛⎫⎛⎫=+----+ ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭=-∑∑4/3-2/34/32/3例4:假设两类二维正态分布参数如下,试给出负对数似然比判别规则。