模式识别作业--两类贝叶斯分类

  • 格式:doc
  • 大小:230.50 KB
  • 文档页数:11

下载文档原格式

  / 11
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

深圳大学研究生课程:模式识别理论与方法

课程作业实验报告

实验名称:Bayes Classifier

实验编号:proj02-01

姓名:汪长泉

学号:2100130303

规定提交日期:2010年10月20日

实际提交日期:2010年10月20日

摘要:在深入掌握多维高斯分布性质,贝叶斯分类的基础上,用计算机编程实现一个分类两类模式样本的贝叶斯分类器。用matlab编程,并分析了实验结果,得出贝叶斯分类的一般结论。

1. 贝叶斯分类器

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 1.1 两类情况

两类情况是多类情况的基础,多类情况往往是用多个两类情况解决的。

① 用i ω,i =1, 2表示样本x (一般用列向量表示)所属的类别。

② 假设先验概率()P ω1,()P ω2已知。(这个假设是合理的,因为如果先验概率未知,可以从训

练特征向量中估算出来,即如果N 是训练样本总数,其中有,N N 12个样本分别属于

2,1ωω,则相应的先验概率:

()/P N N ω≈11,2

()/P N N ω≈2)

③ 假设(类)条件概率密度函数

(|),i p ωx i =1,2已知,用来描述每一类中特征向量

的分布情况。如果类条件概率密度函数未知,则可以从可用的训练数据中估计出来。

1.2贝叶斯判别方法

贝叶斯分类规则描述为:

如果2(|)(|)P ωP ω>1x x ,则x ∈1ω

如果2(|)(|)P ωP ω<1x x ,则x ∈2ω (2-1-1) 贝叶斯分类规则就是看x ∈ω1的可能性大,还是x ∈2ω的可能性大。(|)i P ωx ,i =1,2解释为当样本x 出现时,后验概率(|)P ω1x 和(|)P ω2x 的大小从而判别为属于

1ω或属于2ω类。

1.3三种概率的关系――――贝叶斯公式

()()

(|)=

()

i i i p |P P p ωωωx x x (2-1-3)

其中,()p x 是x 的概率密度函数(全概率密度),它等于所有可能的类概率密度函数乘以相应的先验概率之和。

()(|)()i i i p p P ωω==∑2

1

x x

因为()p x 对于所有的类都是一样的,可视为常数因子,它并不影响结果,不考虑。故可采用下面的写法比较后验概率的大小:

1122(|)()(|)()p P p P ωωωω>

<

x x

则有 1

2

x ωω⎧∈⎨⎩ (2-1-4)

1.4多类的情况

① ,,...,12m ωωω表示样本x 所属的m 个类别。 ② 先验概率()i P ω, i =1,2,…, m ③ 假设类条件概率密度函数

(|)i p ωx ,i =1,2,…,m 已知,计算后验概率后,若:

(|)i P ωx >(|)j P ωx ∀j ≠i

则x ∈i ω类。这样的决策可使分类错误率最小。因此叫做基于最小错误率的贝叶斯决策。 R 1和R 3的分界点是11(/)()p P ωωx =33(/)()p P ωωx 的交点。 R 2和R 3的分界点是22(/)()p P ωωx =33(/)()p P ωωx 的交点。

图2-1-1

图2-1-2

2.实验过程

(a)每个模式类各生成50个随机样本,并在二维图上画出这些样本。m1 =

Columns 1 through 5

0.5426 -0.0190 1.3513 -1.2277 -0.9266

2.9840

3.4340 1.9042 3.9946 3.1342

……

Columns 46 through 50

1.6222 1.1615 1.3431 -0.2037 -0.1563

1.1755 3.3840 0.5198 3.6479 3.4207

m2 =

Columns 1 through 9

2.9272 2.0057 2.2526 2.9692

3.9884

2.4034 1.1650 4.2931 0.7725 2.0623

……

Columns 46 through 50

4.4548 2.4898 2.9933 2.4745 3.7177

2.2946 2.4581 0.7505 0.9102 0.4889

-3

-2-10

12345

-3-2-1012

345

6x

y

2个模式的样本分布

图1 两个模式的样本二维分布图

(b )用模式的第一个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。

图2 用模式的第一个特征分量作为分类特征

-3

-2-10

12345

x

y

黑色代表正确分类,红色代表错误分类

统计得正确分类j=79,正确分类百分比为79%。

(c )用模式的第二个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。

-3-2-1012

3456x

y

黑色代表正确分类,红色代表错误分类

图3 用模式的第二个特征分量作为分类特征

统计得正确分类j=75,正确分类百分比为75%。

(d )用模式的两个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。