贝叶斯分类(数据挖掘)

  • 格式:ppt
  • 大小:156.01 KB
  • 文档页数:23

下载文档原格式

  / 23
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( P( X / Ci ) 常被称为给定 Ci 时数据X的似然度, 而使 P( X / Ci ) 最大的假设 Ci 称为最大似然假设)。
否则,需要最大化 P( X / Ci ) 。
注意: 类的先验概率可以用 P(Ci ) si s 计算,其中
si 是类 Ci中的训练样本数,而s是训练样本总数。
(4).给定具有许多属性的数据集,计算 P(X / Ci ) 的开销可能 非常大。为降低计算 P( X / Ci ) 的开销,可以做类条件独立的 朴素假定。给定样本的类标号,假定属性值相互独立,即在属
6.4 Bayesian Classification
Bayesian Classification
贝叶斯分类是一种统计分类方法。 在贝叶斯学习方法中实用性最高的一种是朴
素贝叶斯分类方法。 本节主要介绍贝叶斯的基本理论,和朴素贝
叶斯的原理和工作过程,并给出一个具体的 例子。
Bayesian Theorem: Basics
设:
C1 对应于类buys_computer=“yes”, C2 对应于类buys_computer=“no”。 我们希望分类的未知样本为:
X=(age=“≤30”,income=“medium”,student=“yes”,credit_rating=“fair”)
Yes
12
31~40 Medium No
Excellent
Yes
13
31~40 High
Yes
Fair
Yes
14
>40
medium No
Excellent
no
数据样本属性用age,income,student,和credit_rating描述。 类标号属性buys_computer具有两个不同的值{yes,no}。
P(Ci / X ) P(C j / X ) ,其中 j 1, 2, , m, j i
这样,最大化 P(Ci / X ) ,其 P(Ci / X ) 最大的类 Ci 称为最大后 验假定。根据贝叶斯定理:
P(Ci
/
X)
P( X
/ Ci )P(Ci ) P( X )
(3).由于P(X)对于所有类为常数,只需要 P(X / Ci )P(Ci ) 最大即可。如果 Ci类的先验概率未知,则通常假定 这些类是等概率的,即 P(C1) P(C2) P(Cm) 。 因此问题就转换为对 P(X / Ci )的最大化。
贝叶斯基本理论的例子:
假设数据样本由水果组成,用它们的颜色和形状来描述。 并做如下假设:
X:表示假设红色和圆形的。 H:表示假设X是苹果。 则: P(H/X)反映当我们看到X是红色并且是圆形的时候,我们 对X是苹果的确信程度。
从直观上看, P(H/X)随着P(H)和 P(H/X)的增长而增长,同 时也可以看出P(H/X)随P(X)的增加而减小。
性间,不存在依赖关系。这样:
n
P( X / Ci )
P( X k / Ci )
k 1
其中概率 P(X1 / Ci ), P(X2 / Ci ), , P(Xn / Ci ) 可以由训练样本估值。
①如果 Ak 是离散属性,则
性中的训Ak练样上本的数具。有值 xk 的类
P( xk
Ci
/
C的i ) 训 s练ik si样本,数其,中而sik
计算 P(X / Ci )P(Ci ) 。样本 X 被指派到类 Ci ,当且 仅当:
P(Ci / X ) P(C j / X ) j 1, 2, , m, j i 换言之,X被指派到其 P( X / Ci )P(Ci ) 最大的类。
上面的五部就是朴素贝叶斯方法的主要思想,下 面用一个具体的例子来说明具体的只用过程。
2.函数依赖的数据。
Naïve Bayes Classification
朴素贝叶斯分类的工作过程如下:
(1).每个数据样本用一个n维的特征向量 X {x1, x2, x3, , xn} 表示,
分别描述对n个属性
A1, A2 , A3 , 样, A本n 的n个度量。
(2).假定m个类 C1, C2 , C3, , Cm ,给定一个未知的数据样本X, 分类器将预测X属于具有最高后验概率的类。也就是说,朴素 贝叶斯分类将未知的样本分配给类 Ci (1 i m) ,当且仅当:
是在属
si 是Ci
②如果 Ak 是连续值属性,则通常假定该属性服从高斯分
布,因而:
P(xk / ci ) g(xk , ci ,ci )
g(xk , ci ,ci ) 是高斯分布函数。
1
( xk ci )2
e 2
2 ci
2 ci
ci , ci 分别为平均值和标准差。
(5).对于未知样本 X 分类,也就是对每个类 Ci ,
例1. 下表给出的训练数据,使用朴素的贝叶斯方法进行分类学习。
表 1 样本取值
RID
age
income student Credit_rating Buy_computer
1
≤30
High
No
Fair
NO
2
≤30
High
No
Excellent
NO
3
31~40 High
No
Fair
Yes
4
>40
Medபைடு நூலகம்um No
这是很合理的,因为如果X独立于H时被观察到的可能性 越大,那么X对H的支持度越小。
理论上讲,与其所有分类算法相比,贝叶斯分 类具有最小的出错率。然而,实践中并非如此。
这是由于对其应用的假设的不准确,以及缺乏 可用的概率数据造成的。
研究结果表明,贝叶斯分类器对两种数据具有 较好的分类效果:
1.完全独立的数据。
Fair
Yes
5
>40
Low
Yes
Fair
Yes
6
>40
Low
Yes
Excellent
No
7
31~40 Low
Yes
Excellent
Yes
8
≤30
Medium No
Fair
No
9
≤30
Low
Yes
Fair
Yes
10
>40
Medium Yes
Fair
Yes
11
≤30
Medium Yes
Excellent
设 X是类标号未知的数据样本。
设H为某种假设,如数据样本X属于某特定的类C。
对于分类问题,我们希望确定P(X|H),即给定观测数据样本 X,假定H成立的概率。贝叶斯定理给出了如下计算P(X|H)的
简单有效的方法:
P(H / X ) P( X / H )P(H ) P( X )
P(H):先验概率,或称H的先验概率。 P(X/H):代表假设H成立情况下,观察到X的概率。 P(H/X):后验概率,或称条件X下H的后验概率。

相关主题