- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、全概率公式
1. 集合(样本空间)的划分
定义 设 为试验E的样本空间, B1, B2,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n; 20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间 的一个划分.
n
P(B)P( A | Bi ) i 1
全概率公式
证明 A A A I (B1 U B2 UL Bn ) AB1 U AB2 UL U ABn.
P(A) P(B1)P(A | B1) P(B2)P(A | B2) L P(Bn )P(A | Bn )
图示
B2
化整为零
B1
各个击破
A
B3
概率(条件X下)的类。也就是说,朴素贝叶斯分类将未
知的样本分配给类Ci(1≤i≤m)当且仅当P(Ci|X)> P(Cj|X), 对任意的j=1,2,…,m,j≠i。这样,最大化P(Ci|X)。其 P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理
P(Ci
|
X)
P(X
| Ci )P(Ci ) P(X )
例2 贝叶斯公式的应用
某电子设备制造厂所用的元件是由三家元
件制造厂提供的.根据以往的记录有以下的数据 : 元件制造厂 次品率 提供元件的份额
1
0.02
0.15
2
0.01
0.80
3
0.03
0.05
设这三家工厂的产品在仓库中是均匀混合的,且
无区别的标志.
(1) 在仓库中随机地取一只元件 ,求它是次品的
P(H | X ) P(X | H )P(H ) P(X )
• P(H)是先验概率,或称H的先验概率。P(X|H)代表假设H成 立的情况下,观察到X的概率。
• P(H| X )是后验概率,或称条件X下H的后验概率。
20
贝叶斯分类
• 先验概率泛指一类事物发生的概率,通常根据历史资 料或主观判断,未经实验证实所确定的概率。
实例
No. 天气 气温
1
晴
热
2
晴
热
3
多云 热
4
雨
适中
5
雨
冷
6
雨
冷
7
多云 冷
统计结果
天气
湿度 风
高
无
高
有
高
无
高
无
正常 无
正常 有
正常 有
温度
类别
No. 天气 气温 湿度 风 类别
N
8晴
适中 高
无N
N
9
晴
冷
正常 无 P
P
10 雨
适中 正常 无 P
P
11 晴
适中 正常 有 P
P
12 多云 适中 高
有P
N
• 在处理大规模数据库时,贝叶斯分类器已表现出较高的分类 准确性和运算性能。
贝叶斯分类
• 定义:设X是类标号未知的数据样本。设H为某种假定,如 数据样本X属于某特定的类C。对于分类问题,我们希望确 定P(H|X),即给定观测数据样本X,假定H成立的概率。贝 叶斯定理给出了如下计算P(H|X)的简单有效的方法:
PN
PN
PN
PN P N
晴 3/ 热 2/ 高 2/9 5 2/9 5 3/9
4/ 否 5 6/9
对云4/下9 面的05情/ 况暖 4做/9出决策25/:
正常 6/9
1/ 是 5 3/9
雨
2/天气凉 温1度/
湿度
有风
3/9 5 晴3/9 凉5
高
是
2/ 9/14 5/14 5
3/ 5
打网球 ?
统计结果
件是次品的概率是多少
解 设事件 A 为“任取一件为次品”,
事件 Bi 为" 任取一件为 i 厂的产品" ,i 1,2,3.
B1 U B2 U B3 , Bi Bj , i, j 1,2,3.
由全概率公式得
30% 2% A 1% 1%
B1
20% B3
50%
B2
P(A) P(B1)P(A B1) P(B2)P(A B2) P(B3)P(A B3). P(B1 ) 0.3, P(B2 ) 0.5, P(B3 ) 0.2, P( A B1 ) 0.02, P( A B2 ) 0.01, P( A B3 ) 0.01,
13 多云 热
正常 无 P
P
14 雨
适中 高
有N
湿度
有风
打网球
PN
PN
PN
PN P N
晴 3/ 热 2/ 高 2/9 5 2/9 5 3/9
4/ 否 2/ 9/14 5/14 5 6/9 5
云 0/ 暖 2/ 正常 1/ 是 3/ 4/9 5 4/9 5 6/9 5 3/9 5
统计结果
天气 E1 温度 E2 湿度 E3 有风 E4 打网球
联合概率分布
25
朴素贝叶斯分类
• (5) 对 未 知 样 本 X 分 类 , 也 就 是 对 每 个 类 Ci , 计 算 P(X|Ci)*P(Ci)。
• 样本X被指派到类Ci,当且仅当P(Ci|X)> P(Cj|X),1≤j≤m, j≠i,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。
朴素贝叶斯分类
• (3) 由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)
最大即可。
• 如率对的设先样本验似果P)的(X数概然C。,|i类,率度C否即i)的而可,的则P(先s以而C最,是1验用)使大需训=概PPP化练要(((CC率X( 样最2i)|)=未=C本P大s…i(i)知/X最总化s=|计,数大CPP(算i则()C。的X常m,|通假)被C,其常i设)称*因中P假C为(此Csi定称i是i给)问。这为类定题注些最CC就i意类大中i时转,是似的数换类等然训据概为练假的X
概率;
(2) 在仓库中随机地取一只元件,若已知取到的是 次品,为分析此次品出自何厂, 求此次品出由 三家工厂生产的概率分别是多少.
解 设 A 表示 " 取到的是一只次品" ,Bi (i 1,2,3 表示 " 所取到的产品是由第i 家工厂提供的".
则
B1,B 2 ,B 3 是样本空间 的一个划分 ,
B2
B3
L Bn1
B1
Bn
2. 全概率公式
定义 设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分, 且P(Bi ) 0 (i 1, 2,L , n),则 P( A) P( A | B1)P(B1) P( A | B2 )P(B2 ) L P( A | Bn )P(Bn )
故 P(A) P(B1)P(A B1) P(B2)P(A B2) P(B3)P(A B3)
0.02 0.3 0.01 0.5 0.01 0.2 0.013.
贝叶斯公式
定义 设为试验E的样本空间, A为E的事件,
B1, B2 ,L , Bn为的一个划分,且P( A) 0, P(Bi ) 0(i 1, 2,L , n),则
且 P(B1) 0.15, P(B2 ) 0.80, P(B3 ) 0.05,
P( A B1) 0.02, P( A B2 ) 0.01, P( A B3 ) 0.03. (1) 由全概率公式得
P( A) P( A B1)P(B1) P( A B2 )P(B2 ) P( A B3 )P(B3 ) 0.0125.
L Bn1 Bn
说明 全概率公式的主要用途在于它可以将一个复杂事 件的概率计算问题,分解为若干个简单事件的概率计算问 题,最后应用概率的可加性求出最终结果.
B2
B1
A
B3
L Bn1 Bn
例1 有一批同一型号的产品,已知其中由一厂生产的占
30% , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个 厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一
朴条件概率
1. 定义
若 是全集,A、B是其中的事件(子集),P表示事件发生
的概率,则
P(A | B) P(AB) P(B)
为事件B发生后A发生的概率。
A AB B
乘法定理
设 P(A) 0, 则有 P(AB) P(B A)P(A) P(A B)P(B). 设 A,B ,C 为事件,且 P(AB ) 0, 则有
天气 E1 温度 E2 湿度 E3 有风 E4 打网球 D
PN P
N P
N P
NP N
晴对下面的3/情况热做出决2策/:高 4/ 否 2/ 9/1 5/1
2/9天气 5 2温/度9 5湿度3/9 有风5 6打/9网球 5 4 4
云 晴 0/ 暖凉 2/高 正常 是1/ 4模/型9 : 5E E41/9E2 E53 E64/9 5 雨决策: 2P/(D 凉no | E) P1(D/ yes | E) ?
22
朴素贝叶斯分类
• 朴素贝叶斯分类的工作过程如下:
• (1) 每个数据样本用一个n维特征向量X= {x1,x2,……, xn}表示,分别描述对n个属性A1,A2,……,An样本的n个
度量。
• (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验
先验概率与后验概率
由以往的数据分析得到的概率, 叫做先验概率. 而在得到信息之后再重新加以修正的概率 叫做后验概率.
贝叶斯分类
• 贝叶斯分类器是一个统计分类器。它们能够预测类别所属的 概率,如:一个数据对象属于某个类别的概率。贝叶斯分类 器是基于贝叶斯定理而构造出来的。