人工智能原理教案03章 不确定性推理方法3.5 贝叶斯网络
- 格式:pdf
- 大小:160.77 KB
- 文档页数:10
3.5 贝叶斯网络贝叶斯网络是一系列变量的联合概率分布的图形表示。
一般包含两个部分,一个就是贝叶斯网络结构图,这是一个有向无环图(DAG),其中图中的每个节点代表相应的变量,节点之间的连接关系代表了贝叶斯网络的条件独立语义。
另一部分,就是节点和节点之间的条件概率表(CPT),也就是一系列的概率值。
如果一个贝叶斯网络提供了足够的条件概率值,足以计算任何给定的联合概率,我们就称,它是可计算的,即可推理的。
3.5.1 贝叶斯网络基础首先从一个具体的实例(医疗诊断的例子)来说明贝叶斯网络的构造。
假设:命题S(moker):该患者是一个吸烟者命题C(oal Miner):该患者是一个煤矿矿井工人命题L(ung Cancer):他患了肺癌命题E(mphysema):他患了肺气肿命题S对命题L和命题E有因果影响,而C对E也有因果影响。
命题之间的关系可以描绘成如右图所示的因果关系网。
因此,贝叶斯网有时也叫因果网,因为可以将连接结点的弧认为是表达了直接的因果关系。
图3-5 贝叶斯网络的实例tp3_5_swf.htm图中表达了贝叶斯网的两个要素:其一为贝叶斯网的结构,也就是各节点的继承关系,其二就是条件概率表CPT。
若一个贝叶斯网可计算,则这两个条件缺一不可。
贝叶斯网由一个有向无环图(DAG)及描述顶点之间的概率表组成。
其中每个顶点对应一个随机变量。
这个图表达了分布的一系列有条件独立属性:在给定了父亲节点的状态后,每个变量与它在图中的非继承节点在概率上是独立的。
该图抓住了概率分布的定性结构,并被开发来做高效推理和决策。
贝叶斯网络能表示任意概率分布的同时,它们为这些能用简单结构表示的分布提供了可计算优势。
假设对于顶点x i,其双亲节点集为P ai,每个变量x i的条件概率P(x i|P ai)。
则顶点集合X={x1,x2,…,x n}的联合概率分布可如下计算:双亲结点。
该结点得上一代结点。
该等式暗示了早先给定的图结构有条件独立语义。
3.1 概述一个人工智能系统,由于知识本身的不精确和不完全,采用标准逻辑意义下的推理方法难以达到解决问题的目的。
对于一个智能系统来说,知识库是其核心。
在这个知识库中,往往大量包含模糊性、随机性、不可靠性或不知道等不确定性因素的知识。
为了解决这种条件下的推理计算问题,不确定性推理方法应运而生。
归纳起来,不确定性推理方法研究产生的原因大致如下:·很多原因导致同一结果如多种原因引起同一种疾病。
例如,发烧可能因为感冒,也可能因为得了肺炎,需要进一步的知识才能作出具体判断。
·推理所需的信息不完备如勘探得到的地质分析资料不完备。
·背景知识不足由于人类认识水平的客观限制,客观世界的很多知识仍不为人们所认知。
在智能系统中,表现为所处理的知识的背景知识不完备。
如疾病的发病原因不十分明确。
·信息描述模糊这种现象十分普遍。
如"他不高不矮","今天不冷不热"等等。
在这类描述中,通常无法以一个量化的标准来描述,所描述的事物通常处在一个大致的范围。
比如,认为"身高在165cm-174cm 之间"的男士符合"不高不矮"的描述。
·信息中含有噪声噪声的存在干扰了人们对本源信息的认知,从而加大了认知上的难度。
如语音信号、雷达信号中的噪音干扰带来的信息模糊。
·规划是模糊的当需要对某个问题域进行划分时,可能无法找到一个清晰的标准。
如根据市场需求情况调节公司产品的内容和数量。
·推理能力不足必须考虑到实现的可能性,计算复杂度,系统性能。
如计算机的实现能力,推理算法的规模扩大能力有限等。
·解题方案不唯一没有最优方案,只有相对较优方案。
不实施,不能做出最后判断。
不精确思维并非专家的习惯或爱好所至,而是客观现实的要求。
在人类的知识和思维行为中,精确性只是相对的,不精确性才是绝对的。
知识工程需要各种适应不同类的不精确性特点的不精确性知识描述方法和推理方法。
人工智能中的不确定性估计是一个重要的研究领域,它涉及到如何评估人工智能系统在处理不确定信息时的表现。
不确定性估计可以帮助我们更好地理解人工智能系统的性能,并为其提供更准确的决策支持。
以下是一些人工智能中不确定性估计的方法:
1. 概率模型:概率模型是一种常见的不确定性估计方法,它使用概率分布来描述输入数据的不确定性。
这些模型通常使用贝叶斯网络、隐马尔可夫模型等工具来建模数据的不确定性。
2. 随机森林和集成学习:随机森林和集成学习方法通过组合多个预测模型的输出来提高不确定性估计的准确性。
这些方法通常使用多个决策树或神经网络来生成预测,并使用投票或加权平均等方法来组合它们的输出。
3. 贝叶斯推理:贝叶斯推理是一种基于概率的方法,它使用先验知识来更新对不确定性的认识。
这种方法通常用于处理因果推理和异常检测等问题。
4. 深度强化学习:深度强化学习使用深度神经网络来学习如何做出最优决策,同时考虑到各种不确定性因素。
这种方法通常用于处理具有挑战性的实时决策问题,如自动驾驶和机器人控制。
5. 贝叶斯近似方法:贝叶斯近似方法是一种基于贝叶斯统计的方法,它使用简单的模型来近似复杂的模型,并估计其不确定性。
这种方法通常用于处理大规模数据集和复杂模型的不确定性估计。
总之,人工智能中的不确定性估计是一个重要的研究领域,涉及多种方法和技术。
这些方法和技术可以帮助我们更好地理解人工智能系统的性能,并为其提供更准确的决策支持。
◇第一章人工智能概述- 课前索引- 1.1 人工智能的定义- 1.2 人工智能的发展史- 1.3 人工智能成功的实例- 1.4 人工智能的研究内容- 1.5 人工智能研究的特点- 1.6 人工智能相关文献及网站介绍- 章节小结- 课后思考题◇第二章归结推理方法- 课前索引- 2.1 归结原理概述- 2.2 命题逻辑的归结- 2.3 谓词逻辑归结法基础- 2.4 归结原理- 2.5 归结过程控制策略- 2.6 Herbrand定理- 章节小结- 课后思考题- 课后习题◇第三章不确定性推理方法- 课前索引- 3.1 概述- 3.2 确定性方法- 3.3 主观Bayes方法- 3.4 证据理论(D-S Theory)- 3.5 贝叶斯网络- 章节小结- 课后思考题- 课后习题◇第四章知识表示- 课前索引- 4.1 概述- 4.2 表示观- 4.3 逻辑表示法- 4.4 产生式表示法- 4.5 语义网络表示法- 4.6 框架表示法- 4.7 面向对象的表示法- 4.8 直接型知识表示方法- 4.9 混合型知识表示方法- 章节小结- 课后思考题- 课后习题◇第五章机器学习- 课前索引- 5.1 概述- 5.2 机器学习的分类与基本系统结构- 5.3 符号学习方法- 5.4 实例学习方法- 章节小结- 课后思考题- 课后习题◇第六章神经网络- 课前索引- 6.1 概述- 6.2 前馈型人工神经网络- 6.3 反馈神经网络- 6.4 自组织竞争人工神经网络- 6.5 神经网络在模式识别中的应用- 章节小结- 课后思考题◇第七章自然语言处理- 课前索引- 7.1 概述- 7.2 句法分析- 7.3 词性标注- 章节小结- 课后思考题- 课后习题◇第八章智能体- 课前索引- 8.1 智能体概述- 8.2 多智能体- 8.3 智能体之间的通讯- 8.4 智能体体系结构- 章节小结- 课后思考题。
3.2.1确定性方法以产生式作为知识表示的MYCIN 中,第一次使用了不确定性推理方法,给出了以确定性因子(Certainty Factor)或称可信度作为不确定性的度量。
1. 规则的不确定性度量规则以A →B 表示(认为A 为证据,B 为假设),其中前提A 可以是一些命题的合取或析取。
MYCIN 系统引入可信度CF 作为规则不确定性度量。
CF 表示了增量P (B|A)-P(B)相对于P(B)或P(~B)的比值。
其中P 表概率。
( P(B|A)表示事件A 已发生的条件下事件B 发生的概率) 规定 )()|( )()()|()()|( )()()|(),(B P A B P B P B P A B P B P A B P B P I B P A B P A B CF <-≥--⎩⎨⎧= CF(B,A)表示了证据A 为真时,相对于P(~B)=1-P(B)来说A 对B 为真的支持程度(当CF (B,A )≥0)。
或相对于P(B)来说A 对B 为真的不支持程度(当CF (B,A )<0)。
这种定义形式保证了-1≤CF(B,A)≤1当P(B|A)-P(B)相同时,P(B)小的CF小,P(B)大的CF大。
所以,CF(B,A)表达了证据A对假设B的影响程度。
CF(B,A)的几个特殊值:(1)前提A真,结论B必真的情形:由P(B|A)=1来体现,这时CF(B,A)=1。
(2)前提A与结论B无关的情形:由P(B|A)=P(B)来体现,这时CF(B,A)=0。
(3)前提A真,结论B必假的情形:由P(B|A)=0来体现,这时CF(B,A)= -1。
显然CF(B,A)≥0表示前提A真支持B真。
CF(B,A)<0表示前提A真不支持B真。
不难看出,CF(B,A)的定义借用了概率,但它本身并不是概率。
因为CF(B,A)可取负值,CF(B,A)+CF(B,~A)不必为1甚至可能为0。
实际应用中,A→B的CF(B,A)值是由专家主观确定的,并不是由P(B|A)来计算的。
3.3主观Bayes 方法以语义网络表示的PROSPECTOR 系统,采用了主观Bayes 方法来度量不确定性。
引入两个数值(LS,LN) 作度量,LS 表示规则成立的充分性,LN 表示规则成立的必要性,这种表示既考虑了A 的出现对B 的支持,又考虑了A 的不出现对B 的影响。
3.3.1 对规则的不确定性度量直接使用Bayes 公式来做度量时,在计算P(B|A)时需要已知P(A|B),为避开这个困难,提出了主观Bayes 方法。
对规则A →B 的不确定性f(B,A)以(LS,LN)来描述。
(1)LS 和LN 的定义)|~(~)|(~ )|~()|(B A P B A P LN B A P B A P LS ==(2)建立几率函数)(1)()(X P X P X O -=表示的是证据X 的出现概率与不出现概率之比,显然随P(X)的加大O (X )也加大,而且有P(X)=0时 O(X)=0 (X 为假时)P(X)=1时 O(X)=∞ (X 为真时)这样,取值[0,1]的P(X)放大为取值[0,∞]便得O(X)。
(3)推导修改的Bayes 公式由于)()(~)|~()|(~)()()|()|(A P B P B A P A B P A P B P B A P A B P == 两者相比得)(~)()|~()|()|(~)|(B P B P B A P B A P A B P A B P ∙=这就是O (B|A)=LS ·O(B)相仿地也可得O(B|~A)=LN ·O(B)这两个公式就是修改的Bayes 公式。
称O(B)为结论的先验几率,称O (B|A)为结论的后验几率。
可以看出:● LS 表示A 真时,对B 为真的影响程度,表示规则A →B 成立充分性。
● LN 表A 假对B 为真的影响程度,表示规则A →B 成立的必要性。
(4)LS 和LN 的意义⎪⎩⎪⎨⎧<<>>== O(B),A)|O(B 1 O(B),)|B ( 1 O(B)A)|O(B ,1B A B A A O B A LS 不支持即当,支持即当,没有影响对,即当 ⎪⎩⎪⎨⎧<<>>==B A B A A B A LN 不支持即当,支持即当,没有影响对,即当~ O(B),A)|~O(B1~ O(B),)|~(O(B 1~O(B)A)|~O(B ,1 (5)LS 和LN 的关系由LS ,LN 的定义知,LS ,LN 均≥0,而且LS ,LN 不是独立取值的,只能出现以下3种情况:LS>1,LN<1LS<1,LN>1LS = LN = 1由于A 和~A 不会同时支持或排斥B ,所以不能出现两者同时>1或同时<1。
3.3 主观Bayes方法R.O.Duda等人于1976年提出了一种不确定性推理模型。
在这个模型中,他们称推理方法为主观Bayes方法,并成功的将这种方法应用于地矿勘探系统PROSPECTOR中。
在这种方法中,引入了两个数值(LS,LN),前者体现规则成立的充分性,后者则表现了规则成立的必要性,这种表示既考虑了事件A的出现对其结果B的支持,又考虑了A的不出现对B的影响。
在上一节的CF方法中,CF(A)<0.2就认为规则不可使用,实际上是忽视了A不出现的影响,而主观Bayes方法则考虑了A 不出现的影响。
t3-B方法_swf.htmBayes定理:设事件A1,A2 ,A3 ,…,An中任意两个事件都不相容,则对任何事件B有下式成立:该定理就叫Bayes定理,上式称为Bayes公式。
全概率公式:可写成:这是Bayes定理的另一种形式。
Bayes定理给出了一种用先验概率P(B|A),求后验概率P (A|B)的方法。
例如用B代表发烧,A代表感冒,显然,求发烧的人中有多少人是感冒了的概率P(A|B)要比求因感冒而发烧的概率P(B|A)困难得多。
3.3.1 规则的不确定性为了描述规则的不确定性,引入不确定性描述因子LS, LN:对规则A→B的不确定性度量f(B,A)以因子(LS,LN)来描述:表示A真时对B的影响,即规则成立的充分性表示A假时对B的影响,即规则成立的必要性实际应用中概率值不可能求出,所以采用的都是专家给定的LS, LN值。
从LS,LN的数学公式不难看出,LS表征的是A的发生对B发生的影响程度,而LN表征的是A的不发生对B发生的影响程度。
几率函数O(X):即,表示证据X的出现概率和不出现的概率之比,显然O(X)是P(X)的增函数,且有:P(X)=0,O(X)=0P(X)=0.5,O(X)=1P(X)=1,O(X)=∞,几率函数实际上表示了证据X的不确定性。
几率函数与LS,LN的关系:O(B|A) = LS·O(B)O(B|~A) = LN·O(B)几个特殊值:LS、LN≥0,不独立。
(人工智能)人工智能原理教案章不确定性推理方法证据理论(人工智能)人工智能原理教案章不确定性推理方法证据理论3.4证据理论0.前言●主观Bayes方法必须给出先验概率。
●Dempster和Shafer提出的证据理论,可用来处理这种由不知道所引起的不确定性。
●证据理论采用信任函数而不是概率作为不确定性度量,它通过对壹些事件的概率加以约束来建立信任函数而不必说明精确的难于获得的概率。
●证据理论满足比概率论更弱的公理系统,当这种约束限制为严格的概率时(即概率值已知时),证据理论就退化为概率论了。
1.证据的不确定性度量(1)基本理论辨别框概念:设U为假设x的所有可能的穷举集合,且设U 中的各元素间是互斥的,我们称U为辨别框(Frameofdiscernment)。
设U的元素个数为N,则U的幂集合2U的元素个数为2N,每个幂集合的元素对应于壹个关于x取值情况的命题(子集)。
对任壹AU,命题A表示了某些假设的集合(这样的命题间不再有互斥性)。
针对医疗诊断问题,U就是所有可能疾病(假设)的集合,诊断结果必是U中确定的元素构成的。
A表示某壹种(单元素)或某些种疾病。
医生为了进行诊断所进行的各种检查就称作证据,有的证据所支持的常不只是壹种疾病而是多种疾病,即U的壹子集A。
定义1:基本概率分配函数(Basicprobabilityassignment):对任壹个属于U的子集A(命题),命它对应于壹个数m∈[0,1],而且满足则称函数m为幂集2U上的基本概率分配函数bpa,称m(A)为A 的基本概率数。
m(A)表示了证据对U的子集A成立的壹种信任的度量,取值于[0,1],而且2U中各元素信任的总和为1。
m(A)的意义为●若A?U且A≠U,则m(A)表示对A的确定信任程度。
●若A=U,则m(A)表示这个数不知如何分配(即不知道的情况)。
例如,设U={红,黄,白},2U上的基本概率分配函数m为m({},{红},{黄},{白},{红,黄},{红,白},{黄,白},{红,黄,白})=(0,0.3,0,0.1,0.2,0.2,0,0.2)其中,m({红})=0.3表示对命题{红}的确定信任度。
3.4 证据理论(D-S Theory)证据理论由Dempster首先提出,并由他的学生Shafer发展起来,也称D-S理论。
在专家系统的不精确推理中已得到广泛的应用, 也用在模式识别系统中。
证据理论中引入了信任函数,它满足概率论弱公理。
在概率论中,当先验概率很难获得,但又要被迫给出时,用证据理论能区分不确定性和不知道的差别。
所以它比概率论更合适于专家系统推理方法。
当概率值已知时,证据理论就成了概率论。
因此,概率论是证据理论的一个特例,有时也称证据沦为广义概率论。
在:8080/UGAIWWW/lectures/dempster.html 上有关于Dempster-Shafer理论的英文介绍。
在/Dse.htm上有免费的利用证据理论实现的程序Dempster Shafer Engine下载。
有兴趣的读者可以安装这一软件,看看运行效果。
这是我们已经下载下来的程序包:DempsterShaferEngine.zip。
3.4.1 证据的不确定性证据用集合来表示:如U中的每个元素代表一种疾病。
讨论一组疾病A发生的可能性时,A就变成了单元的集合。
U内元素A i间是互斥的,但Ai中元素间是不互斥的。
图3-4证据理论集合空间分布示意图t3-4_swf.htm例如U可以表示疾病空间,而每个Ai可以是一类疾病,各类疾病之间是可以交叉的(同时得多种疾病),但是各类疾病本身是不同的。
证据理论定义了多个函数值来描述证据及规则的不确定性,其中包括:分配函数、信任函数和似然函数,分别定义如下。
·基本概率分配函数m:2U→[0,1]。
m(Φ) = 0 空的为零Σm(A) = 1 全空间的和为1(A属于U)基本概率分配函数是在U的幂集2U 上定义的,取值范围是[0,1]。
基本概率函数的物理意义是:若A属于U,且不等于U,表示对A的精确信任度若A等于U,表示这个数不知如何分配·信任函数Bel:2U→[0,1]。
3.5贝叶斯网络贝叶斯网络是一系列变量的联合概率分布的图形表示。
一般包含两个部分,一个就是贝叶斯网络结构图,这是一个有向无环图(DAG),其中图中的每个节点代表相应的变量,节点之间的连接关系代表了贝叶斯网络的条件独立语义。
另一部分,就是节点和节点之间的条件概率表(CPT),也就是一系列的概率值。
如果一个贝叶斯网络提供了足够的条件概率值,足以计算任何给定的联合概率,我们就称,它是可计算的,即可推理的。
3.5.1贝叶斯网络基础首先从一个具体的实例(医疗诊断的例子)来说明贝叶斯网络的构造。
假设:命题S(moker):该患者是一个吸烟者命题C(oal Miner):该患者是一个煤矿矿井工人命题L(ung Cancer):他患了肺癌命题E(mphysema):他患了肺气肿命题S对命题L和命题E有因果影响,而C对E也有因果影响。
命题之间的关系可以描绘成如右图所示的因果关系网。
因此,贝叶斯网有时也叫因果网,因为可以将连接结点的弧认为是表达了直接的因果关系。
图3-5贝叶斯网络的实例tp3_5_swf.htm图中表达了贝叶斯网的两个要素:其一为贝叶斯网的结构,也就是各节点的继承关系,其二就是条件概率表CPT。
若一个贝叶斯网可计算,则这两个条件缺一不可。
贝叶斯网由一个有向无环图(DAG)及描述顶点之间的概率表组成。
其中每个顶点对应一个随机变量。
这个图表达了分布的一系列有条件独立属性:在给定了父亲节点的状态后,每个变量与它在图中的非继承节点在概率上是独立的。
该图抓住了概率分布的定性结构,并被开发来做高效推理和决策。
贝叶斯网络能表示任意概率分布的同时,它们为这些能用简单结构表示的分布提供了可计算优势。
假设对于顶点x i,其双亲节点集为P ai,每个变量x i的条件概率P(x i|P ai)。
则顶点集合X={x1,x2,…,x n}的联合概率分布可如下计算:双亲结点。
该结点得上一代结点。
该等式暗示了早先给定的图结构有条件独立语义。
它说明贝叶斯网络所表示的联合分布作为一些单独的局部交互作用模型的结果具有因式分解的表示形式。
从贝叶斯网的实例图中,我们不仅看到一个表示因果关系的结点图,还看到了贝叶斯网中的每个变量的条件概率表(CPT)。
因此一个完整的随机变量集合的概率的完整说明不仅包含这些变量的贝叶斯网,还包含网中变量的条件概率表。
图例中的联合概率密度:P(S,C,L,E)=P(E|S,C)*P(L|S)*P(C)*P(S)推导过程:P(S,C,L,E)=P(E|S,C,L)*P(L|S,C)*P(C|S)*P(S)(贝叶斯定理)=P(E|S,C)*P(L|S)*P(C)*P(S)即:P(E|S,C,L)=P(E|S,C),E与L无关P(L|S,C)=P(L|S)L与C无关P(C|S)=P(C)C与S无关以上三条等式的正确性,可以从贝叶斯网的条件独立属性推出:每个变量与它在图中的非继承节点在概率上是独立的。
相比原始的数学公式:P(S,C,L,E)=P(E|S,C,L)*P(L|S,C)*P(C|S)*P(S)推导过程:由贝叶斯定理,P(S,C,L,E)=P(E|S,C,L)*P(S,C,L)再由贝叶斯定理P(S,C,L)=P(L|S,C)*P(S,C)同样,P(S,C)=P(C|S)*P(S)以上几个等式相乘即得原式。
显然,简化后的公式更加简单明了,计算复杂度低很多。
如果原贝叶斯网中的条件独立语义数量较多,这种减少更加明显。
贝叶斯网络是一系列变量的联合概率分布的图形表示。
这种表示法最早被用来对专家的不确定知识编码,今天它们在现代专家系统、诊断引擎和决策支持系统中发挥了关键作用。
贝叶斯网络的一个被经常提起的优点是它们具有形式的概率语义并且能作为存在于人类头脑中的知识结构的自然映像。
这有助于知识在概率分布方面的编码和解释,使基于概率的推理和最佳决策成为可能。
3.5.2贝叶斯网的推理模式在贝叶斯网中有三种重要的推理模式,因果推理(由上向下推理),诊断推理(自底向上推理)和辩解。
3.5.2.1因果推理让我们通过概述的实例来说明因果推理得过程。
给定患者是一个吸烟者(S),计算他患肺气肿(E)的概率P(E|S)。
S称作推理的证据,E叫询问结点。
首先,我们寻找E的另一个父结点(C),并进行概率扩展P(E|S)=P(E,C|S)+P(E,~C|S);即,吸烟的人得肺气肿的概率为吸烟得肺气肿又是矿工的人的概率与吸烟得肺气肿不是矿工的人的概率之和,也就是全概率公式。
然后利用Bayes定理:P(E|S)=P(E|C,S)*P(C|S)+P(E|~C,S)*P(~C|S);公式解释:P(E,C|S)=P(E,C,S)/P(S)=P(E|C,S)*P(C,S)/P(S)(贝叶斯定理)=P(E|C,S)*P(C|S)(反向利用贝叶斯定理)同理可以得出P(E,~C|S)的推导过程。
需要寻找该表达式的双亲结点的条件概率,重新表达联合概率(指P(E,C|S),P(E,~C|S))。
在图中,C和S并没有双亲关系,符合条件独立条件:P(C|S)=P(C),P(~C|S)=P(~C),由此可得:P(E|S)=P(E|S,C)*P(C)+P(E|~C,S)*P(~C)如果采用概述中的例题数据,则有P(E|S)=0.9*0.3+0.3*(1-0.3)=0.48从这个例子中,不难得出这种推理的主要操作:1)按照给定证据的V和它的所有双亲的联合概率,重新表达给定证据的询问结点的所求条件概率。
2)回到以所有双亲为条件的概率,重新表达这个联合概率。
3)直到所有的概率值可从CPT表中得到,推理完成。
3.5.2.2诊断推理同样以概述中的例题为例,我们计算"不得肺气肿的不是矿工"的概率P(~C|~E),即在贝叶斯网中,从一个子结点计算父结点的条件概率。
也即从结果推测一个起因,这类推理叫做诊断推理。
使用Bayes公式就可以把这种推理转换成因果推理。
P(~C|~E)=P(~E|~C)*P(~C)/P(~E),从因果推理可知P(~E|~C)=P(~E,S|~C)+P(~E,~S|~C)=P(~E|S,~C)*P(S)+P(~E|~S,~C)*P(~S)=(1-0.3)*0.4+(1-0.10)*(1-0.4)=0.82;由此得:P(~C|~E)=P(~E|~C)*P(~C)/P(~E)(贝叶斯公式)=0.82*(1-0.3)/P(~E)=0.574/P(~E)同样的,P(C|~E)=P(~E|C)*P(C)/P(~E)=0.34*0.3/P(~E)=0.102/P(~E)由于全概率公式:P(~C|~E)+P(C|~E)=1代入可得P(~E)=0.676所以,P(~C|~E)=0.849这种推理方式主要利用Bayes规则转换成因果推理。
3.5.2.3辩解如果我们的证据仅仅是~E(不是肺气肿),象上述那样,我们可以计算~C患者不是煤矿工人的概率。
但是如果也给定~S(患者不是吸烟者),那么~C也应该变得不确定。
这种情况下,我们说~S解释~E,使~C变得不确定。
这类推理使用嵌入在一个诊断推理中的因果推理。
作为思考题,读者可以沿着这个思路计算上式。
在这个过程中,贝叶斯规则的使用,是辩解过程中一个重要的步骤。
3.5.3D分离在本节最开始的贝叶斯网图中,有三个这样的结点:S,L,E。
从直观来说,L的知识(结果)会影响S的知识(起因),S 会影响E的知识(另一个结果)。
因此,在计算推理时必须考虑的相关因素非常多,大大影响了算法的计算复杂度,甚至可能影响算法的可实现性。
但是如果给定原因S,L并不能告诉我们有关E的更多事情。
即对于S,L和E是相对独立的,那么在计算S和L的关系时就不用过多地考虑E,将会大大减少计算复杂度。
这种情况下,我们称S能D分离L和E。
D分离是一种寻找条件独立的有效方法。
如下图,对于给定的结点集ε,如果对贝叶斯网中的结点V i 和V j之间的每个无向路径,在路径上有某个结点V b,如果有属性:1)V b在ε中,且路径上的两条弧都以V b为尾(即弧在V b 处开始(出发))2)V b在ε中,路径上的一条弧以V b为头,一条以V b为尾3)V b和它的任何后继都不在ε中,路径上的两条弧都以V b 为头(即弧在V b处结束)则称V i和V j被V b结点阻塞。
结论:如果V i和V j被证据集合ε中的任意结点阻塞,则称V i和V j是被ε集合D分离,结点V i和V j条件独立于给定的证据集合ε,即P(V i|V j,ε)=P(V i|ε)P(V j|V i,ε)=P(V j|ε)表示为:I(V i,V j|ε)或I(V j,V i|ε)无向路径:DAG图是有向图,所以其中的路径也应该是有向路径,这里所指的无向路径是不考虑DAG图中的方向性时的路径。
条件独立:如具有以上三个属性之一,就说结点V i和V j条件独立于给定的结点集ε。
阻塞:给定证据集合ε,当上述条件中的任何一个满足时,就说V b阻塞相应的那条路径。
D分离:如果V i和V j之间所有的路径被阻塞,就叫证据集合ε可以D分离V i和V j注意:在论及路径时,是不考虑方向的;在论及"头"和"尾"时,则必须考虑弧的方向。
"头"的含义是箭头方向(有向弧)的终止点,"尾"的含义是箭头方向(有向弧)的起始点。
图3-6通过阻塞结点的条件独立t3-7_swf.htm这一分析过程从上图中可以直观的看出来。
D分离的概念也可应用于集合。
给定证据集合ε,如果集合εi中所有结点和集合εj中的所有结点之间的每条无向路径被阻塞,则称εi和εj被ε集合D分离。
回到最开始的医疗诊断实例:为简单起见,选择证据集合ε为单个结点集合。
对于给定的结点S,结点E阻塞了结点C和结点L之间的路径,因此C和L是条件独立的,有I(C,L|S)成立。
而对于给定结点E,S和L之间找不到阻塞结点。
因此,S 和L不是条件独立的。
即使使用了D分离,一般地讲,在贝叶斯网中,概率推理仍是NP难题。
然而,有些简化能在一个叫Polytree的重要网络分类中使用。
一个Polytree网是一个DAG,在该DAG的任意两个结点间,顺着弧的每一个方向只有一条路径。
如图就是一个典型的Polytree。
图3-7Polytreet3-7_swf.htmD分离的实质就是寻找贝叶斯网中的条件独立语义,以简化推理计算。
总结本节就Bayes网络的基本问题进行了阐述,着重点在推理计算上。
其本质就是通过各种方法寻找网络中的条件独立性,达到减少计算量和复杂性的目的。
这些都只是粗浅的描述,进一步的学习,请参考相应的参考书的"Polytree的概率推理"和"Bayes网的学习和动作"等章节,其中有很详细的阐述。