数据挖掘PPT课件

  • 格式:pptx
  • 大小:2.74 MB
  • 文档页数:32

下载文档原格式

  / 32
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假设有: 根据buys_computer对X分类。 触发:如果规则被X满足,则称该规则被触发, 激活:如果R1是唯一满足的规则,则该规则激活 解决多个规则被触发冲突的策略:
.
基于规则的分类
解决不存在X满足的问题: 建立一个省却或默认规则 默认规则的条件为空,当且仅当没有其他规则覆盖X时,最后才使用 默认规则。
P(X/H ):条件H下,X的后验概率。
P(X):X的先验概率 如何估计这些概率? P(X)、 P(H)、 P(X/H )由给定的数据估计。

.
朴素贝叶斯分类
朴素贝叶斯(
)分类
朴素贝叶斯分类法是一种简单贝叶斯分类法,其假定一个属性值 在给定类上的影响独立于其他属性的值,这一假定称为类条件独 立。
.
基于规则的分类
由决策树提取规则
.
基于规则的分类
由决策树提取规则 决策树提取规则的方法: 对每条从根到树叶节点的路径创建一个规则 沿着给定路径上的每个分裂准则的逻辑AND形成规则的 前件 存放类预测的树叶结点形成规则的后件
.
基于规则的分类
使用顺序覆盖算法(
)的规则归纳
对剩下的元组重复该过程直到终止条件
第八章:分类
LOGO
分类
贝叶斯分类法 • 贝叶斯定理 • 朴素贝叶斯定理 基于规则的分类
提高分类准确率的技术
.
贝叶斯定理
贝叶斯定理 X:数据元组,用n个属性集的测量值描述。 H:某种假设, P(H/X):后验概率(posterior p
robability) P(H):先验概率(prior probability)
.
朴素贝叶斯分类
希望分类的元组
.
朴素贝叶斯分类
.
朴素贝叶斯分类
朴素贝叶斯分类法的工作工程如下:
.
朴素贝叶斯分类
.
朴素贝叶斯分类
.
朴素贝叶斯分类
零值问题的解决
.
朴素贝叶斯分类方法
增量:每次训练的样本可以逐步增加/减少一个假设是正 确的可能性——先验知识可与观测数据相结合 优点:高准确率,高速度 缺点:类条件独立性损失精度
.
基于规则的分类
.
基于规则的分类
规则从一般到特殊的方式增长,成束状搜索(

采用一种贪心的深度优先策略
.
基于规则的分类
规则质量度量 准确率
基于信息增益
一阶归纳学习器(

.
基于规则的分类
统计显著性检验
似然率统计量(

.
分类
贝叶斯分类法
基于规则的分类 提高分类准确率的技术 • 组合分类方法简介 • 装袋 • 提升和AdaBoost • 随机森林 • 提高类不平衡数据的分类准确性
.
分类
贝叶斯分类法
基于规则的分类 • 使用IF—THEN规则分类 • 由决策树提取规则 • 使用顺序覆盖算法的规则归纳 提高分类准确率的技术
.
基于规则的分类
基于规则的分类器使用一组IF-THEN规则表示。 规则的表达形式:
.
基于规则的分类
覆盖率和准确率是用来评估R的标准:
.
基于规则的分类

.
提高分类准确率的技术
Adaboost是一种流行的提升算法
元组错误分Байду номын сангаас的权重和
.
.
提高分类准确率的技术
随机森林(Random Forest)
组合来产生新属性(降低了单个分类器间的相关性)
.
提高分类准确率的技术
提高类不平衡数据的分类准确率
误的机会 组合技术
.
.
提高分类准确率的技术
组合分类方法(
)简介
组合分类器是一个复合模型,由多个分类器组合而成,基于投票
返回类标号预测。
常见的组合分类器有装袋、提升、随机森林
.
提高分类准确率的技术
装袋(bagging) 训练
预测:每个分类器预测值的平均值
.
提高分类准确率的技术
.
提高分类准确率的技术
提升(boosting)和Adaboost(