数据挖掘的分类和预测精品PPT课件

  • 格式:ppt
  • 大小:929.50 KB
  • 文档页数:27

下载文档原格式

  / 27
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

yes
邮寄电子商品促销材料的例子
➢ 假定我们有一个 All Electronics 的邮寄清 单数据库。邮寄清单用于分发介绍新产 品和降价信息材料。数据库描述顾客的 属性,如他们的姓名、年龄、收入、职 业和信誉度。顾客可以按他们是否在 All Electronics购买计算机分类。假定新的顾 客添加到数据库中,你想将新计算机的 销售信息通知顾客。将促销材料分发给 数据库中的每个新顾客的费用可能很高。 一个更有效的方法是只给那些可能买新 计算机的顾客寄材料。为此,可以构造 和使用分类模型。
no
Mary Assistant Prof 7
yes
Bill Professor
2
yes
Jim Associate Prof 7
yes
Dave Assistant Prof 6
no
Anne Associate Prof 3
no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
➢ 学习模型可以用判定树、分类规则或数学公式的形式提供
第二步,使用模型,对将来的或未知的对象进行分类
➢ 首先评估模型的预测准确率
a) 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较
b) 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分 比
c) 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况
31…40 high
no fair
>40 medium no fair
>40 low
yes fair
>40 low
yes excellent
31…40 low
yes excellent
<=30 medium no fair
<=30 low
yes fair
>40 medium yes fair
<=30 medium yes excellent
第二步——用模型进行分类
分类规则
测试集
未知数据
(Jeff, Professor, 4)
NAME RANK
YEARSTENURED
Tom Assistant Prof 2
no
Tenured?
Merlisa AssociateProf 7
no
George Professor
5
yes
Joseph Assistant Prof 7
➢ 树剪枝 • 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝 试图检测和剪去这种分枝
判定树的使用:对未知样本进行分类
➢ 通过将样本的属性值与判定树相比较
训练数据集
age income student credit_rating
<=30 high
no fair
<=30 high
no excellent
型的能力 5. 可解释性:学习模型提供的理解和洞察
的层次
用判定树归纳分类
什么是判定树?
➢ 类似于流程图的树结构 ➢ 每个内部节点表示在一个属性上的测试 ➢ 每个分枝代表一个测试输出 ➢ 每个树叶节点代表类或类分布
判定树的生成由两个阶段组成
➢ 判定树构建 • 开始时,所有的训练样本都在根节点 • 递归的通过选定的属性,来划分样本 (必须是离散值)
• (6) 选择 attribute_list 中具有最高信息增益的属性 test_attribute;
• (7) 标记结点 N 为 test_attribute;
• (8) for each test_attribute 中的未知值 a i //partition the samples
关于分类和预测的问题
准备分类和预测数据 比较分类方法
准备分类和预测的数据
通过对数据进行预处理,可以提高分类和预 测过程的准确性、有效性和可伸缩性
数据清理
消除或减少噪声,处理空缺值,从而减少学习时的混 乱
相关性分析
数据中的有些属性可能与当前任务不相关;也有些属 性可能是冗余的;删除这些属性可以加快学习步骤, 使学习结果更精确
age? <=30 ov30e.r.c4a0st
student?
yes
>40 credit rating?
no
yes
no
Байду номын сангаас
yes
excellent fair
no
yes
由训练样本归纳判定树的基本算法
• 算法:Generate_decision_tree。由给定的训练数据产生一棵判定树。
• 输入:训练样本 samples,由离散值属性表示;候选属性的集合 attribute_list。
分类和预测
分类和预测的相关定义 探讨如何进行数据分类 邮寄电子商品促销材料的
例子 属性选择度量
数据分类——一个两步过程
第一步,建立一个模型,描述预定数据类集和概念集
➢ 假定每个元组属于一个预定义的类,由一个类标号属性确

训练数据集:由为建立模型而被分析的数据元组形成
➢ 基本概念 训练样本:训练数据集中的单个样本(元组)
• 输出:一棵判定树。
• 方法:
• (1) 创建结点 N;
• (2) if samples 都在同一个类 C then
• (3) return N 作为叶结点,以类 C标记;
• (4) if attribut_list 为空 then
• (5) return N 作为叶结点,标记为 samples 中最普通的类; //majority voting
分类和预测的异同点
相同点: ➢ 两者都需要构建模型 ➢ 都用模型来估计未知值
不同点: ➢ 分类法主要是用来预测类标号(分类
属性值) ➢ 预测法主要是用来估计连续值(量化
属性值)
第一步——建立模型
训练数 据集
分类算法
NAME RANK
YEARS TENURED
Mike Assistant Prof 3
数据变换
可以将数据概化到较高层概念,或将数据进行规范化
比较分类方法
使用下列标准比较分类和预测方法
1. 预测的准确率:模型正确预测新数据的 类编号的能力
2. 速度:产生和使用模型的计算花销 3. 健壮性:给定噪声数据或有空缺值的数
据,模型正确预测的能力 4. 可伸缩性:对大量数据,有效的构建模
31…40 medium no excellent
31…40 high
yes fair
>40 medium no excellent
buys_computer no no yes yes yes no yes no yes yes yes yes yes no
返回
概念“buys_computer”的判定树