数据挖掘的分类和预测精品PPT课件

格式：ppt
大小：929.50 KB
文档页数：27

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

yes
邮寄电子商品促销材料的例子
➢ 假定我们有一个 All Electronics 的邮寄清单数据库。邮寄清单用于分发介绍新产品和降价信息材料。数据库描述顾客的属性，如他们的姓名、年龄、收入、职业和信誉度。顾客可以按他们是否在 All Electronics购买计算机分类。假定新的顾客添加到数据库中，你想将新计算机的销售信息通知顾客。将促销材料分发给数据库中的每个新顾客的费用可能很高。一个更有效的方法是只给那些可能买新计算机的顾客寄材料。为此，可以构造和使用分类模型。
no
Mary Assistant Prof 7
yes
Bill Professor
2
yes
Jim Associate Prof 7
yes
Dave Assistant Prof 6
no
Anne Associate Prof 3
no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
➢ 学习模型可以用判定树、分类规则或数学公式的形式提供
第二步，使用模型，对将来的或未知的对象进行分类
➢ 首先评估模型的预测准确率
a) 对每个测试样本，将已知的类标号和该样本的学习模型类预测比较
b) 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比
c) 测试集要独立于训练样本集，否则会出现“过分适应数据”的情况
31…40 high
no fair
>40 medium no fair
>40 low
yes fair
>40 low
yes excellent
31…40 low
yes excellent
<=30 medium no fair
<=30 low
yes fair
>40 medium yes fair
<=30 medium yes excellent
第二步——用模型进行分类
分类规则
测试集
未知数据
(Jeff, Professor, 4)
NAME RANK
YEARSTENURED
Tom Assistant Prof 2
no
Tenured?
Merlisa AssociateProf 7
no
George Professor
5
yes
Joseph Assistant Prof 7
➢ 树剪枝 • 许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测和剪去这种分枝
判定树的使用：对未知样本进行分类
➢ 通过将样本的属性值与判定树相比较
训练数据集
age income student credit_rating
<=30 high
no fair
<=30 high
no excellent
型的能力 5. 可解释性：学习模型提供的理解和洞察
的层次
用判定树归纳分类
什么是判定树？
➢ 类似于流程图的树结构 ➢ 每个内部节点表示在一个属性上的测试 ➢ 每个分枝代表一个测试输出 ➢ 每个树叶节点代表类或类分布
判定树的生成由两个阶段组成
➢ 判定树构建 • 开始时，所有的训练样本都在根节点 • 递归的通过选定的属性，来划分样本（必须是离散值）
• (6) 选择 attribute_list 中具有最高信息增益的属性 test_attribute；
• (7) 标记结点 N 为 test_attribute；
• (8) for each test_attribute 中的未知值 a i //partition the samples
关于分类和预测的问题
准备分类和预测数据比较分类方法
准备分类和预测的数据
通过对数据进行预处理，可以提高分类和预测过程的准确性、有效性和可伸缩性
数据清理
消除或减少噪声，处理空缺值，从而减少学习时的混乱
相关性分析
数据中的有些属性可能与当前任务不相关；也有些属性可能是冗余的；删除这些属性可以加快学习步骤，使学习结果更精确
age? <=30 ov30e.r.c4a0st
student?
yes
>40 credit rating?
no
yes
no
Байду номын сангаас
yes
excellent fair
no
yes
由训练样本归纳判定树的基本算法
• 算法：Generate_decision_tree。由给定的训练数据产生一棵判定树。
• 输入：训练样本 samples，由离散值属性表示；候选属性的集合 attribute_list。
分类和预测
分类和预测的相关定义探讨如何进行数据分类邮寄电子商品促销材料的
例子属性选择度量
数据分类——一个两步过程
第一步，建立一个模型，描述预定数据类集和概念集
➢ 假定每个元组属于一个预定义的类，由一个类标号属性确
定
训练数据集：由为建立模型而被分析的数据元组形成
➢ 基本概念训练样本：训练数据集中的单个样本（元组）
• 输出：一棵判定树。
• 方法：
• (1) 创建结点 N；
• (2) if samples 都在同一个类 C then
• (3) return N 作为叶结点，以类 C标记；
• (4) if attribut_list 为空 then
• (5) return N 作为叶结点，标记为 samples 中最普通的类； //majority voting
分类和预测的异同点
相同点： ➢ 两者都需要构建模型 ➢ 都用模型来估计未知值
不同点： ➢ 分类法主要是用来预测类标号（分类
属性值） ➢ 预测法主要是用来估计连续值（量化
属性值）
第一步——建立模型
训练数据集
分类算法
NAME RANK
YEARS TENURED
Mike Assistant Prof 3
数据变换
可以将数据概化到较高层概念，或将数据进行规范化
比较分类方法
使用下列标准比较分类和预测方法
1. 预测的准确率：模型正确预测新数据的类编号的能力
2. 速度：产生和使用模型的计算花销 3. 健壮性：给定噪声数据或有空缺值的数
据，模型正确预测的能力 4. 可伸缩性：对大量数据，有效的构建模
31…40 medium no excellent
31…40 high
yes fair
>40 medium no excellent
buys_computer no no yes yes yes no yes no yes yes yes yes yes no
返回
概念“buys_computer”的判定树

数据挖掘的分类和预测精品PPT课件

相关主题

文档推荐

最新文档