朴素贝叶斯分类算法演示

  • 格式:ppt
  • 大小:1.56 MB
  • 文档页数:160

下载文档原格式

  / 160
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

典型决策树
决策树分类例题演示1
某银行训练数据下表,
请利用决策树分类方法预测类标号未知的新样本 {“是”,“5000~10000”,“<2”,“是”,?},其类标号属 性为流失或不流失.
是否定期
存款数
月业务频率 是否投资
"否" "10000~20000" "5~10"
"不是"
"否"
"5000~10000"
未知样本:{“是”,“5000~10000”,“<2”,“是”,?}
存款数
10000~20000
不流失
<5000
流失
=0
>30000 5000~10000
20000~30000
月业务频率
不流失
2~5
流失
不流失
<2
流失
不流失
决策树分类例题演示2
Tid 有房者 婚姻状态 年收入
1 Yes 2 No 3 No 4 Yes 5 No 6 No 7 Yes 8 No 9 No 10 No
Single, Divorced
Married
< 80K
年收入
NO > 80K
NO
YES
应用模型测试数据
有房者
Yes
No
有房者
No
10
测试数据
婚姻状态 年收入 Married 80K
拖欠房款 ?
NO
婚姻状态
Single, Divorced
Married
年收入
NO
< 80K
> 80K
NO
Single, Divorced
Married
< 80K
年收入
NO > 80K
NO
YES
应用模型测试数据
有房者 No
10
测试数据
婚姻状态 年收入 拖欠房款
Married 80K ?
有房者
Yes
No
NO
婚姻状态
Single, Divorced
Married
年收入
NO
< 80K
> 80K
NO
YES
应用模型测试数据
有房者
Yes
No
NO
婚姻状态
Single, Divorced
Married
< 80K
年收入
NO > 80K
NO
YES
决策树模型
应用模型测试数据
Start from the root of tree.
有房者
有房者
Yes
No
No
10
测试数据
婚姻状态 年收入 拖欠房款 Married 80K ?
NO
婚姻状态
有房者
Yes
Байду номын сангаас
No
有房者
No
10
测试数据
婚姻状态 年收入
Married 80K
拖欠房款 ?
NO
婚姻状态
Single, Divorced
Married
年收入
NO
< 80K
> 80K
NO
YES
应用模型测试数据
有房者
Yes
No
有房者
No
10
测试数据
婚姻状态 年收入
Married 80K
拖欠房款 ?
NO
婚姻状态
在数据挖掘环境下,预测变量是描述样本的感兴 趣的属性,一般预测变量的值是已知的,响应变 量的值是我们要预测的。当响应变量和所有预测 变量都是连续值时,回归分析是一个好的选择。
回归分析包括:线性回归、非线性回归以及 逻辑回归等。
3.2 决策树分类方法
3.2.1 决策树的基本概念
3.2.1 决策树的基本概念
">10"
"是"
"否"
"20000~30000"
"<2"
"不是"




是否流失 "不流失" "不流失" "流失"

首先,建立决策树
存款数
10000~20000
不流失
<5000
流失
=0
>30000 5000~10000
20000~30000
月业务频率
2~5
流失
不流失
<2
流失
不流失
不流失
然后,使用决策树对未知新样本分类:
股票预测 信用评估 医疗诊断 市场营销 图像分类等 ……
数据挖掘中分类算法归类
分类模型的学习方法大体上主要有以下几类
基于决策树的分类方法 贝叶斯分类方法 K-最近邻分类方法 神经网络方法 支持向量机方法 集成学习方法 ……
回归分析
回归分析可以对预测变量和响应变量之间的 联系建模。
能的分类模型,用于预测未知样本的类标号,如:
根据电子邮件的标题和内容检查出垃圾邮件 根据核磁共振的结果区分肿瘤是恶性还是良性的 根据星系的形状对它们进行分类 划分出交易是合法或欺诈 将新闻分类金融、天气、娱乐体育等
分类与回归的区别
分类和回归都有预测的功能,但是:
分类预测的输出为离散或标称的属性; 回归预测的输出为连续属性值;
决策树(Decision Tree)是一种树型结构,包括:决策节 点(内部节点)、分支和叶节点三个部分。
其中:
决策节点代表某个测试,通常对应于待分类对象的某个属性, 在该属性上的不同测试结果对应一个分支。
叶节点存放某个类标号值,表示一种可能的分类结果。 分支表示某个决策节点的不同取值。
决策树可以用来对未知样本进行分类,分类过程如下: 从决策树的根节点开始,从上往下沿着某个分支往下搜 索,直到叶结点,以叶结点的类标号值作为该未知样本 所属类标号。
分类与回归的例子:
预测未来某银行客户会流失或不流失,这是分类任务; 预测某商场未来一年的总营业额,这是回归任务。
分类的步骤
分类的过程描述如下:
1)首先将数据集划分为2部分:训练集和测试集。 2) 第一步:对训练集学习,构建分类模型。
模型可以是决策树或分类规则等形式。
3) 第二步:用建好的分类模型对测试集分类
第3章 分类与回归
3.1 概述 3.2 决策树分类方法 3.3 贝叶斯分类方法 3.4 K-最近邻分类方法 3.5 神经网络分类方法 3.6 支持向量机 3.7 组合学习方法 3.8 不平衡数据分类问题 3.9 分类模型的评价 3.10 回归方法
3.1 概述
分类的定义
分类是数据挖掘中的一种主要分析手段 分类的任务是对数据集进行学习并构造一个拥有预测功
评估该分类模型的分类准确度及其它性能。
4)最后,使用分类准确度高的分类模型对类标号未知 的未来样本数据进行分类。
分类与聚类的区别
分类因为使用了类标号属性,属于有监督的学习方法 聚类,事先没有使用任何类标号信息,属于无监督的学习
方法
分类的应用
目前分类与回归方法已被广泛应用于各行各业, 如:
10
Single 125K Married 100K Single 70K Married 120K Divorced 95K Married 60K Divorced 220K Single 85K Married 75K Single 90K
训练数据集
拖欠 贷款 No No No No Yes No No Yes No Yes