新的决策树构造方法

格式：pdf
大小：186.78 KB
文档页数：3

下载文档原格式

决策树算法介绍（DOC）

决策树算法介绍（DOC）3.1 分类与决策树概述3.1.1 分类与预测分类是⼀种应⽤⾮常⼴泛的数据挖掘技术，应⽤的例⼦也很多。

例如，根据信⽤卡⽀付历史记录，来判断具备哪些特征的⽤户往往具有良好的信⽤；根据某种病症的诊断记录，来分析哪些药物组合可以带来良好的治疗效果。

这些过程的⼀个共同特点是：根据数据的某些属性，来估计⼀个特定属性的值。

例如在信⽤分析案例中，根据⽤户的“年龄”、“性别”、“收⼊⽔平”、“职业”等属性的值，来估计该⽤户“信⽤度”属性的值应该取“好”还是“差”，在这个例⼦中，所研究的属性“信⽤度”是⼀个离散属性，它的取值是⼀个类别值，这种问题在数据挖掘中被称为分类。

还有⼀种问题，例如根据股市交易的历史数据估计下⼀个交易⽇的⼤盘指数，这⾥所研究的属性“⼤盘指数”是⼀个连续属性，它的取值是⼀个实数。

那么这种问题在数据挖掘中被称为预测。

总之，当估计的属性值是离散值时，这就是分类；当估计的属性值是连续值时，这就是预测。

3.1.2 决策树的基本原理1.构建决策树通过⼀个实际的例⼦，来了解⼀些与决策树有关的基本概念。

表3-1是⼀个数据库表，记载着某银⾏的客户信⽤记录，属性包括“姓名”、“年龄”、“职业”、“⽉薪”、......、“信⽤等级”，每⼀⾏是⼀个客户样本，每⼀列是⼀个属性（字段）。

这⾥把这个表记做数据集D。

银⾏需要解决的问题是，根据数据集D，建⽴⼀个信⽤等级分析模型，并根据这个模型，产⽣⼀系列规则。

当银⾏在未来的某个时刻收到某个客户的贷款申请时，依据这些规则，可以根据该客户的年龄、职业、⽉薪等属性，来预测其信⽤等级，以确定是否提供贷款给该⽤户。

这⾥的信⽤等级分析模型，就可以是⼀棵决策树。

在这个案例中，研究的重点是“信⽤等级”这个属性。

给定⼀个信⽤等级未知的客户，要根据他/她的其他属性来估计“信⽤等级”的值是“优”、“良”还是“差”，也就是说，要把这客户划分到信⽤等级为“优”、“良”、“差”这3个类别的某⼀类别中去。

决策树算法

一个类（buys_computer=yes，或buys_computer=no））
3
第一节决策树算法原理
优点：使用者不需要了解很多背景知识，只要训练事例能用属性 →结论的方式表达出来，就能用该算法学习；决策树模型效率高，对训练集数据量较大的情况较为适合；分类模型是树状结构，简单直观，可将到达每个叶结点的路径转换为IF→THEN形式的规则，易于理解；决策树方法具有较高的分类精确度。
14
第一节决策树算法原理
决策树算法的大体框架都是一样的，都采用了贪心（非回溯的）方法来以自顶向下递归的方式构造决策树。它首先根据所使用的分裂方法来对训练集递归地划分递归地建立树的节点，直至满足下面两个条件之一，算法才停止运行：（ 1）训练数据集中每个子集的记录项全部属于一类或某一个类占压倒性的多数；（2）生成的树节点通过某个终止的分裂准则；最后，建立起决策树分类模型。
4
第一节决策树算法原理
缺点：不易处理连续数据。数据的属性必须被划分为不同的类别才能处理，但是并非所有的分类问题都能明确划分成这个区域类型；对缺失数据难以处理，这是由于不能对缺失数据产生正确的分支进而影响了整个决策树的生成；决策树的过程忽略了数据库属性之间的相关性。
5
第一节决策树算法原理
21
2.1 ID3算法
属性选择度量在树的每个节点上使用信息增益（information gain）度量选择测试属性。这种度量称作属性选择度量或分裂的优良性度量。选择具有最高信息增益（或最大信息熵压缩）的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小，并反映划分的最小随机性或“不纯性”。这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小，并确保找到一棵简单的（但不必是最简单的）树。

决策树算法(PPT36页)

第七章决策树和决策规则
本章目标分析解决分类问题的基于逻辑的方法的特
性. 描述决策树和决策规则在最终分类模型中
的表述之间的区别. 介绍C4.5算法. 了解采用修剪方法降低决策树和决策规则
的复杂度.
决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。
一般来说，分类是把数据项映射到其中一个事先定义的类中的这样一个学习函数的过程。由一组输入的属性值向量(也叫属性向量)和相应的类，用基于归纳学习算法得出分类。
单按上面方式计算。下面先介绍一下C4.5 算法中一般包含3种类型的检验结构：
1.离散值的“标准”检验，对属性的每个可能值有一个分枝和输出。
2.如果属性Y有连续的数值，通过将该值和阈值Z比较，用输出Y≤Z和Y＞Z定义二元检验。
3.基于离散值的更复杂的检验，该检验中属性的每个可能值被分配到许多易变的组中，每组都有一个输出和分枝。
7.2 C4.5算法：生成一个决策树
C4.5算法最重要的部分是由一组训练样本生成一个初始决策树的过程。决策树可以用来对一个新样本进行分类，这种分类从该树的根节点开始，然后移动样本直至达叶节点。在每个非叶决策点处，确定该节点的属性检验结果，把注意力转移到所选择子树的根节点上。
例如，如图7-3a为决策树分类模型，待分类有样本如图7-3b所示，由决策树分类模型可得出待分类样本为类2。(节点A,C,F(叶节点))
=0.694
相应的增益: Gain(x1)=0.94-0.694=0.246
按属性3分区可得子集的熵的加权和：
infox2(T)=6/14(-3/6log2(3/6)-3/6log2(3/6)) +8/14(-6/8log2(6/8)-2/8log2(2/8))

决策树（理论篇）

决策树（理论篇）定义由⼀个决策图和可能的结果（包括资源成本和风险组成），⽤来创建到达⽬的的规划。

——维基百科通俗理解给定⼀个输⼊值，从树节点不断往下⾛，直⾄⾛到叶节点，这个叶节点就是对输⼊值的⼀个预测或者分类。

算法分类ID3（Iterative Dichotomiser 3，迭代⼆叉树3代）历史 ID3算法是由Ross Quinlan发明的⽤于⽣成决策树的算法，此算法建⽴在奥卡姆剃⼑上。

奥卡姆剃⼑⼜称为奥坎的剃⼑，意为简约之法则，也就是假设越少越好，或者“⽤较少的东西，同样可以做好的事情”，即越是⼩型的决策树越优于⼤的决策树。

当然ID3它的⽬的并不是为了⽣成越⼩的决策树，这只是这个算法的⼀个哲学基础。

引⼊信息熵。

熵是热⼒学中的概念，是⼀种测量在动⼒学⽅⾯不能做功的能量总数，也就是当总体熵的增加，其做功能⼒也下降，熵的量度正是能量退化的指标——维基百科。

⾹农将“熵”的概念引⼊到了信息论中，故在信息论中被称为信息熵，它是对不确定性的测量，熵越⾼，不确定性越⼤，熵越低，不确定性越低。

那么到底何为“信息熵”？它是衡量信息量的⼀个数值。

那么何⼜为“信息量”？我们常常听到某段⽂字信息量好⼤，某张图信息量好⼤，实际上指的是这段消息（消息是信息的物理表现形式，信息是其内涵——《通信原理》）所包含的信息很多，换句话说传输信息的多少可以采⽤“信息量”去衡量。

这⾥的消息和信息并不完全对等，有可能出现消息很⼤很多，但所蕴含有⽤的信息很少，也就是我们常说的“你说了那么多（消息多），但对我来说没⽤（信息少，即信息量少）”。

这也进⼀步解释了消息量的定义是传输信息的多少。

进⼀步讲，什么样的消息才能构成信息呢？我们为什么会常常发出感叹“某段⽂字的信息量好⼤”，得到这条消息时是不是有点出乎你的意料呢？⽐如，X男和X男在同⼀张床上发出不可描述的声⾳，这段消息对于你来讲可能就会发出“信息量好⼤”的感叹。

再⽐如，某情侣在同⼀张床上发出不可描述的声⾳，这段消息对于你来讲可能就是家常便饭，并不会发出“信息量好⼤”的感叹。

简单说明决策树原理

决策树原理简介一、什么是决策树决策树是一种机器学习中常用的分类和回归方法。

它通过对样本的特征进行一系列的判断，最终达到对样本进行分类或预测的目的。

决策树是一种可视化的算法，其结果可以形成一棵树状结构，每个内部节点代表一个特征判断，每个叶子节点代表一种分类或回归结果。

决策树在实践中被广泛应用，特别适用于复杂问题的决策以及数据探索性分析。

二、决策树的构造过程1. 特征选择决策树的构造过程从根节点开始，每次选择一个最好的特征作为当前节点的分裂条件。

特征选择的目标是使得对样本的划分尽可能的准确，即分类结果的纯度最高。

2. 样本划分选定了特征后，决策树根据该特征的取值将样本划分为不同的子集，每个子集对应一个子树。

划分的方式可以是二分法或多分法，具体取决于特征的类型和取值个数。

划分后，每个子树都会继续进行特征选择和样本划分的过程，直到满足终止条件。

3. 终止条件决策树的构建直到满足以下终止条件之一时才会停止： - 当前节点包含的样本属于同一类别。

- 当前节点包含的样本属于同一回归结果。

- 没有更多的特征可供选择，或者样本已经被划分得非常纯净。

4. 剪枝操作决策树的构建可能会造成过拟合现象，即模型过于复杂，对训练集的拟合程度很高，但是在新的数据上表现较差。

为了解决过拟合问题，可以对决策树进行剪枝操作。

剪枝过程可以通过删除一些节点或合并一些相邻节点来实现，目的是降低模型的复杂度，提高泛化能力。

三、决策树的优缺点1. 优点•决策树易于理解和解释，由于其树状结构，可以直观地表示特征间的关系。

•决策树能够处理混合数据类型，不需要对数据进行归一化处理。

•决策树算法可以灵活处理大型数据集。

2. 缺点•决策树容易产生过拟合，特别是在数据的噪声较大或特征维度较高时。

•决策树对于那些取值较多的属性有偏好，因为它通常选择那些能够更好地区分样本的特征进行分裂。

•决策树的稳定性较差，数据的微小变化可能导致生成完全不同的树。

四、决策树的应用场景决策树具有广泛的应用场景，包括但不限于以下几个方面：1. 医学诊断决策树可以用于医学诊断，根据患者的症状和检查结果判断患者的疾病类别。

分类分析--决策树（经典决策树、条件推断树）

分类分析--决策树（经典决策树、条件推断树）分类分析--决策树决策树是数据挖掘领域中的常⽤模型。

其基本思想是对预测变量进⾏⼆元分离，从⽽构造⼀棵可⽤于预测新样本单元所属类别的树。

两类决策树：经典树和条件推断树。

1 经典决策树经典决策树以⼀个⼆元输出变量（对应威斯康星州乳腺癌数据集中的良性/恶性）和⼀组预测变量（对应九个细胞特征）为基础。

具体算法如下：(1) 选定⼀个最佳预测变量将全部样本单元分为两类，实现两类中的纯度最⼤化（即⼀类中良性样本单元尽可能多，另⼀类中恶性样本单元尽可能多）。

如果预测变量连续，则选定⼀个分割点进⾏分类，使得两类纯度最⼤化；如果预测变量为分类变量（本例中未体现），则对各类别进⾏合并再分类。

(2) 对每⼀个⼦类别继续执⾏步骤(1)。

(3) 重复步骤(1)~(2)，直到⼦类别中所含的样本单元数过少，或者没有分类法能将不纯度下降到⼀个给定阈值以下。

最终集中的⼦类别即终端节点（terminal node）。

根据每⼀个终端节点中样本单元的类别数众数来判别这⼀终端节点的所属类别。

(4) 对任⼀样本单元执⾏决策树，得到其终端节点，即可根据步骤3得到模型预测的所属类别。

上述算法通常会得到⼀棵过⼤的树，从⽽出现过拟合现象。

结果就是，对于训练集外单元的分类性能较差。

为解决这⼀问题，可采⽤10折交叉验证法选择预测误差最⼩的树。

这⼀剪枝后的树即可⽤于预测。

R中的rpart包⽀持rpart()函数构造决策树，prune()函数对决策树进⾏剪枝。

下⾯给出判别细胞为良性或恶性的决策树算法实现。

（1）使⽤rpart()函数创建分类决策树：#⽣成树：rpart()函数可⽤于⽣成决策树library(rpart)set.seed(1234)dtree <- rpart(class ~ ., data=df.train, method="class",parms=list(split="information"))#rpart() 返回的cptable值中包括不同⼤⼩的树对应的预测误差，因此可⽤于辅助设定最终的树的⼤⼩。

决策树

预修剪技术
预修剪的最直接的方法是事先指定决策树生长的最大深度, 使决策树不能得到充分生长。目前, 许多数据挖掘软件中都采用了这种解决方案, 设置了接受相应参数值的接口。但这种方法要求用户对数据项的取值分布有较为清晰的把握, 并且需对各种参数值进行反复尝试, 否则便无法给出一个较为合理的最大树深度值。如果树深度过浅, 则会过于限制决策树的生长, 使决策树的代表性过于一般, 同样也无法实现对新数据的准确分类或预测。
决策树的修剪
决策树学习的常见问题（3）
处理缺少属性值的训练样例处理不同代价的属性
决策树的优点
可以生成可以理解的规则；计算量相对来说不是很大；可以处理连续和离散字段；决策树可以清晰的显示哪些字段比较重要
C4.5 对ID3 的另一大改进就是解决了训练数据中连续属性的处理问题。而ID3算法能处理的对象属性只能是具有离散值的数据。 C4．5中对连续属性的处理采用了一种二值离散的方法，具体来说就是对某个连续属性A，找到一个最佳阈值T，根据A 的取值与阈值的比较结果，建立两个分支A<=T (左枝)和 A>=T (右枝)，T为分割点。从而用一个二值离散属性A (只有两种取值A<=T、A>=T)替代A，将问题又归为离散属性的处理。这一方法既可以解决连续属性问题，又可以找到最佳分割点，同时就解决了人工试验寻找最佳阈值的问题。
简介
决策树算法是建立在信息论的基础之上的是应用最广的归纳推理算法之一一种逼近离散值目标函数的方法对噪声数据有很好的健壮性且能学习析取(命题逻辑公式)表达式
信息系统
决策树把客观世界或对象世界抽象为一个信息系统(Information System)，也称属性--------值系统。一个信息系统S是一个四元组： S=(U, A, V, f)

分类与回归树决策树

4.3 决策树/分类树(Decision or Classification Trees)
决策树是一个多阶段决策过程，它不是一次用样本的所有特征进
行决策，而是逐次地用各个特征分量进行决策。

例如，一个6维向量x
=
(x 1, x 2, x 3, x 4, x 5, x 6)T ，决策树如图4.5所示。

决策树的构造一般有下列3个步骤：
(1) 为每一个内部节点(Internal Node)选择划分规则。

(2) 确定终节点(Terminal Nodes)。

(3) 给终节点分配类别标签(Class Labels)。

例如，根据图 4.6a 所示的二维数据分布情况，可以画出图 4.6b 所示的决策树。

x 6<2
x 5<5
x 4<1 x 1<2
ω1 ω2
ω1
ω3 ω2 Yes No
Yes Yes
Yes No
No
No
图4.5 一个决策树示意图
我们可以利用决策树的原理来解决多类别问题，例如，用一个线性分类器（例如Fisher 分类器）解决多类别问题。

图4.6a 一个二维空间样本分布示例
图4.6b 对应的决策树
x k >b 2
x k <b 1
x i <a 2 x k >b 3 ω8
ω9 ω6
ω4
Yes No
Yes Yes
Yes
No
No No x i >a 1
ω10
ω1 Yes
No。

决策树的构建步骤

决策树的构建步骤决策树算法应用的完整流程应包含建树和应用。

建树是从经验数据中获取知识，进行机器学习，建立模型或者构造分类器，是决策树算法的工作重点，通常又将其分为建树和剪枝两个部分。

而应用则比较简单，利用建好的决策树模型分类或者预测新数据即可。

先介绍一下建树。

建树也就是决策树算法建模的主体过程，或者说，建树便是主要规则的产生过程。

决策树构建的基本步骤如表3-3所示。

表3-3 决策树构建的基本步骤决策树的变量可以有两种：数字型(Numeric)和名称型(Nominal)。

(1)数字型：变量类型是整数或浮点数，如前面例子中的“年龄”。

用“>”“＜”等作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。

(2)名称型：类似编程语言中的枚举类型，变量只能从有限的选项中选取。

如何评估分割点的好坏？如果一个分割点可以将当前的所有节点分为两类，使得每一类都很“纯”，也就是同一类的记录较多，那么就是一个好分割点。

树的主体建好后，接下来便是对其剪枝。

所谓剪枝，就是在树的主体上删除过多的条件或者直接删除一些不必要的子树，提高树的性能，确保精确度，提高其可理解性。

同时，在剪枝过程中还要克服训练样本集的数据噪声，尽可能地消除噪声造成的影响。

决策树的剪枝一般通过极小化决策树整体的损失函数或代价函数来实现。

决策树剪枝常用的方法有两种：预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。

预剪枝是指根据一些原则尽早地停止树的增长，如树的深度达到用户所要的深度、节点中样本个数少于用户指定个数等。

预剪枝在建树的过程中决定是否需要继续划分或分裂训练样本来实现提前停止树的构造，一旦决定停止分支，就将当前节点标记为叶节点。

这样可以有效减少建立某些子树的计算代价。

运用这一策略的代表性算法有PUBLIC算法。

预剪枝的核心问题是，如何事先指定树的最大深度，如果设置的最大深度不恰当，那么将会导致过于限制树的生长，使决策树的表达式规则趋于一般，不能更好地对新数据集进行分类和预测。

决策树和朴素贝叶斯算法简介

决策树和朴素贝叶斯算法简介本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。

决策树算法决策树（Decision Tree，DT）分类法是一个简单且广泛使用的分类技术。

决策树是一个树状预测模型，它是由结点和有向边组成的层次结构。

树中包含3种结点：根结点、内部结点和叶子结点。

决策树只有一个根结点，是全体训练数据的集合。

树中的一个内部结点表示一个特征属性上的测试，对应的分支表示这个特征属性在某个值域上的输出。

一个叶子结点存放一个类别，也就是说，带有分类标签的数据集合即为实例所属的分类。

1. 决策树案例使用决策树进行决策的过程就是，从根结点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子结点，将叶子结点存放的类别作为决策结果。

图1 是一个预测一个人是否会购买电脑的决策树。

利用这棵树，可以对新记录进行分类。

从根结点（年龄）开始，如果某个人的年龄为中年，就直接判断这个人会买电脑，如果是青少年，则需要进一步判断是否是学生，如果是老年，则需要进一步判断其信用等级。

图1 预测是否购买电脑的决策树假设客户甲具备以下4 个属性：年龄20、低收入、是学生、信用一般。

通过决策树的根结点判断年龄，判断结果为客户甲是青少年，符合左边分支，再判断客户甲是否是学生，判断结果为用户甲是学生，符合右边分支，最终用户甲落在“yes”的叶子结点上。

所以预测客户甲会购买电脑。

2. 决策树的建立决策树算法有很多，如ID3、C4.5、CART 等。

这些算法均采用自上而下的贪婪算法建立决策树，每个内部结点都选择分类效果最好的属性来分裂结点，可以分成两个或者更多的子结点，继续此过程直到这棵决策树能够将全部的训练数据准确地进行分类，或所有属性都被用到为止。

1）特征选择按照贪婪算法建立决策树时，首先需要进行特征选择，也就是使用哪个属性作为判断结点。

选择一个合适的特征作为判断结点，可以加快分类的速度，减少决策树的深度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

它有偏向于取值较多的属性的缺点。
为了克服 ID3 算法偏向于选择取值较多的但在实际问题
中对分类意义并不大的属性作为测试属性的特点，提高决策数
的分类精度，引入了广义相关函数的概念对 ID3 进行改进。
3 基于广义相关函数的决策树构造方法
根据信息论原理，离散型随机变量 X 的不确定程度可用信息熵 H（X）表示：
n
Σ H（X）=- p（x）i log p（x）i i=1
式中，p（x）i 为发生事件 xi 的概率；n 为可能发生的事件（状态）总数。
引入 X 和 Y 的联合信息 H（X，Y）：
Σ H（X，Y）=- p（xi，y）j log p（xi，y）j i ，j
式中 p（xi，y）j 为 xi 与 yj 的联合概率，即事件 xi 与事件 yj 同时发生的概率。
1 引言
目前在数据挖掘领域中，存在许多解决分类问题的模型，诸如神经网络、遗传算法、模糊数学、贝叶斯分类、粗糙集等方法。分类知识发现领域中这些方法的使用都已经取得了令人满意的效果，但使用最为广泛的分类模型仍然是决策树算法[1-2]。决策树分类模型之所以被广泛使用，主要有以下几个方面的原因：
（1）与神经网络或贝叶斯分类等其他分类模型相比，决策树的分类原理简单易懂，很容易被使用人员理解和接受。
姨H（X）H（Y）当 X 和 Y 完全相关时，I（X，Y）=H（X）=H（Y），Rg=1；当 X 和 Y 完全独立时，I（X，Y）=0 Rg=0；在一般情况下，Rg 介于 0 与 1 之间。不过 Rg 不可能为负值，无法区分正相关和负相关。类似于线性相关函数。将训练样本集中的各个条件属性字段视为随即变量 Xi，决策属性视为随机变量 Y。各属性的属性值分布即为各随机变量的取值分布。这样，整个训练样本即为若干随机变量的集合，各个随机变量的取值按一定的概率分布。这样就可按照上面的方法计算每个条件属性和决策属性之间的广义相关函数。每次选择和决策属性的广义相关函数最大的那个条件属性作为测试属性来构造决策树。算法描述如下：算法（Generate-decision-tree） //根据给定数据集产生一个决策树。输入：训练样本（各属性均取离散数值），决策属性，可供归纳的条件属性集：condition-attribute.输出：决策树。处理流程：（1）创建一个结点；（2）若该结点中的所有样本均为同一类别 C，则开始根结点对应所有的训练样本，返回 N 作为一个叶结点并标志为类别 C；（3）若 condition-attribute 为空，则返回 N 作为一个叶结点并标记为该结点所含样本中类别个数最多的类别；（4）从 condition-attribute 中选择和决策属性的广义相关函数最大的那个属性作为 test-attribute；（5）并将结点 N 标记为 test-attribute；（6）对于 test-attribute 中的每一个已知取值 ai，准备划分结点 N 所包含的样本集；（7）根据 test-attribute=ai 条件，从结点 N 产生相应的一个分支，以表示该测试条件；（8）设 si 为 test-attribute=ai 条件所获得的样本集合；（9）若 si 为空，则将相应叶结点标记为该结点所含样本中类别个数最多的类别；（10）否则将相应的叶结点标志为 Generate-decision-tree （si，condition-attribute，test-attribute）返回值。此算法采用自上而下、分而治之的递归方式来构造一个决策树。递归操作的停止条件是：一个结点的所有样本均为同一类别。若无属性可用于划分当前样本集，则利用投票原则将当前结点强制为叶结点，并标记为当前结点所含样本集中类别个数最多的类别。没有样本满足 test-attribute=ai，则创建一个叶结点并将其标记为当前结点所含样本集中类别个数最多的类别。在文献[10]中，作者提出了一种以相关系数作为属性选择的标准，但是这种相关系数只能度量条件属性和决策属性之间的线性相关关系，对于两属性之间的非线性相关关系则无能为力。而本文提出的广义相关函数不仅能度量条件属性和决策属
ZHANG Feng-lian，LIN Jian-liang.New method of building decision puter Engineering and Applications，2009，45 （10）：141-143.
Abstract：Decision tree is one of heated fields in data mining，and it is a widely-used solution for classification problems.But the design of the optimal decision tree has been proved to be NP-hard.This paper first introduces the main thoughts of algorithm of ID3 ，then imports the conception of general correlation function in order to make up the weakness，and puts forward an algorithm of structuring decision trees.General correlation function between conditional attributes and a decisive attribute is the criteria of attribute selection in the algorithm.What’s more，a contrast to ID3 is made by experiments.Results demonstrate this algorithm not only optimizes decision trees model，but also improves classification accuracy. Key words：decision tree；general correlation function；ID3 algorithm
样本集合划分所获得的信息增益是：
Gain（A）=（I s1，s2，…，sm）-E（A）
2.2 ID3 算法的缺点
ID3 算法选择属性 A 作为测试属性的原则：属性 A 使得
Gain（A，S）最小。研究表明这种启发式方法存在一个弊端，即算
法往往偏向于选择取值较多的属性，而属性取值较多的属性却
不总是最优的属性，即按照使熵值最小的原则被 I立分支，再对各分支的
子集递归调用该方法建立决策树结点和分支，直到某一子集中
的所有例子属于同一类。
信息增益的计算方法为：
（1）任意样本分类的期望信息：设 S 为一个包含 s 个数据
样本的集合，类别属性可以取 m 个不同的值，对应于 m 个不同
的类别 Ci，i∈{1，2，…，m}。假设 Si 为类别 Ci 中的样本个数，那么要对一个给定数据对象进行分类所需要的信息量为：
应该首先判断的属性在现实情况中却并不那么重要，例如：
Bratko 研究小组在研究判断病情的各种因素时，用 ID3 算法确
定病人的年龄（有 9 种值）为首先判断的属性（即靠近决策树的
根结点），但实际中医学专家却认为这个属性在判断病情时没
那么重要[9]。所以很多学者都认为 Quinlan 的熵函数并不理想，
2 ID3 算法的思想及缺点 2.1 ID3 算法
ID3 算法是 Quinlan 于 1986 年提出的[8]。它是一个从上到下、分而治之的归纳过程。其核心是：在决策树各级结点上选择属性时，用信息增益作为属性选择的标准，以使得在对每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。具体方法是：检验所有的属性，选择信息增益最大的属性产
Computer Engineering and Applications 计算机工程与应用
2009，45（10） 141
新的决策树构造方法
张凤莲，林健良 ZHANG Feng-lian，LIN Jian-liang
华南理工大学数学科学学院，广州 510640 School of Mathematical Science，South China University of Technology，Guangzhou 510640，China E-mail：zhangfengl@
作者简介：张凤莲（1984－），女，研究生，主要研究方向为数据挖掘、数理统计；林健良（1956-），男，副教授，主要研究方向为应用数学计算机应用。收稿日期：2008-02-18 修回日期：2008-05-08
142 2009，45（10）
Computer Engineering and Applications 计算机工程与应用
是熵、信息增益、代价复杂性、错判实例数、证据权重等，不同的度量有不同的效果。经典的 ID3 算法用信息增益作为属性选择的标准[3]，ID3 构造的决策树平均深度较小，分类速度较快，但这种算法偏向于选择属性值较多的属性[4-5]，因为属性值较多的属性信息熵较高，但事实上属性值较多的属性并不总是最优的[6]。
Σv
E（A）=
j=1
S1j +S2j +…+Smj S
（I S1j ，S2j ，…，Smj）=
ΣΣ v
-
j=1
m i=1
S1j +S2j +…+Smj S
pij
log（pi）j
其中pij 即为子集 Sj 中任一个数据样本属于类别 Ci 的概率。（3）信息增益：这样利用属性 A 对当前分支结点进行相应
m
Σ （I s1，s2，…，sm）= -pi log（p）i i=1

新的决策树构造方法

合集下载

决策树算法介绍（DOC）

决策树算法

决策树算法(PPT36页)

决策树（理论篇）

简单说明决策树原理

分类分析--决策树（经典决策树、条件推断树）

决策树

分类与回归树决策树

决策树的构建步骤

决策树和朴素贝叶斯算法简介

文档推荐

最新文档

新的决策树构造方法

合集下载

决策树算法介绍（DOC）

决策树算法

决策树算法(PPT36页)

决策树（理论篇）

简单说明决策树原理

分类分析--决策树（经典决策树、条件推断树）

决策树

分类与回归树 决策树

决策树的构建步骤

决策树和朴素贝叶斯算法简介

文档推荐

最新文档

分类与回归树决策树