改进的ID3算法构造专升本考试成绩决策树

格式：pdf
大小：204.95 KB
文档页数：4

下载文档原格式

/ 4

仿照例题,使用id3算法生成决策树

标题：使用ID3算法生成决策树一、概述在机器学习领域，决策树是一种常见的分类和回归算法。

它基于一系列属性对数据进行划分，最终生成一棵树状图来表示数据的分类规则。

在本文中，我们将介绍ID3算法，一种经典的决策树生成算法，并演示如何使用ID3算法生成决策树。

二、ID3算法概述ID3算法是一种基于信息论的决策树生成算法，其全称为Iterative Dichotomiser 3。

它由Ross Quinlan于1986年提出，是C4.5算法的前身。

ID3算法的核心思想是在每个节点选择最佳的属性进行划分，使得各个子节点的纯度提高，从而最终生成一棵有效的决策树。

ID3算法的主要步骤包括计算信息增益、选择最佳属性、递归划分数据集等。

在这一过程中，算法会根据属性的信息增益来确定最佳的划分属性，直到满足停止条件为止。

三、使用ID3算法生成决策树的步骤使用ID3算法生成决策树的步骤如下：1. 收集数据集：需要收集一个包含多个样本的数据集，每个样本包含多个属性和一个类别标签。

2. 计算信息增益：对每个属性计算信息增益，信息增益越大表示该属性对分类的贡献越大。

3. 选择最佳属性：选择信息增益最大的属性作为当前节点的划分属性。

4. 划分数据集：根据选择的属性值将数据集划分成若干子集，每个子集对应属性的一个取值。

5. 递归生成子节点：对每个子集递归调用ID3算法，生成子节点，直到满足停止条件。

6. 生成决策树：将所有节点连接起来，生成一棵完整的决策树。

四、使用ID3算法生成决策树的示例为了更好地理解ID3算法的生成过程，我们以一个简单的示例来说明。

假设有一个包含天气、温度和湿度三个属性的数据集，我们希望使用ID3算法生成一个决策树来预测是否适合外出活动。

我们需要计算每个属性的信息增益。

然后选择信息增益最大的属性进行划分，将数据集划分成若干子集。

接着递归调用ID3算法，直到满足停止条件为止。

经过计算和递归划分，最终我们得到一棵决策树，可以根据天气、温度和湿度来预测是否适合外出活动。

决策树的三种算法

决策树的三种算法一、决策树算法的简单介绍决策树算法就像是一个超级智能的树状决策指南。

你可以把它想象成一棵倒着长的树，树根在上面，树枝和树叶在下面。

它的任务呢，就是根据不同的条件来做出各种决策。

比如说，你想决定今天穿什么衣服，天气就是一个条件，如果天气冷，你可能就选择穿厚衣服；如果天气热，那薄衣服就比较合适啦。

决策树算法在很多地方都超级有用，像预测一个人会不会买某个商品，或者判断一个邮件是不是垃圾邮件之类的。

二、决策树的三种算法1. ID3算法这个算法就像是一个很会找重点的小机灵鬼。

它主要是根据信息增益来构建决策树的。

啥是信息增益呢？就是通过计算某个属性带来的信息量的增加。

比如说，在判断一个水果是苹果还是香蕉的时候，颜色这个属性可能就有很大的信息增益。

如果一个水果是红色的，那它是苹果的可能性就比较大。

ID3算法会优先选择信息增益大的属性来作为树的节点，这样就能更快更准地做出决策啦。

不过呢，这个算法也有个小缺点，就是它比较容易对噪声数据敏感，就像一个很敏感的小娃娃，稍微有点风吹草动就可能受到影响。

2. C4.5算法C4.5算法就像是ID3算法的升级版。

它在ID3算法的基础上做了一些改进。

它不仅仅考虑信息增益，还考虑了信息增益率。

这就好比是一个更加全面考虑的智者。

通过考虑信息增益率，它能够更好地处理那些属性值比较多的情况。

比如说，在一个数据集中有一个属性有很多很多不同的值，C4.5算法就能比ID3算法更好地处理这种情况，不会轻易地被这种复杂情况给弄晕。

而且C4.5算法还能够处理连续的属性值，这就像是它多了一项特殊的技能，让它在更多的情况下都能发挥作用。

3. CART算法CART算法又有自己的特点。

它使用的是基尼系数来选择属性进行划分。

基尼系数就像是一个衡量公平性的小尺子，在决策树这里，它是用来衡量数据的纯度的。

如果基尼系数越小，说明数据越纯，就越容易做出准确的决策。

CART算法既可以用于分类问题，就像前面说的判断水果是苹果还是香蕉这种，也可以用于回归问题，比如预测房价之类的。

ID3算法及其改进

ID3算法及其改进ID3算法的核心思想是选择信息增益最大的属性来进行分类。

具体而言，算法通过计算每个属性的信息增益（即在已知属性值的条件下，对分类结果的不确定性减少的程度），并选择具有最大信息增益的属性作为当前节点的划分标准。

然后重复此过程，将数据集根据不同属性的取值进行划分，直到生成一个完整的决策树或无法继续划分。

然而，ID3算法在实际应用中存在一些问题，例如对于具有较多取值的属性，它倾向于选择该属性进行划分，导致决策树过于复杂；同时，ID3算法对缺失值和连续属性处理较为困难。

针对这些问题，研究者提出了一系列的改进方法。

1.C4.5算法C4.5算法是ID3算法的改进版本，它通过引入信息增益率来解决ID3算法对取值较多的属性过度偏好的问题。

信息增益率考虑了每个属性划分带来的平均信息增益，并以此来选择划分属性。

此外，C4.5算法还可以处理缺失值和连续属性。

2.CART算法CART（Classification and Regression Trees）算法是一种常用的决策树算法，不仅可以用于分类问题，还可以用于回归问题。

与ID3算法不同，CART算法采用基尼指数（Gini index）来衡量属性划分的纯度，以找到最优的属性划分点。

3.剪枝为了防止过拟合现象的发生，决策树算法通常需要进行剪枝。

剪枝策略可以分为预剪枝和后剪枝两种。

预剪枝是在构建决策树时就预先设定一个阈值，当节点划分后信息增益小于阈值时即停止划分，以避免过度拟合。

后剪枝则是在构建完整决策树之后，通过剪除一些子树或合并一些叶子节点来提高泛化能力。

4.集成学习集成学习可以提高决策树的性能和稳定性。

常用的集成学习方法有随机森林（Random Forest）和梯度提升树（Gradient Boosting Tree）。

随机森林通过构建多个决策树，并通过投票或平均法来确定最终分类结果。

梯度提升树通过迭代地构建决策树，并根据上一棵树的残差来调整样本的权重，以逐步提高模型的预测能力。

ID3改进算法的研究

测试属性，则这些子集就是从代表样本集．的节点ｓ生长出来的新的叶子节点。ｓ是子集ｓ中类别为设，Ｃ的样本数，则根据Ａ划分样本的信息熵由下式给
出：
信息增益是基于信息论中熵的概念。熵是对事
件对应的属性的不确定性的度量。一个属性的熵越
大，它蕴含的不确定信息越大，越有利于数据的分类。Ｉ３Ｄ总是选择具有最高信息增益（或最大熵）的
属性作为当前结点的测试属
…，）ｓ，
其中，
…，）一∑ ｐｌ２。；ｓ＝ｇｐ）＝ｏ（ｐ
短，生成的决策树平均深度较小，而提高分类使从速度和准确率。
ｍ）设ｓ是类ｃ中的样本数。。相关定义如下：
对一个给定的样本分类所需的期望信息由下式
给定：
Ｉｓ …，）一∑ ｐｏｐ，（，１ｓ＝ｌｇｌ２
２Ｉ３Ｄ算法的优劣
Ｉ３法通过不断的循环处理，到找到一棵Ｄ算直完全正确的决策树，从顶向下归纳形成了一组类并
性质２若厂）是区间，上的凸函数，（则
Ｖ１２ … ，，， ∈ ，１２ … ，，，，＞０，ｌ＋２＋
２１年６月０１
廊坊师范学院学报（自然科学版）
ＪｕｎｌｆＬｎｆｇＴａｈｒＣＨｇ（ａｕｎｃｎｅＥｉｏ）ｏｒａｏａｇａｅｃｅｓｏｅｅＮｔｒａＳｉｃｄｔｎｎｌｅｉ

决策树ID3算法的一种改进算法

ＯＵＶｏａｉａｎｄＴｅｈｃｌＣｏｌｇｅ，ｎｆｍａｉｎｄＥｎｇｎｅｒｎｇＤｅｒｍｅ，ｃｔｏｎｌａｃｎｉａｌｅＩｏｒｔｏｎａｉｅｉｐａｔｎｔＺｈｏｕｋｏｕ４００Ｃｈｉａ；Ｚｈｏｕｕｏｒａｎｖｅｓｔ６６０，ｎ３．ｋｏＮｍｌＵｉｒｉｙ，
ＣｍｐｔｒｎｗｅｇｎｅｈｏｇｏｕｅｏｌｅａｄＴｃｎｌｙ电脑知识与技术Ｋｄｏ
Ｖｏ．，．，ａｕｒ０１１Ｎｏ１Ｊｎａｙ２８２
决策树Ｉ３Ｄ算法的一种改进算法
黄达，太迤宇范华，冉王
通过引入一种修正函数对其加以改进，同时又提出了一种独立性假设。理论分析和实验结果表明：改进算法在一定程度上不仅较好地弥补了多值偏向的最大不足，而且还大大简化了算法计算过程，在提高分类准确度的同时也明显加快了决策树构建速度。
关键词：决策树；算法；正函数；ＩＤ３修独立性假设；加权独立信息增益
ＣｏｅｅｏｍｐｔｃｎｅｎｅｈｏｏｙＺｏｋｕ４６０，ｈｎ）ＨｇｆＣｏｕｅＳｉｃｄＴｃｎｌｇ，ｈｕｏ６００Ｃｉａｒｅａ
ＡｂｔａｔＦｒ，ｌｏｔｍｂｓｒｃｌｎｊｒｈｒｏｎｓａｅｂｅａｚｄｓｌ，ｎｅｒｈｉｏｔｏｎｆｓｃ：ｉｔＤ３ａｒｈＳａｃｐｎｉｅａｄｍａｏｔｍｉｇｖｅｎａｌｅｍｐｙａｄｔｎｆｅｍａｓｒｍｉｇｏｒｓＩｇｉｉｉｐｓｏｓｃｈｎｙｉｈｏｔｎｈｃ

决策树_ID3算法

决策树_ID3算法决策树是一种用于分类和预测的机器学习算法，其中ID3（Iterative Dichotomiser 3）是一种常用的决策树算法。

ID3算法通过选择最佳特征将数据集划分为更小的子集，直到达到预定的条件或者无法进一步划分为止。

在此过程中，它使用信息增益来选择最佳划分特征。

ID3算法的核心思想是利用信息增益来判断每个特征的重要性。

信息增益是指在划分数据前后的熵的差值，熵表示数据的混乱程度。

熵越大，数据越混乱，熵越小，数据越有序。

在决策树中，我们希望选择使得熵减最大的特征作为划分依据，即信息增益最大的特征。

以下是ID3算法的具体步骤：3. 计算数据集的熵。

熵的计算公式为：E(S) = -p1*log2(p1) -p2*log2(p2) - ... - pn*log2(pn)，其中pi表示数据集中属于类别i的实例占总实例数的比例。

4.对于每个特征，计算划分后的熵和信息增益，并选择信息增益最大的特征作为划分依据。

5.根据选择的特征将数据集进行划分，形成子集。

6.递归地对每个子集应用上述步骤，生成决策树的左右子树。

7.返回决策树。

ID3算法的优点是简单易懂，效率高，在处理具有大量特征的数据集时也能取得较好的结果。

然而，由于ID3算法倾向于选择具有较多取值的特征作为划分依据，可能导致生成的决策树过于复杂，容易出现过拟合现象。

此外，ID3算法只能处理离散型特征，无法处理连续型特征。

为了解决ID3算法的缺点，后续的决策树算法如C4.5和CART进行了改进。

C4.5算法在ID3算法基础上引入了对连续型特征的处理，同时使用信息增益比来选择划分特征。

CART算法则使用基尼指数来衡量划分的质量，划分后的熵越小，基尼指数越小，表示数据越有序。

综上所述，决策树算法是一种基于特征选择的分类和预测方法，其中ID3算法通过信息增益选择最佳特征进行划分。

ID3算法简单有效，但有部分局限性。

进一步改进的决策树算法能够处理连续型特征和更好地提高划分的质量。

决策树ID3算法

• 因此，这种划分的信息增益是因此， • Gain(学生学生)=I(s1,s2) - E(学生学生)=0.940-0.789＝0.151。学生学生＝。 • 计算“信用等级”的熵。计算“信用等级”的熵。 • 对于信用等级＝“一般”： s11=6，s21=2，p11=6/8，p21=2/8，对于信用等级＝一般” ，，，， 6 6 2 2 I ( s 11 , s 2 1 ) = I ( 6 , 2 ) = − lo g 2 − lo g 2 = 0 .8 1 1 8 8 8 8 • 对于信用等级＝“良好”： s12=3，s22=3，p12=3/6，p22=3/6，对于信用等级＝良好” ，，，， 3 3 3 3 I ( s1 2 , s 2 2 ) = I ( 3, 3 ) = − lo g 2 − lo g 2 = 1 6 6 6 6
2 2 2 2 lo g 2 − lo g 2 =1 4 4 4 4 对于收入＝中等” 对于收入＝“中等”： s12=4，s22=2，p12=4/6，p22=2/4，，，，， 4 4 2 2 I ( s 1 2 , s 2 2 ) = I ( 4 , 2 ) = − lo g 2 − lo g 2 = 0 .9 1 8 6 6 6 6 I ( s 11 , s 2 1 ) = I ( 2 , 2 ) = −
收入
高高高中等低低低中等低中等中等中等高中等
类别：学生信用等级类别：购买电脑
否否否否是是是否是是是否是否一般良好一般一般一般良好良好一般一般一般良好良好一般良好不会购买不会购买会购买会购买会购买不会购买会购买不会购买会购买会购买会购买会购买会购买不会购买

决策树id3算法例题经典

决策树id3算法例题经典一、决策树ID3算法例题经典之基础概念决策树ID3算法就像是一个超级聪明的小侦探，在数据的世界里寻找线索。

它是一种用来分类的算法哦。

比如说，我们要把一群小动物分成哺乳动物和非哺乳动物，就可以用这个算法。

它的基本思想呢，就是通过计算信息增益来选择特征。

就好比是在一堆乱糟糟的东西里，先找到那个最能区分开不同类别的特征。

比如说在判断小动物的时候，有没有毛发这个特征可能就很关键。

如果有毛发，那很可能就是哺乳动物啦。

二、经典例题解析假设我们有这样一个数据集，是关于一些水果的。

这些水果有颜色、形状、是否有籽等特征，我们要根据这些特征来判断这个水果是苹果、香蕉还是橙子。

首先看颜色这个特征。

如果颜色是红色的，那可能是苹果的概率就比较大。

但是仅仅靠颜色可不够准确呢。

这时候就需要计算信息增益啦。

通过计算发现，形状这个特征对于区分这三种水果的信息增益更大。

比如说圆形的可能是苹果或者橙子，弯弯的可能就是香蕉啦。

再考虑是否有籽这个特征。

苹果和橙子有籽，香蕉没有籽。

把这个特征也加入到决策树的构建当中，就可以更准确地判断出到底是哪种水果了。

三、决策树ID3算法的优缺点1. 优点这个算法很容易理解，就像我们平常做选择一样，一步一步来。

它的结果也很容易解释，不像有些复杂的算法，结果出来了都不知道怎么回事。

它不需要太多的计算资源，对于小数据集来说，速度很快。

就像小马拉小车，轻松就能搞定。

2. 缺点它很容易过拟合。

就是在训练数据上表现很好，但是一到新的数据就不行了。

比如说我们只根据训练数据里的几个苹果的特征构建了决策树，新的苹果稍微有点不一样，就可能判断错了。

它只能处理离散型的数据。

如果是连续型的数据，就需要先进行离散化处理，这就多了一道工序，比较麻烦。

四、实际应用场景1. 在医疗领域，可以用来判断病人是否患有某种疾病。

比如说根据病人的症状、年龄、性别等特征来判断是否得了感冒或者其他疾病。

就像医生的小助手一样。

决策树ID3算法分析及改进

ｃｌｇｅｄｌｏｔｍｓｇｉｄｃｖｅｒｉｇａｇｒｈ，ｔｅｇｅｄｌｏｔｍｓｎｅｒｃｒｉｅｍｅｏｓｄｔａｒｅｙａｇｒｉｈｕｉｎｕｔｅｌａｎｎｌｏｔｍｈｒｅｙａｇｒｎｉｉｉｈｕｉｇｔｅｕｓｖｔｄｕｅｏｈｈ
ＡｎｌｓｓａｄＩｐｏｅｎｆＩｃｓｏｅｇｒｔｍａｙｉｎｍｒｖｍｅｔＤ３ＤｅｉｉｎＴｒｅＡｌｏｉｏｈＷＡＮＧｈｎＳｅｇ
（ｎｕｏａｉａｏｅｅｏｅｎｅＴｃｎｌｙｉ’ａ３０１ｈｎ）ＡｈｉＶｃｔｎｌｌｇｆｓｅｈｏｇ，Ｌｕｒ２７１，ＣｉａｏＣｌｆＤｅｏｔ
摘
要：决策树通过对获取的样本数据属性使用信息论知识原理进行解析和归纳，最终形成
类似于流程图的树型结构形式。Ｉ３Ｄ算法是典型采用贪心算法的归纳学习算法，其使用递归方式采用贪心算法来生成决策树。与其他分类技术算法比较，Ｉ３算法有着自己的优势，但在实际应Ｄ用中，采用决策树Ｉ３算法进行分类时，需要先对数据进行一些处理或改进。Ｄ关键词：数据挖掘；决策树；Ｉ３算法Ｄ中图分类号：Ｔ３１１文献标志码：Ａ文章编号：１７ — ８Ｘ（０２４— ０７— ３Ｐ１．３６１３０２１）００００
程图的树型结构形式。树型结构节点为样本的属
益，作为特征判别能力的度量，并提出的Ｉ３算Ｄ法。这种算法对对象分类所需要的期望测试数目实现最小，从而得到一个简单的树型结构图。

决策树ID3算法的改进及其应用

１１基于属性优先值的属性选择．
后为继续选择的属性所带来的信息增益，同时即考虑属性之间的交互信息。为此，们提出采用我考察树的两层结点的方法。具体做法如下：设为侯选的属性，有ｒ不同的值，４具个对应的概率分别是Ｐ，：… ，，按照最小信息熵原Ｐ，Ｐ，则对属性Ａ扩展，｛， … ，为ｒ子结设日，Ｂ｝个
成完整的决策树 … 。
１Ｉ３的改进算法Ｄ
Ｉ３算法总是希望选择测试属性时实现熵的最大Ｄ
化减少，即含有最大信息增益的属性作为结点的
Ｉ３算法把信息熵作为选择测试属性的标Ｄ
准，每次信息增益的计算很大程度上将受多值而
益的计算依赖于特征取值的数目较多的特征，这
样不太合理。这就难以判断得到的测试属性究竟是因为本身比较重要还是由于多值偏向取值较多的缘故而得到的。
Ｉ３算法还存在着另一个不足之处，是它Ｄ就忽视了属性之间的交互作用。对于每个结点，
分裂属性。然而由于Ｉ３算法只考虑到使属性带Ｄ
来的信息增益最大，略了属性之间的交互信息，忽进而忽略了属性所带来的信息增益是否完全的实
偏向性问题影响，即有优先选取取值较多的属性
收稿日期：０１— ９—１２１００

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

出的Ｉ３方法，提出用信息增益（Ｄ他即信息论中的互信息）选择属性作为决策树的节点．来由于决策树的建树算法思想简单，识别样本效率高的特点，Ｉ３方法成为当时机器学习领域中最有影响的方法之一．１使ＤＬｌ】
２Ｉ）Ｉ３基本思想
ＣＨＥＮｅＷｉ
（ｅａｔｅｔｆｏｐｔ，ｕｉａｎｏｎｖｒｉ，ｕｉａ，ｎｕ２２３，ｈｎ）ＤｐｒｎｏｍｕｒＨａｎｎＵｉｎＵｉｅｔＨａｎＡｈｉ３０８ＣｉｍＣｅｓｙｎａ
Ａｂｔｃ：Ｄ３ａｇｒｈｉａｓｒｏｌｓｉｅｌｏｉｍｈｃｆｃｔｇｒｅｈｅｉｉｎｔｅＢｈｓａｔＩｌｏｔｍｓｏｔｆｃａｓｉｄａｇｒｈｗｉｈｏａｅｏｚｄｔｅｄｃｓｏｒ．ｙｔｅｒｉｆｔｉｅ
关键词：决策树；３算法；ＩＤ条件概率中图分类号：Ｐ０．Ｔ３１６文献标识码：Ａ文章编号：６３—１２２１）２— ０２— ４１７６Ｘ（００００３０
ＩｐｏｅＤ３ＡｌｏｉｈｏＣｏｓｒｔＤｅｉｉｎ－ｅｆｍｒｖｄＩｇｒｔｍｔｎｔｕｃｃｓｏＴｒｅｏＡｃｄｍｙｔ－ｄｒｒｄａｅＳｕｅｔａＳｏｅａｅ —ｏＵｎｅｇａｕｔｔｄｎｓＥｘｍｃｒｓ
陈伟
（淮南联合大学计算机系，安徽淮南２２３）３０８
摘
要：３算法是决策树归纳分类算法的一种．ＩＤ通过对Ｉ３算法的计算复杂度分析，出了利用统计理论知识Ｄ提
和条件概率的思想来改进算法，并把该算法应用于建立学生专升本考试成绩分析决策树中．
企肥学统学扳（自然科学版）
２１００年５月第２０卷第２期
Ｊｕａｏｆｉｎｖｒｔ（ａｒｌｃｅｃｓｏｒｌｆｅＵｉｅｓｙＮｔａＳｉｅ）ｎＨｅｉｕｎ
Ｍａ０ｌ１２．ｖ２０Ｖ０．０升本考试成绩决策树Ｄ
ｃｎｉｏｓｐｏａｉｔｅｓｔｍｐｏｅｔｅａｇｒｈ，ａｄｔｅｕｅｏｍｐｏｅｌｏｔｍｓｔｏｓｕｔｏｄｔｎｒｂｂｌｙｉａｏｉｒｖｈｌｏｉｍｉｉｄｔｎｈｓｆｉｒｖｄａｇｒｈｏｃｎｔｃｉｒａａｙｉｄｃｓｏ — ｅｆｃｄｍｙｔ－ｎｅｇａｕｔｔｄｎｓｅａｓｏｅ．ｎｌｓｓｅｉｎｔｅｏａｅ — ｕｄｒｒｄａｅｓｅｔｘｍｃｒｓｉｒａｏｕ
Ｋｅｒｓｅｉｉｎ—ｒｅ；Ｉｌｏｔ；ｃｎｉｉｎｏａｉｉｙｗｏｄ：ｄｃｓｏｔｅＤ３ａｇｒｈｍｉｏｄｔｓｐｒｂｂｌｔｏｙ
１决策树概念
决策树是一个类似于流程图的树结构：内部节点（非树叶节点）表示在一个属性上的测试，个分枝每
收稿日期：００— １Ｏ２１０ —２修回日期：１０２２０— ３— ６０
作者简介：陈
代表一个测试输出，每个树叶节点（而或终节点）存放一个类标号，的最顶层节点是根节点．能被看作树它
一
棵树的预测模型，的根节点是整个数据集合空间，树每个分节点是一个分裂问题，它是对一个单一变量
的测试，该测试将数据集合空间分割成两个或更多块，每个叶节点是带有分类的数据分割．决策树也可解释成一种特殊形式的规则集，其特征是规则的层次组织关系．决策树概念最早是出现在ＣＳＣｎｅｔｅｒｉｇＳｓｍ），响最大的是ＪＲ．ｕｎａＬ（ｏｃｐａｎｎｙｔ中影Ｌｅ．Ｑｉｌｎ于１８提９６年
Ｉｌｏｉｍｃｍｐｔｔｏｌｏｌｘｔｎｌｓｓ，ｍａｅｓｎｇｏｔｔｔｃｈｏｙｆｋｏｅｇｎＤ３ａｇｒｔｈｏｕａｉｎａｃｍｐｅｉｙａａｙｉｋｕｉｆｓａｉｉａｔｅｒｏｎｗｌｄｅａｄｓｌ
Ｉ３Ｄ算法是贪心算法．它的工作过程是：首先找出最有判别力的因素，然后把数据分成多个子集；每个
子集又选择最有判别力的因素进行划分，直进行到所有子集仅包含同一类别的数据为止；一最后得到一棵决策树，以用它来对新的样例进行分类．可ＪＲＱｉａ．．ｕｎｎ的工作主要是引进了信息论中的互信息，ｌ他将其称为信息增益（ｎｏｍｔｎｇｉ）作为特ｉｆａｏａ，ｒｉｎ征判别能力的度量，且将建树的方法嵌在一个迭代的外壳之中．并在树的每个节点上使用信息增益度量选择测试属性．种度量称作属性选择度量或分裂的优劣度量．这