一种改进的决策树分类属性选择方法

格式：pdf
大小：189.38 KB
文档页数：3

下载文档原格式

/ 3

决策树算法的优缺点及其改进方法

决策树算法的优缺点及其改进方法决策树算法是一种常用的数据挖掘和机器学习算法，它通过构建树型结构来进行决策和分类。

决策树算法具有一些独特的优点，同时也存在一些局限性。

为了进一步提高决策树算法的性能，许多改进方法被提出和应用。

本文将对决策树算法的优缺点进行探讨，并介绍一些改进方法。

一、决策树算法的优点1. 可解释性强：决策树算法生成的模型具有易于理解和解释的特点。

决策树的每个分支代表了一个属性的决策过程，最终的叶子节点表示了最终的决策结果。

这使得决策树算法在需要将模型结果向非专业人士解释时表现出色。

2. 适用于多类别问题：相比其他机器学习算法，决策树算法对于多类别问题的处理更加简单直观。

每个叶子节点代表了一种类别的划分结果，通过遍历决策树便能够得到对应的类别。

3. 可以处理混合数据类型：决策树算法能够处理包含离散型和连续型数据的混合型数据。

通过对混合型数据进行离散化处理，可以在决策树的节点中进行有效的属性选择。

二、决策树算法的缺点1. 容易产生过拟合：决策树算法在处理复杂问题时容易产生过拟合现象。

当决策树生长过深或者树的分支过多时，模型会过于复杂，从而导致对训练集的过拟合，而在新的数据集上表现较差。

2. 对输入数据的变化敏感：决策树算法对输入数据的变化非常敏感。

当输入数据发生轻微变化时，决策树可能会重新生成或调整，导致模型不稳定。

3. 忽略了属性之间的相关性：决策树算法在生成树形结构时，只考虑了当前节点和它的子节点之间的关联，而忽略了其他属性之间的相关性。

这可能导致某些属性在集成学习中被过度强调或被忽略，从而影响模型的准确性。

三、决策树算法的改进方法1. 剪枝方法：为了避免过拟合问题，可以通过剪枝方法对决策树进行修剪，减少模型的复杂度。

常见的剪枝方法包括预剪枝和后剪枝。

预剪枝在树的生成过程中进行剪枝，通过设定阈值终止树的生长；后剪枝则在树的生成完成后，通过交叉验证等方法对节点进行合并或剪枝。

2. 集成学习方法：集成学习方法可以通过结合多个决策树模型的预测结果来提高分类准确度。

一种改进的SVM决策树文本分类算法

近年来，随着网络和信息技术的发展，文本信息量
增长迅速，作为信息检索及信息智能处理领域的关键
技术之一的文本分类，其主要任务就是在预先给定的
类别标记集合下，根据文本的内容判定其类别。分类
的精确程度取决于特征提取以及分类方法的科学性，目前主要的文本分类方法有贝叶斯分类器（ａｅＮｉ＇ｖ
关键词ＳＭ决策树文本分类支持向量数据描述ＶＴ３１Ｐ９文献标识码Ａ文章编号１０ — ９５２１）８０４ — ３０２１６（０００ — １１０中图分类号
０引言
ＳａｅＭｄ，Ｓ。其基本思想是将文本表示为向ｐｃｏｅＶＭ）量空间中的一个向量，由文本的词条作为向量的维数。假设所有文本的特征总数是Ｉ则构成一个ｎｔ，维的向量空间，这样每一个文本被表示成为一个维的特征向量：（）ｔ，（）￡，２ｄ； ∞ （）其中，Ｖｄ＝（ｌｄ； ∞ （） …ｔ，ｄ），
第２９卷第８期
２１００年８月
情
报
杂志
ＪＯＵＲＮＡＬＯＦＩＥＬＬＧＥＮＴＩＮＣＥ
Ｖｏ．９Ｎｏ８１２．Ａｕ．２１ｇ００
一
种改的ＳＭ决笨树支本分垂法Ｖ
ＴｅｔＣｌｓｉｅｓｄｏｎＩｐｒｖｄｘａｓｆｒＢａｅｎａｍｉｏｅＳＶＭｃｓｏｅＤｅｉｉｎＴｒｅ
ＩＧ和ＣＩＨ表现较好。

经典决策树算法

经典决策树算法经典决策树算法是一种常用的机器学习算法，它通过构建一棵树形结构来进行分类或回归预测。

下面将介绍十个经典决策树算法及其特点。

1. ID3算法ID3算法是决策树算法中最早的一种，它使用信息增益来选择最优的划分属性。

ID3算法适用于离散型属性的分类问题，但对于连续型属性的处理较为困难。

2. C4.5算法C4.5算法是ID3算法的改进版，它引入了信息增益比来解决ID3算法的缺点。

C4.5算法还支持处理连续型属性，能够处理缺失值，并且可以生成带有概率估计的决策树。

3. CART算法CART算法是一种通用的决策树算法，可用于分类和回归问题。

CART算法使用基尼指数来选择最优的划分属性，能够处理连续型和离散型属性，也能处理缺失值。

4. CHAID算法CHAID算法是一种用于分类问题的决策树算法，它使用卡方检验来选择最优的划分属性。

CHAID算法能够处理离散型属性和有序离散型属性，但对于连续型属性的处理较为困难。

5. MARS算法MARS算法是一种基于决策树的回归算法，它使用逐步回归和最小二乘法来构建决策树。

MARS算法能够处理连续型和离散型属性，并且可以生成非线性的决策树。

6. Random Forest算法Random Forest算法是一种集成学习算法，它通过构建多棵决策树并进行投票来进行分类或回归预测。

Random Forest算法能够处理连续型和离散型属性，具有较高的准确性和鲁棒性。

7. Gradient Boosting算法Gradient Boosting算法是一种迭代的决策树算法，它通过逐步优化损失函数来构建决策树。

Gradient Boosting算法能够处理连续型和离散型属性，具有较高的准确性和泛化能力。

8. XGBoost算法XGBoost算法是一种基于梯度提升的决策树算法，它通过正则化和并行计算来提高决策树的性能。

XGBoost算法能够处理连续型和离散型属性，并且具有较高的准确性和效率。

一种改进决策树算法的探讨

( 1. School of Compute r and Communicat ion E ngineering, Changsha Universit y of
Science & Technology, Changsha , Hunan 410076 ; 2. Department of Computer , Labor and Personnel Seminary, Changsha, Hunan 410076;3. Department of
1
I D3 决策树算法的思想
ID3 决策树算法最早是 1986 年由 Q uilan 提出的，它
是一个从上到下、贪婪的归纳学习方法Dan ). 其核心思想是利用信息嫡原理，选择信息增益最大的属性作为分类属性，递归地拓展决策树的分枝，完成决策树的构造. 设 s 为一个包含 n 个数据样本的集合，是类别属 m 性不同的取值个数， G ，iE { 1 . 2 . 3 。二是，m)对应于 m 个不同的类别假设 S 为类别 G 中的样本个数，那么要对一个给定数据对象进行分类所期望的信息盘为 : ( 场，昆，二 S. ) ‘ 一名P,log( R,) ‘ ( 1) 其中 P 二5 / 5 为任意样本属于 c 的概率. 如果以属性 A 作为决策树的根，属性 A 取 v 个不设
第 t , 卷第2 期 2006 年 4 月
J O U RN A L O F Z H U Z H O U T E A C H E R S C O L L E G E
株洲师范高等专科学校学报
丫】 ; ; No . z 。
Apr. 2006

决策树算法原理(三种最优属性划分方法)

决策树算法原理（三种最优属性划分方法）决策树是一种用于分类和回归的机器学习算法，其原理是基于历史数据进行学习，并通过一系列判断条件将数据集划分为不同的类别或者预测目标值。

决策树的主要思想是通过一系列属性值来对数据进行逐层划分，直到达到终止条件为止。

在每一次划分时，决策树需要选择最优的属性来进行划分，以使得划分后的数据纯度最高或者信息增益最大。

三种最优属性划分方法包括信息增益、增益率和基尼指数。

1.信息增益：信息增益是用来衡量划分后数据集纯度提高的程度。

它基于信息论中的熵的概念，计算的是划分前后数据集的信息熵之差。

信息熵可以衡量数据集的不确定性，即数据集中的混乱程度。

在选择划分属性时，我们希望划分后的数据集的不确定性最小，即使得信息增益最大。

2.增益率：增益率是信息增益的一种改进，用于解决信息增益在选择具有较多取值的属性上的偏好问题。

增益率通过考虑属性的分裂信息来衡量属性的纯度提升程度。

分裂信息反映了数据集分裂后的数据集的不确定性。

3.基尼指数：基尼指数是通过测量在给定数据集中随机选择一些样本后，错误分类该样本的概率。

基尼指数可以用于二分类或多分类问题。

在选择划分属性时，我们希望划分后的数据集的基尼指数最小，即使得纯度提高的程度最大。

以上三种最优属性划分方法在决策树学习的过程中都有着重要的应用。

在实际应用中，决策树算法可以通过先验知识或者经验来选择最优属性划分方法。

此外，由于决策树算法在高维数据上容易过拟合的问题，可以通过剪枝等技术来避免过拟合。

决策树算法的优势在于易于理解和解释，但也存在局限性，比如对于处理缺失数据、处理连续数据和处理类别不平衡等问题仍然存在挑战。

一种改进的SVM决策树及在遥感分类中的应用

１经典的ＳＭ多类分类方法Ｖ
１一对一（ｎ．ｇｉｔｎ））ｏｅａａｓｏｅｎ— 该方法在每两类样本间
收稿日期：２１－７１；修回日期：２１一９００１０ — ３０１Ｏ－３
基金项目：辽宁省科技计划资助项目（０００００２１４１１）
ｒ＝， ∑ｄ，）（Ｃ
１
・ｌ４１７・
（）２
ｒ，一１ｔ
２基于遗传算法和Ｋ近邻的ＳＶＭ决策树分类方法
传统的ＳＭ决策树采用固定树结构，Ｖ而且包括根节点在内各个节点的选择具有随意性，而使得分类性能具有不确定从性。为构造分类性能良好的决策树，可以考虑将容易分的类先分离出来，然后再分不容易分的类，样就能够使可能出现的这错分尽可能远离树根。本文在ＳＭ决策树的训练过程中，Ｖ以
ｄｉ１．９９ｊｉｎ１０ —６５２１．３０５ｏ：０３６／．ｓ．０１３９．０２０．９ｓ
ＩｒｖｄＳｍｐｏｅＶＭ Байду номын сангаас ｉｉｎ—ｒｅａｄｉｓａｐｉａｉｎｉｅｔｅｓｎｌｓｉｃｔｏｄｃｓｏｔｅｎｔｐｌｔｏｎｒｍｏｅｓｎｉｇｃａｓｆａｉｎｃｉ
相关的分类器个数为ｋ一１。预测未知样本时，每个分类器都
对其类别进行判断，为相应的类别投上一票，并最后得票最多的类别即作为该未知样本的类别。２一对多（ｎ—ｇｉｓｒｓ））ｏｅａａｔｅｔｎ— 该方法依次用一个ＳＭＶ分类器将每一类与其他类别区分开，共得到个分类器。预测未知样本时，将样本归类于具有最大决策函数值的那类。

一种改进的C4.5决策树算法

一种改进的C4.5决策树算法作者：王志春刘丽娜来源：《电子技术与软件工程》2016年第09期【关键词】数据挖掘决策树 C4.5算法信息增益率1 引言数据挖掘中决策树是解决分类问题的方法之一，是一种归纳学习算法。

通过一组属性值向量和相应的类，采用归纳学习算法构造分类器和预测模型，能够从一组无序和无规则的数据中生成决策树形式的分类规则。

决策树基本不依赖于任何专业领域的知识，所以在分类，预测和规则提取等领域都被广泛的应用。

70 年代末，J.ROSS Quinlan提出了ID3算法后，在机器学习和知识发现领域决策树算法都得到了进一步应用和发展。

ID3算法的核心是选择属性时，用信息增益（information gain）作为选择属性的度量标准，在测试每一个非叶子结点时，能获得关于被测试记录最大的类别信息。

虽然ID3算法具有算法清晰，方法简单和学习能力较强的优点，但是ID3算法不能处理连续的属性值，并且依赖于训练数据集的质量，只对数据集较小的情况有效，训练数据集在逐渐变大时，决策树可能会随之改变。

由于ID3算法存在着许多需要改进的地方，为此，J.ROSS.Quinlan于1993提出了C4.5算法，对ID3算法进行了补充和改进。

C4.5 算法具有ID3 算法优点的同时也改进和扩展了算法，使其产生易于理解和准确率较高的分类规则。

相比于ID3算法，C4.5算法用信息增益率来选择属性，而不是ID3算法所用的信息增益；在ID3算法的基础上还增加了对连续属性的离散化、对不完整属性的处理能力和产生规则等功能。

2 C4.5算法2.1 信息增益和信息增益率设D是m个不同值的训练集有m个不同类Ci （i=1，2，…，m），设Ci， d是元组的集合，D和Ci， d中的元组个数是|D|和|Ci， d|。

2.1.1 信息增益ID3算法中选择具有最高信息增益的属性作为节点N的分裂属性，使元组分类的信息量最小。

期望信息为：用|Ci， d|/|D|估计D中任意元组属于类Ci的概率Pi。

决策树算法的优化方法及其改进思路

决策树算法的优化方法及其改进思路决策树算法是一种常用的机器学习方法，广泛应用于分类和回归问题。

然而，在实际应用中，决策树算法也存在一些问题，例如容易过拟合、对噪声敏感等。

为了克服这些问题，研究人员提出了一系列优化方法和改进思路。

本文将介绍决策树算法的常见优化方法，并探讨一些改进思路。

一、剪枝算法剪枝算法是决策树算法中常用的优化方法之一。

传统的决策树算法在构建决策树时会一直生长，直到每个叶节点都是单一的类别或者达到预定的阈值。

然而，这样的决策树容易过拟合，泛化能力较差。

剪枝算法通过移除一些决策树的分支或合并一些叶节点来减小决策树的复杂度，以提高决策树的泛化能力。

常用的剪枝算法包括预剪枝和后剪枝。

预剪枝算法在决策树构建过程中，在每一次划分之前评估划分后的决策树的性能，如果划分后的性能下降，则停止划分，将当前节点作为叶节点。

后剪枝算法则是先构建完整的决策树，然后通过计算剪枝前后的性能来决定是否剪枝。

具体操作是从底向上，逐步剪枝，直到剪枝后的决策树达到预期的性能。

二、集成学习方法集成学习是通过构建多个基分类器，然后将它们组合成一个更强大的分类器的方法。

决策树算法也可以通过集成学习来进行优化。

常见的集成学习方法包括Bagging和Boosting。

Bagging方法通过随机抽样得到多个训练集，然后分别训练多个决策树，最后通过对多个决策树的结果进行投票或平均来得到最终结果。

Boosting方法则是通过逐步调整样本权重来训练多个弱分类器，并将它们组合成一个强分类器。

三、特征选择方法特征选择是指在构建决策树时选择最优的特征进行划分。

选择合适的特征可以提高决策树的学习能力和泛化能力。

常见的特征选择方法有信息增益、信息增益率、基尼指数等。

信息增益是通过计算特征对数据集的熵的减少程度来选择最优特征的方法。

信息增益率则是在信息增益的基础上考虑特征本身的信息量。

四、决策树剪枝策略的改进在传统的决策树剪枝策略中，通过预剪枝和后剪枝来减小决策树的复杂度，以提高泛化能力。

决策树分类算法

决策树分类算法⼀、决策树原理决策树是⽤样本的属性作为结点，⽤属性的取值作为分⽀的树结构。

决策树的根结点是所有样本中信息量最⼤的属性。

树的中间结点是该结点为根的⼦树所包含的样本⼦集中信息量最⼤的属性。

决策树的叶结点是样本的类别值。

决策树是⼀种知识表⽰形式，它是对所有样本数据的⾼度概括决策树能准确地识别所有样本的类别，也能有效地识别新样本的类别。

决策树算法ID3的基本思想：⾸先找出最有判别⼒的属性，把样例分成多个⼦集，每个⼦集⼜选择最有判别⼒的属性进⾏划分，⼀直进⾏到所有⼦集仅包含同⼀类型的数据为⽌。

最后得到⼀棵决策树。

J.R.Quinlan的⼯作主要是引进了信息论中的信息增益，他将其称为信息增益（information gain），作为属性判别能⼒的度量，设计了构造决策树的递归算法。

举例⼦⽐较容易理解：对于⽓候分类问题，属性为:天⽓(A1) 取值为：晴，多云，⾬⽓温(A2) 取值为：冷，适中，热湿度(A3) 取值为：⾼，正常风 (A4) 取值为：有风，⽆风每个样例属于不同的类别，此例仅有两个类别，分别为P，N。

P类和N类的样例分别称为正例和反例。

将⼀些已知的正例和反例放在⼀起便得到训练集。

由ID3算法得出⼀棵正确分类训练集中每个样例的决策树，见下图。

决策树叶⼦为类别名，即P 或者N。

其它结点由样例的属性组成，每个属性的不同取值对应⼀分枝。

若要对⼀样例分类，从树根开始进⾏测试，按属性的取值分枝向下进⼊下层结点，对该结点进⾏测试，过程⼀直进⾏到叶结点，样例被判为属于该叶结点所标记的类别。

现⽤图来判⼀个具体例⼦，某天早晨⽓候描述为:天⽓：多云⽓温：冷湿度：正常风：⽆风它属于哪类⽓候呢?-------------从图中可判别该样例的类别为P类。

ID3就是要从表的训练集构造图这样的决策树。

实际上，能正确分类训练集的决策树不⽌⼀棵。

Quinlan的ID3算法能得出结点最少的决策树。

ID3算法：⒈对当前例⼦集合，计算各属性的信息增益；⒉选择信息增益最⼤的属性A k；⒊把在A k处取值相同的例⼦归于同⼀⼦集，A k取⼏个值就得⼏个⼦集；⒋对既含正例⼜含反例的⼦集，递归调⽤建树算法；⒌若⼦集仅含正例或反例，对应分枝标上P或N，返回调⽤处。

改进的随机森林分类方法及其应用

改进的随机森林分类方法及其应用随机森林是一种基于决策树的集成学习方法，它通过使用多个决策树来进行分类或回归任务。

随机森林通过随机特征选择和有放回抽样来增强模型的泛化能力和鲁棒性。

同时，随机森林也可以通过进行投票或平均操作来集成多个决策树的结果。

在传统的随机森林分类方法的基础上，还有一些改进的方法可以进一步提高随机森林的分类性能。

以下是其中几个常用的改进方法：1. 极端随机树（Extra Trees）：极端随机树是在随机森林的基础上进一步随机化特征选择和阈值确定过程的方法。

在构建每个决策树时，极端随机树会随机选择特征的一个子集来确定最佳分割点，而不是计算最佳分割点。

这种额外的随机化可以降低模型的方差，提高模型的泛化性能。

2.随机森林与梯度提升树的结合：将随机森林与梯度提升树相结合可以得到更强大的模型。

在这种组合方法中，随机森林用于生成初始的预测，然后梯度提升树通过迭代地拟合残差来进一步优化模型。

这种组合可以充分利用随机森林的并行性，并利用梯度提升树的优点来减少偏差。

3.随机森林的无监督学习方法：除了应用于监督学习问题，随机森林还可以用于无监督学习任务，如聚类分析和异常检测等。

通过使用随机森林进行聚类分析，可以有效地处理高维数据，并且无需提供样本的类别信息。

在异常检测中，随机森林可以通过计算数据点到决策树的平均路径长度来识别异常值。

随机森林方法具有广泛的应用领域，包括但不限于以下几个方面：1.医疗诊断：随机森林可以用于识别疾病的早期迹象和进行预测性诊断。

通过对医疗数据进行特征提取和分类，随机森林可以帮助医生更准确地诊断疾病，并提供治疗建议。

2.欺诈检测：随机森林可用于识别信用卡欺诈、网络欺诈等欺诈行为。

通过分析用户的行为模式和特征，随机森林可以识别出潜在的欺诈行为，并提供实时的欺诈检测服务。

3.特征选择：在数据分析和特征工程中，随机森林可以用于评估各个特征对目标变量的重要性。

通过获取每个特征的重要性指标，可以进一步选择特征子集或进行特征组合，以提高模型的性能和减少维度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（9）根据 test_attribute=ai 条件，从结点 N 产生相应的一个分支，以表示该测试条件；
（10）设 si 为 test_attribute=ai 条件所获得的样本集合；（11）若 si 为空，则将相应叶结点标记为该结点所含样本中记为 Generate_decision_tree（si， attribute_list-test_attribute）返回值。
（5）返回 N 作为一个叶结点，并标记为该结点所含样本中
类别个数最多的类别；
（6）选择 attribute_list 中具有最高信息增益的属性 test_at－
tribute；
（7）标记结点 N 为 test_attribute；
（8）对于 test_attribute 中的每一个已知取值 ai，准备划分结点 N 所包含的样本集；
缩短了生成决策树的时间，但是作者没有考虑简化过程中带来的误差；在文献[6]中，作者针对 ID3 算法的取值偏向问题，引入了“兴趣度”的概念，对 ID3 算法进行了有效的改进，但是没能克服 ID3 算法存在的第（2）条缺点。
文章对文献[6]提出的决策树算法进行了优化，有效缩短了该算法生成决策树的时间，同时弥补了优化过程中带来的误差，避免了文献[5]中出现的不足。除此之外，针对样本集中某一确定属性值的记录集合为空的情况，给出了自己的修改方案。
2 算法改进原理
ID3 算法的基本原理[7]如下：设 E=F1×F2×…×Fn 是 n 维有穷向量空间。其中 Fj 是有穷离散符号集，E 中的元素 e=<V1，V2， …，Vn>称为样例。其中 Vj∈Fj，j=1，2，…，n。设 PE 和 NE 是 E 的 2 个样例集，分别叫做正例集和反例集。假设向量空间 E 中的正例集 PE 和反例集 NE 的大小分别为 P、N。由决策树的基本思想知 ID3 算法是基于如下两种假设：
Σv
e（A）= （1+
α
） ni pi
i=1
pi+ni pi+ni
但是，简化过程会引起误差，所以不能用上式直接作为选
择分类属性的度量。这里假设每个属性的特征值个数为 M，经
过多次实验证明将 M 乘以 e（A）可以有效弥补误差。因此，可
以用下式作为选择分类属性的度量：
Σv
e（* A）= （1+
α
） ni pi M
i=1
pi+ni pi+ni
（5）
（2）当 si 为空时，ID3 处理的方法是将相应叶结点标记为
该结点所含样本中类别个数最多的类别。为使决策树结点数目
尽量少，当 si 为空时，跳过 ID3 中的步骤（11），继续查找其他非空样本子集作为下次递归的输入训练集，并产生相应的决策树
分枝。在实际过程中，对于在决策树中不能找到的情况，与其给
Abstract：Analyze the basic principles and implementation steps of ID3 and point out the advantages and disadvantages of two existing improved classification algorithms.With the shortcoming of inclining to choose attributes having many values for ID3 and the deficiencies of classification time and classification accuracy for existing two improved classification algorithms，a new attribute selection scheme is proposed and optimized with mathematical knowledge.Experiment results show that the optimized scheme can overcome the above disadvantage of ID3 and has the advantages of classification time and classification accuracy over the existing two classification algorithms. Key words：data mining；decision tree；attributes selection
Computer Engineering and Applications 计算机工程与应用
2010，46（8） 127
一种改进的决策树分类属性选择方法
王苗 1，柴瑞敏 2 WANG Miao1，CHAI Rui-min2
1.辽宁工程技术大学研究生院，辽宁葫芦岛 125105 2.辽宁工程技术大学电子与信息工程学院，辽宁葫芦岛 125105 1.Institute of Graduate，Liaoning Technical University，Huludao，Liaoning 125105，China 2.School of Electronic and Information Engineering，Liaoning Technical University，Huludao，Liaoning 125105，China E-mail：hsmobei16525@
128 2010，46（8）
Computer Engineering and Applications 计算机工程与应用
（1）在向量空间 E 上的一棵正确决策树对任意样例的分
类概率同 E 中的正反例的概率一致。
（2）一棵决策树对一样例做出正确类别判断所需的信息为：
（I p，n）=- p lb p - n lb n p+n p+n p+n p+n
基金项目：辽宁工程技术大学研究生科研立项基金（the Liaoning Technical University Graduate Research Foundation of China under Grant No.Y200900501）。
作者简介：王苗（1984-），女，硕士研究生，主要研究方向：数据挖掘；柴瑞敏（1969-），女，副教授，硕士生导师，主要研究方向：人工智能，数据挖掘。收稿日期：2009-10-21 修回日期：2009-12-28
WANG Miao，CHAI Rui -min.Improved classification attribute selection scheme for decision tree .Computer Engineering and Applications，2010，46（8）：127-129.
在文献[5]中，作者利用数学中的等价无穷小理论，将 ID3
Σn
算法中的期望熵 E（A）近似为 e（1 A）=
i=1
ni pi 计算每个属性 ni +pi
的熵，从中选取熵值最小的属性作为决策树结点，但是没有弥
补近似化简引入的误差，生成的决策树和 ID3 算法生成的决策
树不相同，精确度有所降低。当选出以属性天气为决策树根结
摘要：分析了 ID3 算法的基本原理、实现步骤及现有两种改进分类算法的优缺点，针对 ID3 算法的取值偏向问题和现有两种改进算法在分类时间、分类精确度方面存在的不足，提出了一种新的分类属性选择方案，并利用数学知识对其进行了优化。经实验证明，优化后的方案克服了 ID3 算法的取值偏向问题，同时在分类时间及分类精确度方面优于 ID3 算法及现有两种改进的分类算法。关键词：数据挖掘；决策树；属性选择 DOI：10.3778/j.issn.1002-8331.2010.08.036 文章编号：1002－8331（2010）08-0127-03 文献标识码：A 中图分类号：TP399
点之后，可以根据天气的 3 个属性值雨、多云、晴得出 3 个子
树。这里以属性雨所在的子树为例说明为什么精确度会降低。
在进行递归计算时，可以得出各属性的信息熵分别为：
e（1 气温）=
4×1 4+1
+ 1×0 1+0
+ 1×1 1+1
=1.3
e（1 湿度）=
3×0 3+0
+ 2×3 2+3
=1.2
e（1 风）=
-ni
ln ni ）+ pi+ni
Σv α 1 （- pi ln pi - ni ln ni ）
i=1 ln 2 pi+ni pi+ni pi+ni pi+ni
对于每个训练集，（P+N）ln2 是常量且每一步都要计算，所
以可以省略。又由泰勒公式和麦克劳林公式可知当 x 很小时，
ln（1+x）≈x，进而可以将上式近似为：
输入：训练样本，各属性均取离散数值，可供归纳的候选属
性集为：attribute_list。
输出：决策树。
处理流程：
（1）创建一个结点 N；
（2）若该结点中的所有样本均为同一个类别 C，则开始根
结点对应所有的训练样本；
（3）返回 N 作为一个叶结点，以类 C 标记；
（4）如果 attribute_list 为空；
（I pi，n）i
（2）
以 A 为根的信息增益是：
gain（A）=（I p，n）-E（A）
（3）
ID3 选择 gain（A）最大，也就是 E（A）最小的属性 A* 作为
根结点，对 A* 的不同取值对应的 E 的 V 个子集 Ei 递归调用上述过程生成 A* 的子结点 B1，B2，…，Bv。
详细算法[8]描述如下：