决策树算法总结

格式：docx
大小：299.75 KB
文档页数：21

下载文档原格式

/ 21

决策树很详细的算法介绍

决策树很详细的算法介绍决策树（Decision Tree）是一种常用的机器学习算法，它模拟人类决策过程的思维方式，能够通过学习已有数据集建立一个树状模型，来进行分类和回归的预测。

它可以处理具有离散和连续属性的数据，并具有较好的可解释性和易于理解的特点。

本文将对决策树算法进行详细介绍。

一、决策树算法的基本原理决策树算法基于“分而治之”的思想，将复杂的问题分解为一系列简单的决策判断，从而构建一个树状模型。

决策树的根节点表示最初的决策，内部节点代表决策的中间过程，叶节点表示最终的决策结果。

决策树的构建过程包括特征选择、树的生成和剪枝三个步骤。

特征选择是决策树算法中非常重要的一步，目的是选择对结果预测有最大分类能力的特征作为划分标准。

经典的特征选择方法有信息增益（ID3）、增益比（C4.5）和基尼指数（CART）等。

信息增益以信息熵的减少量作为特征选择的标准，增益比在信息增益的基础上，对特征本身的信息熵做出惩罚，而基尼指数则衡量数据集的不确定性。

树的生成是决策树算法的核心部分，它可以通过递归地将训练数据划分为不同的子集，直到子集中的数据属于同一类别为止。

生成过程中，通过计算选择的特征对数据集进行划分，并将数据集按照该特征的取值划分为若干子集。

重复这个划分过程，直到每个子集中的数据都属于同一类别，或者没有更多的特征可以选择。

决策树的剪枝是为了防止过拟合现象的发生，过拟合指的是决策树建立过于复杂，过多地考虑了数据集的特殊噪声和异常情况，导致模型在测试数据上表现较差。

剪枝的目标是通过去掉一些分支来简化树模型，提高模型的泛化能力。

决策树剪枝算法有预剪枝和后剪枝两种方式，预剪枝在生成树的过程中进行剪枝，后剪枝在生成树之后进行剪枝。

二、决策树的优势和不足决策树算法具有以下优势：1.决策树易于理解和解释，生成的规则形式直观，能够为决策提供明确的解释。

2.决策树算法是一种非参数方法，对数据的分布没有假设，适用于各种类型的数据。

流数据中的决策树算法汇总

流数据中的决策树算法汇总
1. 决策树算法（Decision Tree Algorithm）
决策树算法是使用基于概率的机器学习算法，该算法可用于计算分类
和回归问题。

决策树算法将数据集合拆分成多个子集，将每个子集看作一
个节点，从而构建树结构。

决策树算法是一个自顶向下的递归算法，它的
主要目标是通过比较特征值来选择最佳分支，从而从根节点到叶节点获得
最优结果。

决策树算法首先评估数据中每个特征值的重要性，然后将数据分割成
一系列子集，每个子集都具有不同的特征值。

根据决策树的训练过程，每
次迭代选择最有利的分裂点，以此形成一棵完整的决策树。

此外，决策树算法还具有一些优点，如易于理解和解释，不易受到离
群点的影响，需要较少的数据准备等。

尽管决策树算法存在一些缺点，如
训练数据集中的特征值可能会比实际数据集多，也可能出现过拟合等情况，但它仍是机器学习中一种有效的算法。

2.C4.5算法
C4.5算法是一种流行的决策树算法，用于分类和回归问题。

决策树总结

决策树总结决策树是一种常用的机器学习算法，它在数据挖掘和预测分析中被广泛应用。

本文将对决策树进行总结，包括其基本原理、构造方法、优缺点以及应用场景。

1. 基本原理决策树基于一系列的决策规则来完成分类或回归任务。

它将数据集划分为不同的子集，并在每个子集上继续进行划分，直到得到满足某个条件的叶节点。

在每次划分时，决策树算法通过计算某个指标（如信息增益、基尼指数）来选择最优的划分属性。

最终得到的决策树可以被用于预测新样本的类别或者回归值。

2. 构造方法决策树的构造方法主要有以下几种：ID3、C4.5、CART等。

ID3算法通过计算信息增益来选择最优划分属性，但存在对取值数目较多的属性偏好的问题；C4.5算法在ID3的基础上引入了信息增益比，更好地处理了取值数目较多的属性；CART算法则根据最小化基尼指数来选择最优划分属性，适用于分类和回归问题。

3. 优缺点决策树的优点在于简单易懂、可解释性强、适用于处理多类别问题、能处理连续属性等。

此外，决策树不需要对数据进行过多的预处理，而且在构建过程中能够自动选择重要特征。

然而，决策树也存在一些缺点。

首先，决策树容易过拟合，特别是当树的深度过大时。

为了解决这个问题，可以通过剪枝操作或者限制决策树的最大深度来减少过拟合风险。

其次，决策树对于缺失值的处理不够灵活，常常需要进行数据填充。

最后，决策树算法对于噪声和异常值比较敏感，容易产生不稳定的结果。

4. 应用场景决策树广泛应用于各种领域，其中包括金融、医疗、市场营销等。

在金融领域，决策树可以用于信用评分、风险识别、投资决策等。

在医疗领域，决策树可以用于疾病诊断、药物治疗方案选择等。

在市场营销领域，决策树可以用于客户分群、推荐系统等。

总之，决策树是一种常用的机器学习算法，它通过一系列的决策规则来完成分类或回归任务。

决策树算法具有简单易懂、可解释性强、适用于多类别问题等优点。

然而，它也存在容易过拟合、对异常值敏感等缺点。

决策树在金融、医疗、市场营销等领域都有广泛应用，可以用于信用评分、疾病诊断、客户分群等任务。

决策树的算法

决策树的算法一、什么是决策树算法？决策树算法是一种常见的监督学习算法，用于解决分类和回归问题。

它基于树状图模型，通过将数据集分成不同的决策路径来预测目标变量的值。

二、决策树的构建过程决策树的构建过程可以分为以下几个步骤：1. 特征选择特征选择是决策树构建中的关键步骤。

常用的特征选择算法有信息增益、信息增益率、基尼指数等。

这些算法用于衡量一个特征对结果的重要程度，选择最优的特征作为划分标准。

2. 根据划分标准划分数据集根据选择的划分标准，将数据集划分为多个子集。

如果特征为离散型，则根据每个特征取值将数据集分成不同的子集；如果特征为连续型，则选择一个阈值将数据集分成两个子集。

3. 递归构建子树对每个子集递归执行上述两个步骤，直到满足终止条件。

终止条件通常有以下几个：子集中的样本属于同一类别、子集中的样本数小于预定阈值、特征集为空。

4. 剪枝剪枝是为了防止过拟合而对决策树进行修剪。

常用的剪枝策略有预剪枝和后剪枝两种。

预剪枝在构建过程中通过设置条件限制决策树的生长，后剪枝则是先构建完整的决策树，然后通过剪枝选择最优子树。

三、决策树的优缺点决策树算法具有以下优点：1.算法简单，易于理解和解释。

决策树的结构类似于人类的决策过程，易于理解和解释。

2.能够处理多类型的数据。

决策树可以处理离散型和连续型的特征，适用于各种类型的数据。

3.能够处理缺失值。

决策树算法可以直接处理缺失值，而不需要进行额外的处理。

4.能够处理多输出问题。

决策树可以处理多分类和回归问题，适用于多输出的情况。

决策树算法也存在一些缺点：1.容易过拟合。

决策树算法在处理复杂问题时容易产生过拟合现象，通过剪枝和设置合适的参数可以减少过拟合的风险。

2.对噪声和异常值敏感。

决策树算法对噪声和异常值比较敏感，容易产生不稳定的结果。

3.不适用于处理高维稀疏数据。

决策树算法在处理高维稀疏数据时效果较差，容易产生过拟合现象。

四、决策树的应用场景决策树算法在各个领域都有广泛的应用，例如：1.金融行业：决策树可以用于信用评估、风险评估和欺诈检测等。

安全决策树法小结

安全决策树法小结安全决策树法（Security Decision Trees）是一种用于辅助决策的方法，它将安全问题转化为决策问题，并通过构建决策树来帮助分析人员做出安全决策。

本文将对安全决策树法进行详细介绍并总结其优缺点。

一、背景介绍在日常的安全管理中，我们需要做出许多关于安全的决策，如选择合适的安全措施、应对安全事件等。

然而，由于决策过程的复杂性和风险的不确定性，我们常常难以做出正确的决策。

因此，一种能够辅助决策的方法就显得非常重要。

安全决策树法就是其中一种常用的辅助决策方法。

它将安全问题转化为决策问题，并通过构建决策树来帮助分析人员做出决策。

决策树法源于机器学习领域，主要用于分类和预测问题，而安全决策树法则是将其应用到了安全领域。

二、工作原理安全决策树法的工作原理可以分为以下几个步骤：1.收集数据：首先，需要收集与安全相关的数据，包括历史数据、安全事件数据等。

这些数据将会成为构建决策树的依据。

2.数据清洗和预处理：对收集到的数据进行清洗和预处理，包括去除噪声、处理缺失值等。

这将有助于提高决策树的准确性和稳定性。

3.特征选择：选择合适的特征作为决策树的节点。

特征的选择应是基于其对安全目标的相关性和区分度。

4.构建决策树：根据选择的特征，使用不同的决策树算法来构建决策树模型。

常见的算法包括ID3、C4.5、CART等。

5.决策树优化：对构建好的决策树进行优化，包括剪枝、降低过拟合等。

这样可以提高决策树的泛化能力和准确性。

6.决策准则：根据构建好的决策树，制定决策准则，即根据不同的情况做出相应的决策。

7.决策评估与迭代：对制定的决策进行评估，并根据评估结果进行优化和迭代。

三、优点与局限性1.优点：（1）直观易懂：决策树是一种直观易懂的方法，易于理解和解释，使决策者更容易理解安全问题和决策结果。

（2）数据分析：安全决策树法是一种基于数据的分析方法，能够通过对历史数据的分析和挖掘来辅助决策，提高决策的准确性和稳定性。

决策树的三种算法

决策树的三种算法一、决策树算法的简单介绍决策树算法就像是一个超级智能的树状决策指南。

你可以把它想象成一棵倒着长的树，树根在上面，树枝和树叶在下面。

它的任务呢，就是根据不同的条件来做出各种决策。

比如说，你想决定今天穿什么衣服，天气就是一个条件，如果天气冷，你可能就选择穿厚衣服；如果天气热，那薄衣服就比较合适啦。

决策树算法在很多地方都超级有用，像预测一个人会不会买某个商品，或者判断一个邮件是不是垃圾邮件之类的。

二、决策树的三种算法1. ID3算法这个算法就像是一个很会找重点的小机灵鬼。

它主要是根据信息增益来构建决策树的。

啥是信息增益呢？就是通过计算某个属性带来的信息量的增加。

比如说，在判断一个水果是苹果还是香蕉的时候，颜色这个属性可能就有很大的信息增益。

如果一个水果是红色的，那它是苹果的可能性就比较大。

ID3算法会优先选择信息增益大的属性来作为树的节点，这样就能更快更准地做出决策啦。

不过呢，这个算法也有个小缺点，就是它比较容易对噪声数据敏感，就像一个很敏感的小娃娃，稍微有点风吹草动就可能受到影响。

2. C4.5算法C4.5算法就像是ID3算法的升级版。

它在ID3算法的基础上做了一些改进。

它不仅仅考虑信息增益，还考虑了信息增益率。

这就好比是一个更加全面考虑的智者。

通过考虑信息增益率，它能够更好地处理那些属性值比较多的情况。

比如说，在一个数据集中有一个属性有很多很多不同的值，C4.5算法就能比ID3算法更好地处理这种情况，不会轻易地被这种复杂情况给弄晕。

而且C4.5算法还能够处理连续的属性值，这就像是它多了一项特殊的技能，让它在更多的情况下都能发挥作用。

3. CART算法CART算法又有自己的特点。

它使用的是基尼系数来选择属性进行划分。

基尼系数就像是一个衡量公平性的小尺子，在决策树这里，它是用来衡量数据的纯度的。

如果基尼系数越小，说明数据越纯，就越容易做出准确的决策。

CART算法既可以用于分类问题，就像前面说的判断水果是苹果还是香蕉这种，也可以用于回归问题，比如预测房价之类的。

决策树算法详细解释

决策树算法详细解释
决策树算法是一种逼近离散函数值的方法，也是一种常用的风险型决策方法。

它通过一系列规则对数据进行分类，其结果以树形图的形式展现。

决策树算法的基本原理是用决策点代表决策问题，用方案分枝代表可供选择的方案，用概率分枝代表方案可能出现的各种结果。

决策树算法通过比较不同方案在未来各种情况下的损益值，为决策者提供决策依据。

决策树算法的具体步骤如下：
1. 决策树的生成：利用归纳算法从训练样本集中生成决策树。

这个过程通常会反复进行，直到达到预设的停止条件为止。

2. 决策树的剪枝：这是对生成的决策树进行检验、校正和修剪的过程。

主要是用新的样本数据集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预测准确性的分枝剪除。

决策树算法最早产生于上世纪60年代，到70年代末由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。

但是忽略了叶子数目的研究。

算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝
技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。

以上内容仅供参考，如需更多信息，建议查阅决策树算法相关论文或咨询数学领域专业人士。

决策树算法实验总结

决策树算法实验总结
决策树算法是一种常用的机器学习算法，它通过对数据集进行递归划分，构建出一棵树状的决策模型。

在实验中，我们使用了决策树算法进行分类任务，并对实验结果进行总结。

首先，我们需要准备一个带有标签的训练数据集，其中包含了多个特征和对应的类别标签。

然后，我们可以使用决策树算法对训练数据集进行训练，构建出一棵具有判断条件的决策树。

在实验中，我们可以使用不同的指标来评估决策树算法的性能，例如准确率、精确率、召回率等。

这些指标可以帮助我们了解决策树算法在分类任务中的表现。

此外，我们还可以通过调整决策树算法的参数来提高其性能。

例如，可以通过限制树的最大深度、设置叶子节点的最小样本数等来控制决策树的复杂度，避免过拟合问题。

在实验总结中，我们可以描述决策树算法在实验中的表现，比较其与其他算法的优劣势，并提出进一步改进的方向。

此外，还可以讨论决策树算法在不同数据集上的适用性，并分析其在实际应用中可能遇到的问题和局限性。

总而言之，决策树算法是一种简单而有效的机器学习算法，可以用于分类任务。

通过实验总结，我们可以更好地理解决策树算法的原理和性能，为进一步的应用和改进提供指导。

决策树算法

决策树算法1. 简介决策树算法是一种广泛应用于分类和回归问题的机器学习算法。

它通过从一组特征中选择最佳划分方式来构建一个树形结构的决策模型，从而对新样本进行预测或分类。

决策树算法简单易懂，可解释性强，且能处理同时包含离散和连续特征的数据。

2. 决策树的基本原理决策树算法基于以下几个关键概念：2.1 特征选择在构建决策树的过程中，需要选择最佳的特征来进行划分。

特征选择的目标是通过划分使得每个子节点的纯度最大化（分类问题）或者均方差最小化（回归问题）。

常用的特征选择指标有信息增益、增益率、基尼指数等。

2.2 决策树的构建决策树是通过不断选择最佳特征来递归地构建的。

首先将整个数据集作为根节点，选择一个最佳特征进行划分，然后将数据集划分为多个子集，每个子集对应一个子节点。

递归地对每个子节点进行特征选择和划分，直到满足终止条件（如纯度达到一定阈值或树的深度达到限制）为止。

2.3 决策树的剪枝决策树的构建过程容易导致过拟合，即模型对训练数据过于敏感而无法很好地推广到新样本。

为了避免过拟合，需要对决策树进行剪枝。

剪枝根据一定的准则，去除一些子树或叶节点，从而简化模型。

3. 决策树算法的优缺点3.1 优点•决策树易于理解和解释，模型生成的决策规则可以直观地呈现。

•决策树可以处理离散和连续特征，无需对数据进行特殊处理。

•决策树能够自动选择特征，并通过特征选择来提高模型的性能。

•决策树不需要很大的训练数据集，可以处理小型数据集。

3.2 缺点•决策树容易过拟合，特别是在处理复杂问题时。

•决策树对输入数据的变化非常敏感，哪怕是微小的变化也可能导致完全不同的树结构。

•决策树很难处理包含有不同类别交叉的数据集。

4. 决策树算法的应用决策树算法被广泛应用于许多领域，以下是一些常见的应用场景：4.1 金融风险评估决策树可以根据客户的个人信息和历史数据，判断其信用风险等级。

通过构建一个决策树模型，银行或金融机构可以快速准确地评估客户的风险，从而做出相应的贷款决策。

决策树C4.5算法总结

数据集准备
数据清洗
去除异常值、缺失值，对数据进行预处理，使其满足算法要求。
数据分割
将数据集分为训练集和测试集，用于训练和评估决策树模型。
特征选择与划分
特征重要性评估
计算每个特征对目标变量的影响程度，选择最重要的特征作为划分标准。
特征划分
根据特征的重要性和信息增益率，将数据集划分为不同的子集，形成决策树的节点。
THANKS
感谢观看
案例二：医疗诊断分类
数据集
医疗诊断数据集包含了1452 条样本，每个样本有11个特征，目标变量为是否患有某
种疾病。
算法应用
使用C4.5算法构建决策树模型，对数据进行训练和测试，评估模型的准确率、召回
率和F1分数等指标。
结果分析
通过决策树模型，可以辅助医生进行疾病诊断，提高诊断的准确性和效率。
处理连续属性和缺失值的方法优化
• C4.5算法在处理连续属性和缺失值时采用了一些简单的策略，如将连续属性离散化或忽略缺失值。这些策略可能导致决策树无法充分利用数据中的信息。因此，一些研究者提出了更复杂的方法来处理连续属性和缺失值，如使用插值或回归方法来处理连续属性，以及使用特殊标记或填充值来处理缺失值。这些方法可以提高决策树对连续属性和缺失值的处理能力，从而提高模型的分类准确率。
2
C4.5算法采用了信息增益率、增益率、多变量增益率等更加复杂的启发式函数，提高了决策树的构建精度和泛化能力。
3
C4.5算法还引入了剪枝策略，通过去除部分分支来避免过拟合，提高了决策树的泛化性能。
决策树C4.5算法的应用场景
数据挖掘
C4.5算法广泛应用于数据挖掘领域，用于分类、回归和聚类

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

决策树决策树研发二部目录1. 算法介绍 (1)1.1. 分支节点选取 (1)1.2. 构建树 (3)1.3. 剪枝 (10)2. sk-learn 中的使用 (12)3. sk-learn中源码分析 (13)1. 算法介绍决策树算法是机器学习中的经典算法之一，既可以作为分类算法，也可以作为回归算法。

决策树算法又被发展出很多不同的版本，按照时间上分，目前主要包括，ID3、C4.5和CART版本算法。

其中ID3版本的决策树算法是最早出现的，可以用来做分类算法。

C4.5是针对ID3的不足出现的优化版本，也用来做分类。

CART也是针对ID3优化出现的，既可以做分类，可以做回归。

决策树算法的本质其实很类似我们的if-elseif-else语句，通过条件作为分支依据，最终的数学模型就是一颗树。

不过在决策树算法中我们需要重点考虑选取分支条件的理由，以及谁先判断谁后判断，包括最后对过拟合的处理，也就是剪枝。

这是我们之前写if语句时不会考虑的问题。

决策树算法主要分为以下3个步骤：1. 分支节点选取2. 构建树3. 剪枝1.1. 分支节点选取分支节点选取，也就是寻找分支节点的最优解。

既然要寻找最优，那么必须要有一个衡量标准，也就是需要量化这个优劣性。

常用的衡量指标有熵和基尼系数。

熵：熵用来表示信息的混乱程度，值越大表示越混乱，包含的信息量也就越多。

比如，A班有10个男生1个女生，B班有5个男生5个女生，那么B班的熵值就比A班大，也就是B班信息越混乱。

Entropy = -V p ”基尼系数：同上，也可以作为信息混乱程度的衡量指标。

Gini = 1 - p：l-L有了量化指标后，就可以衡量使用某个分支条件前后，信息混乱程度的收敛效果了。

使用分支前的混乱程度，减去分支后的混乱程度，结果越大，表示效果越好。

#计算熵值def entropy(dataSet):tNum = len (dataSet)print (tNum)#用来保存标签对应的个数的，比如，男：6,女：5labels = {}for node in dataSet:curL = node[- 1] #获取标签if curL not in labels.keys():labels[curL] = 0 #如果没有记录过该种标签，就记录并初始化为0labels[curL] += 1 #将标签记录个数加1#此时labels中保存了所有标签和对应的个数res = 0#计算公式为-p*logp，p为标签出现概率for node in labels:p = float (labels[ no de]) / tNumres -= p * log(p, 2)return res#计算基尼系数def gini(dataSet):tNum = len (dataSet)print (tNum)#用来保存标签对应的个数的，比如，男：6,女：5labels = {}for node in dataSet:curL = node[- 1] # 获取标签if curL not in labels.keys():labels[curL] = 0 #如果没有记录过该种标签，就记录并初始化为0labels[curL] += 1 #将标签记录个数加1# 此时labels中保存了所有标签和对应的个数res = 1#计算公式为-p*logp , p为标签出现概率for node in labels:p = float (labels[ no de])/ tNumres -= p * preturn res1.2. 构建树ID3算法：利用信息熵增益，决定选取哪个特征作为分支节点。

分支前的总样本熵值-分支后的熵值总和=信息熵增益。

T1的信息熵增益： 1 -13/20*0.961 - 7/20*0.863 = 0.073T2的信息熵增益： 1 -12/20*0.812 - 8/20*0.544 = 0.295所以使用T2作为分支特征更优ID3算法建树：依据前面的逻辑，递归寻找最优分支节点，直到下面情况结束1. 叶节点已经属于同一标签2. 虽然叶节点不属于同一标签，但是特征已经用完了3. 熵小于预先设置的阈值4. 树的深度达到了预先设置的阈值ID3算法的不足：1. 取值多的特征比取值少的特征更容易被选取。

2. 不包含剪枝操作，过拟合严重3. 特征取值必须是离散的，或者有限的区间的。

于是有了改进算法C4.5C4.5算法：基于ID3算法进行了改进，首先，针对ID3的不足1,采用信息增益率取代ID3中使用信息增益而造成的偏向于选取取值较多的特征作为分裂点的问题。

针对ID3的不足2,采用剪枝操作，缓解过拟合问题。

针对ID3的不足3,采用将连续值先排列，然后逐个尝试分裂，找到连续值中的最佳分裂点。

信息增益率的计算：先计算信息增益，然后除以splitelnfo。

spliteInfo为分裂后的子集合的函数，假设分裂后的子集合个数为subl和sub2, total为分裂前的个数。

spliteInfo = -sub1 / total * Iog(sub1 / total) -sub2 / total * Iog(sub2 / total)#index:特征序号#value:特征值#该方法表示将index对应特征的值为value的集合返回，返回集合中不包含index对应的特征def spliteDataSet(dataSet, index, value):n ewDataSet =[]for node in dataSet:if no de[i ndex] == value:#[0,index)列的数据n ewData = no de[:i ndex]#[index+1,最后]列的数据n ewData.exte nd(no de[i ndex + 1:])n ewDataSet.appe nd(n ewData)return n ewDataSet;#选择最优分裂项def chooseBestFeature(dataSet):#特征个数featureNum = len (dataSet[ 0]) - 1#计算整体样本的熵值武汉中原电子信息有限公司4print ("baseEntropy = %f" %(baseEntropy))#保存最大的信息增益率maxi nfoGai nRatio = 0.0bestFeatureld = - 1for i in range (featureNum):#获取特征所有可能的值featureValues =[]for node in dataSet:featureValues.appe nd(no de[i])print (featureValues)#将特征值去除重复uniqueFeatureValues = set (featureValues)print (uniqueFeatureValues)#按照i特征分裂之后的熵值n ewE ntropy = 0.0#分裂信息splitei nfo = 0.0#按照i所表示的特征，开始分裂数据集for value in uniqueFeatureValues:#当i属性等于value时的分裂结果subDataSet = spliteDataSet(dataSet, i, value)print (subDataSet)#计算占比p = float (len (subDataSet)) / float (len (dataSet)) n ewE ntropy += p * en tropy(subDataSet)splite info += -p * log(p, 2)#计算信息增益in foGai n = baseE ntropy - n ewE ntropy#计算信息增益率if splite Info == 0:con ti nueinfoGainRatio = infoGain / spliteinfoif in foGa in Ratio > maxln foGa in Ratio:maxln foGa in Ratio = in foGa in RatiobestFeatureld = ireturn bestFeatureldC4.5算法的不足：1. 如果存在连续值的特征需要做排序等处理，计算比较耗时2. 只能用于分类使用于是有了CART算法CART算法：也是基于ID3算法优化而来，支持分类和回归，使用基尼系数（分类树）或者均方差（回归树）替代熵的作用，减少运算难度。

使用二叉树代替多叉树建模，降低复杂度。

基尼系数的计算：EC/均方差的计算：计算举例，假设有如下数据源看电视时间婚姻情况职业年龄3 未婚学生124 未婚学生18 2 已婚老师265 已婚上班族47 2.5 已婚上班族364已婚学生 21如果将婚否作为标签，该问题是一个分类问题，所以使用基尼系数假设使用职业作为特征分支，对于看电视和年龄，都是连续数据，需要按照 C4.5的算法排序后处理，这里先分析简单的按照职业开始划分。

又因为，CART 算法的建模是二叉树，所以，针对职业来说，有以下组合，学生|非学生，老师|非老师，上班族|非上班族，到底怎么划分，就要通过基尼系数来判断了。

(1 -2 / 5 * 2 / 5 -3 / 5 * 3 / 5) = 0.49［尹*| V基1 /1 25'上雜42P |tun 15--St*岳牲，昭1 1.. *S* n.2V1gini = 3 / 7 * (1-2 / 3 * 2 /3 -1 / 3 * 1 / 3) + 4 / 7 * (1—3 / 4 * 3 / 4-1 / 4 * 1 / 4) = 0.4基* iff 卒冏2-418*'r8r s-I \r 上上鮒匸岳4SIVgini = 2 / 7 * (1-1 / 2 * 1 / 2屈已It1 h星.血\迟艇低丨翊+如IX召.1上赃是1-1 / 2 * 1 / 2) + 5 / 75 * 2 / 5) = 0.34所以，如果选择职业来划分，那么首先应该按照上班族 |非上班族划分如果将年龄作为标签，该问题是一个回归问题，所以使用均方差同样，先考虑使用职业来划分mea n =开方(12 * 12 + 18 * 18 + 21 * 21 -3 * 17 * 17) + 开方(26 * 26 + 47 * 47 + 36 * 36 + 29 * 29 -5 * 32.5 * 32.5) = 34.71其他情况略。

牡.犠|$=1*13-捋强是上瞧4?.25- 8弄◎29*12Vgini = 2 / 7 * (1-1 * 1) + 5 / 7 * (1千許1 乂1上珈匸25 1-显畏别【「1S8!6.a雜.1扭是tfjt#- 妙11单冬野己臨|I?払做1aU-r 卷: 爆I1r 技厂2&$「山i弄―1L 骈■421- I鮭己鼻 U稗!5*12■-*X?加A31可以看到选择分裂属性这一步骤会比较麻烦，首先要遍历所有特征, 找到每一个特征的最优分裂方法，然后在选择最优的分裂特征。

决策树算法总结

合集下载

决策树很详细的算法介绍

流数据中的决策树算法汇总

决策树总结

决策树的算法

安全决策树法小结

决策树的三种算法

决策树算法详细解释

决策树算法实验总结

决策树算法

决策树C4.5算法总结

文档推荐

最新文档

决策树算法总结

合集下载

决策树很详细的算法介绍

流数据中的决策树算法汇总

决策树总结

决策树的算法

安全决策树法 小结

决策树的三种算法

决策树算法详细解释

决策树算法实验总结

决策树 算法

决策树C4.5算法总结

文档推荐

最新文档

安全决策树法小结

决策树算法