CART决策树的两种改进及应用

格式：pdf
大小：330.95 KB
文档页数：5

下载文档原格式

人工智能决策树例题经典案例

人工智能决策树例题经典案例一、经典案例：天气预测决策树在天气预测中有广泛应用，下面是一个关于是否适宜进行户外运动的示例：1. 数据收集：- 温度：高（>30℃）/中（20℃-30℃）/低（<20℃）- 降水：是/否- 风力：高/中/低- 天气状况：晴朗/多云/阴天/雨/暴雨- 应该户外运动：是/否2. 构建决策树：- 根据温度将数据分为三个分支：高温、中温、低温- 在每个分支中，继续根据降水、风力和天气状况进行划分，最终得到是否适宜户外运动的决策3. 决策树示例：温度/ / \高温中温低温/ | | \ |降水无降水风力适宜/ \ | | / \是否高中低| |不适宜适宜- 如果温度是高温且有降水，则不适宜户外运动- 如果温度是高温且无降水，则根据风力判断，如果风力是高，则不适宜户外运动，如果风力是中或低，则适宜户外运动 - 如果温度是中温，则不论降水和风力如何，都适宜户外运动- 如果温度是低温，则需要考虑风力，如果风力是高，则适宜户外运动，如果风力是中或低，则不适宜户外运动4. 参考内容：决策树的构建和应用：决策树通过对输入特征进行划分，构建了一棵树形结构，用于解决分类或回归问题。

构建决策树主要包括数据预处理、特征选择、划分策略和停止条件等步骤。

特征选择可以使用信息增益、基尼指数等算法，划分策略可以使用二叉划分或多叉划分，停止条件可以是叶子节点纯度达到一定阈值或达到预定的树深度。

决策树的应用包括数据分类、特征选择和预测等任务。

天气预测案例中的决策树：将天气预测问题转化为分类问题，通过构建决策树，可以得到识别是否适宜户外运动的规则。

决策树的决策路径可以用流程图或树状图表示，帮助理解和解释决策过程。

决策树的节点表示特征值，分支表示判断条件，叶子节点表示分类结果。

决策树的生成算法可以基于启发式规则或数学模型，如ID3、C4.5、CART等。

决策树的优缺点：决策树具有可解释性强、易于理解和实现、能处理非线性关系等优点。

CART算法介绍

CART算法介绍CART（Classification And Regression Trees）算法是一种机器学习算法，主要用于决策树模型的构建。

CART算法通过递归地将数据集分割成多个子集，直到子集中的数据只属于同一类别或满足一些预定义的条件。

CART算法可以用于分类和回归问题。

1.选择一个初始特征作为根节点，并将数据集分成两个子集。

选择初始特征的方法有很多，常见的方法有基尼指数和信息增益。

2.对每个子集，重复步骤1，选择一个最佳特征并将子集分割成更小的子集。

分割策略可以采用相同的方法，即最小化基尼指数或最大化信息增益。

3.递归地重复上述步骤，生成一棵完整的决策树，其中每个叶子节点代表一个类别。

4.进行剪枝操作，可以通过最小化损失函数或使用交叉验证方法来选择最优的决策树。

1.算法简单易懂，实现较为容易。

CART算法将复杂的决策问题简化为“是”和“否”的问题，其结果容易解释和理解。

2.可以处理多类别问题。

CART算法可以应用于多类别分类问题，并且可以通过增加决策树的深度来提高分类的准确性。

3.能够处理非线性特征。

CART算法对非线性特征没有太强的限制，可以处理多种类型的特征。

4.对缺失值和异常值具有较好的鲁棒性。

CART算法对于缺失值和异常值有一定的容忍程度，不会对模型产生太大的影响。

然而，CART算法也存在一些不足之处：1.对于样本噪声比较敏感。

CART算法对于噪声数据比较敏感，噪声数据容易导致树模型产生过拟合的情况。

2.对于类别不平衡的数据集效果不佳。

CART算法对于类别不平衡的数据集容易出现偏倚现象，导致模型效果下降。

3.容易产生过拟合。

CART算法在构建决策树时采用了贪心策略，很容易产生过拟合问题。

为了避免过拟合，可以进行剪枝操作。

总结来说，CART算法是一种强大且灵活的机器学习算法，适用于分类和回归问题。

它具有较好的鲁棒性和解释性，并且能够处理多类别和非线性特征。

然而，CART算法仍然存在一些限制，如对噪声敏感和对类别不平衡的数据处理能力不足。

cart决策树案例

cart决策树案例
CART（Classification and Regression Trees）决策树是一种常用的机器学习算法，既可以用于分类问题，也可以用于回归问题。

下面是一个使用CART决策树解决分类问题的案例：
案例背景：一家电商网站想要预测用户是否会购买某商品，以便更好地进行商品推荐。

为此，他们收集了一些用户数据，包括用户的年龄、性别、购买历史、浏览历史等。

数据准备：首先，对数据进行预处理，包括缺失值处理、异常值处理、数据规范化等。

例如，对于年龄这一特征，可以将数据规范化到0-1之间。

特征选择：根据业务需求和数据特点，选择合适的特征进行建模。

例如，在本案例中，可以选择年龄、性别、购买历史、浏览历史等特征进行建模。

模型训练：使用CART决策树算法对数据进行训练，生成预测模型。

在本案例中，目标变量是用户是否购买某商品，因此这是一个二分类问题。

模型评估：使用测试集对模型进行评估，计算模型的准确率、精确率、召回率等指标。

如果模型表现不佳，需要对模型进行调整和优化。

应用场景：生成的模型可以应用于实际的电商推荐系统中，根据用户的历史数据和浏览行为等信息，预测用户是否会购买某商品，并据此进行商品推荐。

这只是一个简单的CART决策树分类案例，实际应用中可能还需要考虑更多的因素和细节。

结合递增式学习的CART算法改进

代表一个测试输出，而每个树叶节点代表类或类分ｇｉ１ｇｉ２ｉ（）ｉ（）ｎＴ和ｎＴ分别由（）１式得到。
布。典型的建立决策树的算法有基于信息熵的Ｉ３Ｄ
法（分类回归树）］文着重讨论ＣＲＩ１。本ＡＴ算法及其结合递增式学习的改进算法。
的：对于连续变量ｘ表示为ｆ；ｉ．ｘＩ＞ｘＣ吗？Ｃ为样本空间中变量ｘ的取值范围内的一个常数，ｌ；ｉ，…，＝ｍ；
ＬＵＯｎ－ｉｇＷＡＮＧｉｎｘｎＹｉｇｙｎ，Ｊａ－ｉ
（ｏｌｇｆｎｏｍｔｃｃｅｃ＆Ｔｃｎｌｇ，ＣｎｒｌｏｔｎｖｒｉｙＣａｇｈＨｎｎ４０８，ｈｎ）ＣｌｅｅｏＩｆｒａｉｓＳｉｎｅｅｈｏｏｙｅｔａＳｕｈＵｉｅｓｔ，ｈｎｓａ，ｕａ１０３Ｃｉａ
ＣＲＡＴ首先生成一棵非常复杂的树，再根据交叉验证和测试集验证的结果对树进行剪枝【最后２ｌ，根据不同版本的剪枝树在测试集数据上的性能得到最优通用树。ＣＲＡＴ生成原始树时用基尼（ｉ系数测度每ｎ）
一
割点。选择某个属性的最优分割点的过程是这样
ＡｂｔａｔＴｅａｔｌｘａｉｔｅｉｉｎｔｅｒｔｍｅｉ－ＡＴｂｓｄｏｉｉｏｄａｔｈｅｒｅａａｓｒｃ：ｈｒｉｅｅｐｔｅａｄｃｓｏ－ｒｅａｉｃａｈｔＣＲａｅｎｇｎ．ｅｌｗｉｔｅｄｇｅｓｄｔ，ｃＴｈａｖｎｅｍｐｏｅａｉｍｅｉｃｍｂｎｄｉｅｒｅｔｄ，ｉ’ ｍａｎｄａｓｕｃｉｎｕｇａｅＦｒｔｓｄａｃａｉｒｖｄｒｈｔｔｃｏｉｅｗｔｄｇｅｓｓｕｙｔＳｈｉｉｅｉｆｎｔｐｒｄ．ｉｕｅｏｓｅｉｔｇｄｔｕｌｅｉｉｎｔｅｙＣＲ，ｔｅｓ Байду номын сангаасｅｅｓｄｔｎｅｅｓｓｕｙｍｏｉｘｓｉｇｄｃ— ｘｓｉａａｂｉａｄｃｓｏ－ｒｅｂＡＴｈｎｕｅｄｇｅａａａｄｄｇｅｔｄｄｆｅｉｔｅｉｎｄｒｒｙｎｓｏ — ｒｅＦｎｌｒｖｄｃｒｅｔｅｓａｄｖｌｉｆｔｅｉｒｖｄａｉｍｅｉｒｍｈｏｙａｄｐａｔｅｉｎｔｅ．ｉａｌｐｏｅｏｒｃｎｓｎａｉｔｏｈｍｐｏｅｒｔｙｄｙｈｔｆｃｏｔｅｒｎｒｃｉ．ｃＫｅｗｏｄ：ｅｉｉｎｔｅｃｒａｉｍｅｉｄｇｅｓｓｕｙｙｒｓｄｃｓｏ－ｒ；ａｔｒｈｔｅｔｃ；ｅｒｅｔｄ

结合递增式学习的CART算法改进

（ｃｏｌｆｏｕｅｃｎｅＣａｇｈｎｖｒｉＳｉｃｄＴｃｎｌｙＣａｇｈ１０６Ｃｉ）ＳｈｏＣｍｐｔＳｉｃ，ｈｎｓａｉｅｔｏｃｎｅｅｈｏｇ，ｈｎｓａ０７，ｈａｏｒｅＵｓｙｆｅａｎｏ４ｎ
维普资讯
第２卷第７８期
ＶＯ１２８．
ＮＯ．７
计算机工程与设计
ＣｏｕｅｇｎｅｉｇａｄＤｅｉｎｍｐｔｒＥｎｉｅｒｎｎｓｇ
２０年４月０７
Ａｐ．２０ｒ０７
结合递增式学习的ＣＲＡＴ算法改进
ＩｒｖｄＣｍｐｏｅＡＲｒｈｔｏｉｅｔｅｒｅｔｄＴａｉｍｅｉｃｍｂｎｄｗｉｄｇｅｓｓｕｙｔｃｈ
ＬＵＯｎ — ｉｇＹｉｇｙｎ， Ⅵ ＮＧ —ｉｇＫｅｌ，ＣＨＥｕｎＭＡＯｎｆｎｎＮＣｈａ，Ｙｕ —ａｇ，
０引言
数据挖掘是从大量的、不完全的、噪声的、有模糊的、随
机的数据中，取隐含在其中的、们事先不知道的、又是提人但式中：
咖『卜（
分类为ｊ的概率。如果集合Ｔ在Ｘ条件下分成类
两部分Ｎ１Ｎ２那么这个分割的ｇｉ数就是和，ｉ指ｎ
ｇ胁）兰（：ｆ十ｆ（兰苫（））（）２
潜在的有用信息和知识的过程。分类和预测是两种数据分
析形式。数据分类的方法很多，常用的有决策树、贝叶斯分类、经网络、传算法等，中决策树因为直观，于理解，神遗其易得到较为广泛的应用。决策树是一个类似于流程图的树结构，中每个内部节点表示在一个属性上的测试，个分枝代其每表一个测试输出，每个树叶节点代表类或类分布。典型的而

蒙特卡洛决策树算法

蒙特卡洛决策树算法蒙特卡洛决策树算法是一种基于蒙特卡洛模拟的决策分析方法。

它是在传统决策树算法的基础上进行改进和扩展的，能够处理带有随机性和不确定性的决策问题。

本文将介绍蒙特卡洛决策树的原理、应用场景以及算法流程。

1. 蒙特卡洛决策树原理蒙特卡洛决策树算法主要是通过模拟的方式来评估不同决策路径的预期收益和风险，并选择最佳的决策路径。

其核心思想是通过大量的随机模拟来估计决策路径的预期值，然后根据这些估计值进行决策。

蒙特卡洛决策树算法的原理可以分为以下几个步骤：•步骤1：构建决策树。

根据实际问题的特点和需求，构建一个决策树模型。

该模型可以包括决策节点、随机事件节点和终止节点三种类型的节点。

•步骤2：随机模拟。

从决策树的根节点开始，按照确定的决策路径和随机事件的概率，对每个节点进行随机模拟，生成一个模拟轨迹。

•步骤3：评估模拟轨迹。

根据模拟轨迹上的各个节点的预期收益和风险指标，计算整个模拟轨迹的预期值。

•步骤4：选择最佳决策。

对于每个决策节点，根据模拟轨迹的预期值，选择子节点中预期值最高的决策路径作为最佳决策。

•步骤5：重复模拟。

根据实际需求，可以重复进行随机模拟和评估的过程，以提高预测的准确性。

2. 蒙特卡洛决策树应用场景蒙特卡洛决策树算法适用于各种决策问题，尤其是在面对不确定性和随机性较高的情况下具有广泛的应用场景。

以下是一些常见的应用场景：•金融领域：蒙特卡洛决策树可以用于金融投资决策，通过模拟不同投资组合的收益和风险，选择最佳的投资策略。

•供应链管理：蒙特卡洛决策树可以用于供应链的优化决策，通过模拟不同的供应链方案，评估其预期效益，选择最佳的供应链策略。

•工程项目管理：蒙特卡洛决策树可以用于工程项目的风险管理和资源分配决策，通过模拟不同的资源分配方案，评估其在不同风险水平下的预期收益，选择最佳的资源分配策略。

•医疗决策：蒙特卡洛决策树可以用于医疗决策，通过模拟不同的治疗方案和治疗效果，评估其在不同患者群体中的预期效果，选择最佳的治疗策略。

决策树(CART算法)针对中文文本分类

决策树（CART算法）针对中文文本分类决策树是一种常用的机器学习算法，可以用于中文文本的分类任务。

CART（Classification and Regression Tree）算法是决策树的一种实现方式，在中文文本分类中也可以应用。

中文文本分类是指根据给定的中文文本内容，将其自动划分到预定义的不同类别中。

例如，将新闻文本分类到体育、娱乐、科技等不同领域的类别中。

中文文本分类在信息检索、情感分析、舆情监测等领域有着广泛的应用。

CART算法是由Breiman等人在1984年提出，是一种递归分割数据的二叉树算法。

它基于贪婪算法，通过递归的方式将数据集划分成两个子集。

每次划分时，算法选择一个最佳的特征和阈值，将数据根据该特征和阈值分割为左右两个子集。

然后，针对每个子集，继续进行递归划分，直到满足停止条件。

在中文文本分类中，决策树的特征可以是文本中的关键词、词频等信息。

特征选择是决策树算法的关键步骤之一，常用的特征选择方法有信息增益、信息增益比、基尼指数等。

这些方法可以度量特征对分类结果的贡献程度，选择对分类结果影响最大的特征进行划分。

决策树的划分过程可以形成一棵树状结构，每个内部节点代表一个特征及其阈值，每个叶子节点代表一个类别。

对于一个给定的中文文本，通过从根节点开始，按照每个内部节点的特征和阈值对文本进行判断，最终到达一个叶子节点，得到文本的分类结果。

决策树的优点是易于理解和解释，可以生成可解释性强的规则。

此外，决策树可以处理多类别的分类任务，并且对于文本分类来说，效果通常较好。

然而，决策树也存在一些限制，如容易过拟合和对输入数据分布敏感等问题。

因此，在应用决策树进行中文文本分类时，需要注意适当的预处理和参数设置，以避免这些问题。

总而言之，CART算法是决策树分类的一种常用实现方式，在中文文本分类中有着广泛的应用。

通过选择合适的特征和阈值，决策树可以将中文文本自动划分到不同的类别中。

虽然决策树在处理中文文本分类问题上具有优势，但仍需结合实际应用需求和数据特点来进行合理选择和调整。

CART培训课件

CART在文本分类中的应用
总结词
CART模型是一种基于决策树的二分类模型，能够实现自动化文本分类。
详细描述
CART模型是一种非参数的统计方法，可以广泛应用于各种文本分类问题中。它通过构建一棵决策树，将文本特征进行逐步判断，从而实现文本的自动分类。CART模型在处理大规模数据集时具有较高的效率和准确性，同时能够自动学习特征并避免过拟合问题。
CART在推荐系统中的应用
总结词
CART模型可以用于构建推荐系统，将用户和物品进行匹配。
详细描述
CART模型可以应用于推荐系统中，通过将用户和物品进行匹配来实现推荐。首先，对于每个用户和物品，可以提取出相关的特征，例如用户的历史行为、兴趣爱好以及物品的内容、属性等。然后，利用CART模型进行训练，构建出一棵决策树，每个节点代表一个特征，最终生成的叶节点代表用户和物品的匹配结果。通过这种方式，可以在给定用户和物品的情况下，快速找到匹配结果并生成推荐。
采用剪枝技术
可以通过调整停止条件来控制决策树的复杂度，从而提高算法的性能。例如，可以通过增加“不纯度减少小于某个阈值时停止分裂”这个停止条件的阈值，让树在更纯的节点上停止分裂，从而减少过拟合。
通过剪枝技术可以删除决策树中不重要的节点，从而降低决策树的复杂度，提高算法的性能。CART算法提供了预剪枝和后剪枝两种剪枝方法，可以根据具体情况选择使用。
CART临床应用范围扩大
未来CART技术的应用范围将会不断扩大，涉及更多的疾病领域，如遗传病、自身免疫性疾病等。
CART与其它治疗手段结合
未来CART技术将会与其它治疗手段相结合，如细胞疗法、基因疗法等，提高疾病的治疗效果。
CART应用前景展望

cart相关课题思路

cart相关课题思路关于CART（分类与回归树）相关的课题思路，可以包括以下几个方向：1.CART算法优化：CART算法是一种经典的决策树算法，可以用于分类和回归问题。

然而，CART算法在处理大规模数据集和高维特征时可能会遇到性能问题。

因此，可以研究如何优化CART算法，提高其处理大规模数据集和高维特征的能力。

例如，可以研究如何改进CART算法的特征选择和剪枝策略，以提高其预测性能和鲁棒性。

2.基于CART的集成学习：集成学习是一种通过组合多个基学习器来提高预测性能的方法。

CART算法可以作为基学习器之一，与其他基学习器一起构建集成学习模型。

例如，可以将CART与随机森林、梯度提升树等算法进行集成，研究不同集成策略对预测性能的影响。

3.CART在特定领域的应用：CART算法可以应用于各种领域，如金融、医疗、教育等。

可以针对特定领域的数据集和问题，研究如何应用CART算法进行建模和预测。

例如，在金融领域，可以使用CART算法构建信用评分模型，预测借款人的信用风险。

在医疗领域，可以使用CART算法构建疾病诊断模型，辅助医生进行疾病诊断和治疗。

4.CART与其他机器学习算法的比较：CART算法是一种经典的机器学习算法，可以与其他机器学习算法进行比较研究。

例如，可以将CART与逻辑回归、支持向量机、神经网络等算法进行比较，分析它们在分类和回归问题上的性能优劣。

通过比较不同算法的性能和特点，可以更深入地了解各种算法的适用场景和优缺点。

5.基于CART的特征选择和降维：CART算法在进行特征选择时会评估每个特征的重要性，因此可以用于特征选择和降维。

可以研究如何使用CART算法进行特征选择和降维，并探讨其对预测性能的影响。

例如，可以使用CART算法对高维数据集进行特征选择，去除不相关或冗余的特征，降低数据维度并提高预测性能。

2024版CART培训课件

01 02
CART算法原理
CART（Classification and Regression Trees）算法是一种二分递归分割的技术，将当前样本集分为两个子样本集，使得生成的每个非叶子节点都有两个分支。
CART算法特点
CART算法既能处理离散型数据，也能处理连续型数据；以基尼指数作为选择最优切分属性的标准；采用剪枝技术避免过拟合。
过滤式特征选择包装式特征选择嵌入式特征选择特征重要性评估
基于统计性质进行特征筛选，如方差、相关系数等。
在模型训练过程中同时进行特征选择，如决策树、LASSO回归等。
2024/1/30
10
03
模型构建与优化
Chapter
2024/1/30
11
决策树生成过程详解
特征选择
通过计算每个特征的基尼指数或信息增益，选择最优特征进行分
讨论了自动化特征工程在CART算法中的应用前景，如使用神经网络等方法自动提取有效特征。
模型可解释性研究
分析了提高CART模型可解释性的重要性，以及未来可能的研究方向，如基于规则的解释方法、可视化技术等。
30
THANKS
感谢观看
2024/1/30
31
25
回归问题中性能评估方法
均方误差（MSE）
均方根误差（RMSE）
衡量预测值与真实值之间的平均平方误差，值越小表示预测越准确。
MSE的平方根，更直观地反映预测误差的大小。
决定系数（R^2）
交叉验证
反映模型拟合优度的指标，值越接近1表示模型拟合效果越好。
将数据集划分为训练集和测试集，通过多次训练和测试评估模型的稳定性和泛化能力。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

２０１５年５月　第３６卷第５期　

计算机工程与设计　

Ｃ０ＭＰＵＴＥＲ　ＥＮＧＩＮＥＥＲＩＮＧ　ＡＮＤ　ＤＥＳＩＧＮ　Ｍａｙ　２０１５　

Ｖｏ１．３６　ＮＯ．５　

ＣＡＲＴ决策树的两种改进及应用　张　亮，宁　芊　（四川大学电子信息学院，四川成都６１００６５）　・　摘要：利用Ｆａｙｙａｄ边界点判定原理对ＣＡＲＴ决策树选取连续属性的分割阈值的方法进行改进，由Ｆａｙｙａｄ边界点判定原　理可知，建树过程中选取连续属性的分割阈值时，不需要检查每一个分割点，只要检查样本排序后，该属性相邻不同类别　的分界点即可；针对样本集主类类属分布不平衡时，样本量占相对少数的小类属样本不能很好地对分类进行表决的情况，　采用关键度度量的方法进行改进。基于这两点改进构建ＣＡＲＴ分类器。实验结果表明，Ｆａｙｙａｄ边界点判定原理适用于　ＣＡＲＴ算法，利用改进后的ＣＡＲＴ算法生成决策树的效率提高了近４５　，在样本集主类类属分布不平衡的情况下，分类准　确率也略有提高。　关键词：决策树；ＣＡＲＴ算法；分割阈值；Ｆａｙｙａｄ边界点判定定理；关键度度量　中图法分类号：ＴＰ３０１．６　文献标识号：Ａ　文章编号：１０００—７０２４（２０１５）０５－１２０９—０５　ｄｏｉ：１０．１６２０８／ｊ．ｉｓｓｎｌ０００—７０２４．２０１５．０５．０１８　

Ｔｗｏ　ｉｍｐｒｏｖｅｍｅｎｔｓ　ｏｎ　ＣＡＲＴ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ａｎｄ　ｉｔｓ　ａｐｐｌｉｃａｔｉｏｎ　ＺＨＡＮＧ　Ｌｉａｎｇ，ＮＩＮＧ　Ｑｉａｎ　（Ｓｃｈｏｏｌ　ｏｆ　Ｅｌｅｃｔｒｏｎｉｃｓ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ，Ｓｉｃｈｕａｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ　６１００６５，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ．．Ｆａｙｙａｄ　ｂｏｕｎｄａｒｙ　ｐｏｉｎｔ　ｄｅｔｅｒｍｉｎａｔｉｏｎ　ｐｒｉｎｃｉｐｌｅ　ｗａｓ　ｕｓｅｄ　ｔＯ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｍｅｔｈｏｄ　ｏｆ　ｃｈｏｏｓｉｎｇ　ｃｏｎｔｉｎｕｏｕ￣ｖａｌｕｅｄ　ａｔｔｒｉ－　ｂｕｔｅｓ’ｓｅｇｍｅｎｔａｔｉｏｎ　ｔｈｒｅｓｈｏｌｄ　ｉｎ　ＣＡＲＴ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ．Ｔｈｒｏｕｇｈ　Ｆａｙｙａｄ　ｂｏｕｎｄａｒｙ　ｐｏｉｎｔ　ｄｅｔｅｒｍｉｎａｔｉｏｎ　ｐｒｉｎｃｉｐｌｅ，ｉｎ　ｔｈｅ　ｐｒｏｃｅｓｓ　ｏｆ　ｓｅｌｅｃｔｉｎｇ　ｃｏｎｔｉｎｕｏｕｓ—ｖａｌｕｅｄ　ａｔｔｒｉｂｕｔｅｓ’ｓｅｇｍｅｎｔａｔｉｏｎ　ｔｈｒｅｓｈｏｌｄ，ａｄｊａｃｅｎｔ　ｂｏｕｎｄａｒｙ　ｐｏｉｎｔｓ　ｗｈｉｃｈ　ｗｅｒｅ　ｓｏｒｔｅｄ　ａｎｄ　ｉｎ　ｄｉｆｆｅｒｅｎｔ　ｃｌａｓ—　ｓｅｓ　ｗｅｒｅ　ｃｈｅｃｋｅｄ，ｉｎｓｔｅａｄ　ｏｆ　ｇｅｔｔｉｎｇ　ｅｖｅｒｙ　ｓｐｌｉｔ　ｐｏｉｎｔ　ｃｈｅｃｋｅｄ．Ａｎｄ　ｔｈｅ　ｋｅｙ　ｄｅｃｉｓｉｏｎ　ｆａｃｔｏｒ　ｗａｓ　ｕｓｅｄ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ　ｗｈｅｎ　ｔｈｅ　ｍａｉｎ　ｃｌａｓｓｅｓ　ｏｆ　ｓａｍｐｌｅ　ｓｅｔ　ｄｉｓｔｒｉｂｕｔｅｄ　ｉｍｂａｌａｎｃｅｄ．ＣＡＲＴ　ｃｌａｓｓｉｆｉｅｒ　ｗａｓ　ｃｏｎｓｔｒｕｃｔｅｄ　ｂａｓｅｄ　ｏｎ　ｔｈｅｓｅ　ｍｅｔｈｏｄｓ．　Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｓｈｏｗｓ　ｔｈａｔ　Ｆａｙｙａｄ　ｂｏｕｎｄａｒｙ　ｐｏｉｎｔ　ｄｅｔｅｒｍｉｎａｔｉｏｎ　ｐｒｉｎｃｉｐｌｅ　ｉｓ　ａｐｐｒｏｐｒｉａｔｅ　ｆｏｒ　ＣＡＲＴ　ａｌｇｏｒｉｔｈｍ，ｔｈｅ　ｅｆｆｉ—　ｃｉｅｎｃｙ　ｏｆ　ｂｕｉｌｄｉｎｇ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ　ｉｓ　ｉｍｐｒｏｖｅｄ　ｂｙ　ａｂｏｕｔ　４５　ｐｅｒｃｅｎｔ，ａｎｄ　ｗｈｅｎ　ｔｈｅ　ｍａｉｎ　ｃｌａｓｓｅｓ　ｏｆ　ｓａｍｐｌｅ　ｓｅｔ　ｄｉｓｔｒｉｂｕｔｅ　ｉｍｂａｌａｎｃｅｄ，　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ　ｏｆ　ｔｈｅ　ｉｍｐｒｏｖｅｄ　ａｌｇｏｒｉｔｈｍ　ｉｓ　ｈｉｇｈｅｒ　ｔｈａｎ　ｔｈａｔ　ｏｆ　ｔｈｅ　ｏｒｉｇｉｎａｌ　ｏｎｅ．　Ｋｅｙ　ｗｏｒｄｓ：ｄｅｃｉｓｉｏｎ　ｔｒｅｅ；ＣＡＲＴ　ａｌｇｏｒｉｔｈｍ；ｓｅｇｍｅｎｔａｔｉｏｎ　ｔｈｒｅｓｈｏｌｄ；Ｆａｙｙａｄ　ｂｏｕｎｄａｒｙ　ｐｏｉｎｔ　ｄｅｔｅｒｍｉｎａｔｉｏｎ　ｐｒｉｎｃｉｐｌｅ；ｋｅｙ　ｄｅｃｉ－　ｓｉｏｎ　ｆａｃｔｏｒ　

０引　言　在决策树算法中，分类与回归树ＣＡＲＴ（ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｎｄ　ｒｅｇｒｅｓｓｉｏｎ　ｔｒｅｅｓ）算法是一种十分有效的非参数分类和　回归方法ｌ１］。ＣＡＲＴ选择具有最小ＧＩＮＩ系数值的属性作为　分裂属性＿２］，并按照节点的分裂属性，采用二元递归分割　的方式把每个内部节点分割成两个子节点，递归形成一棵　结构简洁的二叉树。但ＣＡＲＴ算法存在以下不足：一方面，　选取内部节点的分裂属性时，对于连续型描述属性，　ＣＡＲＴ算法将计算该属性的每个分割点的ＧＩＮＩ系数，再选　择具有最小ＧＩＮＩ系数的分割点作为该属性的分割阈值，如　果属性集中连续属性个数很多且连续属性的不同取值也很　多，采用这种方式建立的决策树计算量会很大；另一方面，　决策树在选择叶节点的类别标号时，以“多数表决”的方　式选择叶节点中样本数占最多的类别标识叶节点ｌ３］，虽然　在多数情况下，“多数表决”是一个不错的选择，但这会屏　蔽小类属数据对分类结果的表决。针对ＣＡＲＴ算法这两方　面的不足，本文将Ｆａｙｙａｄ边界点判定原理＿４］应用于ＣＡＲＴ　算法，并基于关键度度量［５］选择叶节点的类别标号，有效　减少了处理连续型描述属性的计算量，提高了决策树的生　

收稿日期：２０１４—０７—２９；修订日期：２０１４—１０—１０　基金项目：国家９７３重点基础研究发展计划基金项目（２Ｏ１３ｃＢ３２８９Ｏ３—２）　作者简介：张亮（１９８９一），女，四川南充人，硕士研究生，研究方向为模式识别与智能控制；宁芊（１９６９一），女，￣ｔ）ＪＩ成都人，博士，副　教授，研究方向为模式识别与智能控制。Ｅ－ｍａｉｌ：２４７２７４４９０＠ｑｑ．ｃｏｒｎ　・　１２１０　・　计算机工程与设计　２０１５芷　成效率，在样本集主类类属分布不均，小类属样本并不是　稀有样本的情况下，使小类属样本得到了表达，提高了决　策树的分类准确率。　１　ＣＡＲＴ算法原理　ＣＡＲＴ算法采用最小ＧＩＮＩ系数选择内部节点的分裂属　性¨６］。根据类别属性的取值是离散值还是连续值，ＣＡＲＴ　算法生成的决策树可以相应地分为分类树和回归树　］。本　文将ＣＡＲＴ算法用于分类问题的研究，因此采用的是分类　树，形成分类树的步骤如下：　步骤１计算属性集中各属性的ＧＩＮＩ系数，选取ＧＩＮＩ　系数最小的属性作为根节点的分裂属性。对连续属性，需　计算其分割阈值，按分割阈值将其离散化，并计算其ＧＩＮＩ　系数；对离散属性，需将样本集按照该离散属性取值的可　能子集进行划分（全集和空集除外），如该离散属性有　个　取值，则其有效子集有２　一２个，然后选择ＧＩＮＩ系数最小　的子集作为该离散型属性的划分方式，该最小ＧＩＮＩ系数作　为该离散属性的ＧＩＮＩ系数。　ＧＩＮＩ系数度量样本划分或训练样本集的不纯度，不纯　度越小表明样本的“纯净度”越高Ｅ　。　ＧＩＮＩ系数的计算：　（１）假设整个样本集为Ｓ，类别集为｛Ｃ　，Ｃｚ，…，　｝，总共分为　类，每个类对应一个样本子集Ｓ　（１≤　≤　ｎ）。令ｌ　Ｓ　ｌ为样本集ｓ的样本数，Ｉ　Ｃ　１为样本集ｓ中属　于类Ｃ　的样本数，则样本集的ＧＩＮＩ系数定义如下　Ｇｉｎｉ（Ｓ）一１一∑　（１）　ｉ一１　其中，Ｐ　一｝Ｃ　／Ｉ　Ｓ　ｌ为样本集中样本属于类Ｇ的　概率。　（２）在只有二元分裂的时候，对于训练样本集ｓ中的　属性Ａ将Ｓ分成的子集Ｓ　和Ｓｚ，则给定划分Ｓ的ＧＩＮＩ系　数如下公式　Ａ（ｓ）一ｊ『　Ｇ／　ｉ（Ｓ１）＋　Ｇｉ　ｉ（Ｓ２）　（２）　其中，Ｉ　ＳＫ　ｌ／ｌ　ｓ　ｌ为第ｋ（ｋ一１，２）个子集占整个样本　集的权值，为在属性Ａ上划分样本集Ｓ的ＧＩＮＩ系数。　步骤２若分裂属性是连续属性，样本集按照在该属性　上的取值，分成＜一Ｔ和＞Ｔ的两部分，Ｔ为该连续属性　的分割阈值；若分裂属性是离散属性，样本集按照在该属　性上的取值是否包含在该离散属性具有最小ＧＩＮＩ系数的真　子集中，分成两部分。　步骤３对根节点的分裂属性对应的两个样本子集Ｓ　和Ｓ　，采用与步骤１相同的方法递归地建立树的子节点。　如此循环下去，直至所有子节点中的样本属于同一类别或　没有可以选作分裂属性的属性为止。　步骤４对生成的决策树进行剪枝。　对于某个连续型属性Ａ。假设在某个节点上的样本集Ｓ　的样本数量为　ｚ，ＣＡＲＴ算法将对该连续屙ｌ生作如下处理：　（１）将该节点上的所有样本按照连续型描述属性Ａ的　具体数值，由小到大进行排序，得到属性值序列｛Ａ　Ａ２　，…，Ａ　）。　（２）在取值序列中生成　０　一１个分割点。第　（Ｏ＜　＜　ｔｏｔａ１）个分割点的取值设置为Ｖｉ一（Ａ　＋Ａ（一“）／２，它　可以将节点上的样本集划分为Ｓ　一｛　Ｉ　Ｓ∈Ｓ，Ａ　（ｓ）≤　｝和Ｓｚ一｛Ｓ　５∈Ｓ，Ａ　（Ｓ）＞Ｖｉ｝两个子集，Ａ　（Ｓ）　为样本Ｓ在属性Ａ　上的取值。　（３）计算ｔｏｔａｌ一１个分割点的ＧＩＮＩ系数，选择ＧＩＮＩ　系数最小的分割点来划分样本集。　

２　ＣＡＲＴ算法选取连续属性分割阈值的改进　在上述对连续型描述属性的离散化过程中，ＣＡＲＴ算　法要计算每个分割点的ＧＩＮＩ系数，而每个连续型描述属性　的分割点为节点的样本数目减１。若样本集的样本数很多、　连续型描述属性很多、且决策树的节点数也很多时，如在　本文的故障诊断项目中，待分类样本数在５０００以上，属性　个数在６Ｏ以上。随着样本维数的增高，算法的计算量也随　之增大，构建决策树的效率就会降低。文献［４，９］将　“Ｆａｙｙａｄ边界点判定原理”用于改进Ｃ４．５算法的连续型描　述属性的分割阈值的选择，由于熵和ＧＩＮＩ系数相似，都刻　画了样本集的纯净度：熵和ＧＩＮＩ系数越小，样本集越纯　净。因此本文将其用于ＣＡＲＴ算法，对ＣＡＲＴ算法中选择　连续型描述属性的分割阈值的计算复杂性问题提出了一　些改进。　２．１　Ｆａｙｙａｄ边界点判定原理　定义１边界点＿９］：属性Ａ中的一个值Ｔ是一个边界　点，当且仅当在按属性Ａ的值升序排列的样本集中，存在　两个样本ｓ１，ｓ２∈Ｓ具有不同的类，使得Ａ（ｓ１）＜Ｔ＜Ａ　（ｓ２），且不存在任何的样本Ｓ∈Ｓ，使Ａ（ｓ１）＜Ａ（ｓ）＜Ａ　（ｓ２）。Ｓ为样本集，Ａ（ｓ）表示样本Ｓ的属性Ａ的取值。　定理１　Ｆａｙｙａｄ边界点判定定理ｌ＿ｓ］：若丁使得Ｅ（Ａ，　Ｔ；Ｓ）最小，则Ｔ是一个边界点。其中，Ａ为属性，Ｓ为　样本集，Ｅ为在属性Ａ上划分样本集Ｓ的平均信息量，也称　平均类熵，Ｔ为属性Ａ的阈值点。该定理表明，对连续属性　Ａ，使得样本集合的平均类熵达到最小值的Ｔ，总是处于排　序后的样本序列中两个相邻异类样本之间，也即使得样本集　合的平均类熵达到最小值的Ｔ是属性Ａ的一个分界点。　２．２熵和ＧＩＮＩ系数　熵刻画了任意样本集的纯度，熵值越小子集划分的纯　度越高Ｅ　］，识别其中元组分类所需要的平均信息量就越　小。熵的计算公式如下所示　

CART决策树的两种改进及应用

合集下载

人工智能决策树例题经典案例

CART算法介绍

cart决策树案例

结合递增式学习的CART算法改进

结合递增式学习的CART算法改进

蒙特卡洛决策树算法

决策树(CART算法)针对中文文本分类

CART培训课件

cart相关课题思路

2024版CART培训课件

文档推荐

最新文档

CART决策树的两种改进及应用

合集下载

人工智能决策树例题经典案例

CART算法介绍

cart决策树 案例

结合递增式学习的CART算法改进

结合递增式学习的CART算法改进

蒙特卡洛决策树算法

决策树(CART算法)针对中文文本分类

CART培训课件

cart相关课题思路

2024版CART培训课件

文档推荐

最新文档

cart决策树案例