GBDT(梯度提升树) 原理小结

格式：pdf
大小：363.68 KB
文档页数：8

下载文档原格式

/ 8

梯度提升法的原理及应用

梯度提升法的原理及应用1. 梯度提升法的背景梯度提升法（Gradient Boosting）是一种常用的集成学习算法，用于拟合回归问题或分类问题。

它是基于决策树的集成方法，通过序列化地训练一系列决策树模型，并通过梯度下降的方式进行优化，最终将多个模型的预测结果加权求和，得到最终的预测结果。

2. 梯度提升法的原理梯度提升法的原理可以分为以下几步：2.1 初始化模型首先，我们使用一个简单的模型作为初始模型，可以是一个简单的线性回归模型或常数。

2.2 计算损失函数的梯度接下来，我们计算当前模型预测结果与实际观测值之间的损失函数的梯度。

这一步是梯度提升法与其他集成学习方法的主要区别之一。

通过计算损失函数的梯度，我们可以得到模型预测结果的残差。

2.3 拟合残差将上一步计算得到的残差作为目标变量，使用一个新的模型来拟合这个残差。

通常情况下，我们使用决策树作为基本模型。

2.4 更新模型将新生成的模型添加到之前的模型中，并将其与之前的模型进行加权求和。

通过梯度下降的方式，更新模型的参数，使之逐步逼近最优解。

2.5 重复步骤2到步骤4重复进行步骤2到步骤4，直到达到设定的迭代次数或收敛准则。

2.6 得到最终预测结果将所有模型的预测结果加权求和，得到最终的预测结果。

3. 梯度提升法的应用梯度提升法在大量的实际问题中有着广泛的应用，特别是在回归问题和分类问题中。

3.1 回归问题在回归问题中，梯度提升法可以用于预测房价、股票价格等连续型目标变量。

通过序列化地训练一系列决策树模型，梯度提升法可以逐步逼近目标变量，得到更加准确的预测结果。

3.2 分类问题在分类问题中，梯度提升法可以用于预测用户的购买行为、信用评分等离散型目标变量。

通过训练一系列决策树模型，并通过梯度下降的方式进行优化，梯度提升法可以提高分类问题的准确度和稳定性。

3.3 特征选择梯度提升法可以通过特征的重要性评估来选择最重要的特征，有助于特征工程和模型优化。

极限梯度提升模型的训练-概述说明以及解释

极限梯度提升模型的训练-概述说明以及解释1.引言1.1 概述概述极限梯度提升模型（Extreme Gradient Boosting, XGBoost）是一种基于梯度提升决策树（Gradient Boosting Decision Tree, GBDT）算法的机器学习模型。

它在许多数据科学竞赛和实际应用中都表现出了出色的性能。

XGBoost模型的主要优势在于它具备高可扩展性、高效性和准确性。

通过在训练过程中采用了多种技术手段，XGBoost能够有效地处理高维特征和大规模数据集，并且在模型精度方面具有较强的竞争力。

本文将详细介绍极限梯度提升模型的训练方法和原理。

首先，我们将介绍梯度提升决策树算法的基本原理，包括梯度下降和决策树的概念。

然后，我们将阐述XGBoost模型的训练过程，包括损失函数的定义、模型的初始化和迭代优化算法。

最后，我们将探讨极限梯度提升模型在实际应用中的一些典型领域，如金融风控、推荐系统和医疗诊断等。

通过本文的阅读，读者将能够深入了解极限梯度提升模型的训练方法和原理，掌握XGBoost模型在实际应用中的优势和不足，并能够运用该模型解决实际问题。

希望本文能对机器学习和数据科学领域的研究者和从业者提供有益的参考和指导。

1.2 文章结构文章结构：本文主要包括引言、正文和结论三个部分。

引言部分主要是对本篇文章的概述，介绍了极限梯度提升模型的训练这一主题的背景和意义。

其中，概述部分会简要介绍极限梯度提升模型，包括其基本原理和训练过程。

文章结构部分将会列出本文的章节结构，并对各章节的内容进行简要说明。

正文部分主要分为三个章节：极限梯度提升模型的基本原理、极限梯度提升模型的训练过程和极限梯度提升模型的应用领域。

其中，极限梯度提升模型的基本原理章节将详细介绍该模型的基本概念、工作原理和数学原理等内容。

极限梯度提升模型的训练过程章节将详细说明该模型的训练方法和步骤，包括特征选择、参数设置、模型调优等方面的内容。

GBDT算法简述

GBDT算法简述提升决策树GBDT梯度提升决策树算法是近年来被提及较多的⼀个算法，这主要得益于其算法的性能，以及该算法在各类数据挖掘以及机器学习⽐赛中的卓越表现，有很多⼈对GBDT算法进⾏了开源代码的开发，⽐较⽕的是陈天奇的XGBoost和微软的LightGBM⼀、监督学习1、监督学习的主要任务监督学习是机器学习算法中重要的⼀种，对于监督学习，假设有m个训练样本：其中，，如分类问题；也可以为连续值，如回归问题。

在监督学习中利⽤训练样本训练出模型，该模型能够细线从样本特征。

为了能够对映射F进⾏求解，通常对模型设置损失函数，并求的损失函数最⼩的情况下的映射为最好的映射。

对于⼀个具体的问题，如线性回归问题，其映射函数的形式为：梯度下降法算法是求解最优化问题最简单、最直接的⽅法。

梯度下降法是⼀种迭代的优化算法，对于优化问题：其基本步骤为：1）随机选择⼀个初始点2）重复以下过程：决定下降的⽅向：选择步长更新：直到满⾜终⽌条件梯度下降法的具体过程如下图所⽰：2、在函数空间的优化以上是在指定的函数空间中对最优化函数进⾏搜索，那么，能否直接在函数空间中查找到最优的函数呢？根绝上述的梯度下降法的思路，对于模型的损失函数，为了⼆、Boosting1、集成⽅法之BoostingBoosting⽅法是集成学习中重要的⼀种⽅法，在集成学习⽅法中最主要的两种⽅法是Bagging和Boosting,在bagging中，通过对训练样本重新采样的⽅法得到不同的训练样本集，在这些新的训练样本集上分别训练学习器，最终合并每⼀个学习器的结果，作为最终的学习结果，Bagging⽅法的具体过程如下图所⽰：在Bagging⽅法中最重要的算法为随机森林RF算法。

由以上的图中可以看出，在Bagging⽅法中，b个学习器之间彼此是相互独⽴的，这样的特点使得Bagging⽅法更容易并⾏。

与bagging不同的是，在Boosting算法中，学习器之间是存在先后顺序的，同时，每⼀个样本是都有权重的，初始时，每⼀个样本的权重都是相等的，⾸先，第1个学习器对训练样本进⾏学习，当学习完成后，增⼤错误样本的权重，同时减⼩正确样本的权重，再利⽤第2个学习器对其进⾏学习，依次进⾏下去，最终得到b个学习器，最终，合并这b个学习器的结果，同时，与Bagging中不同的是，每个学习器的权重也不⼀样，Boosting⽅法的具体过程如下图所⽰：在Boosting⽅法中，最重要的⽅法包括：Adaboost和GBDT。

梯度提升决策树（GBDT）

梯度提升决策树（GBDT）
1.提升树
以决策树为基函数的提升⽅法称为提升树。

决策树可以分为分类树和回归树。

提升树模型可以表⽰为决策树的加法模型。

针对不同的问题的提升术算法的主要区别就是损失函数的不同，对于回归问题我们选⽤平⽅损失函数，对于分类问题，我们使⽤指数损失函数。

特别的，对于⼆分类问题，我们提升树就是把AdaBoost的基分类器选为⼆分类树即可。

对于回归问题的提升树，我们每⼀步都是在拟合残差，为什么是在拟合残差？，看公式
其中，r代表的就是残差。

我们并不是说我们在拟合残差，⽽是说我们对于回归问题，选⽤平⽅损失函数，然后推导求解fm时，可以认为它是在拟合残差。

对应的回归问题的提升算法如下：
（1）初始化f0
（2）对m = 1,2,3...,M
(2.1) 计算每⼀个数据的残差：
（2.2）拟合残差学习⼀颗回归树，得到
（2.3）
（3）得到回归问题的提升树
以上就是提升树的内容，主要理解为什么说提升树是拟合残差的，数学推导
2.梯度提升树
梯度提升的思想主要借鉴了梯度下降法。

十大经典预测算法（九）---GBDT

⼗⼤经典预测算法（九）---GBDT
GBDT⼜叫梯度提升决策树，它也属于Boosting框架。

GBDT核⼼原理如下：
如图所⽰，⽤GBDT预测年龄，第⼀轮，预测到年龄为20，它和真实值之间的残差为10，第⼆轮，GBDT开始预测上⼀轮的残差10，预测结果为6，这⼀轮的残差为4，第三轮，以年龄4为预测⽬标，预测来的值为3，和真实值之间相差1，最后以残差1为预测⽬标，预测结果为1，此时残差为0，预测结束，最后把之前模型预测的结果全部相加，就得到预测的真实值为30岁
所以，GBDT的核⼼原理是先⽤初始值预测⼀颗决策树，得到本轮的残差，即真实值减预测值，然后⽤残差作为下⼀轮决策树的预测对象，这时会再产⽣⼀个残差，再⽤这个残差作为下⼀轮的预测对象，以此循环迭代直到最后⼀轮的预测残差为0或⾮常⼩的时候就停⽌迭代，然后把所有轮的模型预测结果相加得到最终预测结果，GBDT核⼼原理如下图所⽰
GBDT和AdaBoost的异同
相似之处：
都是基于Boosting思想的融合算法
默认的基分类器都是决策树
AdaBoost其实是GBDT的⼀个特例
不同之处：
AdaBoost的基分类器可以选择更多的算法，⽽GBDT只能选决策树
GBDT的模型提升⽅法与AdaBoost不同，AdaBoost是通过不断加强对错判数据的权重学习来提升模型的预测效果，⽽GBDT则是通过不断降低模型误差来（学习残差）的思想来提升模型的预测效果。

GBDT！深入浅出详解梯度提升决策树

GBDT！深入浅出详解梯度提升决策树AI有道一个有情怀的公众号1Adaptive Boosted Decision TreeRandom Forest的算法流程我们之前已经详细介绍过，就是先通过bootstrapping“复制”原样本集D，得到新的样本集D’；然后对每个D’进行训练得到不同的decision tree和对应的gt；最后再将所有的gt通过uniform的形式组合起来，即以投票的方式得到G。

这里采用的Bagging的方式，也就是把每个gt的预测值直接相加。

现在，如果将Bagging替换成AdaBoost，处理方式有些不同。

首先每轮bootstrap得到的D’中每个样本会赋予不同的权重；然后在每个decision tree中，利用这些权重训练得到最好的gt；最后得出每个gt 所占的权重，线性组合得到G。

这种模型称为AdaBoost-D Tree。

但是在AdaBoost-DTree中需要注意的一点是每个样本的权重。

我们知道，在Adaptive Boosting中进行了bootstrap操作，u(t)表示D中每个样本在D’中出现的次数。

但是在决策树模型中，例如C&RT算法中并没有引入u(t)。

那么，如何在决策树中引入这些权重来得到不同的gt而又不改变原来的决策树算法呢？在Adaptive Boosting中，我们使用了weighted algorithm，形如：每个犯错误的样本点乘以相应的权重，求和再平均，最终得到了E。

如果在决策树中使用这种方法，将当前分支下犯错误的点赋予权重，每层分支都这样做，会比较复杂，不易求解。

为了简化运算，保持决策树算法本身的稳定性和封闭性，我们可以把决策树算法当成一个黑盒子，即不改变其结构，不对算法本身进行修改，而从数据来源D’上做一些处理。

按照这种思想，我们来看权重u实际上表示该样本在bootstrap中出现的次数，反映了它出现的概率。

那么可以根据u值，对原样本集D进行一次重新的随机sampling，也就是带权重的随机抽样。

gbdt原理

gbdt原理
梯度提升决策树（GBDT）是一种常用的监督学习算法，它是一种集成学习方法，通过集成多个决策树来构建强大的预测模型。

GBDT的原理如下：首先，我们定义一个损失函数，常用的有均方误差（MSE）、平均绝对误差（MAE）等。

然后，我们构建一个初始的决策树模型作为第一个基学习器。

接下来，我们根据定义的损失函数，计算当前模型的预测值与真实值之间的差异，这就是残差。

然后，我们使用这个残差作为新的标签，构建一个新的决策树模型，将其添加到集成模型中。

然后，我们通过迭代的方式，继续计算每个新模型的残差，并构建新的决策树模型，将其添加到集成模型中。

这样，我们不断地优化我们的模型，直到达到预设的迭代次数或停止条件。

最终，通过将每个决策树的预测结果进行累加，我们得到了最终的预测结果。

在预测过程中，GBDT使用加法模型的形式，将每个决策树的预测结果相加得到最终的预测值。

总结来说，GBDT通过迭代地构建决策树模型，并使用残差作为新的标签进行训练，不断优化模型的预测能力。

该算法具有很强的灵活性和鲁棒性，在很多实际问题中都有较好的表现。

GBDT算法原理深入解析

GBDT算法原理深入解析标签：机器学习集成学习GBM GBDT XGBoost梯度提升（Gradient boosting）是一种用于回归、分类和排序任务的机器学习技术，属于Boosting算法族的一部分。

Boosting是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。

Boosting方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断要好。

通俗地说，就是“三个臭皮匠顶个诸葛亮”的道理。

梯度提升同其他boosting方法一样，通过集成（ensemble）多个弱学习器，通常是决策树，来构建最终的预测模型。

Boosting、bagging和stacking是集成学习的三种主要方法。

不同于bagging方法，boosting方法通过分步迭代（stage-wise）的方式来构建模型，在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。

Boosting族算法的著名代表是AdaBoost，AdaBoost算法通过给已有模型预测错误的样本更高的权重，使得先前的学习器做错的训练样本在后续受到更多的关注的方式来弥补已有模型的不足。

与AdaBoost算法不同，梯度提升方法在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失（steepest-descent）的学习器来弥补已有模型的不足。

经典的AdaBoost算法只能处理采用指数损失函数的二分类学习任务，而梯度提升方法通过设置不同的可微损失函数可以处理各类学习任务（多分类、回归、Ranking等），应用范围大大扩展。

另一方面，AdaBoost算法对异常点（outlier）比较敏感，而梯度提升算法通过引入bagging思想、加入正则项等方法能够有效地抵御训练数据中的噪音，具有更好的健壮性。

这也是为什么梯度提升算法（尤其是采用决策树作为弱学习器的GBDT算法）如此流行的原因，有种观点认为GBDT是性能最好的机器学习算法，这当然有点过于激进又固步自封的味道，但通常各类机器学习算法比赛的赢家们都非常青睐GBDT算法，由此可见该算法的实力不可小觑。

GBDT算法原理深入解析

Boosting是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。

Boosting方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断要好。

通俗地说，就是“三个臭皮匠顶个诸葛亮”的道理。

梯度提升同其他boosting方法一样，通过集成（ensemble）多个弱学习器，通常是决策树，来构建最终的预测模型。

Boosting、bagging和stacking是集成学习的三种主要方法。

不同于bagging方法，boosting方法通过分步迭代（stage-wise）的方式来构建模型，在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。

与AdaBoost算法不同，梯度提升方法在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失（steepest-descent）的学习器来弥补已有模型的不足。

gbdt原理

gbdt原理GBDT（Gradient Boosting Decision Tree）是一种集成学习算法，它通过多棵决策树的集成来提高预测准确性。

在GBDT中，每棵树都是基于上一棵树的残差进行训练的，这使得GBDT能够不断迭代地提高模型的预测能力。

本文将详细介绍GBDT的原理及其在机器学习中的应用。

首先，GBDT的核心思想是将多棵决策树进行集成。

在训练过程中，每棵树都试图学习上一棵树的残差，以此来不断改进模型的预测能力。

这种残差学习的方式使得GBDT能够有效地拟合复杂的非线性关系，从而提高模型的泛化能力。

其次，GBDT在训练过程中采用了梯度提升（Gradient Boosting）的方法。

具体来说，每一棵树的训练都是通过最小化损失函数来实现的。

在每一轮迭代中，GBDT都会计算出当前模型对训练样本的残差，然后用一个新的决策树来拟合这些残差，从而不断改进模型的预测能力。

此外，GBDT还采用了加法模型的思想。

在GBDT中，模型的预测结果是多棵树的预测结果的累加。

这种累加的方式使得GBDT能够灵活地拟合不同的数据分布，从而提高模型的适应能力。

在实际应用中，GBDT已经被广泛应用于各种机器学习任务中。

例如，在推荐系统中，GBDT可以用于预测用户对商品的喜好程度；在金融风控领域，GBDT可以用于预测客户的信用风险等。

由于GBDT 具有较强的泛化能力和适应能力，因此在实际应用中取得了很好的效果。

总的来说，GBDT作为一种集成学习算法，通过多棵决策树的集成来提高模型的预测能力。

它采用了梯度提升的方法，通过不断迭代地改进模型来提高预测准确性。

在实际应用中，GBDT已经取得了很好的效果，并被广泛应用于各种机器学习任务中。

希望本文能够帮助读者更好地理解GBDT的原理及其在机器学习中的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

输入:是训练集样本T={(x1,y1),(x2,y2)...(xm,ym)}，最大迭代次数T, 损失函数L。输出是强学习器f(x)
1) 初始化弱学习器: 2) 对迭代轮数t=1,2,...T有： a)对样本i=1,2，...m，计算负梯度
b)利用(xi,r ti)(i=1,2...m), 拟合一颗CART回归树,得到第t颗回归树，其对应的叶子节点区域为 Rtj,j=1.2...J 。其中J为回归树t的叶子节点的个数。
b)绝对损失，这个损失函数也很常见
对应负梯度误差为：
c)Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。损失函数如下：
对应的负梯度误差为：
d) 分位数损，需要我们在回归前指定。对应的负梯度误差为：
这里我们再对常用的GBDT损失函数做一个总结。对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种: a) 如果是指数损失函数，则损失函数表达式为
其负梯度计算和叶子节点的最佳残差拟合参见Adaboost原理篇。 b) 如果是对数损失函数，分为二元分类和多元分类两种，参见4.1节和4.2节。对于回归算法，常用损失函数有如下4种: a)均方差，这个是最常见的回归损失函数了
如果我们加上了正则化项，则有:
v 的取值范围为0<v<1.对于同样的训练集学习效果，较小的v意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。
第二种正则化的方式是通过子采样比例（subsample）。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。
GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下 Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。
从而本轮最终得到的强学习器的表达式如下：
通过损失函数的负梯度来拟合，我们找到了一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用GBDT来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。
好了，有了上面的思路，下面我们总结下GBDT的回归算法。为什么没有加上分类算法一起？那是因为分类算法的输出是不连续的类别值，需要一些处理才能使用负梯度，我们在下一节讲。
从上面的例子看这个思想还是蛮简单的，但是有个问题是这个损失的拟合不好度量，损失函数各种各样，怎么找到一种通用的拟合方法呢？
在上一节中，我们介绍了GBDT的基本思路，但是没有解决损失函数拟合方法的问题。针对这个问题，大牛Freidman提出了用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个 CART回归树。第t轮的第i个样本的损失函数的负梯度表示为:
多元GBDT要比二元GBDT复杂一些，对应的是多元逻辑回归和二元逻辑回归的复杂度差别。假设类别数为K，则此时我们的对数似然损失函数为：
其中如果样本输出类别为k，则yk=1第k类的概率Pk(x)表达式为：集合上两式，我们可以计算出第t 轮的i 个样本对应类别
集合上两式，我们可以计算出第t轮的i个样本对应类别的负梯度误差为:
为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost 算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。本文仅讨论用对数似然损失函数的GBDT分类。而对于对数似然损失函数，我们又有二元分类和多元分类的区别。
c) 对叶子区域j =1,2,..J,计算最佳拟合值
d) 更新强学习器
3) 得到强学习器f(x)的表达式
这里我们再看看GBDT分类算法，GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。
观察上式可以看出，其实这里的误差就是样本i对应类别
观察上式可以看出，其实这里的误差就是样本i对应类别的真实概率和t-1轮预测概率的差值。
的真实概率和t-1 对于生成的决策树，我们各个叶子节点的最佳残差拟合值为:
由于上式比较难优化，我们一般使用近似值代替：
除了负梯度计算和叶子节点的最佳残差拟合的线性搜索，多元GBDT分类和二元GBDT分类以及GBDT回归算法过程相同。
利用(xi,rti)(i=1,2,...m),我们可以拟合一颗CART回归树，得到了第t颗回归树，其对应的叶节点区域Rtj,j=1,2,...,J。其中J为叶子节点的个数。
针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值ctj如下：
这样我们就得到了本轮的决策树拟合函数如下：
对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数为：
其中y {-1,1} 则此时的负梯度误差为:
对于生成的决策树，我们各个叶子节点的最佳残差拟合值为:
由于上式比较难优化，我们一般使用近似值代替
除了负梯度计算和叶子节点的最佳残差拟合的线性搜索，二元GBDT分类和GBDT回归算法过程相同。
在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft-1(x)损失函数是L(y,ft-1(x)) 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失L(t,ft-1(x)+ht(x)) 最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。
GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。
GBDT主要的优点有：
1) 可以灵活处理各种类型的数据，包括连续值和离散值。
2) 在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile 损失函数。
GBDT的主要缺点有：
1)由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。
使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样，程序可以通过采样分发到不同的任务去做boosting的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。
第三种是对于弱学习器即CART回归树进行正则化剪枝。在决策树原理篇里我们已经讲过，这里就不重复了。
（文章参考自刘建平机器学习）
共轭梯度法
欧几里得距离
神经网络浅讲
径向基函数神经网络
imagenet
GBDT（梯度提升树）原理小结
在之前博客中，我们对Boosting家族的Adaboost算法做了总结，本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。 GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用，假如要选择3个最重要的机器学习算法的话，个人认为GBDT应该占一席之地。
GBDT终于讲完了，GDBT本身并不复杂，不过要吃透的话需要对集成学习的原理，决策树原理和各种损失函树有一定的了解。由于GBDT的卓越性能，只要是研究机器学习都应该掌握这个算法，包括背后的原理和应用调参方法。目前GBDT的算法比较好的库是xgboost。当然scikitlearn也可以。
最后总结下GBDT的优缺点。
为分位数，需要我们在回归前指定。对应的负梯度误差为：
对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。和Adaboost一样，我们也需要对GBDT进行正则化，防止过拟合。GBDT的正则化主要有三种方式。第一种是和Adaboost类似的正则化项，即步长(learning rate)。定义为V，对于前面的弱学习器的迭代

集成学习

页数:13
统计学习方法第8章 Adaboost提升方法

页数:48
结合深度神经网络和决策树的完美方案

页数:5
GBDT(梯度提升树) 原理小结

页数:8
GBDT算法原理深入解析

页数:6
深度学习基础知识整理

页数:10
第八章提升方法

页数:58
Opencv2.4.9源码分析——GradientBoostedTrees详解

页数:31
题库机器学习专项面试题型介绍及解析--第6期

页数:3
用gbm包来提升决策树能力(一)

页数:3

GBDT(梯度提升树) 原理小结

合集下载

梯度提升法的原理及应用

极限梯度提升模型的训练-概述说明以及解释

GBDT算法简述

梯度提升决策树（GBDT）

十大经典预测算法（九）---GBDT

GBDT！深入浅出详解梯度提升决策树

gbdt原理

GBDT算法原理深入解析

GBDT算法原理深入解析

gbdt原理

文档推荐

最新文档