提升树引入

提升树相当于提升方法在CART上的应用。
平常我们讲的提升树就是GBDT （Gradient Boosting Decision Tree），它是通过拟合损失函数的负梯度值在当前模型的值来实现提升的。注意这里我们不是拟合真实值，而是拟合梯度值，只是梯度跟真实值是有关系的。为什么？请往下看。

GBDT有分类和回归两个方向的应用，本文主要介绍GBDT 回归提升树。

关于函数梯度

GBDT的提升是加法模型，它不是定义一个固定结构的函数，然后通过样本拟合更新它的参数。它是函数本身的累加： $f_m(X)=f_{m-1}(X)+\Delta f(X)$ 。所以如果要更快逼近最后的函数，我们就需要在正确的方向上变化，这个“正确的方向”当然就是损失函数减少最快的方向。所以我们需要用损失函数 $L(F(x))$ 对函数 $F(x)$ 求导，求得的导数，就是接下来 $F(x)$ 需要弥补的方向。这时候用一个函数能 $f_m(X)=f_{m-1}(X)+\Delta f(X)$ 去拟合刚才求得的导数，那么函数就可以更新为 $f_m(X)=f_{m-1}(X)+\Delta f(X)$ 了。

导数值跟损失函数的选择有关系。如果选择平方损失误差 $L(y_i,F(x_i))=\frac{1}{2}[y_i-F(x_i)]^2$ ，那么它的导数就是：

$\frac{\partial L(y_i,F(x_i))}{\partial F(x_i)} =y_i-F(x_i)$

令人惊喜的是这正是真实值和估计值之间的残差。 BTW，上面之所以用了 $\frac{1}{2}$ 是为了计算方便，常数项并不会影响平方损失误差，以及残差的比较。

下面我们介绍的就是基于平方损失误差（也就是基于残差弥补）的GBDT回归实例。

用实例讲解GBDT

有以下数据需要用回归，并要求平方损失误差小于0.2时，可以停止建树：

第一棵树

1）遍历各个切分点s=1.5,2.5,…,9.5找到平方损失误差最小值的切分点：

比如s=1.5,分割成了两个子集： $R_1=\{x|x<1.5\},\ R_2=\{x|x>1.5\},$

通过公式 $\underset{c_1}{min}\sum_{x_i\epsilon R_1}^{ }(y_i-c_1)^2+\underset{c_2}{min}\sum_{x_i\epsilon R_2}^{ }(y_i-c_2)^2$ 求平方损失误差

而其中 $c_1,c_2$ 为各自子集的平均值 $c_1=\frac{1}{N_1}\sum_{x_i\epsilon R_1}^{ }y_i,\ c_2=\frac{1}{N_2}\sum_{x_i\epsilon R_1}^{ }y_i$ 时，可以使得每个子集的平方损失误差最小。

求平均值为： $c_1=5.56,\ c_2=7.50$ ，进而求得平方损失误差为 $m(1.5)=15.72$

同样的方法求得其它切分点的平方损失误差，列表入下：

可见，当s=6.5时, $m(6.5)=1.93$ 为所有切分点里平方损失误差最小的

2) 选择切分点s=6.5构建第一颗回归树，各分支数值使用 $c_1=6.24,\ c_2=8.91$ ：

$T_1(x)= \left\{\begin{matrix} 6.24,\ \ x<6.5\\ 8.91,\ \ x\geq 6.5 \end{matrix}\right.$

第一轮过后，我们提升树为:

$f_1(x)=T_1(x)$

3) 求提升树拟合数据的残差和平方损失误差：

提升树拟合数据的残差计算： $r_2i=y_i-f_1(x_i),\ \ i=1,2,...,10$

各个点的计算结果：

提升树拟合数据的平方损失误差计算：

$L(y,f_1(x))=\sum_{i=1}^{10}(y_i-f_1(x_i))^2=1.93$

大于0.2，则还需要继续建树。

第二棵树

4) 确定需要拟合的训练数据为上一棵树的残差：

5）遍历各个切分点s=1.5,2.5,…,9.5找到平方损失误差最小值的切分点：

同样的方法求得其它切分点的平方损失误差，列表入下：

可见，当s=3.5时, $m(3.5)=0.79$ 为所有切分点里平方损失误差最小的

6) 选择切分点s=3.5构建第二颗回归树，各分支数值使用 $c_1=-0.52,\ c_2=0.22$ ：

$T_2(x)= \left\{\begin{matrix} -0.52,\ \ x<3.5\\ 0.22,\ \ \ \ x\geq 0.5 \end{matrix}\right.$

第二轮过后，我们提升树为:

$f_2(x)=f_1(x)+T_2(x)=\left\{\begin{matrix} 5.72,\ \ \ \ \ \ \ \ \ x<3.5\\ 6.46,\ \ 3.5\leq x<6.5\\ 9.13,\ \ \ \ \ \ \ \ \ \ x\geq 6.5 \end{matrix}\right.$

7) 求提升树拟合数据的残差和平方损失误差：

提升树拟合数据的残差计算： $r_{3i}=y_i-f_2(x_i),\ \ i=1,2,...,10$

各个点的计算结果，同时对比初始值和上一颗树的残差：

可以看见，随着树的增多，残差一直在减少。

到目前为止，提升树拟合数据的平方损失误差计算：

$L(y,f_2(x))=\sum_{i=1}^{10}(y_i-f_2(x_i))^2=0.79$

多说一句，这里是从全局提升树的角度去计算损失，其实和上面第5）步中从最后一颗树的角度去计算损失，结果是一样的

目前损失大于0.2的阈值，还需要继续建树

…

…

第六棵树

到第六颗树的时候，我们已经累计获得了：

$T_3(x)=\left\{\begin{matrix} 0.15,\ \ \ \ x<6.5\\ -0.22,\ \ x\geq 6.5 \end{matrix}\right.$ $T_4(x)=\left\{\begin{matrix} -0.16,\ \ x<4.5\\ 0.11,\ \ \ \ \ x\geq 4.5 \end{matrix}\right.$

$T_5(x)=\left\{\begin{matrix} 0.07,\ \ \ \ x<6.5\\ -0.11,\ \ x\geq 6.5 \end{matrix}\right.$ $T_6(x)=\left\{\begin{matrix} -0.15,\ \ x<2.5\\ 0.04,\ \ \ \ \ x\geq 2.5 \end{matrix}\right.$

此时提升树为：

$f_6(x)=T_1(x)+T_2(x)+...+T_6(x)\\ =\left\{\begin{matrix} 5.63,\ \ \ \ \ \ \ \ \ \ x<2.5\\ 5.82,\ \ 2.5\leq x<3.5\\ 6.56,\ \ 3.5\leq x<4.5\\ 6.83,\ \ 4.5\leq x<6.5\\ 8.95,\ \ \ \ \ \ \ \ \ \ x\geq 6.5 \end{matrix}\right.$