CART定义

在上一篇决策树中，我们已经介绍了决策树的原理和ID3,C4.5算法。这一篇专门讲解CART算法。

CART即Classification and Regression Tree,分类与回归树。特点是：只有二叉树。

分类树

CART用作分类树的时候跟ID3,C4.5决策树算法类似，只是特征分裂的准则不一样： CART首先是二叉树，其次分裂评价标准是用基尼指数

基尼指数

基尼指数可以用来描述一个集合D的类别纯度，集合的样本们只属于一类，那该集合的基尼指数为0，集合的样本属于越多类，则基尼指数越大。基尼指数对集合的算法是：

$Gini(D )=\sum_{k=1}^{K}\rho _k(1-\rho _k)=1-\sum_{k=1}^{K}\rho _k^2$

该式子的解读：集合的样本属于K个类，现在随机抽取一个样本，它属于第k个类的概率为 $\rho _k$ 。设集合里一共有n个样本，第k个类的样本有m个，则 $\rho _k=\frac{m}{n}$

在特征A取值为a的条件下的集合D的基尼指数为：

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

上面式子中， $D_1$ 为A取a时的样本集合， $D_2$ 为其它样本的集合： $D_2=D-D_1$

可以看到特征A取值之后，影响了集合 $D$ 的密度，形成了 $D_1$ 和 $D_2$ 两部分的密度，所以需要加权。

分类树特征分裂

我们依然考虑此数据集：

设 $A_1,A_2,A_3,A_4$ 表示年龄段，有工作与否，有自己房子，信贷情况4个特征。 $A_1=1,2,3$ 表示青年，中年，老年； $A_2=1,2$ 表示有工作和没工作； $A_3=1,2$ 表示有房子和没房子； $A_4=1,2,3$ 表示信贷非常好，好，一般。

1）假设以“青年”与否为分裂点，即 $A_1=1$ ，求基尼指数。

$Gini(D,A_1=1)=\frac{5}{15}Gini(D_1)+\frac{10}{15}Gini(D_2)=\frac{5}{15}\times \frac{12}{25}+\frac{10}{15}\times \frac{21}{50}=0.44$

2）假设以“中年”与否为分裂点，即 $A_1=2$ ，求基尼指数。

$Gini(D,A_1=2)}=0.48$

3）假设以“老年”与否为分裂点，即 $A_1=3$ ，求基尼指数。

$Gini(D,A_1=3)}=0.44$

4）假设以“有工作”与否为分裂点，即 $A_2=1$ 或 $A_2=2$ ，求基尼指数（只有两种情况，基尼指数是相等的）。

$Gini(D,A_2=1)}=0.32$

5）假设以“有房子与否”与否为分裂点，即 $A_3=1$ 或 $A_3=2$ ，求基尼指数。

$Gini(D,A_3=1)}=0.27$

6）假设以“信贷情况非常好”与否为分裂点，即 $A_4=1$ ，求基尼指数。

$Gini(D,A_4=1)=0.36$

7）假设以“信贷情况好”与否为分裂点，即 $A_4=2$ ，求基尼指数。

$Gini(D,A_4=2)}=0.47$

8）假设以“信贷情况一般”与否为分裂点，即 $A_4=3$ ，求基尼指数。

$Gini(D,A_4=3)}=0.32$

9）比较以上所有的Gini指数， $Gini(D,A_3=1)}=0.27$ 最小，所以“有房子”与否为最优分裂点

10) 分裂之后的决策图如下：

接下来我们继续寻找分裂点进行分裂

目前数据集合被缩小为：

11）以此时的集合为基础，循环到1)开始，计算除了“有房子”与否以外的特征作为分裂点的基尼指数。

中间计算过程省略，直接给出结果： $A_2=1$ 时最小，所以“有工作”与否为最优分裂点。

继续绘制决策图：

决策完毕。

回归树

回归树结合了线性回归和决策树，本质上是决策树，实现的是分段回归。

对图示的数据点，线性回归为红色，回归树为绿色

下面开始讲解回归树原理

回归树算法原理

首先对于特征进行二叉特征分裂，先尝试所有分裂点，再通过最小损失函数决定哪个分裂点是最佳的，并进行实质分裂。分裂出来两条分支，每个分支为一个子数据集（这就是为什么上图x坐标是分段的），每个子数据集上的样本的结果都等于它们的平均值（这就是为什么上图y坐标每一段都是同一个值）。然后在每一个子数据集重复上面的的分裂，直到停止条件。停止条件是人为决定的，比如决定只分裂到第3层。

回归树损失函数

其中的损失函数通过最小二乘法获得，即当同一个点分裂为两个子数据集后，每个子数据集的最小二乘误差最小化，也就是两个子数据集的最小二乘误差的和要最小化。数学表达如下：

$\underset{j,s}{min}[\underset{c_1}{min}\sum_{x_i\epsilon R_1(j,s)}^{ }(y_i-c_1)^2+\underset{c_2}{min}\sum_{x_i\epsilon R_2(j,s)}^{ }(y_i-c_2)^2]$

上式中 $c_1,c_2$ 为两个子集中计算结果值（即平均值）， $y_i$ 为实际结果值

回归树实例分析

考虑以下数据集，x为特征变量，y为结果

绘图为：

1）只有一个特征变量x,故对它进行分裂。

考虑这9个分裂点 $[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5]$ ，之所以不使用1,2,3这种实际特征取值为分裂点，是为了划分子集的清晰。

2）假设分裂点为 $s=1.5$ ，获得两个子集：

计算子集 $R_1$ 的结果： $c_1=(4.5)/1=4.5$

计算子集 $R_2$ 的结果： $c_2=(4.75+4.91+5.34+5.80+7.05+7.90+8.23+8.70+9.00)/9=6.853$

计算结果绘制到坐标图中：

计算这次分裂的损失量：

$loss(1.5)=(4.5-4.5)^2+[(4.75-6.853)^2+(4.91-6.853)^2+(5.34-6.853)^2+(5.80-6.853)^2+(7.05-6.853)^2+(7.90-6.853)^2+(8.23-6.853)^2+(8.70-6.853)^2+(9.00-6.853)^2]=22.648$

3）假设分裂点为 $s=2.5$ ，获得两个子集：

计算子集 $R_1$ 的结果： $c_1=(4.5+4.75)/2=4.625$

计算子集 $R_2$ 的结果： $c_2=(4.91+5.34+5.80+7.05+7.90+8.23+8.70+9.00)/8=7.116$

计算结果绘制到坐标图中：

计算这次分裂的损失量：

$loss(2.5)=[(4.5-4.625)^2+(4.75-4.625)^2]+[(4.91-7.116)^2+(5.34-7.116)^2+(5.80-7.116)^2+(7.05-7.116)^2+(7.90-7.116)^2+(8.23-7.116)^2+(8.70-7.116)^2+(9.00-7.116)^2]=17.702$