机器学习6-决策树

一. 决策树概述

1.1 什么是决策树

决策树输入: 测试集
决策树输出: 分类规则(决策树)

1.2 决策树算法概述

决策树的几种常见实例

ID3决策树
C4.5决策树
CART分类（回归）树

变量信息增益最大，才是最重要的变量，放在最上面
变量的值有很多，但是在训练集里面是有限的，所以可以标记出来

年龄	分离点	信息增益是否最大
12
18	15
19	18.5
22	20.5	是
29	25.5
40	34.5
如果20.5处，信息增益最大，则此处是最好的分离点

二. 决策树的构造

2.1 决策树的构造：分而治之（divide and conquer）

决策树是典型的局部与整体存在相似性的模型，即任意一条路径中，任意一个内部节点都形成以它为根节点的“子决策树”。对于这样形态的模型，高效、可行的构造方法就是分而治之。步骤如下：
输入：数据集 $𝐷={(𝑥_1,𝑦_1 ),(𝑥_2,𝑦_2 ),..,(𝑥_𝑚,𝑦_𝑚)}$ 及其特征空间 $𝐴={𝑎_1,𝑎_2,…,𝑎_𝑑 }$
函数TreeGenerate(D，A)

生成节点Node
如果数据集D全部属于某类别C，则将1中的节点Node划分为属性C，返回
如果A为空集，或者D在A上的取值完全一致，则1中的节点Node标记为叶节点，所属类别为D中占大多数的类别，返回
选择最优分裂节点a，
For each value $𝑎^𝑉$ in a:
从节点Node生成一个分支，令数据集𝐷_𝑉是D在a中取值为 $𝑎^𝑉$ 的子集
if 𝐷_𝑉是空集，则该分支作为叶节点，所属类别是D中大多数的类别，返回；else 生成分支 TreeGenerate(𝐷_𝑉, A{a})
End for

这是一个典型的递归过程，返回条件是：

当前节点包含的样本属于同一类别
当前属性为空
所有属性取值相同
当前节点包含的样本集为空

叶节点的输出：
叶子节点输出占比最大的类别，也就是输出概率最大的类别。如果改造成输出每个类别对应的概率，则可以用在随机森林中输出概率的计算。

两个问题：如何选择最优属性？如何分裂节点？
最优属性的选择

信息增益和信息增益率
基尼指数
分裂节点
离散型，取值种类少
离散型，取值种类多
连续型

2.2 信息增益（Information Gain）

衡量类别纯度的信息熵：
假设样本D中第k类样本占比为 $𝑝_𝐾$ ,则D的信息熵定义为
$𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐷)=−∑_𝑘𝑝_𝑘 log_2⁡𝑝_𝑘$
Entropy越小，纯度越高

信息熵：entropy 它表示了信息的不确定度换句话说就是数据的混沌程度，以贷款举例，2人逾期，2人未逾期那么混沌程度最高，不确定性最高，信息熵就最大。纯度就最低。

信息增益：
若D被属性a划分成 $𝐷=⋃_𝑣𝐷_𝑣 , 𝐷_𝑣∩𝐷_𝑤=∅$ ，定义信息增益为：
$𝐺𝑎𝑖𝑛(𝐷,𝑎)=𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐷)−∑_𝑣\frac{|𝐷_𝑣 |}{|𝐷|} 𝐸𝑛𝑡 𝑟𝑜𝑝𝑦(𝐷_𝑣)$

现在我们有一份数据集D（例如贷款信息登记表）和特征A（例如年龄），则A的信息增益就是D本身的熵与特征A给定条件下D的条件熵之差，即：
$g (D, A) = H (D) - H (D ∣ A)$
数据集D的熵是一个常量。信息增益越大，表示条件熵越小，A消除D的不确定性的功劳越大。

所以要优先选择信息增益大的特征，它们具有更强的分类能力。由此生成决策树，称为ID3算法。

信息增益的作用和特点：

衡量从无序到有序的变化程度（常用于ID3决策树）
选择具有最大信息增益的属性进行分裂
不具有泛化能力，对取值较多的属性有偏好
为了控制属性取值数目的影响，先定义IV：
$𝐼𝑉(𝑎)=−∑_𝑣 \frac{|𝐷_𝑣 |}{|𝐷|} log_2⁡ \frac{|𝐷_𝑣 |}{|𝐷|}$

2.3 信息增益率

当某个特征具有多种候选值时，信息增益容易偏大，造成误差。引入信息增益率可以校正这一问题。
信息增益率为信息增益与数据集D的熵之比：
$𝑅𝑎𝑡𝑖𝑜=\frac{𝐺𝑎𝑖𝑛(𝐷,𝑎)}{𝐼𝑉(𝑎)}$

特性：
容易倾向取值较少的属性
可以选择具有最大增益率的属性进行分裂
可以选择大于平均增益率的属性集，再选择增益率最小的属性

2.4 基尼指数

另一种衡量纯度的指标
$𝐺𝑖𝑛𝑖(𝐷)=1−∑_𝑘𝑝_𝑘^2$
Gini越小，纯度越高
属性a在数据集D中的基尼指数是
$𝐺𝑖𝑛𝑖(𝐷,𝑎)=∑_𝑣\frac{|𝐷_𝑣 |}{|𝐷|} 𝐺𝑖𝑛𝑖(𝐷_𝑣)$
选择具有最小基尼指数的属性，即 $𝑎_∗=𝑎𝑟𝑔𝑚𝑖𝑛 𝐺𝑖𝑛𝑖(𝐷,𝑎)$

2.5 示例

一个简单的例子：用变量outlook，temperature，humidity，wind来对playtennis进行分类。

对于outlook，它的信息增益率的计算方式为：
（1）总体的熵的计算：
P(PlayTennis=Yes) = 9/14, P(PlayTennis=No) = 5/14
Entropy = -9/14*log2(9/14) – 5/14*log2(5/14) =0.9403
（2）将数据集D按照Outlook进行划分，结果为：
D1: Outlook=Sunny有5个样本，其中PlayTennis=Yes有2个样本，PlayTennis=No有3个样本
Entropy1 = -2/5*log2(2/5)-3/5*log2(3/5) =0.9710
D2: Outlook=Overcast有4个样本，其中PlayTennis=Yes有4个样本，PlayTennis=No有0个样本
Entropy2 = -0/4*log2(0/4)-4/4*log2(4/4) =0 (定义0*log2(0)=0)
D3: Outlook=Rain有5个样本，其中PlayTennis=Yes有3个样本，PlayTennis=No有2个样本
Entropy3 = -3/5*log2(3/5)-2/5*log2(2/5) = 0.9710
（3）计算IV： IV=-5/14*log2(5/14)-4/14*log2(4/14)-5/14*log2(5/14)= 1.5774
（4）计算信息增益：Gain = 0.9403-5/14* 0.9710-4/14*0-5/14* 0.9710= 0.2467
（5）计算信息增益率：Gain Ratio= 0.2467/ 1.5774= 0.1564

计算Outlook的Gini：
（1）计算D1，D2和D3的Gini：
Gini1 = 1-(2/5)^2-(3/5)2=0.4800，Gini2 = 1-(4/4)^2-(0/4)2=0
Gini3 = 1-(2/5)^2-(3/5)2=0.4800
（2）计算总体的Gini:
Gini(D)=5/140.4800 + 4/140 + 5/15* 2=0.4800= 0.3086