决策树,是通过数据归纳,总结出条件判断的学习模式。
如果新来一位男生/客户/面试者,根据上面的树状图就可以作出是否见面/贷款/入职的决定,所以该树状图就称决策树。
决策树解决问题就是这样,天然的可以解决多分类问题,当然回归问题也可以。
那怎么构建一棵决策树呢?
我们可以通过信息熵来划分。
熵的计算公式:
熵公式的意思是:
比如买彩票的不确定性,要比抛硬币的不确定性大。只有一个类别时,熵为 0。
比如抛硬币是二选一,不确定性很大。可如果硬币一面重、一面轻,就有规律可寻,不确定性会小很多。
信息增量:衡量每一条信息价值的尺度,这个值越大,信息越有用。
我们的划分思路是,让可能性变少,划分后使得整体的信息熵降低,变得更加确定。
我们可以通过基尼系数来划分。
CART 是基尼系数实现的,基尼系数没有 l o g log log 计算比信息熵更快。