CART(Classification and Regression Tree)分类回归树。使用基尼指数计算得到树的节点。基尼指数表示系统整体的不确定性, 不确定性越大,基尼指数越大,所以在决策树中,将加权基尼系数最小的特征作为树的决策节点。
公式推导
基尼指数
g
i
n
i
(
A
)
=
1
−
∑
i
∈
(
y
,
n
)
p
i
2
gini(A)=1-\sum\limits_{i\in(y,n)}p_i^2
gini(A)=1−i∈(y,n)∑pi2, 其中
p
i
p_i
pi表示单分组中,yes或者no的比例(这里指的是样本中分类标签下的值,只有yes和no两类)。
加权基尼指数
w
e
i
g
h
t
_
g
i
n
i
=
∑
i
=
1
k
p
i
g
i
n
i
(
A
)
i
weight\_gini=\sum\limits_{i=1}^{k}p_i\ gini(A)_i
weight_gini=i=1∑kpigini(A)i, 其中
p
i
p_i
pi表示单分组占总样本的比例,
g
i
n
i
(
A
)
i
gini(A)_i
gini(A)i表示单分组的基尼指数。