在sklearn中,我们主要使用两个决策树方法,均封装在tree模块下。
分别是分类树tree.DecisionTreeClassifier、回归树tree.DecisionTreeRegressor,对应分别基于决策树解决分类问题和回归问题。
本次主要以分类树的使用过程为例进行介绍。在sklearn中分类决策树的函数方法如下:
DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
max_features=None, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=1, min_samples_split=2,
min_weight_fraction_leaf=0.0, presort=False,
random_state=None, splitter='best')
主要参数介绍:
1、criterion
这个参数是用来指定构造树时,树的“不纯度”的计算方法,主要有两种:
(1)entropy,使用信息熵来构造
(2)gini,使用基尼系数来构造(默认采用此模式)