Boosting 采用串行的方式训练,各基分类器之间有依赖。根据当前模型损失函数的负梯度训练新的弱分类器,将训练好的弱分类器以累加的形式结合到现有模型中。
过程中会不断减小损失函数,使模型偏差不断降低,方差不会降低。因为各弱分类器之间是强相关的,缺乏独立性,不会对降低方差有作用。
Gradient Boosting:boosting中的一大类算法。每轮迭代中,首先计算出当前模型在所有样本上的负梯度,以该值为目标训练一个新的弱分类器,计算该弱分类器的权重,实现模型更新。
优点:
1)预测阶段的计算速度快,树与树之间可并行化计算。
2)在分布稠密的数据集上,泛化能力和表达能力都很好。
3)采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自动发现特征间的高阶关系,并且也不需要对数据进行特殊的预处理如归一化等。
缺点:
1)GBDT在高维稀疏的数据集上,表现不如支持向量机或者神经网络。
2)GBDT在处理文本分类特征问题上,相对其他模型的优势不如它在处理数值特征时明显。
3)训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度。
一种高效实现GBDT的改进算法。原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树,只是在决策树构建完成后再进行剪枝。而xgboost在决策树构建阶段就加入正则项。
xgboost 从所有的树结构中找出一个最优的树结构,是一个NP-hard问题,通常采用贪心算法( 求解问题时,总是做出当前最好的选择,不从整体最优上加以考虑,得到局部最优) 构建一个次优的树结构,基本思想:从根节点开始,每次对一个叶子节点进行分裂,针对每一种可能的分裂,根据特定的准则选取最优的分裂。不同的决策树算法采用不同的准则,如IC3算法采用信息增益,C4.5算法为了克服信息增益中容易偏向取值较多的特征而采用信息增益比,CART算法使用基尼指数和平方误差,XGBoost也有特定的准则来选取最优分裂。
XGBoost 的并行是在特征粒度上的,决策树的学习最耗时的一个步骤是对特征的值排序以确定最佳分割点,XGBoost 在训练之前,预先对数据进行了排序,保存为block结构,后面的迭代中重复地使用这个结构,减小计算量。在进行节点的分裂时,需要计算每个特征的增益,选增益最大的特征做分裂,各个特征的增益计算就可以多线程进行。
可并行的近似直方图算法。树节点在进行分裂时,需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,此时 xgboost 使用一种可并行的近似直方图算法,高效生成候选分割点。先通过直方图算法获得候选分割点的分布情况,根据候选分割点将连续的特征信息映射到不同的buckets中,并统计汇总信息。
XgBoost:对所有特征都按照特征的数值进行预排序,遍历分割点的时候用O(#data)的代价找到特征最好的分割点。在找到一个特征的最好分割点后,将数据分裂成左右子节点。空间消耗和时间消耗都很大,对cache优化不友好。
Light Gradient Boosting Machine,实现GBDT算法的框架,支持高效并行训练,有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
速度更快:
内存更小:
缺点:
方法参数:
'task': 'train',
'boosting_type': 'gbdt', # 设置提升类型
'objective': 'regression', # 目标函数
'metric': {'l2', 'auc'}, # 评估函数
'num_leaves': 31, # 叶子节点数
'learning_rate': 0.05, # 学习速率
'feature_fraction': 0.9, # 建树的特征选择比例
'bagging_fraction': 0.8, # 建树的样本采样比例
'bagging_freq': 5, # k 意味着每 k 次迭代执行bagging
'verbose': 1 # <0 显示致命的, =0 显示错误 (警告), >0 显示信息
一种基于对称决策树为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架,解决了高效合理处理类别型特征的问题,还解决了梯度偏差(Gradient Bias)以及预测偏移(Prediction shift)的问题,减少过拟合,提高算法的准确性和泛化能力。
CatBoost可以直接传入类别特征列标识,模型自动将其转为one-hot编码,可通过max_one_hot_size限制其长度,如果不传入特征列标识,CatBoost会把所有列视为数值特征并处理,如果特征超过设定的长度,做如下处理:
LightGBM 也可使用特征名处理标签,但不将其转为one-hot形式,但需要将标签特征转为整型变量,其不接受字符串形式的标签。
XgBoost 则只接收数值型数据。
参考: