kmeans聚类;XGBoost;集成算法;泛化能力
目录
XGBoost 是一种在梯度提升算法(GBDT)基础上改进的学习算法,其特点为复杂度低、并行效果好、计算精度高,但其泛化能力有待提升。选择 Bagging 多模型融合思想, 采用多个 XGBoost 基分类器,使得每个基分类器只拟合部分样本下的部分特征属性,然后用 Kmeans聚类,进而提升其泛化能力。
(1)选点:从样本中随机选取k个样本作为初始中心点;
(2)归类:计算其余样本与K个样本的欧式距离并比较;并将样本与距离最近的中心点归为一类;
(3)计算:重新计算蔟中心点,一直重复前面的步骤,直到蔟中心点的位置收敛时结束。
在梯度提升算法基础上,加入目标函数的二次泰勒展开项和模型复杂度的正则项,使得目标函数与实际数据相差更小,达到减少数据误差,提高预测准确度的一种算法。
较为复杂,难以理解!
经典的集成学习算法,通过综合分析多个弱学习器的学习结果,共同完成同一学习任务的过程。
有放回重复抽取N个样本集,每个样本集中有M个样本,分别训练N个学习模型,从而获得N个弱学习器。
1.有无Kmenas算法的精度对比;
2.在提高训练精度的同时提高了算法的泛化能力。