Boosting,串行,代表方法AdaBoost,GBDT,XGBOOST
Bagging,并行,代表方法随机森林
1)在每一轮如何改变训练数据的权值或概率分布?
通过提高那些在前一轮被弱分类器分错样例的权值,减小前一轮分对样本的权值,而误分的样本在后续受到更多的关注。
2)通过什么方式来组合弱分类器?
通过加法模型将弱分类器进行线性组合,即增大错误率小的分类器的权值,同时减小错误率较大的分类器的权值。
1)每轮从原始样本集中有放回随机抽取n个训练样本(即有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集相互独立)
2)每次使用一个训练集去训练得到一个模型,k个训练集共得到k个模型。(具体到用什么模型可以根据具体问题而定)
3)预测结果:对分类问题便是将上述得到的k个模型采用投票的方式得到分类结果;对回归问题变数计算上述模型的均值作为最后的结果。
1、有放回随机抽样选出n个样本,共进行k次采样,生成k个训练集
2、对于k个训练集,分别训练k个决策树模型
3、对于单个决策树模型,假设训练样本特征的个数为m,那么每次分裂时根据信息增益选择最好的特征进行分裂
4、每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。
决策树是一种树形结构,采用监督学习。其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
将数据离散化就可以了。
1、先把特征的n个值有序排列,取排序后两个相邻的值的均值作为阈值。
2、分别比较这n-1个阈值的信息增益,选使得信息增益最大的那个值作为阈值来划分。
因为模型对这次预测的结果把握性并不是很大。对于某些宁可不做也不要出现错误的场景来说,直接给一个类别结果并不是我们所需要的。
1、模型错误率来源:
森林中任意两棵树的相关性:相关性越大,错误率越大;
森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。
2、袋外错误率(oob error):是随机森林泛化误差的一个无偏估计。
1、具有极高的准确率
2、随机性的引入,使得随机森林不容易过拟合,有很好的抗噪声能力
3、能处理很高维度的数据,不需要降维
4、既能处理离散型数据,也能处理连续型数据
5、能够评估各个特征在分类问题上的重要性
6、容易实现并行化
1、当决策树个数很多时,训练时需要的空间和时间会较大
2、随机森林模型还有许多不好解释的地方