决策树对训练属于有很好的分类能力,但是对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象。
(1)剪枝
(2)合理有效抽样
bagging:
OOB数据
随机森林
决策树是基础分类器;
SVM、Logistic回归等其他分类器组成“总分类器”,叫做随机森林。
举例:回归问题
做100次bootstrap,每次得到的数据Di(Di的长度为N)。对于每个Di,使用局部回归(LOESS)拟合成一条曲线。然后将这些曲线取平均,得到最终的最终拟合曲线,该曲线过拟合情况是减弱的。
投票:(1)简单投票机制:一票否决、少数服从多数、阈值表决(2)贝叶斯投票机制
电影评价:使得尽可能大。
原理:若两样本同时出现在相同叶结点的次数越多,则两者越相似。
算法过程:记样本个数为N,初始化NXN的零矩阵S,S[i,j]表示样本i和j的相似度。对于m棵决策树形成的随机森林,遍历所有决策树的所有叶子结点(样本i,j出现在相同的结点,则s[i,j]加1)。遍历结束,S为样本间相似度矩阵。
(1)计算正例经过的结点,使用经过结点的数目、gini系数和等指标来判断特征的重要性。
(2)随机替换一列数据,重新建立决策树,计算新模型的正确率变化来判断这一列的特征的重要性。
孤立森林(Isolation Forest)通过对样本点的孤立来检测异常值。
特征、分割点都随机选择,然后生成一定深度的决策树iTree,若干棵iTree组成iForest。
先计算iTree中样本从根到叶子的长度f(x),然后计算iForest中f(x)的总和F(x)。
检测标准:F(x)较小的样本x为异常值。
决策树/随机森林的代码清晰、逻辑简单,在胜任分类问题的同时,往往也可以作为对数据分布探索的首要尝试算法。
随机森林的集成思想也可用在其他分类器的设计中。