• 随机森林知识点小总结


    一、知识梳理

    1、集成学习是机器学习中的一大分支。
    2、根据单个学习器的产生过程的不同,集成学习大致可以分为两大类:

    Boosting,串行,代表方法AdaBoost,GBDT,XGBOOST
    Bagging,并行,代表方法随机森林

    3、Boosting一般需要考虑两个方面:

    1)在每一轮如何改变训练数据的权值或概率分布?
    通过提高那些在前一轮被弱分类器分错样例的权值,减小前一轮分对样本的权值,而误分的样本在后续受到更多的关注。
    2)通过什么方式来组合弱分类器?
    通过加法模型将弱分类器进行线性组合,即增大错误率小的分类器的权值,同时减小错误率较大的分类器的权值。

    4、Bagging主要的核心在于抽样方法:

    1)每轮从原始样本集中有放回随机抽取n个训练样本(即有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集相互独立)
    2)每次使用一个训练集去训练得到一个模型,k个训练集共得到k个模型。(具体到用什么模型可以根据具体问题而定)
    3)预测结果:对分类问题便是将上述得到的k个模型采用投票的方式得到分类结果;对回归问题变数计算上述模型的均值作为最后的结果。

    二、随机森林

    构建过程:

    1、有放回随机抽样选出n个样本,共进行k次采样,生成k个训练集
    2、对于k个训练集,分别训练k个决策树模型
    3、对于单个决策树模型,假设训练样本特征的个数为m,那么每次分裂时根据信息增益选择最好的特征进行分裂
    4、每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。

    决策树是如何进行分类的

    决策树是一种树形结构,采用监督学习。其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

    特征值连续怎么处理:

    将数据离散化就可以了。
    1、先把特征的n个值有序排列,取排序后两个相邻的值的均值作为阈值。
    2、分别比较这n-1个阈值的信息增益,选使得信息增益最大的那个值作为阈值来划分。

    为什么输出概率:

    因为模型对这次预测的结果把握性并不是很大。对于某些宁可不做也不要出现错误的场景来说,直接给一个类别结果并不是我们所需要的。

    随机森林需要什么交叉验证吗?

    1、模型错误率来源:
    森林中任意两棵树的相关性:相关性越大,错误率越大;
    森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。
    2、袋外错误率(oob error):是随机森林泛化误差的一个无偏估计。

    随机森林有许多优点:

    1、具有极高的准确率
    2、随机性的引入,使得随机森林不容易过拟合,有很好的抗噪声能力
    3、能处理很高维度的数据,不需要降维
    4、既能处理离散型数据,也能处理连续型数据
    5、能够评估各个特征在分类问题上的重要性
    6、容易实现并行化

    随机森林的缺点:

    1、当决策树个数很多时,训练时需要的空间和时间会较大
    2、随机森林模型还有许多不好解释的地方

  • 相关阅读:
    异步编程规避Redis的阻塞(下)
    Linux下,基于TCP与UDP协议,不同进程下单线程通信服务器
    1023 Have Fun with Numbers
    通用串行总线USB接口——基础总结(USB版本演进、接口类型、电气特性、拓扑结构、USB硬件接口实现)
    Linux | Linux环境与版本作业
    编程技巧│Gitee 的 WebHooks 实现代码自动化部署
    springboot和springcloud 和springcloud Alibaba的版本选择
    Lua语法入门
    分布式微服务架构下网络通信的底层实现原理
    快照隔离,与Percolatory分布式解决方案
  • 原文地址:https://blog.csdn.net/weixin_44728197/article/details/126658214