随机森林知识点小总结

一、知识梳理

1、集成学习是机器学习中的一大分支。

2、根据单个学习器的产生过程的不同，集成学习大致可以分为两大类：

Boosting，串行，代表方法AdaBoost，GBDT，XGBOOST
Bagging，并行，代表方法随机森林

3、Boosting一般需要考虑两个方面：

1）在每一轮如何改变训练数据的权值或概率分布？
通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样本的权值，而误分的样本在后续受到更多的关注。
2）通过什么方式来组合弱分类器？
通过加法模型将弱分类器进行线性组合，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。

4、Bagging主要的核心在于抽样方法：

1）每轮从原始样本集中有放回随机抽取n个训练样本（即有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集相互独立）
2）每次使用一个训练集去训练得到一个模型，k个训练集共得到k个模型。（具体到用什么模型可以根据具体问题而定）
3）预测结果：对分类问题便是将上述得到的k个模型采用投票的方式得到分类结果；对回归问题变数计算上述模型的均值作为最后的结果。

二、随机森林

构建过程：

1、有放回随机抽样选出n个样本，共进行k次采样，生成k个训练集
2、对于k个训练集，分别训练k个决策树模型
3、对于单个决策树模型，假设训练样本特征的个数为m，那么每次分裂时根据信息增益选择最好的特征进行分裂
4、每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类。

决策树是如何进行分类的

决策树是一种树形结构，采用监督学习。其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

特征值连续怎么处理：

将数据离散化就可以了。
1、先把特征的n个值有序排列，取排序后两个相邻的值的均值作为阈值。
2、分别比较这n-1个阈值的信息增益，选使得信息增益最大的那个值作为阈值来划分。

为什么输出概率：

因为模型对这次预测的结果把握性并不是很大。对于某些宁可不做也不要出现错误的场景来说，直接给一个类别结果并不是我们所需要的。

随机森林需要什么交叉验证吗？

1、模型错误率来源：
森林中任意两棵树的相关性：相关性越大，错误率越大；
森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低。
2、袋外错误率(oob error)：是随机森林泛化误差的一个无偏估计。

随机森林有许多优点：

1、具有极高的准确率
2、随机性的引入，使得随机森林不容易过拟合，有很好的抗噪声能力
3、能处理很高维度的数据，不需要降维
4、既能处理离散型数据，也能处理连续型数据
5、能够评估各个特征在分类问题上的重要性
6、容易实现并行化

随机森林的缺点：

1、当决策树个数很多时，训练时需要的空间和时间会较大
2、随机森林模型还有许多不好解释的地方

相关阅读:
异步编程规避Redis的阻塞（下）
Linux下，基于TCP与UDP协议，不同进程下单线程通信服务器
1023 Have Fun with Numbers
通用串行总线USB接口——基础总结（USB版本演进、接口类型、电气特性、拓扑结构、USB硬件接口实现）
Linux | Linux环境与版本作业
编程技巧│Gitee 的 WebHooks 实现代码自动化部署
springboot和springcloud 和springcloud Alibaba的版本选择
Lua语法入门
分布式微服务架构下网络通信的底层实现原理
快照隔离，与Percolatory分布式解决方案

原文地址：https://blog.csdn.net/weixin_44728197/article/details/126658214