1、算法简介
随机森林(Random Forest),简称RF。随机森林是由多个决策树模型组成的集成模型,森林中的每棵决策树并不相同。在构建决策树时,我们从训练数据中有放回的随机选取一部分样本,同时也不会使用数据样本中的全部特征,而是随机选取部分特征进行训练。用于构建随机森林的每棵决策树使用的样本和特征都各不相同,由于二重随机性,每棵树都不会一样,因此,这增加了随机森林整体的泛化能力。
在预测环节,随机森林中的每棵决策树会分别进行预测,最终结果将通过投票来确定。

2、算法主要优点
(1)能够处理很高维度的数据,并且不用做特征选择
(2)训练完成后,能够给出哪些特征比较重要,可以用于特征重要性分析
(3)容易做成并行化方法,执行速度比较快
(4)方便进行可视化展示,便于分析