随机森林(Random Forest,RF)算法由Leo Breiman和Adele Cutler提出,可以用来解决分类或回归等问题。
- 基本单元:决策树
- 思想:集成学习(Bagging)
- 优点:具有极好的准确率;能够有效地运行在大数据集上;能够处理具有高维特征的输入样本,而且不需要降维;能够评估各个特征在分类问题上的重要性;抗过拟合能力比较强;对于缺省值问题也能够获得很好得结果。
- 缺点:对于小数据或者低维数据(特征较少的数据),可能难以产生较好的分类;在解决回归问题时,并没有在分类中表现的那么好。