介绍
在本文中,我将向您介绍集成建模的基础知识。 另外,为了向您提供有关集成建模的实践经验,我们将使用R进行集成。最近我们被客户要求撰写关于集成模型的研究报告,包括一些图形和统计输出。
1.什么是集成?
通常,集成是一种组合两种或多种类似或不同类型算法的技术,称为基础学习模型。这样做是为了建立一个更加健壮的系统,其中包含了所有基础学习模型的预测。可以理解为多个交易者的会议室会议,以决定股票的价格是否会上涨。
由于他们都对股票市场有不同的理解。因此,他们应该根据自己对市场的理解对股票价格做出各种预测。
相关视频:Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
,时长10:25
2.集合的类型
在进一步详细介绍之前,一些基本概念是:
- 平均:它被定义为 在回归问题的情况下或在预测分类问题的概率时从模型中获取预测的平均值。
- 多数投票:它被 定义为 在预测分类问题的结果的同时,从多个模型预测中以最大投票/推荐进行预测。
- 加权平均值:在此,不同的权重应用于来自多个模型的预测,然后取平均值 。
一些主要使用的技术:
- Bagging: Bagging也称为bootstrap聚合。
增强的一些例子是XGBoost,GBM,ADABOOST等。
- 堆叠:在堆叠多层机器时,学习模型彼此叠加,每个模型将其预测传递给上面层中的模型,顶层模型根据模型下面的模型输出做出决策。
3.集合的优点和缺点
3.1优点
- 集成是一种经过验证的方法,可以提高模型的准确性,适用于大多数情况。
- 集成使模型更加稳健和稳定,从而确保在大多数情况下测试用例具有良好的性能。
- 您可以使用集成来发现数据中的线性和非线性复杂关系。可以通过使用两个不同的模型形成两个集合来完成。
3.2缺点
- 集成减少了模型的可解释性,并且很难在最后得到关键的业务见解。