机器学习之集成学习

写在前面

说起集成学习，更多的是想传递一种观念，就是利用多个分类器集成，组合实现强分类。当然了，也不仅仅是用在分类中，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。

先定义一些基本的，容易混淆的，关于学习器的概念

强学习器：Strong learner，相对于弱学习器而言的概念，强学习器指的是可以预测相当准确结果的学习算法。
弱学习器：Weak learner，相对于强学习器而言，通常这些弱学习器预测的结果只比随机结果稍好一些。
基学习器：Base Learner，集成学习中的个体学习器，基学习器经常是弱学习器，但是并非必须是弱学习器。
基学习算法：Base Learning Algorithm，基学习器所基于的算法，基学习器基于基学习算法生成，比如通过不同的训练集，经过训练之后，生成的不同参数的机器学习模型。
同质基学习器：Homogeneous Base Learner，指使用同样的基学习算法生成的基学习器
异质基学习器：Heterogeneous Base Learner，指使用不同的基学习算法生成的基学习器

构建基学习器：生成一系列基学习器，这个过程可以是并行的（Parallel）也可以是顺序的（Sequential）（在顺序型的生成过程中，前期生成的基学习器会对后续生成的学习器有影响）
组合基学习器：这些基学习器被组合起来使用，最常见的组合方法比如用于分类的多数投票（majority
voting），以及用于回归的权重平均（weighted averaging）。

平行方法：构建多个独立的学习器，取他们的预测结果的平均个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成。通常是同质的弱学习器，代表算法是Bagging和随机森林（Random Forest）系列算法。
顺序化方法：多个学习器是依次构建的个体学习器之间存在强依赖关系，因为一系列个体学习器需要串行生成。通常是异质的学习器，代表算法是Boosting系列算法，比如AdaBoost，梯度提升树（GBDT）等

也就是说，如何定义一个完整的集成学习算法，有几个问题需要考虑：
如何生成若干个基学习器；
如何选择一种组合策略，将这些个体学习器集合成一个强学习器。

集成学习的算法策略有许多种，主要有三个比较有代表性的：Boosting、Bagging、Stacking。

为了说明这三种方法，定义一个二元分类任务：

X表示样例空间，Y表示分类标签，即{-1,+1}
训练数据集D={(x1,y1),(x2,y2),…,(xm,ym)}，其中xi∈X，yi∈Y（i=1,…,m）

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

相关阅读:
什么是GPT，初学者怎么使用并掌握Chat GPT工具
Scrapy简介-快速开始-项目实战-注意事项-踩坑之路
【2024秋招】腾讯云智武汉后端开发一面 2023-9-20
粒子群算法求解0-1背包问题
Qt自定义标题栏
RGMII接口---＞(013)FPGA实现RGMII接口(十三)
前端工作总结247-uni-拼接解决下拉刷新问题
盘点 | 2022年上半年国内的电邮安全事件
【木板】Python实现-附ChatGPT解析
后疫情时代，企业如何解决远程用户、居家办公和异地设备的管理问题？

原文地址：https://blog.csdn.net/LIsaWinLee/article/details/125501705