【李航统计学习笔记】第八章：adaboost

【李航统计学习笔记】第八章：adaboost
8.1 Adaboost

Boosting提升方法

基本思路
- 将弱可学习算法是升为强可学习算法。
- 其中提升方法是集成学习的一种
- 集成学习两个主要类别:
  - 序列方法
  - 并行方法
Adaboost算法

解分类问题 $\in[-1,+1]$
在训练数据上训练得到模型，查看模型在整体数据和单个数据的分类效果
在整体数据上分类效果较好，则该模型在最后的模型中占较大比例，反之。
在单个数据上分类效果较好，那么在训练下一个模型时调小孩单个数
在上面过程迭代N次之后，直到最后的分类结果达到预期目标。将所有的模型组合，得到强可学习模型。

输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}_{1}$ 其中 $x_{i} \in$ $\subseteq R^{n}, y_{i} \in Y=\{-1,+1\}$ ; 弱学习算法;

输出: 最终分类器 $G_{(x)}$
(1) 初始化训练数据的权值分布
$D_{1}=\left(\omega_{11}, \cdots, \omega_{1 i}, \cdots \omega_{1 N}\right), \omega_{1 i}=\frac{1}{N}, i=1,2, \cdots, N$
(2) 对 $\cdots, M$
(2.1)使用具有权值分布 $\mathrm{D}_{m}$ 的训练数据集学习，得到基本分类器
$G_{m}(x): X \rightarrow\{-1,+1\}$
(2.2)计算 $G_{m}(x)$ 在训㤽数据集上的分类误差率 $e_{m}$
$e_{m}=\sum_{i=1}^{N} P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{N} \omega_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$
(2.3) 计算 $\mathrm{G}_{m}(x)$ 在训练数据集上的分类误差
$\alpha_{m}=\frac{1}{2} \log \frac{1-e_{m}}{e_{m}}$
这里的对数是自然对数
(2.4) 更新训练数据集的权值分布

$\begin{matrix} D_{m + 1} = (ω_{m + 1, 1}, \dots, ω_{m + 1, i}, \dots, ω_{m + 1, N}) \\ ω_{m + 1, i} = \frac{ω_{m i}}{Z_{m}} \exp (- α_{m} y_{i} G_{m} (x_{i})), i = 1, 2, \dots, N \end{matrix}$
Dm+1=(ωm+1,1,⋯,ωm+1,i,⋯,ωm+1,N)ωm+1,i=Zmωmiexp(−αmyiGm(xi)),i=1,2,⋯,N
这里， $Z_{m}$ 是规范化因子
$Z_{m}=\sum_{i=1}^{N} \omega_{m i} \exp \left(-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)\right)$
它使 $D_{m+1}$ 成为一个概率分布
(3)构建基本分类器的先行组合
$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$
得到最终分类器
$\begin{matrix} G (x) = sign (f (x)) \\ = sign (\sum_{m = 1}^{M} α_{m} G_{m} (x)) \end{matrix}$

提升树boosting tree

基本分类器：分类树或回归树

提左树模型：
$f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$
前向分步算法:

$\begin{aligned} f_{m} (x) = f_{m - 1} (x) + T (x; Θ_{m}) \\ {\hat{Θ}}_{m} = \arg min \sum_{i = 1}^{N} L (y_{i}, f_{m - 1} (x_{i}) + T (x_{i}; Θ_{m})) \\ f_{0} (x) = 0 \\ f_{1} (x) = f_{0} (x) + T (x; Θ_{1}) \\ \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{1} (x_{i})) \end{aligned}$
fm(x)=fm−1(x)+T(x;Θm)Θ m=argmini=1∑NL(yi,fm−1(xi)+T(xi;Θm))f0(x)=0f1(x)=f0(x)+T(x;Θ1)N1i=1∑NL(yi,f1(xi))
其中对于回归问题，一般为
$L\left(y_{i}, f_{1}\left(x_{i}\right)\right)=\frac{1}{2}(y-f(x))^{2}$

回归问题（平方误差损失）

算法8.3 (回忉问题的提升树方法)
输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y \subseteq \mathrm{R}_{i}$

输出: 提升树 $f_{M}(x)$
(1) 初始化 $f_{0}(x)=0$
(2) 对 $\cdots, M$
(2.1)计算残差:
$r_{m i}=y_{i}-f_{m-1}\left(x_{i}\right), \quad i=1,2, \cdots, N$
(2.2)拟合残差 $r_{m i}$ 学习―个回归树，得到 $T\left(x ; \Theta_{m}\right)$
(2.3) 更新 $f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right)$

(3) 得到回归问题是升树
$f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$
至于拟合残差的原因:
对于任意的样本点y和拟合值 $f (x)$ 的损失

$\begin{aligned} L [y, f (x)] \\ = & [y - f (x)]^{2} \end{aligned}$
=L[y,f(x)][y−f(x)]2
在前项分布算法中
$\begin{aligned} f_{m} (x) = & {[y - f_{m - 1} (x) - T (x; Θ_{m})]}^{2} \\ = & {[γ_{m - 1} - T (x; Θ_{m})]}^{2} \\ = & L (γ_{m - 1}, T (x; Θ_{m})) \end{aligned}$

回归问题梯度提升：

算法8.4 (梯度提升算法)

输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}_{1}$ , 其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y \subseteq \mathrm{R}_{i}$ ;损失函数 $L (y, f (x))$

输出：回归树 $\hat{f}(x)$

(1)初始化
$f_{0}(x)=\arg \min _{c} \sum_{i=1}^{N} L\left(y_{i}, c\right)$
(2)对于 $\cdots, M$
(2.1) 对i $\cdots, N$ ,计算
$r_{m i}=-\left[\frac{\partial L\left(y_{i}, f\left(x_{i}\right)\right)}{\partial f\left(x_{i}\right)}\right]_{f(x)=f_{m-1}(x)}$
(2.2) 对 $r_{m i}$ 拟合拟合一个回归树，得到第棵树的叶节点区域 $\mathrm{R}_{m j}, j=1,2, \cdots, J$
(2.3) 对j $\cdots, J$ , 计箿
$c_{m j}=\arg \min _{c} \sum_{x_{i} \in R_{m j}} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+c\right)$
(2.4) 更新
$f_{m}(x)=f_{m-1}(x)+\sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$
(3) 得到回归树
$\hat{f}(x)=f_{M}(x)=\sum_{m=1}^{M} \sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$

总结
1. 提升算法采用了多个弱模型结合达到一个强模型的效果
2. AdaBoost每次训练的分类器将重点关注于之前仍然被错分的样本。
3. 以决策树为基函数的提升方法被称为提升树
8.2 前向分步部算法

 前向分步算法

前向分步算去求解诣数函数为损佚函数的氻法模型与Adabost的关系结论: 两者是等价的
$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x), \quad G_{m}(x) \in[-1,+1]$
损失函数
$f(x))=\exp (-y f(x))$
假没经过m-1轮迭代，前向分步算刧已经得到
$f_{m-1}(x)=\sum_{j=1}^{m-1} \alpha_{j} G_{j}(x)$
那么

$\begin{aligned} f_{m} (x) & = f_{m - 1} (x) + α_{m} G_{m} (x) \\ α_{m}, G_{m} (x) & = \arg min_{α, G} \sum_{i = 1}^{N} \exp [- y_{i} (f_{m - 1} (x_{i}) + α G (x_{i}))] \\ = \arg min_{α, G} \sum_{i = 1}^{N} \bar{ω_{m i}} \exp [- y_{i} α G (x_{i})] \\ = \arg min_{α, G} \sum_{i \in M_{1}} \bar{ω_{m i}} \exp (- α) + \arg min_{α, G} \sum_{i \in M_{2}} \bar{ω_{m i}} \exp (α) \end{aligned}$
fm(x)αm,Gm(x)=fm−1(x)+αmGm(x)=argα,Gmini=1∑Nexp[−yi(fm−1(xi)+αG(xi))]=argα,Gmini=1∑Nωmiexp[−yiαG(xi)]=argα,Gmini∈M1∑ωmiexp(−α)+argα,Gmini∈M2∑ωmiexp(α)
其中 $M_{1}$ 是止确分类， $M_{2}$ 是错误分类
$\begin{aligned} \arg min_{α, G} & \sum_{i \in M_{1}} \bar{ω_{m i}} \exp (- α) + \arg min_{α, G} \sum_{i \in M_{2}} \bar{ω_{m i}} \exp (- α) + \\ \arg min_{α, G} \sum_{i \in M_{2}} \bar{ω_{m i}} (\exp (α) - \exp (- α)) \\ = & \exp (- α) \sum_{i} \bar{ω_{m i}} + [\exp (α) - \exp (- α)] \sum \bar{ω_{m i}} I (y_{i} \neq G (x_{i})) \end{aligned}$
得到G的最优解
$G_{m}^{*}=\operatorname{argmin} \sum_{i} \overline{\omega_{m i}} I\left(y_{i} \neq G\left(x_{i}\right)\right)$
接下来求 $\alpha$ 的最优解
$\begin{matrix} α_{m} = \arg min_{α} \sum_{i} \bar{ω m_{i}} \exp (- α y_{i} G^{*} (x_{i})) \\ = \sum_{i \in M_{1}} \bar{ω_{m i}} \exp (- α) + \sum_{i \in M_{2}} \bar{ω_{m i}} \exp (α) \\ = (e^{α} - e^{- α}) \sum \bar{ω_{m i}} I (y_{i} \neq G (x_{i})) + e^{- α} \sum \bar{ω_{m i}} \end{matrix}$
将得到的式子对 $\alpha$ 求导并使导数为 0 。即
$\left(e^{\alpha}+e^{-\alpha}\right) \sum \bar{\omega} I\left(y_{i} \neq G\left(x_{i}\right)\right)-e^{-\alpha} \bar{\omega}=0$
$\begin{matrix} e^{2 α} = \frac{\sum \bar{ω_{i}}}{\sum \bar{ω_{i}} I (y_{i} \neq G (x_{i}))} - 1 \\ α = \frac{1}{2} \ln \frac{\sum \bar{ω_{i}} - \sum \bar{ω} I (y_{i} \neq G (x_{i}))}{\sum \bar{ω} I (y_{i} \neq G (x_{i}))} \\ = \frac{1}{2} \ln \frac{1 - \frac{\sum \bar{ω} I (y_{i} \neq G (x_{i}))}{\sum \bar{ω_{i}}}}{\frac{\sum \bar{ω} I (y_{i} \neq G (x_{i}))}{\sum \bar{ω_{i}}}} \\ = \frac{1}{2} \ln \frac{1 - e_{m}}{e_{m}} \end{matrix}$

$\begin{aligned} \bar{ω_{m i}} = \exp (- y_{i} f_{m - 1} (x_{i})) \\ = \exp (- y_{i} \sum_{j = 1}^{m - 1} α_{j} G_{j} (x)) \\ = \prod_{j} \exp (- y_{i} α_{j} G_{j} (x_{i})) \end{aligned}$
ωmi=exp(−yifm−1(xi))=exp(−yij=1∑m−1αjGj(x))=j∏exp(−yiαjGj(xi))

总结
1. AdaBoost算法的一个解释是该算法实际是前向分步算法的一个实现。
2. 对于AdaBoost而言，模型是加法模型，损失函数是指数损失，算法是前向分步算法。
相关阅读:
java毕业设计员工绩效考核系统分析与设计Mybatis+系统+数据库+调试部署
 End of line spacing
内存泄漏？
PyTorch搭建基于图神经网络（GCN）的天气推荐系统（附源码和数据集）
民族民俗景区3d智慧旅游系统提升游客旅游体验和质量
 短视频解析接口分发系统
 【面试经典150 | 链表】两数相加
 七星创客商业模式：享受优惠价格和丰厚奖励的新选择！
Leetcode 878. 第 N 个神奇数字
 基于SSH开发在线音乐网站的设计与实现
原文地址：https://blog.csdn.net/weixin_39236489/article/details/126290043

8.1 Adaboost

Boosting提升方法

Adaboost算法

提升树boosting tree

基本分类器：分类树或回归树

回归问题（平方误差损失）

回归问题梯度提升：

总结

8.2 前向分步部算法

前向分步算法

总结