机器学习——boosting之GBDT

现在要开始重点关注名字了，名字透漏了很多信息！名字暗藏线索！

GBDT，Gradient Boosting Decision Tree: 梯度提升决策树

果然信息很丰富

梯度：意味着计算有迭代递进关系，但还不明确是怎么迭代递进的
提升：意味着前向分布式+加法模型，并且分类器之间是有相关提升的
决策树：CART决策树、C4.5、忘记名字了…

em…还是要再深挖深挖，小小的boosting，挖呀挖呀挖呀挖。。。
经过推导。。。发现，我的GBDT回归，实际就是上一篇提升树的二叉回归树…
看来可以省点儿功夫，不写代码，但可以稍微推导一下

首先，明确回归问题采用平方损失函数: $Loss(y,f(x)) =(y-f(x))^2$

其中，f(x) 是强分类器，且当前强分类器 $f_m = f_{m-1}+T_m(x,θ_m)$

问题来了，我们现在要求Loss最小，原本是可以直接使Loss对x求导，进而求出θ，得到强分类器的

但书上说了，有时候Loss对x求导，是无法实现的，说实话，我不知道为什么

不过，不妨碍我对GBDT进行推导

首先，梯度，是想要Loss成梯度逐步下降，那就采用让Loss在 $f(x)=f_{m-1}(x)$ 处进行一阶泰勒展开

则有 $Loss(y,f_{m-1}(x))+\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}*[f(x)-f_{m-1}(x)]$

令 $f(x) = f_m(x)$ ，则有

$L(y,f_m(x)) = L(y,f_{m-1}(x))+\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}*[f_m(x)-f_{m-1}(x)]$

$L(y,f_m(x)) - L(y,f_{m-1}(x))=\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}*[f_m(x)-f_{m-1}(x)]$

其中 $f_m(x)-f_{m-1}(x)] = T(x,θ_m)$

要使下一次迭代时，Loss降低，则需要ΔLoss<0，那么对应的 $\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}*T(x,θ_m)$ <0

那么，当 $T(x,θ_m)=-\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}$ 时，就可以保证 $\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}*T(x,θ_m)$ <0

因此， $T(x,θ_m)=-\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}=\frac{ə_{(y-f_{m-1}(x))^2}}{ə_{f_{m-1}(x)}}$

为了求解简洁美观，可以 $令Loss为\frac{1}{2}(y-f(x))^2$

这样 $T(x,θ_m)=-\frac{ə_{L(y,f_{m-1}(x))}}{ə_{f_{m-1}(x)}}=\frac{\frac{1}{2}ə_{(y-f_{m-1}(x))^2}}{ə_{f_{m-1}(x)}}=y-f_{m-1}(x)$

哦！这不就是残差嘛 $r = y-f_{m-1}(x)$ ,相当于每个新的弱分类器（准确来说，应该是基函数）都应该尽可能地去拟合残差

所以啊！！！！实际上一轮的提升树，本质上就是GBDT

不管，就先这么确定，以后打脸再说…好困

相关阅读:
（手撕）数据结构---＞堆
配置java.net.DatagramSocket.setReceiveBufferSize()实现springboot接收过长UDP消息
数据结构-图-最短路径问题
JS作用域
【Django | 开发】面试招聘信息网站（配置中间件记录响应耗时日志）
武汉工程大学24计算机考研数据，有学硕招收调剂，而专硕不招收调剂！
Dockerfile中安装crontab
自然语言处理（NLP）-概述
Revit插件实现【快速扣减】的两种操作
AI创作系统ChatGPT源码+AI绘画系统+支持OpenAI DALL-E3文生图，可直接对话文生图

原文地址：https://blog.csdn.net/weixin_50348308/article/details/132741289