【机器学习-周志华】学习笔记-第五章

记录第一遍没看懂的
记录觉得有用的
其他章节：
        第一章
         第三章
         第五章
         第六章
         第七章
         第八章
         第九章
         第十章
         十一章
         十二章
         十三章
         十四章
         十五章
         十六章

第四章决策树，都是比较基础的概率论的东西，主要就是结合例子去理解概念。

第五章是神经网络模型的介绍，比较难理解的算是5.3 误差逆传播算法。它其实是对梯度计算结果的一个解释，用的其实还是梯度下降法。

也就是说，主要还是微积分多元函数的计算。头疼.jpg

在这里插入图片描述
        可以看到这里是多输出问题，但只关注一个输出的推导即可，其他都是一样的。
        首先看均方误差求偏导，其中公式(5.4)是三层复合函数，第一层是损失函数对输出求导( $E_k \to \bar{y}_j^k$ )，第二层是输出对节点的输入求导( $\bar{y}_j^k\to\beta_j$ )，最后是输入对连接权求导( $\beta_j\to w_{hj}$ )。
在这里插入图片描述
        也就是：

结合公式和定义， $\beta_j=\sum_{h=1}^{q}w_{hj}b_h$ 其实是一个线性的累加，对于每一个h来说，其他项都是常数，导数为0，那么 $\beta_j$ 求导也就是 $b_h$ 。
而激活函数 $Sigmoid(x)=\dfrac{1}{1+e^{-x}}$ 。这个的导数是一个固定公式，推导过程简言之： $(\dfrac{1}{1+e^{-x}})'=-\dfrac{1}{(1+e^{-x})^2}(-1)e^{-x}=\dfrac{e^{-x}+1-1}{(1+e^{-x})^2}=f(x)-f^2(x)$

Sigmoid函数求导推导公式更详细的解释可以参考：sigmoid函数求导-只要四步

        剩下的 $E_k$ 对 $\bar{y}_j^k$ 的求导其实就是一个平方项的求导。
         为了使结果只和下标j有关，把前两层单独提出来，并把梯度下降的负号提过来，得到公式(5.10)。
在这里插入图片描述

         公式(5.14)中关于 $\Delta v_{ih}$ 的计算，其中 $\eta$ 表示步长， $e_hx_i$ 表示下降方向。同样，损失函数对输出 $y_j$ 求导，输出 $y_j$ 对节点的输入 $\beta_j$ 求导，输入对上一层节点的输出 $b_{h}$ 求导，然后上一层节点的输出 $b_{h}$ 对上一层节点的输入 $\alpha_{h}$ 求导，最后 $\alpha_{h}$ 再对 $\Delta v_{ih}$ 求导。
         需要注意的是，此时 $\Delta v_{ih}$ 的每一项会对每一个 $y_j$ 产生影响，所以还是需要 $\sum_j$ 的。
         所幸，损失函数对 $\beta_j$ 的求导在 $g_j$ 中已经完成了。而 $\beta_j$ 对 $b_{h}$ 求偏导类似于上一个 $\beta_j$ 对 $w_{hj}$ 求偏导，也是线性的，结果就为 $w_{hj}$ 。接着下一项，是输出对输入的求导，同样是套用Sigmoid函数的公式，也就是 $b_h(1-b_h)$ ；最后就是 $x_i$ 。

\begin{aligned} Δ v_{i h} & = - η \sum_{j} \frac{\partial E_{k}}{\partial β_{j}} \frac{\partial β_{j}}{\partial b_{h}} \frac{\partial b_{h}}{\partial α_{h}} \frac{\partial α_{h}}{\partial v_{i h}} \\ = η \sum_{j} g_{j} w_{h j} b_{h} (1 - b_{h}) x_{i} \end{aligned}

Δ v_{ih} = - η j \sum \frac{\partial E _{k}}{\partial β _{j}} \frac{\partial β _{j}}{\partial b _{h}} \frac{\partial b _{h}}{\partial α _{h}} \frac{\partial α _{h}}{\partial v _{ih}} = η j \sum g_{j} w_{hj} b_{h} (1 - b_{h}) x_{i}

        可以看出，每次都用了上一层的结论(比如这个 $e_h$ 用了 $g_j$ ，那么，如果有更多层，也是可以直接套用这个结果，也就是直接用 $e_h$ 。也就是说，无论多深，都是类似形式。
        BP算法工作流程如下：
在这里插入图片描述
        5.5节的网络其实不算常见了，主要是他们的改进思路。

相关阅读:
Docker快速入门
手势识别易语言代码
1分钟完成在线测试部署便捷收集班级同学文件的web管理系统
BEVM如何实现兼容OP Stack以WBTC为Gas的创新解决方案？
QML元素定位器：Row、Colum、Grid、Flow、定位器嵌套以及Repeater用法
Spark任务调度概述_大数据培训
java基础（冒泡排序）精简
Nginx的进程结构
游戏性能优化
Day705.Tomcat拒绝连接原因分析及网络优化 -深入拆解 Tomcat & Jetty

原文地址：https://blog.csdn.net/weixin_43476037/article/details/126394862