《动手学深度学习 Pytorch版》 4.7 前向传播、反向传播和计算图

4.7.1 前向传播

整节理论，详见书本。

整节理论，详见书本。

整节理论，详见书本。

整节理论，详见书本。

（1）假设一些标量函数 $X$ 的输入 $X$ 是 $n\times m$ 矩阵。 $f$ 相对于 $X$ 的梯度的维数是多少？

还是 $n\times m$ ，多少个变量就是多少个导数嘛。

（2）向本节中描述的模型的隐藏层添加偏置项（不需要再正则化项中包含偏置项）。

    a.绘制出相应的计算图。

    b.推导前向传播和反向传播方程。
1
2
3

b. 仍假设输入样本是 $\boldsymbol{x}\in\mathbb{R}^d$ ，则前向传播为：

z h o L s J = W (1) x + b = ϕ (z) = W (2) h + b = l (o, y) = λ 2 (| | W (1) | | 2 F + | | W (2) | | 2 F) = L + s

z h o L s J = W^{(1)} x + b = ϕ (z) = W^{(2)} h + b = l (o, y) = \frac{λ}{2} (∣∣ W^{(1)} ∣ ∣_{F}^{2} + ∣∣ W^{(2)} ∣ ∣_{F}^{2}) = L + s

反向传播为：

\partial J \partial L \partial J \partial o \partial s \partial W ( 1 ) \partial J \partial W ( 2 ) \partial J \partial h \partial J \partial z \partial J \partial W ( 1 ) = 1, \partial J \partial s = 1 = \partial J \partial L \partial L \partial o = \partial L \partial o \in R q = λ W (1), \partial s \partial W ( 2 ) = λ W (2) = \partial J \partial o \partial o \partial W ( 2 ) + \partial J \partial s \partial s \partial W ( 2 ) = \partial J \partial o h T + λ W (2) = \partial J \partial o \partial o \partial h = W (2) T \partial J \partial o = \partial J \partial h \partial h \partial z = \partial J \partial h ⊙ ϕ' (z) = \partial J \partial z \partial z \partial W ( 1 ) + \partial J \partial s \partial s \partial W ( 1 ) = \partial J \partial z x T + λ W (1)

\frac{\partial J}{\partial L} \frac{\partial J}{\partial o} \frac{\partial s}{\partial W ^{(1)}} \frac{\partial J}{\partial W ^{(2)}} \frac{\partial J}{\partial h} \frac{\partial J}{\partial z} \frac{\partial J}{\partial W ^{(1)}} = 1, \frac{\partial J}{\partial s} = 1 = \frac{\partial J}{\partial L} \frac{\partial L}{\partial o} = \frac{\partial L}{\partial o} \in R^{q} = λ W^{(1)}, \frac{\partial s}{\partial W ^{(2)}} = λ W^{(2)} = \frac{\partial J}{\partial o} \frac{\partial o}{\partial W ^{(2)}} + \frac{\partial J}{\partial s} \frac{\partial s}{\partial W ^{(2)}} = \frac{\partial J}{\partial o} h^{T} + λ W^{(2)} = \frac{\partial J}{\partial o} \frac{\partial o}{\partial h} = W^{(2) T} \frac{\partial J}{\partial o} = \frac{\partial J}{\partial h} \frac{\partial h}{\partial z} = \frac{\partial J}{\partial h} ⊙ ϕ^{'} (z) = \frac{\partial J}{\partial z} \frac{\partial z}{\partial W ^{(1)}} + \frac{\partial J}{\partial s} \frac{\partial s}{\partial W ^{(1)}} = \frac{\partial J}{\partial z} x^{T} + λ W^{(1)}

a. 计算图为：

在这里插入图片描述

（3）计算本节所描述的模型用于训练和预测的内存空间。

不会，略。

（4）假设想计算二阶导数。计算图会发生什么变化？预计计算需要多长时间？

二阶计算图应该是在保留一阶计算图的基础上继续拓展出来的，需要的时间大抵是二倍吧。

（5）假设计算图对于当前的GPU来说太大了。

    a. 请尝试把它划分到多个GPU上。
    b. 这与小批量训练相比，有哪些优点和缺点。
1
2

a. 应使用 torch.nn.DataParallel 进行并行运算。

b.

batch_size够大则会由于并行计算而加快速度

batch_size不够大时反而会因为多卡之间的通信以及数据拆分与合并的额外开销导致效率反而更低。

相关阅读:
二维码制作教程：如何制作一个文件二维码？
RISC-V架构——物理内存保护机制设置函数（pmp_set）解析
068：mapboxGL绘制多边形，过滤获取选中的点的集合信息
Day7:浅谈useEffect
【MySQL集群一】CentOS 7上搭建MySQL集群：一主一从、多主多从
2--Linux:基础命令
Dockershim 与 Containerd：两种容器运行时的故事
Docker之介绍与安装
【Proteus仿真】【Arduino单片机】DS1302时钟
.Net 对象生命周期由浅入深2（GC）

原文地址：https://blog.csdn.net/qq_43941037/article/details/132863599