深度学习入门之自动求导（Pytorch）

深度学习入门之自动求导（Pytorch）
自动求导
- 自动求导
  链式法则和自动求导
  向量链式法则
  例子1
  例子2
  
  自动求导
  计算图
  
  自动求导的两种模式
  反向累积
  反向累积总结
  复杂度
  
  自动求导实现
  自动求导
  
  QA
自动求导

 链式法则和自动求导

向量链式法则
- 标量链式法则
  $\quad\ {\partial y \over \partial x}={\partial y \over \partial u}{\partial u \over \partial x}$
- 拓展到向量
例子1

例子2

自动求导
- 自动求导计算一个函数在指定值上的导数
- 它有别于
  - 符号求导
    $ln[1]:= D[4x^3+x^2+3, x]$
    $Out[1]= 2x+12x^2$
  - 数值求导
    ${\partial f(x) \over \partial x }= lim_{h->0}{f(x+h) - f(x) \over h}$
计算图
- 将代码分解成操作子
- 将计算表示成一个无环图
- 显示构造
  - Tensorflow/Theano/MXNet
```
from mxnet import sym

a = sym.var()
b = sym.var()
c = 2 * a + b
# bind data into a and b later
1
2
3
4
5
6
```
先定义好公式，再将数值带入
- 隐式构造
  - Pytorch/MXNet
```
from mxnet import autograd, nd

with autograd.record():
	a = nd.ones((2, 1))
	b = nd.ones((2, 1))
	c = 2 * a + b
1
2
3
4
5
6
```
自动求导的两种模式

反向累积

反向累积总结
- 构造计算图
- 前向：执行图，存储中间结果
- 反向：从相反方向执行图
  - 去除不需要的枝
复杂度
- 计算复杂度：O(n),n是操作子个数
  - 通常正向和方向的代价类似
- 内存复杂度：O(n)，因为需要存储正向的所有中间结果
因为要存储所有中间结果，所以特别耗GPU资源
- 跟正向累积对比：
  - O(n)计算复杂度用来计算一个变量的梯度
  - O(1)内存复杂度
自动求导实现

 自动求导

假设我们想对函数 $y = 2x^Tx$ 关于列向量 x 求导
```
import torch

x = torch.arange(4.0)
x
1
2
3
4
```
tensor([0., 1., 2., 3.])

在我们计算 y 关于 x 的梯度之前，我们需要一个地方来存储梯度。
```
x.requires_grad(True)	# 等价于 `x = torch.arange(4.0, requires_grad=True)`
x.grad	# 默认值是None
1
2
```
现在让我们计算y。
```
y = 2 * torch.dot(x, x)
y
1
2
```
tensor(28.)

通过调用反向传播函数来自动计算y关于x每个分量的梯度
```
y.backward()
x.grad
1
2
```
tensor([ 0., 4., 8., 12.])

算出来的值应该是 4x，可以验证一下
```
x.grad == 4 * x
1
```
tensor([True, True, True, True])

现在让我们计算x的另一个函数
```
# 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad
1
2
3
4
5
```
tensor([1., 1., 1., 1.])

深度学习中，我们的目的不是计算微分矩阵，而是批量中每个样本单独计算的偏导数之和。
```
# 对非标量用`backword`需要传入一个`gradient`参数，该参数指定微分参数
x.grad.zero_()
y = x * x
# 等价于y.backword(torch.ones(len(x))
y.sum().backward()
x.grad
1
2
3
4
5
6
```
tensor([0., 2., 4., 6.])

为什么求导的时候要进行这个sum操作?
梯度只能为标量（即一个数）输出隐式地创建。

将某些计算移动到记录的计算图之外
```
x.grad.zero_()
y = x * x
u = y.detach()	# 将参数常数化
z = u * x

z.sum().backward()
x.grad == u
1
2
3
4
5
6
7
```
tensor([True, True, True, True])

后期再将一些网络参数固定住的时候，很有用
```
x.grad.zero_()
y.sum().backward()
x.grad == 2 * x
1
2
3
```
tensor([True, True, True, True])

即使构建函数的计算图需要通过 Python 控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度。
```
def f(a):
	b = a * 2
	while b.norm() < 1000:
		b = b * 2
	if b.sum() > 0:
		c = b
	else:
		c = 100 * b
	return c

a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

a.grad == d / a
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
```
tensor(True)

QA
1. 显示构造和隐式构造的区别？
  显示计算：先给公式再给值
  隐式计算：先给值再给公式
2. 为什么深度学习一般对标量求导？
  因为 Loss 大多时候就是标量。
相关阅读:
MATLAB 与 Cruise 的联合仿真
 数学建模常用模型
 基于 DSP+FPGA 的排爆机器人控制系统设计与实现
 TCP怎么实现可靠传输
 【NVMe2.0b 14-8】Set Features（下篇）
关于远程工作的面试可能存在的陷阱
 独立站SaaS建站工具：电商领域的革命性利器
 金仓数据库KingbaseES客户端编程开发框架-Activiti（3. Activiti环境配置说明）
[附源码]Python计算机毕业设计Django企业售后服务管理系统
 PytestFixture实战应用+Pytest.ini与conftest.py应用详解+Fixture及yield实现用例前置后置
原文地址：https://blog.csdn.net/qq_51491920/article/details/125474738

自动求导

自动求导

链式法则和自动求导

向量链式法则

例子1

例子2

自动求导

计算图

自动求导的两种模式

反向累积

反向累积总结

复杂度

自动求导实现

自动求导

QA