【深度学习】(问题记录)＜对一个变量求梯度得到什么＞-线性回归-小批量随机梯度下降

🚩 前言

🚀 博主主页：阿阿阿阿锋的主页_CSDN
🚀 原文链接：原文

看书看得感觉前言搭不上后语的时候，我常常忍不住怀疑是不是这书写得有点问题（有时甚至会在心里骂作者几句，怎么这么不小心）。然而经验和残留的理智仍然会提醒我，这大概率是我自己的问题。

我的编程环境：Win10操作系统，python3.6

初学不久，文章如有问题，欢迎指出。

文章目录

🚩 前言
1. 问题和代码
2. 分析问题
🧭 总结

1. 问题和代码

对于代码里sgd函数中的param[:] = param - lr * param.grad / batch_size这一行我一直十分困惑。

例如代码中设置了一个小批量是10个样本，于是我觉得对参数集params求梯度时，得到每个参数的梯度应该是向量（可以理解为一个数组）类型的数据。因为对于每个参数，通过10个样本求梯度就会得到10个相应的值。

于是我就产生了疑问，/ batch_size的目的是得到梯度的平均值，但它左边的被除数并不是一个标量（普通的单个的值），那这行代码怎么会得到我们想要的一个平均值呢？

注：代码参考自《动手学深度学习》
代码：

# 代码目标：训练一个线性回归模型，用小批量随机梯度下降法
%matplotlib inline
from IPython import display
from matplotlib import pyplot as plt
from mxnet import autograd, nd
import random

# 制作训练集
num_inputs = 2
num_examples = 1000
true_w = [2, -3.4]
true_b = 4.2
features = nd.random.normal(scale=1, shape=(num_examples, num_inputs))
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)

features[0], labels[0]

def use_svg_display():
    # 用矢量图显示
    display.set_matplotlib_formats('svg')

def set_figsize(figsize=(3.5, 2.5)):
    use_svg_display()
    # 设置图的尺寸
    plt.rcParams['figure.figsize'] = figsize

set_figsize()
plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1);  # 加分号只显示图（否则还会显示一行字）

# 本函数已保存在d2lzh包中方便以后使用
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    random.shuffle(indices)  # 样本的读取顺序是随机的
    for i in range(0, num_examples, batch_size):
        j = nd.array(indices[i: min(i + batch_size, num_examples)])
        yield features.take(j), labels.take(j)  # take函数根据索引返回对应元素
        
batch_size = 10  # 一个“小批量”的大小

# 建立我们要训练的模型的参数
w = nd.random.normal(scale=0.01, shape=(num_inputs, 1))
b = nd.zeros(shape=(1,))

w.attach_grad()
b.attach_grad()

def linreg(X, w, b):  # 我们的模型函数
    return nd.dot(X, w) + b

def squared_loss(y_hat, y):  # 使用的损失函数
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2

def sgd(params, lr, batch_size):  # 用于迭代（更新）参数
    for param in params:
        param[:] = param - lr * param.grad / batch_size

lr = 0.03      # 学习率
num_epochs = 3 # 学习周期个数
net = linreg   # 取个小名
loss = squared_loss

for epoch in range(num_epochs):  # 训练模型一共需要num_epochs个迭代周期
    # 在每一个迭代周期中，会使用训练数据集中所有样本一次（假设样本数能够被批量大小整除）。X
    # X和y分别是小批量样本的特征和标签
    for X, y in data_iter(batch_size, features, labels):
        with autograd.record():
            l = loss(net(X, w, b), y)  # l是有关小批量X和y的损失
        l.backward()  # 小批量的损失对模型参数求梯度
        sgd([w, b], lr, batch_size)  # 使用小批量随机梯度下降迭代模型参数
    train_l = loss(net(features, w, b), labels)
    print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy()))

print('\nweights:')
print(true_w, w)
print('\nbias:')
print(true_b, b)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78

2. 分析问题

在胡思乱想了一阵后，我突然想到，为何不把参数param的梯度打印出来看看呢？那它是个什么情况不就一目了然！请看代码：

def sgd(params, lr, batch_size):  # 用于迭代（更新）参数
    for param in params:
        param[:] = param - lr * param.grad / batch_size
        print('\nparam.grad:')
        print(param.grad)
1
2
3
4
5

我仅仅在sgd函数尾部加了两行打印，那么我们再看一下效果（每处理一个小批量样本时都会调用一次该函数，看一次就够了，因为我只是想知道参数的梯度的数据类型）

运行效果：
在这里插入图片描述
前面的param.grad代表的是两个 权重(weight) 参数的梯度，后面的是 偏差(bias) 参数的梯度。也就是说，每个参数求得的梯度都只有一个值。

为什么一批10个样本，得到的只有一个值呢？

这个值是什么？其实在执行l.backward()时，等价于在执行l.sum().backward()，也就是对一批中每个样本都有一个梯度值，然后把这10个梯度值加起来，得到了参数的梯度值。所以再用/ batch_size求平均值也是一件很自然的事情。

其实我后面不久就看到了这个解释，但因为前面我就已经蒙圈了，看到这里的时候只是蒙圈++

🧭 总结

种瓜得瓜，种豆得豆。
变量是什么形状，对这个变量求得的梯度就是什么形状。

我之所以下意识地以为得到的会是一组值而不是一个值，是因为前面看了个对矩阵求梯度的例子，得到的是一组值（一个矩阵）。然后看到这里就混淆了，这里我们求梯度的每个参数对象是一个单个的值，只是数据样本有多个。

对矩阵（向量）求梯度	求得梯度是个矩阵（向量）
对一个标量求梯度	求得梯度是个标量

我还有一个感受就是，作为一个之前惯用C/C++程序员，python变量数据类型的这种灵活性真的让我非常、非常的不适应，我多次因此而蒙圈了，呜。

相关阅读:
ubuntu22.04安装Kubernetes1.25.0(k8s1.25.0)高可用集群
 基于HTML语言的环保网站的设计与实现前后端分离 Java毕业设计·文档报告·代码讲解·安装调试
 某次 ctf Mobile 0x01 解题过程
 全网最牛批的java八股面试文（针对秋招）堪称2022最强
 数据治理的改造系统
 部署Kubernetes 集群
 React TreeSelect设置默认展开项的方法
 【云原生之Docker实战】使用Docker部署planka项目管理工具
 【论文 01】《Attention is all you need》
MFC 窗体插入图片
原文地址：https://blog.csdn.net/m0_63238256/article/details/126044509