• 【深度学习】(问题记录)<对一个变量求梯度得到什么>-线性回归-小批量随机梯度下降


    🚩 前言

    🚀 博主主页:阿阿阿阿锋的主页_CSDN
    🚀 原文链接:原文

    看书看得感觉前言搭不上后语的时候,我常常忍不住怀疑是不是这书写得有点问题(有时甚至会在心里骂作者几句,怎么这么不小心)。然而经验和残留的理智仍然会提醒我,这大概率是我自己的问题。

    我的编程环境:Win10操作系统,python3.6

    初学不久,文章如有问题,欢迎指出。



    1. 问题和代码

    对于代码里sgd函数中的param[:] = param - lr * param.grad / batch_size这一行我一直十分困惑。

    例如代码中设置了一个小批量是10个样本,于是我觉得对参数集params求梯度时,得到每个参数的梯度应该是向量(可以理解为一个数组)类型的数据。因为对于每个参数,通过10个样本求梯度就会得到10个相应的值。

    于是我就产生了疑问,/ batch_size的目的是得到梯度的平均值,但它左边的被除数并不是一个标量(普通的单个的值),那这行代码怎么会得到我们想要的一个平均值呢?

    注:代码参考自《动手学深度学习》
    代码

    # 代码目标:训练一个线性回归模型,用小批量随机梯度下降法
    %matplotlib inline
    from IPython import display
    from matplotlib import pyplot as plt
    from mxnet import autograd, nd
    import random
    
    # 制作训练集
    num_inputs = 2
    num_examples = 1000
    true_w = [2, -3.4]
    true_b = 4.2
    features = nd.random.normal(scale=1, shape=(num_examples, num_inputs))
    labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
    labels += nd.random.normal(scale=0.01, shape=labels.shape)
    
    features[0], labels[0]
    
    def use_svg_display():
        # 用矢量图显示
        display.set_matplotlib_formats('svg')
    
    def set_figsize(figsize=(3.5, 2.5)):
        use_svg_display()
        # 设置图的尺寸
        plt.rcParams['figure.figsize'] = figsize
    
    set_figsize()
    plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1);  # 加分号只显示图(否则还会显示一行字)
    
    # 本函数已保存在d2lzh包中方便以后使用
    def data_iter(batch_size, features, labels):
        num_examples = len(features)
        indices = list(range(num_examples))
        random.shuffle(indices)  # 样本的读取顺序是随机的
        for i in range(0, num_examples, batch_size):
            j = nd.array(indices[i: min(i + batch_size, num_examples)])
            yield features.take(j), labels.take(j)  # take函数根据索引返回对应元素
            
    batch_size = 10  # 一个“小批量”的大小
    
    # 建立我们要训练的模型的参数
    w = nd.random.normal(scale=0.01, shape=(num_inputs, 1))
    b = nd.zeros(shape=(1,))
    
    w.attach_grad()
    b.attach_grad()
    
    def linreg(X, w, b):  # 我们的模型函数
        return nd.dot(X, w) + b
    
    def squared_loss(y_hat, y):  # 使用的损失函数
        return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
    
    def sgd(params, lr, batch_size):  # 用于迭代(更新)参数
        for param in params:
            param[:] = param - lr * param.grad / batch_size
    
    lr = 0.03      # 学习率
    num_epochs = 3 # 学习周期个数
    net = linreg   # 取个小名
    loss = squared_loss
    
    for epoch in range(num_epochs):  # 训练模型一共需要num_epochs个迭代周期
        # 在每一个迭代周期中,会使用训练数据集中所有样本一次(假设样本数能够被批量大小整除)。X
        # X和y分别是小批量样本的特征和标签
        for X, y in data_iter(batch_size, features, labels):
            with autograd.record():
                l = loss(net(X, w, b), y)  # l是有关小批量X和y的损失
            l.backward()  # 小批量的损失对模型参数求梯度
            sgd([w, b], lr, batch_size)  # 使用小批量随机梯度下降迭代模型参数
        train_l = loss(net(features, w, b), labels)
        print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy()))
    
    print('\nweights:')
    print(true_w, w)
    print('\nbias:')
    print(true_b, b)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75
    • 76
    • 77
    • 78

    2. 分析问题

    在胡思乱想了一阵后,我突然想到,为何不把参数param的梯度打印出来看看呢?那它是个什么情况不就一目了然!请看代码

    def sgd(params, lr, batch_size):  # 用于迭代(更新)参数
        for param in params:
            param[:] = param - lr * param.grad / batch_size
            print('\nparam.grad:')
            print(param.grad)
    
    • 1
    • 2
    • 3
    • 4
    • 5

    我仅仅在sgd函数尾部加了两行打印,那么我们再看一下效果(每处理一个小批量样本时都会调用一次该函数,看一次就够了,因为我只是想知道参数的梯度的数据类型)

    运行效果
    在这里插入图片描述
    前面的param.grad代表的是两个 权重(weight) 参数的梯度,后面的是 偏差(bias) 参数的梯度。也就是说,每个参数求得的梯度都只有一个值。

    为什么一批10个样本,得到的只有一个值呢?

    这个值是什么?其实在执行l.backward()时,等价于在执行l.sum().backward(),也就是对一批中每个样本都有一个梯度值,然后把这10个梯度值加起来,得到了参数的梯度值。所以再用/ batch_size求平均值也是一件很自然的事情。

    其实我后面不久就看到了这个解释,但因为前面我就已经蒙圈了,看到这里的时候只是蒙圈++


    🧭 总结

    种瓜得瓜,种豆得豆。
    变量是什么形状,对这个变量求得的梯度就是什么形状。

    我之所以下意识地以为得到的会是一组值而不是一个值,是因为前面看了个对矩阵求梯度的例子,得到的是一组值(一个矩阵)。然后看到这里就混淆了,这里我们求梯度的每个参数对象是一个单个的值,只是数据样本有多个。

    对矩阵(向量)求梯度求得梯度是个矩阵(向量)
    对一个标量求梯度求得梯度是个标量

    我还有一个感受就是,作为一个之前惯用C/C++程序员,python变量数据类型的这种灵活性真的让我非常、非常的不适应,我多次因此而蒙圈了,呜。

  • 相关阅读:
    ubuntu22.04安装Kubernetes1.25.0(k8s1.25.0)高可用集群
    基于HTML语言的环保网站的设计与实现 前后端分离 Java毕业设计·文档报告·代码讲解·安装调试
    某次 ctf Mobile 0x01 解题过程
    全网最牛批的java八股面试文(针对秋招)堪称2022最强
    数据治理的改造系统
    部署Kubernetes 集群
    React TreeSelect设置默认展开项的方法
    【云原生之Docker实战】使用Docker部署planka项目管理工具
    【论文 01】《Attention is all you need》
    MFC 窗体插入图片
  • 原文地址:https://blog.csdn.net/m0_63238256/article/details/126044509