• 【PyTorch】MSELoss的详细理解(含源代码)


    给定损失函数的输入 y y y p r e d pred pred s h a p e shape shape均为 b × c b\times c b×c

    若设定loss_fn = torch.nn.MSELoss(reduction="mean"),最终的输出值其实是 ( y − p r e d ) (y - pred) (ypred)每个元素数字的平方之和除以 ( b × c ) (b\times c) (b×c),也就是在batch和特征维度上都取了平均。

    如果只想在batch上做平均,可以这样写:

    loss_fn = torch.nn.MSELoss(reduction="sum")
    loss = loss_fn(pred, y) / pred.size(0)
    
    • 1
    • 2

    一、PyTorch中MSELoss的使用

    1.1 参数

    torch.nn.MSELoss(size_average=None, reduce=None, reduction: str = "mean")
    
    • 1

    size_averagereduce在当前版本的pytorch已经不建议使用了,只设置reduction就行了。

    reduction的可选参数有:"none" 、"mean" 、"sum"

    reduction="none":求所有对应位置的差的平方,返回的仍然是一个和原来形状一样的矩阵。

    reduction="mean":求所有对应位置差的平方的均值,返回的是一个标量。

    reduction="sum":求所有对应位置差的平方的和,返回的是一个标量。

    1.2 举例

    首先假设有三个数据样本分别经过神经网络运算,得到三个输出与其标签分别是:

    y_pre = torch.Tensor([[1, 2, 3],
                          [2, 1, 3],
                          [3, 1, 2]])
    
    y_label = torch.Tensor([[1, 0, 0],
                            [0, 1, 0],
                            [0, 0, 1]])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    如果reduction=“none”:

    criterion1 = nn.MSELoss(reduction="none")
    loss1 = criterion1(x, y)
    print(loss1)
    
    • 1
    • 2
    • 3

    输出结果为:

    tensor([[0., 4., 9.],
    
    [4., 0., 9.],
    
    [9., 1., 1.]])
    
    • 1
    • 2
    • 3
    • 4
    • 5

    如果reduction=“mean”:

    criterion2 = nn.MSELoss(reduction="mean")
    loss2 = criterion2(x, y)
    print(loss2)
    
    • 1
    • 2
    • 3

    则输出:

    tensor(4.1111)
    
    • 1

    如果reduction=“sum”:

    criterion3 = nn.MSELoss(reduction="sum")
    loss3 = criterion3(x, y)
    print(loss3)
    
    • 1
    • 2
    • 3

    则输出:

    tensor(37.)
    
    • 1

    二、在反向传播时的使用

    一般在反向传播时,都是先求loss,再使用loss.backward()求loss对每个参数 w_ij和b的偏导数(也可以理解为梯度)。

    这里要注意的是,只有标量才能执行backward()函数,因此在反向传播中reduction不能设为"none"。

    但具体设置为"sum"还是"mean"都是可以的。

    若设置为"sum",则有Loss=loss_1+loss_2+loss_3,表示总的Loss由每个实例的loss_i构成,在通过Loss求梯度时,将每个loss_i的梯度也都考虑进去了。

    若设置为"mean",则相比"sum"相当于Loss变成了Loss*(1/i),这在参数更新时影响不大,因为有学习率a的存在。

  • 相关阅读:
    微信PC端有了新功能,快来看看你知不知道
    html中图片、音乐、视频标签及选择器、背景
    C#:实现计数排序算法(附完整源码)
    uniGUI之主窗口折叠UI之UniTreeMenu(32-2)
    做外贸真诚是最好的套路
    如何制作一个卡刷扩容补丁。用于扩容系统等分区 刷写第三方需要扩容才可以刷写的系统或者GSI GSI系统bug修复【二】
    基于鸽群算法优化最小二乘支持向量机lssvm实现预测附matlab代码
    解决Zotero不显示标签的问题
    数字标牌/广告机无线组网方案
    Linux服务管理--服务分类
  • 原文地址:https://blog.csdn.net/wzk4869/article/details/128011668