• 神经网络 05(损失函数)


    一、损失函数

    深度学习中, 损失函数是用来衡量模型参数的质量的函数, 衡量的方式是比较网络输出和真实输出的差异,损失函数在不同的文献中名称是不一样的,主要有以下几种命名方式:

    损失函数 (loss function)
    代价函数(cost function)
    目标函数(objective function)
    误差函数(error function) 

    二、分类任务

    在深度学习的分类任务中使用最多的是 交叉熵损失函数

    2.1 多分类任务

    在多分类任务通常使用softmax将logits转换为概率的形式,所以多分类的交叉熵损失也叫做softmax损失,它的计算方法是:

    其中,y 是样本 x 属于某一个类别的真实概率(onehot编码,0或者1),而 f(x) 是样本属于某一类别的预测分数,S 是 softmax 函数,L 用来衡量 p,q 之间差异性的损失结果。

    举例:

    从概率角度理解,我们的目的是最小化正确类别所对应的预测概率的对数的负值,如下图所示:

    在tf.keras中使用CategoricalCrossentropy实现,如下所示:

    1. # 导入相应的包
    2. import tensorflow as tf
    3. # 设置真实值和预测值
    4. y_true = [[0, 1, 0], [0, 0, 1]]
    5. y_pred = [[0.05, 0.95, 0], [0.1, 0.8, 0.1]]# 两个交叉熵求平均值
    6. # 实例化交叉熵损失
    7. cce = tf.keras.losses.CategoricalCrossentropy()
    8. # 计算损失结果
    9. print(cce(y_true, y_pred).numpy()) # 1.176939

    2.2 二分类任务

    在处理二分类任务时,我们不再使用 softmax 激活函数,而是使用 sigmoid 激活函数,那损失函数也相应的进行调整,使用二分类的交叉熵损失函数

    跟逻辑回归的损失函数是一样的

    其中,y是样本x属于某一个类别的真实概率,而y^是样本属于某一类别的预测概率,L用来衡量真实值与预测值之间差异性的损失结果。

    在 tf.keras 中实现时使用 BinaryCrossentropy(),如下所示:

    1. # 导入相应的包
    2. import tensorflow as tf
    3. # 设置真实值和预测值
    4. y_true = [[0], [1]]
    5. y_pred = [[0.4], [0.6]]
    6. # 实例化二分类交叉熵损失
    7. bce = tf.keras.losses.BinaryCrossentropy() # 两个交叉熵求平均值
    8. # 计算损失结果
    9. print(bce(y_true, y_pred).numpy()) # 0.5108254

    三、回归任务

    3.1 MAE损失

    Mean absolute loss(MAE)也被称为 L1 Loss,是以绝对误差作为距离:

    特点是:

    由于 L1 loss 具有稀疏性,为了惩罚较大的值,因此常常 将其作为正则项添加到其他 loss中作为约束

    L1 loss 的最大问题是梯度在零点不平滑(不可导),导致会跳过极小值。

    在 tf.keras 中使用MeanAbsoluteError 实现,如下所示:

    1. # 导入相应的包
    2. import tensorflow as tf
    3. # 设置真实值和预测值
    4. y_true = [[0.], [0.]]
    5. y_pred = [[1.], [1.]]
    6. # 实例化MAE损失
    7. mae = tf.keras.losses.MeanAbsoluteError()
    8. # 计算损失结果
    9. print(mae(y_true, y_pred).numpy()) # 1.0

    3.2 MSE损失

     Mean Squared Loss/ Quadratic Loss(MSE loss) 也被称为 L2 loss,或欧氏距离,它以误差的平方和作为距离

    特点是:L2 loss 也常常作为正则项。当预测值与目标值相差很大时, 梯度容易爆炸

    在 tf.keras 中通过 MeanSquaredError 实现:

    1. # 导入相应的包
    2. import tensorflow as tf
    3. # 设置真实值和预测值
    4. y_true = [[0.], [1.]]
    5. y_pred = [[1.], [1.]]
    6. # 实例化MSE损失
    7. mse = tf.keras.losses.MeanSquaredError()
    8. # 计算损失结果
    9. print(mse(y_true, y_pred).numpy()) # 0.5

    3.3 smooth L1 损失

    其中:𝑥=f(x)−y 为真实值和预测值的差值

    从上图中可以看出,该函数实际上就是一个分段函数,在[-1,1]之间实际上就是L2损失,这样解决了L1的不光滑问题,在[-1,1]区间外,实际上就是L1损失,这样就解决了离群点梯度爆炸的问题。通常在目标检测中使用该损失函数。

    在 tf.keras 中使用 Huber 计算该损失,如下所示:

    1. # 导入相应的包
    2. import tensorflow as tf
    3. # 设置真实值和预测值
    4. y_true = [[0], [1]]
    5. y_pred = [[0.6], [0.4]]
    6. # 实例化smooth L1损失
    7. h = tf.keras.losses.Huber()
    8. # 计算损失结果
    9. h(y_true, y_pred).numpy() # 0.18

  • 相关阅读:
    时序分解 | MATLAB实现北方苍鹰优化算法NGO优化VMD信号分量可视化
    java中volatile解决可见性和有序性问题
    CentOs7.6使用yum命令安装mysql8.0
    LVGL V8.3 使用lvgl文件系统读取SD卡内容基于Arduino
    Three.js之模型对象、材质
    广通远驰亮相2022 C-V2X“四跨”(苏州)应用示范活动
    SpringBoot进阶教程(七十三)整合elasticsearch
    Git 如何去使用
    如何选择?IonQ创始人畅谈本地与云量子计算
    深入了解 RabbitMQ:高性能消息中间件
  • 原文地址:https://blog.csdn.net/peng_258/article/details/132834863