• 【图像分类损失】Encouraging Loss:一个反直觉的分类损失


    论文题目:《Well-classified Examples are Underestimated in Classification with Deep Neural Networks》
    论文地址:https://arxiv.org/pdf/2110.06537.pdf

    1.背景

           深度分类模型背后的一般常识是专注于分类错误的样本,而忽略远离决策边界的分类良好的样本。例如,在使用交叉熵损失进行训练时,具有较高可能性的样本(即分类良好的样本)在反向传播中贡献较小的梯度。然而,我们从理论上表明,这种常见做法阻碍了representation learning、energy optimization和margin growth。为了弥补这一缺陷,我们建议用additive bonuses来奖励分类良好的示例,以恢复它们对学习过程的贡献。这个反例从理论上解决了这三个问题。我们通过在不同任务(包括图像分类、图形分类和机器翻译)直接验证这一观点。此外,本文表明我们可以处理复杂的场景,例如不平衡分类、OOD检测和对抗性攻击下的应用。

    CELoss的三个局限性:

    1)Normalization function brings a gradient vanishing problem to CE loss and hinders the representation learning.(归一化函数给 CE 损失带来梯度消失问题并阻碍表征学习)
           最近对不平衡学习的研究表明,对分类相对较好的数据丰富类的学习进行down-weighting会严重损害表征学习(Kang et al. 2020; Zhou et al. 2020)。这些研究启发我们反思在样本层面是否也是这种情况,我们验证了对分类良好的样本的学习降低权重也会降低性能(表3)
    在这里插入图片描述

    2)CE loss has insufficient power in reducing the energy on the data manifold.(CE loss在降低数据流行上的能量方面没有足够的力量)
           Energy-Based模型 (EBM) (LeCun et al. 2006),a sharper energy surface is desired。但是,我们发现energy surface trained with CE loss is not sharp,如图 1 所示。可能的原因是CE loss只要低于负例的energy,就没有足够的energy来push down正例的energy。我们在图 5 中的验证表明,对分类良好的样本进行加权会返回a sharper surface。
    在这里插入图片描述
    3)CE loss is not effective in enlarging margins.(CE loss在增大margin方面是无效的)
           关于分类,公认建立具有大margin的分类模型会导致良好的泛化性(Bartlett 1997;Jiang et al. 2019)和良好的鲁棒性(Elsayed et al. 2018;Matyasko and Chau 2017; Wu and Yu 2019),但我们发现带有 CE 损失的学习会导致更小的margin(如图 1 所示)。原因可能是进一步扩大margin的动机是有限的,因为分类良好的样本不太优化。我们在图 6 和图 7 中的结果表明,对分类样本进行加权会扩大margin并有助于提高对抗性的鲁棒性。
    在这里插入图片描述

    2. Encouraging Loss

    在这里插入图片描述       如图 2 所示,EL= CE loss + 额外损失(bonus),当 p 变高时,损失再次变得更steeper。normal bonus是 CE 损失的镜像翻转:bonus = log(1 - p),我们将对数中的值限制为一个小 epsilon(例如 1e-5)以避免数值不稳定。normal bonus的EL如下:
    在这里插入图片描述
           我们将其命名为Encouraging Loss,因为它通过奖励这些接近正确的预测来鼓励模型给出更准确的预测。只要额外的奖励是凹的,它对于较大 p 的steepness就更大,这表明具有该奖励的 EL 比 CE 损失更关注分类良好的示例。
    在这里插入图片描述
           为了使EL的梯度更接近CE以适应现有的优化系统,并研究与其他样本相比,分类良好样本学习的相对重要性。我们可以调整额外bonus的相对steepness。我们设计了许多类型的conservative bonus,它们接近正常bonus,但更保守,并在图 3 中显示。这些变体的log curve Ends(EL)在高似然区域的早期,并将log曲线替换为endpoint。对分类良好的样本在EL通过这些奖励进行优化的相对重要性大于 CE,并且从右到左逐渐增加。
    在这里插入图片描述
           bonus可以设计的比normal bonus更aggressive。

    3. 实验结果

    在这里插入图片描述

  • 相关阅读:
    SSM框架学习——Spring之容器
    使用 snappyjs 压缩数据并解压
    如何跟踪网络路由链路&检测网络健康状况
    linux安装Ftp
    如何批量旋转图片?学会这三种方法就能轻松实现
    Java 完全自学手册,从外包到大厂,再到年薪 100 万技术大佬都靠它
    工厂模式:简化对象创建的设计思想 (设计模式 四)
    JAVA面经整理(4)
    【python】python制作 连连看 游戏脚本(四)
    HTML5期末考核大作业:基于Html+Css+javascript的网页制作(化妆品公司网站制作)
  • 原文地址:https://blog.csdn.net/Roaddd/article/details/128167937