【目标检测】Generalized Focal Loss V1

文章目录

论文： https://arxiv.org/pdf/2006.04388.pdf

代码：https://github.com/open-mmlab/mmdetection/tree/master/configs/gfl

出处：NIPS2020

核心点：

提出了对边界框位置的 generalize 分布的建模（越清晰的边界学习会越好，分布会比较尖锐，越模糊的边界学习会较差，分布平缓）

一、背景

One-stage 目标检测器基本上是将目标检测建模成了一个密集分类和定位的任务。

分类任务一般使用 Focal Loss 来进行优化，定位任务一般是学习 Dirac delta 分布。

如 FCOS 中就提出了一个估计定位质量的量：IoU score 或 centerness score，然后 NMS 排序的时候，将分类得分和框质量得分相乘。

当前的 One-stage 目标检测器一般都是引入一个单独的预测分支来量化定位效果，定位的预测效果有助于分类，从而提高检测性能。

本文提出了三个基础元素：

检测框的质量估计（如 IoU score 或 FCOS 的 centerness score）
分类
定位

目前的实现中有两个主要的问题：

1、分类得分和框质量估计在训练和测试时候不一致

在这里插入图片描述

用法不一致：分类和质量估计，在训练过程是分开的，但在测试过程是乘在一起，作为 NMS score 排序的依据，存在一定的 gap
对象不一致：借助 Focal Loss 的力量，分类分支能够使得少量的正样本和大量的负样本一起训练，但框的质量估计其实是只针对正样本训练的。

对于 one-stage 检测器，做 NMS 排序的时候，所有的样本都会将分类得分和框质量得分相乘，来用于排序，所以必然会存在一部分分数较低的负样本的质量预测在训练过程中没有监督信号，也就是对大量的负样本的质量没有衡量。这就会导致一个分类得分很低的负样本，由于预测了一个极高的框质量得分，导致被预测为一个正样本。

2、bbox regression 的表示不够灵活（Dirac delta 分布不灵活），没有办法建模复杂场景下的 uncertainty

在复杂场景中，边界框的表示具有很强的不确定性，而现有的框回归本质都是建模了非常单一的狄拉克分布，非常不灵活。所以作者希望用一种 general 的分布去建模边界框的表示。问题如图 3 所示（比如被水模糊掉的滑板，以及严重遮挡的大象）：

在这里插入图片描述

二、方法

针对现存的两个问题：

① 训练和测试不一致

② 框位置分布建模不够通用

作者提出了下面的解决方案。

解决问题一：建立一个 classification-IoU joint representation

对于第一个训练和测试不一致的问题，为了保证训练和测试一致，同时还能兼顾分类和框质量预测都能训练到所有的正负样本，作者提出将框的表达和分类得分结合起来使用。

方法：

当预测的类别为 ground-truth 类别的时候，使用位置质量的 score 作为置信度，本文的位置质量得分就是使用 IoU 得分来衡量。

在这里插入图片描述

解决问题二：直接回归一个任意分布来建模框的表示

方法：使用 softmax 来实现，涉及到从狄拉克分布的积分形式推导到一般分布的积分形式来表示框

这样一来，就消除了训练和测试的不一致性，而且建立了如图 2b 的分类和定位的强相关性。

此外，负样本可以使用 0 quality scores 来监督。

在这里插入图片描述
Generalized Focal Loss 的构成：

QFL：Quality Focal Loss，学习分类得分和位置得分的联合表达
DFL：Distribution Focal Loss，将框的位置建模成一个 general distribution，让网络快速的聚焦于和目标位置距离近的位置的分布

Generalized Focal Loss 是如何提出的：

① 原始 FL：

现在的密集预测任务，一般都使用 Focal Loss 来进行分类分支的优化，可以解决前景、背景数量不平衡等问题，其公式如下所示，但也只能支持 0/1 这样的离散类别 label。

在这里插入图片描述

**① 提出 QFL：Quality Focal Loss **

标准的 one-hot 编码是在对应真实类别处为 1，其他位置为 0。

使用 classification-IoU 特征，能够将标准的 one-hot 编码柔化，使其更 soft，学习的目标 $y\in[0,1]$ ，而非直接学习目标 “1”。

对于本文提出了联合表示，label 变成了 0~1 的连续值。FL 不再适用。

y=0 时，也就是负样本，quality score 为 0
0

在这里插入图片描述

为了保证 QFL 有 Focal Loss 的平衡难易样本、正负样本的能力，又能支持连续值的监督，需要对 FL 进行一些扩展。

交叉熵 $log(p_t)$ 的扩展： $-((1-y)log(1-\sigma) + ylog(\sigma))$
调制因子 $(1-p_t)^\gamma$ 的扩展： $|y-\sigma|^\beta (\beta >=0)$

Quality Focal Loss（QFL）最终为：

在这里插入图片描述

$\sigma = y$ 是 QFL 的全局最小化解
图 5a 展示了不同 $\beta$ 的效果（y=0.5）
$\|y-\sigma\|^\beta$ 是一个调制因子，当一个样本的 quality 估计不准确时，该调制因子会很大，让网络更关注于该难样本，当quality 的估计趋于准确时，即 $\sigma$ → $y$ 时，该调制因子会趋于 0，该样本对 loss 的影响权重会降低。 $\beta$ 控制着减低的过程，本文 $\beta=2$ 最优。