【目标检测】SSD损失函数详解

文章目录

定位损失 $L_{loc}$
- 偏移值的计算
- smooth L1 loss
置信率损失 $L_{conf}$

最近看看这个古早的目标检测网络，看了好多文章，感觉对损失函数的部分讲得都是不很清楚得样子，所以自己捋一下。

首先，SSD 得损失函数由两部分得加权和，一部分是定位损失 $L_{loc}$ ，另一部分是分类置信率损失 $L_{conf}$ 。公式一般写成： $\frac{1}{N}\left( L_{conf}(x, c) + \alpha L_{loc}(x, l, g) \right)$ 总结来说，定位损失 $L_{loc}$ 是使用 smooth L1 loss 来计算的，而分类置信率损失 $L_{conf}$ 是通过 softmax loss 来计算的。

定位损失 $L_{loc}$

接下来就分开讲讲两部分，首先是定位损失 $L_{loc}$ ，它的公式可以写成： $L_{loc}(x, l, g) = \sum_{i \in Pos}^{N} \sum_{m \in \left\{ cx, cy, w, h \right\}} x_{ij}^p \cdot \mathbf{smooth_{L1}}(l_i^m - \hat{g}_j^m)$ 下昂西介绍一下里面的各种参数的含义：

$\in Pos$ ：第一个求和下的 $P os$ 是一个集合，我们知道在训练的时候，会根据 IOU（SSD 里好像是大于 0.5）对 Default box（其实和 anchor 的含义一样）与 Ground truth box（后面统称 gt box）进行匹配，如果第 $i$ 个 default box 与第 $j$ 个 gt box 匹配上了，那么这个 default box $i$ 就会被放入 $P os$ 的集合中，表示 positive，也就是被标记成了正样本。
$N$ ：是正样本集合 $P os$ 的总数，表示有 $N$ 个 default box 与 gt box 匹配上了。
$\in \left\{ cx, cy, w, h \right\}$ ：这四个值是 anchor 的位置参数，表示中心点的坐标和 anchor 的尺寸。
$x_{ij}^p$ ：可以理解为唯一标识 flag，如果 default box $i$ 与 gt box $j$ 是匹配的，gt box 的类别是 $p$ ，则为1，否则 0。
$l_i^m$ ：是预测值，也就是 bounding box 与 default box 的偏移值，不是真实的坐标，具体的转换在下面给出。
$\hat{g}_j^m$ ：是真实值，是 gt box 与 default box 的偏移值。

偏移值的计算

回到前面提到的偏移值，如果 default box $i$ 的位置参数是 ${ d_i^{cx}, d_i^{cy}, d_i^{w}, d_i^{h} \}$ ，gt box $j$ 的位置参数是 ${ g_j^{cx}, g_j^{cy}, g_j^{w}, g_j^{h} \}$ ，我们就可以算出真实值对应的偏移量 $\{ \hat{g}_j^{cx}, \hat{g}_j^{cy}, \hat{g}_j^{w}, \hat{g}_j^{h} \}$ ：

\begin{aligned} {\hat{g}}_{j}^{c x} = \frac{(g_{j}^{c x} - d_{i}^{c x})}{d_{i}^{w}} & {\hat{g}}_{j}^{w} = \log (\frac{g_{j}^{w}}{d_{i}^{w}}) \\ {\hat{g}}_{j}^{c y} = \frac{(g_{j}^{c y} - d_{i}^{c y})}{d_{i}^{h}} & {\hat{g}}_{j}^{h} = \log (\frac{g_{j}^{h}}{d_{i}^{h}}) \end{aligned}

\overset{g}{^}_{j}^{c x} = \frac{( g _{j}^{c x} - d _{i}^{c x} )}{d _{i}^{w}} \overset{g}{^}_{j}^{cy} = \frac{( g _{j}^{cy} - d _{i}^{cy} )}{d _{i}^{h}} \overset{g}{^}_{j}^{w} = lo g (\frac{g _{j}^{w}}{d _{i}^{w}}) \overset{g}{^}_{j}^{h} = lo g (\frac{g _{j}^{h}}{d _{i}^{h}})

同理，我们也可以通过预测得到的 bounding box 参数

{b_i^{cx}, b_i^{cy}, b_i^{w}, b_i^{h} \}

，来计算得到 bounding box 的偏移量，也就是预测值

l

。

\begin{aligned} l_{i}^{c x} = \frac{(b_{i}^{c x} - d_{i}^{c x})}{d_{i}^{w}} & l_{i}^{w} = \log (\frac{b_{i}^{w}}{d_{i}^{w}}) \\ l_{i}^{c y} = \frac{(b_{i}^{c y} - d_{i}^{c y})}{d_{i}^{h}} & l_{i}^{h} = \log (\frac{b_{i}^{h}}{d_{i}^{h}}) \end{aligned}

中心点的偏移量计算是很好理解的，为什么宽高的偏移量要用 log 函数来算呢？

smooth L1 loss

SSD 是用到 smooth L1 loss 来计算真实值与预测值之间的差异： $\mathbf{smooth_{L1}}(x) =$

{\begin{cases} 0.5 x^{2} & if | x | < 1 \\ | x | - 0.5 & otherwise \end{cases}

smoot h_{L1} (x) = {0.5 x^{2} ∣ x ∣ - 0.5 if ∣ x ∣ < 1 otherwise

这篇文章我觉得解释得挺清晰的，比较了 L1 loss， L2 loss 和 smooth L1 loss 三者之间的优劣。也提到了 loc loss 的演进。

bounding box 回归损失函数，也就是用于定位边界框的损失函数，其演进线路如下：

我记得 YOLOv1 的损失函数，在计算位置损失的时候，还是使用的欧式距离，也就是所谓的 L2 loss。

L1 loss 是求两个数之间的绝对值距离，导数是常数（小于 0 则为 -1，大于等于 0 则为 1），在零点处是不平滑的；

L2 loss 是两个数之间差的平方，导数是 $2 x$ （也可以看出，受到 $x$ 的影响很大），但是在零点处是平滑的。多个 L2 loss 求和再平均也叫做 MSE loss （Mean Square Error）。

而我们的主角 smooth L1 loss，如名字所见，是平滑版的 L1 loss，导数为： $\frac{ \mathrm{d} \space \mathbf{smooth_{L1}}(x)}{\mathrm{d}x} =$

{\begin{cases} x & if | x | < 1 \\ \pm 1 & otherwise \end{cases}

\frac{d smoot h _{L1} ( x )}{d x} = {x \pm 1 if ∣ x ∣ < 1 otherwise

在零点附近都是平滑的，而且在其它区间都是常数，也不会出现 L2 loss 随着

x

的增大而在损失函数中占据主导地位。

置信率损失 $L_{conf}$

下面就讲一下分类的置信率损失 $L_{conf}$ ，完整的公式如下： $L_{conf}(x, c) = - \sum_{i \in Pos}^N x_{ij}^p\log{\hat{c}_i^p} - \sum_{i\in Neg} \log{\hat{c}_i^0} \space\space\space\space \text{where} \space\space\space\space \hat{c}_i^p=\frac{\exp{(c_i^p)}}{\sum_p \exp{(c_i^p)}}$ ，从公式的形态，可以看出来是二元交叉熵。没错，其实 softmax loss 就相当于交叉熵和 softmax 的组合，先看看最后的 softmax 公式： $\hat{c}_i^p=\frac{\exp{(c_i^p)}}{\sum_p \exp{(c_i^p)}}$

$c_i^p$ ：对于分类的部分，一般网络的全连接层会输出 $P$ 个类别的向量，在 SSD 因为要考虑背景（背景是分类 0），这个长度为 $P + 1$ 的向量经过 softmax 之后，所有值的和会被限制为 1。其中置信率最大的值即是 $c_i^p$ （目前这个值还没经过归一化），这表示 anchor $i$ 是的类别是 $p$ 的可能性最大。
$\hat{c}_i^p$ ：是通过对 $c_i^p$ 进行 softmax 而得到的，表示 anchor $i$ 是分类 $p$ 的概率，值是位于 0~1 之间的。

然后就是主公式的各个参数的具体含义：

$x_{ij}^p$ ：含义同上面位置损失提到的，如果 anchor $i$ 与 gt box $j$ 是匹配的，gt box 的类别是 $p$ ，则为1，否则 0。
$\hat{c}_i^0$ ：就是背景的分类概率（负样本）。

其实这个公式也没什么难理解的。

大致就是这么多了，如果大家有什么不清楚的地方或者是文章哪里写错了，欢迎评论留言。

相关阅读:
2024年天津财经大学珠江学院专升本预计新增金融学招生专业
分布式.BASE理论
C++11
协程知识点总结
vue PWA serviceWorker 有新内容时，如何自动刷新内容
数据可观察性可以解决的三个数据问题
第二章 Caché 服务器页面简介 - 你应该知道
本地部署企业邮箱，让企业办公更安全高效
alibaba.fastjson的使用（二）-- jar包导入
面试编程题

原文地址：https://blog.csdn.net/Jiangnan_Cai/article/details/134186636