【目标检测】52、YOLOP | 一次就能完成全景驾驶的三大任务

在这里插入图片描述

作者：华中科大王兴刚团队

时间：2022.03

贡献：

提出了一个高效的多任务网络，能够同时解决自动驾驶中的三个问题：目标检测、可通行区域分割、车道线检测，利于降低计算量并加速推理，首个在 BDD100K 上实现实时且 SOTA 的网络
在消融实验中证明了联合学习的效果，也证明了 grid-based 方法比 region-based 方法更适合检测+分割的多任务学习

全景自动驾驶感知系统在自动驾驶系统中非常重要，可以帮助车辆做出正确的决策。

全景驾驶感知系统的两个重要的要求，也是挑战，分别是：

但全景驾驶面临的最大的难点在于：系统需要部署到边端设备上，需要优先考虑其有限的计算资源

还有一个隐藏的信息：全景驾驶系统虽然有多个任务，但这些任务面对的对象都是有一定的关联的。车道线通常是可通行区域的边界，可通行区域一般紧密的环绕在车辆等的周围，所以多任务网络非常适合解决这类问题：

基于上述讨论，提出了 panoptic driving perception network（YOLOP），是一个支持多任务学习的全景感知网络，能够同时支持目标检测、可通行区域识别、车道线检测任务。

YOLOP 的构成：

在这里插入图片描述

在这里插入图片描述

1、Backbone：使用 CSP-Darknet 作为 backbone（YOLOv4 中的）

2、Neck：SPP + FPN，SPP 生成并结合各个不同尺度的特征，FPN 结合各个不同语义尺度的特征，让组合后的特征包含多尺度和多语义层级的信息。

1、Detect Head

和 YOLOv4 类似，使用 anchor-based multi-scale 检测方式：

首先，使用 PAN-FPN 结合的方式，FPN 是 top-down 的方式来传递语义特征，PAN 是 bottom-up 的方式来传递位置特征，两者结合能够让特征更好的融合，然后直接将 PAN 中的特征进行多尺度特征融合，用于检测。
然后，所有尺度的特征图中的每个 grid，都会被分配 3 个不同纵横比的 anchor，然后检测头回预测其位置偏移和宽高、类别得分。

2、Drivable Area Segmentation Head and Lane Line Segmentation Head

这两个头使用的是相同的网络结构，输入 FPN 的最后一层给分割分支，大小为 (W/8, H/8, 256)。

上采样 3 次后，最终的输出为 (W, H, 2)，2 是分割类别：前景（可通行区域和车道线）+ 背景

3、Loss

由于有三个 decoder，所以也需要三部分的 loss 函数

① 检测任务的 loss： $L_{det}$

在这里插入图片描述