BEVFormer 论文阅读

论文链接

BEVFormer

BEVFormer，这是一个将Transformer和时间结构应用于自动驾驶的范式，用于从多相机输入中生成鸟瞰（BEV）特征
利用查询来查找空间/时间，并相应地聚合时空信息，从而为感知任务提供更强的表示

0. Abstract

BEVFormer，通过时空转换器学习统一的BEV表示，以支持多个自动驾驶感知任务
过预定义的网格状BEV查询与空间和时间空间相互作用，以利用空间和时间信息
为了聚合空间信息，设计了空间交叉注意力，每个BEV查询从不同摄像机视图中提取感兴趣区域的空间特征
对于时间信息，提出了时间自注意力，以循环地融合历史BEV信息

1. Abstract

相比于基于激光雷达的对应方法，摄像头拥有能够检测远距离物体和识别基于视觉的道路元素（例如，交通信号灯、停车线）的优势
基于单目框架和跨摄像头后处理的方法性能和效率较低
作为单目框架的替代方案，更统一的框架是从多摄像头图像中提取整体表示
- 鸟瞰图（BEV）是周围场景的常用表示，清楚地呈现了物体的位置和规模
- BEV 是连接时空空间的理想桥梁，利用 BEV 特征循环传递从过去到现在的时间信息，与 RNN 异曲同工
BEVFormer 包含三个关键设计
- 网格状 BEV 查询，通过注意力机制灵活地融合空间和时间特征
- 空间交叉注意力模块，聚合来自多个维度的空间特征
- 时间自注意力模块，用于从历史 BEV 特征中提取时间信息

该模型可以与不同的特定任务头，进行端到端 3D 对象检测和地图分割

本文的主要贡献

提出了 BEVFormer，**一种时空转换器编码器，**可将多摄像机和/或时间戳输入投射到 BEV 表示中。凭借统一的 BEV 特征，可以同时支持多个自动驾驶感知任务，包括 3D 检测和地图分割
设计了可学习的 BEV 查询以及空间交叉注意层和时间自注意层，分别从跨摄像机查找空间特征和从历史 BEV 查找时间特征，然后将它们聚合成统一的 BEV 特征
在多个具有挑战性的基准上评估了所提出的 BEVFormer。始终实现了改进的性能

2. Related Work

2.1 Transformer-based 2D perception

DETR 使用一组对象查询直接由交叉注意力解码器生成检测结果，但训练时间长
Deformable DETR 可变形注意力与局部感兴趣区域交互，仅对每个参考点附近的 K 个点进行采样并计算注意力结果，效率很高并显着缩短了训练时间

2.2 Camera-based 3D Perception

经典方案

基于 2D 边界框预测 3D 边界框
将图像特征转换为 BEV 特征，并从自上而下的视图预测 3D 边界框
利用深度估计或分类深度分布中的深度信息将图像特征转换为 BEV 特征

**多相机生成 BEV **

通过逆透视映射 (IPM) 将透视图转换为 BEV
根据深度分布生成 BEV 特征
通过堆叠来自多个时间戳的BEV特征来考虑时间信息

3. BEVFormer

提出了一种新的基于 Transformer 的 BEV 生成框架，它可以通过注意力机制有效聚合来自多视图相机的时空特征和历史 BEV 特征

3.1 Overall Architecture

BEVFormer 有 6 个编码器层，每个编码器层都遵循 Transformer 的传统结构
除此之外有三种定制设计，即 BEV 查询、空间交叉注意力和时间自注意力
- BEV 查询：网格状的可学习参数，旨在通过注意机制从多摄像机视图查询 BEV 空间中的特征
- 空间交叉注意力和时间自注意力：与 BEV 查询一起使用的注意力层，用于根据 BEV 查询查找和聚合多摄像机图像中的空间特征以及历史 BEV 中的时间特征

在这里插入图片描述

3.2 BEV Queries

预先定义一组网格状的可学习参数 $\mathbb{R}^{H×W×C}$ 作为 BEVFormer 的查询，其中 H、W 是 BEV 平面的空间形状
位于 Q 的 $p = (x, y)$ 处的查询 $Q_p ∈ \mathbb{R}^{1×C}$ 负责 BEV 平面中相应的网格单元区域
BEV 平面中的每个网格单元对应于现实世界的 s 米大小。默认情况下，BEV 功能的中心对应于本车的位置
将 BEV 查询 Q 输入到 BEVFormer 之前将可学习的位置嵌入添加到其中

3.3 Spatial Cross-Attention

多摄像头的 3D 感知输入规模大，故开发了基于可变形注意力的空间交叉注意力
每个 BEV 查询 $Q_p$ 仅与其跨摄像机视图的感兴趣区域交互
- 首先将 BEV 平面上的每个查询提升为类似柱子的查询，从柱子中采样 Nref 3D 参考点，然后将这些点投影到 2D 视图。投影的2D点只能落在某些视图上，而其他视图不会命中
- 将点击视图称为 Vhit。将这些 2D 点视为查询 $Q_p$ 的参考点，并从这些参考点周围的命中视图 Vhit 中采样特征
- 对采样特征进行加权求和，作为空间交叉注意力（SCA）的输出
  $SCA(Q_p, F_t) = \frac{1}{|V_{hit}|} \underset{i∈Vhit}∑ \sum\limits^{N_{ref}}_{j=1} DeformAttn(Q_p, \mathcal{P}(p,i,j), F^i_t ) \tag{Eq.2}$
  其中 i 索引相机视图，j 索引参考点，Nref 是每个 BEV 查询的总参考点。 $F_t^i$ 是第 i 个摄像机视图的特征。对于每个 BEV 查询 $Q_p$ ，我们使用投影函数 $\mathcal{P}(p,i,j)$ 来获取第 i 个视图图像上的第 j 个参考点
  
  对于投影函数：
  - 首先计算与位于 Q 的 $p = (x, y)$ 处的查询 $Q_p$ 对应的现实世界位置 $(x^{'}, y^{'})$
    $x'=(x-\frac{W}{2})\times s;\ \ \ \ y'=(y-\frac{H}{2})\times s \ \tag{Eq.3}$
    H，W是BEV查询的空间形状，s 是BEV网格的分辨率大小， $(x^{'} ， y^{'})$ 是本车位置为原点的坐标
  - 预先定义了一组锚点高度 $\{z'_j\}^{N_{ref}}_{j=1}$ ，以确保我们能够捕获出现在不同高度的线索。这样，对于每个查询 $Q_p$ ，我们获得了3D参考点 $(x',y',z'_j)^{N_{ref}}_{j=1}$ 的支柱
    
    $\begin{aligned} P (p, i, j) & = (x_{i j}, y_{i j}), \\ (Eq.4) & w h e r e z_{i j} \cdot [x_{i j} y_{i j} 1]^{T} & = T_{i} \cdot [x^{'} y^{'} z_{j}^{'} 1]^{T} \end{aligned}$ $P (p, i, j) w h ere z_{ij} \cdot [x_{ij} y_{ij} 1]^{T} = (x_{ij}, y_{ij}), = T_{i} \cdot [x^{'} y^{'} z_{j}^{'} 1]^{T} (Eq.4)$

3.4 Temporal Self-Attention

给定当前时间戳 $t$ 处的 BEV 查询 $Q$ 和时间戳 $t - 1$ 处保留的历史 BEV 特征 $B_{t−1}$
首先根据自我运动将 $B_{t−1}$ 与 $Q$ 对齐，以使同一网格处的特征对应于相同的现实世界位置
将对齐的历史 BEV 特征 $B_{t−1}$ 表示为 $B'_{t−1}$
时间自注意力（TSA）层对特征之间的时间联系进行建模
$TSA(Q_p,\{Q, B'_{t−1}\}) = \underset{V ∈\{Q,B'_{t−1}\}}{\sum} DeformAttn(Q_p,p,V),$
- $Q_p$ 表示位于 $p = (x, y)$ 处的 BEV 查询
- 时间自注意力中的偏移量 $Δ p$ 是通过 $Q$ 和 $B'_{t−1}$ 的串联来预测的
- 对于每个序列的第一个样本，时间自注意力将退化为没有时间信息的自注意力，用重复的 BEV 查询 ${Q,Q\}$ 替换 BEV 特征 ${Q,B'_{t−1}\}$
时间自注意力可以更有效地建模长时间依赖性
BEVFormer 从之前的 BEV 特征中提取时间信息，而不是多个堆叠 BEV 特征，因此需要更少的计算成本并受到更少的干扰信息

3.5 Applications of BEV Features

3D 目标检测

基于 2D 检测器 Deformable DETR 设计了一个端到端 3D 检测头。修改包括使用单尺度 BEV 特征 Bt 作为解码器的输入
预测 3D 边界框和速度而不是 2D 边界框，以及仅使用 L1 损失来监督 3D 边界框回归
借助检测头，模型可以端到端预测 3D 边界框和速度，无需 NMS 后处理

地图分割

基于 2D 分割方法 Panoptic SegFormer 设计了一个地图分割头
基于BEV的地图分割与常见的语义分割基本相同

3.6 Implementation Details

训练阶段

对于时间戳 t 的每个样本，从过去 2 秒的连续序列中随机采样另外 3 个样本，将这四个样本的时间戳记为 t−3、t−2、t−1 和 t
循环生成 BEV 特征 ${B_{t−3}, B_{t−2}, B_{t−1}\}$ ，并且此阶段不需要梯度
对于时间戳 t−3 的第一个样本，没有先前的 BEV 特征，并且时间自注意力退化为自注意力
模型基于多相机输入和先验BEV特征 $B_{t−1}$ 生成BEV特征 $B_t$ ，使得 $B_t$ 包含跨越四个样本的时间和空间线索
最后，我们将 BEV 特征 $B_t$ 输入到检测和分割头中并计算相应的损失函数

推理阶段

在推理阶段，按时间顺序评估视频序列的每一帧
前一个时间戳的BEV特征被保存并用于下一个时间戳

4. Experiments

数据集

nuScenes Dataset
Waymo Open Dataset

4.1 Experimental Settings

两种主干：从 FCOS3D 检查点初始化的 ResNet101-DCN 和从 DD3D 检查点初始化的VoVnet-99
利用 FPN 的输出多尺度特征，大小为 1/16、1/32、1/64，维度为 C = 256
对于nuScenes上的实验，BEV查询的默认大小为200×200，X轴和Y轴的感知范围为[−51.2m，51.2m]，BEV网格的分辨率s的大小为0.512m
用 24 个时期训练模型，学习率为 $2×10^{−4}$
对于 Waymo 上的实验，BEV查询的默认空间形状为300×220，X轴的感知范围为[−35.0m，75.0m] Y 轴为 [−75.0m, 75.0m]。每个网格的分辨率 s 的大小为0.5m