该模型可以与不同的特定任务头,进行端到端 3D 对象检测和地图分割
本文的主要贡献
经典方案
**多相机生成 BEV **
提出了一种新的基于 Transformer 的 BEV 生成框架,它可以通过注意力机制有效聚合来自多视图相机的时空特征和历史 BEV 特征
BEVFormer 有 6 个编码器层,每个编码器层都遵循 Transformer 的传统结构
除此之外有三种定制设计,即 BEV 查询、空间交叉注意力和时间自注意力
BEV 查询:网格状的可学习参数,旨在通过注意机制从多摄像机视图查询 BEV 空间中的特征
空间交叉注意力和时间自注意力:与 BEV 查询一起使用的注意力层,用于根据 BEV 查询查找和聚合多摄像机图像中的空间特征以及历史 BEV 中的时间特征

多摄像头的 3D 感知输入规模大,故开发了基于可变形注意力的空间交叉注意力
每个 BEV 查询 Q p Q_p Qp 仅与其跨摄像机视图的感兴趣区域交互
首先将 BEV 平面上的每个查询提升为类似柱子的查询,从柱子中采样 Nref 3D 参考点,然后将这些点投影到 2D 视图。投影的2D点只能落在某些视图上,而其他视图不会命中
将点击视图称为 Vhit。将这些 2D 点视为查询 Q p Q_p Qp 的参考点,并从这些参考点周围的命中视图 Vhit 中采样特征
对采样特征进行加权求和,作为空间交叉注意力(SCA)的输出
S
C
A
(
Q
p
,
F
t
)
=
1
∣
V
h
i
t
∣
∑
i
∈
V
h
i
t
∑
j
=
1
N
r
e
f
D
e
f
o
r
m
A
t
t
n
(
Q
p
,
P
(
p
,
i
,
j
)
,
F
t
i
)
(Eq.2)
SCA(Q_p, F_t) = \frac{1}{|V_{hit}|} \underset{i∈Vhit}∑ \sum\limits^{N_{ref}}_{j=1} DeformAttn(Q_p, \mathcal{P}(p,i,j), F^i_t ) \tag{Eq.2}
SCA(Qp,Ft)=∣Vhit∣1i∈Vhit∑j=1∑NrefDeformAttn(Qp,P(p,i,j),Fti)(Eq.2)
其中 i 索引相机视图,j 索引参考点,Nref 是每个 BEV 查询的总参考点。
F
t
i
F_t^i
Fti 是第 i 个摄像机视图的特征。对于每个 BEV 查询
Q
p
Q_p
Qp,我们使用投影函数
P
(
p
,
i
,
j
)
\mathcal{P}(p,i,j)
P(p,i,j) 来获取第 i 个视图图像上的第 j 个参考点
对于投影函数:
首先计算与位于 Q 的
p
=
(
x
,
y
)
p=(x,y)
p=(x,y) 处的查询
Q
p
Q_p
Qp 对应的现实世界位置
(
x
′
,
y
′
)
(x',y')
(x′,y′)
x
′
=
(
x
−
W
2
)
×
s
;
y
′
=
(
y
−
H
2
)
×
s
(Eq.3)
x'=(x-\frac{W}{2})\times s;\ \ \ \ y'=(y-\frac{H}{2})\times s \ \tag{Eq.3}
x′=(x−2W)×s; y′=(y−2H)×s (Eq.3)
H,W是BEV查询的空间形状,s 是BEV网格的分辨率大小,
(
x
′
,
y
′
)
(x',y')
(x′,y′) 是本车位置为原点的坐标
预先定义了一组锚点高度
{
z
j
′
}
j
=
1
N
r
e
f
\{z'_j\}^{N_{ref}}_{j=1}
{zj′}j=1Nref,以确保我们能够捕获出现在不同高度的线索。这样,对于每个查询
Q
p
Q_p
Qp,我们获得了3D参考点
(
x
′
,
y
′
,
z
j
′
)
j
=
1
N
r
e
f
(x',y',z'_j)^{N_{ref}}_{j=1}
(x′,y′,zj′)j=1Nref 的支柱
P
(
p
,
i
,
j
)
=
(
x
i
j
,
y
i
j
)
,
w
h
e
r
e
z
i
j
⋅
[
x
i
j
y
i
j
1
]
T
=
T
i
⋅
[
x
′
y
′
z
j
′
1
]
T
给定当前时间戳 t t t 处的 BEV 查询 Q Q Q 和时间戳 t − 1 t−1 t−1 处保留的历史 BEV 特征 B t − 1 B_{t−1} Bt−1
首先根据自我运动将 B t − 1 B_{t−1} Bt−1 与 Q Q Q 对齐,以使同一网格处的特征对应于相同的现实世界位置
将对齐的历史 BEV 特征 B t − 1 B_{t−1} Bt−1 表示为 B t − 1 ′ B'_{t−1} Bt−1′
时间自注意力(TSA)层对特征之间的时间联系进行建模
T
S
A
(
Q
p
,
{
Q
,
B
t
−
1
′
}
)
=
∑
V
∈
{
Q
,
B
t
−
1
′
}
D
e
f
o
r
m
A
t
t
n
(
Q
p
,
p
,
V
)
,
TSA(Q_p,\{Q, B'_{t−1}\}) = \underset{V ∈\{Q,B'_{t−1}\}}{\sum} DeformAttn(Q_p,p,V),
TSA(Qp,{Q,Bt−1′})=V∈{Q,Bt−1′}∑DeformAttn(Qp,p,V),
时间自注意力可以更有效地建模长时间依赖性
BEVFormer 从之前的 BEV 特征中提取时间信息,而不是多个堆叠 BEV 特征,因此需要更少的计算成本并受到更少的干扰信息
3D 目标检测
地图分割
训练阶段
推理阶段
数据集
Baseline
空间交叉注意力的有效性
在可比较的模型规模下,可变形注意力明显优于其他注意力机制。全局注意力消耗过多的GPU内存,点交互的感受野有限。稀疏注意力可以实现更好的性能,因为它与先验确定的感兴趣区域交互,平衡感受野和 GPU 消耗
时间自注意力的有效性
时间信息的作用主要有以下几个方面:
模型规模和延迟
从三个方面消除了 BEVFormer 的尺度,包括是否使用多尺度视图特征、BEV 查询的形状和层数,以验证性能和推理延迟之间的权衡
局限性:基于相机的方法在效果和效率上与基于激光雷达的方法仍然存在一定的差距。从 2D 信息准确推断 3D 位置仍然是基于相机的方法的长期挑战
更广泛的影响:BEVFormer 所展示的优势,例如更准确的速度估计和对低可见度物体的更高召回率,对于构建更好、更安全的自动驾驶系统及其他系统至关重要