Cross-View Transformers for Real-Time Map-View Semantic Segmentation
背景
工作
单目三维物体检测
深度估计
地图视图的语义映射
VPN
本文工作展示了隐式几何推理与显式几何模型的效果相当。隐式处理几何的附加好处是相比显式模型,在推理速度上有所提高。只需学习一组位置嵌入,注意力机制将重新映射相机到地图视图
在这个任务中,提供了一组由n个单独视图 ( I k , K k , R k , t k ) k = 1 n (I_k,K_k,R_k,t_k)^n_{k=1} (Ik,Kk,Rk,tk)k=1n 组成的输入图像 I k ∈ R H × W × 3 I_k∈\mathbb{R}^{H×W×3} Ik∈RH×W×3,相机内参 K k ∈ R 3 × 3 K_k∈\mathbb{R}^{3×3} Kk∈R3×3,外参旋转 R k ∈ R 3 × 3 R_k∈\mathbb{R}^{3×3} Rk∈R3×3 和相对于自车中心的平移 t k ∈ R 3 t_k∈\mathbb{R}^3 tk∈R3
目标是学习一个高效的模型,从多个相机视图中提取信息,以便预测一个二进制语义分割掩码 y ∈ { 0 , 1 } h × w × C y∈\{0, 1\}^{h×w×C} y∈{0,1}h×w×C 在正交地图视图坐标框架中
为地图视角语义分割设计了一个简单而有效的编码器-解码器结构
图像编码器为每个输入图像生成多尺度特征表示
跨视角跨注意机制将多尺度特征聚合成一个共享的地图视角表示。所有相机共享相同的图像编码器,但使用依赖于它们各自相机校准的位置嵌入
轻量级的卷积解码器对精炼的地图视角嵌入进行上采样,产生最终的分割输出
跨视角注意力的目标是将地图视图表示与图像视图特征相连接
x
(
I
)
≃
K
k
R
k
(
x
(
W
)
−
t
k
)
(1)
x^{(I)} ≃ K_kR_k(x^{(W)} − t_k) \tag{1}
x(I)≃KkRk(x(W)−tk)(1)
≃
≃
≃ 表示等比例关系,
x
(
I
)
=
(
⋅
,
⋅
,
1
)
x^{(I)} = (·, ·, 1)
x(I)=(⋅,⋅,1) 使用齐次坐标
在没有相机视图中准确的深度估计或地图视图中的地面高度估计的情况下,世界坐标 x ( W ) x^{(W)} x(W)是不确定的 。我们不学习深度的显式估计,而是将任何深度不确定性编码在位置嵌入中,并让 Transformer 学习深度的代理
从对等式1中的世界坐标和图像坐标之间的几何关系进行重新表述,将其作为余弦相似度在注意机制中使用
s
i
m
k
(
x
(
I
)
,
x
(
W
)
)
=
(
R
k
−
1
K
k
−
1
x
(
I
)
)
⋅
(
x
(
W
)
−
t
k
)
∥
R
k
−
1
K
k
−
1
x
(
I
)
)
∥∥
(
x
(
W
)
−
t
k
∥
(2)
sim_k(x^{(I)}, x^{(W)}) = \frac{(R^{−1}_k K^{−1}_k x^{(I)}) \cdot (x^{(W)} − t_k)} {∥R^{−1}_k K^{−1}_k x^{(I)})∥∥(x^{(W)} − t_k∥} \tag{2}
simk(x(I),x(W))=∥Rk−1Kk−1x(I))∥∥(x(W)−tk∥(Rk−1Kk−1x(I))⋅(x(W)−tk)(2)
这种相似性仍然依赖于准确的世界坐标
w
(
W
)
w^{(W)}
w(W)。用位置编码替换这种相似性的所有几何组件,位置编码可以学习几何和外观特征
考虑相机的位置编码
地图视图的潜在嵌入
跨视图注意力
跨视图变换器通过跨视图注意力机制结合了位置编码。允许每个地图视图坐标关注一个或多个图像位置,但并非每个地图视图位置在每个视图中都有对应的图像块
允许注意机制在每个摄像头和每个摄像头内的位置之间进行选择
softmax 注意力使用键和查询之间的余弦相似度
s
i
m
(
δ
k
,
i
,
ϕ
k
,
i
,
c
j
(
n
)
,
τ
k
)
=
(
δ
k
,
i
+
ϕ
k
,
i
)
⋅
(
c
j
(
n
)
−
τ
k
)
∥
δ
k
,
i
+
ϕ
k
,
i
∥∥
c
j
(
n
)
−
τ
k
∥
(3)
sim(δ_{k,i}, \phi_{k,i}, c^{(n)}_j , τ_k) = \frac{(δ_{k,i} + \phi_{k,i})\cdot(c^{(n)}_j − τ_k)} {∥δ_{k,i} + \phi_{k,i}∥∥c^{(n)}_j − τ_k∥} \tag{3}
sim(δk,i,ϕk,i,cj(n),τk)=∥δk,i+ϕk,i∥∥cj(n)−τk∥(δk,i+ϕk,i)⋅(cj(n)−τk)(3)
架构
数据集
利用 nuScenes 数据集,数据集是一个包含1000个不同场景的集合,这些场景在各种天气、时间和交通条件下采集
评估
对于地图视图车辆分割,有两种常用的评估设置
使用模型预测和地图视角标签之间的交并比(IoU)分数作为主要性能指标
方法的核心要素是跨视图注意机制。它将相机感知嵌入和图像特征结合起来作为键,并将学习到的地图视图位置嵌入作为查询
地图视图嵌入允许在多次迭代中更新,而相机感知嵌入包含一些几何信息
系统最重要的组成部分是相机感知的位置嵌入。它赋予注意力机制推理场景几何布局的能力。如果没有它,注意力就必须依靠图像特征来揭示自己的位置
仅图像特征很难正确连接地图视图和摄像机视图视角。它还需要明确推断每个图像所面向的方向,以消除不同视图的歧义
另一方面,仅靠纯粹的几何相机感知位置嵌入也是不够的。该网络可能使用语义和几何线索来对齐地图视图和相机视图,特别是在地图视图嵌入的细化之后
使用单个固定地图视图嵌入也会降低模型的性能。最终模型在其所有注意力组件下表现最佳
采用在所有六个输入上训练的模型,通过在验证集中对每个样本随机删除 m 个摄像头来评估交并比(IoU)指标
性能随着删除的摄像头数量的线性下降。这是相当直观的,因为不同的摄像头仅有轻微的重叠
值得注意的是,基于Transformer的模型通常对摄像头丢失具有相当强的鲁棒性,整体性能不会下降到场景的未观察区域以外
可视化了地图视角中几个点的图像视角注意力。每个点对应车辆的一个部分。根据定性证据,注意机制可以突出显示相互对应的地图视角和摄像头视角位置