目录
Multi-scale Center Proposal Network
Multi-scale Center Transformer Decoder
论文地址:[2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org)
CenterFormer,这是一种基于中心的变压器网络,用于3D目标检测。CenterFormer首先使用中心热图在标准基于体素的点云编码器之上选择中心候选。然后它使用中心候选的特征作为转换器中的查询嵌入。设计了一种通过交叉注意融合特征的方法,能进一步聚合多帧的特征。最后,添加回归头来预测输出中心特征表示上的边界框。整体设计降低了变压器结构的收敛难度和计算复杂度;与无锚目标检测网络强基线相比有显著改进。
一种基于中心的变压器网络,称为中心变压器(CenterFormer),用于三维目标检测。具体来说,首先使用标准的基于Voxel的骨干网将点云编码为BEV特征表示。接下来,使用多尺度中心提议网络将特征转换为不同的尺度并预测初始中心位置。所提出的中心的特征被输入Transformer解码器作为query embedding。在每个Transformer 模块中,使用可变形交叉注意力层来有效地聚合来自多尺度特征图的特征。然后输出对象表示回归到其他对象属性以创建最终的对象预测。
如下图所示,该方法可以对对象级连接和远程特征注意力进行建模。为了进一步探索变压器的能力,还提出了一种多帧设计,通过交叉注意融合来自不同帧的特征。
上图中,center前与 RCNN 样式检测器的比较。RCNN 在 RoI 中聚合点或网格特征,而居中前可以通过注意力机制学习对象级上下文信息和远程特征。
上图所示为CenterFormer的整体架构。该网络由四个部分组成:将原始点云编码为 BEV 特征表示的体素特征编码器、多尺度中心提议网络 (CPN)、基于中心的Transformer解码器和用于预测边界框的回归头。
DETR
风格的 Transformer
编码器需要将特征图压缩成小尺寸,以便计算成本可以接受。这使得网络失去了对检测小物体至关重要的细粒度特征,这些小物体通常占据 BEV
地图中小于 1% 的空间。因此,提出了一个多尺度中心提议网络(CPN)来代替 BEV
特征的Transformer
编码器。为了准备多尺度特征图,使用特征金字塔网络将 BEV
特征表示处理成3个不同的尺度。在每个尺度结束时,添加一个卷积块注意力模块 (CBAM
),以通过通道和空间注意力来增强特征。
使用最高比例特征图 C 上的中心Head
来预测目标中心的 l 通道Heatmap
。每个通道包含一个类的Heatmap
分数。将前 N 个Heatmap
分数的位置作为中心提案。在实验中凭经验使用 N = 500。
在建议的中心位置提取特征作为Transformer
解码器的query embedding
。使用线性层将中心的位置编码为位置嵌入。传统的 DETR
解码器使用可学习的参数初始化query
。因此,在解码器中获得的注意力权重在所有特征中几乎相同。通过使用中心特征作为初始query embedding
,可以引导训练专注于包含有意义的目标信息的特征。
在 vanilla Transformer
解码器中使用相同的自注意力层来学习目标之间的上下文注意力。计算中心query
对所有多尺度 BEV
特征的交叉注意力的复杂度为 :
由于 BEV
特征图的分辨率需要相对较大以保持小目标的细粒度特征,因此将所有 BEV
特征用作attending keypoints
是不切实际的。或者,将attending keypoints
限制在每个尺度的中心位置附近的一个 3×3 小窗口,如上图 所示。这种交叉注意力的复杂度为 ,比正常实现更有效。由于具有多尺度特征,因此能够在提议的中心周围捕获广泛的特征。多尺度交叉注意力可以表述为:
其中p表示中心建议,这里的Ωj是中心周围的窗口,s是尺度的索引。前馈层也保持不变。
多帧通常用于 3D 检测以提高性能。当前基于 CNN
的检测器无法有效融合快速移动物体的特征,而由于注意力机制,transformer
结构更适合融合。为了进一步探索 CenterFormer
的潜力,提出了一种使用交叉注意力transformer
的多帧特征融合方法。使用相同的骨干网络单独处理每个帧。前一帧的最后一个 BEV
特征被转换为当前坐标,并与中心头和交叉注意力层中的当前 BEV
特征融合。