paper:2209.08575.pdf (arxiv.org)
该文章被 NeurIPS 2022收录。
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。我们的SegNeXt在流行的基准测试(包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID)上大大提高了以前最先进的方法的性能。值得注意的是,SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN,在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言,与ADE20K数据集上的最先进方法相比,SegNeXt在相同或更少的计算下实现了约2.0%的mIoU改进。
作者认为一个成功的语义分割模型应该具有以下特征:(i)作为编码器的强大骨干网络。与以前基于CNN的模型相比,基于transformer的模型的性能改进主要来自于更强的主干网络。(ii)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集预测任务,因此需要处理单个图像中不同大小的对象。(iii)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(iv)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤为重要。
作者在这篇文章的主要贡献:
作者在之前的大多数工作之后,对编码器采用金字塔结构。对于编码器中的构建块,采用了与ViT似的结构,但不同的是,我们没有使用self-attention,而是设计了一个新的多尺度卷积注意力(MSCA)模块。如图2(a)所示,MSCA包含三个部分:用于聚合局部信息的深度方向卷积、用于捕获多尺度上下文的多分支深度方向条带卷积以及用于建模不同信道之间关系的1×1卷积。1×1卷积的输出直接用作注意力权重,以重新加权MSCA的输入。
数学上,我们的MSCA可以写成:
A
t
t
=
C
o
n
v
1
×
1
(
∑
i
=
0
3
S
c
a
l
e
i
(
D
W
−
C
o
n
v
(
F
)
)
)
Att=Conv_{1 \times 1}(\sum_{i=0}^3 Scale_i(DW-Conv(F)))
Att=Conv1×1(i=0∑3Scalei(DW−Conv(F)))
O u t = A t t ⊗ F Out=Att \otimes F Out=Att⊗F
其中 F F F代表的是输入特征。 ⊗ \otimes ⊗是逐个元素的矩阵分解。 D W − c o n v DW-conv DW−conv是深度可分离卷积。请注意,在MSCAN的每个构建块中,我们使用batch normalization而不是layer normalization,因为我们发现batch normalization在分割性能方面获得了更好的效果。
作者讲述了目前主流的语义分割网络decoder结构,如上图3所示。作者采用c这种方式,效果好、参数少。
在本文中,作者分析了以前成功的分割模型,并发现了它们所具有的良好效果。基于这些发现,作者提出了一个量身定制的卷积注意力模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。
最近,基于transformer的模型已经主导了各种细分排行榜。相反,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。
适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。