变压器专为序列建模和转导任务而设计,以其对数据中的远程依赖关系建模的关注而著称,它对计算机视觉的适应,在某些任务上展示了有希望的结果,特别是 图像分类 和联合视觉-语言建模
① 在现有的基于transformer的模型中,tokens都是固定比例的,这一特性不适合这些视觉应用
② 如语义分割,需要在像素级别进行密集预测,这对于高分辨率图像上的Transformer来说是很困难的,因为它的self-attention的计算复杂度是图像大小的二次方
o
论文提出了一种通用的Transformer 结构,称为Swin Transformer,它构造了分层的特征映射,并且计算复杂度与图像大小成线性关系
o
通过从小尺寸的补丁(Figure 1.a)开始,并逐渐合并更深的变压器层中的相邻补丁来构造分层表示
每个窗口中的patches数量是固定的,因此复杂度与图像大小成线性关系。
o
Swin Transformer的一个关键设计元素是窗口分区在连续的self-attention层之间的移动,如图2所示。移动的窗口桥接了前一层的窗口,提供了它们之间的连接,显著增强了建模能力。
o
o
o
stage1:首先通过patch分割模块(如ViT)将输入的RGB图像分割成不重叠的patch(token),每个块的特征维度4 * 4 * 3 = 48 ,将线性嵌入层应用于该原始值特征以将其投影到任意维度(表示为C)
stage2:为了产生分层表示,随着网络的深入,通过patch合并层来减少tokens的数量
重复两次,即stage3 和stage 4,这些Stage共同产生具有与典型卷积网络(如VGG和ResNet)相同的特征映射分辨率的分层表示。因此,该体系结构可以方便地取代现有方法中的骨干网络,用于各种视觉任务。
o
o
将变压器块中的标准多头自我注意 (MSA) 模块替换为基于移位窗口的模块,其它层保持不变。
o
o
全局MSA模块和基于h×w patch图像的窗口的计算复杂度分别为式(1)、(2);前者与patch数H * W为平方关系,后者在M固定时是线性的
o
o
式(3)中ˆzl和zl分别表示块1的(S)WMSA模块和MLP模块的输出特征;W-MSA和SW-MSA分别表示使用规则和移位窗口分区配置的基于窗口的多头self-attention
o
o
与没有这种偏差项或使用绝对位置嵌入的同行相比,有显著的改进。进一步向输入添加绝对位置嵌入会略微降低性能,因此在论文的实现中不采用它
o
o
论文构建了名为Swin-B的基本模型,其模型大小和计算复杂度与ViTB/Deit-B相似。还提出了Swin-T、Swin-S和Swin-L,它们的模型规模和计算复杂度分别约为0.25×、0.5×和2倍。
论文提出的Swin Transformer在图像分类、目标检测和语义分割等识别任务中取得了较好的性能。它在三个任务上的延迟与Vit/Deit和ResNe(X)t模型相比要高得多。
促进视觉和文本信号的联合建模,并且可以更深入地共享计算机视觉和自然语言处理两个领域的建模知识。