• Conv2Former


    又发现了一个说比Transformer好的,通过充分利用卷积探索一种更高效的编码空域特征的方式:通过组合ConvNet与ViT的设计理念,本文利用卷积调制操作对自注意力进行了简化,进而构建了一种新的ConvNet架构Conv2Former超简Transformer风格ConvNet,比ConvNeXt还秀,媲美VAN

    通过充分利用卷积探索一种更高效的编码空域特征的方式:通过组合ConvNet与ViT的设计理念,本文利用卷积调制操作对自注意力进行了简化,进而构建了一种新的ConvNet架构Conv2Former。ImageNet分类、COCO检测以及ADE20K分割任务上的实验结果表明:所提Conv2Former取得了优于主流ConvNet(如ConvNeXt)、ViT(如Swin Transformer)的性能。


     核心模块

    上图给出了经典模块的架构示意图,从经典的残差模块到自注意力模块,再到新一代卷积模块。自注意力模块可以表示为如下形式:  ​

    ​​​​​​

    1. class ConvMod(nn.Module):  
    2.     def __init__(self, dim):  
    3.         super().__init__()  
    4.         self.norm = LayerNorm(dim, eps=1e-6data_format='channel_first')  
    5.         self.a = nn.Sequential(  
    6.             nn.Conv2d(dim, dim, 1),  
    7.             nn.GELU(),  
    8.             nn.Conv2d(dim, dim, 11, padding=5, groups=dim)  
    9.         )  
    10.         self.v = nn.Conv2d(dim, dim, 1)  
    11.         self.proj = nn.Conv2d(dim, dim, 1)  
    12.       
    13.     def forward(self, x):  
    14.         B, C, H, W = x.shape  
    15.         x = self.norm(x)  
    16.         a = self.a(x)  
    17.         v = self.v(x)  
    18.         x = a * v  
    19.         x = self.proj(x)  
    20.         return x  

    微观设计理念 

    ​​ Normalization and Activations 对于规范化层,作者参考ViT与ConvNeXt采用了Layer Normalization,而非卷积网络中常用的Batch Normalization;对于激活层,作者采用了GELU(作者发现,LN+GELU组合可以带来0.1%-0.2%的性能提升)。 

    本文实验

    ​​​​​​​上述两表给出了ImageNet分类任务上不同方案的性能对比,从中可以看到:

    • 在tiny-size(<30M)方面,相比ConvNeXt-T与SwinT-T,Conv2Former-T分别取得了1.1%与1.7%的性能提升。值得称道的是,Conv2Former-N仅需15M参数量+2.2GFLOPs取得了与SwinT-T(28M参数量+4.5GFLOPs)相当的性能。

    • 在base-size方面,相比ConvNeXt-B与SwinT-B,Conv2Former-B仍取得了0.6%与0.9%的性能提升

    • 相比其他主流模型,在相近大小下,所提Conv2Former同样表现更优。值得一提的是,相比EfficientNet-B7,Conv2Former-B精度稍有(84.4% vs 84.3%),但计算量大幅减少(15G vs 37G)。

    • 当采用ImageNet-22K预训练后,Conv2Former的性能可以进一步提升,同时仍比其他方案更优。Conv2Former-L甚至取得了87.7% 的优异指标

     

     

    上表给出了COCO检测任务上不同方案的性能对比,从中可以看到:

    • 在tiny-size方面,相比SwinT-T与ConvNeXt-T,Conv2Former-T取得了2% 的检测指标提升,实例分割指标提升同样超过1%;

    • 当采用Cascade Mask R-CNN框架时,Conv2Former仍具有超1%的性能提升。

    • 当进一步增大模型时,性能优势则变得更为明显; 

     

    上表给出了ADE20K分割任务上的性能对比,从中可以看到:

    • 在不同尺度模型下,Conv2Former均具有比SwinT与ConvNeXt更优的性能;

    • 相比ConvNeXt,在tiny尺寸方面性能提升1.3%mIoU,在base尺寸方面性能提升1.1%;

    • 当进一步提升模型尺寸,Conv2Former-L取得了54.3%mIoU,明显优于Swin-L与ConvNeXt-L。

    一点疑惑解析

    到这里,关于Conv2Former的介绍也就结束了。但是,心里仍有一点疑惑存在:Conv2Former与VAN的区别到底是什么呢?。 

    结合作者开源代码,笔者绘制了上图,左图为Conv2Former核心模块,右图为VAN核心模块。两者差别还是比较明显的!

    • 虽然大核卷积注意力均是其核心,但Conv2Former延续了自注意力的设计范式,大核卷积注意力是其核心;而VAN则是采用传统Bottleneck设计范式大核卷积注意力的作用类似于SE

    • 从大核卷积内在机理来看,Conv2Former仅考虑了的空域建模,而VAN则同时考虑了空域与通道两个维度

    • 在规范化层方面,Conv2Former采用了Transformer一贯的LayerNorm,而VAN则采用了CNN一贯的BatchNorm;

    • 值得一提的是:两者在大核卷积注意力方面均未使用Sigmoid激活函数。两者均发现:使用Sigmoid激活会导致0.2%左右的性能下降。

     

     为更好对比Conv2Former与VAN的性能,特汇总上表(注:GFLOPs列仅汇总了)在Image输入时的计算量Net-1K上的指标进行了对比,可以看到:在同等参数量前提下,两者基本相当,差别仅在0.1%。此外,考虑到作者所提到的“LN+GELU的组合可以带来0.1%-0.2%的性能提升”,两者就算是打成平手了吧,哈哈。       whaosoft aiot http://143ai.com

  • 相关阅读:
    [go]根据背景色计算文本颜色
    WebGL笔记:设置画布底色,从样式中解析颜色并设置画布底色,设置动态画布底色
    深入了解Web3:区块链技术如何改变我们的数字世界
    Java与Redis的集成
    使用html+css实现一个静态页面【传统文化茶带音乐6页】HTML学生个人网站作业设计
    【动手深度学习-笔记】批量规范化(Batch Normalization)
    @Autowired和@Resource的区别
    基于樽海鞘群算法的线性规划求解matlab程序
    全面揭秘:ChatGPT-4o带来的下一代AI能力
    生物神经网络 原理分析研读01
  • 原文地址:https://blog.csdn.net/qq_29788741/article/details/128157064