优点:
- 解决transformer在cv领域速度慢的问题
- 保持CNN的位移不变性、尺寸不变性、感受野与尺寸的关系、分阶段降低分辨率等特点
- 在多领域表现SOTA
缺点:
2. swin-transformer的结构
特征图移位操作
整体流程:
- 对特征图进行LayerNorm
- 决定是否需要对特征图进行shift
- 将特征图切成小的窗口
- 计算注意力,通过注意力mask区分Window Attention和Shift Window Attention
- 窗口合并
- 若做了shift,就要进行reverse shift
- dropout和残差连接
- 再通过LayerNorm+全连接层、dropout、残差连接。
3. 细节阅读
http://giantpandacv.com/academic/%E7%AE%97%E6%B3%95%E7%A7%91%E6%99%AE/Transformer/%E5%9B%BE%E8%A7%A3swin%20transformer/
https://blog.csdn.net/qq_37541097/article/details/121119988