【论文笔记】An Image Patch is a Wave: Phase-Aware Vision MLP

声明

不定期更新自己精度论文，通俗易懂，初级小白也可以理解

涉及范围：深度学习方向，包括 CV、NLP、Data Fusion、Digital Twin

论文标题：An Image Patch is a Wave: Phase-Aware Vision MLP

论文代码：http://The shttps: //github.com/huawei-noah/CV-Backbones/ tree/master/wavemlp_pytorch

发表时间： 2022年4月

创新点

1、将 patch 以一种动态形式 (wave) 输入，以此实现不同的 patch 之间的非线性联系

Abstract

在计算机视觉领域，最近的工作表明，主要由全连接层堆叠的纯 MLP 架构可以实现与 CNN 和 Transformer 竞争的性能。视觉 MLP 的输入图像通常被拆分为多个令牌（补丁），而现有的 MLP 模型直接将它们以固定的权重聚合，忽略了来自不同图像的令牌的不同语义信息。为了动态聚合令牌，我们建议将每个令牌表示为具有振幅和相位两部分的波函数。幅度是原始特征，相位项是根据输入图像的语义内容而变化的复数值。引入相位项可以动态调节 MLP 中令牌和固定权重之间的关系。基于类波令牌表示，我们为视觉任务建立了一种新颖的 WaveMLP 架构。大量实验表明，在图像分类、对象检测和语义分割等各种视觉任务上，所提出的 Wave-MLP 优于最先进的 MLP 架构。

Method

通俗上讲，CV 领域的发展历程是从卷积到 Transformer 的。而 Transformer 的核心原理是把图片分解成每一个 patch，然后计算所有的 patch 之间的相似度，相近的则权重变大，而 MLP 也是在做同样一件事，不过 MLP 模型聚合了具有固定权重的不同 patch（或token），导致会忽略他们之间的差异特征，作者基于此，将 patch 以波的形式输入，初相可以理解成原始特征，振幅，表示非线性的差异特征，解决上述问题。

作为为什么会有这个思想呢？作者受到量子力学的启发，这个地方就不在这里细说了，感兴趣的可以查看原文，参看参考文献。

相位和振幅的概念，属于数学中，复数或三角函数的理解。（属于个人理解）