欢迎关注我的公众号 [极智视界],获取我的更多笔记分享
大家好,我是极智视界,本文解读一下 YOLOS 通过目标检测重新思考Vision Transformer。
Transformer 是否能够从纯序列到序列的角度,在仅有的关于二维空间结构知识的情况下,执行二维目标和区域级别的识别?为了回答这个问题,作者提出了 You Only Look at One Sequence (YOLOS),这是一系列基于普通视觉 transformer,做尽可能少的修改、区域先验以及目标任务归纳偏置的目标检测模型。作者发现,只在中等大小的 ImageNet-1k 数据集上预训练的 YOLOS 就能在具有挑战性的 COCO 目标检测基准上取得相当有竞争力的性能,如直接采用 BERT-Base 架构的 YOLOS-Base 可以在 COCO 验证集上获得 42.0 box AP。作者还讨论了通过 YOLOS 来看现有的预训练方案和模型缩放策略对 Transformer 在视觉应用中的影响。
论文地址:http://arxiv.org/abs/2106.00666