论文:《ViT-YOLO:Transformer-Based YOLO for Object Detection》
代码:
摘要:
存在的问题:无人集捕获的图像具有巨大尺度变化,复杂的背景,灵活的视角等特点,对普通基于CNN的目标检测算法是巨大的挑战。如图1所示。
本文解决思路:设计新的主干网络 MHSA-Darknet(作用:保留足够的全局信息和提取更多有区别度的特征,MHSA:mult-head self-attention)。Neak:BiFPN。测试时:TTA(time-test augmentation)+WBF(weighted boxes fusion)。
本文提出的算法:ViT-YOLO
数据集:VisDrone-DET 2021 challenge
效果:sota,39.41 mAP for test- challenge data set, 41 mAP for the test-dev data set
1. 介绍
卷积神经网络在计算机视觉的各个领域已经实现了巨大的突破。ResNet被应用到最先进的目标检测网络中作为backbone,比如Faster RCNN,RetinaNet,YOLO系列等。
如今transformer除了在nlp上获取很好地效果外,在视觉领域也是大放异彩。vision transformer 处理图像是把图像作为 a sequence of patches。transformer 通过mult-head self-attention捕获图像patches特征间的依赖关系和能够保留足够的空间信息。
解决多视角变化:目标检测器增强域适应能力和动态接收域。研究表明 vision transformer对occlusions,perturbations and domain shifts都比CNN具有更强的鲁棒性。因此,最直观的增强检测器性能的方式就是把transformer层嵌入到纯粹的CNN backbone中,带来更多的上下文信息和学习更多具有区分度的特征表示。
解决巨大尺度变化:无人机捕获的目标尺度变化巨大。本文介绍一个可学习的权重来学习不同输入特征的重要程度,重复使用top-down和down-up的多尺度特征融合。
本文算法:ViT-YOLO,CSP-Darknet+mult-head self-attention + biFPN + YOLOV3 coupled head + TTA + WBF
本文贡献:
1. CSP-Darknet中加入multi-head self-attention,带来更多的文本信息和学习根据区分度的特征。
2. 本文提出简单高效的BiFPN,实现有效地跨尺度特征融合。
3. 本文应用有效的策略,包括:TTA,WBF。
2. 相关工作
General object detection: xxxxx,,,,,选着YOLOv4作为baseline model的原因。
Vision Transformer: transformer已经在nlp,文本分类,document summarization等方向成功应用。Part of this success comes from the Trans- former’s ability to learn complex dependencies between in- put sequences via self-attention。所以vision transformer第一次把transformer框架直接应用到图像识别任务上。DETR第一次成功把transformer应用到目标检测任务上。DETR增加了transformer的encode和decode在标准CNN模型的前面,使用了匹配的损失函数。
Muti-scale feature fusion: 目标检测的主要问题是如何有效地表示和处理多尺度特征。多尺度特征学习的发展,FPN(top-down),PANet(bottom-up),EfficientDet(BiFPN),来学习不同输入特征之间的重要度。
3. 本文方法
4. 实验
4.1 数据集
数据集:VisDrone2019-Det,共10209张静态图像。6741张训练集,548张验证集,1610张测试集,1580张具有挑战的测试集。
4.2 评估指标
评估指标:AP,AP50,AP75,AR1,AR10,AR100,AR500。(漏检和误检)
4.3 应用细节