• ViT-YOLO论文解读


    论文:《ViT-YOLO:Transformer-Based YOLO for Object Detection》

    代码:

    摘要:

    存在的问题:无人集捕获的图像具有巨大尺度变化,复杂的背景,灵活的视角等特点,对普通基于CNN的目标检测算法是巨大的挑战。如图1所示。

    本文解决思路:设计新的主干网络 MHSA-Darknet(作用:保留足够的全局信息和提取更多有区别度的特征,MHSA:mult-head self-attention)。Neak:BiFPN。测试时:TTA(time-test augmentation)+WBF(weighted boxes fusion)。

    本文提出的算法:ViT-YOLO

    数据集:VisDrone-DET 2021 challenge

    效果:sota,39.41 mAP for test- challenge data set, 41 mAP for the test-dev data set

    1. 介绍

    卷积神经网络在计算机视觉的各个领域已经实现了巨大的突破。ResNet被应用到最先进的目标检测网络中作为backbone,比如Faster RCNN,RetinaNet,YOLO系列等。

     如今transformer除了在nlp上获取很好地效果外,在视觉领域也是大放异彩。vision transformer 处理图像是把图像作为 a sequence of patches。transformer 通过mult-head self-attention捕获图像patches特征间的依赖关系和能够保留足够的空间信息。

    解决多视角变化:目标检测器增强域适应能力和动态接收域。研究表明 vision transformer对occlusions,perturbations and domain shifts都比CNN具有更强的鲁棒性。因此,最直观的增强检测器性能的方式就是把transformer层嵌入到纯粹的CNN backbone中,带来更多的上下文信息和学习更多具有区分度的特征表示。

    解决巨大尺度变化:无人机捕获的目标尺度变化巨大。本文介绍一个可学习的权重来学习不同输入特征的重要程度,重复使用top-down和down-up的多尺度特征融合。

    本文算法:ViT-YOLO,CSP-Darknet+mult-head self-attention + biFPN + YOLOV3 coupled head + TTA + WBF

    本文贡献:

    1. CSP-Darknet中加入multi-head self-attention,带来更多的文本信息和学习根据区分度的特征。

    2. 本文提出简单高效的BiFPN,实现有效地跨尺度特征融合。

    3. 本文应用有效的策略,包括:TTA,WBF。

    2. 相关工作

    General object detection: xxxxx,,,,,选着YOLOv4作为baseline model的原因。

    Vision Transformer: transformer已经在nlp,文本分类,document summarization等方向成功应用。Part of this success comes from the Trans- former’s ability to learn complex dependencies between in- put sequences via self-attention。所以vision transformer第一次把transformer框架直接应用到图像识别任务上。DETR第一次成功把transformer应用到目标检测任务上。DETR增加了transformer的encode和decode在标准CNN模型的前面,使用了匹配的损失函数。

    Muti-scale feature fusion: 目标检测的主要问题是如何有效地表示和处理多尺度特征。多尺度特征学习的发展,FPN(top-down),PANet(bottom-up),EfficientDet(BiFPN),来学习不同输入特征之间的重要度。

    3. 本文方法

    4. 实验

    4.1 数据集

    数据集:VisDrone2019-Det,共10209张静态图像。6741张训练集,548张验证集,1610张测试集,1580张具有挑战的测试集。

    4.2 评估指标

    评估指标:AP,AP50,AP75,AR1,AR10,AR100,AR500。(漏检和误检)

    4.3 应用细节

  • 相关阅读:
    外汇天眼:外汇杠杆的“诱惑”到底有多大,为何做外汇的人都那么上瘾?
    计算机毕业设计之java+javaweb的烯烃厂压力管道管理平台
    Android 10.0 禁用adb shell input输入功能
    Spring 面向切面编程 第2关:使用环绕通知统计所有带参方法的执行时间
    关于freopen和fclose
    集合深度学习01—Collection
    vue--vuex 状态管理模式
    FFplay文档解读-9-解复用器
    数学建模学习(105):五种正态检验方法的实践,Python实现
    【ES6知识】Promise 对象
  • 原文地址:https://blog.csdn.net/stf1065716904/article/details/125561324