码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 多尺度深度特征(下):多尺度特征学习才是目标检测精髓(论文免费下载)...


    0453eb5f5110bb6b40a653c80c00453f.gif

    计算机视觉研究院专栏

    作者:Edison_G

    深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考虑它们之间的关系。

    657ff6d40705195326c623c386ff08f5.png

    公众号ID|ComputerVisionGzq

    学习群|扫码在主页获取加入方式

    论文获取|回复”MDFN“获取论文

    501a0e3c4c676b085bb076e0f23bdd81.png

    1

    前景回顾

    如果想详细知道上集我们具体说了多尺度特征的重要性及其发展,请点击下方链接,查阅相关内容:

    多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)

    6df5ff1b2330cd3d91b5e49c202dbc45.jpeg

    SSD框架

    ff6cce27519b777dc7c7d24c17d8c835.jpeg

    ASPP网络

    7a58eb2b4d4b245aa5ef9ea0c9f878dd.jpeg

    Cascaded

    我们“计算机视觉研究院”还分享了更多与目标检测相关的干货及实践内容,有兴趣的同学可以查看历史消息,也可以从下方部分链接中进入:

    • CVPR21小样本检测:蒸馏&上下文助力小样本检测(代码已开源)

    • ICCV 2021:炼丹师的福音,训练更快收敛的绝佳方案(附源代码)

    • ICCV2021目标检测:用图特征金字塔提升精度(附论文下载)

    • Pad-YoloV5:在便携终端上实时检测不再是难题

    • 高斯YoloV3目标检测(文中供源码链接)

    • Yolo轻量级网络,超轻算法在各硬件可实现工业级检测效果(附源代码)

    • 不再只有Yolo,现在轻量级检测网络层出不穷(框架解析及部署实践)

    2

    新框架

    那我们现在接着上一期的继续说多尺度深度特征学习。

    e804dfde84ba44f9a808ee2bea92ea9c.png

    上一期我们得出的结论是:浅层和深层的特征对于目标识别和定位起着必不可少的作用。为了有效地利用检测到的特征信息,应考虑另一约束条件,以防止特征被改变或覆盖。

    新框架提出了一种创新的目标检测器,它利用在高级层中学习到的深层特征。与较早层产生的特征相比,深层特征更擅长表达语义和上下文信息。所提出的深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个目标和局部上下文,还考虑它们之间的关系。MDFN通过将信息平方和立方初始模块引入高层来有效地检测目标,它采用参数共享来提高计算效率。

    57222ca25b8432279f607c9461fb7002.png

    MDFN通过集成多边界框、多尺度和多层次技术提供多尺度目标检测器。尽管MDFN采用了一个具有相对较小基础网络(VGG-16)的简单框架,但与具有更深或极宽的宏观层次结构的具有更强特征提取能力的那些相比,它获得了更好或具有竞争力的检测结果。所提出的技术在KITTI、PASCAL VOC和COCO数据集上进行了广泛的评估,在KITTI上取得了最佳结果,在PASCAL VOC和COCO上取得了领先的性能。这项研究表明,深层特征提供了突出的语义信息和各种上下文内容,这有助于其在检测小目标或被遮挡目标方面的卓越性能。此外,MDFN 模型计算效率高,在精度和速度之间取得了很好的平衡。

    Deep feature learning inception modules

    f630f73350d36f74a27d9a0b591fc873.png

    深度特征学习初始模块捕获来自基础网络的直接输出。新框架的基本初始模块通过激活多尺度感受野来充分利用深度特征图。在每个模块中,通过1×1过滤直接利用来自前一层的输出特征信息。然后进行3×3、5×5和7×7过滤以激活特征图上的各种感受野,从而在相应的输入图像上捕获不同范围的场景。 

    研究者在实践中仅使用1×1和3×3滤波器实现多尺度滤波,以尽量减少参数数量。为高层构建了两种类型的幂运算初始模块:一种是信息方初始模块,另一种是信息立方初始模块,如上图所示。通过为不同的过滤器分配权重来构建这两个模块:在以下等式中给出:

    9b22e3d6a60f9e15ccdd895c863baa1d.png

    上表达式实际上可以分别通过以下信息平方和三次运算来近似。

    72b9b761087e723155b3742544665a3a.png

    Parameter Sharing:

    通过共享参数,可以有效地实现所提出的信息平方和立方初始模块。例如,通过从5×5单元的第一个3×3过滤器中提取输出并将其与3×3过滤单元的并行输出连接起来,在3×3和5×5过滤单元之间共享参数。然后,3×3过滤操作的输出通道数量隐式加倍,而过滤器集仅使用一次,如上图(b)中的红色箭头所示。这种参数共享可以进一步用于cubic inception模块,如上图(c)所示。3×3滤波操作的输出分别来自3×3、5×5和7×7滤波单元,如上图(c)中三个红色箭头所示。同样,5×5滤波操作的输出分别来自5×5和7×7滤波单元,如两个绿色箭头所示。

    Multi-Scale object detection scheme

    在新框架模型中,给每个给定位置k个边界框,计算c类分数和每个边界框四个顶点相对于默认边界框的四个偏移量。最终,为特征图内的每个位置提供了总共k(c + 4)个过滤器。因此,每个尺寸为m×n的特征图的输出数量应为k(c + 4)mn。已证实,使用各种默认的框形状将有助于为单发网络预测框的任务,从而提高了目标定位和分类的准确性。 研究者采用这种多边界框技术作为多尺度方案的第一个属性。

    5196bfc9c8b5030b143b8c31a904f3d9.png

    深度特征学习起始模块被应用在四个连续的高级层单元中。这四个层单元将其输出深度特征直接传输到最终预测层,这将信息传输完全缩短。 

    从训练的角度来看,这些缩短的连接使网络的输入和输出彼此更接近,这有益于模型的训练。高级层和最终预测层之间的直接连接缓解了梯度消失的问题,并增强了特征传播。另一方面,四个高级层单元的序列通过语义和上下文信息获取两种方式最大化了深度特征提取和表示的能力。首先,它使后三个高层从先前的较低层获取上下文信息。其次,同一级别的层可以提供不同范围的上下文信息,以及可以在当前层输出中自然构建的更精确的语义表达。这个过程是多尺度方案的第二个特性。

    研究者使用多尺度过滤器来激活各种大小的感受野,以增强语义和上下文信息的提取。要注意的另一个方面是要素图的大小。在大多数网络中,特征图的大小会随着深度的增加而逐渐减小。这考虑到系统的内存有限以及功能的比例不变。因此,由于其输入特征图的分辨率比在较早的层中产生的分辨率小得多,因此在网络深处接受的多尺度滤波器将具有较少的计算负担。这抵消了滤波操作增加带来的计算负担。这是拟议的多尺度方案的第三个特性。

    Layer structure of deep inception module

    2f31b89dfdcd0883709c04fa401841f6.png

    提出了两种深度特征学习网络体系结构,分别成为MDFN-I1和MDFN-I2. 它们都具有四个high-level deep feature Inception单元。 

    3

    实验及可视化

    Average precision(%) on KITTI validation set

    a51d13b3fbc55333a1583d1e401b719c.png

    f36b90714e6d7c752a0b0c996715f72f.png

    2d2a3e7ac6cfdf393b14cb3eab516223.png

    from left to right, represent the results from SSD, MDFN-I1 and MDFN-I2

    PASCAL VOC2007 test detection results

    508a4ab27884cd29c455e8ad36e7220a.png

    Detection results on COCO test-dev

    2aa1dd43151a282db1a6bfa403c49a71.png

    a62770eda82efc14e0957b8599ae891c.png

    从上往下分别是SSD、MDFN-I1和MDFN-I2检测结果

    基于作者提出的框架,在pytorch框架中实现了作者的基本思想,在COCO数据集中简单训练,最终结果比SSD结果好一点,具体效果如下:

    © THE END 

    转载请联系本公众号获得授权

    80a0d581787dcd8657a6d87987ef89a0.gif

    计算机视觉研究院学习群等你加入!

    计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

    fcc6d922bc529cabd9daf38c746a54ca.jpeg

    扫码关注

    计算机视觉研究院

    公众号ID|ComputerVisionGzq

    学习群|扫码在主页获取加入方式

    源代码|关注回复“最佳检测”获取

     往期推荐 

    🔗

    • 多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)

    • ICCV2021目标检测:用图特征金字塔提升精度(附论文下载)

    • CVPR21小样本检测:蒸馏&上下文助力小样本检测(代码已开源)

    • 半监督辅助目标检测:自训练+数据增强提升精度(附源码下载)

    • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)

    • 目标检测新框架CBNet | 多Backbone网络结构用于目标检测(附源码下载)

    • CVPR21最佳检测:不再是方方正正的目标检测输出(附源码)

    • Sparse R-CNN:稀疏框架,端到端的目标检测(附源码)

    • 利用TRansformer进行端到端的目标检测及跟踪(附源代码)

    • 细粒度特征提取和定位用于目标检测(附论文下载)

    • 特别小的目标检测识别(附论文下载)

    • 目标检测 | 基于统计自适应线性回归的目标尺寸预测

    • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)

  • 相关阅读:
    实现基于 GitLab 的数据库 CI/CD 最佳实践
    列表与字典—>一维列表
    XXL-Job和SpringBoot整合进行部署(全网最全整合部署)
    VUE element组件生成的全选框如何获取值
    【Java面试】第三章:P6级面试
    Golang sync.Pool
    外卖项目01---软件开发整体介绍
    容器类型及操作
    动态规划学习
    ElasticSearch集群部署
  • 原文地址:https://blog.csdn.net/gzq0723/article/details/127543802
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号