码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【目标检测】one-stage------YOLO v2浅析-2016


    every blog every motto: There’s only one corner of the universe you can be sure of improving, and that’s your own self.
    https://blog.csdn.net/weixin_39190382?spm=1010.2135.3001.5343

    0. 前言

    梳理yolo v2

    bbd: 没耐心仔细看了,摔,

    1. 正文

    时间: 2016
    论文: https://arxiv.org/abs/1612.08242
    代码: https://github.com/pjreddie/darknet

    slides: https://docs.google.com/presentation/d/14qBAiyhMOFl_wZW4dA1CkixgXwf0zKGbpw_0oHK8yEM/edit#slide=id.g23f389e290_1_13

    作者: Joseph Redmon∗† , Ali Farhadi∗†
    作者单位: University of Washington , Allen Institute for AI


    1. 正文

    总览
    在这里插入图片描述

    1.1 改进点

    改进点主要有:
    在这里插入图片描述

    1. Better

    1.1 BN

    卷积层后添加Batch Normalization层,去掉原有的dropout层,涨点约2%mAP

    1.2. High Resolution

    先在ImageNet上以224×224训练,再调整图片大小为448×448finetune10个eopchs涨点约4%mAP

    1.3. Anchor Boxes

    v1中使用全连接层对边框进行预测,导致信息丢失,定位不准。v2中去掉了全连接层,使用了anchor boxs,同时,为了得到更高分辨率的特征图,去掉了一个池化。最终是网络输入为416 × 416,网络进行32倍下采样,最后得到13 × 13 的特征图,每个cell预测5个anchor box,一共可以预测13×13×5 = 845个框。召回率有81%提高到88%,mAP有69.5%降到69.2%。即,
    召回率提升7%,准确率下降了0.3%。

    1.4. Dimension Clusters

    在Faster R-CNN中,anchor box是先验手动产生的 ,v2中采用k-means对训练数据的边界框进行聚类,选用boxes之间的IoU作为聚类指标。选取了5个聚类中心,得到5个先验框。

    在这里插入图片描述

    1.5. Darknet-19

    使用了新的模型结构,包含19个卷积和5个maxpooling层。主要采用3×3的卷积,2×2的maxpooling。并且在3×3卷积之间使用1×1卷积来压缩特征图的通道降低模型计算量和参数。

    mPA没有显著提升,但是计算量可以减小约33%

    在这里插入图片描述

    1.6. 直接预测位置

    在yolo v2 中借鉴了Faster R-CNN中的Anchor box,在Faster R-CNN中是预测边框的四个坐标值的偏移量(如下图所示),由于没有对偏移量进行约束,每个位置预测的边界框可以落在图片的任何位置,会导致模型不稳定,加长训练时间。 yolo v2 沿用了v1的方法,预测相对“格子”(“格子”就是最后网络输出特征图的像素)的值,其值介于0和1之间。网络中让网络预测的结果输入sigmoid,这样值就介于0和1之间。

    在这里插入图片描述
    与 v1 类似,我们对框一共预测了四个值,分别是,框的中心点坐标x,y,以及框的长宽 w,h。为了使模型更稳定,使用了sigmoid将值约束到0和1之间。

    预测框中心相对与所在“格子”的坐标 σ ( t x ) \sigma(t_x) σ(tx​)和 σ ( t y ) \sigma(t_y) σ(ty​),再加上当前格子相对整个格子左上角的坐标 c x c_x cx​和 c y c_y cy​就能确定预测框相当于整个格子的坐标:

    b x = σ ( x ) + c x b_x = \sigma(x) + c_x bx​=σ(x)+cx​
    b y = σ ( y ) + c y b_y = \sigma(y) + c_y by​=σ(y)+cy​
    在这里插入图片描述

    1.7. Fine-Grained Features

    如图,不同分辨率的特征图在通道方向上合并,
    在这里插入图片描述

    1.8. 多尺度训练

    为了增强模型的鲁棒性,采用多尺度输入训练策略。具体说就是每迭代10次更改输入图片大小。
    在这里插入图片描述

    2. Faster

    2.1 Darknet-19

    在这里插入图片描述

    2.2 Training for classification

    我们首先在ImageNet数据集上训练160个epochs,其中在训练期间使用的数据增强方式有:随机裁剪、旋转以及色度,饱和度和对比度的调整。

    然后我们在对网络初步训练后,微调了我们的网络,采用了448x448作为输入,训练10个epochs

    2.3 Training for detection

    将网络转换为进行检测,我们删除最后一个卷积层,然后添加3个3x3的卷积层,每个卷积层有1024个filter,而且每个后面跟着一个1x1卷积层,其filter的个数由需要检测的类别数来确定

    参考

    [1] https://www.cnblogs.com/limbercode/p/16154869.html#_label0
    [2] https://blog.51cto.com/u_15490502/5219745
    [3] https://www.jianshu.com/p/87645a11b510
    [4] https://blog.csdn.net/qq_38375203/article/details/125502438
    [5] https://blog.csdn.net/weixin_43694096/article/details/123523679
    [6] https://zhuanlan.zhihu.com/p/366370644
    [7] https://baijiahao.baidu.com/s?id=1717730887250972083&wfr=spider&for=pc
    [8] http://www.qb5200.com/article/391620.html
    [9] https://blog.csdn.net/m0_37940804/article/details/116244606
    [10] https://blog.csdn.net/qq_42735631/article/details/121456856
    [11] https://www.captainai.net/diffie/
    [12] https://blog.csdn.net/weixin_39190382/article/details/125945387?spm=1001.2014.3001.5501

  • 相关阅读:
    text 文本属性
    盘点企业数据管理的五种高效工具
    WinCC趋势跨度设置(时间范围)
    如何让chatGPT给出高质量的回答?
    2022下半年软件评测师真题评析
    记录一次服务器CPU负载高,利用率正常的处理方法
    Linux查找运行的Python脚本路径
    JUC在深入面试题——三种方式实现线程等待和唤醒(wait/notify,await/signal,LockSupport的park/unpark)
    ESP32网络开发实例-从SD卡加载Web页面文件
    DHTMLX Gantt 8.0.5 Crack -甘特图
  • 原文地址:https://blog.csdn.net/weixin_39190382/article/details/126545338
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号