码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 达摩院WIDER FACE榜首近两年人脸检测MogFace CVPR论文深入解读


     团队模型、论文、博文、直播合集,点击此处浏览

    一、开源

    1.)论文链接:MogFace: Towards a Deeper Appreciation on Face Detection

    2.)模型&代码:https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

    3.)简易应用:https://modelscope.cn/studios/damo/face_album/summary

    二、背景

            人脸检测算法是在一幅图片或者视频序列中检测出来人脸的位置,给出人脸的具体坐标,一般是矩形坐标。它是人脸关键点、属性、编辑、风格化、识别等模块的基础。本文通过实验观察发现,对应设计出如下三个模块构建出一个高性能的人脸检测器MogFace:1.)动态标签分配策略(dynamic label assignment),2.)误检上下文相关性分析(FP context analysis),3.)金字塔层级监督信号分配(pyramid layer level GT assignment)。该方法的模型在WIDER FACE榜单上取得了截止目前将近两年的六项第一。

    三、观察

    1.1 动态标签分配策略(dynamic label assignment)

             为每个anchor点定义cls和reg目标是训练检测器的必要过程,在人脸检测中这个过程称之为标签分配(Label Assignment)。最近,标签分配吸引了诸多研究人员的注意,在人脸检测及通用物体检测领域提出了一系列方法,例如:OTA、PAA,ATSS以及HAMBox。 如示例图(a),标签分配过程依赖4个元素。分别是:1.)offline information: a.)IoU (anchor与ground-truth框的IoU) , b.)CPD (anchor与ground-truth中心点的距离) ,2.)online information: a.)PCS (cls分支对anchor的前景分类概率值) ,b.)PLC (reg分支对anchor的预测坐标值)。

            但是,目前的标签分配方法存在三个问题。1.)若只用offline information做静态标签分配,那么会有很多具备更强回归能力的negative anchor无法被有效利用起来,会导致标签分配策略欠饱和。2.)若过度信任online information动态调整正负anchor时(如OTA和Hambox),由于online information属于预测信息可信度不高,会导致标签分配策略错误多, 极端情况下会陷入trivial 的分配结果。 3.) 若引入大量超参 (K in ATSS, alpha in OTA)做标签分配,则当数据集分布发生变化时,需要大量的调参时间。

    1.2 误检上下文相关性分析(FP context analysis)

            在实际应用中,人脸检测器并不会十分care AP的指标,而对误检(false positive [FP])的数量十分敏感。针对这个问题,目前的做法是收集大量带有FP的图片去fine-tune或者from scratch训练检测器,来帮助检测器了解更多范式的FP,但是我们发现有些频繁出现在训练集中的的FP在这种策略下无法有效解决。这篇文章,我们发现了一个有趣的现象:对于同一个FP,当它的context发生变化时,对于同一个检测器来说它可能就不是FP了。如下图(c),最左面的图片里日历是FP,剩余两张日历都不是FP。

    1.3 金字塔层级监督信号分配(pyramid layer level GT assignment)

            scale-level 数据增强策略常常作通用物体检测以及人脸检测中解决scale variance主要手段。如图(b)所示,相对于COCO,人脸检测数据集Wider Face 中人脸的尺度分布更为严峻。为此,我们分提出了一个新的问题,如何合理的分配ground-truth 在不同pyramidlayer上的分布?即检测器的性能与每个pyramidlayer匹配ground-truth的个数之间的关系是什么?是否越多越好?通过严格的对比实验我们发现:“对于所有的pyramid layer来说,并不是这个pyramid layer匹配到越多的ground-truth就越好”。这说明要挖掘每一个pyramidlayer的最好性能,需要控制在这个pyramidlayer上的ground-truth分配的比例。

    四、方法

    2.1 Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)

            针对上述“动态标签分配策略(dynamic label assignment)”观察分析,本文提出了在里面一种自适应的在线增量锚挖掘策略(Ali-AMS),它基于standard anchor matching 策略,并进一步adaptive 帮助outlier face匹配anchor。如下:

    2.2 Hierachical Context-Aware Module (HCAM)

            基于上述“误检上下文相关性分析(FP context analysis)”观察分析,发现“对于同一个FP,当它的context发生变化时,对于同一个检测器来说他可能就不是FP了”,我们进一步提出了一个two-step的模块来显示的encode context 信息来帮助区分FP和TP,显著减少了FP的数量。

    2.3 Selective Scale Enhancement Strategy (SSE)

            基于上述的“金字塔层级监督信号分配(pyramid layer level GT assignment)”观察分析,发现“对于所有的pyramid layer来说,并不是这个pyramid layer匹配到越多的ground-truth就越好”,我们提出通过控制pyramid layer 匹配的ground-truth的数量来最大化pyramid layer 的性能。

    五、实验

    3.1 Ablation Study

    3.2 Comparison with sota

    六、应用

            接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

    https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

    https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

    https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

    https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

    https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

    https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

    https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

    https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

    https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

    https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

    https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

    https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

  • 相关阅读:
    @Haproxy安装配置
    7.11 特征值
    全国地级市城镇化和协调发展指数测算数据(2005-2019)六份数据
    Django框架简单搭建增删改查页面 Django请求生命周期流程图
    树莓派ubuntu上配置miniconda并创建虚拟环境
    SpringClouldAlibaba 之 Sentinel流控规则同步到nacos(并重新生成镜像)
    rook-ceph部署
    【微服务 从0开始 】Spring Cloud —— 比xml更适合的配置文件yaml
    抖音实战~取关博主
    四甲基罗丹明TRITC/羧甲基荧光素6-FAM修饰PLGA纳米载体,TRITC-PLGA,6-PEG-FAM-PEG-PLGA
  • 原文地址:https://blog.csdn.net/sunbaigui/article/details/128017485
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号