• AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点


    Githubhttps://github.com/buptxyb666/AdaptivePose 

    论文地址:https://arxiv.org/pdf/2210.04014.pdf

    目录

    一、动机

    二、相关工作

    三、方法

    四、效果

    五、写在后面


    一、动机

            多人姿态估计一直以来都遵循top-down和bottom-up两种范式,不管哪一种,实际上都是两阶段方法:top-down是先检测人体,然后估计关节点;bottom-up是先估计出关节点,然后,通过Grouping之类的操作分成一个个人体实例。这就导致整个过程的效率不高。因此,本文提出了一种紧凑高效的多人姿态估计pipline:将人体表示为一个中心点和7个人体部位自适应点,以这种更为精细的人体模型去编码更多不同的姿态,并在一次推理(单阶段)中建模人体实例和关节点的对应关系。

    二、相关工作

            主要看图1就行:

    • (a):传统人体表示方法,直接就是用各个关节点 ,多见于两阶段方法和一些bottom-up方法;
    • (b):Center-to-joint表示方法,是CentNet(Zhou, etc)提出的方法,从中心点回归各个关节点的偏移;
    • (c):层级结构的表示方法,SPM (Nie et al. 2019);
    • (d):本文的方法,自适应点集表示人体部位;

            作者认为,(a)类方法是两阶段,无疑不够高效;(b)类方法过不够精细,难以从中心点回归到准确的offset;(c)类方法又太复杂了,容易产生累计误差;自然只有(d)类方法是最合适的。

    三、方法

            提出的人体表示方法如图2所示:

            其将人体分为七个部位: 脸部、肩部、左臂、右臂、臀部、左腿、右腿,每个人体部位又包含了对应的人体关节点。

            基于这种人体表示方法,可以先从中心点回归七个自适应的人体部位点,然后从人体部位点回归到具体的人体关节点。

            为了达到这个效果,作者提出了一个网络结构,可以one-stage推理完成多人姿态估计,如图3所示: 

            整个架构简单描述如下:

    • 输入图片经过backbone得到语义feature map, 然后送入三个模块:
      •  Enhanced Center-aware Branch:增强的中心点感知分支,用于感知各种姿态和尺度的人体;
      • Part Perception Module: 部位感知模块,对每个人体实例,回归对应的七个自适应人体部位点;
      •  Two-hop Regression Branch:二跳回归分支,用于从人体不问点回归具体的关节点;注意,这里是以人体部位为一跳节点,回归的不是从人体部位到关节点的offset,而是从中心点到关键点的offset,也即实现了间接的center-to-joint(相比之下,CenterNet是直接的center-to-joint);

            所以整体上,作者实现了介于图1中(b)、(c)之间的一种方式,先检测到人体中心点,然后回归到人体部位,最后回归到具体的关节点。

    四、效果

    五、写在后面

            这篇文章算是提出了一种不同以往的人体表示方法,并提出了一个center-to-part-to-joint的范式来进行多人姿态估计,并通过网络设计可以one-stage推理。

    个人感觉其有创新,但还是介于前期工作范畴之内,不是颠覆性创新,但这种方式证明有效仍值得学习。

  • 相关阅读:
    通过玩游戏学会AWS
    TCP套接字【网络】
    【数据库系统】连接查询
    Pycharm 安装第三方库numpy,显示超时?
    python学习笔记(12)---(内置模块)
    一种速度引导的哈里斯鹰优化算法
    【Java基础】自增自减、关系、逻辑及三元<运算符
    Transformer预测 | Pytorch实现基于Transformer 的锂电池寿命预测(CALCE数据集)
    内存泄漏定位工具之 valgrind 使用
    Leetcode力扣 MySQL数据库 1841 联赛信息统计
  • 原文地址:https://blog.csdn.net/oYeZhou/article/details/127422990