AdaptivePose: 人体姿态估计新思路，将人体部位表示为自适应点

AdaptivePose: 人体姿态估计新思路，将人体部位表示为自适应点
Github：https://github.com/buptxyb666/AdaptivePose

论文地址：https://arxiv.org/pdf/2210.04014.pdf

目录

一、动机

二、相关工作

三、方法

四、效果

五、写在后面

一、动机

多人姿态估计一直以来都遵循top-down和bottom-up两种范式，不管哪一种，实际上都是两阶段方法：top-down是先检测人体，然后估计关节点；bottom-up是先估计出关节点，然后，通过Grouping之类的操作分成一个个人体实例。这就导致整个过程的效率不高。因此，本文提出了一种紧凑高效的多人姿态估计pipline：将人体表示为一个中心点和7个人体部位自适应点，以这种更为精细的人体模型去编码更多不同的姿态，并在一次推理（单阶段）中建模人体实例和关节点的对应关系。

二、相关工作

主要看图1就行：
- （a）：传统人体表示方法，直接就是用各个关节点，多见于两阶段方法和一些bottom-up方法；
- （b）：Center-to-joint表示方法，是CentNet（Zhou, etc）提出的方法，从中心点回归各个关节点的偏移；
- （c）：层级结构的表示方法，SPM (Nie et al. 2019)；
- （d）：本文的方法，自适应点集表示人体部位；
        作者认为，（a）类方法是两阶段，无疑不够高效；（b）类方法过不够精细，难以从中心点回归到准确的offset；（c）类方法又太复杂了，容易产生累计误差；自然只有（d）类方法是最合适的。

三、方法

        提出的人体表示方法如图2所示：

        其将人体分为七个部位：脸部、肩部、左臂、右臂、臀部、左腿、右腿，每个人体部位又包含了对应的人体关节点。

        基于这种人体表示方法，可以先从中心点回归七个自适应的人体部位点，然后从人体部位点回归到具体的人体关节点。

        为了达到这个效果，作者提出了一个网络结构，可以one-stage推理完成多人姿态估计，如图3所示：

        整个架构简单描述如下：
- 输入图片经过backbone得到语义feature map, 然后送入三个模块：
  - Enhanced Center-aware Branch：增强的中心点感知分支，用于感知各种姿态和尺度的人体；
  - Part Perception Module：部位感知模块，对每个人体实例，回归对应的七个自适应人体部位点；
  - Two-hop Regression Branch：二跳回归分支，用于从人体不问点回归具体的关节点；注意，这里是以人体部位为一跳节点，回归的不是从人体部位到关节点的offset，而是从中心点到关键点的offset，也即实现了间接的center-to-joint（相比之下，CenterNet是直接的center-to-joint）；
所以整体上，作者实现了介于图1中（b）、（c）之间的一种方式，先检测到人体中心点，然后回归到人体部位，最后回归到具体的关节点。

四、效果

五、写在后面

这篇文章算是提出了一种不同以往的人体表示方法，并提出了一个center-to-part-to-joint的范式来进行多人姿态估计，并通过网络设计可以one-stage推理。

个人感觉其有创新，但还是介于前期工作范畴之内，不是颠覆性创新，但这种方式证明有效仍值得学习。
相关阅读:
通过玩游戏学会AWS
TCP套接字【网络】
【数据库系统】连接查询
 Pycharm 安装第三方库numpy，显示超时？
python学习笔记（12）---（内置模块）
一种速度引导的哈里斯鹰优化算法
 【Java基础】自增自减、关系、逻辑及三元＜运算符
 Transformer预测 | Pytorch实现基于Transformer 的锂电池寿命预测（CALCE数据集）
内存泄漏定位工具之 valgrind 使用
 Leetcode力扣 MySQL数据库 1841 联赛信息统计
原文地址：https://blog.csdn.net/oYeZhou/article/details/127422990

一、动机

二、相关工作

三、方法

四、效果

五、写在后面