目录
多人姿态估计一直以来都遵循top-down和bottom-up两种范式,不管哪一种,实际上都是两阶段方法:top-down是先检测人体,然后估计关节点;bottom-up是先估计出关节点,然后,通过Grouping之类的操作分成一个个人体实例。这就导致整个过程的效率不高。因此,本文提出了一种紧凑高效的多人姿态估计pipline:将人体表示为一个中心点和7个人体部位自适应点,以这种更为精细的人体模型去编码更多不同的姿态,并在一次推理(单阶段)中建模人体实例和关节点的对应关系。

主要看图1就行:
作者认为,(a)类方法是两阶段,无疑不够高效;(b)类方法过不够精细,难以从中心点回归到准确的offset;(c)类方法又太复杂了,容易产生累计误差;自然只有(d)类方法是最合适的。
提出的人体表示方法如图2所示:

其将人体分为七个部位: 脸部、肩部、左臂、右臂、臀部、左腿、右腿,每个人体部位又包含了对应的人体关节点。
![]()
![]()
基于这种人体表示方法,可以先从中心点回归七个自适应的人体部位点,然后从人体部位点回归到具体的人体关节点。
为了达到这个效果,作者提出了一个网络结构,可以one-stage推理完成多人姿态估计,如图3所示:

整个架构简单描述如下:
所以整体上,作者实现了介于图1中(b)、(c)之间的一种方式,先检测到人体中心点,然后回归到人体部位,最后回归到具体的关节点。


这篇文章算是提出了一种不同以往的人体表示方法,并提出了一个center-to-part-to-joint的范式来进行多人姿态估计,并通过网络设计可以one-stage推理。
个人感觉其有创新,但还是介于前期工作范畴之内,不是颠覆性创新,但这种方式证明有效仍值得学习。