Learning to Detect Human-Object Interactions
摘要
我们研究了在静态图像中检测人-物交互(HOI)的问题,定义为预测一个人和一个对象的边界框,该边界框带有一个交互类标签,将他们连接起来。HOI检测是计算机视觉中的一个基本问题,因为它提供了有关被检测对象之间交互的语义信息。我们引入了HICO-DET,这是一个新的用于HOI检测的大型基准,通过使用实例注释来增强当前的HICO分类基准。为了解决这个问题,我们提出了基于人类目标区域的卷积神经网络(HO-RCNN)。HO-RCNN的核心是交互模式,这是一种新的DNN输入,用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明,我们的HO-RCNN通过交互模式利用人-物空间关系,显著提高了HOI检测的性能。
1.导言
人机交互的视觉识别(例如“骑马”、“吃三明治”)是计算机视觉中的一个基本问题。成功的HOI识别不仅可以识别对象,还可以识别对象之间的关系,提供对视觉场景语义的更深入理解,而不仅仅是对象识别[19,32,12]或对象检测[8,29,23,3]。如果没有HOI识别,图像只能被解释为对象边界框的集合。人工智能系统只能获取诸如“棒球棒在右角”和“一个男孩靠近棒球棒”之类的信息,但不能获取“一个戴帽子的男孩正在挥动棒球棒”之类的信息。HOI识别最近在计算机视觉领域引起了越来越多的关注[10,34,33,6,25,4,5,28,13]。虽然取得了重大进展,但识别HOI的问题仍远未得到解决。一个关键问题是,这些方法已经使用具有有限HOI类别的小型数据集评估,例如PASCAL VOC[7]中的10个类别和Stanford 40 Actions[35]中的40个类别。此外,这些数据集仅为每个对象类别提供有限的交互类。例如,在Stanford 40 Actions中,“修理汽车”是唯一涉及对象“汽车”的HOI类别。目前尚不清楚一个成功的算法是否能够真正识别交互(例如“修复”),或者它是否只是识别当前对象(例如“汽车”)。[1]最近提出了这个问题,它引入了“人类与公共对象交互”(HICO),这是一个大型图像数据集,包含600个HOI类别,超过80个公共对象类别,并针对每个对象类别提供了一组不同的交互。[1]中使用HICO为图像级HOI分类提供了第一个基准,即对图像中是否存在HOI类进行分类。
虽然HICO的引入可能会促进HOI分类研究的进展,但HOI识别仍然无法完全解决,因为只有HOI分类计算机无法准确定位图像中当前的交互。为了能够将HOIs定位到图像区域,我们提出了一个新的问题:检测静态图像中的人-物交互。HOI检测的目标不仅是为了确定是否存在HOI,而且是为了估计它们的位置。在形式上,我们将HOI检测问题定义为预测一对边界框,首先针对一个人,其次针对一个对象,并识别交互类,如图1所示。这与传统的对象检测不同,后者的输出仅为一个带有类标签的边界框。通过识别被检测对象之间的交互关系,解决HOI检测将弥合HOI分类和对象检测之间的差距。
本文的贡献有两个方面:(1)通过使用实例注释来扩充当前的HICO分类基准,我们引入了第一个大型HOI检测基准HICO-DET。HICO-DET提供了超过150K个带注释的人类对象对实例,跨越了HICO中的600个HOI类别,即每个HOI类别平均有250个实例。(2) 我们提出了基于人类对象区域的卷积神经网络(HORCNN),这是一个基于DNN的框架,它将基于区域的对象检测器[9,8,29]从检测单个边界框扩展到了一对边界框。HO-RCNN的核心是交互模式,这是一种新的DNN输入,用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明,我们的HO-RCNN通过交互模式利用人-物空间关系,显著提高了HOI检测的性能。数据集和代码可在http://www.umich.edu/∼ywchao/hico/上公开获取。
2.相关工作
HOI识别 自2009年以来,有关HOI认可的工作激增。这些工作中产生的结果根据动作分类[34,33,6,25,4,5,28,13]、目标检测[34]或人体姿势估计[34,5]进行评估;没有一项直接通过HOI检测进行评估。Chao等人[1]最近为HOI分类提供了一个大型图像数据集“HICO”[1,26]。然而,HICO并没有提供用于评估HOI检测的ground-truth注释,这促使我们通过增强HICO来构建一个新的基准。我们还重点介绍了其他一些最新的数据集。Gupta和Malik[11]通过将交互的人和对象联系起来,并标记它们