《TubeR: Tubelet Transformer for Video Action Detection》论文+代码分析
1.提出了一种用于人体动作检测的Tubes Transformer的框架
2.基于tubelet-query和tubelet-attention能够生成任意位置和规模的Tubes
3.Classification Head能够聚合短期和长期的上下文信息



Tubelet query: 作者提出了一种通过学习一小组tubelet queries来代替手动设计3D anchors的方法,从而更好地表示tubelets的动态特性。其中,每个tubelet query包含了Tout个box query embeddings,用来预测tubelet在每个时间帧上的位置。

Context aware classification head:


我们从骨干特征中查询动作特定特征 Ftub,然后从一些上下文特征 Fcontext 中获取其他信息来增强 Ftub,得到最终的分类特征 Fc。
当我们将 Fcontext 设置为骨干特征 Fb 以利用短期上下文信息时,称其为短期上下文头。
短期上下文头采用了自注意力层和交叉注意力层来处理上下文信息和动作特征。
Action switch regression head:



痛点:
-首先,这些方法只依赖于检测置信度高的对象,可能会忽略一些重要的对象,这些对象可能太小而无法被检测,或者是检测模型无法识别的新对象。例如,在图1中,演员正在与一些未被检测到的对象互动。
其次,这些模型很难检测与当前帧中不存在的对象相关的动作。例如,考虑动作“指向(一个对象)”,演员指向的对象可能不在当前帧中。

贡献:

我们使用 Detectron [9] 进行人体姿势检测,并创建一个包围人手位置的边界框。遵循最先进的方法[40]、[32]、[28],我们使用 Faster-RCNN [31] 来计算对象边界框建议。视频特征提取器是一个 3D CNN 主干网络 [5],姿势编码器是受 [51] 启发的轻量级空间变换器。我们应用 ROIAlign [12] 来修剪视频特征并提取人、手和物体特征。
The RGB Branch:
RGB 分支包含三个主要组件,如图 2 所示。每个组件都执行一系列操作以了解有关目标人员的特定信息。
人物交互模块学习当前帧中人与人之间的交互(或者当帧仅包含一个主体时的自我交互)。
物体和手交互模块分别模拟人-物体和人-手交互。
每个交互单元的核心是交叉注意力计算,其中查询是目标人(或前一个单元的输出),键和值来自对象或手特征,具体取决于哪个模块我们现在处于(见图 3)。

The Pose Branch:





Backbone: 我们采用 SlowFast 网络 [5] 作为我们的视频主干网。
Person and Object Detector: 我们从数据集中的每个视频中提取关键帧,并使用[16]中检测到的人物边界框进行推理。作为目标检测器,我们采用 Faster-RCNN [31] 和 ResNet-50-FPN [21, 47] 主干网络。
Keypoints Detection and Processing: 我们采用 Detectron [9] 的姿势模型。作者使用在 ImageNet 上预训练的 Resnet-50-FPN 主干网络进行对象检测。
VideoMAE的自监督视频预训练方法,其使用高比例的自定义视频管道遮罩video tube masking来进行视频重构,从而鼓励提取更有效的视频表示。
作者发现,高比例的遮罩仍然可以使VideoMAE表现良好,1)极高比例的掩蔽率(即 90% 到 95%)仍然对 VideoMAE 产生了良好的性能。时间冗余视频内容比图像具有更高的掩蔽率。
并且该方法可以在非常小的数据集上取得令人印象深刻的结果。
此外,作者还发现,数据质量比数据数量更重要,因为预训练数据集与目标数据集之间的领域转移是一个重要因素。
与图像数据相比,视频数据包含了更多的帧,也具有更加丰富的运动信息。


解决方法:



