从单目视频学习捕捉人体运动估计三维人体姿态和形状
现有的方法主要依靠循环或卷积运算对这些时间信息进行建模,这限制了捕捉人体运动非局部上下文关系的能力。
GAP:自注意模块(非局部块)计算的注意map不稳定,容易导致注意力偏移,忽略主要目标物的动作或特征。
可通过引入NSSM先验知识,扩展自注意模块的学习,自适应重新校准序列中需要注意的问题,获得特征连续性依赖。
注意力MAP:红色-高注意,蓝色-低注意;
注意力机制与视觉相关工作:(它能够捕获长期依赖关系,并有选择地集中于输入的相关子集。)
[5] Ding-Jie Chen, He-Yen Hsieh, and Tyng-Luh Liu. Adaptive image transformer for one-shot object detection. In CVPR, 2021. 3
[9] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR