笔者从人工智能小白的角度,力求能够从原文中解析出最高效率的知识。
之前看了很多博客去学习AI,但发现虽然有时候会感觉很省时间,但到了复现的时候就会傻眼,因为太多实现的细节没有提及。而且博客具有很强的主观性,因此我建议还是搭配原文来看。
请下载原文《Spatio-Temporal Graph Routing for Skeleton-Based Action Recognition》搭配阅读本文,会更高效哦!
若要更好地理解此篇文章,请参考其改进的前身:
【读前请读】:《论文超详细精读|六千字:ST-GCN》
以及,同样以ST-GCN为基础改进的:
【读后再读】:《论文超详细精读|万字:2s-AGCN》
【读后再读】:《论文超详细精读|八千字:AS-GCN》
首先,看完标题,摘要和结论,我了解到了以下信息:
1.提出了一种新的基于骨架的动作识别的时空图路由(STGR)方法,该方法自适应地学习物理上分离的骨骼关节的内在高阶连通性关系,解决了预定义人体结构的不足。
2.具体来说,该方法由两部分组成:空间图路由(SGR)、时间图路由(TGR)。SGR的目的是基于子群聚类在空间维度上发现关节之间的连通性关系,而TGR则是通过测量关节节点时间轨迹之间的相关程度来探索结构信息。
3.该方法被自然地无缝地整合到图卷积网络(GCNs)框架中,生成一组骨架-关节-连通性图,并进一步输入到分类网络中。
4.此外,还对图节点的接受域进行了深入的分析,说明了该方法的必要性。
传统的基于骨骼的动作识别方法主要关注于手工制作的关节运动动态特征,如轨迹的协方差矩阵。后有基于CNN的端到端的方法被提出,以多种方式将原始骨架转换为伪图像。
循环神经网络有效地模拟了时间依赖性。为了更好地处理复杂的时空变化因素,宋、刘等人提出了保证鲁棒性要求的注意机制,如关键帧选择(Song et al. 2017)和全局信息关节挖掘(Liu et al. 2017)。
两种方法:1.谱域:基于图傅里叶变换。2.空间域:学习迭代聚合每个节点的领域作为其新的隐式表示。本文采用第二种。
在本节中,
三维人体骨架记为
X
=
{
x
n
t
}
∈
R
C
i
n
×
T
×
N
X = \{x^t_n\}∈\mathbb{R}^{C_{in}×T ×N}
X={xnt}∈RCin×T×N,有
T
T
T 帧和
N
N
N 个关节。每个个体都表示为第
n
n
n 个关节在第
t
t
t 个时间步处的
x
y
z
xyz
xyz 坐标特征向量,因此
C
i
n
=
3
C_{in} = 3
Cin=3。
首先将输入的三维骨架序列分别转换为时间帧骨架轨迹和节点轨迹。空间图路由器(SGR)和时间图路由器(TGR)分别生成新的骨架-关节-连通性图。ST-GCN接收这些图形并输出操作类。
在现实世界的场景中,关节通常聚集在一起来表达一个特定的动作。换句话说,每个关节的位置和成对关节之间的距离编码了关系的强度,这对引导信息流至关重要。
为了提取空间连通图,首先对每个帧骨架 X t ∈ R C i n × N X^t∈\mathbb{R}^{C_{in}×N} Xt∈RCin×N使用非参数图割聚类方法(Shi and Malik 2000),形成 K K K 个子群。对于每个子组,其视为一个完全连通图,即每两个节点在同一子组内是连通的。通过这种方式,作者为每个帧 t t t 定义一个空间连通图,并将所有这些图集合起来形成“空间图池”。
由于已经获得了一系列空间连通图,作者的目标是选择信息最丰富的一个作为代表。为此,作者提出了一种用于图融合的联合学习帧重要性的帧注意机制。如图3所示,我们以挤压和激发的方式对框架注意力进行建模(Hu、Shenin和Sun 2018)。首先采用7×7的大卷积来聚集局部特征。然后通过全局平均汇集层进行挤压操作,以获得中间特征。
在编码的特征空间中对成对节点关系进行建模。作者用归一化点积来度量这种关系。实现:给定每个轨迹的编码特征 v = [ v 1 , . . . , v n ] v=[v_1,...,v_n] v=[v1,...,vn],成对相似度被提出。
1.模型由STGR和ST-GCN构建。STGR负责探索空间和时间域中语义相关关节的内在连通性关系。ST-GCN将3D骨架和图形作为输入输出动作类别。
2.ST-GCN堆叠了多个用于表征学习的“GCN-TCN”单元,其中每个“GCN-TCN”单元被视为一层。每个GCN单元在空间维度上与缺省图GDefault和学习图Gspat和Gtemp进行图形卷积运算,而TCN单元在时间维度上应用TCN单元来获得高级特征图feature map。
3种连接类型的比较:
其中
S
=
{
G
d
e
f
a
u
l
t
,
G
s
p
i
t
,
G
t
e
m
p
}
S = \{\mathcal{G}^{default}, \mathcal{G}^{spit}, \mathcal{G}^{temp}\}
S={Gdefault,Gspit,Gtemp}。
M
G
M_\mathcal{G}
MG 和
w
G
l
w^l_\mathcal{G}
wGl 是对应于特定图的掩码和卷积。
作者将多个GCN-TCN单元进行叠加,然后应用全局平均池化和全连接层,得到了动作评分。
在本节中,作者以分析的方式验证了STGR的必要性。首先介绍了“感受野”的直观定义,然后指出人体骨骼的“星形结构”使得肢体节点间的特征难以共享的情况。
上图,说明了3种类型的连接模式。预定义的骨架组织自己形成一个“星形结构”,其中一个躯干连接头部和所有的四肢。这样,躯干中心关节的伸展速度会远远快于肢体边缘关节,导致严重的不平衡。
上图中检查了肢体关节(右手)和躯干关节(下背部)的感受野。
继之前的文献(Xu et al. 2018)之后,作者将图卷积的扩展转化为
k
k
k 步随机游走过程。颜色表示节点接收到的信息的比例。如上图所示,经过3步扩散后,两个关节接收到的信息范围都比较小。经过8步,躯干关节几乎可以接收全局信息,而右手关节仍在小范围内挣扎。
而本文提出的STGR方案,从另一个角度来看,通过关节的位置或运动来学习成对连接,打破了上述限制。如前两幅图所示,SGR学习图主要集中在局部聚集,其中紧密的节点具有强连接。另一方面,TGR学习图从长期来看主要关注相关的关节。STGR方案有效地扩大了每个关节的接受野,进一步促进了训练过程。