
感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:

C
~
\widetilde C
C
表示平均池化后的特征,
E
y
t
−
1
E_{y_{t-1}}
Eyt−1表示上一时刻输出词的embedding



Ablative Studies

总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现
Performance Comparison

P
P
P表示模型使用了预训练任务;
R
L
RL
RL表示使用了强化学习策略