论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】

Semantic Tag Augmented XlanV Model for Video Captioning

发表：ACMM 2021
代码：ST-XlanV
idea：通过预训练的模型生成semantic tag减小模态之间的差异，增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment

详细设计

在这里插入图片描述
感觉ACMM这几篇的思路都很类似，都和原始的X-Linear那篇很像，只是将其扩展到多模态。

1. Semantic Tag Augmented XlanV Model

大致框架与上一篇类似，都是对multi-modal feature分别通过XLAN encoder提取高阶特征，然后concate之后输入cross encoder中提取包含cross-modal interactions的feature，最后输入LSTM中解码并生成captions

2. Cross-modal Attention

各个特征通过各自的encoder编码后加上位置信息，然后concate在一起并输入一个XLAN encoder中，输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下：
在这里插入图片描述
$\widetilde C$ 表示平均池化后的特征， $E_{y_{t-1}}$ 表示上一时刻输出词的embedding

3. Pre-training Tasks

Tag Alignment Prediction (TAP)：用其他标记随机替换当前视频的语义标记，概率为50%，并预测标记是否已被替换
Mask Language Modeling (MLM)：与bert类似，随机mask掉15%的输入的句子的词
Video Captioning(VCAP)：caption generation

实验结果

Ablative Studies

总结：semantic tag是架起vision和language的桥梁；预训练任务有利于模型能够充分利用multi-modal interactions；强化学习策略能够改善模型的表现
Performance Comparison

$P$ 表示模型使用了预训练任务； $R L$ 表示使用了强化学习策略

相关阅读:
一阶惯性滤波器的传递函数与时域实现
解决AndroidStudio Gradle只有testDebugUnitTest
Discuz小鱼游戏风影传说商业GBK+UTF8版模板/DZ游戏网站模板
Matlab如何选择读取dat格式数据？
基于JavaSwing开发中国象棋有效的设计与实现+论文+PPT+任务书+检查表毕业设计
List获取差集产生的问题
力扣刷题日志——字符串和栈
windows的最佳选项卡式窗口管理器软件TidyTabs
【数据结构】栈和队列
信息化发展28

原文地址：https://blog.csdn.net/hei_hei_hei_/article/details/125620230