码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】


    Semantic Tag Augmented XlanV Model for Video Captioning

    • 发表:ACMM 2021
    • 代码:ST-XlanV
    • idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment

    详细设计

    在这里插入图片描述
    感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。

    1. Semantic Tag Augmented XlanV Model

    大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions

    2. Cross-modal Attention

    各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
    在这里插入图片描述
    C ~ \widetilde C C 表示平均池化后的特征, E y t − 1 E_{y_{t-1}} Eyt−1​​表示上一时刻输出词的embedding

    3. Pre-training Tasks

    • Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换
      在这里插入图片描述
    • Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词
      在这里插入图片描述
    • Video Captioning(VCAP):caption generation
      在这里插入图片描述

    实验结果

    • Ablative Studies
      在这里插入图片描述
      总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现

    • Performance Comparison
      在这里插入图片描述
      P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略

  • 相关阅读:
    一阶惯性滤波器的传递函数与时域实现
    解决AndroidStudio Gradle只有testDebugUnitTest
    Discuz小鱼游戏风影传说商业GBK+UTF8版模板/DZ游戏网站模板
    Matlab如何选择读取dat格式数据?
    基于JavaSwing开发中国象棋有效的设计与实现+论文+PPT+任务书+检查表 毕业设计
    List获取差集产生的问题
    力扣刷题日志——字符串和栈
    windows的最佳选项卡式窗口管理器软件TidyTabs
    【数据结构】栈和队列
    信息化发展28
  • 原文地址:https://blog.csdn.net/hei_hei_hei_/article/details/125620230
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号