码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Video Caption / 视频字幕:数据集总结


    目录

    一、背景

    二、介绍

    2.1 MSR-VTT

    2.2 MSVD

    2.3 VATEX

    三、参考文献


    下载地址:

    MSRVTT:https://disk.pku.edu.cn/#/link/BE39AF93BE1882FF987BAC900202B266

    MSVD:https://disk.pku.edu.cn/#/link/CC02BD15907BFFF63E5AAE4BF353A202

    感谢Peng Jin的收集整理。

     VATEX:VATEX 视频字幕数据集 / 数据集 / 超神经

                 原视频文件下载https://github.com/yangbang18/CARE/blob/master/README_DATA.md

    一、背景

    Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结-CSDN博客Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结https://blog.csdn.net/Crystal_remember/article/details/133126871     上篇文章总结介绍了Video Caption / 视频字幕的常用指标,本文接着总结Video Caption / 视频字幕的常用数据集。

         目前Video Caption / 视频字幕常用数据集主要有MSR-VTT[1]、MSVD[2]、VATEX[3]。下main进行分别介绍。

    二、介绍

    2.1 MSR-VTT

            MSR-VTT是一个通用的视频字幕数据集,包括10000个视频片段,每个片段都注释有20个字幕。平均地,每个视频剪辑持续约15秒。标准情况下通常使用6153个片段进行训练,497个片段用于验证,2090个片段用于测试。

            如下为MSR-VTT数据集中的片段和标注的语句。每个片段包含四个帧来表示视频片段和五个人类标记的句子。

    2.2 MSVD

            MSVD包含1970个视频,每个视频片段有40个字幕。每个视频片段的平均持续时间约为10秒。常见情况下,包括使用1200个视频进行训练,100个视频进行验证,670个视频进行测试。数据集示例如下。

    2.3 VATEX

             VATEX是一个包含约41250个视频剪辑的大规模数据集,和 82.5 万中英文视频描述,其中包括超过 20.6 万描述是中英平行翻译对。每个视频片段的持续时间在10秒之间,每个片段手动注释10个英文字幕。

    每个视频具备 10 个英文描述和 10 个中文描述,分别来自 20 个人类标注者。所有这些都描绘了相同的视频,因此彼此之间是平行的,而最后五个是彼此成对的翻译。

    三、参考文献

    [1]Jun Xu, Tao Mei, Ting Yao, and Yong Rui. MSR-VTT: A large video description dataset for bridging video and language. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5288–5296, 2016.

    [2]David L. Chen and William B. Dolan. Collecting highly parallel data for paraphrase evaluation. In Annual Meeting of the Association for Computational Linguistics, 2011.

    [3]Xin Wang, Jiawei Wu, Junkun Chen, Lei Li, Yuan-Fang Wang, and William Yang Wang. Vatex: A large-scale, highquality multilingual dataset for video-and-language research. In IEEE/CVF International Conference on Computer Vision, 2019

          

  • 相关阅读:
    当zmq 和 docker 都要绑定一个端口时,怎么不修改端口号就能解决冲突?
    多模态大语言模型综述(中)-算法实用指南
    Vue和React中常用的组件间通信方式
    [PHP]关联和操作MySQL数据库然后将数据库部署到ECS
    计算机考研 | 2016年 | 计算机组成原理真题
    【Linux】【开发】Linux环境下如何在代码中产生随机数
    【JAVA UI】HarmonyOS怎么判断Service怎么在后台运行
    Win10电脑需要安装杀毒软件吗?
    首次开通社交账号亲自招聘人才 周星驰都在关注的Web3 你知道是什么吗?
    社交创新:Facebook的技术与产品发展
  • 原文地址:https://blog.csdn.net/Crystal_remember/article/details/133589025
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号