• 【Eye-tracking】DIDEC: The Dutch Image Description and Eye-tracking Corpus


    DIDEC: The Dutch Image Description and Eye-tracking Corpus

    Abstract

    本文提供了一个荷兰语口语图像描述的语料库,结合两组眼球追踪数据:free viewing,参与者没有任何特定目的地观看图像,以及description viewing,我们跟踪眼球运动,同时参与者对他们正在观看的图像进行口头描述。本文描述了数据收集过程和语料库本身,并对图像描述中的自校正进行了初步分析,并发现了两个结果。

    1. description viewing的眼球追踪数据比free viewing任务更连贯;
    2. 图像描述的变化(也称为image specificity)在不同语言之间只有适度的相关性。我们的语料库可以用来更深入地理解图像描述任务,特别是视觉注意是如何与图像描述过程相关联的。

    1. Introduction

    自动图像描述是计算机视觉(CV)和自然语言处理(NLP)相结合的一项任务。其目标是让机器自动为任何图像生成自然语言描述。2014年,随着Flickr30K和MS COCO数据集的发布,自动图像描述领域出现了爆炸性增长:从Flickr收集的两个图像库,每张图像有5个众包描述。这些资源使研究人员能够训练自动学习图像和文本之间的映射的端到端系统,同时也能更好地理解人类如何描述图像。然而,现有的数据集只能对人类产生图像描述的方式提供有限的见解,因为它们只包含这个过程的结果,而没有告诉我们任何关于这些描述是如何产生的任何信息。这种过程信息对于开发图像描述系统是非常有见解的,这就是为什么我们决定收集一个新的数据集。

    人类图像描述过程的一个重要部分是视觉注意visual attention,即当人们被要求描述一幅图像时,他们会看图像的哪些部分。Coco和Keller表明,扫描模式中被固定物体的序列与关于图像产生的句子中的单词序列有相似性。这一想法已经以基于注意力的模型的形式延续到自动图像描述系统中。Xu等人表明,可以通过添加一个注意模块来提高图像描述模型的性能,该模块在图像生成描述时学习注意图像的显著部分。他们的模型在产生下一个单词时的每一个时间步长都会产生注意力图。Lu等人通过让模型学习视觉信息与产生特定单词或短语相关,改进了这种方法。

    为了更好地理解视觉注意在图像描述中的作用,作者需要一个实时数据集,显示参与者在产生描述时的位置。本文提供了这样一个数据集:荷兰图像描述和眼球追踪语料库the Dutch Image Description and Eye-tracking Corpus(DIDEC)。DIDEC包含307张来自MS COCO的图像,这些图像都在SALICON和Visual Genome dataset数据集。SALICON是一个越来越多的鼠标跟踪数据的集合,用于生成注意力图:显示图像的哪些部分是突出的并吸引注意的热图。Visual Genome dataset是一个知识库,它结合了来自它所包含图像的不同来源的数据。因此,未来的研究人员可以使用来自所有这些不同来源的信息来分析本文的数据。

    DIDEC中的每张图像都提供了语音描述和实时眼球追踪数据。每张图片有14到16个口语描述。每一个描述都是手工转录和注释的。我们提供了两种转录的音频(图1给出了一个例子):

    在这里插入图片描述

    1. Raw descriptions 原始描述,用重复、更正和(填充)暂停的标记进行注释。

    2. Normalized descriptions 标准化的描述,没有重复,并有演讲者建议的修正。

    有了这两种描述,可以让我们更好地理解语言产生过程,例如,显示参与者在哪里经历了增加的认知努力。标准化的描述便于与书面描述的比较,提高了语料库的搜索能力。本文还提供了两种眼球追踪数据:

    1. Free viewing:没有任何并发任务收集的眼球跟踪数据。
    2. Description viewing:与语音描述同时收集的眼球追踪数据。

    这两组眼球追踪数据能够研究描述任务对视觉注意的影响。早期的研究表明,不同的任务可能会导致不同的视觉注意模式。眼球追踪数据是对SALICON的鼠标追踪数据的补充,这些数据只能用于研究自下而上的注意力(由图像驱动),而不是自上而下的注意力(由特定任务驱动,如图像描述)。这种差异将在第4节中进一步讨论。此外,由于作者收集了语音图像描述,因此这些描述与描述查看任务中的眼球跟踪数据对齐。这在研究自校正等现象(第3.2节)时很有用。

    Contributions.

    1. 本文介绍了一种基于眼球跟踪数据的语音图像描述语料库DIDE,并解释语料库是如何创建的。
    2. 提供了关于资源的一般统计数据,以及对注释修正的简短讨论,提供了描述过程中的见解。
    3. 作者提出了两个初步的研究展示本文数据集的不同可能用途。第一个研究关注的重点是任务对视觉注意的影响,其表明,图像描述任务的眼球追踪数据比自由观看数据更连贯。第二项研究着眼于不同语言之间的图像特异性,以及是否有可能从眼球追踪数据中预测图像的特异性。
    4. 本文提供了一种更有效的、多语言的Jas and Parikh’s measure的重新实现,并表明图像特异性在不同语言之间只有适度的相关性,不能直接从注意地图相似性中预测
    5. 本文语料库是免费获得的,还有一个探索界面,以及用于创建数据集的所有材料。

    2. Procedure

    作者进行了一个眼球

  • 相关阅读:
    linux之后台运行命令
    关于将ffmpeg教程(tutorial01)移植到android ffmpeg上面的实现过程
    winform语言切换C#设计笔记(八)
    将华为地图套件集成到HarmonyOs可穿戴设备应用中
    ES2022新规发布,8个实用新功能
    【场景化解决方案】慧穗云开票,让钉钉与业务数据流转更灵活
    Redis最新2023年面试题高级面试题及附答案解析(2)【Redis最新2023年面试题高级面试题及附答案解析-第三十九刊】
    高薪程序员&面试题精讲系列152之电商专题(中)-SPU是怎么回事?SPU如何设计?SKU又是什么呢?SN你知道吗?
    linux server设置开机自动连接WIFI
    Python计算器(包含机制转换)
  • 原文地址:https://blog.csdn.net/qq_42801194/article/details/127974818