本文提供了一个荷兰语口语图像描述的语料库,结合两组眼球追踪数据:free viewing,参与者没有任何特定目的地观看图像,以及description viewing,我们跟踪眼球运动,同时参与者对他们正在观看的图像进行口头描述。本文描述了数据收集过程和语料库本身,并对图像描述中的自校正进行了初步分析,并发现了两个结果。
自动图像描述是计算机视觉(CV)和自然语言处理(NLP)相结合的一项任务。其目标是让机器自动为任何图像生成自然语言描述。2014年,随着Flickr30K和MS COCO数据集的发布,自动图像描述领域出现了爆炸性增长:从Flickr收集的两个图像库,每张图像有5个众包描述。这些资源使研究人员能够训练自动学习图像和文本之间的映射的端到端系统,同时也能更好地理解人类如何描述图像。然而,现有的数据集只能对人类产生图像描述的方式提供有限的见解,因为它们只包含这个过程的结果,而没有告诉我们任何关于这些描述是如何产生的任何信息。这种过程信息对于开发图像描述系统是非常有见解的,这就是为什么我们决定收集一个新的数据集。
人类图像描述过程的一个重要部分是视觉注意visual attention,即当人们被要求描述一幅图像时,他们会看图像的哪些部分。Coco和Keller表明,扫描模式中被固定物体的序列与关于图像产生的句子中的单词序列有相似性。这一想法已经以基于注意力的模型的形式延续到自动图像描述系统中。Xu等人表明,可以通过添加一个注意模块来提高图像描述模型的性能,该模块在图像生成描述时学习注意图像的显著部分。他们的模型在产生下一个单词时的每一个时间步长都会产生注意力图。Lu等人通过让模型学习视觉信息与产生特定单词或短语相关,改进了这种方法。
为了更好地理解视觉注意在图像描述中的作用,作者需要一个实时数据集,显示参与者在产生描述时的位置。本文提供了这样一个数据集:荷兰图像描述和眼球追踪语料库the Dutch Image Description and Eye-tracking Corpus(DIDEC)。DIDEC包含307张来自MS COCO的图像,这些图像都在SALICON和Visual Genome dataset数据集。SALICON是一个越来越多的鼠标跟踪数据的集合,用于生成注意力图:显示图像的哪些部分是突出的并吸引注意的热图。Visual Genome dataset是一个知识库,它结合了来自它所包含图像的不同来源的数据。因此,未来的研究人员可以使用来自所有这些不同来源的信息来分析本文的数据。
DIDEC中的每张图像都提供了语音描述和实时眼球追踪数据。每张图片有14到16个口语描述。每一个描述都是手工转录和注释的。我们提供了两种转录的音频(图1给出了一个例子):

Raw descriptions 原始描述,用重复、更正和(填充)暂停的标记进行注释。
Normalized descriptions 标准化的描述,没有重复,并有演讲者建议的修正。
有了这两种描述,可以让我们更好地理解语言产生过程,例如,显示参与者在哪里经历了增加的认知努力。标准化的描述便于与书面描述的比较,提高了语料库的搜索能力。本文还提供了两种眼球追踪数据:
这两组眼球追踪数据能够研究描述任务对视觉注意的影响。早期的研究表明,不同的任务可能会导致不同的视觉注意模式。眼球追踪数据是对SALICON的鼠标追踪数据的补充,这些数据只能用于研究自下而上的注意力(由图像驱动),而不是自上而下的注意力(由特定任务驱动,如图像描述)。这种差异将在第4节中进一步讨论。此外,由于作者收集了语音图像描述,因此这些描述与描述查看任务中的眼球跟踪数据对齐。这在研究自校正等现象(第3.2节)时很有用。
Contributions.
作者进行了一个眼球