你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
Y. Zou 和 Q. Xie,“A Survey on VQA: Datasets and Approaches”,2020 年第二届信息技术与计算机应用 (ITCA) 国际会议,2020 年,第 289-297 页,doi: 10.1109/ITCA52113.2020.00069。
回顾和分析为VQA任务提出的现有数据集、度量和模型。
VQA的子任务可以分为两类:
近年来,随着VQA任务越来越受到研究者的重视,可视化答题数据集的多样性不断增加。例如,提出了VQA v2[18]和VQA-CP[19]来消除语言先验,增强模型的视觉理解能力。
与VQA[20]、Visual Genome[21]、Flickr30k[22]等内容比较全面的数据集相比,也发布了一些专注于特定场景的数据集。FigureQA[7]是一个由科学图表组成的图像数据集,旨在推动对统计数字的可视化理解的研究。
Social-IQ [23]是一个视频数据集,旨在增强模型的情感检测。
此外,基于知识的推理任务和常识推理任务受到越来越多的关注,知识型数据集也应运而生。因此,R-VQA [24], FVQA [25], KVQA[26]等被提出。
在图像数据集被广泛开发的同时,视频数据集也被发布,如MovieQA[3]、PororoQA[27]、TVQA[28]等。
【数据集收集】用于视觉问答VQA常用的数据集(持续更新,最后更新时间2019-09)
数据集中存在的统计偏差和语言先验会干扰性能评估,因为模型可以利用问题的语言结构和答案的相应统计模式进行欺骗以获得更好的结果。例如,在VQA[20]数据集中,以“多少”[18]开头的问题中,“2”是39%的正确答案。通过这种技巧,在具有语言先验和统计偏差的数据集上训练的模型可以在不理解图像的情况下回答问题。为了解决这一问题,提出了一些数据集,如VQA2.0[18]。
近年来,许多集中于科学数字的数据集的出现,推动了对图表中所包含的统计性质的理解研究。图表可视化问答任务与一般可视化问答任务有许多不同之处。一个区别是物体的属性对于自然图像和科学图像有不同的重要性,尤其是颜色和面积。颜色和面积都是影响自然图像中物体性质问题的唯一属性,而它们在科学图解中具有独特的意义。例如,柱状图中相同的颜色表示同一类别的对象,柱状图的面积对应同一类别下的对象数量。
因此,发表的科学图表数据集提供了一个机会来开发关于统计数字唯一性的模型。
由于视觉答题任务被认为是评估系统理解能力的一个代理,现有的VQA工作专注于生成GT的答案,这对于“AI-complete”任务是不够的。例如,传统的视觉答疑系统可以识别出图像中的红色物体是消防栓,但不知道消防栓是用来阻止火势蔓延的。
与传统的VQA任务相比,Knowledge-based VQA任务更具挑战性。它要求模型识别必要的知识,在知识库中找到必要的知识,并结合知识、图像特征和问题表示来回答问题。一些基于知识的数据集被提出,以促进基于知识的推理任务的发展,并为评估提供基准。
KBVQA数据集
KBVQA数据集的目标是在提供外部知识的情况下,构建一个评价VQA模型在高知识水平问题和显式推理任务上表现的基准。为了构建数据集,在MS COCO[31]中选择了700张图像,包括大约150个对象类和100个场景类。对于图像,人工提问者生成了2402个问题回答对,从物体识别问题、属性检测问题到常识推理问题(即不需要引用外部来源)和基于知识的推理问题(如“这幅图像中的家电是什么时候发明的?”)
FVQA[25]
除了图像和问答对,基于事实的VQA数据集还提供了支持事实,这是存储在外部KBs中的知识的结构化表示,对于回答给定的视觉问题不可或缺。该数据集从MS COCO[31]中采样了2190张图像,并提取了三种类型的对象:对象(即命名实体,如人、狗和树),场景(如办公室、卧室和海滩)和动作(如游泳、跳跃和冲浪)。知识提取自DBpedia[38], ConceptNet[39]和WebChild[40]。共收集了5826个问题对应的4216个独特事实。
KVQA[26]
知识感知型VQA(Knowledge-aware VQA)数据集包含183,007个问题-答案对,在24,602张图像中包含约18,000人。回答KVQA数据集中的问题需要多实体、多关系和多跳推理。
与KB-VQA和FVQA相比,KVQA不仅拥有更大的尺寸,而且导致了视觉实体链接的问题,其中的任务是将出现在图像中的命名实体named entity链接到Wikidata中的一个实体。它提供了一个支持集support set,其中包含来自Wikidata的69000人的参考图像,从而实现了可视化的命名实体链接。
R-VQA[24]
Relation-VQA建立在Visual Genome[21]数据集上。它包含33.5万个数据样本,每个样本由(图像、问题、答案)对和对齐的支持关系事实组成。关系事实包括三种不同的类型:实体概念(there, is, object),实体属性(subject, is, attribute),以及实体的关系(subject, relation, object),基于视觉基因组中概念、属性和关系的注释语义数据。
OK-VQA[41]
Outside Knowledge, VQA数据集包括12,951个独特的问题,总共14,055个,14,031张图片从MS COCO[31]中选择。本数据集所包含的知识是常识知识,包括十个类别:车辆与交通;品牌;公司和产品;对象;材料和服装;体育和娱乐;烹饪和食物;地理位置;历史;语言和文化;人与日常生活;植物和动物;科学技术和天气气候。
近年来,研究者试图将视觉答题任务从离散图像扩展到连续视频。与图像相比,视频问答任务对理解能力和多模态信息融合能力的要求更高,特别是在复杂场景中。为了加强视频VQA任务的开发,提出了几个数据集,从电影、戏剧和社会场景与现实环境高度相关,到抽象卡通。
首先利用CLEVR[44]数据集对视觉系统的推理能力进行了系统分析,该数据集包含10万张图像和999968个问题。在CLEVR中,图像是简单的三维图形,每张图像所包含的信息是难以捉摸和完整的。数据集的这些特征促使具有较强推理能力的模型被提出。随后,RAVEN[45]在2019年被提出,以推动推理能力进化到更高的水平。它由1120,000张图像和70000个RPM问题组成,这些问题被广泛认为与真实智能高度相关。此外,这些问题被标记为树形结构,数据集中总共包含1120,000个标签。此外,设计了5个规则控制属性和2个噪声属性,以攻击视觉系统在短时记忆和成分推理方面的主要弱点。
可视化问题回答数据集中的问题可以分为两类:
对于选择题,通过计算正确答案与总答案的比例,利用简单的准确性来评价模型的性能是有效的。
准确性也可以用于评估开放式问题,但它可能会导致一些问题。这是因为惩罚不能反映语义差异的大小。例如,“大海里有什么?”可能是三文鱼。如果一个模型生成的答案是“鱼”,它将与答案“否”一样被扣分。为此,提出了一些改进指标的方法,以提高指标的精度。
提出了Modified WUPS Score(改进的WUPS评分)来衡量模型生成的答案与人工标注者提供的标签之间的语义差异。它建立在模糊集(Fuzzy Sets[46] )和WUP评分[47]上。WUP评分通过遍历语义树,计算两个词之间路径上的节点数量,并计算共同的subsumer来评估两个词的相似度。
之后,一个0到1之间的分数将分配给单词对。例如,(窗帘,百叶窗)对的WUP得分是0.94。分数越大,两个词越相似。在这个度量下,答案在语义上与标签更相似,因此受到的惩罚会更少。WUPS评分定义如下:
然而,在这个标准下,距离较远的单词会得到相对较高的分数。因此,设置阈值来决定何时降低WUP评分的权重。如果WUP评分低于阈值,则权重将通过乘以一个因子(建议为0.1)来缩小。将Modified WUPS Score应用于DAQUAR数据集上的模型评估。
然而,它也有一些缺点。
提出这个指标是为了给更多人工注释者喜欢的答案分配更高的优先级。对DAQUAR[29]数据集提出了两个共识。一个是平均共识[48],另一个是最小共识[48]。
平均共识被定义为:
最小共识定义为:
:第i个问题的答案对于第i个问题,人类提供的第k个答案。
与平均共识相比,平均共识是根据人工注释者的受欢迎程度来排序的,最小共识,最小共识只需要一个人工注释者的答案就能达到共识。
手动测试是指所有的答案都由人工进行评估。例如,数据集FMIQA[35]上的模型由人类进行评估,每个人为每个答案提供从0到2的分数,以对他们的正确程度进行排名。与上述指标相比,手工测试可以处理语义复杂性和固有模糊性相对较高的答案,但在时间、金钱和其他资源上的成本也较高。虽然已经提出了许多评价开放式问题可视化问答模型性能的指标,但所有指标都存在优势和劣势。研究人员应该根据数据集的特征、数据集中存在的偏差和他们能够承担的费用来选择指标,并在现有工作的基础上更加注意设计更好的指标。
PLAC model [56]
近年来VQA研究的大部分进展都是基于rnn的,值得关注。虽然取得了显著的成功,但长期消耗仍然是一个问题,而且由于RNN模型的性质,建模长期依赖关系的困难仍然没有得到解决。
带协同注意力的位置自注意力(PLAC)模型的新思想有助于提高计算效率和获得长期依赖关系。PLAC模型由基于视频的位置自注意力块(VPSA)、基于**问题的位置自注意力块(QPSA)和基于视频问题的位置自注意力块(VQ-Co)**三个关键部分组成。VPSA和QPSA分别进行视频预处理和问题预处理。
因此,VPSA获得帧特征,QPSA获得词级和字符级特征。最后,利用VQ-Co提高答题效率。在实践中,PLAC模型提高了高级概念词检测器的性能,生成了一个概念词列表。
VQA中的对抗性学习[57]
在过去的几年中,提高VQA准确率的重点是在模型层面;换句话说,减少学习中的偏见是目标。对于VQA中数据增强问题的研究缺失,可能会阻碍VQA的进一步发展。
最近研究的针对VQA问题的对抗学习的目标是在输入中加入最少的例子以达到期望的错误分类。为了避免答案的影响,只对原始输入(图像和答案)进行操作。在处理图像时,使用IFGSM[11],这可能会产生有害的对抗示例。考虑到破坏语法和语义的风险,改述模型[12]应用于文本输入。然后将这些对抗样本作为训练样本,用损失函数进行训练,以控制对抗样本的相对权重。
TRRNet Model [58]
TRRNet模型是一个遵循一般VQA训练过程的基于注意力的模型。模型由TRR单元连接,TRR单元由四个部分组成:根注意力root attention、根对留注意力传递root to leave attention passing、叶注意力leaf attention和消息传递模块message passing module。
首先利用图像特征集、边界框特征集和问题特征集生成root attention,生成基于语言的对象层面视觉特征注意映射,生成融合的视觉特征。
然后在到叶注意的传递处处理从root attention到leaf attention的输出,生成两两关系,其中涉及到多头硬注意[59],以选择相关对象。
然后,利用 leaf attention 对前面的对象关系推理进行处理,得到一个注意力映射和一个合并的关系特征。
最后,在消息传递模块中,融合了上一步中的关系特征和root attentions 中的对象层面特征。
读出层Readout layer将有助于生成最终答案。
在实践中,该模型应用于GQA[60]、VQAv2和CLEVR数据集,并预先训练了fast - rcnn、Bert词嵌入和GRU。与基本的注意模型相比,TRRNet模型在强注意力模型和弱注意力模型下都表现更好,Y/N问题的准确性有显著提高。
模型ROLL的灵感来自于人类通过电影故事情节不断推理交流和行动的行为,旨在利用对话理解、场景推理和故事情节回忆的任务,通过访问外部资源来检索上下文信息。
综上所述,本文回顾了2018年以后的数据集、度量和模型,发现VQA的研究范围已经从静态的、离散的图像扩展到动态的、连续的视频,甚至360度的图片和科学图表也得到了研究者的探索。同时,模型的推理能力也引起了研究者的关注。
虽然VQA工作取得了一定的成效,但仍存在一些问题。首先,语言先验对视觉问题的回答仍有负面影响。此外,统计偏差很难减少。此外,对于不同类型的问题,现有的指标是不充分的。此外,多模态融合机制还有待完善。视觉答题仍然是一个值得探索的领域。