将image-text pair表示为<文本,标签,图像>的三元组
<
w
,
q
,
v
>
从dictionary的角度考虑q,可以设计类似bert的预训练任务,即掩码。定义discrete token sequence
h
≜
[
w
,
q
]
h\triangleq[w,q]
h≜[w,q],并使用Masked Token Loss进行训练,将15%的token替换为[mask]并进行预测

从模态的角度考虑,通过对比学习来强调对齐。定义
h
′
≜
[
q
,
v
]
h'\triangleq[q,v]
h′≜[q,v],sample一些“污染的”负样本:将50%的
h
′
h'
h′中的q替换成其他目标标签,之后在特征后接一个全连接层进行二分类


在一个包含650万文本-图像对的公开数据集上预训练了Oscar模型,然后在下游任务中对模型进行微调,在六个视觉语言理解及生成任务上取得目前最好的结果