多模态预训练模型一般是图像和文本模态的交互,能充分利用已有的文本信息,对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下:
| 模型 | 数据集 | 预训练任务 |
|---|---|---|
| ALBEF | 图文对:COCO,VG,CC,SBU Caption | ITC, MLM,ITM |
| CLIP | 400million 网络公开数据集 | 对比学习 |
| UniT | 视觉/文本单模态和多模态的8个数据集 | 基于8个数据集的7个任务,包含目标检测,VQA,NLU |
| Vx2TEXT | 视频用Kinetics,音频使用AudioSet | TVQA, AVSD,TVC |
| UNIMO | 文本:BookWiki and OpenWebText; | 对比学习,MLM,MRM |
| UNITER | 图文对:COCO,VG,CC,SBU Caption | conditional MLM和MRM,ITM,WRA |
| Pixel-BERT | 图文对:MS-COCO,VG | MLM,ITM |
| Oscar | 图文对:COCO,CC,SBU Caption,flicker30k, GQA等4.1million; | 对比学习,MTL |
| Unicoder-VL | 3.8M 图文对齐数据; | MLM,ITM,MOC |
| VisualBERT | 图文对:COCO | MLM,ITM |
| ViLBERT | 图文对:CC,3.3million,文本弱相关 | MLM,ITM |
| VideoBERT | YouCook II dataset | 3种masked learning,text-only, video-only和text-video |
数据集说明 VG:Visual Genome CC:Conceptual Captions 预训练任务说明 MLM:masked language model MTL:masked token loss MRM:masked region model ITM:image text matching MOC:masked object classification WRA:Word-Region Alignment TVQA:video questions answering TVC:video captioning,同TVQA,但视频节选方式不同 AVSD:audio-visual scene-aware dialog
论文&代码地址
| 模型 | 论文&代码 |
|---|---|
| ALBEF | https://arxiv.org/pdf/2107.07651.pdf |
| CLIP | https://arxiv.org/pdf/2103.00020.pdf |
| UniT | https://arxiv.org/pdf/2102.10772.pdf |
| Vx2TEXT | https://arxiv.org/pdf/2101.12059.pdf |
| UNIMO | https://arxiv.org/pdf/2012.15409.pdf |
| UNITER | https://arxiv.org/pdf/1909.11740.pdf |
| Pixel-BERT | https://arxiv.org/pdf/2004.00849.pdf |
| Oscar | https://arxiv.org/pdf/2004.06165.pdf |
| Unicoder-VL | https://arxiv.org/pdf/1908.06066.pdf |
| VisualBERT | https://arxiv.org/pdf/1908.03557.pdf |
| ViLBERT | https://arxiv.org/abs/1908.02265 |
| VideoBERT | https://arxiv.org/abs/1904.01766 |
模型概况
ALBEF
双流模型;
在预训练和下游任务时,使用momentum distillation,缓解图文数据集中的噪声问题;
从Mutual Information的视角看图文对信息对齐。
CLIP
双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;
使用对比学习,将图片分类转换成图文匹配任务。
UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。 Vx2TEXT
基于backbone network提取模态特征,经过分类器,使用Gumbel-softmax 采样得到k个类别,和文本一样,映射到统一的语言空间;
端对端的文本生成模型。
UNIMO
目的:集成单模态和多模态结果的预训练模型,在多模态任务上表现不错,在单模态任务上,效果也不会下降太多;
数据增强:通过text rewriting,text/image retrieval 增强正负样本。
UNITER
目的:构建一个统一的图文学习框架,适用于各种图文任务;
分别对图文做embedding,经过Layer Normalization进入transformer;
提出conditional masking和OT-based WRA预训练任务。
Pixel-BERT
目的:之前都是用Faster R-CNN做目标检测提取视觉特征,存在噪音冗余和语义鸿沟,通过pixel-based 特征提取,提高视觉表达的鲁棒性;
pixel-based:random pixel sampling mechanism,视觉特征提取后,在每个feature map里提取pixel作为视觉特征,相当于feature map内部的dropout。
Oscar
目的:同图片中的object tags作为anchor points辅助学习多模态对齐的信息;
输入为3元组Word-Tag-Image;
通过Faster R-CNN检测的k个高精度region作为object tags。
Unicoder-VL
目的:构建图片和长序列的联合表征的预训练模型;
提取的100个region feature 和文本 concat一起,进入multi-layer transformers。
VisualBERT
Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;
用了多种fusion方式,实验结果显示early-fusion最好。
ViLBERT:双流模型,每个模态先进入自己的TRM(transformer block),再做模态交叉Co-TRM(co-attentional transformer)。 VideoBERT
通过BERT学习text-to-video和video-to-text任务;
视觉文本对齐处理;
3种masked learning,text-only, video-only和text-video。