多模态预训练模型

多模态预训练模型一般是图像和文本模态的交互，能充分利用已有的文本信息，对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下：

模型	数据集	预训练任务
ALBEF	图文对：COCO，VG，CC，SBU Caption	ITC, MLM,ITM
CLIP	400million 网络公开数据集	对比学习
UniT	视觉/文本单模态和多模态的8个数据集	基于8个数据集的7个任务，包含目标检测，VQA，NLU
Vx2TEXT	视频用Kinetics，音频使用AudioSet	TVQA, AVSD,TVC
UNIMO	文本：BookWiki and OpenWebText；图片：OpenImages，unlabeled COCO；图文对：COCO，VG，CC，SBU Caption	对比学习，MLM，MRM
UNITER	图文对：COCO，VG，CC，SBU Caption	conditional MLM和MRM，ITM，WRA
Pixel-BERT	图文对：MS-COCO，VG	MLM，ITM
Oscar	图文对：COCO，CC，SBU Caption，flicker30k, GQA等4.1million； text-tag-image三元组：6.5million	对比学习，MTL
Unicoder-VL	3.8M 图文对齐数据；包含3M的CC和0.8M的SBU Captions	MLM,ITM,MOC
VisualBERT	图文对：COCO 一张图片对应5个描述，共10w张图片	MLM，ITM
ViLBERT	图文对：CC，3.3million，文本弱相关	MLM，ITM
VideoBERT	YouCook II dataset 包括2k视频，平均时长5.26m	3种masked learning，text-only, video-only和text-video

数据集说明 VG：Visual Genome CC：Conceptual Captions 预训练任务说明 MLM：masked language model MTL：masked token loss MRM：masked region model ITM：image text matching MOC：masked object classification WRA：Word-Region Alignment TVQA：video questions answering TVC：video captioning，同TVQA，但视频节选方式不同 AVSD：audio-visual scene-aware dialog

论文&代码地址

模型	论文&代码
ALBEF	https://arxiv.org/pdf/2107.07651.pdf https://github.com/salesforce/ALBEF
CLIP	https://arxiv.org/pdf/2103.00020.pdf https://github.com/openai/CLIP
UniT	https://arxiv.org/pdf/2102.10772.pdf
Vx2TEXT	https://arxiv.org/pdf/2101.12059.pdf
UNIMO	https://arxiv.org/pdf/2012.15409.pdf https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO
UNITER	https://arxiv.org/pdf/1909.11740.pdf https://github.com/ChenRocks/UNITER
Pixel-BERT	https://arxiv.org/pdf/2004.00849.pdf
Oscar	https://arxiv.org/pdf/2004.06165.pdf https://github.com/microsoft/oscar
Unicoder-VL	https://arxiv.org/pdf/1908.06066.pdf
VisualBERT	https://arxiv.org/pdf/1908.03557.pdf
ViLBERT	https://arxiv.org/abs/1908.02265
VideoBERT	https://arxiv.org/abs/1904.01766

模型概况

ALBEF

双流模型；
在预训练和下游任务时，使用momentum distillation，缓解图文数据集中的噪声问题；
从Mutual Information的视角看图文对信息对齐。

CLIP

双流模型，文本和视觉分别进入transformer encoder，经过线性投影计算不同图文对的相似度；
使用对比学习，将图片分类转换成图文匹配任务。

UniT：文本和视觉分别encoder，concat之后进入transformer decoder，根据head进行不同任务的训练。 Vx2TEXT

基于backbone network提取模态特征，经过分类器，使用Gumbel-softmax 采样得到k个类别，和文本一样，映射到统一的语言空间；
端对端的文本生成模型。

UNIMO

目的：集成单模态和多模态结果的预训练模型，在多模态任务上表现不错，在单模态任务上，效果也不会下降太多；
数据增强：通过text rewriting，text/image retrieval 增强正负样本。

UNITER

目的：构建一个统一的图文学习框架，适用于各种图文任务；
分别对图文做embedding，经过Layer Normalization进入transformer；
提出conditional masking和OT-based WRA预训练任务。

Pixel-BERT

目的：之前都是用Faster R-CNN做目标检测提取视觉特征，存在噪音冗余和语义鸿沟，通过pixel-based 特征提取，提高视觉表达的鲁棒性；
pixel-based：random pixel sampling mechanism，视觉特征提取后，在每个feature map里提取pixel作为视觉特征，相当于feature map内部的dropout。

Oscar

目的：同图片中的object tags作为anchor points辅助学习多模态对齐的信息；
输入为3元组Word-Tag-Image；
通过Faster R-CNN检测的k个高精度region作为object tags。

Unicoder-VL

目的：构建图片和长序列的联合表征的预训练模型；
提取的100个region feature 和文本 concat一起，进入multi-layer transformers。

VisualBERT

Embedding有3种：视觉bounding region，区分视觉和文本的segment embedding和视觉和文本对齐的position embedding；
用了多种fusion方式，实验结果显示early-fusion最好。

ViLBERT：双流模型，每个模态先进入自己的TRM(transformer block)，再做模态交叉Co-TRM(co-attentional transformer)。 VideoBERT

通过BERT学习text-to-video和video-to-text任务；
视觉文本对齐处理；
3种masked learning，text-only, video-only和text-video。

相关阅读:
Redis实现分布式锁
http 和 https
【二叉树】- 层序遍历（ js 实现）
【华为云】用VNC远程连接Ubuntu20.04图形界面
Win11怎么安装语音包？Win11语音包安装教程
【分享】集简云小程序识别身份证同步到表单流程搭建示例
MySQL单列索引和联合索引
毕业三年
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.05.25-2024.05.31
java中string长度有限制吗，最大是多少？

原文地址：https://blog.csdn.net/a839766550/article/details/127108387