• 多模态预训练模型


    多模态预训练模型一般是图像和文本模态的交互,能充分利用已有的文本信息,对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下:

    模型

    数据集

    预训练任务

    ALBEF

    图文对:COCO,VG,CC,SBU Caption

    ITC, MLM,ITM

    CLIP

    400million 网络公开数据集

    对比学习

    UniT

    视觉/文本单模态和多模态的8个数据集

    基于8个数据集的7个任务,包含目标检测,VQA,NLU

    Vx2TEXT

    视频用Kinetics,音频使用AudioSet

    TVQA, AVSD,TVC

    UNIMO

    文本:BookWiki and OpenWebText
    图片:OpenImages,unlabeled COCO;
    图文对:COCO,VG,CC,SBU Caption

    对比学习,MLM,MRM

    UNITER

    图文对:COCO,VG,CC,SBU Caption

    conditional MLM和MRM,ITM,WRA

    Pixel-BERT

    图文对:MS-COCO,VG

    MLM,ITM

    Oscar

    图文对:COCO,CC,SBU Caption,flicker30k, GQA等4.1million;
    text-tag-image三元组:6.5million

    对比学习,MTL

    Unicoder-VL

    3.8M 图文对齐数据;
    包含3M的CC和0.8M的SBU Captions

    MLM,ITM,MOC

    VisualBERT

    图文对:COCO
    一张图片对应5个描述,共10w张图片

    MLM,ITM

    ViLBERT

    图文对:CC,3.3million,文本弱相关

    MLM,ITM

    VideoBERT

    YouCook II dataset
    包括2k视频,平均时长5.26m

    3种masked learning,text-only, video-only和text-video

    数据集说明 VG:Visual Genome CC:Conceptual Captions 预训练任务说明 MLM:masked language model MTL:masked token loss MRM:masked region model ITM:image text matching MOC:masked object classification WRA:Word-Region Alignment TVQA:video questions answering TVC:video captioning,同TVQA,但视频节选方式不同 AVSD:audio-visual scene-aware dialog

    论文&代码地址

    模型

    论文&代码

    ALBEF

    https://arxiv.org/pdf/2107.07651.pdf
    https://github.com/salesforce/ALBEF

    CLIP

    https://arxiv.org/pdf/2103.00020.pdf
    https://github.com/openai/CLIP

    UniT

    https://arxiv.org/pdf/2102.10772.pdf

    Vx2TEXT

    https://arxiv.org/pdf/2101.12059.pdf

    UNIMO

    https://arxiv.org/pdf/2012.15409.pdf
    https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

    UNITER

    https://arxiv.org/pdf/1909.11740.pdf
    https://github.com/ChenRocks/UNITER

    Pixel-BERT

    https://arxiv.org/pdf/2004.00849.pdf

    Oscar

    https://arxiv.org/pdf/2004.06165.pdf
    https://github.com/microsoft/oscar

    Unicoder-VL

    https://arxiv.org/pdf/1908.06066.pdf

    VisualBERT

    https://arxiv.org/pdf/1908.03557.pdf

    ViLBERT

    https://arxiv.org/abs/1908.02265

    VideoBERT

    https://arxiv.org/abs/1904.01766

    模型概况

    ALBEF

    1. 双流模型;

    2. 在预训练和下游任务时,使用momentum distillation,缓解图文数据集中的噪声问题;

    3. 从Mutual Information的视角看图文对信息对齐。

    CLIP

    1. 双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;

    2. 使用对比学习,将图片分类转换成图文匹配任务。

    UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。 Vx2TEXT

    1. 基于backbone network提取模态特征,经过分类器,使用Gumbel-softmax 采样得到k个类别,和文本一样,映射到统一的语言空间;

    2. 端对端的文本生成模型。

    UNIMO

    1. 目的:集成单模态和多模态结果的预训练模型,在多模态任务上表现不错,在单模态任务上,效果也不会下降太多;

    2. 数据增强:通过text rewriting,text/image retrieval 增强正负样本。

    UNITER

    1. 目的:构建一个统一的图文学习框架,适用于各种图文任务;

    2. 分别对图文做embedding,经过Layer Normalization进入transformer;

    3. 提出conditional masking和OT-based WRA预训练任务。

    Pixel-BERT

    1. 目的:之前都是用Faster R-CNN做目标检测提取视觉特征,存在噪音冗余和语义鸿沟,通过pixel-based 特征提取,提高视觉表达的鲁棒性;

    2. pixel-based:random pixel sampling mechanism,视觉特征提取后,在每个feature map里提取pixel作为视觉特征,相当于feature map内部的dropout。

    Oscar

    1. 目的:同图片中的object tags作为anchor points辅助学习多模态对齐的信息;

    2. 输入为3元组Word-Tag-Image;

    3. 通过Faster R-CNN检测的k个高精度region作为object tags。

    Unicoder-VL

    1. 目的:构建图片和长序列的联合表征的预训练模型;

    2. 提取的100个region feature 和文本 concat一起,进入multi-layer transformers。

    VisualBERT

    1. Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;

    2. 用了多种fusion方式,实验结果显示early-fusion最好。

    ViLBERT:双流模型,每个模态先进入自己的TRM(transformer block),再做模态交叉Co-TRM(co-attentional transformer)。 VideoBERT

    1. 通过BERT学习text-to-video和video-to-text任务;

    2. 视觉文本对齐处理;

    3. 3种masked learning,text-only, video-only和text-video。

  • 相关阅读:
    Redis实现分布式锁
    http 和 https
    【二叉树】- 层序遍历( js 实现)
    【华为云】用VNC远程连接Ubuntu20.04图形界面
    Win11怎么安装语音包?Win11语音包安装教程
    【分享】集简云小程序识别身份证同步到表单流程搭建示例
    MySQL单列索引和联合索引
    毕业三年
    AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.25-2024.05.31
    java中string长度有限制吗,最大是多少?
  • 原文地址:https://blog.csdn.net/a839766550/article/details/127108387