• 多模态相关论文笔记


    (cilp) Learning Transferable Visual Models From Natural Language Supervision

    从自然语言监督中学习可迁移的视觉模型
    openAI 2021年2月 48页
    PDF
    CODE
    CLIP(Contrastive Language-Image Pre-Training)对比语言图像预训练模型

    引言

    它比ImageNet模型效果更好,计算效率更高。尤其是zero-shot能力更强。

    方法

    选择一个高效的预训练策略

    最初的想法类似于VirTex,联合训练一个图像CNN和文本Transformer预测一张图片的标题。但是很难预测到最准确的词汇。因此将预测目标函数改为了对比目标函数。

    给定一个batch里的N个图文对(图片,文本),CLIP用来预测N×N个实际可能发生的图文对。为此,CLIP通过联合训练图片编码器和文本编码器学习了一个多模态的embedding空间,来最大化这N个真实图文对中图片和文本embedding之间的cosine相似度,同时最小化错误对的cosine相似度。损失函数:SCE 对称交叉熵
    只使用了一个线性投影将各编码器表示汇集到多模态embedding空间中。简化了很多模块。架构图如图所示。

    伪代码:

    # image_encoder - ResNet or Vision Transformer
    # text_encoder - CBOW or Text Transformer
    # I[n, h, w, c] - minibatch of aligned images
    # T[n, l] - minibatch of aligned texts
    # W_i[d_i, d_e] - learned proj of image to embed
    # W_t[d_t, d_e] - learned proj of text to embed
    # t - learned temperature parameter
    # extract feature representations of each modality
    I_f = image_encoder(I) #[n, d_i]
    T_f = text_encoder(T) #[n, d_t]
    # joint multimodal embedding [n, d_e]
    I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
    T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
    # scaled pairwise cosine similarities [n, n]
    logits = np.dot(I_e, T_e.T) * np.exp(t)
    # symmetric loss function
    labels = np.arange(n)
    loss_i = cross_entropy_loss(logits, labels, axis=0)
    loss_t = cross_entropy_loss(logits, labels, axis=1)
    loss = (loss_i + loss_t)/2
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    选择和裁剪模型

    图片编码器-ResNet-50 或者 ViT,并做了些修改
    文本编码器-Transformer

    训练

    训练32轮
    Adam

  • 相关阅读:
    2023年【R2移动式压力容器充装】模拟考试及R2移动式压力容器充装模拟考试题
    C++之list
    淘宝/天猫获得淘宝商品详情高级版
    实战 | 基于YOLOv10的车辆追踪与测速实战【附源码+步骤详解】
    逆向分析-SeparationPreview.aip-分色预览-结构分析(一)-x64dbg条件日志打印-命令表达式
    RDB 做快照的时候数据能修改吗?
    vue使用谷歌地图实现地点查询
    RK3568平台(显示篇)DRM HDMI驱动程序
    JavaScript小技能: Ajax
    Redis 缓存穿透击穿和雪崩
  • 原文地址:https://blog.csdn.net/hubojing/article/details/136218013