多模态相关论文笔记

(cilp) Learning Transferable Visual Models From Natural Language Supervision

从自然语言监督中学习可迁移的视觉模型
openAI 2021年2月 48页
PDF
CODE
CLIP(Contrastive Language-Image Pre-Training)对比语言图像预训练模型

引言

它比ImageNet模型效果更好，计算效率更高。尤其是zero-shot能力更强。

方法

选择一个高效的预训练策略

最初的想法类似于VirTex，联合训练一个图像CNN和文本Transformer预测一张图片的标题。但是很难预测到最准确的词汇。因此将预测目标函数改为了对比目标函数。

给定一个batch里的N个图文对（图片，文本），CLIP用来预测N×N个实际可能发生的图文对。为此，CLIP通过联合训练图片编码器和文本编码器学习了一个多模态的embedding空间，来最大化这N个真实图文对中图片和文本embedding之间的cosine相似度，同时最小化错误对的cosine相似度。损失函数：SCE 对称交叉熵
只使用了一个线性投影将各编码器表示汇集到多模态embedding空间中。简化了很多模块。架构图如图所示。

伪代码：

# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter
# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]
# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)
# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

选择和裁剪模型

图片编码器-ResNet-50 或者 ViT，并做了些修改
文本编码器-Transformer

训练

训练32轮
Adam

相关阅读:
2023年【R2移动式压力容器充装】模拟考试及R2移动式压力容器充装模拟考试题
C++之list
淘宝/天猫获得淘宝商品详情高级版
实战 | 基于YOLOv10的车辆追踪与测速实战【附源码+步骤详解】
逆向分析-SeparationPreview.aip-分色预览-结构分析（一）-x64dbg条件日志打印-命令表达式
RDB 做快照的时候数据能修改吗？
vue使用谷歌地图实现地点查询
RK3568平台（显示篇）DRM HDMI驱动程序
JavaScript小技能: Ajax
Redis 缓存穿透击穿和雪崩

原文地址：https://blog.csdn.net/hubojing/article/details/136218013