论文地址: http://proceedings.mlr.press/v139/radford21a/radford21a.pdf
在博客的前半部分,首先简要介绍一下CLIP,在博客的后面再介绍一下论文
clip代码:clip代码详解-CSDN博客
CLIP的全称:Contrastive Language-Image Pre-Training (利用文本的监督信号训练一个迁移能力强的视觉模型)
提出背景:
首先,在深度学习中,任务非常难以拓展,比如说在图像分类任务中,原始为1000个类别,现在需要将任务拓展为1001个类别,必须重新训练模型,那么