码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • CLIP:连接文本-图像


    Contrastive Language-Image Pre-Training
    在这里插入图片描述

    • CLIP的主要目标是通过对比学习,学习匹配图像和文本。
    • CLIP最主要的作用:可以将文本和图像表征映射到同一个表示空间

    这是通过训练模型来预测哪个图像属于给定的文本,反之亦然。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。

    通过训练模型来预测哪个图像属于给定的文本,反之亦然。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。

    CLIP可以识别图像中的物体、场景、动作等元素,同时也能够理解与图像相关的文本,例如标签、描述、标题等。CLIP已被证明在视觉和语言任务上具有出色的表现。

    数据输入:text-image pairs
    在这里插入图片描述
    在这里插入图片描述
    定义
    论文中采用的两种文本编码器:CBOW或者Text Transformer(BERT family model)
    论文中采用的两种图像编码器:ResNet和Vision Transformer (ViT)
    定义了两个投影矩阵W_i和W_t,用于将文本及图像特征映射到相同维度大小。
    temperature参数用于控制softmax后的结果,temperature < 1 时模型倾向于给出更加极端的预测值(more confidence),temperture > 1 的时候模型预测值在更接近0.5 (less confidence)
    step 1 : 编码
    通过图像&文本编码器,得分图像和文本特征。
    step2 : 投影
    首先通过投影矩阵将图像及文本特征映射到相同的维度大小,在进行L2 normalization (使得之后的点积操作直接等效于cosine similarity)
    step3: 相似度计算
    点积运算计算文本-图像的cosine similarity,得到 n x n 矩阵的logits(模型预测),越接近1则说明模型预测该文本-图像对是配对的,否则不配对。
    step4: 计算loss
    已知 logits 矩阵对角线的文本和图像是配对的,非对角线元素不配对,因此构造训练标签 np.arange(n),然后分别在图像维度(axis=0) 和文本维度(axis=1)计算loss。
    以图像维度为例简单说明一下这里的逻辑,因为在计算相似度的时候,图像特征矩阵@文本特征矩阵得到的 n x n 矩阵,第一个n 代表的图像,因此我们在axis=0 计算图像维度的loss。

    在这里插入图片描述

  • 相关阅读:
    (01)ORB-SLAM2源码无死角解析-(54) 闭环线程→闭环检测:寻找闭环候选关键帧 LoopClosing::DetectLoop()
    【Python】一文详细介绍 plt.rcParamsDefault 在 Matplotlib 中的原理、作用、注意事项
    对map根据key值排序
    【C++】进阶模板
    C# 11 对 ref 和 struct 的改进
    代码随想录算法训练营第三天 | 第454题.四数相加II|Python中的dict和C里面的map相同点和不同点总结
    I2C调试问题经验总结
    【数据结构】LeetCode栈和队列经典题型
    spring boot 下载resources下的静态文件为流格式
    SpringBoot中xml映射文件
  • 原文地址:https://blog.csdn.net/RandyHan/article/details/132647752
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号