码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • CLIP:连接文本-图像


    Contrastive Language-Image Pre-Training
    在这里插入图片描述

    • CLIP的主要目标是通过对比学习,学习匹配图像和文本。
    • CLIP最主要的作用:可以将文本和图像表征映射到同一个表示空间

    这是通过训练模型来预测哪个图像属于给定的文本,反之亦然。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。

    通过训练模型来预测哪个图像属于给定的文本,反之亦然。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。

    CLIP可以识别图像中的物体、场景、动作等元素,同时也能够理解与图像相关的文本,例如标签、描述、标题等。CLIP已被证明在视觉和语言任务上具有出色的表现。

    数据输入:text-image pairs
    在这里插入图片描述
    在这里插入图片描述
    定义
    论文中采用的两种文本编码器:CBOW或者Text Transformer(BERT family model)
    论文中采用的两种图像编码器:ResNet和Vision Transformer (ViT)
    定义了两个投影矩阵W_i和W_t,用于将文本及图像特征映射到相同维度大小。
    temperature参数用于控制softmax后的结果,temperature < 1 时模型倾向于给出更加极端的预测值(more confidence),temperture > 1 的时候模型预测值在更接近0.5 (less confidence)
    step 1 : 编码
    通过图像&文本编码器,得分图像和文本特征。
    step2 : 投影
    首先通过投影矩阵将图像及文本特征映射到相同的维度大小,在进行L2 normalization (使得之后的点积操作直接等效于cosine similarity)
    step3: 相似度计算
    点积运算计算文本-图像的cosine similarity,得到 n x n 矩阵的logits(模型预测),越接近1则说明模型预测该文本-图像对是配对的,否则不配对。
    step4: 计算loss
    已知 logits 矩阵对角线的文本和图像是配对的,非对角线元素不配对,因此构造训练标签 np.arange(n),然后分别在图像维度(axis=0) 和文本维度(axis=1)计算loss。
    以图像维度为例简单说明一下这里的逻辑,因为在计算相似度的时候,图像特征矩阵@文本特征矩阵得到的 n x n 矩阵,第一个n 代表的图像,因此我们在axis=0 计算图像维度的loss。

    在这里插入图片描述

  • 相关阅读:
    查询性能提升3倍!Apache Hudi 查询优化了解下?
    点亮现代编程语言的男人——C语言/UNIX之父Dennis Ritchie
    1.浏览器架构
    SpringCloud微服务(二)——Eureka服务注册中心
    Mac如何远程连接Ubuntu主机(一)ssh连接|Mac通过ssh远程连接Ubuntu主机
    C语言规范标准-C99(中文版) 完整版正式发布
    摄影构图:人像摄影和风景摄影的一些建议
    定义一个函数 void sort(int a[],int n)将一个数组中的元素按逆序重新存放。main( )函数 先输入数组元素,再调用函数 sort()对数组元素逆序,最后输出所有数组元素
    计算机毕业设计ssm+vue基本微信小程序的执法助手平台
    110道 MySQL面试题及答案 (持续更新)
  • 原文地址:https://blog.csdn.net/RandyHan/article/details/132647752
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号