码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记


    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
    Code

    1. Motivation

    • CLIP这一类方法只能进行图片级别的视觉和文本对齐;
    • 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联;
    • 本文致力于进行多粒度(objects, regions, and images)的视觉文本对齐预训练任务;

    2. 模型结构

    在这里插入图片描述

    3. 损失函数

    3.1 contrastive loss

    1. 文本特征和视觉特征之间的相似性定义:

    在这里插入图片描述
    3. vision-to-text similarity

    在这里插入图片描述
    4. text-to-vision similarity
    在这里插入图片描述
    5. GT:one-hot
    在这里插入图片描述
    6. cross-entropy loss

    在这里插入图片描述

    3.2 matching loss

    1. For each visual concept in a mini-batch, we sample an in-batch hard negative text by following p v 2 t ( V ) p^{v2t}(V) pv2t(V). (与当前视觉特征越接近的文本越可能被采样)
    2. We also sample one hard negative visual concept for each text.
    3. put the pairs as inputs for the fusion module, and then we use xcls, the output [CLS] embedding of the fusion module, to predict the matching probability p m a t c h p^{match} pmatch , and the loss is:
      在这里插入图片描述

    3.3 masked language modeling loss (MLM)

    在这里插入图片描述

    3.4 bbox loss

    在这里插入图片描述

  • 相关阅读:
    新手入门丨一堆代码在报错,如何才能快速定位Bug?!
    清华美院「后羿雕塑」像外国人,引全网争议.....
    ORB-SLAM3算法学习—Frame构造—ORB特征提取和BRIEF描述子计算
    「学习笔记」扫描线
    Avalonia环境搭建
    智能手表,不再只是手机品牌的“附属品”
    Redis实现消息队列
    探究WPF中文字模糊的问题:TextOptions的用法
    包 类 包的作用域
    Linux三级等保基本设置
  • 原文地址:https://blog.csdn.net/xijuezhu8128/article/details/132809885
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号