码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【CVPR2022】VizWiz-VQA Grounding Challenge冠军算法介绍--Aurora


    一、简介

    之前从没接触过多模态方向,这次和在字节的师兄一起参加了一个VQA相关的比赛,发现基于图像-文本的预训练是一个很火热的领域,比如BLIP,LAVT等。在此基础上,针对VQA Grounding任务不光需要回答问题、还需要进行视觉分割的特点设计了一种双流的视觉-语言交互方法,最终在CVPR2022的VizWiz VQA Grounding赛道取得了第一名的成绩,详细介绍链接如下:

    Video:ByteDance&Tianjin University --- Aurora

    论文链接: Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding

    二、比赛介绍

    「视觉问答」是通向多模人工智能的一项基础挑战。

    一个自然的应用就是帮助视障人群克服他们日常生活中的视觉挑战,如视障群体通过手机镜头捕获视觉内容,再通过语言对镜头中的内容发起提问。AI算法需要识别和描述物体或场景,并以自然语言的方式进行回答。

    在CVPR 2022上,权威视觉问答竞赛VizWiz提出了新的挑战:AI在回答(Talk)有关的视觉问题时,必须精确地高亮出(Show)相应的视觉证据。

    凭借端到端的DaVI(Dual Visual-Linguistic Interaction)视觉语言交互新范式,Aurora团队成功拿下VizWiz 2022 Answer Grounding竞赛的第1名。

    本届竞赛中,Aurora与来自国内外知名研究机构和高校的60+团队同台竞技,包括Google DeepMind、纽约大学、浪潮国家重点实验室、西安电子科技大学和特拉华大学等。

    夺冠方案的精度相比基线算法提升43.14%,领先在多模领域深耕已久的DeepMind团队3.65%。

    三、DaVI Framework

    VLE: (Visual-based Linguistic Encoder) understands questions incorporated with visual features and produces linguistic-oriented evidence for answer decoding.

    LVD: (Linguistic-based Visual Decoder) focuses visual features on the evidence-related regions for answer grounding.

     四、结果

  • 相关阅读:
    计算机的分类有两种
    synchronized的工作原理
    2022:图元文件转换为Xaml||Paste2Xaml & ReaderWmf
    Simple RPC - 02 通用高性能序列化和反序列化设计与实现
    【数据结构】时间复杂度和空间复杂度
    Revit中“结构框架显示与剪切“的应用和一键剪切功能
    C_11练习题
    RabbitMQ的基本介绍
    【C++】:模板的使用
    洛谷 P3916 - 图的遍历(反向建边)
  • 原文地址:https://blog.csdn.net/weixin_42569673/article/details/126192232
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号