码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • CLIP:从自然语言监督中学习可迁移的视觉模型


    摘要

    在这里插入图片描述

    最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从有关图像的原始文本中学习是一种很有前途的替代方案,它利用了更广泛的监督来源。我们证明了预测哪个标题与哪个图像搭配的简单预训练任务是一种有效且可扩展的方式,可以在从互联网收集的 4 亿(图像,文本)对的数据集上从头开始学习 SOTA 图像表示。在预训练之后,使用自然语言来参考学习的视觉概念(或描述新的概念),使模型能够零样本转移到下游任务。我们通过对 30 多个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能,这些数据集涵盖 OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。该模型非常重要地转移到大多数任务,并且通常与完全监督的基线相比具有竞争力,而无需任何数据集特定的训练。例如,我们在 ImageNet 零样本上匹配原始 ResNet-50 的准确性,而无需使用它所训练的 128 万个训练示例中的任何一个。我们在 https://github.com/OpenAI/CLIP 上发布我们的代码和预训练模型权重。

    一、 简介和激励工作

    在过去几年中,直接从原始文本中学习的预训练方法彻底改变了 NLP(Dai & Le,2015;Peters 等人,2018;Howard & Ruder,2018;Radford 等人,2018;Devlin 等人, 2018 年;Raff

  • 相关阅读:
    本地连接服务器使用GPU训练模型
    【开源微服务项目】基于 AOP + Redis + 自定义注解 实现细粒度的接口IP访问限制
    从零到一手写迷你版Vue
    你知道哪几种Java锁?分别有什么特点?
    `算法题解` `UOJ` #150. 【NOIP2015】运输计划
    Vue.js 知识点总结(一)
    C# 迭代器
    关于cvxpy库使用过程中的一个warning
    计算机等级考试嵌入式三级重点考点归纳
    SQL常用语句
  • 原文地址:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/125452516
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号