码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • CLIP扩展


    Audio CLIP:Extend CLIP to Image,Text and Audio(语音)

    在已有的image、text 的基础上又加上了audio语音模态。

    找了一些视频,有视频帧(图像)、文本、语音三种模态的信息,仿照CLIP的模型结构。三种模态两两配对(对角线为正样本对)。最后将三个损失函数相加来更新模型参数。最后可以zero-shot 的做语音分类任务。

    point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021

    3D的数据集较小,难以学到很好的表征。如何把CLIP学到的非常好的2D的表征迁移到3D领域?关键就在于找一个2D和3D的“桥梁”。

    作者将3D点图以不同角度投影到2D深度图上,前边CLIPpasso讲过,由于CLIP模型在特别大的数据集上预训练,因此对各种风格的RGB图像都能提取很好的特征,这里的2D深度图也不例外。

    Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022

    CLIP对物体非常敏感,例如篮球、足球、飞机,CLIP模型是一定可以提取很好的特征,不论是分割还是检测任务都能做的很好。但是对于一些抽象的概念,CLIP模型的表现可能就差强人意。因为对比学习的方式可能确实不适合学一个概念。

    与其把深度估计看成一个回归问题,不如将其看成一个分类问题。强制性的把深度距离(抽象概念)分成几个大类(giant 、close、…、 far、unseen七个类)。

            CLIP模型改动的三点

    1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。

    2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。

    3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。然后用在自己的任务中,定义自己的正负样本对,然后去算多模态对比学习loss。

    python的学习还是要多以练习为主,想要练习python的同学,推荐可以去看,他们现在的IT题库内容很丰富,属于国内做的很好的了,而且是课程+刷题+面经+求职+讨论区分享,一站式求职学习网站,最最最重要的里面的资源全部免费。

    牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网求职之前,先上牛客,就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器,在线进行企业校招实习笔试面试真题模拟考试练习,全面提升求职竞争力,找到好工作,拿到好offer。icon-default.png?t=M85Bhttps://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

    他们这个python的练习题,知识点编排详细,题目安排合理,题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法,通过知识点分类逐层递进,从Hello World开始到最后的实践任务,都会非常详细地指导你应该使用什么函数,应该怎么输入输出。

    牛客网(牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网)还提供题解专区和讨论区会有大神提供题解思路,对新手玩家及其友好,有不清楚的语法,不理解的地方,看看别人的思路,别人的代码,也许就能豁然开朗。

    快点击下方链接学起来吧!

    牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网

    参考:

    参考:CLIP 改进工作串讲(下)【论文精读】_哔哩哔哩_bilibili

    论文下载:http://arxiv.org/abs/2107.06383

    http://arxiv.org/abs/2106.13043

    http://arxiv.org/abs/2112.02413

    http://arxiv.org/abs/2207.01077

  • 相关阅读:
    如何压缩ppt文件的大小?
    华为校招第三题 找最小数
    left join时筛选条件对查询结果的
    Python爬虫零基础入门教程
    uniapp scroll view 解决高度自适应、弹框滚动穿透等问题。
    六月集训(23)字典树
    代码优化~隔离接口实现类
    gitlab离线安装时缺少依赖库的解决思路
    OOALV总结
    有朋友用过优码网吗?
  • 原文地址:https://blog.csdn.net/weixin_45104951/article/details/127117362
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号