码农知识堂 - 1000bd
Python
PHP
JS/TS
JAVA
C/C++
C#
GO
Kotlin
Swift
Masked Autoencoders Are Scalable Vision Learners
老早就想看了,何凯明大神今年的作品,看这阵容,已经迫不及待了。
主要是提出了一种自监督训练的方法和一个适用于这种方法训练的不对称Encoder-decoder网络结构:
这种训练方法能加快训练,同时提高了网络的泛化性。
其实masked autoencoder早就在NLP的BERT和GPT取得成功,在CV领域也有人尝试然而并没有NLP中那么好的效果,那么为什么这个机制在NLP中 work 而在CV中 wor 得并不是很 k 呢,大神提出了疑问,并给出了回答。
网络结构不同。适用矩阵数据的卷积没有办法使用"indicator"这种t适用于token序列数据的机制。然而最近ViT的结构已经不存在这样的问题了。
信息密度不同。语言是人类创造的符号,具有高度的语义性和信息密集性。而图像是自然符号,具有高度的空间冗余。因此,当句子中的单词丢失时,为了复原出单词,模型必须学得复杂的语义理解;而图像块丢失时,模型可以简单地从相邻图像块借鉴,而只需要简单地了解部分与整体、目标与背景、景色风格即可。为了解决这个问题,很简单,mask掉大部分的patch,只留下一小部分,如下图,这样就足够逼迫模型去学得复杂的理解:
decoder预测的对象不同。NLP的decoder需要预测单词,这是高度语义化的;而CV的decoder只需要预测图像,这甚至比CV的其它高层视觉任务如识别等具有更弱的语义性。解决方法是为CV设计特别的decoder。BERT的decoder可以随便,比如一层全连接,对性能的影响并不大,但CV的decoder对学得特征的语义性特别重要。
非对称encoder-decoder:文章设计了一个轻量的decoder,并且把mask token部分交由decoder来处理,而encoder只需要处理没有被mask掉的patch(25%),从而极大地降低了encoder的参数量,从而预训练特别快,内存消耗也更小,从而可以使用更大的encoder模型,得到更高的性能。
encoder就是正常的ViT,带正常的position embedding,但是删掉了75%的随机token。
decoder的输入是encoder输出的token,而mask掉的patch用可学习的token代替,这些patch用的是共享参数的token。此外还需要为这些token(encoder的输出以及mask掉的token)加上position embedding。decoder的结构用了不到encoder 10%的参数量,是很小的结构,decoder的最后一层是一个全连接层,把每个token的size映射为拉长的patch size,reshape后直接就是复原的图片。loss的计算仅对mask掉的pathc做,就是和原图片做MSE损失。decoder仅在预训练的时候用到,训练完只取encoder即可。
文中提到了 linear probing 和 finetuning 两种结果,其中 linear probing 是指只训练最后一层,fine-tuning是指全部训练。值得注意的是,即使用这种方法预训练后采用linear probing训练最后一层,仍然能在图像分类测试集上达到73.5%的准确率。
如果是finetuning,decoder的深度从1到8对最终的测试集准确率没有太大影响,但如果是linear probing,深的decoder能带来更好的效果,这是因为decoder越深,预训练的时候encoder输出的embedding离最后的输出的图像就越远,这些embedding就越语义化和抽象化,而更加抽象的语义更适合作为在linear probing的时候最后一层linear的输入,因为最终输出的是分类值。
是否进行数据增强影响也不大,最好的效果是随机size的随机剪切,比什么都不增强提高了0.9%的准确率(其实说大也大,因为比其它的方法大概也就是高1%到3%的准确率)。
在目标检测、图像分类、实例分割等任务上,使用本文的方法预训练的模型都具有性能上的提高:
此外还提到了文章中的不足之处,图像生成任务会反映数据中的偏见,其中一些包含负面影响;模型会生成不存在的内容,等问题
总结
使用这种方式预训练的encoder迁移到图像分类、目标检测、语义分割、实例分割等任务上都取得了比有监督方法预训练更好的效果,并且具有
更好的泛化性
。这具有
很重大的意义
。之前的几乎所有用在高层视觉任务上的transformer,都是要预训练的。transformer特别容易过拟合。所以transformer用到计算机视觉的高级任务上,比如分类、目标检测什么的。都会先在ImageNet上做大规模的预训练。这些模型如果你想在自己的数据集上训练,不load预训练的参数效果会比较差。现在相当于,所有的模型有了个更好的预训练的方式。都不用改什么,只是把预训练的权重换成它预训练的权重,重新训练一遍,就能有
效果上的提升
。而且原先在ImageNet上预训练,是分类任务的。而本文完全
自监督
,不需要label。由于特殊的设计,预训练的
速度更快
,
内存消耗也更小
。一篇工作能提高许多领域的SOTA,只能说,不愧是大神。
相关阅读:
Andriod开发R文件爆红相关解决方法及排查方案
【Ubuntu】安装Anaconda+vscode
第六章(6):Python中的函数—闭包和装饰器
论文阅读-A General Language for Modeling Social Media Account Behavior
【王道】操作系统OS第五章I/O管理(五)
LeetCode·每日一题·1235.规划兼职工作·动态规划
损失函数和目标函数|知识补充
【计算机系统(1)】5 LC-3中断实验
linux(全志F1C100S/F1C200S)系列03:USB驱动移植,hub支持
Postman —— HTTP请求基础组成部分
原文地址:https://blog.csdn.net/weixin_44326452/article/details/125601728
最新文章
攻防演习之三天拿下官网站群
数据安全治理学习——前期安全规划和安全管理体系建设
企业安全 | 企业内一次钓鱼演练准备过程
内网渗透测试 | Kerberos协议及其部分攻击手法
0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常,环境问题解决方案
leetcode hot100【LeetCode 279. 完全平方数】java实现
OpenWrt下安装Mosquitto
AnatoMask论文汇总
【AI日记】24.11.01 LangChain、openai api和github copilot
热门文章
十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
奉劝各位学弟学妹们,该打造你的技术影响力了!
五年了,我在 CSDN 的两个一百万。
Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
面试官都震惊,你这网络基础可以啊!
你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
心情不好的时候,用 Python 画棵樱花树送给自己吧
通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
13 万字 C 语言从入门到精通保姆级教程2021 年版
10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系
2656653265@qq.com
京ICP备2022015340号-1
正则表达式工具
cron表达式工具
密码生成工具
京公网安备 11010502049817号