本周介绍 5 个计算机视觉领域的深度学习模型:多尺度视觉模型 MViT, 能够处理更大图像的 Swin Transformer V2, 全能型多模态模型 CoCa, 端到端的视频语言学习 Violet, 实现视频理解大一统的 All in one
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models
出品人:Towhee 技术团队 顾梦佳
Facebook 人工智能研究院和加州大学伯克利分校在2021年联合推出计算机视觉领域 SoTA 模型 Multi Vision Transformer (MViT)¹,如今在图像分类、视频理解等任务中成为最热门的选择之一。MViT 在视觉 Transformer 结构中引入多尺度特征分层,从而优化了模型性能。实验表明,MViT 在 ImageNet 图像分类、CoCo 图像目标检测、Kinetics-400 视频动作分类三个不同领域的任务中均能取得优异的结果。
MViT 根据通道尺寸与分辨率分为不同的尺度阶段,在降低视觉分辨率的同时分层扩展特征的复杂性。随着阶段的变化,空间分辨率从初始输入值开始逐渐减小,而通道容量则逐步增加。该架构从始至终都使用全局注意力,通过降低图片分辨率来减少计算量。
相关资料:
模型代码:https://github.com/towhee-io/towhee/tree/main/towhee/models/multiscale_vision_transformers
论文:Multiscale Vision Transformers (https://arxiv.org/pdf/2104.11227.pdf)
更多资料:FAIR提出MViT:多尺度视觉Transformer (https://zhuanlan.zhihu.com/p/367226267)
出品人:Towhee 技术团队 徐锦玲、顾梦佳
还在为模型变大,效果不好且不易收敛而烦恼吗?微软针对图像预训练模型 Swin Transformer² 提出 Swin Transformer V2,解决了大型视觉模型训练的三个主要问题:训练不稳定性、预训练和微调之间的分辨率差距、对标记数据的激烈需求。Swin Transformer V2 成功把 Swin Transformer 缩放到 30 亿个参数,并能够接受高达 1536×1536 分辨率的图像。
Swin Transformer V2 主要改进了 Swin Transformer,在减少参数量的同时,使得模型能够处理更高分辨率的图像。由于原本的 Swin Transformer 直接把残差模块加到了主分支上,网络深层的激活值变得很大,与浅层特征的激活值之间有很大的 gap,导致模型变大后会出现训练不稳定的问题。Swin Transformer V2 把 LayerNorm 放到残差计算后面,并提出 scaled cosine attention 代替原来的缩放点击,用以解决缩放点击带来的被少数像素点主导的问题。另外,之前的 Swin Transformer 在处理图像分辨率不一致的问题时使用的方法会导致局部最优。而改进后的模型使用网络在对数空间产生连续的输入,以平滑相对位置进行编码。
相关资料:
模型代码:https://github.com/towhee-io/towhee/tree/main/towhee/models/swin_transformer
论文:Swin Transformer V2: Scaling Up Capacity and Resolution(https://arxiv.org/pdf/2111.09883.pdf)
更多资料:Swin Transformer V2 论文解析(https://zhuanlan.zhihu.com/p/445876985)
出品人:Towhee 技术团队 顾梦佳
谷歌在今年在 CVPR 2022 上提出 CoCa (Contrastive Captioners)³,不仅能够胜任文本图像多模态领域常见的对比任务,还增加了生成式任务,即生成图像对应的文本描述。生成式任务通常比对比学习任务更难,而 CoCa 则机智地选择了结合两种任务。这使其在众多下游任务中都表现优秀,比如图像分类、视频理解、跨模态检索等,尤其在 ImageNet-1K 图像分类中刷新了 top-1 记录,获得了 91.0% 的准确率!
多模态基础模型通常分为三种:单编码器分类(Single-Encoder Classification)、双编码器对比学习(Dual-Encoder Contrastive Learning)、编码器-解码器生成任务(Encoder-Decoder Captioning)。CoCa 在编码器-解码器的基础上融合了另外两个种结构。它将文本解码器均分成两个部分:单模态文本解码器(unimodal text decoder) 和多模态文本解码器(multimodal text decoder)。与此同时,在输入文本的最后增加一个 cls token。其中,单模态文本解码器不参与对图像特征的 cross-attention,而 cls token 经过单模态解码器之后就能获得整个文本的全局特征。另外,CoCa 在图像编码器中使用attention pooling 得到图像的全局特征。最后,CoCa 通过两个全局特征就可以实现图像-文本的对比学习。
相关资料:
模型代码:https://github.com/towhee-io/towhee/tree/main/towhee/models/coca
论文:CoCa: Contrastive Captioners are Image-Text Foundation Models (https://arxiv.org/abs/2205.01917)
更多资料:CoCa:对比+生成式任务构建“全能型多模态模型” (https://zhuanlan.zhihu.com/p/518035855)
出品人:Towhee 技术团队 张晨、顾梦佳
VIOLET(VIdeO-LanguagE Transformer) ⁴由 UCSB 和微软联合提出, 是一个完全端到端的 Video-Language Transformer。综合分析证明,通过视频 Transformer 和 MVM 进行显式时间建模更加有效。VIOLET 在5个视频问题回答任务和4个文本到视频检索任务中取得了新的最先进的性能。
VIOLET 采用了视频 Transformer 来明确地模拟视频输入的时间动态。以前的研究发现视频输入的预训练任务(如遮蔽帧建模)比较低效,为此 VIOLET 设计了一个新的预训练任务:遮蔽视觉标记建模 Masked Visual-token Modeling(MVM),用以更好地进行视频建模。具体来说,原始视频帧斑块被 "tokenized "为离散的视觉 token,目标是根据被遮蔽的斑块恢复原始视觉 token。
相关资料:
模型代码:https://github.com/towhee-io/towhee/tree/main/towhee/models/violet)
论文:End-to-End Video-Language Transformers with Masked Visual-token Modeling (https://arxiv.org/pdf/2111.12681v2.pdf)
更多资料:https://zhuanlan.zhihu.com/p/440800319
出品人:Towhee 技术团队
2022 年新推出的跨模态预训练视频模型 All-in-one 旨在探索统一视频理解的解决方案,减少了模型参数,提高了推理速度,使视频理解更加落地。All-in-one 经过微调后能够被应用到各种下游视频-文本任务中,包括文本视频检索、视频问答、多项选择和视觉常识推理,尤其性能屠榜各大视频问答通用数据集。
通常视频理解模型分为视频编码器、文本编码器、视频文本融合 Transformer 三部分。All-in-one 首次引入了一种端到端的视频语言模型,即 all-in-one Transformer,使用 unified backbone architecture 将原始视频和文本信号嵌入到 joint representations 中。另外,为了克服视频数据的独特时间信息带来的跨模态挑战,All-in-one 引入了一种 token rolling operation,以非参数方式对 video clips 的时域表示进行编码。
相关资料:
模型用例:https://github.com/towhee-io/towhee/tree/main/towhee/models/allinone
论文:All in One: Exploring Unified Video-Language Pre-training(https://arxiv.org/pdf/2203.07303.pdf)
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/towhee/blob/main/towhee/models/README_CN.md ) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)