[论文阅读]NeurIPS 2021论文预讲会总结

time: 2021.11.27 下午场

王云鹏
华为诺亚方舟实验室

引导报告（四）：
关于视觉Transformer的思考

TNT
1.相关模型：vit

2.TNT：视觉transformer骨干模型
引入了视觉句子
外部trm处理句子，内部trm处理token

IPT
1.结构
多头多尾：输入(原图加噪声)，输出(原图)
对比学习+分类

2.实验：
去燥效果高于cnn

Adder ViT: 加法替代乘法构建trm模型
降低功耗，提升性能

朱铭健

动态分辨率网络：Dynamic resolution Network
目的：减少计算量
结构：
复杂图片选择高分辨率，简单图片选择低分辨率

实验：
mobileNet

谢恩泽
香港大学
SegFormer: simple and efficient
PVT: pyramid vision trm
结构：SegFormer
去掉了位置编码
有效感受
trm高于其他resnet，更全局

实验：
鲁棒性高：vs deeplabV3
Not All Images are Worth 16*16 words: Dynamic Vision Transformers with Adptive Sequence Length
相关工作：vit

motivation
flops增加近4倍，效果提升6.4%，很不划算

假设：自适应调整tokens数目？
通过判断是否可信(confidence > threshold)，动态调整tokens数目
实验：T2T vit, DeiT
复用 attention map

Augmented shortcut for vision transformer

特征多样性
解决shotcut中特征坍塌（特征不够多样性）

方法：
在原始的shotcut(resnet)上并联：线性变换+非线性激活函数
高效部署：分块循环矩阵
基于快速傅立叶变换(FFT)的高效实现

HRFromer: high-resolution transformer for dense prediction

相关工作：
ViT（分类）
DeiT（分类）

分辨率低：丢失了很多细节信息，

DPT

多个stage: 4,8,16,32
PVT:
Swin:

动机：
dense prediction：基于HRNet
同时保持多路分辨率
复杂度高：L平方-
ISA解决

结构：
HRFromer: HR+trm
trm + cnn(跨window)

实验：
数据集：coco pose
参数量低，效果和HRnet类似

语义分割

田值

Twins: Revisting the design of spatial attention in vision transformers

相关工作：

位置编码
位置编码：用3*3卷积替换这个编码(PEG)
基于PVT
固定postion，导致不同位置的同一物体特征不一样

global attention（/local）
计算量比较大
我们的思路：分层（local + global）

实验

flops降低
图片分割：

目标检测：
效果提升，flops降低

消融
global + local ⬆️
positional

相关阅读:
携职教育：系统集成项目管理工程师报名一直待审核怎么办？
研发管理用什么软件？
java-php-python-知道特产网计算机毕业设计
多线程系列(十七) -线程组介绍
【数据结构与算法】线性表 - 顺序表
自动驾驶感知的AI力量：大模型在车辆感知中的应用
【蓝桥杯选拔赛真题61】Scratch小猫照镜子少儿编程scratch图形化编程蓝桥杯选拔赛真题解析
Android ADB 常用命令及详解
【Linux】Linux下的常用命令汇总
gitlab-runner 中的 Docker-in-Docker

原文地址：https://blog.csdn.net/u010212101/article/details/126041166