代码地址:https://github.com/ofsoundof/NTIRE2022_ESR
由于AIM2021没有展开,所以NTIRE2022是ESR方向的第三届。AIM2019冠军方法为IMDN,AIM2020冠军方法为RFDN,这两种方法也成为本次竞赛的baseline和大部分团队的主要借鉴方向。
为了多维度进行综合评比,本次竞赛分为了三个主要赛道:(1)运行时间(runtime);(2)模型复杂度(model complexity);(3)整体表现(overall performance)。子赛道1的模型复杂度以参数量和FLOPs为参考,两指标的排名和来决定排序。子赛道2的整体性能是参考
5
5
5个指标,包括运行时间,参数量,FLOPs,激活层(feature map)大小,显存消耗。和子赛道1相似,子赛道2的排名是5个参考指标的排名的和作为排序指标。
由于实际时间是最重要的,所以团队的名次排名按照主赛道的运行时间来排序。软件环境为Pytorch 1.11.0,CUDA 10.2,CuDNN 7.6.2,硬件环境为一块 Titan Xo GPU。FLOPS、特征层大小(activations)和最大显存(GPU memory)消耗是按照
256
∗
256
256*256
256∗256输入算的。
NITRE超分的尺度因子为4,算法模型在DIV2K验证集的PSNR最低标准为29.0,超过29.0的模型才会进行各赛道指标的评比。共303注册参赛者 ,共43个团队有有效提交。
字节跳动的ByteESR获得了主赛道的第一名,XPiel和NJUST_ESR团队获得了子赛道1的并列第一名,NEESR获得了子赛道2的第一名。
同时开展的NTIRE 2022相关挑战还有:(1)光谱恢复(spectral recovery);(2)光谱去马赛克(spectral demosaicing);(3)感知图像质量评估(perceptual image quality assessment);(4)修复(inpainting);(5)夜间摄影渲染(night photography rendering);(6)高效超分辨率(efficient super-resolution);(7)学习超分辨率空间(learning the super-resolution space);(8)压缩视频的超分辨率和视频增强(super-resolution and quality enhancement of compression video);(9)高范围动态(high dynamic range);(10)双目超分辨率(stereo super-resolution);(11)真实世界超分辨率(burst super resolution);
DIV2K的HR图像是1404*2040大小(随便打开了一张看的,不确定普遍性)的2K图像,一共有1000张。其中800张是训练集,100张是验证集,100张是测试集。制作数据集采用的是下采样因子为4的双三次差值(bicubicly downsampled)。在挑战进行的过程当中,测试集的HR图像不对外开放。
IMDN是AIM 2019的受限超分挑战的冠军,一共有43个卷积。
IMDN使用
1
1
1个
C
o
n
v
3
∗
3
Conv3*3
Conv3∗3提取特征,再用
8
8
8个信息多路蒸馏块(information multi-distillation block,IMDN)进行信息校正(refine)。每个IMDB包含
4
4
4阶段的渐进式校正特征表示。在每个阶段,都将输入特征分成两个独立的特征(channel split),一路直接传递到block的底部,一路进行高维空间的信息校正。上采样层采用pixel Shuffle算子,在上采样前使用一个卷积进行最终的矫正。
一堆指标中,运行时间(runtime)被认为是最重要的一个。该挑战要求参赛者的算法在验证集上的PSNR在29.00db以上。对于最终排名,准确度的微小下降是可以容忍的。其中,验证集PSNR大于28.95db,测试集的PSNR高于28.65的提交即可进入最终排名中。
各团队的排名如下,其中PSNR和Conv数量不计入统计指标。FLOPs、Acts和GPU Mem是以256*256为输入计算的。GPU Mem是由pytorch的接口(torch.cuda.max_memory_allocated)推断出来的最大的GPU内存消耗。每个数字后面的括号内容,就是在该项的排名。计算指标的代码示例在https://github.com/ofsoundof/NTIRE2022_ESR可以找到,提交的解决方案和预训练权重代码也可在上面网址中获得。
运行时间的主赛道冠军是ByteESR,主赛道的前三算法都在30ms以内,第13名也比AIM 2020冠军RFDN要快。可以关注到的是,在DIV2K的数据集下,PSNR指标都是要比baseline要低的,说明只能在某个需要的应用方向进行折中设计。
模型复杂度赛道有两个冠军,是XPiel和NJUST_ESR。9个解决方案的参数量都低于0.3M,要比IMDN和RFDN好上不少。
整体表现赛道的冠军是NEESR,ByteESR和rainbow是二三名。
在运行时间和参数量比baseline的IMDN要低的解决方案中,xilinuxSR的PSNR指标最高(验证集29.05,测试集28.75)。IMDN与xilinux相比,PSNR在验证集提升比测试集的提升大。相对而言,TeamInception和Just Try在测试集的提升更大些,而验证集的PSNR和IMDB相近。这些现象表明IMDN更倾向于验证集的高PSNR,这也是验证集的PSNR指标低位设置为29.00db而不是29.13db的原因。
主体思想就是利用重参数的思想,将一些边缘信息放入重参数模块中,比如sobel算子,Laplcaian算子,最后使用一个
C
o
n
v
3
∗
3
Conv3*3
Conv3∗3代替。