• 【论文阅读笔记】NITRE 2022 Challenge on Efficient Super-Resolution: Methods and Results


    代码地址:https://github.com/ofsoundof/NTIRE2022_ESR

    论文小结

    赛事情况

      由于AIM2021没有展开,所以NTIRE2022是ESR方向的第三届。AIM2019冠军方法为IMDN,AIM2020冠军方法为RFDN,这两种方法也成为本次竞赛的baseline和大部分团队的主要借鉴方向。
      为了多维度进行综合评比,本次竞赛分为了三个主要赛道:(1)运行时间(runtime);(2)模型复杂度(model complexity);(3)整体表现(overall performance)。子赛道1的模型复杂度以参数量和FLOPs为参考,两指标的排名和来决定排序。子赛道2的整体性能是参考 5 5 5个指标,包括运行时间,参数量,FLOPs,激活层(feature map)大小,显存消耗。和子赛道1相似,子赛道2的排名是5个参考指标的排名的和作为排序指标。
      由于实际时间是最重要的,所以团队的名次排名按照主赛道的运行时间来排序。软件环境为Pytorch 1.11.0,CUDA 10.2,CuDNN 7.6.2,硬件环境为一块 Titan Xo GPU。FLOPS、特征层大小(activations)和最大显存(GPU memory)消耗是按照 256 ∗ 256 256*256 256256输入算的。
      NITRE超分的尺度因子为4,算法模型在DIV2K验证集的PSNR最低标准为29.0,超过29.0的模型才会进行各赛道指标的评比。共303注册参赛者 ,共43个团队有有效提交。

      字节跳动的ByteESR获得了主赛道的第一名,XPiel和NJUST_ESR团队获得了子赛道1的并列第一名,NEESR获得了子赛道2的第一名。

    赛事相关介绍

    赛事信息

      同时开展的NTIRE 2022相关挑战还有:(1)光谱恢复(spectral recovery);(2)光谱去马赛克(spectral demosaicing);(3)感知图像质量评估(perceptual image quality assessment);(4)修复(inpainting);(5)夜间摄影渲染(night photography rendering);(6)高效超分辨率(efficient super-resolution);(7)学习超分辨率空间(learning the super-resolution space);(8)压缩视频的超分辨率和视频增强(super-resolution and quality enhancement of compression video);(9)高范围动态(high dynamic range);(10)双目超分辨率(stereo super-resolution);(11)真实世界超分辨率(burst super resolution);

    DIV2K数据集

      DIV2K的HR图像是1404*2040大小(随便打开了一张看的,不确定普遍性)的2K图像,一共有1000张。其中800张是训练集,100张是验证集,100张是测试集。制作数据集采用的是下采样因子为4的双三次差值(bicubicly downsampled)。在挑战进行的过程当中,测试集的HR图像不对外开放。

    作为baseline的IMDN模型

      IMDN是AIM 2019的受限超分挑战的冠军,一共有43个卷积。
      IMDN使用 1 1 1 C o n v 3 ∗ 3 Conv3*3 Conv33提取特征,再用 8 8 8个信息多路蒸馏块(information multi-distillation block,IMDN)进行信息校正(refine)。每个IMDB包含 4 4 4阶段的渐进式校正特征表示。在每个阶段,都将输入特征分成两个独立的特征(channel split),一路直接传递到block的底部,一路进行高维空间的信息校正。上采样层采用pixel Shuffle算子,在上采样前使用一个卷积进行最终的矫正。

    Evaluation protocol

      一堆指标中,运行时间(runtime)被认为是最重要的一个。该挑战要求参赛者的算法在验证集上的PSNR在29.00db以上。对于最终排名,准确度的微小下降是可以容忍的。其中,验证集PSNR大于28.95db,测试集的PSNR高于28.65的提交即可进入最终排名中。
      各团队的排名如下,其中PSNR和Conv数量不计入统计指标。FLOPs、Acts和GPU Mem是以256*256为输入计算的。GPU Mem是由pytorch的接口(torch.cuda.max_memory_allocated)推断出来的最大的GPU内存消耗。每个数字后面的括号内容,就是在该项的排名。计算指标的代码示例在https://github.com/ofsoundof/NTIRE2022_ESR可以找到,提交的解决方案和预训练权重代码也可在上面网址中获得。
    在这里插入图片描述

    表格分析

      运行时间的主赛道冠军是ByteESR,主赛道的前三算法都在30ms以内,第13名也比AIM 2020冠军RFDN要快。可以关注到的是,在DIV2K的数据集下,PSNR指标都是要比baseline要低的,说明只能在某个需要的应用方向进行折中设计。
      模型复杂度赛道有两个冠军,是XPiel和NJUST_ESR。9个解决方案的参数量都低于0.3M,要比IMDN和RFDN好上不少。
      整体表现赛道的冠军是NEESR,ByteESR和rainbow是二三名。

      在运行时间和参数量比baseline的IMDN要低的解决方案中,xilinuxSR的PSNR指标最高(验证集29.05,测试集28.75)。IMDN与xilinux相比,PSNR在验证集提升比测试集的提升大。相对而言,TeamInception和Just Try在测试集的提升更大些,而验证集的PSNR和IMDB相近。这些现象表明IMDN更倾向于验证集的高PSNR,这也是验证集的PSNR指标低位设置为29.00db而不是29.13db的原因。

    论文介绍

    前置信息

    edge-oriented convolution block(ECB)

      主体思想就是利用重参数的思想,将一些边缘信息放入重参数模块中,比如sobel算子,Laplcaian算子,最后使用一个 C o n v 3 ∗ 3 Conv3*3 Conv33代替。
    在这里插入图片描述

    各团队方法介绍

      

      

      

      

      

      

      

      

      

      

      

  • 相关阅读:
    中国信通院《数据安全产品与服务图谱》,美创科技实现四大板块全覆盖
    win10 import rpy2 Unable to determine R home: [WinError 2]
    HarmonyOS系统内核中消息队列的实现
    PacBio三代宏基因组测序大幅提升海洋水体宏基因组研究效果
    PostgreSQL常用数据类型
    Python函数 - - reverse()和reversed()
    跳出打工圈!程序员要如何走上创业逆袭路,获得财富自由
    Scipy库中FIR滤波器的应用
    跌宕奔流2022,自动驾驶江湖风起雨涌,特斯拉、毫末、华为突破重围
    日联科技在科创板过会:上半年营收约2亿元,宁德时代等为股东
  • 原文地址:https://blog.csdn.net/qq_19784349/article/details/125536916