• CoVOS:无需解码!利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速(CVPR 2022)...


    关注公众号,发现CV技术之美

    本篇分享 CVPR 2022 论文『Accelerating Video Object Segmentation with Compressed Video』,探讨了如何利用视频压缩来加速视频实例分割(Video Object Segmentation,VOS),以适用于网络中压缩格式视频的高速分割。

    详细信息如下:

    b23df9247dd0c9746d506e05f9c48c51.png

    • 论文链接:https://arxiv.org/pdf/2107.12192.pdf

    • 项目链接:https://github.com/kai422/CoVOS

          01      

    前言

    目前普通的方法基本上都是对普通视频中逐帧对每个实例进行解码,计算复杂度较高。

    为了解决这个问题,作者提出了一种嵌入式加速框架,可以直接应用于现有的VOS模型上,具体的,本文先将视频按现有压缩方法(比如HEVC)压缩为P帧、I帧、B帧,再提出一种基于运动向量( motion vector )的方法,基于双向传播以及多帧连接实现mask的传播。最后,通过残差校正网络对预测结果进行校正。

    主要贡献:

    1. 提出一种新颖的 VOS 加速模块,利用来自压缩视频比特流的信息进行分段传播和校正。

    2. 提出一种soft propagation模块,其以运动向量作为输入进行传播,并获得输出mask。

    3. 提出一种 mask 校正模块,可根据运动残差校正传播误差。

    4. 可以直接应用于现有模型,以提升3倍以上的速度,并且精度下降不大。

          02      

    方法

    本文基于压缩后的视频进行视频实例分割,故需要先对普通视频进行压缩。常见的压缩编码形式有:HEVC codec、MPEG-4、H.264。基于上述压缩方式可以将原视频压缩为I帧、P帧、B帧,这三种帧的特点如下:

    I-frame:I帧表示关键帧,可以理解为这一帧画面的完整保留,解码时只需要本帧数据就可以完成(因为包含完整画面)。

    P-frame:P帧是单向差别帧,表示的是这一帧跟之前的一个关键帧或P帧的差别,没有完整的画面数据,只包含与前一帧画面差别的数据。

    B-frame:B帧是双向差别帧,也就是说,B帧记录的是本帧与前后帧的差别。

    c10385d2c4e465ebdc4b1f9be95ad035.png

    由上图所示,压缩后帧的大小显著下降,故利用I、P、B帧进行传播将比利用原始帧进行传播计算量小。

    de14584b8c6166287767a7f60665fb01.png

    本文先基于普通的VOS模型完成对P帧的传播,再通过双向预测完成对B帧的传播。

    c19ae6e934b9eaf6192440b547dd7a70.png

    基于RGB图像,通过预测单元获取每一帧的运动补偿特征(predicted),再基于运动补偿特征与运动矢量可以获得图像残差(Residual)。

    9415a4c15e858d711f92558465e12e22.png

    a82d67917f2a3d0e9905f6babb36665f.png

    其中w为前向传播或者反向传播的权重,ei为残差,Ii为RGB图像

    2.1. Soft motion vector propagation module :基于运动向量的传播模块

    本节将介绍基于运动矢量实现非关键帧的传播。

    3a286cb83637864c6626d0fd7d31ec32.png

    如上图所示,首先基于Base model获取关键帧的mask,再通过一个轻量级编码器获取关键帧的图像特征Vk。对于非关键帧,也通过轻量级编码器获取其图像特征Vn。

    ae389b7d9f20d1b520b315a12a3fbf38.png

    其次,通过warping操作对前后两个关键帧帧的信息进行整合,获取图像特征和mask特征,最终计算非关键帧图像特征与前后关键帧图像特征的相似度,来对mask特征进行选择。

    2.2. Residual-based correction module :残差校正模块

    运动矢量会捕获每帧的残差,故此可以将这些作为校正信息。

    ce66002c9146f44c61c44021cf9c63eb.png

    首先,通过对预测的mask进行膨胀获取前景区域,再通过前景区域对残差信息进行过滤(仅保留残差中的前景部分),最终将残差信息一起输入Decoder以起到校正作用。

          03      

    实验

    模型训练完后,在公开数据集YouTube-VOS与DAVIS上进行了测试

    验效果

    a509642ebc25e2021acf1240e532a4b9.png

    本文以MIVOS、STM、STCN等方法作为base model进行了实验,可以看出,加了本文的加速模块(CoVOS)后,原先模型的推理性能(FPS)都得到了显著的提升。

    消融

    83d9dfab94e55d2dbb629a14b188372d.png

          04      

    结论

    提出了一种利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速框架。可以提升准确高但推理缓慢的VOS模型的推理速度,同时精度略有下降。同时由于非关键字的推理依赖于关键帧的结果,非关键帧的分割结果将在关键帧分割完成以后完成。

    a15ee3ffb4d35fcfc174b6f3e8c3fd1f.jpeg

    END

    加入「视频目标分割交流群👇备注:VOS

    92996b403cc6125167abdede678acebe.png

  • 相关阅读:
    vue2实现可拖拽甘特图(结合element-ui的gantt图)
    扩增子分析全面升级!加量不加价,数据更多新玩法
    交换机/路由器的存储介质-华三
    Vue2与Vue3区别
    MySQL-幻读与事务调度
    vue+elementui实现el-input动画效果
    【2022华为od机试题】【JAVA】【刷题子】华为od机试题:磁盘容量排序(AC:100%)
    永恒之蓝ms17-010的利用
    学C++要不要先学C语言?
    SpringBoot自动配置
  • 原文地址:https://blog.csdn.net/moxibingdao/article/details/125986357