CoVOS：无需解码！利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速（CVPR 2022）... - 码农知识堂

CoVOS：无需解码！利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速（CVPR 2022）...
关注公众号，发现CV技术之美

本篇分享 CVPR 2022 论文『Accelerating Video Object Segmentation with Compressed Video』，探讨了如何利用视频压缩来加速视频实例分割（Video Object Segmentation，VOS），以适用于网络中压缩格式视频的高速分割。

详细信息如下：
- 论文链接：https://arxiv.org/pdf/2107.12192.pdf
- 项目链接：https://github.com/kai422/CoVOS
01

前言

目前普通的方法基本上都是对普通视频中逐帧对每个实例进行解码，计算复杂度较高。

为了解决这个问题，作者提出了一种嵌入式加速框架，可以直接应用于现有的VOS模型上，具体的，本文先将视频按现有压缩方法（比如HEVC）压缩为P帧、I帧、B帧，再提出一种基于运动向量（ motion vector ）的方法，基于双向传播以及多帧连接实现mask的传播。最后，通过残差校正网络对预测结果进行校正。

主要贡献：
1. 提出一种新颖的 VOS 加速模块，利用来自压缩视频比特流的信息进行分段传播和校正。
2. 提出一种soft propagation模块，其以运动向量作为输入进行传播，并获得输出mask。
3. 提出一种 mask 校正模块，可根据运动残差校正传播误差。
4. 可以直接应用于现有模型，以提升3倍以上的速度，并且精度下降不大。
  02

方法

本文基于压缩后的视频进行视频实例分割，故需要先对普通视频进行压缩。常见的压缩编码形式有：HEVC codec、MPEG-4、H.264。基于上述压缩方式可以将原视频压缩为I帧、P帧、B帧，这三种帧的特点如下：

I-frame：I帧表示关键帧，可以理解为这一帧画面的完整保留，解码时只需要本帧数据就可以完成（因为包含完整画面）。

P-frame：P帧是单向差别帧，表示的是这一帧跟之前的一个关键帧或P帧的差别，没有完整的画面数据，只包含与前一帧画面差别的数据。

B-frame：B帧是双向差别帧，也就是说，B帧记录的是本帧与前后帧的差别。

由上图所示，压缩后帧的大小显著下降，故利用I、P、B帧进行传播将比利用原始帧进行传播计算量小。

本文先基于普通的VOS模型完成对P帧的传播，再通过双向预测完成对B帧的传播。

基于RGB图像，通过预测单元获取每一帧的运动补偿特征（predicted），再基于运动补偿特征与运动矢量可以获得图像残差（Residual）。

其中w为前向传播或者反向传播的权重，ei为残差，Ii为RGB图像

2.1. Soft motion vector propagation module ：基于运动向量的传播模块

本节将介绍基于运动矢量实现非关键帧的传播。

如上图所示，首先基于Base model获取关键帧的mask，再通过一个轻量级编码器获取关键帧的图像特征Vk。对于非关键帧，也通过轻量级编码器获取其图像特征Vn。

其次，通过warping操作对前后两个关键帧帧的信息进行整合，获取图像特征和mask特征，最终计算非关键帧图像特征与前后关键帧图像特征的相似度，来对mask特征进行选择。

2.2. Residual-based correction module ：残差校正模块

运动矢量会捕获每帧的残差，故此可以将这些作为校正信息。

首先，通过对预测的mask进行膨胀获取前景区域，再通过前景区域对残差信息进行过滤（仅保留残差中的前景部分），最终将残差信息一起输入Decoder以起到校正作用。

  03

实验

模型训练完后，在公开数据集YouTube-VOS与DAVIS上进行了测试

实验效果

本文以MIVOS、STM、STCN等方法作为base model进行了实验，可以看出，加了本文的加速模块（CoVOS）后，原先模型的推理性能（FPS）都得到了显著的提升。

消融

  04

结论

提出了一种利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速框架。可以提升准确高但推理缓慢的VOS模型的推理速度，同时精度略有下降。同时由于非关键字的推理依赖于关键帧的结果，非关键帧的分割结果将在关键帧分割完成以后完成。

END

加入「视频目标分割」交流群👇备注：VOS
相关阅读:
vue2实现可拖拽甘特图（结合element-ui的gantt图）
扩增子分析全面升级！加量不加价，数据更多新玩法
 交换机/路由器的存储介质-华三
 Vue2与Vue3区别
 MySQL-幻读与事务调度
 vue+elementui实现el-input动画效果
 【2022华为od机试题】【JAVA】【刷题子】华为od机试题：磁盘容量排序（AC:100%）
永恒之蓝ms17-010的利用
 学C++要不要先学C语言？
SpringBoot自动配置
原文地址：https://blog.csdn.net/moxibingdao/article/details/125986357