关注公众号,发现CV技术之美
本篇分享 CVPR 2022 论文『Accelerating Video Object Segmentation with Compressed Video』,探讨了如何利用视频压缩来加速视频实例分割(Video Object Segmentation,VOS),以适用于网络中压缩格式视频的高速分割。
详细信息如下:

论文链接:https://arxiv.org/pdf/2107.12192.pdf
项目链接:https://github.com/kai422/CoVOS
01
前言
目前普通的方法基本上都是对普通视频中逐帧对每个实例进行解码,计算复杂度较高。
为了解决这个问题,作者提出了一种嵌入式加速框架,可以直接应用于现有的VOS模型上,具体的,本文先将视频按现有压缩方法(比如HEVC)压缩为P帧、I帧、B帧,再提出一种基于运动向量( motion vector )的方法,基于双向传播以及多帧连接实现mask的传播。最后,通过残差校正网络对预测结果进行校正。
主要贡献:
提出一种新颖的 VOS 加速模块,利用来自压缩视频比特流的信息进行分段传播和校正。
提出一种soft propagation模块,其以运动向量作为输入进行传播,并获得输出mask。
提出一种 mask 校正模块,可根据运动残差校正传播误差。
可以直接应用于现有模型,以提升3倍以上的速度,并且精度下降不大。
02
方法
本文基于压缩后的视频进行视频实例分割,故需要先对普通视频进行压缩。常见的压缩编码形式有:HEVC codec、MPEG-4、H.264。基于上述压缩方式可以将原视频压缩为I帧、P帧、B帧,这三种帧的特点如下:
I-frame:I帧表示关键帧,可以理解为这一帧画面的完整保留,解码时只需要本帧数据就可以完成(因为包含完整画面)。
P-frame:P帧是单向差别帧,表示的是这一帧跟之前的一个关键帧或P帧的差别,没有完整的画面数据,只包含与前一帧画面差别的数据。
B-frame:B帧是双向差别帧,也就是说,B帧记录的是本帧与前后帧的差别。

由上图所示,压缩后帧的大小显著下降,故利用I、P、B帧进行传播将比利用原始帧进行传播计算量小。

本文先基于普通的VOS模型完成对P帧的传播,再通过双向预测完成对B帧的传播。

基于RGB图像,通过预测单元获取每一帧的运动补偿特征(predicted),再基于运动补偿特征与运动矢量可以获得图像残差(Residual)。


其中w为前向传播或者反向传播的权重,ei为残差,Ii为RGB图像
2.1. Soft motion vector propagation module :基于运动向量的传播模块
本节将介绍基于运动矢量实现非关键帧的传播。

如上图所示,首先基于Base model获取关键帧的mask,再通过一个轻量级编码器获取关键帧的图像特征Vk。对于非关键帧,也通过轻量级编码器获取其图像特征Vn。

其次,通过warping操作对前后两个关键帧帧的信息进行整合,获取图像特征和mask特征,最终计算非关键帧图像特征与前后关键帧图像特征的相似度,来对mask特征进行选择。
2.2. Residual-based correction module :残差校正模块
运动矢量会捕获每帧的残差,故此可以将这些作为校正信息。

首先,通过对预测的mask进行膨胀获取前景区域,再通过前景区域对残差信息进行过滤(仅保留残差中的前景部分),最终将残差信息一起输入Decoder以起到校正作用。
03
实验
模型训练完后,在公开数据集YouTube-VOS与DAVIS上进行了测试
实验效果

本文以MIVOS、STM、STCN等方法作为base model进行了实验,可以看出,加了本文的加速模块(CoVOS)后,原先模型的推理性能(FPS)都得到了显著的提升。
消融

04
结论
提出了一种利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速框架。可以提升准确高但推理缓慢的VOS模型的推理速度,同时精度略有下降。同时由于非关键字的推理依赖于关键帧的结果,非关键帧的分割结果将在关键帧分割完成以后完成。

END
加入「视频目标分割」交流群👇备注:VOS
