目录
在视频估计领域,现有的单眼深度估计方法利用单张图像和差强人意的时间稳定性。这通常意味着需要后处理手段。一些基于深度的视频估计利用重建框架如SFM、序列建模。这些方法在某些方面做了系列假设,因此真实应用时具有一定的局限性。
这些特点使文章方法成为一种实用的视频深度估计器,可以预测真实场景的密集深度,并支持多种基于视频深度的应用。
单眼深度估计的病态(ill-posed nature):估计时的尺度模糊。
现有工作通常利用单张图像估计,在视频估计时往往会出现时间不一致性问题 ,视觉上就是说,画面随着时间推移而闪烁。视频方向的方案:
作者则介绍了一种简单而有效的方法来加强视频深度估计的时间一致性。一个基本假设:如果连续帧中对应的像素漂移很多,闪烁就会出现。通过对这种对应下的预测进行约束和对齐,引导模型在单帧推理下产生具有强一致性的深度估计。同时,定义了一个度量来公平地评估深度估计结果随时间的稳定性,其不需要标记的地面真值进行处理。
最近的工作表明,模型的泛化能力可以通过混合不同的数据源在尺度和移位不变损失的帮助下大大提高。连续多帧能够为深度估计提供额外的信息。
文章方法采用了类似的思想,但限制了像素级的对齐,从而避免了三维重建带来的误差。
时间一致性
基于单帧的方法应用于视频片段时,会出现闪烁现象。同一像素的深度值在整个帧中是不稳定的,因此导致明显视觉不连贯的激进漂移。前人中引入了不稳定性,它将可靠轨迹的不稳定性声明为三维空间中的真实偏差。正常情况下,是正确的,但不能直接反映像素空间中的视觉闪烁。在这项工作中,作者使用光流也开发了一种新的一致性度量,这与二维感知密切相关。同时,提出了一种在视频深度估计中增强时间一致性的实用方法。
时间一致性度量
强制一致的模型应该在整个周期内,得到不包含明显闪烁的深度估计结果。两个连续的深度图的变化通常来自几个方面:
对于高帧率的视频,帧与帧之间的变化较小,连续两帧之间的深度值在对应像素上应该几乎相同。基于单图像的方法通常对帧间的这种变化没有任何限制,因此会出现闪烁现象,使得在三维坐标中属于同一单位的像素深度值在时间轴上发生频繁而随机的漂移。
为了测量连续深度结果的稳定性,需要在每对连续帧中识别相应的像素,并确定这些像素在整个视频中如何波动。在前人对语义分割一致性评估的基础上,很容易提出用光流搜索对应像素点的思想。
度量指标
加强视频的时间一致性深度估计
本文模型建立在单张图像深度估计,旨在将学习时间一致性强加到原始深度网络上。
训练阶段:
将两个相邻帧,分别进行相应的深度估计,遵循单张图像深度估计方法,可以测量深度估计与地面真实深度的差,这只是传统的深度预测精度的损失,在训练中被最小化。前向传递、损失计算和后向传递分别适用于两帧。
时间一致性损失-目的:减少两个连续帧之间的深度偏移。 由于两个坐标系之间存在运动,需要在测量距离之前对其进行补偿。
数据集:难以捕获大尺度、多样化的视频深度数据集。作者建议使用从最先进的单眼深度方法中提取的监督。具体来说,使用MiDaS网络作为教师,对来自多个数据集的大量数据进行预训练。MiDaS已被证明具有良好的泛化能力,适合一般深度估计目标。在这种情况下,前面描述的管道仍然适用,但只是将MiDaS网络的输出作为监督信号Dt *。
在这项工作中,作者介绍了一种简单而有效的方法来提高单帧深度估计下视频深度估计的时间一致性。同时还提出了一种时间一致性度量,该度量与人类对视频稳定性的感知相一致。实验表明,作者方法可以表现出更稳定的深度估计,并且可以推广到动态真实世界的视频中,而不需要相应的深度地面真值。