• TCMonodepth:Enforcing Temporal Consistency in Video Depth Estimation-论文阅读


    [paper]

    目录

    摘要

    介绍

    相关工作

    文章方法

    实验结果

    总结


    摘要

    在视频估计领域,现有的单眼深度估计方法利用单张图像和差强人意的时间稳定性。这通常意味着需要后处理手段。一些基于深度的视频估计利用重建框架如SFM、序列建模。这些方法在某些方面做了系列假设,因此真实应用时具有一定的局限性。

    • 文章:提出一种简单的方法,旨在提高视频深度估计时的时间一致性。没有任何后处理和额外计算成本的情况。
    • 具体:从视频数据中学习了一个先验,这个先验可以直接施加到任何单一图像的单目深度方法。
    • 测试:只是逐帧进行端到端的正向推理,没有任何顺序模块或多帧模块。 
    • 此外:提出了一个评估指标,定量衡量时间一致性的视频深度预测。它不需要标记深度地面真相,只评估连续帧之间的闪烁。一份主观研究表明,提出的度量标准与用户的视觉感知是一致的,一致性得分较高的结果确实是首选。

    这些特点使文章方法成为一种实用的视频深度估计器,可以预测真实场景的密集深度,并支持多种基于视频深度的应用。

    介绍

    单眼深度估计的病态(ill-posed nature):估计时的尺度模糊。

    现有工作通常利用单张图像估计,在视频估计时往往会出现时间不一致性问题 ,视觉上就是说,画面随着时间推移而闪烁。视频方向的方案:

    • 循环结构-LSTM:这些方法没有明确地强制时间一致性,因此它们严重依赖于稳定的密集地面真值(这代价很高)。
    • 多视点约束、重建:这种重建依赖于准确的时间空间匹配特征,但在动态场景中,由于纹理区域较少、运动模糊等困难,通常会降低匹配特征的精度。

    作者则介绍了一种简单而有效的方法来加强视频深度估计的时间一致性。一个基本假设:如果连续帧中对应的像素漂移很多,闪烁就会出现。通过对这种对应下的预测进行约束和对齐,引导模型在单帧推理下产生具有强一致性的深度估计。同时,定义了一个度量来公平地评估深度估计结果随时间的稳定性,其不需要标记的地面真值进行处理。

    • 一种新的评估指标,测量视频深度估计结果的稳定性。实验表明,该指标是OK的,并与人类视觉判断深度一致。
    • 提出了一种有效的方法在训练过程中施加时间限制。然后学习该模型,只有单一帧输入的情况下,产生稳定的深度预测。
    • 将该方法扩展到没有深度地面真值的动态视频。展示了可以很容易地使用未标记的视频强制约束和规范模型。主观研究表明,作者方法提供了更好的一致性值和可察觉的较少闪烁的结果。

    相关工作

    最近的工作表明,模型的泛化能力可以通过混合不同的数据源在尺度和移位不变损失的帮助下大大提高。连续多帧能够为深度估计提供额外的信息。

    • 基于SFM的方法在应用于具有动态对象的快速变化场景时,存在运动模糊和较差的纹理情况,因此,很难找到相应的关系,因此性能下降严重。此外,计算量也大。
    • LSTM循环网络捕获时间信息,同时靠向一致性。尽管它们的泛化性能是建立在不同场景下提供足够深度数据的基础上的。
    • LUO结合了神经网络和多视图约束的优点。该算法通过在三维空间中对对应点进行对齐,使测试时的网络趋于几何一致性。
    • Kopf联合估计摄像机姿态和深度对齐,以消除SfM对视频的限制,并使用几何感知滤波器来改善高频细节。

    文章方法采用了类似的思想,但限制了像素级的对齐,从而避免了三维重建带来的误差。

    时间一致性

    基于单帧的方法应用于视频片段时,会出现闪烁现象。同一像素的深度值在整个帧中是不稳定的,因此导致明显视觉不连贯的激进漂移。前人中引入了不稳定性,它将可靠轨迹的不稳定性声明为三维空间中的真实偏差。正常情况下,是正确的,但不能直接反映像素空间中的视觉闪烁。在这项工作中,作者使用光流也开发了一种新的一致性度量,这与二维感知密切相关。同时,提出了一种在视频深度估计中增强时间一致性的实用方法。

    文章方法

    时间一致性度量

    强制一致的模型应该在整个周期内,得到不包含明显闪烁的深度估计结果。两个连续的深度图的变化通常来自几个方面:

    • 场景中物体的移动
    • 镜头的变换和旋转
    • 同一区域意外频繁的漂移

    对于高帧率的视频,帧与帧之间的变化较小,连续两帧之间的深度值在对应像素上应该几乎相同。基于单图像的方法通常对帧间的这种变化没有任何限制,因此会出现闪烁现象,使得在三维坐标中属于同一单位的像素深度值在时间轴上发生频繁而随机的漂移。

    为了测量连续深度结果的稳定性,需要在每对连续帧中识别相应的像素,并确定这些像素在整个视频中如何波动。在前人对语义分割一致性评估的基础上,很容易提出用光流搜索对应像素点的思想。

    度量指标

     

     

    加强视频的时间一致性深度估计

     本文模型建立在单张图像深度估计,旨在将学习时间一致性强加到原始深度网络上。

    训练阶段

    将两个相邻帧,分别进行相应的深度估计,遵循单张图像深度估计方法,可以测量深度估计与地面真实深度的差,这只是传统的深度预测精度的损失,在训练中被最小化。前向传递、损失计算和后向传递分别适用于两帧。

    时间一致性损失-目的:减少两个连续帧之间的深度偏移。 由于两个坐标系之间存在运动,需要在测量距离之前对其进行补偿。

    数据集:难以捕获大尺度、多样化的视频深度数据集。作者建议使用从最先进的单眼深度方法中提取的监督。具体来说,使用MiDaS网络作为教师,对来自多个数据集的大量数据进行预训练。MiDaS已被证明具有良好的泛化能力,适合一般深度估计目标。在这种情况下,前面描述的管道仍然适用,但只是将MiDaS网络的输出作为监督信号Dt *。

    实验结果

    第一行:来自NYU的输入帧。
    第二行:使用BTS生成的深度估计图。
    第三行:使用CLSTM生成的深度估计映射。
    最后一行:作者方法生成的深度估计图。
    为了更好地可视化视频稳定性,将不同帧和深度估计的相同区域放大并拼接在最后一列上。

     

     

    视频深度估计和数字条纹的视觉比较是从连续的帧中裁剪出来的。
    最先进的基于单图像的方法MiDaS[32]可以产生帧级高质量的深度图,
    但随着时间的推移会有明显的闪烁。
    将时间一致性引入深度估计模型后,作者方法可以预测时间上更稳定的深度预测。

    总结

    在这项工作中,作者介绍了一种简单而有效的方法来提高单帧深度估计下视频深度估计的时间一致性。同时还提出了一种时间一致性度量,该度量与人类对视频稳定性的感知相一致。实验表明,作者方法可以表现出更稳定的深度估计,并且可以推广到动态真实世界的视频中,而不需要相应的深度地面真值。

  • 相关阅读:
    Flink TaskManger 内存计算实战
    小区搜索(二)CORESET0
    "科来杯"第十届山东省大学生网络安全技能大赛决赛复现WP
    决策树,sql考题,30个经典sql题目
    【云原生之K8S】kubeadm v1.20 部署K8S 集群架构
    前端工程化工具系列
    C语言学习-数组(4)
    【智能优化算法-遗传算法】基于遗传算法求解单目标优化问题(实数编码)附matlab代码
    【JS红宝书学习笔记】第6章 集合引用类型
    6 个 Python f 字符串提示和技巧
  • 原文地址:https://blog.csdn.net/MengYa_Dream/article/details/126280459