自然视频的运动调谐时空质量评估
Abstract
最近,人们对开发客观测量视频信号完整性的算法非常感兴趣。由于视频信号在越来越广泛的应用程序和产品中交付给人类最终用户,因此必须提供自动视频质量评估方法(VQA),以帮助控制交付给这一关键观众的视频质量。当然,视频中运动表示的质量在视频质量的感知中起着重要作用,但现有的VQA算法很少直接使用运动信息,因此限制了其有效性。我们试图通过开发一个通用的、空间频谱局部的多尺度框架来改善这一点,该框架用于评估动态视频保真度,集成了失真评估的空间和时间(以及时空)方面。通过沿计算的运动轨迹评估运动质量,不仅可以在空间和时间上评估视频质量,还可以在时空中评估视频质量。使用该框架,我们开发了一种全参考VQA算法,我们为其命名了基于运动的视频完整性评估指数或 MOVIE index。我们发现,使用视频质量专家组FRTV第1阶段数据库作为测试平台,MOVIE index提供了与人类主观判断密切相关的VQA分数。事实上,发现MOVIE index与开发并提交给VGEG FRTV第1阶段研究的算法以及在该数据库上测试的最新VGA算法相当有竞争力,甚至优于这些算法。
I. INTRODUCTION
随着视频点播、数字电视、视频电话会议、互联网流视频、无线视频、消费视频设备等网络视频应用的迅速普及,数字视频越来越多地融入人们的日常生活。在这些应用中,从捕获设备到最终人类用户的视频质量控制对于维持服务质量(QoS)要求和评估数字视频感知质量的方法至关重要,数字视频是视频处理和通信系统的关键组成部分
人类几乎可以在瞬间判断他们正在观看的图像或视频的质量,使用从每天观看数百万幅时变图像中获得的先验知识和期望。因此,评估质量的正确方法是询问人类对图像或视频质量的意见,这称为主观质量评估。事实上,质量的主观判断必须被视为评估图像质量评估(IQA)或视频质量评估(VQA)算法的最终性能标准。测量主观质量通过要求受试者在数字或定性尺度上指示他们正在观看的图像或视频的质量。为了说明人类的可变性并维护统计置信度,需要多个受试者查看每个图像/视频,并计算平均意见分数(MOS)。虽然主观方法是VQA唯一完全可靠的方法,但主观研究既繁琐又昂贵。例如,必须通过使用足够大的样本量来保证MOS的统计显著性;必须强加主体天真;图像/视频数据集必须仔细校准;以此类推[1]、[2]。除了基准测试自动或客观VQA算法外,主观VQA几乎不适用于所有应用程序
为了开发跨一系列失真类型工作的通用VQA算法,全参考算法假设“完美”参考视频的可用性,而每个测试视频假设为该参考的失真版本
我们在第二节中调查了关于全参考VQA的现有文献。这里的讨论将强调一个事实,即尽管当前的全参考VQA算法包含了用于测量视频信号中空间失真的特征,但在直接测量时间失真或运动伪影方面所做的努力很少。如第二节所述,一些算法通过差分相邻帧或在特征计算之前使用简单的时间滤波器处理视频来利用基本的时间信息。然而,大多数现有的VQA算法并不试图直接计算视频信号中的运动信息来预测质量;值得注意的例外包括[3]、[4]、[5]、[6]、[7]。[3] 不是一种通用的VQA算法,目标是视频编码应用,其中[8]中开发的视觉运动传感器模型用于执行指示运动方向的计算。在[4]、[5]、[6]中,运动信息仅用于设计权重,以将局部空间质量指数汇集到视频的单个质量分数中。TetraVQM是在本研究[9]的早期提交之后出现的,它计算参考视频和失真视频之间的运动补偿误差[7]。
然而,运动在人类对运动图像序列的感知中起着非常重要的作用[10]。人类视觉系统(HVS)中有大量资源用于运动感知。HVS可以准确判断场景中物体的运动速度和方向,这些技能对生存至关重要。人类能够进行平滑的眼球运动来跟踪移动的物体。众所周知,视觉注意力被吸引到视觉边缘的运动上,这使人类和其他生物体意识到即将到来的危险[10]、[11]。
此外,运动提供了有关形状的重要线索并有助于物体识别。人类视觉的所有这些特性证明了运动在感知中的重要作用,VQA算法的成功取决于其在HVS中建模和解释运动感知的能力
虽然视频信号确实存在空间失真,但它们通常会因严重的时间伪影而退化,如第三节中详细描述的重影、运动补偿失配、抖动、涂抹、蚊子噪声(以及许多其他类型)。视频质量指数必须考虑到这些伪影的有害感知影响,如果客观评价视频质量是为了准确预测主观判断。大多数现有的VQA算法能够捕获视频序列中发生的空间失真(如第III-A节所述),但在捕获时间失真方面做得不够(如第三-B节所述)
为了解决这个问题,我们开发了一个通用框架,用于实现动态视频质量的空间频谱局部多尺度评估。在该框架中,考虑了失真评估的空间和时间(以及时空)方面。通过沿计算的运动轨迹评估运动质量,不仅可以在空间和时间上评估视频质量,还可以在时空上评估视频质量。
利用该框架,我们开发了一种全参考VQA算法,我们称之为基于运动的视频完整性评估指数,或电影指数。MOVIE通过沿运动轨迹跟踪感知相关的失真,将显式运动信息集成到VQA过程中,从而增强了视频中空间伪影的测量。我们的VQA方法代表了一种演变,因为我们寻求开发VQA原则,这些原则受到[12]、[13]、[14]、[15]中提出的IQA结构相似性和信息论方法的启发。结构相似性(SSIM)指数和视觉信息保真度(VIF)标准是成功的静态图像质量指数,与感知图像质量密切相关,如广泛的心理测量学研究[16]所示。事实上,我们早期的方法是这些算法的扩展,称为视频SSIM和视频信息保真度标准(IFC)[9],[17],粗略地说,质量指数是沿着运动轨迹计算的。
我们目前的方法以 MOVIE index为顶点,代表了我们从早期工作中向前迈出的重要一步,因为我们开发了一个通用框架,用于测量多尺度和沿运动轨迹的时空视频失真,同时考虑时空感知掩蔽效应。正如我们在续集中所展示的那样,该方法的性能与开发并提交给VGEG FRTV第1阶段研究的算法以及在此数据库上测试的最新VGA算法具有高度竞争力
我们在第二节回顾了有关VQA的现有文献。为了理解视频质量保证的挑战性背景,我们在第三节中描述了数字视频序列中常见的失真。第四节详细介绍了MOVIE index的开发。我们解释了电影模型和运动感知之间的关系在第五节的生物视觉系统中,我们还描述了电影与SSIM和VIF静态图像质量模型之间的关系。第六节使用公开的视频质量专家组(VGEG)FRTV第1阶段数据库介绍了电影的性能。我们在第七节中总结了本文,并讨论了未来的工作。
......