• 04|主观与客观评价音频质量


    目录

    引言:

    一. 音频主观评价方法

    MUSHRA

    介绍

    特点:

    应用MUSHRA例子:

    常用的主观评价指标:

    二. 音频客观评价方法

    有参考评价:

    PESQ与POLQA

    PESQ的算法步骤:

    note:

    ViSQOL :https://arxiv.org/pdf/2004.09584.pdf

    无参考评价:

    适用场景:

    比较著名的无参考客观评价方法:

    三. 小结:


    引言:

    音频的评价方法主要两种:

    1. 主观评价

    即组织足够数量多人来听被测音频并对样本进行打分,最后依据打分的高低来评价音频质量的好坏。

    优点:

    主观测试是音频评价的黄金准则,最符合人的实际听感。

    缺点

    主观评测费时费力,不一定是最经济的方案

    1. 客观测试

    通过给定数学公式计算音频质量评价指标,比如SNR、频谱差异等。 结合计算结果拟合一个主观分数。

    一. 音频主观评价方法

    ITU(国际电信联盟),联合国下属一个专门机构,负责电信、通话等相关标准等制定。   比较有公信力的组织包括ITU-R(无线电通信组)和ITU-T(远程通信标准化组织)。   这两个组织为了统一国际音频质量评价指标,制定了一系列的主、客观评价方法。 

    MUSHRA

    介绍

    (Multi-Stimulus Test with Hidden Reference and Anchor,多激励隐藏参考基准测试方法)属于 ITU-R BS.1534 中的推荐测试方法。  它最早被用于流媒体与通信的相关编码的主观评价,现在也被广泛应用于心理声学相关研究中的音质主观评价。

    MUSHRA 的分数是 0 到 100 分,按照从高到低的听感描述,如表 1 所示:

    为了保证测试的有效性,主要需要注意以下4点:

    1. 参考的标准音频和被测试音频间隔测试,连续重复 4 次; (防止误判)
    2. 音频源采用 15~20s;  (防止测试者产生听音疲劳)
    3. 一次完整的测试时间不应超过 15~20min;(防止测试者产生听音疲劳)
    4. 测试成员:专家成员最少 10 人,非专家 20 人。(使得标准不过于严苛更能符合大众的听音习惯)

    特点:

    其测试的特点主要是在测试语料中混入无损音源作为参考(上限),全损音源作为锚点(下限),通过双盲听测试,对待测音源和隐藏参考音源与锚点进行主观评分。

    MUSHRA 方法的测试面比较广,可以用于编 / 解码器,语音合成,甚至是耳机测评。

    应用MUSHRA例子:

    REF是无损音频,采样位深8bit记位8bit_lal_REF,  Anchor35是锚点,其他为不同语音合成算法。

    常用的主观评价指标:

    1. MUSHRA方法
    2.  ITU-T P.800《语音质量的主观评价方法》,也就是我们常说的 MOS(Mean Option Scores,平均意见分)
    3. ITU-T P.830《电话和宽带数字语音编码器的主观评价方法》
    4. ITU-T P.805《对话质量的主观评价》
    5. ITU-R 主观评价标准中的 ITU-R BS.1116 《音频系统中小损伤主观评价方法》
    6. ITU-R BS.1285 《音频系统中小损伤主观评价的预选方法》

    ITU官网: 国际电联:致力于连通世界

    主观评价缺点:测试者太少、测试者不规范等都会带来测试误差

    二. 音频客观评价方法

    客观评价包括有参考评价和无参考评价。

    有参考评价:

    除了需要给定测试音频外,还需要同时给出参考音频做基准。通过计算测试音频和参考音频等区别来拟合音频的主观得分。

    PESQ与POLQA

    在 2001 年,ITU-T P.862 标准定义了有参考客观评价算法PESQ(Perceptual Evaluation of Speech Quality,语音质量感知评价),该算法主要用来评估窄带(8kHz 采样率)及宽带(16kHz 采样率)下的编、解码损伤。该算法在过去的二十年中,被广泛的应用于通信质量的评定。   已开源。

    2011 年,P.863 标准定义了一套更全面、更准确的有参考客观评价POLQA。相比 PESQ,POLQA 可评估的带宽更广,对噪声信号和延时的鲁棒性更好,其语音质量评分也更接近于主观的评分。  需要购买百万元的专门设备和授权才能使用。

    PESQ的算法步骤:

    时间对齐:目的消除系统延迟的影响。

    听觉变换:将音频信号转化为频谱信号。

    差异处理:逐帧处理

    取时间平均得到PESQ分数。如对齐错误可再次对齐。

    PESQ 的分数范围在 0~4.5 分,一般音质比较好的编/解码器,比如 64kbps 比特率的 OPUS 编解码器,可以达到 4.5 分,而分数越低则代表音质越差。比如 OPUS 的码率降到 6kbps 那 PESQ 可能就只有不到 3 的分数。

    note:

    PESQ 最多只能评价 16kHz 采样率的音频。  如果要评价一个采样率比较高的音频信号,比如音乐信号,POLQA 会比较合适。POLQA 最高可以支持 48kHz 采样率的全带音频的客观质量评价。     但购买一套 POLQA 设备的价格都是百万级的,为了方便使用,你还可以考虑一下使用例如ViSQOL 等开源算法,也可以支持 48kHz 的音频采样率。

    ViSQOL :https://arxiv.org/pdf/2004.09584.pdf

    无参考评价:

    不需要参考音频,根据音频的频谱能量分布、连续性等指标评分。

    适用场景:

    比如在打网络电话时,只有接收到的经过编 / 解码和网络传输的音频信号,没有远端的输入信号。这时只能采用无参考音频质量评价方法。

    不需要参考信号,仅通过对输入信号本身或参数的分析即可得到一个质量评分。

    比较著名的无参考客观评价方法:

    1.  ITU-T P.563

    2004 年提出,主要是面向窄带语音的质量评估

    1. ANIQUE+

    2006 年提出,也是面向窄带语音,其评分准确度据作者称超过了 PESQ,不过 PESQ 的测量不能反应网络的延时、丢包等,并不能完美适用于如今基于互联网传输的实时互动场景。

    1. E-model

    于 2003 年提出,不同于上述两种方法,这是一个基于 VoIP 链路参数的损伤定量标准,不会直接基于信号域进行分析。

    1. ITU-T P.1201

    ITU-T P.1201 系列于 2012 年提出,对于音频部分,该标准也不对音频信号直接进行分析,而是基于网络状态和信号状态对通信质量进行评分。

    三. 小结:

    客观测试目前只能测量音频的损伤程度,比如我们平时在选择编解码器时不知道选择什么类型、多少码率,这时不妨跑一下 PESQ 或者 VisQol 看一下分数。

    而对于一些偏主观的测试类型,比如音乐听感、耳机效果等,则一般还是需要依靠主观测试。主观测试可以采用众包等方式把测试分发出去。

    针对这种分发式的主观测试,最近的 ITU-T P.808 也有详细的测试流程和方法。

  • 相关阅读:
    谷歌搜索引擎关键词优化,竞价排名怎么做?大舍传媒
    sqlserver6
    3. ansible playbook剧本
    KDE相关记录
    Android Studio 的android.jar文件在哪儿
    modbus协议教程
    C++ vector容器 常用 API 操作
    harbor的安装及使用
    持续集成和持续部署
    一个基于百度飞桨封装的.NET版本OCR工具类库 - PaddleOCRSharp
  • 原文地址:https://blog.csdn.net/qq_36533552/article/details/125487419