• 使用互相关进行音频对齐


    在计算一些音频指标如SNR的时候,我们需要音频信号与参考信号对齐,但有时候我们处理后的或者录制的音频并不是与参考信号对齐的,这就需要找到一种方法将它们对齐。

    I. 互相关函数

    音频对齐可以转化为时延估计问题,我们以前有介绍过使用GCC-PHAT进行时延估计,这里我们采用一种更为简单的方式进行估计——互相关函数。我们在语音信号时域分析介绍过自相关函数,类似的对于离散时域信号互相关函数的计算公式为:

    我们知道在频域互相关中我们对广义互相关进行了一个加权,PHAT起到了白化的结果使得其互相关函数峰值更加明显,类似的可以对公式(1)进行类似的操作来使得峰值更为明显:

    互相关的计算其实和互相关类似,我找了个视频来解释这个计算过程。

    II. Praat

    很多编程语言都封装好了互相关函数,这里我们使用一个语音分析领域常用的软件叫Praat。由于语音长度是有限的Praat在互相关函数上进行了适当的修改,简单来说互相关序列的开始时间将是f 的开始时间减去g 的结束时间,结束时间将是f的结束时间减去g的开始时间,即第一个采样的时间是f 的第一个样本减去g的最后一个样本,最后一个样本的时间将是f的最后一个样本减去g 的第一个样本,自相关序列的长度是f和g的样本数之和减1。

    我们下面来看下效果,首先我们有两个音频,如下图所示,可以明显看到两个轨道上的音频有明显的延迟。

    我们通过Praat计算出两个音频的时间延迟大约是1.284s。

    我们把第二个轨道的音频提前1.284s。

    得到的结果如下,看起来两段音频基本对齐了。


    本文相关代码,在公众号语音算法组菜单栏点击Code获取。


    参考文献:

    [1]. http://paulbourke.net/miscellaneous/correlate/

    [2]. UCBS, Digital Speech Process

    [3]. http://www.dsg-bielefeld.de/dsg_wp/wp-content/uploads/2014/10/video_syncing_fun.pdf

    [4]. https://www.fon.hum.uva.nl/praat/manual/Sounds__Cross-correlate___.html

  • 相关阅读:
    Milk-V Duo快速上手
    vector的特性及使用
    JAVAWEB_实验三 Servlet 相关技术
    8-13外部排序-置换选择排序
    M1 在VMware里安装Centos8
    现场感言讲稿的标准模板
    掌控安全Update.jsp SQL注入
    java--跳转关键字和随机数
    给Windows文件夹添加备注信息
    【SpringBoot】idea创建SpringBoot项目及注解配置相关应用
  • 原文地址:https://blog.csdn.net/sinat_35821976/article/details/125964663