• 利用干扰源模型确定多通道音频信号盲源分离


          在现实世界的应用中,通常需要从多个麦克风采集的混合信号中提取出感兴趣的源信号。源分离技术主要有两种范式:波束形成(beamforming)和基于独立成分分析(ICA)的多通道盲音频源分离(MBASS)。波束形成更侧重于空间滤波和方向性信号的增强,而MBASS则侧重于从混合信号中分离出独立的源信号。

    • 波束形成的基本原理是利用传感器阵列中各个传感器接收到的信号之间的时间差(或相位差),通过加权求和,使得期望方向的信号在求和过程中同相相加,而其他方向的信号由于时间差(或相位差)的存在,不能完全同相相加,从而达到选择性地接收特定方向信号的目的
    • 在多通道盲音频源分离的背景下,假设有多个麦克风同时记录下多个声源的混合信号,ICA的目标是找到一种变换,使得变换后的信号尽可能独立。这里的“独立”指的是统计独立,即每个分离出的信号不包含其他信号的信息

    1、现有方法的局限性

    • 波束形成方法需要知道阵列的几何结构和每个源的入射角。
    • MBASS方法通常在短时傅里叶变换(STFT)域中进行,但面临的挑战是内部排列问题,这可能会严重影响分离性能。

    2、优化方法及关键特征

           独立低秩矩阵分析(ILRMA)方法是一种重要的多通道盲音频源分离技术。它利用非负矩阵分解(NMF)和非负典型多元分解(NCPD)来模拟源参数。虽然它有效地捕捉低秩结构的来源,NMF模型忽略了通道间的依赖性。另一方面,NCPD保留了固有的结构,但缺乏可解释的潜在因素,使其具有挑战性,将先验信息作为约束。为了解决这些限制,我们引入了一个集群源模型的基础上非负块项分解(NBTD)。该模型将块定义为向量(聚类)和矩阵(用于光谱结构建模)的外积,提供可解释的潜在向量。此外,它能够直接集成的正交约束,以确保源图像之间的独立性。

          cILRMA方法是基于非负块术语分解(NBTD)的聚类源模型的多通道盲源分离方法。其关键特征包括:

    源模型:利用非负块术语分解表达源参数,将源参数表达为多个向量与矩阵外积之和,并通过正交性约束获得解释性的聚类源模型。

    空间模型:保留ILRMA中的低秩结构约束,通过识别解混矩阵实现多通道盲源分离。

    参数更新:推导了源模型参数和空间模型参数的更新规则,为模型参数估计提供理论基础。

    3、实验结果

    3.1 无混响条件下的性能比较

    在无混响条件下,cILRMA方法相较于其他算法在SDR和SIR指标上表现出更好的性能,尤其在低混响时间下优势明显。

    3.2 不同源信号组合下的性能比较

    在女性+女性组合中,随着混响时间增加,cILRMA方法的性能优势逐渐减小,但在所有混响时间下仍然优于其他算法。

    在男性+男性组合中,cILRMA方法同样保持优势,但在较长混响时间下与其他算法性能差距减小。

    在女性+男性组合中,cILRMA方法的优势一直较为明显。

    3.3 其他实验结果:

    随着源模型参数O的增加,cILRMA方法的性能持续提升。

    无论基数值如何变化,cILRMA方法始终优于ILRMA方法。

    cILRMA方法在大约100次迭代后性能明显优于ILRMA。

    4、其他方法(AuxIVA、MNMF、ILRMA、tILRMA、GGDILRMA和mILRMA)

    4.1 AuxIVA

    AuxIVA(Auxiliary Function-based Independent Vector Analysis)是一种用于独立成分分析(ICA)的算法,它通过使用辅助函数来简化优化问题并提高算法的稳定性和性能。AuxIVA是针对多通道盲源分离(BSS)问题的一种有效解决方案,特别是在处理多通道音频信号时AuxIVA广泛应用于各种信号处理领域,尤其是在音频信号分离中,如语音识别、音乐信号处理和声学场景分析等。

    4.2 MNMF

    MNMF(Multichannel Nonnegative Matrix Factorization)是一种专门用于处理多通道数据的非负矩阵分解(NMF)方法。它在音频信号处理、音乐分析、语音识别等领域中非常有用,特别是在需要分离和识别音频信号中的多个声源时。MNMF在音频信号处理中的应用包括盲源分离、音乐信号分析、语音分离和识别等。它特别适用于音乐会、演讲、嘈杂环境中的语音增强等场景。

    4.3 tILRMA

    与标准的ILRMA相比,tILRMA通过引入变换来改进源信号的建模,这使得它在处理具有非高斯分布特性的信号时更加有效。适用于需要处理具有非高斯分布特性的源信号的场景,如语音分离、音乐信号处理和生物医学信号分析等。

    4.4 GGDILRMA

    与标准的ILRMA相比,GGDILRMA通过引入广义高斯分布来改进源信号的建模,这使得它在处理具有重尾特性的信号时更加有效。适用于需要处理具有非高斯分布特性的源信号的场景,如语音分离、音乐信号处理和生物医学信号分析等。

    4.5 mILRMA

    通过引入最小体积约束,mILRMA能够更有效地分离具有不同统计特性的源信号,尤其是在源信号的分布不明确或变化时。mILRMA适用于需要处理多通道音频信号的场景,如语音分离、音乐信号处理、会议记录和声场景分析等。

  • 相关阅读:
    #边学边记 必修5 高项:对人管理 第1章 项目人力资源管理 之 规划人力资源管理
    什么是架构?
    Delay Penalty for RNN-T and CTC
    静态模板编译:提高Web性能的利器
    界面控件DevExpress WPF Sunburst组件,开启可视化分层扁平数据新方式!
    信钰证券:长江电力180亿市值,招商证券、摩根大通等浮盈超一成
    手把手入门Egg.js
    unordered_map,unordered_set模拟实现
    嵌入式Linux八股(三)——计算机基础
    【Linux环境搭建】五、Linux(CentOS7)编译源码安装Subversion
  • 原文地址:https://blog.csdn.net/robinfang2019/article/details/138547816