从视频会议到远程医疗,从连麦开黑到陪伴社交,疫情常态化加速了线下活动线上化,逐渐改变了人们的生产生活方式。其中,音频质量很大程度上影响着通话体验,而噪声又很大程度决定音频质量。比如,居家办公场景,就流传着“居家办公,必有邻居装修”的定律。也是因为装修声会很大程度影响参与效率,所以对居家办公的同学带来了很大的影响。火山引擎 RTC,集成了自研的深度学习降噪方案,来应对游戏、互娱、会议等实时音视频沟通场景下的噪声影响。
让我们看一下 RTC AI 降噪在会议、游戏、居家场景下的降噪效果对比。
会议场景降噪效果
游戏场景降噪效果
居家场景降噪效果
通过上面的对比效果可以明显看到不同噪声对线上生产、生活场景的影响,以及通过 AI 降噪达到的降噪效果。RTC AI 音频降噪采用了经典的CRN网络结构【参考文献 1 】作为降噪框架。CRN 网络结构由 Encoder、Recurrent Layer 和 Decoder 三部分组成。这种结构兼具了 CNN 的深层特征抽取能力和递归网络的记忆能力,表现出了比纯 CNN 网络或者纯 GRU 网络更好的降噪能力。
CRN网络结构
在具体落地到产品的过程中,我们在上述基础模型中,解决了实际场景中出现的五大问题:
1. 如何应对各种复杂的设备,多样的环境
2. 如何在满足低延时条件下,提升模型效果
3. 如何在满足低计算量条件下,提升模型效果
4. 如何平衡强降噪和高保真
5. 如何应对对音乐的损伤
通过解决上述问题,可以有效提升算法的速度、实时性和稳定性,保证在语音无损伤的情况下最大程度地实现噪声抑制,提升实时音视频场景