噪音人声识别接口

介绍

语音活动检测(Voice Activity Detection,VAD)，就是检测是否有声音，常规的算法是通过声音音量和频谱特诊来判断是否有声音的，但是无法区分是噪音还是人声，在电话机器人中噪音打断和噪音识别错误的关键词始终是一个痛点，机器学习算法可以通过大量噪音和人声数据训练出判别人声还是噪音的神经网络模型，VAD算法结合深度神经网络就可以彻底解决这个痛点了。我们的最新VAD算法已经集成了人声噪音判别引擎。

噪音识别的额外用处

在电话机器人业务中，大量的无效声音(各种噪音)调用ASR，浪费ASR调用费用，有了噪音人声判别功能，就可以噪音不再调用ASR接口，节约大量ASR费用。

噪音人声识别算法原理

基于10G的噪音声音文件和10G的正常人声的声音文件，使用tdnn(时延神经网络)和 lstm(长短期记忆网络)训练出噪音人声音判别模型。

噪音人声识别的准确率

准确率取决训练数据的准确性，目前的模型大于1秒声音准确率大于99%， 300毫秒以内短时人声和质量很差的人声，有少量识别成噪音的错误率，因为噪音库包含了大量的背景人声。

背景人身(就是远处的人声)是否可以识别成噪音

目前没大量这类声音文件参与训练，对这样的情况还没准确的数据。

是否可以添加声音数据参与训练提高准确率

鉴于小公司够买不起LDC的数据集，我为为此开发了专门的声音标注工具，我的所有数据都是我自己标注的。如果您愿意投入人力标注声音是可以的。

相关阅读:
STM32H7使用FileX库BUG，SD卡挂载失败
【面试普通人VS高手系列】Dubbo的服务请求失败怎么处理？
【服务器】Java连接redis及使用Java操作redis、使用场景
ThreadLocal 详解
AGI STK EOIR对地精细成像
【开发心得】Jaxb使用珠玑
Debug和Release的区别
最佳生物信息工作环境（2023年11月更新版）
性能监控-微服务链路追踪skywalking搭建
广东新型制造类企业源代码防泄密方案

原文地址：https://blog.csdn.net/iyaosan/article/details/125425116