语音活动检测(Voice Activity Detection,VAD),就是检测是否有声音,常规的算法是通过声音音量和频谱特诊来判断是否有声音的,但是无法区分是噪音还是人声,在电话机器人中噪音打断和噪音识别错误的关键词始终是一个痛点,机器学习算法可以通过大量噪音和人声数据训练出判别人声还是噪音的神经网络模型,VAD算法结合深度神经网络就可以彻底解决这个痛点了。 我们的最新VAD算法已经集成了人声噪音判别引擎。
在电话机器人业务中,大量的无效声音(各种噪音)调用ASR,浪费ASR调用费用,有了噪音人声判别功能,就可以噪音不再调用ASR接口,节约大量ASR费用。
基于10G的噪音声音文件和10G的正常人声的声音文件,使用tdnn(时延神经网络)和 lstm(长短期记忆网络)训练出噪音人声音判别模型。
准确率取决训练数据的准确性,目前的模型大于1秒声音准确率大于99%, 300毫秒以内短时人声和质量很差的人声,有少量识别成噪音的错误率,因为噪音库包含了大量的背景人声。
目前没大量这类声音文件参与训练,对这样的情况还没准确的数据。
鉴于小公司够买不起LDC的数据集,我为为此开发了专门的声音标注工具,我的所有数据都是我自己标注的。如果您愿意投入人力标注声音是可以的。