• VAD打断方案


    什么是打断

    打断,就是机器人说话的时候,用户没等机器人说完,就开始说话。一般做法是检测到用户声音持续100-200ms就停止机器人说话,这样存在一个弊端,就是如果噪音很大的环境(本公司2022年开发的噪音人声识别算法直接集成VAD已经彻底解决噪音打断问题),或者用户身边有人说话,会导致错误的打断,本文主要介绍几个方法,来避免这个问题。

    防干扰等级(只start_vad支持)

    start_vad函数有一个参数 filter_level 防止干扰等级。0-1.0之间,建议 0.3。 这个参数的原理是可以通过计算用户历史说话音量,如果当前音量大于历史说话音量*filter_level,才认为是有效声音。因为周围的人说话传入话筒的音量比较小,这个方法可以有效解决身边人说话导致打断。
    使用噪音人声识别算法可以很好的解决噪音打断 0.6:一句话结束判断声音是否是噪音,通过asrprogress事件的noise标识。 0.7: 噪音的时候不掉用ASR。 0.8:VAD算法集成噪音和人声识别。

    动态最小声音时间(只vad支持)

    vad函数有这样一个参数 min_speak_ms [数字] 可选参数 默认100ms 最小的声音时间 单位毫秒,默认值 100ms。

    这个参数的含义是,设置一个最小的声音时间,只有声音持续时间超过这个值才认为是有效声音,触发打断和提交到ASR服务器识别。

    为什么我选择了这个100ms作为这个默认值呢,因为电话接通后,很多人习惯说一声”喂”,或者”您好”, “喂”的持续时间一般是100-200s,”您好”的持续时间是 200-300ms.

    开发业务流程的时候,可以动态设置这个值,来避免无效声音打断,比如电话接通后的第一个声音,设置100ms,后续声音设置,200-300ms。就可以非常有效避免错误打断。

    关键词打断

    2.1版本已经实现,用户停顿一下就提交ASR识别,把识别结果发送给业务程序,就是让业务程序控制是否需要打断。

    自动打断

    VAD模块检测到用户声音后,暂停播放机器人说话声,同时开始提交声音流到ASR服务器识别,如果ASR服务器返回的不是有效语句, 恢复机器人说话。

  • 相关阅读:
    Centos设置nginx开机自启动设置
    OpenAI将发布DALL·E3,多模态输出模式引爆热点
    《小程序从入门到入坑》框架语法
    自然语言处理(NLP)—— 信息提取与文档分类
    阿里资深专家撰写出的 Nginx 底层与源码分析手册,GitHub 已爆赞
    openpyxl学习
    安全狗入选《可信业务与应用安全全景视图(2022)》多个模块
    modbus协议讲解,上位机与PLC交互
    智能家居后端技术解决方案-API设计
    【校招VIP】前端浏览器之性能和加载优化
  • 原文地址:https://blog.csdn.net/vx897857410/article/details/127963816