
软件算法主要分为语音信号滤波去噪、预加重、分帧、端点检测、特征参数提取、模式匹配。算法的关键点和难点是特征参数提取和模式匹配。孤立词的语音识别应用程序也是基于MATLAB的GUI进行开发。
1 语音预处理
语音信号是一种典型的非平稳随机信号, 容易受到呼吸气流、环境背景噪声、电流噪声的影响。所以, 在对语音信号进行下一步分析之前, 需要对硬件电路采集回来的语音信号进行预滤波、预加重、分帧加窗、端点检测等。预处理后的语音信号噪声干扰较小, 信号较纯净, 特征参数较稳定, 适合后续的模式识别和匹配分类, 图2是语言信号预处理过程图。
2 语音特征信息提取
经过端点检测后的语音信息再进行特征参数提取和模式匹配研究, 该算法基于线性预测系数LPC模型为基础开展研究, 由于LPC模型对于动态性较强的辅音不严格成立, 语音信号的特征参数鲁棒性不是很好。现阶段在语音识别技术中得到广泛应用的梅尔频率倒谱系数是另一种更加有效的语音特征参数。梅尔 (Mel) 频率倒谱系数是基于人耳听觉特性提出的, 将人耳听觉感知特性与人类语音产生结合起来得到的一种特征参数。由于对输入信号不做假设和约束, 与输入信号特性无关, 因此, 具有较高的鲁棒性。
当声音频率低于1000Hz的时候, 人耳对声音的感知近似满足线性关系;当声音频率高于1000Hz的时候, 人耳对声音的感知不再近似满足线性关系, 而是在对数频率坐标上近似满足线性关系。
MEL频率倒谱系数的计算过程见图3。
通常MFCC系数的第一维C (0) 的能量很大, 在语音识别系统中, 将C (0) 称为能量系数, 不作为倒谱系数。
利用上述方法提取的MFCC参数只能表征语音信号的静态特征, 然而人耳对语音