1 引言
语音识别是一种模式识别, 就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术3个方面。目前一些语音识别系统的适应性比较差, 主要体现在对环境依赖性强, 因此要提高系统鲁棒性和自适应能力。支持向量机 (Support Vector Machine, SVM) 是基于统计学理论发展起来的新的机器学习方法, 采用将数据从低维空间映射到高维空间的思想, 由支持向量来决定最优分割线, SVM先自动找出对分类有较好区分能力的支持矢量, 然后构造出分类器来最大化类与类的间隔, 因此有较好的适应能力和较高的分准率。
本文在现有语音识别技术基础上, 提出一种MFCC (Mel Frequency Cepstrum Coefficients, Mel频率倒谱系数) +SVM的语音识别方法, 实现对几种英文单词的分类。实验结果表明, 该识别方法具有较高的准确率。
2 语音识别系统
语音识别过程一般分为3个阶段:信号处理、特征提取和模式识别, 如图1所示。
图1 语音识别系统原理
3 MFCC特征提取
特征提取是数据挖掘和模式识别中的一个重要步骤。其目的是从原有特征数据中提取出与特定任务, 如分类、压缩、识别等密切相关的新特征 (或特征子集) , 以有效地完成特定任务或进一步减少计算量。
研究者通常使用经典的特征提取技术, 如MFCC、连续小波变换 (Continuo