声音信号特征参数的分析和提取方法

2017-07-08 21:31田雪阳杨宇刘子寒李渊

价值工程 2017年21期

关键词：语音识别

田雪阳+杨宇++刘子寒+李渊

LI Yuan

（上海电机学院，上海 201306）

（Shanghai Dianji University，Shanghai 201306，China）

摘要：在基于虚拟仪器LabVIEW的环境中，通过与MATLAB相结合设计一个语音识别登陆系统，对电脑声卡采集到的语音信号进行处理分析，提取声音的特征参数Mel倒谱系数并保存，然后通过矢量量化的模式匹配来进行身份确认。

Abstract： The whole study is based on virtual instrument LabVIEW with the combination of MATLAB. This system processes and analyzes the voice signal collected by computers sound card， then extracts the signals characteristic parameters MFCC and save them in the computer. The parameters are designed through VQ algorithma to identify speaker.

关键词：语音识别；LabVIEW；MATLAB；Mel倒谱系数；矢量量化算法

Key words： speech recognition；LabVIEW；MATLAB；MFCC；VQ algorithm

中图分类号：TN912.3 文献标识码：A 文章编号：1006-4311（2017）21-0203-03

1 語音识别模型

语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别一般分两个步骤，第一步是训练阶段，是建立识别基本单元的声学模型以及进行文法分析的语言模型等；第二步是语音识别阶段，根据实际情况的要求采用一种语音识别的算法，采用语音分析方法分析出这种识别方法所要求的语音特征参数，按照一定的准则和测度与系统模型进行比较，通过判决得出识别结果。

2 Mel倒谱系数

语音信号的时域分析通常是将一帧语音信号中的各个时域采样值直接构成一个参数矢量，这种分析方法的特点是表示语音信号比较直观、物理意义明确、实现起来比较简单、运算量少等。语音信号的频域分析就是分析语音信号的频域特性，这种参数是将一帧语音信号进行某种变化后而产生的参数矢量。在语音信号的频域特征参数中，目前使用最为广泛的是线性预测倒谱系数（Linear Predictive Cepstral Coding，LPCC）和Mel频率倒谱系数（Mel Frequency Cepstral Coefficient，MFCC），由于MFCC更符合人耳的听觉特性，因此本文语音识别系统采用的特征参数是MFCC。下面将着重介绍其相关理论和提取过程。

2.1 MFCC原理

4 系统设计与实现

4.1 语音采集

系统运行以后，点击“样本采集存储”，此语音的特征参数相当于是保存识别的“钥匙”，图2为语音信号采集的程序框图。

4.2 语音分析

语音信号特征参数MFCC的提取，是通过使用LabVIEW中对MATLAB脚本节点调用的方法来实现的。将输入的语音信号先降噪预处理，再提取其MFCC参数，训练其VQ码本，进行语音识别时则计算样本语音信号的VQ码本和测试语音信号MFCC之间的欧氏距离，判断其是否小于设定的阈值。

5 系统测试与结论

系统前面板的测试结果如图3所示，左边的为硬件控制面板，本系统与Arduino硬件进行数据传输，可以将测试结果在Uno板上显示。设定好采样时间为10s，采集完样本语音和测试语音信号后，点击“语音对比”，语音信号的MFCC参数在前面板上显示，语音匹配的LED指示灯亮起，失真测度显示为3.87（设定的阈值为4.1）。

经过测试，当设定采样时间为5s时，语音识别的成功率为87%，设定采样时间为10s时，识别的成功率为96%；经过多次测试，当录入的语音文本内容不相同时，得到的失真测度相差不大，并且都可以通过识别。同时，使用头戴式耳机比直接使用电脑声卡直接采集语音信号的识别率更高。

可见，当样本语音录入时间越长，那么提取的特征参数越精确，并且使用MFCC和VQ算法作为语音信号特征参数提取的语音登陆系统，实现的是以文本内容无关的说话人确认。

在录入语音文本内容相同，录入语音时间相同的情况下，使用头戴式耳机的失真测度比直接使用电脑麦克风收音的失真测度要低，即室内噪声对识别准确度还是有一定的影响。

6 结束语

本系统采用的是基于提取语音特征参数Mel倒谱系数MFCC的基础上，使用矢量量化VQ的识别算法进行语音特征匹配。通过研究VQ的特性，并且通过对特征参数、码本容量的大小和失真测度的选取，完全能够进行基本的语音识别，并且计算量也很小，识别速度也相对较快，具有一定的实用性。

参考文献：

[1]赵力.语音信号处理[M].二版.机械工业出版社，2009.

[2]周鹏.许钢.马晓瑜.汪石农.张明艳.精通LabVIEW信号处理[M].北京：清华大学出版社，2013.

[3]刘平.LabVIEW程序设计基础[M].北京：清华大学出版社，2012.

[4]栾颖.MATLAB R2013a工程分析与仿真[M].北京：清华大学出版社，2014.