多特征和SVM改进的语音关键词识别系统

2019-12-04 03:15陈太波张翠芳
小型微型计算机系统 2019年11期
关键词:识别率音节基线

陈太波,张翠芳

(西南交通大学 信息科学与技术学院,成都 611756)

1 引 言

关键词识别(Keyword Recognition,KWR)[1]相对于连续的语音识别特别之处在于对语音中关键词与非关键词的处理.对于设定的关键词,识别系统应尽量敏感.对于非关键词,识别系统应保持惰性.

识别方法大致分为三类:第一类就是比较经典的模版匹配法,利用动态时间规整(dynamic time warping,DTW)[2]将待检测的关键词在语句中进行滑动查找来进行匹配.第二类就是基于统计模型的隐马尔可夫模型(Hidden Markov Model,HMM)[3,4]的模式识别方法.隐马尔可夫模型特别适用于具有动态特性的语音处理过程,而且HMM是一种迭代训练的模型算法.第三类就是神经网络[5]为基础的关键词识别,通过将对有标注的语音数据资源进行大量的训练,调整搭建的神经网络参数.

2 系统原理与结构

本文使用的HMM/Filler模型是关键词识别中十分经典的模型.支持向量机(Support Vector Machine,SVM)作为一种强分类器,具有很强的鲁棒性.使用SVM与HMM/Filler模型相结合,旨在利用SVM的强分类特点提高HMM/Filler基线系统的识别精度.

2.1 前端处理与多特征提取

前端处理包括对语音信号的预加重、分帧和端点检测.本文使用基于双门限法[6]的VAD(voice activity detection)端点检测.VAD过程简化了数据的冗余,从而简化计算,加快处理速度.双门限法端点检测示意图如图1所示.

前端处理之后进行特征的提取.本文选用39维MFCC特征+4维Pitch特征这种多特征融合的方法来提升语音特征丰富性.采用CMVN对均值和方差进行规整来消除信道差异.

梅尔倒谱系数(Mel-Frequency Cepstral Coeffic-ients,MFCC)[7,8]是一种常用的听觉特征,MFCC参数有着很好的识别性和抗噪声性,提取算法见文献[5].

图1 双门限法端点检测示意图Fig.1 Diagram of double threshold method endpoint detection

Pitch特征[9,10]是语音的基频特征,它能够反应语音的声调信息.本文使用YIN算法来提取语音的Pitch特征,这样相对较为简单,更容易进行两种特征的融合.

2.2 HMM/Filler模型基线系统

本文中HMM/Filler识别系统[4,11,12]是融合系统的主要结构,可以独立完成对关键词的检测.HMM/Filler系统的声学模型中对每个预设定的关键词建立HMM模型,对于非关键词使用填充模型Filler.另外,使用训练集语音数据加文本标注训练并建立trigram语言模型[13,14],语言模型来确定某些音节组成的关键词的最大概率表示,也就是相同音节情况下的关键词确定.

HMM/Filler基线系统框图如图2所示.

图2 HMM/Filler基线系统框图Fig.2 HMM/Filler baseline system digram

2.3 基线系统识别解码

基线系统识别解码过程采用简单有效的Viterbi算法[15,16],它在寻找最优解上有着出色的表现.给定训练出的模型参数λ=(A,B,Π),观测状态O=(o1,o2,…,oT),变量δt(i).

i=1,2,…,N;t=1,2,…,T

(1)

Viterbi算法求解最优隐状态路径流程见表1.

2.4 基于SVM改进的HMM/Filler系统

支持向量机(SVM)是一种基于结构风险最小化的强分类器,通过将数据从低维向高维映射并求解数据中的支持向量来得到最优分类曲面.HMM是迭代训练算法,所以静态分类器SVM与HMM模型的结合需要充分考虑语音的动态性[17,18],否则将会出现两个模型不兼容的现象.

表1 Viterbi算法流程
Table 1 Viterbi algorithm flow

1 求解第一层所有N中的状态概率.δt(i)=πibi(ot),ψt(i)=0(2)2 递推到t=2,3,…,T.δt(i)=[max{1≤j≤N}δt-1(i)]bi(ot);ψt(i)=argmax{1≤j≤N}[δt-1(i)aji];j=1,2,…,N;t=1,2,…,T(3)3 终止.P∗=max{1≤j≤N}[δT(i)](4)q∗r=argmax{1≤j≤N}[δT(i)](5)4 回溯最优路径,t=T-1,T-2,…,1.q∗t=ψt+1(q∗t+1);t=T-1,T-2,…,1(6)

2.4.1 SVM分类器结构

SVM是一个二分类的分类器,本系统中基于汉语音节的声学模型是对汉语的音节建立HMM训练模型,所以SVM分类器需要解决的也是多分类的问题.汉语中共有408个音节,所以为了解决这个408类的分类问题需要对每个音节都建立并训练SVM分类器.包含关键词的语音数据输入时,是一个“一对多”的识别问题,即一个数据输入会有多种可能的识别结果.所以本文采用决策树式[18]SVM级联模型,结构如图3.

图3 决策树式SVM级联模型Fig.3 Decision tree cascaded SVM model

2.4.2 SVM的二进制输出到后验分类概率的转化

SVM分类器的输出是一个二进制的值,所以它的直接输出并不能直接融合到HMM识别系统的训练中.所以本文采用Sigmoid函数将二进制的输出值转化为后验分类概率[19].

支持向量机的原始输出格式为:

y=sign(f(x))

(7)

其中,

(8)

式中,f(x)为SVM中的样本距离,那么正样本的后验概率可转化为:

(9)

SVM样本距离可以使用高斯分布公式描述[20]如下:

(10)

(11)

所以后验概率转化为:

(12)

式中,A与B为待估计的参数,模型训练时可以从window环境下的LIBSVM训练工具包获取这两个参数值来进行模型的训练.

2.4.3 基于音节分段的SVM等长特征矢量构建

SVM分类器的训练需要固定长度的数据特征矢量,然而关键词的语音数据的特征矢量基本是不同长度的.因此,本文使用音节分割[17,18,21]的方法将关键词的特征矢量进行等长化处理.

本文将系统使用的43维特征矢量分段,每个音节特征被分为三段,再经组合之后,特征矢量变为原来的3倍即129维,划分比例为0.25:0.5:0.25.中间段为稳定矢量段,比例为音节特征长度的一半,这样既能够保证音节的特征完整度,又能够保证有足够的开始和结尾缓冲段.

图4 音节等长分段示意图Fig.4 Diagram of syllable equal segmentation

音节等长分段示意图如图4所示.

2.4.4 融合系统结构

电与磁之间有着密切的联系。利用电磁理论,我国的工业、农业、医疗和国防等领域得到技术上的提升。我们更要深刻认识并应用电与磁的关系,为我国的现代化进步做出更大的贡献。

SVM与HMM/Filler模型融合后的系统不仅对动态特性的语音有强大的处理能力,而且具有单一HMM/Filler系统所不具有的分类能力.融合系统结构框图如图5所示.

2.4.5 融合系统识别解码

融合系统的解码过程依然采用单基线系统中使用的Viterbi搜索词网格法,与单基线系统不同的是融合系统解码中加入了SVM音节识别模型输出的后验概率Psvm.此后验概率会与声学模型中的概率Pacou一起用于Viterbi解码.

本文提出的概率融合公式如下:

(13)

式中,引入SVM系统融合参数λ调整SVM音节识别系统的作用能力,Pdeco为融合系统的解码的后验概率.

图5 融合系统结构框图Fig.5 Basic block diagram of fusion system

3 系统搭建与实验分析

3.1 实验环境

系统环境如表2所示.

表2 系统环境
Table 2 System environment

硬件配置操作系统实验平台系统语言及配置Intel(R)Core(RM)i7-6800KCPU3.4GHz64GBRAMNVIDLATITANXPWindows10Visualstidio2017C++LIBSVM

3.2 实验数据

本文使用的数据集是清华大学的30小时中文语音数据集THCHS-30[22,23].THCHS-30数据集中收集的都是汉语普通话语句,采样频率为16kHz,采样大小为16bits.数据集中训练音频时长为25h,测试音频时长为6h.本文使用此数据集进行关键词检测,首先挑选了部分的词汇作为系统设定的关键词.训练集包含2409个已标注的关键词,测试集包含587个已标注关键词.本文选取的关键词列表如表3所示.

3.3 评价标准

本文使用识别率作为系统的评价标准.识别率计算公式如下:

(14)

(15)

表3 本文选取的关键词列表
Table 3 List of keywords selected in this paper

编号关键词音节音素训练集数目测试集数目kw_1爱国aiguoaaai4guo25112kw_2爱情aiqingaaai4qing24211kw_3安全anquanaaan1qvan2308kw_4八十bashiba1shix26214kw_5白天baitianbai2tian15617kw_6彬彬有礼binbinyoulibinbiniiiu2li3184kw_7采访caifangcai2fang37021kw_8藏起来cangqilaicang2qi3lai24610kw_9差别chabiecha1bie26719kw_10长江changjiangchang2jiang18524kw_11成功chenggongcheng2gong19729kw_12吃饭chifanchix1fan417549kw_13大多数daduoshuda4duo1shu49524kw_14大夫daifudai4fu53910kw_15大海dahaida4hai313431kw_16单词danchidan1ciy26314kw_17返回fanhuifan3hui29819kw_18犯罪分子fanxuifenzifan4zui4fen4ziy35514kw_19父母亲fumuqinfu4mu3qin19332kw_20改变gaibiangai3bian418346kw_21科学kexuekelxue28618kw_22老师laoshilao3shix111226kw_23乱七八糟luanqibazaoluan4qi1ba1zao16317kw_24每天meitianmei3tian115230kw_25平均pingjunping2jvn116130kw_26四川省sichuanshengsiy4chuan1sheng3439kw_27兴趣xingquxing4qv47611kw_28眼睛yangjingiiian3jing56215kw_29找不到zhaobudaozhao3bu2dao49523

3.4 系统训练

3.4.1 HMM/Filler基线系统参数

HMM/Filler基线系统参数对于关键词识别的主要影响[4,11,12,17]集中在三个方面:

1)对每个关键词构建的HMM模型中状态数

2)HMM模型中每个状态高斯数

3)Filler填充模型的高斯混合度

表4 HMM/Filler系统的参数设定
Table 4 Parameter setting of HMM/Filler system

系统参数相对单位数值HMM模型状态数6Q〛HMM模型每个状态高斯数8Q〛Filler填充模型高斯混合度512

HMM/Filler关键词识别系统的参数设定如表4所示[4,11,12,17].

3.4.2 融合系统参数

通过使用数据库中25小时的训练数据对融合系统进行训练,调整SVM系统融合参数λ,λ的值设定为-0.7、-0.5、-0.3、-0.1、-0.01、-0.05、0、0.01、0.05、0.1、0.3、0.5、0.7、0.9,融合参数λ为0时即为无SVM的单一HMM/Filler基线识别系统.

表5 融合参数λ对识别率的影响
Table 5 Influence of fusion parameterλon accuracy

融合参数λ测试识别正确率-0.770.25%-0.571.62%-0.374.53%-0.179.74%-0.0578.39%-0.0177.86%077.59%0.0178.63%0.0579.91%0.180.79%0.384.33%0.583.80%0.779.44%0.972.67%

融合参数λ对识别率的影响见表5.融合参数λ对识别率的影响曲线见图6.

图6 融合参数λ对识别率的影响曲线Fig.6 Influence curve of fusion parameter λon recognition rate

由表5和图6可知,融合参数λ为0,即基线HMM/Filler系统对于数据集的识别率为77.59%.融合参数λ取负值时,系统识别率上升较小,随着负值的增大,系统的识别正确率甚至开始大幅衰退.融合参数为正时,系统识别率先是有微小上升,随着融合参数上升梯度的增加识别率也是大幅上升.然而,当融合参数超过0.5之后,系统识别率开始大幅衰落,甚至低于基线HMM/Filler的识别率.

综上分析,加入SVM的融合系统在融合参数λ为0.3时效果最佳且趋于稳定.

3.4.3 单特征与多特征

确定系统融合系统最佳融合参数后,本文继续通过实验研究单特征与多特征对融合系统识别率的影响.本文使用单一39维MFCC声学特征训练HMM/Filler系统和融合系统,融合参数同样设定为0.3.之后,使用39维MFCC声学特征+4维Pitch特征进行融合系统训练,融合参数不变.不同特征训练出的不同系统的综合识别率表现见表6.

由表6的单特征与多特征训练的系统识别率对比可以看出加入了Pitch特征的混合特征对系统识别率的提升约2%~4%,这是语音特征中的语义更加丰富的结果.增加了基带特征Pitch有效的改善了MFCC特征对破发音所不具有的表达能力.而融合系统的对于识别率的提升最大,约为5%~7%.多特征的融合系统识别率比单特征的单基线系统识别率提升约10%.

表6 单特征与多特征训练的系统识别率
Table 6 Accuracy of system trained in single-feature and multi-feature

MFCCMFCC+PitchHMM/Filler系统74.89%77.59%融合系统80.41%84.33%

3.4.4 多特征的融合系统识别效果

HMM模型状态数为6,每个状态高斯数为8,Filler填充模型高斯混合度为512,融合参数λ为0.3时,多特征的融合系统各关键词识别率见表7.

表7 多特征的融合系统各关键词识别率
Table 7 Accuracy of all keywords in multi-feature fusion system

编号训练集数目识别正确数正确率测试集数目识别正确数正确率kw_1514384.31%12983.33%kw_2423378.57%11872.72%kw_3302480.00%8675.00%kw_4625385.48%141285.71%kw_5564582.14%171482.35%kw_6181583.33%44100.00%kw_7706187.14%211885.71%kw_8464189.13%10990.00%kw_9675582.09%191578.95%kw_10857284.71%242083.33%kw_11978082.47%292379.31%kw_1217515286.86%494489.80%kw_13958084.21%242083.33%kw_14393282.05%10880.00%kw_1513412190.30%312890.32%kw_16635079.37%141178.57%kw_17988081.63%191578.95%kw_18555090.90%141392.86%kw_19937984.95%322681.25%kw_2018317394.54%464393.48%kw_21867182.56%181477.78%kw_221129887.50%262284.62%kw_23635688.89%171482.35%kw_2415214092.11%302686.67%kw_2516114288.20%302583.33%kw_26433990.69%9888.89%kw_27766382.89%11981.81%kw_28625283.87%151280.00%kw_29958589.47%231982.61%

根据表7中数据,融合系统训练集的识别率为86.59%,测试集识别率为84.33%.根据不同关键词的识别效果,分析如下:

1)kw_6、kw_18、kw_23均代表四音节的关键词,虽然训练数据较少,但是表现出很高的识别率.这表明多音节的关键词的特征具有很高的分辨性,融合模型对其敏感度高.

2)kw_12、kw_24、kw_25的训练样本较多,所以这些关键词的识别表现要优于其他关键词.所以,增加关键词训练样本会一定程度提升系统的识别率,但由于系统本身的特点限制识别率会稳定在某个值.

3)本文有意选取汉语关键词的常用音节,系统的样本具有普适性.系统对于所有关键词都有稳定的表现,所以融合识别系统对汉语的常用音节均有很高的识别效果.

4 结 论

本文建立SVM与HMM/Filler基线系统相结合的关键词识别系统,通过对特征矢量等长分段来训练SVM分类器,并提出了融合公式(13),引入了融合参数λ.融合系统对每个音节具有了很强的敏感度,这明显增加了系统的分类识别能力.通过大量数据训练使得融合系统对选取的关键词具有良好的识别率.当融合参数为0.3时,相对于单一的HMM/Filler基线系统,融合系统在综合识别率上有着近6.74%的提升.基于MFCC+Pitch多特征的融合系统识别率相对于单特征HMM/Filler基线系统识别率提升近10%.

本文所使用的改进方法对基于统计模型的关键词识别具有一定借鉴价值.今后的工作可以在多识别系统融合和语音特征的聚类这两个方面进行改进.

猜你喜欢
识别率音节基线
高度角对GNSS多系统组合短基线RTK影响
GNSS 静态相对定位精度分析与比较
r(re)音节单词的拼读规则
拼拼 读读 写写
新版GAMIT10.70解算GPS/BDS基线精度对比分析
基于虚拟基线的相位干涉仪阵列优化设计
看音节说句子
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别