基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练

2015-05-30 22:01王朝松韩纪庆郑铁然
智能计算机与应用 2015年5期
关键词:声学准则损失

王朝松 韩纪庆 郑铁然

摘 要:关键词检测是从连续语音流中检测预先定义的给定词的技术,是语音识别领域的一个重要应用。目前的关键词检测研究中,主流的方法是基于连续语音识别器的先识别后检测的两阶段方法,语音识别器的准确率对关键词检测有很大影响。本文首先在识别阶段引入深度学习技术来改善关键词检测算法的性能。进而针对识别阶段和检测阶段缺乏紧密联系,耦合度不够的问题,研究了侧重关键词的深度神经网络声学建模技术,利用非均匀的最小分类错误准则来调整深度神经网络声学建模中的参数,并利用AdaBoost算法来动态调整声学建模中的关键词权重。结果表明,利用非均匀最小分类错误准则来调整深度神经网络参数进行优化的声学模型,可以提高关键词检测的性能。

关键词:深度学习;关键词检测;AdaBoost;最小分类错误

中图分类号:TP391.4 文献标识码: A 文章编号:2095-2163(2015)04-

Non-uniform MCE based Acoustic Model for Keyword Spotting based on Deep Neural Network

WANG Zhaosong, HAN Jiqing, ZHENG Tieran

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)

Abstract: Spoken term detection (STD) is a task to automatically detect a set of keywords in continuous speech, which is an important field of speech recognition. Current study is based on two-stage approach i.e. recognition and detection. The accuracy of speech recognition has a significant impact on keyword detection. Firstly, this paper uses deep leaning techniques to improve performance during the first stage. As the two stages lack of close contact, the paper studies using non-uniform misclassification error (MCE) criteria to adjust the parameters in deep neural network based acoustic modeling. Further the paper uses the adaptive boosting (AdaBoost) strategy to adjust keywords weight dynamically. It shows that non-uniform MCE can improve the performance of STD.

Keyword: Deep Learning; Spoken Term Detection; AdaBoost; Minimum Classification Error

0 引 言

自2006年以来,深度学习已经成为机器学习的一个重点研究领域,而且现已在许多方面取得了卓越进展。而在语音识别领域,基于深度学习的方法也随即应用而生,特别是在声学建模上,深度神经网络(Deep Neural Network, DNN)已经能够替代高斯混合模型(Gaussian Mixture Model, GMM),并和隐马尔科夫模型(Hidden Markov Model, HMM)结合而推出了DNN-HMM混合模型,在实际应用中取得了很高的识别率[1]。当前的关键词检测(Spoken term detection, STD)系统通常是利用大词汇量连续语音识别器(large vocabulary continuous speech recognition, LVCSR)来对搜索语音解码产生关键词假设,再通过将输入语音转换为文本形式;基于此,关键词检测系统就可以利用文本搜索的一些技术,但其与文本搜索不同的则是关键词检测多会利用lattice来表示语音识别结果[2-3]。在语音识别中,常常都是采用不同的区分性训练准则来减小语音识别的词错误率(Word Error Rate, WER),著名的区分性训练准则主要有MCE(Minimum Classification Error)[4]、MMI(Maximum Mutual Information)[5]、MPE(Minimum Phone Error)[6]和MWE(Minimum Word Error)[6]。

在关键词检测任务中,关注的重点只是预定义的关键词是否被检测到。至于与目标关键词无关的词,针对其所获的检测结果却并不重要。Fu等人提出利用非均匀MCE准则,并开展了运用至语音识别中的尝试[7-8]。Weng等人针对传统GMM-HMM模型利用非均匀MCE准则来推进关键词检测的研究,也就是通过在声学建模阶段利用非均匀MCE准则来进行区分性训练,提高了关键词检测系统的性能[9]。研究表明,区分性训练可以改善DNN系统的性能[10]。Chen等人在非均匀准则的基础上,利用基于keyword-boosted sMBR(state-level minimum Bayes risk)准则来训练关键词检测中的DNN-HMM模型,同时再通过在声学模型训练阶段对定义的关键词进行加重来提高模型对关键词的建模能力,结果即取得了ATWV(Actual Term Weighted Value)1.7%-6.1%的提升[11]。

在此,立基于对传统GMM-HMM模型之上,相较于非均匀sMBR准则而言,非均匀MCE准则能够利用AdaBoost来调整关键词权重系数,而非均匀sMBR准则的权重系数却是固定的,因而非均匀MCE准则要比非均匀sMBR准则获得更佳效果[12]。从这一结论出发,本文即将文献[9]中所提出的非均匀MCE准则引入到关键词检测的DNN声学建模阶段,在DNN的参数调整过程中,通过对关键词进行一定程度的侧重来提高DNN-HMM模型对关键词的建模能力。

1 基于非均匀MCE准则的关键词DNN声学模型训练

1.1 DNN-HMM声学模型

DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM状态的后验概率。特别的, 表示语句r时刻t的观测变量,DNN对HMM状态s的输出 可以通过softmax激活函数来计算:

(1)

其中, 表示状态s对应的输出层的激活值,识别器通常利用伪对数似然来计算后验概率:

(2)

式中, 表示从训练数据中计算得到的状态s的先验概率。

网络训练可以通过利用反向传播算法来优化给定的目标函数而获得实现。更经常地,DNN-HMM声学模型主要利用交叉熵(cross-entropy)作为目标函数,优化则主要利用随机梯度下降方法来进行处理和操作展开。

1.2 基于MCE准则的区分性训练

区分性训练中,MCE训练准则是常用的一种。该准则以最小化经验错误率为目标[4],在语音识别中,令Xr(r=1,…R)为训练集中的R个句子,Wr为句子Xr所对应的标注,W是特定的假设空间,对某个假设W的判别函数可以定义为:

(3)

其中, 和 分别表示声学模型和语言模型得分, 表示声学模型因子,误分类度量通常采用:

(4)

误分类度量的符号反映了给定声学模型参数,句子 的分类正确或者错误程度。经过对上式运用sigmoid函数进行平滑,目标损失函数可以表示为:

(5)

其中, 表示sigmoid函数,目标函数表示针对训练集的经验损失。

1.3 关键词检测的非均匀MCE准则

非均匀准则的区分性训练是基于某些识别单元可能比其他单元携带更多重要信息的假设[9],其目标不是最小错误率而是最小错误损失,最小错误率不区分不同的错误。训练过程中的关键词识别错误比非关键词识别错误代价更大。

在DNN系统中,对某一帧t,定义帧级判别函数为:

(6)

其中,i是状态编号, 是给定Xr和假设标签W的后验概率,研究中只关注关键词是否在标签或假设中出现,定义错误损失函数 为语句r在时刻t的损失,关键词检测的非均匀MCE准则的目标函数为:

(7)

为了对公式(7)进行优化,同时与普通的MCE准则进行对比,并推导出非均匀MCE与普通MCE准则优化的不同,进而采取有效的方法来优化非均匀MCE准则的目标函数,即对公式(7)进行求导:

(8)

其中, 分别表示标注和假设的帧后验概率,将非均匀MCE准则的导数与原来的MCE准则进行对比,实际使用中,为了便于计算,通常令 并忽略 ,具体公式为:

(9)

可以看到,非均匀MCE与普通的MCE方法的一个区别是 ,普通MCE对单个句子是不变的。另一个区别是非均匀的错误损失函数 ,错误损失函数是加在每一帧上的,为了便于计算非均匀MCE目标函数并有效优化参数,在此采用了普通MCE的固定值而不是变化值,目标函数近似为:

(10)

错误损失函数定义为:

(11)

其含义是,如果当前训练实例的标注是关键词,错误损失定义为K1;若对当前训练实例,关键词出现在假设中错误损失定义为K2;当关键词既未出现在标注又未出现在假设空间时,错误损失定义为1。K1、K2应该都大于1,这样在模型训练阶段才可以对关键词进行侧重。

公式(11)中的错误损失函数在不同的迭代中对同一帧赋予相同的错误损失,当使用较大的错误损失时可能会导致过训练。与普通的MCE相比,非均匀的MCE相当于对每一帧根据 进行了重采样,因此,可以考虑采用基于boosting的方法。AdaBoost方法在每次迭代时均会根据错误率调整错误损失[13],因此可以将AdaBoost方法运用到非均匀MCE准则中。训练启动时会使用较大的K1和K2来初始化错误损失函数,这些值会根据识别器的性能进行调整[9]。具体算法总结如算法1所示。

2 实验结果与分析

本文设计了一系列的实验来研究前述的非均匀MCE准则的DNN声学模型区分性训练,主要研究不同的K1、K2值对关键词检测系统性能的影响。

本实验所使用的语料库来自于国家863朗读语料库,其中约100个小时的数据用来训练DNN-HMM模型的识别器,约10个小时的数据用作关键词检测的搜索集。实验的基线系统由开源的语音识别工具Kaldi建立[14],关键词检测系统的评测利用NIST OpenKWS15提供,关键词检测系统的评价主要通过ATWV来计算[15-16],其数学描述如下:

(12)

其中,K是关键词数目,Nmiss(kw)是漏检的关键词数,NFA(kw)是检测到的虚警数,T是测试集的时间长度(以秒计),β是为999.9的常数。

本文进行了非均匀MCE准则的训练,迭代次数为4,不同的K1、K2和 下系统ATWV值如表1所示。分析可知,较大的K1和K2可以取得较高的性能,但衰减因子 会导致波动。

表1 基于非均匀MCE准则关键词检测实验结果

Tab.1 Results of non-uniform criteria based STD

方案 K1 K2

ATWV

基线(MLE) - - - 0.615 3

AdaBoost非均匀MCE准则 5 5 0.3 0.726 5

5 5 0.5 0.723 7

5 5 0.7 0.721 3

7 7 0.3 0.727 6

7 7 0.5 0.726 8

7 7 0.7 0.727 3

3 结束语

本文在DNN声学模型的参数训练阶段,通过利用非均匀的MCE准则对关键词进行侧重,由此提高了DNN-HMM模型对关键词的建模能力。采用AdaBoost算法,可以解决过训练的问题。研究结果表明,非均匀MCE方法相比基线系统可以提高关键词检测的性能。本文用不同的组合(K1,K2, β)来进行实验,并测试不同配置下的性能。错误损失函数中K1、K2的取值越大,系统性能越好,而β取较大值时,系统会出现波动。此外,较小的β值则具有较好的效果。接下来的工作可以研究衰减系数β对关键词检测系统的作用,并且可以尝试使β进行自适应调整而不再是使用固定值。

参考文献:

[1] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. Signal Processing Magazine IEEE, 2012, 29(6):82 - 97.

[2] MILLER D, KLEBER M, KAO C, et al. Rapid and accurate spoken term detection[J]. Proc. Interspeech, 2007, 3:1965 - 1968.

[3] National Institute of Standards and Technology (NIST). The spoken term detection (STD) 2006 evaluation plan [J]. http://www.nist.gov/speech/tests/std,2006. 10 edition

[4] JUANG B, HOU W, LEE C. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech & Audio Proc, 1997, 5(3):257 - 265.

[5] BAHL L, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[J]. Acoustics Speech & Signal Processing IEEE International Conference on Icassp, 1986, 11:49 - 52.

[6] DANIEL P. Discriminative training for large vocabulary speech recognition [D]. Cambridge:University of Cambridge, 2003.

[7] FU Q, MANSJUR D S, JUANG B H. Non-Uniform error criteria for automatic pattern and speech recognition[C]// Acoustics, Speech and Signal Processing, 2008. ICASSP 2008, IEEE International Conference on. Las Vegas: IEEE, 2008:1853 - 1856.

[8] FU Q, MANSJUR D S, JUANG B. Empirical System Learning for Statistical Pattern Recognition With Non-Uniform Error Criteria[J]. Signal Processing IEEE Transactions on, 2010, 58(9):4621 - 4633.

[9] WENG C, JUANG B, WENG C, et al. Adaptive boosted non-uniform mce for keyword spotting on spontaneous speech[C] //IEEE International Conference on Acoustics, Speech & Signal Processing, Vancouver:IEEE, 2013:6960 - 6964.

[10] GHOSHAL A, POVEY D. Sequence discriminative training of deep neural networks[J]. ProcInterspeech, 2013, (8):2345 - 2349.

[11] CHEN I, CHEN N, LEE C. A keyword-boosted sMBR Criterion to enhance keyword search performance in deep neural network based acoustic modeling[J]. Interspeech,2014, (9):2779-2783.

[12] WENG C, JUANG B H F. Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2015, 23(2):300 - 312.

[13] FREUND Y, SCHAPIRE R E. Experiments with a New Boosting Algorithm[J]. Proceedings of the Thirteenth International Conference on Machine Learning, 1996, 96:148 - 156.

[14] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit[C]// Automatic Speech Recognition and Understanding(ASRU), IEEE Workshop on. Hawaii: IEEE, 2011:174 – 178.

[15] NIST Open Keyword Search 2015 Evaluation (OpenKWS15)[EB/OL].http://www.nist.gov/itl/iad/mig/openkws15.cfm.

[16] WEGMANN S, FARIA A, JANIN A, et al. The TAO of ATWV: Probing the mysteries of keyword search performance[C]// Automatic Speech Recognition and Understanding (ASRU), IEEE Workshop on. Olomouc:IEEE, 2013:192 – 197.

猜你喜欢
声学准则损失
胖胖损失了多少元
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
具非线性中立项的二阶延迟微分方程的Philos型准则
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
玉米抽穗前倒伏怎么办?怎么减少损失?
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
基于Canny振荡抑制准则的改进匹配滤波器
一般自由碰撞的最大动能损失
一图读懂《中国共产党廉洁自律准则》