基于最大似然线性回归的随机段模型说话人自适应研究*

2014-09-13 12:43杨占磊刘文举
计算机工程与科学 2014年8期
关键词:错误率声学解码

晁 浩,杨占磊,刘文举

(1.河南理工大学计算机科学与技术学院,河南 焦作 454000;2.中国科学院自动化研究所模式识别国家重点实验室,北京100190)

基于最大似然线性回归的随机段模型说话人自适应研究*

晁 浩1,2,杨占磊2,刘文举2

(1.河南理工大学计算机科学与技术学院,河南 焦作 454000;2.中国科学院自动化研究所模式识别国家重点实验室,北京100190)

提出了一种随机段模型系统的说话人自适应方法。根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中。在“863-test”测试集上进行的汉语连续语音识别实验显示,在不同的解码速度下,说话人自适应后汉字错误率均有明显的下降。实验结果表明,最大似然线性回归方法在随机段模型系统中同样能取得较好的效果。

语音识别;说话人自适应;最大似然线性回归;随机段模型

1 引言

语音识别经过几十年的发展己经取得了很大的进展,在纯净语音条件下已经达到了很高的识别率,但是当训练环境和识别环境不匹配时,现有的识别系统的性能通常会严重下降,这是语音识别技术实用化的一个严重障碍。语音识别系统能在不同的条件下保持较高识别率的性质被称为稳健性,影响稳健性的因素很多,说话人的变化是影响稳健性的一个重要因素。尽管说话人无关识别系统已经取得了长足的进步,但是这类系统的性能与针对特定说话人的识别系统间仍存在巨大的差异。大部分说话人无关SI(Speaker Independent)系统不能对所有的说话人表现如一,说话人年龄、性别、情绪、语言习惯的差异都可能带来识别性能的严重下降,说话人相关SD(Speaker Dependent)系统可以达到更高的识别率,但是为得到说话人相关的码本需要大量说话人的数据,这在实际中往往很难得到。说话人自适应技术SA(Speaker Adaptation)则可以很好地解决这一问题。说话人自适应技术利用少量的待识别的说话人数据自适应说话人无关系统,使系统尽量体现待识别说话人的特性。相对于SI系统来说,SA可以提高系统的识别率,相对于SD系统来说,又不需要大量的说话人数据。因此,通过说话人自适应的方式对声学模型参数进行优化成为语音识别领域一重要的研究方向[1]。

随机段模型SSM(Stochastic Segment Model)是针对隐马尔科夫模型HMM(Hidden Markov Model)的缺陷而提出的一种替代模型[2,3],由于其复杂度相对于HMM较高,最初只能用于孤立词识别,对HMM系统的解码结果进行二次搜索等任务。经过了十多年的不断研究,段模型从开始只能用于二次解码逐渐发展应用到小词汇量连续语音识别,最后成功地应用到大词汇量连续语音识别任务中[4,5]。为了使基于随机段模型的语音识别系统的性能得到进一步提升,从而能够与最新的基于HMM的识别系统相比较,对段模型进行说话人自适应的优化是十分必要的。

与传统的最大后验概率自适应方法MAP(Maximum A Posteriori)[6]相比,最大似然线性回归MLLR(Maximum Likelihood Linear Regression)方法[7]只需要较少的自适应训练数据就能得到较好的效果,是HMM系统常用的说话人自适应方法。近年来,基于说话人空间的本征音EV(Eigen Voice)自适应方法成了研究热点[8~10]。该方法选取参考说话人(Reference Speaker)并从语料库中抽取基向量,对于目标说话人,其声学模型参数就是上述基向量的线性组合。相对传统的MAP和MLLR方法,这种方法能在只有极少自适应数据的条件下取得很好的效果。

本文的主要研究目标是将HMM系统常用的MLLR方法扩展应用到随机段模型系统。与HMM以语音帧为基本解码单元不同,SSM以语音段为基本建模单元和解码单元,是对声学特征序列描述更为精确的声学模型。因此,基于HMM系统提出的MLLR方法不能直接用于随机段模型,需要对MLLR方法进行改进,使其适应于随机段模型。

2 随机段模型

(1)

(2)

其中,ri为随机段模型α的第i个域模型。

3 基于随机段模型的MLLR自适应

MLLR方法是求得一组线性变换,通过这组变换,使自适应数据的似然函数最大化。HMM系统中,MLLR方法待变换的参数一般是状态层的GMM的均值;在随机段模型中待变换的参数是域模型的均值向量。变换过程可以简单地表示如下:

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

其中:

(14)

在协方差矩阵为对角矩阵的情况下,根据公式(13)可得:

(15)

4 实验及分析

4.1 实验设定与基线系统

实验所用的数据库为国家863项目汉语广播语音库。使用全部的83位男性说话人的数据训练声学模型,共48 373句,约55.6小时。使用6个男说话人数据做测试集,共240句话,约17.1分钟。声学特征包括12维梅尔频率倒谱系数(MFCC)及一维标准化能量,以及它们的一阶及二阶差分,帧窗长为25.6 ms,帧移为10 ms。实验中采用的汉语普通话音素集包含24个声母及37个韵母,每一个韵母含有五个声调。去除训练库中没有出现的声韵母,音素集中共包含191个基本音素。

随机段模型的建模单元为声韵母,采用背景相关的三音子结构,每个段模型包含15个域模型和一个基于伽马分布的时长模型。每个域模型由12个混合数的高斯混合模型模拟。域模型采用基于音素的决策树进行参数合并。三音子模型一共有202 984个,经过参数绑定后实际上的物理模型数为24 180个,包含了7 983个共享的域模型。

为了与HMM系统进行性能比较,我们将文献[12]中搭建的基于HMM的解码器作为HMM的基线系统。该系统同样采用上下文相关的声母/带调韵母作为基本的建模单元,具体为三音子模型。HMM使用连续密度的从左到右的拓扑结构,包含5个状态,其中3个为发射状态。每个发射态的输出概率用16个混合数的混合高斯模型建模。经过参数绑定后,其物理模型个数为15 046个,包含了4 575个共享状态。两系统所用语言模型为二元语言模型,包含48 188个词。两系统具体参数如表1所示。

4.2 结果及分析

我们对六个不同的说话人分别进行了自适应

Table 1 Parameters of the HMM system and the SSM System表1 HMM系统和SSM系统的参数

的训练,每个说话人共有40句话的语料,分别利用每个说话人的前5、10、15、20句话作为自适应语料来对声学模型进行有监督和无监督的训练,然后用后20句话作为测试语料。所用的数据都从863连续语音库中选取。同时,我们通过设定剪枝阈值的方式来控制HMM和SSM的解码速度,从解码速度和识别精度两方面比较分析SSM和HMM的性能。表2显示了采用不同自适应方法以及不同规模的自适应数据后,随机段模型系统在测试集上的识别结果。可以看出随着自适应数据的增加,不管是采用无监督MLLR方法还是有监督MLLR方法,系统的误识率持续下降,而有监督MLLR方法的效果又明显要优于无监督MLLR方法。

Table 2 Performance of SSM after adaptation表2 随机段模型的自适应

我们还对HMM和SSM自适应前后的性能做了比较。图1显示了四个系统的汉字错误率-实时因子曲线,以便同时考察系统解码的精度和速度。其中SSM和HMM为自适应前两种模型的识别结果。由于SSM的模型与HMM相比更为复杂,而且SSM采用双重解码的形式,所以当要求的解码时间较短时,SSM的错误率要高于HMM。例如,实时因子为0.58时,HMM的汉字错误率为17.02%,而SSM为18.09%。而随着解码时间的增加,SSM能够发挥其模型更精细的优势,和HMM之间识别精度的差距也逐渐缩小。当解码时间超过1.2倍的实时后,SSM的汉字错误率已经低于HMM。

图1中SSM+MLLR为随机段模型经过MLLR自适应后的结果,HMM+MLLR为隐马尔科夫模型经过MLLR自适应后的结果。不管是SSM还是HMM,在解码时间较短时MLLR自适应对模型精度提升的程度较大。例如,实时因子为0.58时,HMM系统的汉字错误率从17.02%下降到15.60%,错误率相对下降了8.34%;而SSM的汉字错误率从18.09%下降到16.48%,错误率相对下降了8.90%。实时因子上升到1.58时,HMM系统的汉字错误率从13.65%下降到12.71%,错误率相对下降了6.89%;而SSM的汉字错误率从13.07%下降到12.48%,错误率相对下降了4.51%。解码时间较长时,由于此时设定的剪枝阈值较低,保留的候选路径数增大,所以经过说话人自适应优化后的声学模型能够更好地发挥作用。而剪枝阈值设置较高时,解码速度加快,但解码时保留的候选路径数降低,有可能将正确的路径剪掉,这种情况下自适应算法实际上并没有起到应有的作用,所以无论是HMM还是SSM,自适应后识别精度提高得不明显。

Figure 1 Performance comparison between HMM and SSM图1 HMM和SSM自适应前后的性能对比

另外,实时因子较大时,随机段模型自适应后与HMM相比性能提升程度稍低。原因可能是随机段模型的SI系统的准确率比HMM高,所以进一步提高系统的准确率要比HMM困难,说话人自适应技术对SSM起到的作用没有HMM大。尽管如此,实时因子大于1.2时自适应后的SSM系统的误识率仍然低于HMM系统。

5 结束语

本文根据随机段模型本身的特点,将HMM系统常用的最大似然线性回归说话人自适应方法扩展应用到随机段模型系统中。在863语料库测试集上的实验中,自适应后的SSM系统其识别精度在不同的解码速度下都取得了明显的提升。实验结果表明了MLLR说话人自适应方法对SSM系统的有效性。

[1] Li Hu-sheng,Liu Jia,Liu Run-sheng.Technology of speaker adaptation in speech recogniton and its development trend[J]. Acta Electronica Sinica,2003,31(1):103-108. (in Chinese)

[2] Kimball O,Ostendorf M,Bechwati I.Context modeling with the stochastic segment model[J]. IEEE Transactions on Signal Processing,1992,40(6):1584-1587.

[3] Tang Yun, Liu Wen-Ju, Xu Bo, Mandarin digit string recognition based on segment model using posterior probability decoding[J]. Chinese Journal of Computers, 2006,29(4):635-642. (in Chinese)

[4] Tang Yun, Liu Wen-Ju, Zhang Hua. One-pass coarse-to-fine segmental speech decoding algorithm[C]∥Proc of ICASSP, 2006:441-444.

[5] Zhang Hua, Liu Wen-ju, Xu Bo. Research on adaptive step decoding in segment-based LVCSR[C]∥Proc of IEEE NLP-KE’07, 2007:463-467.

[6] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(2):291-298.

[7] Leggetter C,Woodland P.Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models[J]. Computer Speech and Language, 1995, 9(2):171-185.

[8] Tang Yun, Rose R C. Rapid speaker adaptation using clustered maximum-likelihood linear basis with sparse training data[J]. IEEE Transactions on Audio, Speech & Language Processing, 2008, 16(3):607-616.

[9] Kuhn R, Junqua J C. Rapid speaker adaptation in eigenvoice space[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(6):695-707.

[10] Luo Jun, Ou Zhi-jian, Wang Zuo-ying. Eigenvoice-based MAP fast adaptation in correlation subspaces[J]. Journal of Tsinghua University (Science and Technology), 2005, 8(6):829-832. (in Chinese)

[11] Li C F, Siu M. Training for polynomial segment model using the expectation maximization algorithm[C]∥Proc of ICASSP, 2004:841-844.

[12] Yang Zhan-lei, Liu Wen-ju. A novel path extension framework using steady segment detection for mandarin speech recognition[C]∥Proc of INTERSPEECH, 2010:226-229.

附中文参考文献:

[1] 李虎生,刘加,刘润生. 语音识别说话人自适应研究现状及发展趋势[J]. 电子学报,2003,31(1):103-108.

[3] 唐赟,刘文举,徐波. 基于后验概率解码段模型的汉语语音数字串识别[J]. 计算机学报, 2006, 29(4):635-642.

[10] 罗骏, 欧智坚, 王作英. 基于相关子空间本征音分析的MAP快速自适应[J]. 清华大学学报(自然科学版),2005, 44(6):829-832.

CHAOHao,born in 1981,PhD candidate,lecturer,his research interest includes speech recognition.

Researchofspeakeradaptationofstochasticsegmentmodelsusingmaximumlikelihoodlinearregression

CHAO Hao1,2,YANG Zhan-lei2,LIU Wen-ju2

(1.School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000;2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

A speaker adaptation method of Stochastic Segment Model (SSM) is proposed. According to the SSM’s characteristics, the theory of Maximum Likelihood Linear Regression (MLLR) method is introduced into the SSM-based systems. Continuous Chinese speech recognition experiment on "863-test" test suite shows that the proposed method makes the error rate of Chinese characters decrease obviously under different decoding speeds. Experiment results indicate that the proposal can also improve the recognition performance on the SSM-based systems.

speech recognition;speaker adaptation;maximum likelihood linear regression;stochastic segment model

1007-130X(2014)08-1604-05

2012-12-19;

:2013-04-03

国家自然科学基金资助项目(91120303,90820303,90820011);国家973计划资助项目(2004CB318105);国家863计划资助项目(20060101Z4073,2006AA01Z194)

TP391.4

:A

10.3969/j.issn.1007-130X.2014.08.032

晁浩(1981-),男,河南鄢陵人,博士生,讲师,研究方向为语音识别。E-mail:chaohao@hpu.edu.cn

通信地址:454000 河南省焦作市河南理工大学计算机科学与技术学院

Address:School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000,Henan,P.R.China

猜你喜欢
错误率声学解码
《解码万吨站》
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
解码eUCP2.0
小学生分数计算高错误率成因及对策
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
NAD C368解码/放大器一体机
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Quad(国都)Vena解码/放大器一体机
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
正视错误,寻求策略