语音识别中基于发音特征的声调集成算法

2014-08-03 15:22刘志中

计算机工程与应用 2014年23期

关键词：感知器基频声调

晁浩，宋成，刘志中

河南理工大学计算机科学与技术学院，河南焦作 454000

语音识别中基于发音特征的声调集成算法

晁浩，宋成，刘志中

河南理工大学计算机科学与技术学院，河南焦作 454000

1 引言

隐马尔科夫模型（Hidden Markov Model，HMM）是当前连续语音识别领域应用最为广泛的声学模型，但其语音帧之间相互独立的假设并不符合语音信号真实分布[1]。为此，研究人员提出了分段模型，随机段模型（Stochastic Segment Modeling，SSM）就是其中的一种[2-4]。相对于HMM，随机段模型是一种更为精确的模型。此外，随机段模型作为分段模型的一种，其建模和解码均以语音段为基本单元，这就使其具有HMM所不具有的特性：段模型本身的结构允许采用语音段层次上的特征，而作为超音段特征的声调信息能很好地应用于随机段模型。为了进一步提高随机段模型系统的解码精度，将声调信息作为声学特性信息的补充用于随机段模型系统是十分必要的。

声调是汉语普通话的一种重要属性，在一定程度上承担着构字辨义的作用。因此，利用声调信息来提高声学模型的区分性是十分必要的，也是近年来的研究热点[5-8]。

对于声调模型，研究人员提出了不同的建模方法，如HMM[9]、人工神经网络[10]、决策树分类器[11]和支持向量机[12]、以及基于最大熵方法[13]和基于条件随机场[14]的声调建模方法等。从模型特征的角度，通过分析发音动作的改变对基频轮廓的影响，提出了基于发音特征和传统基频特征相结合的声调建模方法[15]。

本文的研究工作分两方面：首先进一步完善了发音器官主要动作属性划分类别，补充了发音特征集，改进了前面提出的基于发音特征的声调建模方法；然后，根据随机段模型的模型结构和解码原理将基于发音特征的声调模型通过一遍解码的方式集成到随机段模型系统中。

2 基于发音特征的声调模型

2.1 发音特征获取

汉语中的音节具有声母-韵母的结构，对于同一种声调模式，如果对应音节中的声韵母发音时发音动作不一样，那么就会使基频轮廓在形状或高度上发生改变。因此，在声调建模及分类过程中，必须考虑声韵母的发音动作这一因素的影响。在先前的研究中[15]，发音特征主要体现了声/韵母的发音方式和声带振动信息，而这些只是描述发音器官动作信息的一部分。这里补充了其他的发音器官动作信息（见表1），使得发音特征得以更全面地表征发音器官的动作属性，并以此提出了改进的发音特征提取方法。

表1 发音特征及其包含的类别

所用的发音特征集主要包括：“发音位置”、“发音方式”、“是否送气”等7种发音特征，每种发音特征包含各自的所属类别，总共35类。

发音特征的提取主要采用统计方法：首先训练统计模型，然后利用模型计算语音信号属于发音特征的各类别的后验概率，根据概率大小判断应属于哪类发音特征。在文中，采用阶层式神经网络计算声母/韵母对应的语音段属于发音特征类别的后验概率，如图1所示。

（1）基于语音帧的发音特征

图中第一层的多层感知器（Multilayer Perceptron classifiers，MLP）计算当前帧语音信号属于某类发音特征的概率。对于发音特征集中的每一种发音特征，都有一个多层感知器相对应，因此一共要训练7个多层感知器。MLP的输入数据采用频谱特征，输出数据的维数（或者说输出层节点的个数）与每个发音特征的所属类别数相同。将每个MLP的输出连接起来形成一个新的一维矢量，该矢量的维数为35，即表1中个发音特征的类别数目总和。

（2）发音特征序列处理

对于一个语音帧，图1中第一层感知器组的输出输出是一个描述该帧语音的发音信息、维数为35的特征矢量。对于包含多个语音帧的语音段（声/韵母），第一层的多层感知器组的输出实际上是一个后验概率矢量序列。

发音特征序列处理模块将后验概率矢量序列按照3-4-3的比例分为三部分，得到三个较短的后验概率矢量序列，然后对每一部分的矢量序列求均值，得到三个均值矢量，每个矢量维数仍为35。将这三个均值矢量拼接起来，再拼接一维该语音段时长的对数值，组成一个新的特征矢量，作为第二层MLP的输入，共106维。

（3）语音段后验概率的获取

第二层的多层感知器共有两个，分别对应声母语音段和韵母语音段。这两个模型训练时所用输入为发音特征序列处理模块的输出，共106维。MLP-1为属于声母的多层感知器，有20个输出节点，分别对应于表1中前4个发音特征的20个类别；MLP-2为属于韵母的多层感知器，有15个输出节点，对应于表1中后3个发音特征的15个类别。

2.2 声调建模

在提取出发音特征后，将其与韵律特征一起用于建立声调模型。

图1 基于阶层式人工神经网络的发音特征提取

（1）韵律特征

由于汉语的声调主要通过对应音节的基频轮廓来表示，而时长、能量也在一定程度上影响了声调的感知，所以对于每一个音节，采用基频轮廓、时长以及能量为声调建模，具体如表2所示。

表2 声调建模所用韵律特征

基频特征共4个：首先计算当前音节对应的基频的均值，然后将当前音节对应的基频均匀地分为三部分，每部分分别求均值。

能量特征：当前音节能量的均值。

时长特征：当前音节的时长。

相邻音节基频特征：前一个音节对应的基频均匀地分为三部分，取后面部分的基频的均值；后一个音节对应的基频均匀地分为三部分，去前面部分基频的均值。

（2）声调模型

在获取了发音特征和韵律特征后，将两种特征相结合，用于训练声调模型。声调模型采用多层感知器，MLP模型包含一个隐含层，隐含层节点个数设置为2N+1，其中 N为输入层的节点个数，MLP模型采用WEKA的多层感知器算法来训练。

3 随机段模型中声调模型的集成算法

随机段模型系统解码时，每一个语音帧都设有一个备选集和一个扩展集。备选集是所有以该帧为最后切分点的路径的集合；扩展集是由该帧备选集中的路径向下扩展出来的声学模型的集合。

对于当前待解码帧，所有以其为终点，且起点在最大段长允许范围内的语音帧的扩展集，构成当前待解码帧待定的备选集。解码时每一个起始点帧都与待解码帧形成了一个语音段，计算起始帧扩展集中每一个声学模型在该语音段上的概率得分，并以此选取最优的声学模型，也就是最优的路径，并将这些保留下来的路径加入到解码帧的备选集中。例如，待解码帧为m，对于起点为t的语音段[t，m]，根据t扩展集中的所有模型在该语音段的得分的大小情况选取最佳声学模型α，并将其添加到待解码帧m的备选集合中。这就是随机段模型解码的第一层剪枝，其主要根据当前语音段上的概率得分大小来剪枝。剪枝后形成的解码帧m的备选集包含了大约几千条路径。

随后，需要对当前待解码帧的备选集中的路径根据发音词典的规则进行扩展，从而形成该帧的扩展集。在扩展前需要对备选集中的路径进行第二层剪枝，剪枝的规则是保留路径总得分最大的部分路径。第二层剪枝后当前待解码帧的备选集中只保留了大约几十条路径用于后续的路径扩展。

声调模型的加入是在第二层剪枝后，路径扩展之前，如图2所示。加入的方式如下：

其中w1为时长模型的权重系数，w2为声调模型的权重系统。

声调建模和识别时需要预先知道声韵母的边界信息，但是在解码时实际上不知道声韵母真实的边界信息，而第二层剪枝后保留下来的路径其包含的边界信息与真实的边界信息比较相近，因此以这种方式加入声调模型在一定程度上能解决真实边界未知的问题。

图2 SSM二层剪枝示意图

4 实验及结果分析

4.1 随机段模型

实验所用的数据库为国家863项目汉语广播语音库。训练集包括83位男性说话人的数据，其中共48 373句，约55.6 h。测试集包含6个男说话人数据，共240句话，约17.1 min。声学特征包括12维梅尔频率倒谱系数及1维标准化能量，以及它们的一阶及二阶差分，共39维。帧的窗长为25.6 ms，帧移为10 ms。实验中采用的汉语普通话音素集包含24个声母及37个韵母，每一个韵母含有五个声调。去除训练库中没有出现的声韵母，音素集中共包含191个基本音素。

实验所用的基线系统为基于随机段模型的语音识别系统。随机段模型的建模单元为声韵母，采用背景相关的三音子结构，每个段模型包含15个域模型和一个基于伽马分布的时长模型。每个域模型由12混合数的高斯混合模型模拟。域模型采用基于音素的决策树进行参数合并。训练阶段完成后，三音子模型一共有202 984个，域模型的个数为24 180个。采用二元语言模型，词典规模为48 188。

4.2 声调识别结果

在对测试集中的240句话进行强制切分后，利用训练好的MLP模型分别对切分出的语音段进行了声调识别实验，实验结果如表3所示。其中第一行为采用传统韵律特征的声调模型的识别结果；第二行为表征发音方式的特征（发音特征I）和韵律特征相结合后的声调识别结果；最后一行则为对发音特征补充后（发音特征II）与韵律特征结合后的识别结果。

表3 基于不同特征的声调模型（%）

与只用韵律特征的声调模型相比，加入了发音特征后（不管是发音特征I还是发音特征II）声调模型的精度均有较大程度上的提高。特别是轻声，加入两种发音特征后，声调的准确率分别提高了25.1%和34.6%。这是由于轻声没有固定的调值，并且受前一个音节声调的影响较大，所以只根据韵律特征识别轻声时效果并不理想。事实上，很多轻声汉字的发音器官动作比较固定或类似，例如“吧，吗，啊，阿，呢”以及“了，过，的，得”。因此，如果先检测出蕴含发音器官动作信息的发音特征，对应轻声的识别会很有帮助。相比发音特征I，发音特征II对发音器官动作描述得更全面，也更精确。所以轻声的识别率，采用发音特征II比发音特征I提高了9.5%。而对于一声、二声、三声和四声，采用发音特征I声调模型的识别率也有轻微的提高，表明发音方式信息作为韵律信息的补充，能够有效刻画发音方式对基频的影响，从而提升声调识别的准确率。采用发音特征II后四种声调的识别率有了进一步的提升，这表明如果能够更精确地表征和提取语音信号中的发音信息会使得声调模型的性能继续提高，这也进一步验证了发音特征在声调建模中的潜力。

4.3 融入声调模型后的语音识别

将声调模型融入随机段模型系统中后，对测试集中的240句话进行识别并与随机段模型的基线系统进行对比。公式（1）中的声调模型得分的权重通过实验人工设置。这里声调的权重系数设置为5.5，时长模型的权重系数设置为10。识别结果如表4所示。

表4中第一行为SSM基线系统的识别结果，第二行、第三行和第四行则是SSM系统融入了声调模型后的识别结果。第二行的SSM系统使用的声调模型只用韵律特征来建模；第三行SSM系统中的声调模型则用了韵律特征和发音特征I（见表3中）来建模；最后一行的SSM系统中的声调模型所用特征为补充后的发音特征（表3中发音特征II）与韵律特征。

不管使用哪种声调模型，当声调模型融入SSM语音识别系统后，在测试集上汉语字的错误率与基线系统相比均有所下降。将三种声调模型集成到SSM后，插入错误和删除错误都没有发生变化，只是替代错误的绝对值下降了。同时，随着声调模型本身精度的提高，替代错误也逐渐下降。这说明声调能够提供补充性的区分性信息来纠正汉语语音识别中的替代错误；而且声调模型提供的区分性信息越准确，SSM系统精度提升得也越多。

本文提出的声调建模方法只需训练包括轻声在内的5个声调模型，模型数量大大降低。在计算复杂度方面，声调识别时算法的时间复杂度主要体现在发音特征的提取上，即多层感知器的计算。由于实验采用的多层感知器的各层节点数都不超过102，远远小于解码时基于HMM的Viterbi搜索算法的时间复杂度O(N2T)（N为状态数，量级为103；T为时间，量级为102），所以将声调模型通过一遍解码的方式集成到语音识别系统中时并不会显著增加解码时间。

表4中的最后一列描述了解码时间，用实时性来表示。为了消除解码时计算机中其他程序对解码时间的影响，对于表中每一种系统都重复完成了10次解码，时间取平均值。测试的硬件平台为Intel3.20 GHz主频和4 GB内存的PC机，运行过程中内存使用约为485～615 MB。第二行的SSM系统使用的声调模型只用韵律特征来建模，声调模型输入特征的维数较低，并且特征提取时并未用多层感知器，所以解码时间与基线系统相比只有略微的提高，由于提升程度有限，所以并没有反映在实时性上；集成声调模型I的系统中，在提取发音特征时所用阶层式神经网络中第一层包含了19个MLP[14]，而集成声调模型II只用了7个MLP，所以集成声调模型I所用时间反而较高。

表4 加入声调信息的SSM系统的识别结果

5 结束语

分析发音时发音器官的动作属性后，补充了发音位置、是否送气、舌位高低、舌位前后、嘴唇形状等5种发音特征，从而建立了能够更全面地表征发音器官的动作属性的发音特征集合，并以此提出了改进的发音特征提取方法，并将新的发音特征和韵律特征一起用于声调建模。最后根据随机段模型的模型结构和解码方式提出声调模型集成方式，从而将声调信息应用于SSM语音识别系统。实验结果表明，采用了新的发音特征集合后声调模型的精度有了进一步提高；同时随机段模型加入了声调信息后系统性能有了进一步的提高。

[1]Ostendorf M，Roukos S.A stochastic segment model for phoneme-based continuous speech recognition[J].IEEE Trans on Speech and Audio Processing，1989，37（12）：1857-1869.

[2]唐赟，刘文举，徐波.基于后验概率解码段模型的汉语语音数字串识别[J].计算机学报，2006，29（4）：635-642.

[3]晁浩，刘文举，杨占磊.汉语语音识别中声学界标点引导的随机段模型解码算法[J].计算机科学，2013，40（10）：208-212.

[4]Tang Yun，Liu Wenju，Zhang Hua.One-pass coarse-to-fine segmental speech decoding algorithm[C]//Proceedings of ICASSP，2006：441-444.

[5]Huang Hao，Li Binghu.Automatic context induction for tone model integration in Mandarin speech recognition[J]. Journal of China Universities of Posts and Telecommunications，2012，19（1）：94-100.

[6]Tian Ye，Jia Jia，Wang Yongxin，et al.A real-time tone enhancement method for continuous Mandarin speeches[C]// International Symposium on Chinese Spoken Language Processing，2012：405-408.

[7]Wu Jiang，Zahorian S A，Hu Hongbing.Tone recognition in continuous Mandarin Chinese[J].The Journal of the Acoustical Society of America，2012，132（3）.

[8]Wu Jiang，Zahorian S A，Hu Hongbing.Tone recognition for continuous accented Mandarin Chinese[C]//Proceedings of ICASSP，2013：7180-7183.

[9]Yang W J，Lee J C，Chang Y C，et al.Hidden Markov modelforMandarin lexicaltone recognition[J].IEEE Transactions on Acoustic Speech and Signal Processing，1988，36（7）：988-992.

[10]Thubthong N，Kijsirikul B.Tone recognition of continuous Thai speech under tonal assimilation and declination effects using half-tone model[J].International JournalofUncertainty，Fuzziness and Knowledge-Based Systems，2001，9（6）：815-825.

[11]曹阳，黄泰翼，徐波.基于统计方法的汉语连续语音中声调模式的研究[J].自动化学报，2004，30（2）：191-198.

[12]PengG，Wang W S.Tonerecognitionofcontinuous Cantonese speech based on support vector machines[J]. Speech Communication，2005，45（1）：49-62.

[13]Wang Xinhao.Maximum entropy based tone modeling for Mandarin speech recognition[C]//Proceedings of ICASSP，2010：4850-4853.

[14]Wei Hongxiu.Exploiting prosodic and lexical features for tone modeling in a conditional random field framework[C]// Proceedings of ICASSP，2008：4549-4552.

[15]Chao Hao，Yang Zhanlei，Liu Wenju.Improved tone modeling by exploiting articulatory features for Mandarin speech recognition[C]//Proceedings of ICASSP，2012：4741-4744.

CHAO Hao,SONG Cheng,LIU Zhizhong

School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo,Henan 454000,China

The tone model based on articulatory features is improved in this paper,and a framework is proposed which attempts to integrate the proposed tone model into stochastic segment based Mandarin speech recognition system.A set of seven articulatory features which represent the articulatory information is given.As well as prosodic features,the posteriors of speech signal belonging to the 35 pronunciation categories of articulatory features are used for tone modeling.The tone models are fused into the SSM-based speech recognition system after second pruning according to the property of segmental models.Tone recognition experiments conducted on“863-test”set indicate that about 3.11%absolute increase of accuracy can be achieved when using new articulatory features.When the proposed tone model is integrated into SSM system,the character error rate is reduced significantly.Thus,potential of the method is demonstrated.

speech recognition;stochastic segment modeling;tone modeling;articulatory feature;hierarchical multilayer perceptron classifiers

提出基于发音特征的声调建模改进方法，并将其用于随机段模型的一遍解码中。根据普通话的发音特点，确定了用于区别汉语元音、辅音信息的7种发音特征，并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率，将该概率作为发音特征与传统的韵律特征一起用于声调建模。根据随机段模型的解码特点，在两层剪枝后对保留下来的路径计算其声调模型概率得分，加权后加入路径总的概率得分中。在“863-test”测试集上进行的实验结果显示，使用了新的发音特征集合中声调模型的识别精度提高了3.11%；融入声调信息后随机段模型的字错误率从13.67%下降到12.74%。表明了将声调信息应用到随机段模型的可行性。

语音识别；随机段模型；声调建模；发音特征；阶层式多层感知器

TP391

10.3778/j.issn.1002-8331.1404-0306

CHAO Hao,SONG Cheng,LIU Zhizhong.Integrating tone models into speech recognition system based on articulatory feature.Computer Engineering and Applications,2014,50（23）：21-25.

国家自然科学基金（No.61300124）；河南省基础与前沿技术研究计划资助项目（No.132300410332）。

晁浩（1981—），男，博士，讲师，研究领域为语音识别；宋成（1980—），男，博士，讲师，研究领域为信息安全；刘志中（1981—），男，博士，讲师，研究领域为智能计算。E-mail：chaohao@hpu.edu.cn

2014-04-21

2014-06-19

1002-8331（2014）23-0021-05

CNKI网络优先出版：2014-07-01,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1404-0306.html