语音识别在旅游领域问句识别中的应用

2018-03-10 00:24罗洋周兰江

软件导刊 2018年2期

罗洋+周兰江

摘要：根据领域术语的音节关联特点，提出一种基于术语音节关联特性的领域术语声学模型建模方法。该方法首先根据领域术语字间发音的特点，以声韵母作为识别基元，构建融合零声母音节的扩展声韵母集合（Extended Initial Final-EIF），然后根据术语发音的声韵母组合情况制定出识别单元的组合规则，并构建上下文相关的三音子模型（Triphone-Tri），最后通过Tri-EIF模型实现领域术语识别。对比实验结果表明，Tri-EIF模型具有较好的识别效果，术语识别正确率与上下文无关模型相比提高了28%。

关键词：语音识别；领域术语；声学建模；上下文关联

DOIDOI：10.11907/rjdk.172367

中图分类号：TP301

文献标识码：A 文章编号：1672-7800（2018）002-0012-03

0 引言

声学建模是语音识别领域中的一个关键问题。在建模过程中，建模单元的选择尤为重要，目前可选用的建模单元有词、音节和声韵母等[1]。其中基于词作为识别基元的声学建模方法适用于小词表语音识别系统[2]；基于音节作为识别基元的声学建模方法常用于构建上下文无关的声学模型[3]，该方法虽然能很好地刻画出音节内部变化，但未考虑词语发音时音节间的协同发音问题，当运用于大词汇量语音识别时效果并不理想；基于声韵母作为识别基元常用于构建上下文相关的声学模型[4]，此模型考虑了词汇发音时音节内和音节间的关联关系，有效缓解了音节间协同发音的问题，在大词汇量语音识别和连续语音识别中得到了广泛运用。

通用领域词汇[5]识别时，常选用标准声韵母集合（声母和有调韵母总数接近200个）[6]。由于音节间上下文关系复杂，以声韵母作为建模单元构建上下文相关的声学模型时，模型数量级达到105，使得模型不容易被训练，导致词汇识别率低。在对领域术语进行识别时，由于领域术语词汇量远小于通用领域词汇量[7]，同时领域术语发音时常出现的声韵母数量远小于或等于标准声韵母集合，另外领域术语发音时上下文关系相对简单。因此，在对领域术语进行识别时，研究减少建模单元数量和根据领域术语发音特性制定建模单元组合规则，建立上下文相关的声学模型是非常必要的。

1 基于领域术语发音规则的识别单元集合构建

对自然语言的识别和理解，首先必须将连续的讲话分解为词、音素、声韵母等识别单元。通过对领域术语发音特点的研究发现，声韵母的划分比较符合术语发音特点。比如，术语中的音节通常由声韵母构成，可以比较统一地表示领域术语的发音。另外，在领域术语发音中，声韵母的上下文信息也只会是声韵母或静音。声母和韵母的搭配使上下文发音的表示变得容易，也有利于模型的训练和识别。

由于领域术语词汇量规模远远小于通用领域词汇量规模，故可以通过统计筛选出领域术语发音时常出现的声母和韵母。得到适合领域术语发音的声韵母集合后，还需对术语发音时出现的声韵母组合情况进行统计并制定组合规则，以减少模型数量。经过统计，领域术语发音时声韵母组合情况主要有：音节1（声母-韵母）、音节2（声母+韵母）、音节1+声母、韵母-音节2。在此基础上统计出所有可能出现的声韵母单元组合情况，从而过滤出不存在的声韵母组合，比如：“b-e”、“g-v”等。同时，由于领域术语中声韵母的上下文关系比较复杂，声母的上下文只能是韵母，而韵母的上下文既可以为声母，还可以为韵母。在此，增加了6个零声母音节{-a，-e，-i，-o，-u，-v}构建出扩展的声韵母集合。引入零声母音节后，每个韵母的上下文都只能是声母，因此两个韵母相邻的情况将不再出现，从而简化了领域术语中声韵母的上下文关系。

2 领域声学模型库构建

在声学模型中，识别基元与特征矢量存在一一对应关系，而声学模型则是描述这二者之间对应的过程。通过声学建模，可以估计待识别特征矢量序列所对应的语音识别基元，从而完成特征矢量序列到语音识别基元的识别转换。

本文首先对扩展声韵母集合（XIF）中的所有声母和有调韵母建立模型，分别对应initial模型和final模型，再加上静音模型sil和字间暂停模型sp，成为上下文无关的XIF模型。在此采用的模型为经典的连续概率密度隐马尔可夫模型（CDHMM）[8]。针对领域术语的发音特点，主要采用了以下3种HMM结构，如图1所示。

图1中，（a）表示initial和final模型；（b）表示SP（Short Pause）模型，用來描述语音中的短暂停顿，一般只用一个状态表示即可；（c）表示静音模型silence，采用3个状态表示，并且状态间可以前后跳转。

其次，根据领域术语发音特点：音节1（声母-韵母）、音节2（声母+韵母）、音节1+声母、韵母-音节2，扩展XIF模型构建上下文相关联的三音子模型（tri-XIF）。例如：领域术语可以用半音节序列来描述，即sil ini fin （sp） ini （sp） …ini fin sil，括号表示此处的sp可以被跨越。当扩展为tri-XIF时，initial模型可以表示为fin-ini+fin或者sp/sil-ini+fin的形式，final可以表示为ini-fin+ini或者ini-fin+sp/sil的形式。例如，单词“西双版纳（XiShuangBanNa）”可以表示为图2。其中，第一个状态和最后一个状态只起连接作用，没有输出概率。

然后，对模型进行训练时，首先标注出用于训练的语音数据对应发音字典的词序列、起始时刻和终止时刻；接着利用Viterbi算法[9]对模型进行初始化，将对应于某个HMM的语音数据段按照固定的状态序列进行最优的状态切分，再利用切分到每个状态的语音数据估计状态参数；最后，利用Baum-Welch算法对初始化后的模型进行训练。领域术语声学模型库的构建流程如图3所示。endprint

最后，识别工作就是在给定领域术语声学模型库的基础上，利用语法和词典建立的词网络，根据一定的搜索策略在该网络中找到一个最佳路径作为识别结果。

3 领域术语识别实验与结果分析

3.1 实验数据

本文录制了旅游领域术语的语音语料。其中旅游术语词汇是从互联网上抓取并经过整理的旅游词汇，共计约5 000个。其中旅游景点名有3 741个，还包含一些旅游机构名﹑常用口语等。朗读的旅游领域问句和术语主要以略带方言的口音为主，包括来自云南、山东、湖北、湖南等地方言。语音库有10人的语音数据，共计20h。语音标注采用手工标注为主，辅以机器切分的方式获得。实验中选用7人的语音数据作为训练集，剩下3人的语音数据作为测试集。测试语音数据集不在训练中使用。

其中基于领域术语的发音特性构建出的扩展声韵母集合如表1所示。

在实验中，使用了剑桥大学开发的HTK语音识别工具包[10]，版本为v3.3。测试结果使用模型数量进行词汇识别正确率评价。

3.2 术语识别中领域声学模型引导概率权重选取

在本文构建的声学模型中，领域声学库对领域术语的识别准确率有着一定影响。本节通过实验选择合适的引导概率，使领域声学库和通用声学模型有较好的融合，从而达到较好的识别效果。为更好地表现识别率的变化，本文在2 000个词汇的数据集上进行了测试，结果如图4所示。

由图4可以看出，在λ=0时，声学模型中并没有加入领域声学库，识别错误率与通用系统相同；随着λ的增大，在取值为0.6～1.4时，识别错误率下降明显，最低达到16.7%。与通用系统相比，识别率下降了4.6%；然而λ继续增大时，识别错误率没有进一步下降，反而上升。

从本质上讲，领域声学库是通过加大当前音节与后续音节的联系概率，以增大术语词汇的区分能力。在包含一定比例术语的数据集上，当取值一定时，这种影响能较好地区分出前后音节的关联。而过大地增加权重，会干扰正常词语的概率计算，反而使识别错误率上升。

3.3 声学模型性能比较

为了说明基于领域术语音节关联特性的声学建模方法不仅能减少模型规模，还能提高领域术语的识别率，所以设置了如下实验，在实验中分别使用扩展声韵母集合（EIF）作为识别基元构建了上下文无关的声学模型（EIF-Monophone）和上下文相关的声学模型（EIF-Triphone），另外使用标准声韵母集合（IF）作为识别基元构建了上下文无关的声学模型（IF-Monophone）和上下文相关的声学模型（IF-Triphone）。这4种模型在不同词汇量下对于领域术语词汇的识别正确率如表2所示。

首先从表2中可以看出，无论是上下文无关的声学模型（Monophone）还是上下文相关的声学模型（Triphone），在同等词汇量下使用EIF作为识别单元，识别正确率都高于以IF作为识别基元的声学建模方法。说明扩展的声韵母集合由于考虑了领域术语发音特性选取出适合的识别基元，同时在建立模型时基于术语发音规则优化基元组合，使声学模型数量大大减少，从而使声学模型得到了充分训练，达到了提高领域术语识别正确率的效果。其次从表2中还可看出，无论是选用IF还是EIF作为识别基元，上下文相关的声学模型（Triphone）在同等词汇量下识别正确率都远高于上下文无关的声学模型。说明本文研究的基于术语音节关联特性的领域术语声学建模方法，由于考虑了领域术语间协同发音的问题，针对术语发音时音节之间的关联关系，使术语识别正确率得到了显著提高，此方法尤其适用于对大词汇量领域术语的识别中。

上下文无关的声学模型无论选用IF还是EIF作为识别基元，模型规模都远高于上下文相关的声学模型规模。另外，IF-Triphone模型的规模也是EIF-Triphone模型规模的4倍左右。以上两个现象分别说明了在大词表术语识别中，上下文无关的声学模型由于基元组合情况较为复杂，导致模型规模异常庞大。而建立通用领域上下文相关的声学模型（IF-Triphone）时，由于没有很好地考虑到术语发音时音节间的组合规则，导致模型数量也远高于本文提出的扩展声韵母集合（EIF）作为识别基元构建的上下文相关的声学模型（EIF-Triphone）。

4 结语

本文提出的基于术语音节关联特性的领域术语声学建模方法，结合了术语发音时音节间的关联关系，构建出扩展声韵母集合，并基于术语发音规则构建上下文相关联的声学模型，不仅降低了声学模型训练时的计算复杂度，同时提高了术语识别正确率。

参考文献：

[1] 陈方，高升.语音识别技术及发展[J].电信科学，1996，12（10）：54-57.

[2] 汲清波，卢侃，李康.在孤立词语音识别中动态时间规正的改进算法[J].计算机工程与应用，2010，46（25）：55-57.

[3] BAGHDASARYAN A G， BEEX A. Signals，automatic phoneme recognition with segmental hidden markov models systems and computers （ASILOMAR）[C].2011 Conference Record of the Forty Fifth Asilomar Conference on， Pacific Grove， CA，2012：569-574.

[4] GEORGE E DAHL， DONG YU， LI DENG， et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio， Speech & Language Processing，2012，20：30-42.

[5] 邵佳.旅游領域问句语音识别中规则语言模型自动构建研究[D].昆明：昆明理工大学，2013.

[6] 刘连国.基于声韵母结构的汉语语音识别研究[D].哈尔滨：哈尔滨工业大学，1998.

[7] 司圣涛.领域知识库的构建方法及其应用研究[D].昆明：昆明理工大学，2009.

[8] FARSI， H， SALEH R. Implementation and optimization of a speech recognition system based on hidden Markov modelusing genetic algorithm，Intelligent Systems （ICIS）[C].2014 Iranian Conference on，Bam，2014：1-5.

[9] 蒋冬梅，傅国康，赵荣椿.考虑状态持续时间的改进Viterbi算法及语音识别[J].西北工业大学学报，2000，18（4）：595-59.

[10] S YOUNG， J JANSEN， J ODELL， et al. The HTK book[R].UK：Cambridge University Engineering Department，2009.endprint