语种识别技术概论

2019-08-12 03:43:54吴敏马延周

现代计算机 2019年19期

吴敏，马延周

（1.信息工程大学洛阳校区语言信息处理系，洛阳471000；2.信息工程大学洛阳校区基础系，洛阳471000）

1 语种识别技术的提出及发展概况

语种识别，即语音的自动语言辨识技术就是通过计算机识别出语音段所属语言的过程。语音识别是通过计算机识别语音信号对应的文字信息，在上世纪语音识别的研究都是基于单一语种的，识别系统并没有考虑到语音信号可能来源于不同的语言，因此随着语音识别技术的不断发展，并且考虑到语音信号中可能出现的多语种现象，作为语音识别的重要分支的语种识别技术被提了出来。通过提供包含不同语言对应的语音信号，能让系统识别出语音信号所属语言。

语种识别在信息检索和军事领域都有很重要的应用，包括自动转换服务、语音实时翻译、多语种信息补偿等。在信息服务方面，很多信息查询系统数据库都包含多语言数据，并提供多语言服务，在以往通过用户选择特定的语种来对数据进行增删改查等操作。这类服务被广泛应用于旅游行业、应急服务、客服服务以及购物和银行业务。最常见的例子是手机营业厅的电话客服服务，在最开始的机器处理过程中就提示用户选择语言。语种识别技术还能够用于多语言机器翻译，可以被应用在机器翻译系统前端，在一对一的多语言机器翻译系统中，必须先确定语言类型，才能通过特定的语言到语言的翻译系统对语音进行翻译。另外，在语音实时翻译系统即直接将一种语言转换成另一种语言的通信系统中也使用了语种识别技术。此外语种识别在军事上还可以用来进行说话人的信息识别，通过语种识别出说话人的身份信息和国籍，来对说话人进行监听或识别。随着全球的发展日趋国际化，语言问题已经越来越受到关注，语种识别更是作为一种代表技术越来越显示出其应用价值。

语种识别系统的从某种意义上看也是一种分类系统，因此系统最重要的就是找到分类（即识别）的关键特征。由此，随着人们对声学的研究，语种识别技术的发展经历了以下几个阶段：首先是上世纪60 年代隐马尔科夫模型（Hidden Markov Model，HMM）的问世，被广泛地应用到了各种统计学的模型中，出现了基于HMM的语种识别系统；在此之后人们对声学进行了研究，出现了基于音素识别器的语种识别方法[3]；随着人们对语音信号以及人耳结构特征、听音特征的研究深入，出现了以梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）为代表的基于底层声学特征的语种识别方法[4]；为了进一步提升语种识别的准确率，减少噪声的干扰，出现了许多基于其他特征（例如韵律特征）的语种识别方法[2]。

2 语种识别系统

广义的语种识别包括对文本进行语种识别和对语音进行语种识别，本文介绍的都是根据语音进行的语种识别，以下简称语种识别。

语种识别主要分三个过程，首先根据语音信号进行特征提取，然后进行语种模型的构建，最后是对测试语音进行语种判决[5]。训练过程只需要建立不同语种的语音特征相关模型，测试过程根据不同的识别策略对待识别语音信号的特征进行处理，如图1 所示。在训练阶段，系统首先对语音信号进行预处理，方便系统提取不同种语音数据的特征，然后用提取出的特征构建一个特征向量序列，利用特定的特征训练算法，产生一个或多个包含语种信息的模型并存储起来。在识别阶段，同样需要对待识别语音信号进行预处理、特征提取并构建向量，然后采用一些分类模型或者算法，根据训练阶段训练好的对应语种模型进行相似度度量，根据相似度来判决待识别语音的语种。

图1 语种识别一般过程

2.1 传统语种识别系统

本文将语种识别系统分为了两类，一类是基于目前研究热点——深度神经网络的语种识别系统，称之为神经网络语种识别系统，另一类未使用神经网络的称为传统语种识别系统。

传统的语种识别系统包括基于HMM 的语种识别、基于音素识别器（Phoneme Recognizer，PR）的语种识别、基于底层声学特征的语种识别等。

（1）PR 的语种识别系统

本文选取了两种传统语种识别方法进行介绍，分别是基于PR 的语种识别和基于底层声学特征的语种识别。选取这两种作为传统语种识别系统的代表进行描述。基于PR 的语种识别利用音素识别器，对训练语音进行转换得到一个最优的音素序列，然后根据这个序列，生成N-Gram 基元，通过对基元采用统计语言模型（Language Model，LM）或者支持向量机（Support Vector Machine，SVM）来进行分类，即识别。整个系统是建立在LM 或SVM 模型上的，音素识别器只用于获取特定的分类特征。整体过程如图2 所示。在基于音素的语种识别系统中，PR 是一个与语种识别任务无关的黑盒子[2]，语种识别系统所需要的，是在给定的PR 下识别出来的序列因语种的不同而产生的差异，采用音素搭配关系来作为语种识别差异，也就是说不同语种的语音信号经过音素识别器得到的最优序列会有所差异。

图2 基于音素识别器的语种识别

（2）基于底层声学特征MFCC 的语种识别

随着人们对人耳构造的进一步研究，有学者发现人类听觉系统所感知到的声音频率（单位：Mel）与该声音的物理频率（单位：Hz）并不是完全线性的对应关系，而是在一定范围内呈对数关系。另外，还存在屏蔽效应，即当两个音调的频率差小于临界带宽时，人耳便无法区分出两个音调，而是会认成同一个音调[4]。临界带宽的大小并不是固定的，随着频率的升高呈对数关系。梅尔频率倒谱系数（MFCC）就是通过这些特性被提取出来的。

基于MFCC 的语种识别就是通过提取出语音信号的MFCC 特征，再根据MFCC 特征采用不同的分类模型来构建语种识别系统。此系统的核心就是提取MFCC 特征，分类可以采用常用的SVM 或是K-means 聚类方法。提取MFCC 特征的步骤可以细分为六步[6]：首先，对语音信号预加重，以减少尖锐噪声的影响；第二步，加窗处理，减少吉布斯效应；接下来对信号进行离散傅里叶变换，将语音信号从时域转移到频域中去；第四步便是采用三角滤波器组处理上一步得到的频谱参数，在人耳听觉敏感的各个频段都设定一个三角滤波器，得到的一组系数各个值都来自其对应的滤波器；接下来计算每个滤波器输出的对数能量；最后经过离散余弦变换得到MFCC 特征。

早期底层声学特征往往采用的是MFCC 及其一阶、二阶差分，然后利用这些特征组成的一个特征向量进行语种识别，而通过大量的研究发现，这些特征作为语种识别的依据并不能很好地区分不同语种，使得传统的基于底层声学特征的语种识别系统性能受限。目前的基于底层声学特征的语种识别系统往往采用的是移位差分倒谱特征（Shift Delta Cepstral，SDC）[7]，SDC 特征是在MFCC 或者感知线性预测特征（Perceptual Linear Predictive）的基础上通过移位差分扩展而来：首先对提取的MFCC 特征或PLP 特征使用RASTA 滤波，然后通过移位差分扩展，再经过高斯化及倒谱域减去均值的操作就得到了SDC 特征。该特征通过将底层声学谱参数进行时域扩展使其能够接近一个因素单元的长度，从而能够更好地对应内容相关语音信号，进而极大地提升了语种识别的性能。

图3 基于底层声学特征的语种识别

2.2 神经网络语种识别系统

为了模拟生物学习的计算模型，即大脑的学习过程的模型，人们提出了最早的学习算法，即最早的人工神经网络算法。最早的神经网络是用来进行数值预测的，而人们结合统计学的成果将其运用在了模型参数的预测上，进而使得神经网络被用在了各个领域中。而经过六七十年的曲折发展，目前的神经网络学习效果更为明显，在各个学科领域都得到了广泛的应用并取得了性能上质的飞跃[8]。

在神经网络被用在语种识别系统之前，语种识别系统往往通过特殊的手工设计方法预处理输入信号来获取包含语种信息的特征。而神经网络的迅速发展，使得直接从原始输入中学习特征变得可能，并且通过大量实验证明神经网络提取的特征用来进行语种识别在准确率上要明显高于使用传统手工提取的特征。

（1）基于深度神经网络的语种识别系统

本文选取基于深度神经网络的语种识别系统及其改进系统——融合深度瓶颈特征的DNN 语种识别系统进行介绍。基于DNN 的语种识别系统分为两部分，前端深度神经网络部分，构建深度神经网络来完成特征提取，后端为判别部分，通过已有的分类模型分类。许多基于DNN 的语种识别系统并不是将语音信号简单地预处理之后就用作输入，而往往是使用语音信号的MFCC 特征及其n阶差分等特征作为输入，将输出解码为音素序列，再通过声学模型和分类模型进行语种识别。通过实验表明[9]，一个包含5 个隐层的DNN，输入特征为13 维MFCC 及其一阶和二阶差分及4 维基频特征，使用SVM 进行区分训练的基于DNN 的语种识别系统，其识别率相比基于PR-SVM 的语种识别系统性能在不同时长的语音测试集上均有所提高。

（2）融合深度瓶颈特征的DNN 语种识别系统

深度神经网络中，有的隐层的单元数目被人为地调小，这种隐层被称为瓶颈层。语音识别中的研究已经证明，利用瓶颈层的输出作为声学特征能够有效提升语音识别系统的性能，瓶颈层作为输入的一种非线性变换形式，有效地去除了因素无关的噪声影响[10]。因此，将深度神经网络的输出和网络中间瓶颈层的输出融合作为后端分类模型的输入是可行的，该语种识别系统结构如图4 所示。相关研究已经证明[9]，融合瓶颈层输出的DNN 语种识别系统的识别性能要明显优于基于DNN 输出层的语种识别系统。

图4 融合瓶颈层特征的DNN语种识别系统

3 语种识别技术展望

从20 世纪80 年代到直到2012 年，最先进的语音识别系统是GMM-HMM[8]，GMM 对声学特征和音素之间的关系建模[11]，HMM 对音素序列建模。该系统的错误率达到了约30%的语音识别错误率。上世纪80 年代开始，神经网络被大量用于语音识别系统，并且在2009 年[12]将音素级别的错误率从大约26%降到了20.7%。而直到现在，基于GMM-HMM 的系统的传统技术没有任何进步，使用神经网络来进行语音识别的浪潮正盛。同样，在语音识别重要分支的语种识别系统中也在广泛应用神经网络。

从根本上语种识别系统可以分成两个部分，分别是特征提取以及按特征分类。传统的语种识别限于声学的研究和计算能力的不足，在这两个方面均存在的很大的不足。如今的语种识别系统，基本上都采用的高性能的“神经网络来提取特征”搭配“高斯混合-分类模型”的系统架构，通过采用更加高效的神经网络算法来提取更加能代表语种特性而又更加简洁的特征，采用更加适配特征的声学模型和分类模型，来获取更加高效的性能。

4 结语

目前语种识别系统的识别率随着深度学习的不断发展在不断提升，虽然系统识别率不低但仍存在提升空间。现阶段的语音识别领域仍然并将在一段时间内被深度学习算法所引领，因此不仅要不断地寻找尝试适合特定语音任务的深度学习算法，还需要尽可能地减少深度学习算法带来的巨大开销。但从长远来看，要能够再次大幅提升系统的性能只有两种可能：一是研究出包含在深度学习中的各种非线性变换与具体任务的某些性质之间的联系，这样才能真正地推动深度学习在该领域的发展；二是对领域的更深一步研究，探索该学科领域的本质，使得无需使用复杂的学习算法就能完成该领域的任务。