跨信道环境下语种识别方法的研究

2022-12-14 02:17迪力扎提伊力哈木米吉提阿不里米提艾斯卡尔艾木都拉
现代电子技术 2022年24期
关键词:语种信道注意力

迪力扎提·伊力哈木,米吉提·阿不里米提,郑 方,艾斯卡尔·艾木都拉

(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046;2.清华大学信息科学技术学院,北京 100084)

0 引 言

语种识别是预测一段语音语言种类的过程[1]。对于多语种语音识别系统来说,语种识别是一个重要的前置技术,也被称为自动语言辨识,但实际的应用场景中,各式各样的语音采集设备与传输信道差异,使得训练语音与测试语音之间存在信道失配的情况,导致语种识别性能急剧下降。这便是语种识别中的跨信道问题,它也是影响自动语音识别系统性能最重要的因素之一。因此,如何在最大程度上降低跨信道对识别性能的影响,将是本文的研究重点。神经网络等高性能的建模技术能够同时处理多个完全不一样的语言信息,需要将语种识别技术融入其中,进而推动语种识别在多语言语音处理方面的发展[2]。基于语音的语种识别中,首先需要选择合适的语音特征,对音素特征的识别是通过音素的不同搭配来实现的[3]。之后,声学特征受到研究者们关注,并进行了较为广泛的研究。Fernandes 等人对梅尔频率倒谱进行研究[4]。Atmani 等人使用了高斯混合模型[5]。Veera等人提出基于SDC 特征的语种识别方法[6]。

深度学习的出现为语种识别方法提供了发展机遇。Vuddagiri 等人提出DNN 模型,为语种识别奠定了基础[7]。文献[8]提取了深度瓶颈特征DBF。此外,端到端的语种识别系统也相继出现[9]。2014年Google 的研究人员将特征提取、特征变换和分类结合到一个神经网络模型中,这是端到端系统首次应用于语种识别任务中[9]。2014年,Lei 等人提出卷积网络[10]。此后,研究者展开了进一步的研究,包括时延神经网络TDNN[11]、长短时记忆递归神经网络LSTM⁃RNN[12]等。2016年,Wang 等人将注意力机制模型引入到语种识别系统中[13]。2017年,Bartz 等人利用卷积网络结合循环神经网络的方法(CRNN)进行语种识别[14]。

本文为了提高跨信道环境下的语种识别性能,提出一种基于注意力机制的BiLSTM 语种识别方法,在AP19⁃OLR 和AP20⁃OLR 两个数据集上进行实验。两个数据集中的跨信道数据是从不同的录音设备采集组成,例如手机、麦克风等。通过实验指标分析,验证了本文方法良好的性能。

1 模型原理与构建

1.1 特征提取

声音是通过声带的振动以波的形式进行传播的,语音信号可以认为是时间与振幅变化的时域信号,它是不同频率下周期信号的叠加,所以很难看出信号的规律,通常是将时域信号通过傅里叶变换转为频域上进行相关操作[15]。为了更好地表示声音的特征,需要将声波信号转换为声学特征向量计算机可识别的形式。常用的声学特征提取方法有:梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、频域特征(FBANK)、线性预测倒谱系数(LPCC)等[16]。本文通过对比实验后采用了提取FBANK 特征的方法,该方法可以有效地提高跨信道环境下语种识别的性能,符合人的听觉特性,被广泛应用于语音特征提取当中。

人的听觉感知是呈非线性的,FBANK 方法考虑到人的听觉特性,先将线性频谱映射到非线性空间,然后转换到倒谱上[17]。Mel频率公式如下:

提取FBANK 特征步骤如下:

1)语音预加重、分帧和加窗;

2)FFT 傅里叶变换得到频谱;

3)经过Mel滤波器组得到Mel频谱;

4)Mel频谱做对数变换,得到FBANK 特征。

图1是整个FBANK 语音特征提取过程。

图1 FBANK 特征提取流程

1.2 传统机器学习方法

Stacking 融合模型在国内外建模比赛中应用广泛,凭借着集成多模型的优势,极大地提升分类回归问题的效果。因此本文使用Stacking 建立语种识别模型。Stacking 融合模型如图2所示,分为训练集模块与测试集模块,上半部分训练集用到了5 折交叉验证,也就是把数据分为5 份,使用4 份来训练,1 份用作预测[18]。基础模型间是相互独立的,基础模型选择的测试数据也不尽相同,在第一次的交叉验证中,模型会得到关于当前测试数据的预测值,单个模型5 次的预测值会按列拼接在一起。下半部分测试集经过上半部训练好的模型预测出对应value 构成的向量,这些向量并没有做拼接操作,而是将向量做了加权平均,以保持维度不变,作为下一步模型的测试数据。Stacking 第一部分通常包含多个模型,第一部分模型的选择很关键,通常会选择非线性性较强的模型。本文选择的组合是Model1:SVM;Model2:随机森林;Model3:XGBoost。

图2 Stacking 融合模型结构

1.3 深度学习方法

1.3.1 BiLSTM 模型

深度学习的发展弥补了传统机器学习样本不足表现的复杂函数能力不足问题,同时也避免了人工构建特征的麻烦。深度学习有较强的非线性性,能很好地模拟函数的能力。

在语音分析的任务中,语音信号与时序相关,所以使用的模型不仅要提取语音信号的特征,有时也要了解输入语音在整体语音中的联系,这里只使用存储信息有限的循环神经网络(RNN)是不够的,RNN 记忆周期是比较短的,在实际应用中会出现梯度爆炸或梯度消失问题。另外,RNN 结构简单,含有一个非线性激活函数,很难表征复杂的数据结。深度学习发展到20世纪90年代,Schmidhuber 和Hochreiter 提出了LSTM 长短时记忆网络,在RNN 基础上增加了输入门、遗忘门、输出门等门控限制,对单元状态、隐含层输出做更新、删除、过滤操作。门控限制能有效选择让有价值信息通过,同时也缓解了长期依赖(Long⁃Term Dependencies)问题,很大程度上避免了梯度消失或梯度爆炸的问题。图3为LSTM 网络单元结构。

图3 LSTM 网络单元结构

在图3中:tanh 为双曲正切激活函数;⊗为向量相乘;⊕为向量相加;σ为sigmoid 激活函数。LSTM 模型由输入门it、遗忘门ft、输出门ot三个时序模块,以及一个记忆单元ct组成[19]。LSTM 模型t时刻三个门控单元的更新公式分别如下:

式中:Wi,Wf,Wo和bi,bf,bo分别为三个门控单元的权重和偏置项;xt表示当前时刻的输入;ht-1表示上一时刻隐藏层输出。LSTM 模型通过结合当前时刻xt和上一时刻输出ht-1,计算更新上下记忆单元,公式如下:

cell单元状态更新公式如下:

cell 单元状态更新输出后,输入到输出门由神经单元决定输出。cell 单元状态采用tanh 双曲正切激活函数,对输出门限ot进行过滤操作,公式如下:

LSTM 网络的传递仅是对下文做了记忆存储,也就是说网络输入的文本信息传递过程中仅有下文记忆,并没有保存上文的记忆信息。所以本文引入了BiLSTM 模型,BiLSTM 结构包含两个LSTM 网络:一个正向LSTM的Forward 层,一个反向LSTM 的Backward 层。Forward层为前向计算,从0~t时刻隐含层按时序计算输出;Backward 为反向计算,从t时刻到0 隐含层按倒序计算输出,然后将同一隐藏层得到的正反向结果两两结合。这样BiLSTM 包含了上下文的双向信息。

1.3.2 注意力机制

注意力机制的原理借鉴了人视觉的特性,人的眼睛观察事物一般会聚焦在某个局部,只去关注事物的部分特征而非全貌,同样在语音与自然语言处理(NLP)领域也经常用到Attention 机制,其深度学习中起到了很重要的作用,具有很深的研究价值。文献[20]中提出了自注意力机制(Self⁃Attention),其意在用注意力机制代替传统的CNN 和RNN 网络。Self⁃Attention 是由注意力机制原理演化而来,是一种特殊的注意力机制方法,它能够把不同位置的信息关联起来,考虑不同位置信息的内在联系计算出整个序列的表达。

编码⁃解码模型(Encoder⁃Decoder 模型)编码部分是将初始向量转化为固定长度的特征向量;而解码是将定长的特征向量解码为对应的字符文本。框架结构如图4所示。

图4 Encoder⁃Decoder 框架结构图

Encoder⁃Decoder 框架在自然语言处理领域的应用,是将编码部分将输入序列Source 转化为语义编码c,解码则参考该语义编码c生成对应的Target 过程,公式为:

编码器Encoder 对输入的Source 进行特征变换,转化为语义编码c:

解码器Decoder,通过语义编码c和上一时刻解码的数据来生成yi:

对于较长文本采用Encoder⁃Decoder 模型,编码器生成的语义编码c会存在无法存储较长的信息问题,故基于Encoder⁃Decoder 框架,引入了注意力机制,结构如图5所示。

图5 引入注意力模型Encode⁃Decoder 框架

基于Encoder⁃Decoder 的注意力机制能将固定的语义编码自适应调整,替换成当前生成词的ci,Target 中的每个单词都会学习与其对应的注意力计算的概率信息:

式(12)为Encoder 部分转化为整个句子的语义编码的变换函数,实际是对各词向量的加权求和,公式如下:

式中:LX为Source 的长度;hj为Source 第j个词的中间语义编码;aij表示Target 输出的第i个单词时,Source 输入第j个词的注意力计算系数[21]。注意力机制模型框架如图6所示。

图6 注意力机制的本质思想

Source(数据源)是由一系列的键值对构成,键值查询有三种表示方式:查询(Query)、键(Key)、值(Value)。其计算可归纳为:先将每一个Query和各个Key 矩阵相乘,计算相关性得到每个Key 与对应Value 的相关系数;之后将计算的相关性权重和对应的Value 进行加权求和。故注意力机制的思想为一系列键值对的映射[22],表示为:

注意力机制的计算过程可分为三个步骤:

1)计算每一个Query 和各个Key 矩阵,将计算的相关性权重和对应的Value 进行加权求和,常用的相似度计算函数有点积法、余弦相似度。

式中:K(Key)为关键字;Q(Query)为查询;Sim()表示计算的相似性函数。

2)采用Softmax 函数对计算出的权重归一化处理,如下所示:

3)将计算的权重ai和对应的键值Value 加权求和,生成输出注意力值,如下所示:

式中:a为权重系数。

以上为整个注意力机制的计算过程。

1.4 基于注意力机制的BiLSTM 模型

在本文中,具有注意力机制的BiLSTM 被用于深度特征学习,以提高分类器的识别性能。在LSTM 网络中,输入数据是以时间序列的方式处理的,它经常抛弃未来的上下文信息。与LSTM 相比,BiLSTM 结构在正向和反向的基础上,考虑到未来和过去的背景信息,可以更好地提取语音片段。在BiLSTM 网络中,每个训练序列由后向和前向的LSTM 神经网络层组成,这是BiLSTM模型的基础。图7是本文基于注意力机制的BiLSTM 语种识别方法的框架。

图7 基于注意力机制的BiLSTM 语种识别方法的框架

2 实验与分析

2.1 实验数据集

本文实验所使用的训练数据集由东方语种识别竞赛(Oriental Language Recognition Challenge,OLR)提供[23]。测试数据集使用了AP19⁃OLR 和AP20⁃OLR 提供的跨信道数据集,因此本次实验使用两个数据集来验证所提方法的性能。此数据集都是从不同信道获取的语音数据,AP19⁃OLR 中包括藏语(Tibet)、维吾尔语(Uyghur)、日语(jp⁃jp)、越南语(vi⁃vn)、俄语(ru⁃ru)、汉语普通话(zh⁃cn)。AP20⁃OLR 数据集包括朝鲜语(ko⁃kr)、粤语(ct⁃cn)、日语(jp⁃jp)、越南语(vi⁃vn)、俄语(ru⁃ru)、印尼语(id⁃id)。每种语言语音数据各不相同,验证集每种语言设置为500 条,测试集设置为1 800 条,两个数据集结构如表1、表2所示。

表1 AP19⁃OLR 数据集结构

表2 AP20⁃OLR 数据集结构

2.2 实验设置

本文利用TensorFlow 框架,NVIDIAGeForceGTX 1080 GPU 上搭建语种识别模型进行实验。将语音数据经过预处理和特征提取后输入到语种识别模型,训练和验证网络模型时,其输入为40 维的FBANK 特征,采用的是Adam 优化器,学习率为0.002,损失函数采用交叉熵函数。

本文采用NISTLRE 标准化评价指标,分别是等错误率(EER)、平均集检测代价(Cavg),EER 定义为通过调整阈值,EER 值越小,就表示方法的识别性能越好。当错误接受率(FAR)和错误拒绝率(FRR)相等时,共同值称之为等错误率(EER)。Cavg是通过计算得到模型的平均检测损失代价,公式为:

式中:NL表示测试数据集中的语言种类;LT指的是目标语种;LN指的是非目标语种;CMiss表示漏判决一个和错判决一个的检测代价;PTarget和PNon⁃Target表示目标语种和非目标语种的先验概率。

2.3 实验结果分析

本文实验分为四部分:第一部分是本文模型基于注意力机制的BiLSTM 方法对不同的语音特征进行实验对比;第二部分是采用不同的深度学习模型进行实验对比;第三部分是与传统机器学习方法Stacking 融合模型进行对比;第四部分是通过与语种识别基线系统以及现有的语种识别方法进行对比。

2.3.1 实验1

选取LPCC 特征、FBANK 特征、MFCC 特征等方式来进行特征提取,使用本文研究的模型对跨信道语种进行实验,分析模型基于注意力机制的BiLSTM 在不同特征下的效果。实验结果如表3所示。

从表3可以看出,在LPCC 特征、FBANK 特征、MFCC 特征三种特征之中,使用FBANK 特征进行实验的效果最好,这是由于在特征的区分度方面,FBANK 的特征相关度较高,而MFCC 特征由于各个维度相关性更低。所以使用FBANK 特征使得网络提取和学习特征更容易,识别效果更好。

表3 不同特征对照实验结果

2.3.2 实验2

设置CNN、LSTM、GRU、BiLSTM+Attention、CNN+BiLSTM 等5 种模型,对所选取的特征进行实验,分析不同模型在FBANK 特征下的性能,实验结果如表4所示。

表4 不同模型对照实验结果

从表4可看出,LSTM 模型和CNN 模型的Cavg和EER均比较高。对比几种不同的循环神经网络模型可以看出,GRU 模型作为LSTM 模型的优化,两者的性能非常接近,但是GRU 模型的性能比LSTM 模型略好。CNN⁃BiLSTM 的EER 相对CNN、LSTM 也有提升,本文提出的BiLSTM+Attention 模型性能最优,说明融合后的网络能够更好地利用FBANK 特征,从而提升跨信道环境下语种识别的性能。

2.3.3 实验3

本文使用传统机器学习方法进行实验,通过前面特征的选取和深度学习模型的选择以后,分析传统机器学习方法Stacking 融合模型和本文方法的性能,实验结果如表5所示。

表5 传统方法与本文方法对比结果

实验证明,使用本文构建的基于注意力机制的BiLSTM 模型对于语种识别这项工作来说,相比于现在的机器学习方法,EER 分别在两个数据集降低了3.61%和3.79%,在跨信道环境下有更好的识别性能。

2.3.4 实验4

选取本文模型(基于注意力机制的BiLSTM 模型)与语种识别基线系统X⁃VECTOR 以及其他现有语种识别方法进行对比,实验结果如表6所示。

表6 不同语种识别方法对照实验结果

从表6可看出,通过对比本文模型实现的识别结果与AP19⁃OLR 和AP20⁃OLR 两个基线系统中的识别结果可知,本文采用的基于注意力机制的BiLSTM 方法要优于I⁃VECTOR,X⁃VECTOR 基线系统提供方法的识别结果;EER 分别降低了3.44%和5.66%,说明本文基于注意力机制的BiLSTM 可以很好地提升跨信道环境下的语种识别性能。

3 结 语

本文构建了一种基于注意力机制的BiLSTM 跨信道语种识别方法,与传统机器学习方法和基线系统进行对比,在两个数据集上进行实验。实验结果表明,跨信道环境下最有效的语音特征是FBANK,表现最好的模型是本文基于注意力机制的BiLSTM 方法。实验提取跨信道语音数据的有效特征,将其送入模型训练学习,最终分类输出语言类别。实验结果表明,本文提出的方法在跨信道环境下的语种识别上取得了较好的结果。但是本文涉及的语种场景较少,语料数据也比较少,在接下来的工作中,将会继续在较大语料以及更有负载的信道上进行语种识别的探索,进一步开展相关研究。

注:本文通讯作者为米吉提·阿不里米提。

猜你喜欢
语种信道注意力
让注意力“飞”回来
《波斯语课》:两个人的小语种
“一带一路”背景下我国的外语语种规划
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
基于导频的OFDM信道估计技术
一种改进的基于DFT-MMSE的信道估计方法
基于MED信道选择和虚拟嵌入块的YASS改进算法
一种基于GPU的数字信道化处理方法
走出报考小语种专业的两大误区