摘要:与其他语种的方言相比,中文方言种类较多,且方言类间差异小,类内差异大,因此中文方言识别极具挑战性。考虑到中文方言间的差异性可能体现在语音的局部(短时)特性上,也可能体现在语音的全局(长时)特性上,同时还可能反映在语音不同层级的特性上,本文提出一种融合语音局部和全局特征提取以及多级特征聚合的中文方言识别模型。首先通过Res2Block 提取语音的局部特征,然后利用Conformer 提取语音的全局特征,最后通过将多个Conformer 级联输出进行多层级特征的聚合。跨域和非跨域的实验结果表明,该模型取得了比基线模型更高的识别准确率。
关键词:Conformer;方言识别;多层级特征聚合;Res2Block;注意力统计池化
中图分类号:TP391 文献标志码:A
方言是语言的地方变体,中文方言隶属于汉藏语系,有着广泛的地理分布[1-2]。由于历史上汉族社会不断地分化和融合,演化出纷繁复杂的中文方言[3-4]。中文方言识别(Dialect Identification, DID) 存在两个主要的难点:一方面由于中文方言具有共同的起源[5],并且经常互相借用词汇[6],因此不同方言具有相似的音韵规则[7-8],而同种方言则存在多种变体[9],这使得中文方言类间差异小,类内差异大,给方言识别造成了很大的难度;另一方面,由于训练语料和实际语料的采集所使用的设备和所处的环境有所不同,两者的数据分布差异明显,从而导致在域内测试集上性能很好的DID 模型在实际应用场景中性能却急剧下降[10]。
不同中文方言的差异性可能体现在单字的声调、语速,以及语法结构等方面。其中单字声调的持续时间较短,属于局部特征(或短时特征),语速和语法结构反映在较长的时间范围内,属于全局特征(或长时特征)。例如,由于闽南语和粤语分别具有7 个和6 个单字声调[11],而四川话则是4 个,因此这3 种方言的局部差异性明显。又如,由于与晋方言、冀鲁方言等北方方言相比,吴方言(包括上海话、苏州话,杭州话等)、闽方言等南方方言的语速更快,且吴语存在连读变调的发音特点[12],因此它们之间的差异性更多地体现在全局特性上。鉴于上述原因,要全面反映方言之间的差异性,需要同时提取语音的局部特征和全局特征。同时,为了更好地表征这些差异性可以利用深度网络提取语音的多层级特征。
近年来的主流DID 模型仅侧重于局部或全局特征的提取。在局部特征提取方面,基于时延神经网络(Time Delay Neural Network, TDNN)[13-14] 的X-vector模型采用堆叠的TDNN 模块作为特征编码器[15-16],通过时域卷积运算提取语音特征。为了增强模型对语音多尺度局部特征的表征能力,动态多尺度卷积(Dynamic Multi-scale Convolution, DMC) 模型[17]采用改进的TDNN 模块,通过具有不同内核尺寸的多个卷积层来提取多尺度局部特征。该模型在2020 年东方语种识别(Oriental Language Recognition, OLR) 竞赛[18] 的方言识别任务中取得了最好的平均代价损失(Average Cost Performance, Cavg) 和等错误率(EqualError Rate, EER)。文献[19] 采用ECAPA-TDNN[20]作为骨干网络,提出基于多尺度通道自适应时延神经网络(Multi-Scale Channel Adaptive Time-DelayNeural Network, MSCA-TDNN) 的DID 模型。其中包含的MSCA-Res2Block 模块能够提取多尺度特征,从而进一步扩大卷积运算的感受野[19], ECAPATDNN采用挤压和激励(Squeeze-and-Excitation, SE)模块来捕获更长的上下文信息[20],但SE 仅对整个序列应用全局平均,在捕获动态全局特征方面仍然受到限制[21]。在全局特征提取方面,Transformer中包含的多头注意力机制(Multi-Head Self-Attention, MHSA)已经在多种任务上证明了其强大的全局特征提取能力[22-25]。文献[26] 使用基于Transformer 的端到端模型,进行日语DID 和多方言ASR(MD-ASR)多任务学习,利用文本信息和声学特征对日语方言进行识别和分类。文献[27] 采用Speech-Transformer[28]模型中的编码器作为特征提取器,在阿拉伯方言识别任务中取得了当时最好的识别效果。
考虑到仅依靠语音局部特征或全局特征,无法全面准确地识别中文方言之间复杂的差异性,因此针对中文方言识别,本文提出了一种基于局部特征和全局特征提取、并结合多层级特征融合的DID 模型。该模型的优势主要包括: (1) 结合TDNN 和Res2Block,提取语音的时序多尺度局部特征。(2)通过引入Conformer[21] 结构,提取语音全局特征。(3)通过对多个Conformer 结构进行串联,提取和聚合多层级特征。实验结果表明,该模型取得了比基于局部特征或全局特征提取的基线模型更高的分类准确率。
1 算法描述
本文提出的基于局部和全局特征融合及多级特征聚合的中文方言识别模型如图1 所示。它包括局部特征提取、全局特征提取、多层级特征聚合和注意力统计池化4 个重要部分。
1.1 局部特征提取
考虑到方言的差异性可能体现在不同时间尺度的局部特性中, 本文采用TDNN 和残差网络(Residual Networks, ResNets)[29] 的结合,以不同时间步长提取原始语音特征中多尺度局部特征。TDNN通过引入时延神经元存储先前的输入,并将其传递到后续的时间步,从而精确提取时序特性[13]。如图2(a) 所示, Res2Block 是基于ResNets的卷积神经网络,旨在增强网络的特征提取能力。受DMC[17] 的启发,本文将Res2Block 中的3×3 卷积替换为由两个卷积分支构成的卷积模块(Conv),以捕获不同时间步长的特征。如图2(b) 所示,在该卷积模块中,一个分支采用传统卷积,而另一个分支采用扩张因子为2 的扩张卷积。Res2Block 将TDNN 输出的特征按照通道数均匀分为 个块,每个块记为xi (1 ⩽ i ⩽ s),第n个卷积模块的输入,记为inputn (2 ⩽ n ⩽ s),是xn与前一个卷积模块的输出yn-1之和。
在Conv 模块中,两个卷积分支的输出首先相加送入高阶统计池化(High-Order Statistics Pooling,HOSP)层,该层提取并连接每个通道上特征的均值、标准差、偏度和峰度。通过两个一维卷积和Softmax激活函数,获得每个通道的权重win,然后与卷积输出加权求和作为卷积模块的输出,记为yn。
其中:s1n和s2n是两个卷积分支的输出;w1n和w2n是相应的权重;⊙表示矩阵元素对应相乘。由此,Res2Block 中每个卷积模块的输出yi可以通过公式(3) 得到。
通过TDNN 和Res2Block 结构的组合,模型可以从语音信号中提取不同时间尺度上的局部特征。
1.2 全局特征提取
考虑到局部特征可以有效地表征方言之间在音高、语调等方面的短时差异性,而全局特征则可以捕获方言之间在韵律、连续变调等方面的长时差异性,本文采用Conformer 提取方言全局特征。一方面,受文献[30] 的启发,Conformer 在Transformer 的基础上引入了卷积神经网络(Convolution Neural Networks,CNN),以提取基于相对位置编码的局部信息[21];另一方面,Conformer 所包含的MHSA 模块通过计算注意力权重表征当前位置与其他位置的依赖关系,从而捕捉输入序列的长时全局相关性[21]。与Macaron-Net[31] 的结构类似,Conformer 结构(图3)中的MHSA模块和卷积模块被夹在两个前馈模块(Feed ForwardModule, FFN) 之间,比仅使用一个前馈模块显著提高了性能[21]。每个FFN 由2 个线性变换函数和1 个非线性激活函数组成。全局特征提取网络由L个Conformer 组成,对于第i个Conformer 模块的输入yi,其中间变量和输出hi可通过公式(4) 获得。
1.3 多层级特征聚合
与其他基于内容的识别任务(如语音识别、说话人识别和语种识别)相比,方言的类间差异较小,因此需要更深的神经网络结构来提取深层特征,本文采用多个Conformer 的级联结构提取语音的深层特征。然而,随着网络层数的增加,可能导致模型退化问题。考虑到残差连接可缓解模型退化的问题[32],并且低层级特征有助于更准确地表征音频的音高、语调等特性[20, 33-35],本文在Conformer 块和层归一化之间采用了如图1 所示的残差连接结构, 将每个Conformer 块的输出拼接后输入至最后的池化层。设第 个Conformer 块的输出为hi,则聚合后的特征设为H′,可由公式(5) 获得。
H′= Concate(h1,…, hL) (5)
然后,对聚合后的特征图 H'进行层归一化操作,以获得语音嵌入H。
H = LayerNorm(H′) (6)
1.4 注意力统计池化
注意力统计池化(Attentive Statistics Pooling,ASP) 是一种特征整合方法, 与统计池化(StatisticPooling, SP) 相比,ASP 引入了一种注意力机制,根据不同时间步的重要性对特征进行加权,使ASP 能够更有效地捕捉语音信号的动态特征,避免信息丢失[36]。不同通道特征的标量分数et由注意力模块产生,特征的权重由et的归一化分数αt确定,通过特征加权使模型能够在每个时间步选择性地聚焦特征,并将最相关的特征用于预测。标量分数et通过公式(7) 进行计算。
et = υT f (Wht + b)+ k (7)
其中:υ为一个可学习的参数向量;ht为时间步t的输入特征向量;非线性激活函数f (·)为tan h;W和b分别是权重矩阵和偏置。归一化分数αt是按公式(8) 对et进行归一化处理后得到的权重。
随后,通过公式(9) 对ht进行加权处理后得到均值向量^μ并通过公式(10) 获得相应的加权标准差,记为^σ。公式(8~10)中的T 为整个时间序列的长度。
之后,^μ和^σ通过全连接层映射到注意力向量作为ASP 的输出。
2 实验结果
2.1 数据集及实验设置
为了测试本文的DID 模型在域内和跨域场景中的性能,本文基于多个数据集构建了训练集、可见域测试集和未见域测试集。如表1 所示,数据来源包括Datatang、Aishell2、Aishu、THCHS30、ST-CDMS和OLR[18]。由于Datatang、Aishu 和OLR 数据集所共有的方言种类分别为闽南话(Hokkien) 、上海话(Shanghainese)和四川话(Sichuanese),因此本文在实验中对普通话(Mandarin)和上述3 种方言进行了分类。
实验采用的基线模型分别是基于全局特征提取的Transformer[27]、基于局部特征提取的DMC[17],以及使用CNN 增强全局特征提取的Conformer[21]。各基线模型的参数设置如下:(1)在Transformer[27] 模型中,编码器数量和每个编码器中注意力模块的注意力头的数量参照原文的设置,分别为4 和8;每个编码器的位置感知前馈网络的输出维度分别为512 和2 048。(2)本文基于PyTorch 重新实现了DMC[17],所有设置与原论文保持一致。(3)为了获得最佳性能,Conformer[21] 模型输入的下采样率设置为1/4,Conformer 块的数量为9。(4)本文模型,在Res2Block模块中,输入特征被分为8 个块,级联的Conformer块数L=9。上述所有模型都以80 维的Mel 频谱图作为输入,窗长为25 ms,帧移为10 ms。特征提取模块的输出首先映射到一个256 维的固定长度向量。然后,将该向量映射到类别数量,并使用交叉熵损失1 1063 104进行训练。训练过程采用了OneCycleLR学习率调度技术, 初始学习率为 , 最大学习率设置为。
2.2 与基线模型的性能比较
本模型和基线模型在可见域和未见域的二分类和四分类准确率结果如表2 所示。
在四分类任务上,本文的模型在可见域和未见域的分类准确率优于所有3 个基线模型;在二分类任务上,Conformer[21] 在可见域取得了最好的效果。本文的模型在可见域场景的性能略低于基线模型,可能的原因是,综合局部与全局特征提取可以使得模型学习到尽量少的域相关信息,在可见域减小了过拟合,与Conformer[21] 模型相比,TDNN 和Res2Block的结合有助于更精确地提取局部特征,此外,多层级特征聚合机制可以利用不同级别特征信息的互补,丰富语音嵌入的信息,让模型在域外有更好的泛化性。这使得本文模型在跨域场景的性能优于所有基线模型。
2.3 语音嵌入t-SNE 可视化
为了比较本文模型和基线模型在未见域上的性能,本节采用t-SNE[37] 算法将模型从未见域数据提取的方言特征向量映射到2D 空间,以评估模型对未见域方言的聚类效果,如图4 所示。可以看出,与基线模型相比,本文模型提取的方言特征向量类内距离小于基线模型,且聚类中心个数与分类数相符。因此,本文模型可以更有效地聚类相同方言的特征,在未见域实现了更好的泛化性。
2.4 消融实验结果
为了验证本文提出的模型中每个关键模块(TDNN 和Res2Block、多层级特征聚合和ASP)的有效性,将本文模型移除任一关键模块后与原模型的跨域分类准确率进行对比,结果如表3 所示。可以看出,移除任何一个关键模块都会导致模型性能下降。因此,每个关键模块对本文模型的性能提升均有所贡献,而TDNN 和Res2Block 的组合效果比其他两个模块更显著。
3 结 论
针对中文方言类间差异小、类内差异大、识别难度大的问题,本文提出了一种结合局部和全局特征提取和多层级特征聚合的方言识别模型,它通过结合TDNN 和Res2Block 提取输入语音的多尺度局部特征,并通过多个串联的Conformer 模块对多层级特征进行聚合。域内和跨域场景下的实验结果表明,本文模型取得了比基线模型更好的分类准确性和更好的泛化性。
参考文献:
[ 1 ]SAGART L, JACQUES G, LAI Y, et al. Dated languagephylogenies shed light on the ancestry of Sino-Tibetan[J].PNAS, 2019, 116(21): 10317-10322.
[ 2 ]LIU H, LIANG J, VAN HEUVEN V J, et al. Vowels andtones as acoustic cues in Chinese subregional dialect identification[J]. Speech Communication, 2020, 123: 59-69.
[ 3 ]WANG W S Y. Languages or Dialects?[M]. Hongkong,China: The Chinese University of Hong Kong Press, 1997:54-62.
[ 4 ]DEFRANCIS J. The Chinese Language: Fact andFantasy[M]. Hawaii, USA: University of Hawaii Press,1986.
[ 5 ]ZHANG M, YAN S, PAN W, et al. Phylogenetic evidencefor Sino-Tibetan origin in northern China in the Late Neolithic[J]. Nature, 2019, 569(7754): 112-115.
[ 6 ]NORMAN J. Chinese[M]. Cambridge, UK: CambridgeUniversity Press, 1988.
[ 7 ]GRAHAM T, RANDY J L. The Sino-Tibetan Languages[M]. New York: Routledge, 2003: 84-125.
[ 8 ]LIST J M. Network perspectives on Chinese dialect history:Chances and challenges[J]. Bulletin of Chinese Linguistics,2015, 8(1): 27-47.
[ 9 ]李如龙. 论汉语方言语音的演变[J]. 语言研究, 1999(1):102-113.
[10]SULLIVAN P, ELMADANY A, ABDUL-MAGEED M.On the robustness of Arabic speech dialect identification[C]//Proceedings of Interspeech. Dublin, Ireland: Interspeech,2023: 5326-5330.
[11]LI A, FANG Q, XU R, et al. A contrastive study betweenminnan-accented Chinese and standard Chinese[J]. Reportof Phonetic Research, 2005, 18: 1-7.
[12]ZHU X. A Grammar of Shanghai Wu[M]. Munich, Germany:Lincom Publishers, 2006.
[13]SUGIYAMA M, SAWAI H, WAIBEL A H. Review ofTDNN (time delay neural network) architectures for speechrecognition[C]//IEEE International Symposium on Circuitsand Systems (ISCAS). Singapore: IEEE, 1991: 582-585.
[14]YU Y Q, LI W J. Densely connected time delay neural networkfor speaker verification[C]//Proceedings of Interspeech.Shanghai, China: Interspeech, 2020: 921-925.
[15]SNYDER D, GARCIA-ROMERO D, MCCREE A, et al.Spoken language recognition using X-vectors[C]//Odyssey 2018. Les Sables d'Olonne. France: The Speaker and LanguageRecognition Workshop, 2018: 105-111.
[16]SNYDER D, GARCIA-ROMERO D, SELL G, et al. Xvectors:Robust dnn embeddings for speakerrecognition[C]//2018 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP). Calgary,AB, Canada: IEEE, 2018: 5329-5333.
[17]KONG T, YIN S, ZHANG D, et al. Dynamic multi-scaleconvolution for dialect identification[C]//Proceedings ofINTERSPEECH. Brno, Czech: Interspeech, 2021: 3261-3265.
[18]LI Z, ZHAO M, HONG Q, et al. AP20-OLR challenge:Three tasks and their baselines[C]//2020 Asia-Pacific Signaland Information Processing Association Annual Summitand Conference (APSIPA ASC). Auckland, New Zealand:IEEE, 2020: 550-555.
[19]LUO Q, ZHOU R. Multi-scale channel adaptive time-delayneural network and balanced fine-tuning for arabic dialectidentification[J]. Applied Sciences, 2023, 13(7): 4233.
[20]DESPLANQUES B, THIENPONDT J, DEMUYNCK K.Ecapa-tdnn: Emphasized channel attention, propagation andaggregation in TDNN based speaker verification[C]//Proceedingsof Interspeech. Shanghai, China: Interspeech,2020: 3830-3834.
[21]GULATI A, QIN J, CHIU C C, et al. Conformer: Convolution-augmented transformer for speech recognition[C]//Proceedingsof Interspeech. Shanghai, China: Interspeech,2020: 5036-5040.
[22]VASWANI A, SHAZEER N, PARMAR N, et al. Attentionis all you need[C]//Advances in Neural Information ProcessingSystems. Long Beach, USA: [s.n.], 2017: 30.
[23]TJANDRA A, CHOUDHURY D G, ZHANG F, et al.Improved language identification through cross-lingualself-supervised learning[C]//2022 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP).Singapore: IEEE, 2022: 6877-6881.
[24]LIU H, PERERA L P G, KHONG A W H, et al. Efficientself-supervised learning representations for spoken languageidentification[J]. IEEE Journal of Selected Topics inSignal Processing, 2022, 16(6): 1296-1307.
[25]SONG Q, SUN B, LI S. Multimodal sparse transformer networkfor audio-visual speech recognition[J]. IEEE Transactionson Neural Networks and Learning Systems, 2023, 12:10028-10038.
[26]IMAIZUMI R, MASUMURA R, SHIOTA S, et al. End-toendJapanese multi-dialect speech recognition and dialectidentification with multi-task learning[J]. APSIPA Transactionson Signal and Information Processing, 2022, 11: e4.
[27]LIN W, MADHAVI M, DAS R K, et al. Transformer-basedArabic dialect identification[C]//2020 International Confer-ence on Asian Language Processing (IALP). [s.l.]:[s.n.],2020: 192-196.
[28]ZHAO Y, LI J, WANG X, et al. The speechtransformer forlarge-scale mandarin Chinese speech recognition[C]//2019IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). Brighton, UK: IEEE, 2019:7095-7099.
[29]HE K, ZHANG X, REN S, et al. Deep residual learning forimage recognition[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. San Juan, PR,USA: IEEE, 2016: 770-778.
[30]WU Z, LIU Z, LIN J, et al. Lite transformer with long-shortrange attention[EB/OL]. (2020-04-24)[2023-12-10]. https://arxiv.org/abs/2004.11886.
[31]LU Y, LI Z, HE D, et al. Understanding and improvingtransformer from a multi-particle dynamic system point ofview[EB/OL]. (2019-6-6)[2023-12-10]. https://arxiv.org/abs/1906.02762.
[32]GAO S H, CHENG M M, ZHAO K, et al. Res2net: A newmulti-scale backbone architecture[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2019, 43(2):652-662.
[33]GAO Z, SONG Y, MCLOUGHLIN I, et al. Improving aggregationand loss function for better embedding learning inend-to-end speaker verification system[C]// Proceedings ofInterspeech. Graz, Austria: Interspeech, 2019: 361-365.
[34]TANG Y, DING G, HUANG J, et al. Deep speaker embeddinglearning with multi-level pooling for text-independentspeaker verification[C]//2019 IEEE International Conferenceon Acoustics, Speech and Signal Processing(ICASSP). Brighton, UK: IEEE, 2019: 6116-6120.
[35]ZHANG Y, LV Z, WU H, et al. Mfa-conformer: Multiscalefeature aggregation conformer for automatic speakerverification[C]//Proceedings of Interspeech. Incheon,Korea: Interspeech, 2022: 306-310.
[36]OKABE K, KOSHINAKA T, SHINODA K. Attentive statisticspooling for deep speaker embedding[C]//Proceedings ofInterspeech. Hyderabad, India: Interspeech, 2018: 2252-2256.
[37]HINTON G E, ROWEIS S. Stochastic neighbor embedding[C]//Advances in Neural Information Processing Systems.Van Couver, Canada: [s.n.], 2002: 15.
(责任编辑:刘亚萍)
基金项目: 国家自然科学基金面上项目 (61771196)