基于小波包倒谱系数和ECAPA-TDNN的调度说话人确认研究

2023-03-11 06:46张志伟杨可林冯志常王天俣
山东电力技术 2023年2期
关键词:波包小波特征提取

张志伟,杨可林,冯志常,王天俣

(国网山东省电力公司菏泽供电公司,山东 菏泽 274002)

0 引言

在电力调度通话过程中,工作指令的下达越来越规范化,身份认证是不可或缺的一环[1-2],由于调度指令下达的特殊性,远程身份认证至关重要,说话人确认就是一种合适的身份认证技术。在下达工作指令时使用说话人确认技术验证其身份,既规范操作流程,又明确相关责任。

说话人确认主要分为特征提取和说话人建模两个部分[3]。Davis 等人提出Mel 倒谱系数(Melfrequency Cepstral Coefficients,MFCC)[4]进行特征提取,然而该方法存在着抗噪性能差、不能提取声音信号深层动态信息的问题。目前很多研究致力于提高说话人确认系统的抗噪能力。Babak 等提出Mel 子带频谱减法和Mel 子带能量压缩[5]针对Mel 子带能量以及MFCC 特征的噪声进行补偿提高抗噪性。Paresh 等提出基于维纳滤波器改进的MFCC[6],该滤波器有利于在频域范围内处理语音中的噪声。Adam 等提出小波倒谱系数[7],运用小波变换进行特征提取,小波变换使用的是有限长会衰减的小波基,使噪声只能对局部信号造成影响而不会干扰整个特征提取过程。

随着深度学习的发展,基于深度学习的说话人识别对声音进行深层处理提取深层特征也带来了识别性能的提升[8]。Snyder 等人提出x-vector[9-10]将任意长度的输入转化成固定维度的说话人嵌入特征表达。目前性能优异的网络模型大多数是基于x-vector 的变体[11-13]。强调通道注意、传播和聚合的时延神经网络(Emphasized Channel Attention,Propagation and Aggregation in Time Delay Neural Network,ECAPA-TDNN)[14]也是基于x-vector 改进而来的结构,它通过引入挤压激励残差模块(Squeeze-Excitation Res2Block,SE-Res2Block)、注意力统计池化(Attentive Statistics Pooling,ASP)和多层聚合等结构改善了x-vector 帧级时间背景限制和特征层次单一的问题。

为提高说话人确认特征提取过程的抗噪性能以及深层动态信息的提取能力,提出一种基于小波包倒谱系数(Wavelet Packet Cepstral Coefficients,WPCC)和ECAPA-TDNN 的说话人确认模型,该模型在原有MFCC 的基础上将快速傅里叶变换(Fast Fourier Transform,FFT)更换为小波包分解,增加了倒谱均值方差归一化以及delta、delta-delta 系数,为ECAPA-TDNN 提供具有深层动态特征的WPCC 声学特征。该模型加强了对说话人特征的提取能力,提升了电网指令调度过程的安全性和规范化。

1 Mel倒谱系数

传统MFCC 的提取流程如图1所示,其关键部分是利用FFT 将固定语音帧由时域变换到频域。FFT通过三角函数(正弦函数或余弦函数)线性组合得到,而三角函数是全时域函数,局部信号中的噪声会对整个声音信号的特征提取造成影响,导致在MFCC提取过程中容易受到噪声的干扰。

图1 MFCC特征提取

同时由于FFT 计算过程中其窗函数固定,该方法无法对声音信号进行深层频率分析,导致其提取的特征向量仅包含该语音帧的静态信息和浅层信息,不能凸显相邻语音帧之间的动态关系以及声音信号中的深层特征。

2 小波包倒谱系数

为了提高特征提取过程的抗噪性、稳健性以及充分挖掘声音信号中的动态信息和深层特征,提出小波包倒谱系数进行特征提取,其流程如图2 所示,主要改进策略是用小波包分解代替FFT 进行特征变换,对经过倒谱计算后的声学特征进行倒谱均值方差归一化(Cepstral Mean and Variance Normalization,CMVN)[15]以及通过计算delta 和delta-delta 系数获取相邻语音帧之间的动态关系。

图2 WPCC特征提取

小波包分解流程如图3 所示,它是一种局部分析工具,受到噪声干扰后不会影响整个频谱变换过程,仅对局部提取造成影响,且信号被多层分解,这使WPCC 能提取更加深层的特征。CMVN 通过计算补偿的倒谱系数,将倒谱系数限定在固定范围内,来消除异常样本数据导致的不良影响,保证特征向量的稳健性。delta 和delta-delta 系数包含了邻近语音帧之间的交互关系,在获取说话人的风格、停顿和持续时间等信息中发挥着重要作用。

图3 小波包分解

2.1 数据预处理

数据预处理可以分为数据预加重、分帧两个部分。由于声音信号的功率随频率升高而降低,故其大部分能量集中在低频信号中,在通过滤波器时,高频信号发生的衰减更加严重。为减少高频部分的信息衰减,采用预加重对高频分量进行补偿,如式(1)所示。

式中:a为预加重系数,本文取a=0.98;n为声音信号中采样点的序号;s(n)和s(n-1)为原始信号;s′(n)为预加重之后的信号。分帧将声音信号分为每帧20 ms 的长度,同时也设定10 ms 的重叠帧,保证每一帧都尽量的平稳。

2.2 小波包分解

小波包分解由一对递归的带通滤波器实现,令输入的声音信号x(n)=(n);j为小波包分解的分解层数,其公式如式(2)所示。

式中:k为小波函数的位置参数;h(·)和g(·)分别为高通滤波器和低通滤波器(·)是经过j层小波包分解得到的第p个子带分量是(·)的高频部分是的低频部分。

2.3 倒谱计算

由于经过倒谱分析后的参数包含更多的说话人信息,具有更好的代表性,对语音信号进行倒谱计算后将得到其倒谱系数。

设wi(z)为长度为Z的子带分量,z为wi的位置数,对其进行对数计算得到对数谱为

将对数谱进行离散余弦变换,得到w i的第l个倒谱系数为

2.4 倒谱均值方差归一化

首先根据计算得到的倒谱系数计算所有倒谱系数的均值和方差,设声音信号的总帧数为T,声音信号第t帧的倒谱系数向量为ct。均值以及方差分别如式(5)和式(6)所示。

则每一帧的补偿倒谱系数向量为

2.5 delta/delta-delta系数

经过倒谱均值方差归一化后共生成16 组倒谱系数,再对16 组倒谱系数计算delta 系数和deltadelta系数。

delta系数计算公式为

式中:q 表示dt计算时包含周围t+q和t-q位置的倒谱系数;Q为q的上限值,且本文取Q=2。

将计算得到的倒谱系数、delta 和delta-delta 系数拼接在一起得到最终的WPCC特征。

2 ECAPA-TDNN

目前应用广泛的说话人建模方法是基于时延神经网络(Time Delay Neural Network,TDNN)[16]的x-vector,该方法仅处理了最后一个帧级提取器中的特征,且对所有帧级特征的重视程度相同。为提高帧级特征的利用率,突出区分度强的深层动态特征,将ECAPA-TDNN 的输入MFCC 更换为包含深层动态特征的WPCC。

ECAPA-TDNN 的结构如图4 所示,图中Conv1D为一维卷积运算;ReLU 为非线性激活函数;BN 为批归一化;FC 为全连接层。该模型运用SE-Res2Block增强了帧级特征的提取能力,并构建了一个多层次的剩余连接,通过多层特征聚合提高了深层特征的表达能力。

图4 ECAPA-TDNN 结构

SE-Res2Block模块如图5所示,该结构将残差结构[17]与挤压激励模块(Squeeze and Excitation Block,SE-Block)[18]相互结合,通过在帧级层之间添加残差连接来增强说话人嵌入特征。该结构被用于建模通道间的互相依赖关系,并构建了分层剩余连接来处理多尺度特征。SE-Block 根据全局声音属性重新缩放每个通道的时间上下文限制的帧级特征。

图5 SE-Res2Block模块

ECAPA-TDNN 使用多层特征聚合,将最终的帧级特征与通过SE-Res2Block 计算得到的前两层帧级特征融合起来,为统计池化层提供多层次的特征信息。然后通过注意力统计池化层的处理,将每一个帧级特征的重要性赋予其不同的权重,把网络的注意力集中在具有代表性的帧级特征中,并将帧级特征聚合成段级特征。最后利用全连接层将段级特征映射为512维的说话人嵌入。

3 实验设置

3.1 数据集

实验采用TIMIT数据集[19]进行训练和测试,该数据集由630 名说话人构成,每个说话人提供10 条语音。训练集包括6 100条语音,这些语音被用于模型参数训练。测试集由200 条语音随机生成13 191对语音组成,用于说话人确认性能评估。

为测试模型的抗噪性能,在语音样本中加入信噪比(Signal-Noise Ratio,SNR)分别为30 dB、20 dB和10 dB 的高斯白噪声来模拟噪声环境,信噪比越小代表信号中的噪音成分越大,识别难度越高。

3.2 实验参数

为获得更好的性能,在训练阶段均采用AAMSoftmax[20]损失函数(m被设置为0.20,s被设置为30)进行迭代训练。在测试阶段,余弦距离被用来衡量两个嵌入特征的相似度。实验采用等错误率(Equal Error Rate,EER)来评估模型性能。

4 实验分析

4.1 不同提取方法对比

使用MFCC+x-vector、WPCC+x-vector、MFCC+ECAPA-TDNN 和WPCC+ECAPA-TDNN 在干净条件下进行对比实验,其中WPCC 使用消失距为26 的Daubechies 小波进行训练和测试,实验结果如表1所示。

分析表1的结果,发现本文提出的基于WPCC和ECAPA-TDNN 模型EER 最低,该模型相较于传统的MFCC 与x-vector 模型提升巨大。本文构建的WPCC无论结合ECAPA-TDNN还是x-vector性能都有增强。使用ECAPA-TDNN 说话人建模时,WPCC 相较于MFCC 提升接近26%,使用传统的x-vector 时提升更大,达到51%。小波包分解通过多尺度变换和delta、delta-delta 系数提取了原始音频中的深层特征和动态信息,使倒谱系数拥有了更好的表征能力。

表1 不同模型性能对比 单位:%

图6 是4 种不同模型分别在干净、30 dB、20 dB和10 dB 条件下的实验结果。分析图6 可知,随着信噪比的降低,4 种模型的识别性能都有所降低,这说明噪声是一个极大影响识别性能的因素;使用WPCC 的模型性能在不同信噪比条件下均优于MFCC,这是由于WPCC 使用小波包分解获得一组独立频谱,抑制了声音信号中的噪声表达,且小波包分解比FFT具有更丰富的时频分辨率。

图6 不同信噪比条件下模型结果

4.2 小波基函数及其消失矩

小波基函数是WPCC 的一个关键问题,合适的小波基函数可以提高WPCC 的性能。这一部分旨在评估不同小波基函数和消失距在不同信噪比条件下的性能表现。考虑Daubechies 小波和Symlets 小波,实验中分别用DbN和SymN表示Daubechies 小波和Symlets小波,其中N是消失距大小。

图7 和图8 分别是本文模型使用Daubechies 小波和Symlets 小波在不同消失距和信噪比条件下的实验结果。通过比较这两张图发现,当信噪比为10时,系统性能最差,除了Db26 以外的所有EER 都大于5%。Db26 在信噪比为10 dB 和30 dB 时,性能最优,EER分别为1.20%和4.80%。而在信噪比为20 dB的条件下,Db26 的EER 相较于Db14 升高了8.25%。Symlets 小波在信噪比为30 dB、20 dB 和10 dB 条件下得最优结果分别为1.37%、2.40%和5.66%,消失距均为20。

图7 Daubechies小波不同信噪比实验

图8 Symlets小波不同信噪比实验

这些结果表明消失距和支撑度的大小是影响小波包倒谱系统性能的两个关键因素,提升小波的消失距对提高模型性能有一定的帮助,当增大小波的消失距时,支持度增大,小波基函数变得平滑,从而可以更好逼近声音信号。但从图7 可以观察到消失距并不完全与性能呈正相关趋势,Db32 在三种信噪比条件下的EER 均高于Db26,当小波基函数的消失距和支撑度增大到一定程度时,小波基函数会过于平滑,将丢失声音信号中的细节特征,不利于特征表达。所以须在消失距和支撑度大小之间达到平衡。从上述结果表明,Db26 是WPCC 中综合性能最优的小波基函数。

5 结语

提出一种基于WPCC和ECAPA-TDNN的说话人确认模型,并使用TIMIT 数据集训练和测试。实验结果表明,该模型性能比传统的MFCC 和x-vector 模型提升明显,WPCC特征提取方式相较于MFCC 方式抗噪性能和泛化能力也更好,在不同信噪比条件下均有增强。同时也研究了不同小波基函数和消失距对识别性能的影响,发现消失距为26 的Daubechies小波是WPCC 中综合性能最优的小波基函数。该研究成果将极大地提高说话人确认技术在电力调度通话过程中的应用,促进指令调度流程的规范化和智能化。

猜你喜欢
波包小波特征提取
构造Daubechies小波的一些注记
基于支持向量机和小波包变换的EOG信号睡眠分期
基于MATLAB的小波降噪研究
基于小波包Tsallis熵和RVM的模拟电路故障诊断
基于Daubechies(dbN)的飞行器音频特征提取
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
Bagging RCSP脑电特征提取算法
基于小波包变换的电力系统谐波分析
基于MED和循环域解调的多故障特征提取
基于FPGA小波变换核的设计