正交约束型SincNet可微分前端及在音频分类中的应用*

2022-09-05 12:24张雄伟
网络安全与数据管理 2022年8期
关键词:微分滤波器音频

刘 伟,孙 蒙,张 玥,张雄伟

(中国人民解放军陆军工程大学,江苏 南京 210007)

0 引言

音频分类是计算机自动实施听觉感知和理解的重要步骤,也是一项非常具有挑战性的任务,如自动音乐标记、音乐类型分类、说话人识别、音频场景分类和多媒体检索等。深度神经网络的发展使得音频分类任务的准确率取得了显著提升。当前,深度神经网络一般是建立在对输入音频提取时频特征等预处理的基础上,如首先通过广泛使用的梅尔滤波器组提取时频谱图特征,然后将时频谱图特征输入到各种后端分类网络。

特征提取的预处理过程通常采用固定的时频参数和滤波器类型,难以保证对所有的后端分类网络结构持续提取出最优特征。此外,这些预处理过程一般需要线下完成,不能无缝对接到神经网络分类器中,因此难以适用于一些需要对声音波形进行反向求导的任务,如求解对抗样本[1]等。这些局限性推动了研究者们寻求构建端到端模型来完成音频分类任务。所谓端到端的分类网络结构是指直接输入声音波形,然后输出类别标签,而无须用户通过额外的特征提取工具来提取特征。例如,Dai等提出了具有不同网络结构和不同数量参数的端到端卷积神经网络(Convolutional Neural Network,CNN)用于音频分类[2]。Tokozume等提出了一种含有8层网络并以原始波形为输入的端到端网络结构,通过调节超参数并选择适当大小的卷积核来提高分类性能[3]。 此外,还有端到端的CNN架构AclNet[4],受到MobileNet[5]的启发,其计算仅需155k参数和每秒4 930万次乘法加法即可高效完成分类任务。

当前的端到端模型中,大部分前端特征提取模块仅能适用于特定的后端分类网络,即前端和后端存在过度的耦合性。这种过耦合性源于可微分的前端需要根据后端分类网络的学习情况调整参数。现有的可微分前端主要使用标准的卷积层作为提取特征的前端,需要调整超参数以保证学习的过程中和后端分类网络的学习程度一致,如果前端的结构和超参数选择不合适,容易出现前端的欠拟合或者过拟合情况,使其缺乏鲁棒性,同时也缺乏直观的物理意义。因此,当把可微分前端的后端分类网络替换成另外一个模型时,性能会有很大的起伏。本文尝试对可微分前端引入滤波器形状、正交性等约束,提高前端特征提取模块对各种类型后端分类网络的适配能力。

最近提出的SincNet的第一层卷积是一个能兼顾分类性能和滤波器可解释性的可微分前端[6],在说话人识别和欺骗语音检测[7]中取得了成功的尝试。SincNet第一个卷积层对原始波形进行操作,并包含一组以Sinc函数形式实施参数化的带通滤波器。SincNet把滤波器的截止频率作为可调节的参数,相对于固定参数的梅尔滤波器取得进步,但是其参数的灵活调节却使得其容易收敛到较差的局部最优解。文献[8]仅采用了SincNet的结构和初始化参数,但未对其参数进行迭代优化。因此,如何改进Sinc-Net的构造,使后端分类网络既能充分利用其设计灵活性又便于优化求解,成为本文的研究动机之一。

本文以SincNet可微分前端为基础,引入正交约束提高求解效率,提高所得可微分前端可解释性,并同时提高多种后端网络的分类性能。新型可微分前端命名为正交约束型SincNet(OrthSincNet),它使用一组实现带通滤波器的Sinc函数,以梅尔滤波器的结构初始化卷积核,通过矩阵的正交性质约束卷积核的正交学习过程,从而减少滤波器之间的相关性。OrthSincNet的频谱既具有类似于梅尔滤波器的形态,又可根据实际分类任务来细微调整其滤波器参数,提高分类效果。为评价所提方法的性能,本文将在音频场景分类数据集UrbanSound8k上结合6种有代表性的分类网络进行实施验证和分析。

1 OrthSinc Net可微分前端

1.1 Sinc Net可微分前端

在基于波形输入的端到端神经网络模型中,最重要的结构之一是用于提取特征的前端结构,其不仅需要处理波形采样的高维输入,且更容易受到梯度消失问题的影响,尤其当网络层数较多的时候。第一层结构因最先学习到有价值信息,提取特征的好坏直接影响模型的性能。使用CNN作为提取特征的第一层网络时,滤波器通常会呈现嘈杂且不协调的多波段形状,尤其在训练样本很少的情况下,基本不具备物理意义上的可解释性。由于只是普通的卷积结构,缺少有效的约束,不能像传统梅尔滤波器那样有效地提取声音不同频率的能量分布,从而导致整体分类任务性能的低效。

为了使CNN的输入层成为更有物理意义的滤波器,SincNet对其形状添加一些约束。标准CNN的滤波器组的功能取决于多个参数,其中滤波器向量的每个元素都可以直接学习。与标准CNN相比,SincNet改进了标准的CNN滤波器。通过一组实现带通滤波器参数化的Sinc函数初始化卷积核,使网络聚焦于对滤波器的最终形状和带宽有广泛影响的少量可调参数的调节过程。

标准CNN的第一层在输入波形和一些有限脉冲响应(FIR)滤波器之间执行一组时域卷积[9]。每个卷积定义如下:

其中,x(n)是输入的语音信号,h(n)是长度为L的滤波器,y(n)是卷积滤波后的输出。在标准CNN中,每个过滤器的所有L个元素都是从数据中学习的。SincNet用一个特别设计的预先定义形态的函数g(·)代替式(1)中的h(n),使卷积核成为具有良好频率响应特征的滤波器,如下所示:

其中,g(·)使用由矩形带通滤波器组成的滤波器组,其每个频带f的频率响应函数设计为两个低通滤波器之间的差值:

其中,f1和f2是可学习的初始低截止频率和高截止频率数值,而rect(·)是矩形频率响应函数。用傅里叶逆变换[9]返回时域后,可得函数g(·):

为了确保单调性f1≥0和f2≥f1,式(3)和式(4)中的截止频率可采用以下形式:

实际上,理想带通滤波器是通带完全平坦且阻带衰减无限的滤波器。因此,g(·)的任何截断都不可避免地产生理想滤波器的近似值,缓解这个问题的一个解决方案是施加短时窗[9]。短时窗是通过将函数g(·)乘以窗函数来实现的,其目的是平滑g(·)末端的突变:

因此,在SincNet的设计中,使用gω(·)完成对特征提取卷积层的建模。通过估计参数f1和f2在各频带响应上作调整,拟合后端模型、训练数据和训练任务,提高固定滤波器组的学习能力,从而实现端到端的网络构造。

1.2 正交约束型Sinc Net

本文以SincNet可微分前端为基础,提出一种使用初始化的滤波器,将描述滤波器的整个卷积核作为学习的参数,通过卷积正交正则化约束学习过程的新型可微分前端OrthSincNet。相对于SincNet,整个滤波器卷积核的学习可提高模型的表示能力。

本文提出在训练期间使用正则化对卷积层进行正交性约束,使得各滤波器尽可能聚焦不同的频率成分,减少冗余。因此,模型容量得到了更好的利用,提高了特征表达能力和后端任务的性能。具体操作过程中,为了实现对卷积核的约束,本文把卷积视为一种矩阵向量乘法[10],其中矩阵K由核K生成,如图1所示,其中,核K在本文提出的可微分前端中是第一层卷积的核,表示滤波器组。接下来,将卷积正交正则化项添加到提取特征的第一层卷积中即可。

图1 基于Doubly Block-Toeplitz(DBT)矩阵的卷积

将卷积视为矩阵的乘法运算的具体过程如下:卷积层的输入张量为X∈RC×H×W,核为K∈RM×C×k×k,卷积的输出张量表示为Y=Conv(K,X),其中Y∈RM×H′×W′。如果将K看作M个不同的过滤器,{Ki∈RM×C×k×k},由于卷积是线性的,可以用矩阵向量的形式将Conv(K,X)转化为:

其中,x是X展平后的向量,K的每一行都有对应于特定空间位置的特定过滤器Ki的非零元素。因此,K可以从核张量K∈RM×C×k×k构造为Doubly Block-Toeplitz(DBT)矩阵K∈R(MH′W′)×(CHW)。对应到图1中K,其大小为(M×2×2)×(C×3×3)。

如上所述,理论上实现了DBT矩阵K可以对其直接强制执行正交性条件。然而,由于K是高度结构化和稀疏的,可以使用一种更有效的正交计算方法,如下所述。

对于本文使用的卷积核K展开的矩阵K形状是MH′W′<CHW,需要矩阵的行正交减少滤波器的相关性。K的每一行对应于特定空间位置(h′,w′)处的滤波器Ki,该滤波器被展平为向量,表示为Kih′w′∈RCHW。理论上各行向量之间内积为0则是正交矩阵,所以DBT矩阵K行正交的条件如式(9)所示:

对于具有核大小k和步长S的卷积,文献[11]推理出了一个与式(9)等价且更方便计算的条件,通过填充的标准卷积检验正交性,如式(10)所示:

本文使用Mel滤波器组的截止频率初始化卷积核,实际使用的卷积核大小为K∈RN×1×L,其中N代表Mel滤波器的个数,L代表窗长。卷积的步长代替了手工提取声谱的帧移。如果不增加正交约束,初始化好的滤波器会在学习的过程中存在很高的耦合性,相互之间产生影响,对可微分前端参数的变化缺乏控制。理想的情况是滤波器之间互不影响,可以将初始化的卷积核带入式(10),通过正交实现对可学习滤波器的约束,减小相关性。

根据上述理论,最终卷积正交正则化损失函数是:

最终损失上增加了一个额外的软卷积正交正则化损失,从而可以同时实现任务目标和正交正则化。将λ>0表示为正交正则化损失的权重,分类任务的损失函数使用交叉熵损失函数LCE,最终损失函数为:

2 后端分类深度网络

本文采用6种经典的分类网络结构作为后端分类器,检验第1节所提出的新型可微分前端的效果。

2.1 LeNet深度网络

LeNet[12]是最早提出的卷积神经网络结构之一。LeNet通过巧妙的设计,利用卷积、参数共享、池化等操作提取特征,避免了大量的计算成本,最后再使用全连接神经网络进行分类识别。

2.2 AlexNet深度网络

AlexNet[13]是较为常用的CNN模型。AlexNet加深了LeNet的卷积层数;用ReLU代替了传统的tanh或sigmoid激活函数;参考了生物学上神经网络的侧抑制的功能,做了邻近数据归一化,提高了模型的泛化能力;重叠池化减少了系统的过拟合。

2.3 VGG深度网络

VGG[14]是一种结构非常简洁的神经网络,整个网络都使用了同样大小的卷积核尺寸(3×3)和最大池化尺寸(2×2),相对于AlexNet采用连续的几个3×3的卷积核代替7×7的卷积核,加深了网络的结构,减少了卷积的参数量,提升了网络的性能。但是,网络中使用了三层全连接层,整个结构需要消耗的计算资源并没有减少。

2.4 MobileNetV3深度网络

MobileNetV3[11]是神经架构搜索得到的模型,是一种轻量化的结构。它继承了之前版本的所有特点:深度可分离卷积,具有线性瓶颈的倒残差结构,基于挤压与激励结构的轻量级注意力。MobileNetV3在图像分类和语义分割任务中都取得了比前两个版本更快的运算速度。

2.5 SEResNeXt深度网络

残差结构的提出使得卷积神经网络梯度消失和梯度爆炸的问题得到了有效的解决,SEResNeXt[15]在ResNet[16]的基础上,提出了聚合变换,用一种平行堆叠相同拓扑结构的残差块代替原来ResNet的三层卷积的残差块,在不明显增加参数量级的情况下提升了模型的准确率。同时,由于拓扑结构相同,超参数减少,便于模型移植。将通道注意力机制SENet引入了模型,增加了更多的非线性,对于通道的复杂性有了更好的拟合。

2.6 AASIST深度网络

AASIST[17]是卷积神经网络和图神经网络的结合。卷积使用基于RawNet2[18]的编码器,用于将提取的具有声学意义的特征变换成更高级特征图。图神经网络包括图注意力机制和图池化层,以高维的向量为节点,利用对不同节点之间的非欧几里德数据流形进行建模。图注意力机制是将图中节点都连通,无法预先确定哪个节点对分类任务具有相关性,通过数据驱动用自注意力导出各边的权重,确定出对分类任务有用的节点。AASIST同时建模频域和时域子图,提高了网络分类能力。

3 实验与结果分析

3.1 语料库

UrbanSound8k数据集包含8 732个样本(单声道和立体声),分为10个类别:“空调”(air conditioner)、“汽车喇叭”(car horn)、“儿童玩耍”(children playing)、“狗叫”(dog bark)、“钻井”(drilling)、“发动机怠速”(engine idling)、“枪声”(gun shot)、“手提钻”(jackhammer)、“警笛”(siren)和“街头音乐”(street music)[18]。就每种类别的总录音长度而言,各类别并不均衡。每个音频的长度也不一样,最长可达4秒,采样率也从16 kHz到48 kHz不等。数据集的作者将数据集分成了10份,本文使用官方的分割方式分配训练集、测试集,使用10折交叉验证,选取9份样本为训练集,1份样本为测试集,重复10次交叉验证,确保每一份都能遍历一次测试集,测试结果取10次的平均值,将以便于结果复现和对比。

3.2 模型训练

本文使用随机梯度下降算法SGD[19]训练模型。初始学习率为0.02,每过10轮学习率变成原来的1/10,每个批次载入16个样本。在训练的过程中,在数据中添加随机高斯噪声,增加模型的鲁棒性防止过拟合。测试和验证集的处理过程不添加噪声。

本文使用Librosa 0.7.2库将音频样本标准化为44.1 kHz的采样率[20],根据本文提出的可微分前端使用的是梅尔滤波器作为初始化。本文的第一层卷积近似于使用梅尔滤波器组提取特征,等价于使用2 048个采样点的窗口长度,128个采样点的帧移大小。

3.3 实验结果及分析

为了验证提出的可微分前端的性能,本文将OrthSincNet和第2节中的后端分类模型分别组合在UrbanSound8k数据集上训练、测试。为了对比效果,使用常用的传统特征——梅尔谱图代替OrthSincNet分别在后端分类模型上训练和测试。

本文采用官方分割的训练-测试集配置[18]。表1是在测试集上的结果,对比了本文提出的可微分模型提取的特征和梅尔声谱特征在各个模型上的效果,所有的模型都是在3.2节的训练模式下进行的。

表1 不同前端的分类效果对比图(准确率/%)

表1中“SincNet”表示SincNet可微分前端[6],而“OrthSincNet”表示所提OrthSincNet可微分前端。可以观察到OrthSincNet可微分前端在经典的分类网络中的分类准确率比传统的手工特征梅尔谱更高。本文提出的OrthSincNet和AASIST组合的端到端模型,相对端到端基线模型EnvNet-v2[8],分类准确率由78%提高到了81.45%。

部分文献也在UrbanSound8k数据集验证了他们提出的分类模型,例如文献[21]取得了88.02%的准确率,文献[22]取得了93%的准确率,文献[23]端到端模型取得了89%的准确率。虽然相比于基线模型取得了更高的准确率,但是这些模型没有使用官方的数据分割方式,在分类准确率的数值上和本文实验的结果无法进行公平比较。

为了直观地观察到OrthSincNet前端的滤波器学习到的内容,本文将OrthSincNet和AASIST联合训练得到的训练好的前端可视化,对比了梅尔滤波器组和OrthSincNet前端滤波器组的形状,如图2所示。对比发现OrthSincNet滤波器组保证了具有梅尔滤波器的特性,保证了滤波器的基本物理意义,同时可以根据后端模型进行细微的调整,使学习到的特征是和后端分类网络最匹配的特征。对比图2两个滤波器,相对于梅尔滤波器组,OrthSincNet保留了更多高频的信息。人的发声有效信息主要集中在低频部分,高频部分也存在一些对分类有用的特征信息,所以音频场景分类任务中,取得了比梅尔谱更好的效果。

图3是由OrthSincNet和AASIST联合训练得到的模型分类结果,可以发现“街头音乐”和“儿童玩耍”两个类别互相误识别的较多。原因在于“街头音乐”音频中有人的笑声,“儿童玩耍”中有背景音乐。在声学特征上,这两类音频存在较大的相似性,增加了识别的难度。对于具有相似度的音频进行分类,是将来研究的重点。

图3 OrthSincNet和AASIST分类结果的混淆矩阵

4 结论

针对现有的可微分前端对后端网络的耦合性强和迁移性弱,标准的CNN卷积缺乏约束以及传统特征难以保证适配后端分类器等难点,本文提出了新型的可微分前端,使用实现带通滤波器的Sinc函数,通过卷积波形来初始化卷积核,进而采用卷积正交正则化的方式,约束滤波器的学习过程。在将OrthSincNet前端代替梅尔谱应用到6个经典分类网络中,验证了本文提出的可微分前端比梅尔谱有更强的表征能力,并且具有较好的可解释性。

猜你喜欢
微分滤波器音频
与由分数阶Laplace算子生成的热半群相关的微分变换算子的有界性
一类带有Slit-strips型积分边值条件的分数阶微分方程及微分包含解的存在性
从滤波器理解卷积
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
开关电源EMI滤波器的应用方法探讨
一种微带交指滤波器的仿真
基于跟踪微分器的高超声速飞行器减步控制
音频分析仪中低失真音频信号的发生方法
基于微分对策理论的两车碰撞问题