基于对角双谱系数的录音回放攻击检测*

2021-05-08 06:10俞一彪
通信技术 2021年4期
关键词:对角信道频段

陈 敏,俞一彪

(苏州大学,江苏 苏州 215006)

0 引言

随着技术的发展,说话者确认(Automatic Speaker Verification,ASV)技术的研究已经获得了很大进步,并已应用于许多需要身份认证的领域[1]。但是,ASV系统在实际应用中极易受到欺骗攻击而严重威胁系统的安全性[2]。一般来说,对ASV系统的攻击方式主要有语音模仿[3]、语音合成[4]、语音转换[5]和录音回放[6]等。其中,录音回放攻击是指攻击者通过录音设备录制合法用户的语音,或者通过其他手段获得合法用户的语音样本,然后在ASV系统的输入端回放录音来实施对ASV系统的攻击。录音回放攻击因其具有很强的欺骗性且简单易实现,对ASV系统造成的威胁最大[7]。因此,如何检测录音回放攻击对保证ASV系统的安全性十分重要。

近年来,针对录音回放攻击检测研究,研究人员做了大量有意义的工作,其中很重要的一个方面是提出了一些有效的特征参数来提高检测率。文献[8]提出了基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)的统计特征,并利用多种分类方法进行录音回放攻击检测。陈亚楠等人通过对原始语音和回放语音在固定频率范围上信息量的分布特点的研究,提出了一种基于低频区信息量分布的回放语音检测方法[9]。在文献[10]中,作者探索用来自语音高频区域的信息来识别回放样本。文献[11]利用逆梅尔频率倒谱系数(Inverted Mel-Frequency Cepstral Coefficient,IMFCC)特征提取高频区域信息,并在纯净语音条件下对数据集进行了验证。文献[12]提出了CQCC特征,主要特点是在高频段有较好的时间分辨率,在低频段有较好的频率分辨率,能够较好地表征真实语音和回放语音的差异信息。文献[13]研究了不同频带下多种特征对录音回放检测的作用,保留语音信号6~8 kHz的高频部分,提取CQCC等特征,使用GMM模型完成录音回放检测。文献[14]对语音提取平均频谱位图,通过预选距离判断当前语音是否为录音回放语音。文献[15]通过分析真实语音和录音回放语音的差异,提出了基于线性预测残差方法的特征来检测录音回放攻击。文献[16]将TECC特征用于录音回放攻击检测。此外,Jelil等人提出了新的源特征用于检测录音回放攻击语音,即线性预测残差的希尔伯特包络线的峰值旁瓣值比[17]。以上方法虽然分析了真实语音和回放语音的差异,但是并未考虑到不同设备的质量差异对检测结果的影响。

文献[18]对录音和播放设备得到的语音传输期间的频谱包络变化进行建模,用于回放检测。文献[19]提出了一种基于信道模式噪声的录音攻击检测方法,根据原始语音和录音回放语音信道的差异,针对不同信道中的录音和回放设备引入不同的信道模式噪声,采用滤波器和分析统计帧的方法提取信道模式噪声,并使用SVM模型进行正常语音和回放语音的分类。文献[20]考虑不同环境和设备对实验结果的影响,使用MFCC、IMFCC和CQCC作为特征,并使用高斯混合模型(Gaussian Mixture Model,GMM)、深度神经网络(Deep Neural Network,DNN)作为分类器,进行了更加细致的分析和检测。以上方法虽考虑了不同设备和环境对实验结果的影响,并能在一定程度上实现录音回放攻击检测,但是都基于已有的特征参数,未提出新的特征。

本文研究了麦克风和扬声器的频率响应,从对角双谱这一角度分析真实语音和录音回放语音的差异,提出了对角双谱系数(Diagonal BiSpectrum Coefficient,DBSC)特征应用于录音回放攻击检测,并分析了不同设备配置对录音回放攻击检测性能的影响。结果显示,DBSC特征能够有效实现录音回放攻击检测。

1 真实语音和回放语音差异性分析

仅仅通过人耳难以区分真实语音和录音回放语音,因此需要从多维度研究分析真实语音和录音回放语音的差异来提出检测方案。从输入信道看,原始真实语音信号和录音回放攻击语音信号的输入过程如图1所示。

图1 典型录音回放攻击过程

真实语音信号和回放语音信号的具体表达式分别为:

从图1可以看出,在利用录音回放攻击说话人确认系统时,需要额外用到一对声音录音设备(麦克风)和声音播放设备(扬声器),会对信道时域脉冲响应产生线性卷积效应。当录音设备和播放设备均为高保真设备时,真实语音和录音回放语音之间的差异较小,不利于进行录音回放攻击检测。反之,当录音设备和播放设备不是高保真设备时,真实语音和录音回放语音之间的差异较大,有利于进行录音回放攻击检测。因此,对于回放攻击检测而言,最不利的情况是录音设备和播放设备都是超高保真设备。

麦克风是一种将声音转换成电子信号的换能器。麦克风中任何器件的非线性都有可能导致最后输出的失真。典型的麦克风的频率响应曲线如图2所示。可以看出,麦克风的频率响应曲线在高低频段有较大衰减,使得输入语音的高低频带频谱发生变化。另外,在录音系统采集麦克风的输出信号过程中会采用一个低通滤波器来滤除大于奈奎斯特频率的高频分量。滤波器的过渡带同样会引起输入语音在奈奎斯特频率附近的变化,即会对高频段频谱产生衰减。

图2 典型的麦克风的频率响应曲线

扬声器是一种十分常用的电声换能器件。扬声器的性能优劣对音质的影响很大。典型的扬声器的频率响应曲线如图3所示。可以看出,扬声器的频率响应范围一般为20 Hz~20 kHz,频率响应曲线通常具有非平坦特性,是一条具有许多峰谷点的不规则连续曲线,主要表现为信号在低频段和高频段有衰减,会影响录音回放语音在高低频带的频谱。

图3 典型的扬声器的频率响应曲线

以上分析得出,录音回放过程中使用的麦克风和扬声器都会对语音信号造成一定程度的频响失真,主要表现在高低两端频带的非线性频响衰减。另外,录音系统信号采集过程中,低通滤波会进一步引起输入信号频谱的高频衰减,将直接导致真实语音和录音回放语音有所区别。通过提取或强调这种非线性特征差能够有效检测录音回放攻击。

2 对角双谱系数特征提取

2.1 对角切片双谱

录音回放语音产生过程中因引入相应的设备而导致频谱的非线性失真,而一般的频谱分析或者功率谱分析难以深入揭示其本质。高阶谱常用于捕捉非线性信号[21],而双谱是高阶谱分析的特例。双谱是对信号的3阶累积量进行二维傅立叶变换,非常适用于检测非线性信号,且能抑制高斯噪声,保留相位信息。图4分别给出了对于同一说话人同一文本真实语音和录音回放语音的频谱对比图、功率谱对比图以及等高线双谱对比图。从图4可以看出,真实语音和录音回放语音的频谱非常接近,而真实语音和录音回放语音的双谱图存在明显区别。真实语音的双谱分布更加集中,录音回放语音的双谱分布更加分散。虽然真实语音和录音回放语音的功率谱也有较明显的区别,但是录音回放语音的功率谱曲线更加平滑,真实语音和录音回放语音的差异信息有可能缺失。因此,基于双谱的检测方法有利于区分真实语音和录音回放语音,从而实现录音回放攻击检测。

图4 真实语音和录音回放语音的频谱、功率谱以及等高线双谱对比

信号x(n)的双谱Bx(ω1,ω2)可以通过计算3阶累积量的二维傅立叶变换得到:

式中,C3x(τ1,τ2)是3阶累积量,可以表示为:

对于一个离散时间能量有限的确定信号,可将双谱定义为:

双谱是一个二维函数,不仅反映了信号的频谱特征,也反映了不同频带频谱的关系和大量的信号内在信息,但其所需的计算量偏大。双谱对角切片是指当ω1=ω2=ω时的双谱值,包含了表征性的主要信号特征。通过计算双谱对角切片,不仅可以有效提取主要的双谱特征,还可以大幅降低计算复杂度。

令ω1=ω2=ω,则可将双谱的对角切片表示为:

图5给出了语音信号对应的双谱等高线图、三维图以及对角切片双谱图。可以看出,双谱对角切片图是沿双谱的三维图按照平面所得到的截面,其中ω1与ω2的长度取决于快速傅里叶变换长度。

图5 双谱等高线图、三维图以及对角切片双谱

2.2 真实语音和录音回放语音对角双谱差分析

从图1可以看出,录音回放语音可以表示为真实语音和录放输入信道脉冲响应的卷积。录放输入信道包含录音设备和播放设备,录音回放语音可以表示为:

式中,r(n)表示录音回放语音,x(n)表示真实语音,h(n)=hmic(n)*hspe(n)表示录放输入信道的脉冲响应。

在频域上,录音回放语音频谱即可表示为真实语音频谱与录放输入信道频响的乘积:

根据式(6),真实语音的对角双谱可表示为:

式中,Bh(ω,ω)是录放输入信道脉冲响应的对角双谱。可以看出,录音回放语音的对角双谱是真实语音的对角双谱和录放输入信道对角双谱的乘积。

进一步推导得:

根据对扬声器和麦克风的频率响应分析可知,两者的频率响应在低频段和高频段会产生衰减。另外,录音中低通滤波器奈奎斯特截止频率附近过渡带会引起信号频谱的高频衰减。因此,录音回放语音频谱高频段的值相比真实语音会有衰减。根据式(8),录放输入信道系统的幅频率响应可以表示为:

根据对角双谱的表达式(9),录放输入信道的对角双谱值可以表示为:

图6给出了2017年ASVspoof挑战赛开发集中10种不同录放设备配置对应的录放输入信道脉冲响应对角双谱值。可以看出,在高频段(横坐标范围6 500~8 000 Hz)的大部分情况下,系统脉冲响应的对角双谱值均小于1,与式(13)的推导结果一致。

图6 10种不同录放输入信道脉冲响应的对角双谱值

因此,在高频段,录音回放语音的对角双谱值比真实语音的对角双谱值小,如式(14)所示:

由于真实语音和录音回放语音的对角双谱值较小,为了便于比较对其取对数,图7给出了同一说话人同一文本的真实语音和10种不同录音回放语音的对数对角双谱值。从图7可以看出,在高频段(横坐标范围6 500~8 000 Hz),真实语音的对数对角双谱值比录音回放语音的对数对角双谱值大,与式(14)的推导结果相一致。

以上分析说明,对角双谱具有明显的分类作用,真实语音和录音回放语音的差异被放大,有利于进行录音回放攻击检测。

3)充电子过程成功概率与读写环节成功概率仅在单次扫描情况下呈非线性关系,在执行多次扫描时均呈非线性关系。随着扫描次数的增加,将扫描成功概率由最初较小值提升至较大值,能够更有效提高子过程充电成功概率;

2.3 对角双谱系数特征提取

综上所述,原始语音和回放语音的对角双谱特征差主要表现在高频区,因此考虑使用IMel滤波器来强化高频段的对角双谱特征。对角双谱系数特征提取的流程图如图8所示。首先,对输入语音进行预处理和快速傅里叶变换(Fast Fourier Transform,FFT)得到频域语音信号,然后进行对角双谱计算,再通过IMel滤波器强化高频段特征,最后经过对数变换(Log Transformation,LOG)和离散余弦变换(Discrete Cosine Transform,DCT)得到对角双谱系数特征(DBSC)。

录音回放过程会导致语音频谱的非线性失真。对角双谱可以有效表达这种非线性失真,通过IMel滤波器对高频区进行较高分辨率的滤波处理进一步强化录音回放语音的高频非线性失真,提高了与真实语音的区分性,有利于实现录音回放攻击检测。

图8 对角双谱系数特征提取流程

3 实验结果与分析

3.1 实验条件

国际语音处理协会的ASVspoof 2017挑战赛提供了采用CQCC和高斯混合模型的录音回放攻击检测基线系统和标准语料库(ASVspoof 2017 2.0语料库)[12],并将EER作为通用评估标准。ASVspoof 2017 2.0语料库详细信息如表1所示,所有语音样本采集自26种不同的录音环境,采用了25种不同的录音设备和26种不同的播放设备。录音回放配置(录音设备+环境+播放设备)共有61种,其中测试集有57种录音回放配置。根据文献[22]中对设备质量的分类,将测试集中的录音回放语音按照高、中、低的标准进行分类,具体分布情况如表2所示。

表1 ASVspoof 2017 2.0语料库

表2 ASVspoof 2017 2.0语料库测试集中录音回放语音使用的环境和设备

本文实验语音样本均来自ASVspoof 2017 2.0语料库。录音回放攻击检测中,真实语音、录音回放语音模型都使用256阶GMM。测试时,采用式(15)计算每个测试语音的得分。

式中,Lgenuine和Lspoof分别为测试语音对于真实语音GMM模型和录音回放语音GMM模型的平均对数似然度。score为测试语音的对数似然比,其值大于设定阈值θ,则判决测试语音为真实语音,否则为录音回放语音。阈值θ越大,错误接受率(False Acceptance Rate,FAR)越低,错误拒绝率(False Rejection Rate,FRR)越高;反之,亦然。调整阈值θ,当FAR和FRR相等时,FAR和FRR的值即为EER。录音回放攻击检测系统的性能评价指标即为EER,此值越小,说明系统性能越好,即系统的抗录音回放攻击能力越强。

3.2 录音回放攻击检测实验

实验分两组进行。第1组使用ASVspoof 2017 2.0语料库中训练集的所有真实语音和录音回放语音分别训练各自256阶GMM模型。第2组不仅使用训练集样本数据,还使用开发集样本数据分别训练真实语音和录音回放语音的256阶GMM模型。测试语音使用测试集的所有语音样本。短时窗长设置为256。由于训练集、开发集和测试集的说话人不同,语音文本不完全相同,因此录音回放攻击检测实验针对非特定说话人且与文本无关。在实验条件相同情况下,CQCC(90维)、MFCC(12维静态特征+12维一阶差分特征+12维二阶差分特征)、IMFCC(12维静态特征+12维一阶差分特征+12维二阶差分特征)、TECC[16(]40维)和DBSC特征(12维静态特征+12维一阶差分特征+12维二阶差分特征)的EER如表3所示。

从表3可以看出,当第2组实验增加开发集中真实语音和回放语音样本数据进行训练时,每一个特征对应的录音回放攻击检测系统的EER下降,原因在于数据集的扩充,包含更多真实语音和录音回放语音的差异信息,提高了GMM模型的泛化能力,更具有普适性,提升了系统的录音回放攻击检测能力。另外,相比于其他特征,第1组实验和第2组实验中的DBSC特征对应的录音回放攻击检测系统的ERR最低。在第1组实验中,相比于CQCC、MFCC、IMFCC和TECC特征,DBSC特征对应的录音回放攻击系统的EER分别相对下降了14.21%、30.64%和31.51%和36.28%。在第2组实验中,相比于CQCC、MFCC、IMFCC和TECC特征,DBSC特征对应的录音回放攻击系统的EER分别相对下降了6.0%、13.24%和34.48%和38.39%。因此,DBSC特征能够有效实现录音回放攻击检测。

表3 不同特征参数的录音回放攻击检测系统的EER

3.3 不同质量设备的影响

为更好地评估语料库中不同设备质量对录音回放攻击检测性能的影响,如表2所示。测试集中的所有录音回放语音使用的设备可分为高质量、中等质量和低质量3类。实验同样分两组进行:第1组使用ASVspoof 2017 2.0语料库中训练集的所有真实语音和录音回放攻击语音分别训练各自256阶GMM模型;第2组不仅使用训练集样本数据,还使用开发集样本数据分别训练真实语音和录音回放语音的256阶GMM模型。短时窗长设置为256。在其他实验条件相同情况下,CQCC(90维)、MFCC(12维静态特征+12维1阶差分特征+12维2阶差分特征)、IMFCC(12维静态特征+12维1阶差分特征+12维二阶差分特征)、TECC(40维)和DBSC特征(12维静态特征+12维1阶差分特征+12维2阶差分特征)的对应的不同录音回放攻击检测系统结果,如表4所示。

表4 不同特征及不同质量的设备对应的录音回放攻击检测系统的EER(单位:%)

从表4可以看出,对于不同质量的设备,当第2组实验增加开发集中真实语音和回放语音样本数据进行训练时,每一个特征对应的录音回放攻击检测系统的EER下降,原因在于开发集比训练集中录音回放语音使用的设备种类增多,丰富了真实语音和录音回放语音的差异信息,更容易使真实语音的GMM模型和录音回放语音的GMM模型具有区分性,从而提升系统的录音回放攻击检测能力。当使用低质量设备来获得录音回放语音时,此时真实语音和录音回放语音的差异较大。通过之前对扬声器和麦克风的频率响应分析,低质量的设备会导致设备在高频段的频率响应变差,进而导致系统脉冲响应的对角双谱值衰减更多,从而录音回放语音的对角双谱值和真实语音的对角双谱值有更大的区别。因此,使用DBSC特征的录音回放攻击检测系统的EER更小,更能表征真实语音和录音回放语音的差异。当使用高质量录音设备来获得录音回放语音时,真实语音和录音回放语音的差异较小,但是高保真扬声器和麦克风在高频段总会受奈奎斯特截止频率低通滤波影响而衰减。DBSC特征使用对角双谱的方法在高频段对真实语音和录音回放语音的差异进行分析,并通过IMel滤波器强化高频特征,因此录音回放攻击检测系统的EER最小,具备良好的录音回放攻击检测能力。另外,针对高质量的录音设备和中等质量的播放设备所对应的录音回放语音,虽然DBSC特征能在一定程度上实现录音回放攻击检测,但此时CQCC特征对应的录音回放攻击检测能力更强。究其原因在于CQCC特征在低频段具有较高的频率分辨率,在高频段具有较高的时间分辨率,可以很好地体现真实语音和录音回放语音在高频段的差异,具有很强的表征力。

综上所述,DBSC特征对应的录音回放攻击检测系统具有较好的性能。对于高质量设备,DBSC特征同样具备较强的录音回放攻击检测能力。

4 结语

为了实现录音回放攻击检测,研究和分析扬声器和麦克风本身的声学特性和频率响应,发现主要在高频段区域有衰减。在高频段使用对角双谱的方法分析真实语音和录音回放语音的差异,通过IMel滤波器强化高频段特征信息,提出了DBSC特征应用于录音回放攻击检测。实验证明,提出的DBSC特征能够充分捕捉真实语音和录音回放语音的差异。当使用高质量的设备获取录音回放语音时,DBSC特征对应的录音回放攻击系统同样具有较强的检测能力,说明DBSC特征具有优越的录音回放攻击检测性能并能够显著提升说话人确认系统的安全性。

猜你喜欢
对角信道频段
基于自适应学习的5G通信系统信道估计方法
广义α-双链对角占优矩阵线性互补问题误差界的最优值
信号/数据处理数字信道接收机中同时双信道选择与处理方法
5G高新视频的双频段协同传输
gPhone重力仪的面波频段响应实测研究
典型办公区域Wi-Fi性能的优化
雷声公司交付首套中频段下一代干扰机
基于信道跟踪的LFM信号检测方法研究
会变形的忍者飞镖
推挤的5GHz频段