基于ResNet的音频场景声替换造假的检测算法

2022-07-05 08:28董明宇严迪群
计算机应用 2022年6期
关键词:特征值残差准确率

董明宇,严迪群

基于ResNet的音频场景声替换造假的检测算法

董明宇1,严迪群1,2*

(1.宁波大学 信息科学与工程学院,浙江 宁波 315211; 2.东南数字经济发展研究院,浙江 衢州 324000)(*通信作者电子邮箱yandiqun@nbu.edu.cn)

针对造假成本低、不易察觉的音频场景声替换的造假样本检测问题,提出了基于ResNet的造假样本检测算法。该算法首先提取音频的常数Q频谱系数(CQCC)特征,之后由残差网络(ResNet)结构学习输入的特征,结合网络的多层的残差块以及特征归一化,最后输出分类结果。在TIMIT和Voicebank数据库上,所提算法的检测准确率最高可达100%,错误接收率最低仅为1.37%。在现实场景下检测由多种不同录音设备录制的带有设备本底噪声以及原始场景声音频,该算法的检测准确率最高可达99.27%。实验结果表明,在合适的模型下利用音频的CQCC特征来检测音频的场景替换痕迹是有效的。

音频造假;音频场景声替换;残差网络;常数Q频谱系数

0 引言

随着人们生活水平的提高,信息已经成为人们日常生活中的接触媒体,用来与外界进行沟通,了解外界的发展情况。然而信息的不对称性可能会导致信息造假的现象,而这种造假技术所产生的信息很有可能是人们利用自身条件无法辨别的,其中造假新闻的出现会严重误导没有相关辨别能力或者技术的人[1]。例如现在电影中的计算机动画(Computer Graphics, CG)技术,它将合成技术应用到特效电影中,几乎到了人眼无法分辨的程度。这样的技术虽然能带来视觉上的享受,但也会带来一定的危害,如果不法分子利用这种技术对人们日常接触的信息进行修改将会造成非常恶劣的影响;而且利用现在的技术进行造假并不是非常困难,造假的产物也真假难辨。

随着深度学习技术的日益进步与普及,普通用户利用这项技术对多媒体媒介(图像、视频、音频)进行造假的能力有了明显的提升。在音频领域,一些工具能让造假音频从人类的听觉角度上达到难以辨认的地步。造假技术具有非常多样的变化,其中音频的降噪工具的应用使得场景声替换的音频能够更加真实。如造假者把一段只含有说话人说话的音频与一段只含有场景声的音频合成在一起,将会生成一种极具欺骗性的音频,且从听觉上很难区分真假。通常可以利用这种方式隐藏说话人的真实位置信息,但也有不法分子将说话人的某段音频与某些违法场所的录制音频进行合成,制造说话人有违法行为的假象,并对说话人进行敲诈勒索。从法证的角度上讲,音频证据需要有完整性和真实性的保障,因此辨别音频是否有经过场景声替换的痕迹是很有必要的。

在音频领域,已经有研究对音频的变调不变速造假样本[2]、音频重捕获样本[3]等进行检测,但据作者了解,目前对音频的场景声替换的研究还较少。

大部分音频检测算法的第一步往往是提取音频的某些特征,如利用梅尔倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)特征来进行说话人验证[4]。常数Q频谱系数(Constant Q Cepstral Coefficient, CQCC)作为音频的一类特征值,其特点是时间分辨率可变,优点是能够很好地描述音频波形走势上的信息,在计算常数Q变换(Constant-Q Transform, CQT)时能够将时域信息转换到频域,有更小的带宽,使得低频部分信息能够更详细地被突出。基于CQT的倒谱分析已经被Lidy等[5]用于音频场景声的识别,并取得了一定的成功。发展到现在,如今的算法对CQT的频率尺度进行了线性化,从而保持了离散余弦变换(Discrete Cosine Transform, DCT)基的正交性。

在图像领域,残差网络(Residual Network, ResNet)在分类上的表现很出色[6-7];在音频领域,也有研究在频域上使用ResNet对载体进行隐写分析[8],针对声音场景分类的任务在使用ResNet时也取得了不错的效果[9]。在ASVspoof 2019的比赛上,ResNet的网络结构的优势也得到了验证,取得了很好的比赛成绩。因此本文也考虑使用一个二分类的ResNet对从音频中提取到的CQCC特征值进行分析,以判断音频是否进行过场景替换操作。本文的主要工作如下:利用深度学习方法对场景声替换造假音频进行检测,并结合多种深度学习框架和机器学习模型与音频的特征探究了能最大区分场景声替换音频的方法。

1 场景替换的造假音频

对于音频场景声替换的应用背景首先需要确定的是正负样本的定义以及数据库。本文定义正样本即原始样本未经过任何操作的且由录音设备进行录制的样本,负样本为将录制好的场景声音频叠加到原始音频后得到的样本。实验数据库来自于开放且知名度非常高的TIMIT[10]以及Voicebank[11]数据库。原始的纯净样本是未经过处理的原始音频,原始音频并不含有任何带有场景的声音。其中TIMIT是由德州仪器、麻省理工学院和SRI International合作构建的声学-音素连续语音语料库。TIMIT数据库的语音采样频率为16 kHz,位深度为16 bit。该数据库包含来自美国不同地区的630个人的声音,其中70%的说话人是男性,大多数说话者是成年白人。参与者每人说出10个不同句子,最后总共获得6 300个样本,所有的句子都在音素级别上进行了人工标注。在Voicebank数据库中选择了30个说话人,每个音频都是16 kHz的采样频率。

实验选用的场景声的音频也是同样来自于知名的开放数据库Demand[12]。该数据库包含多种不同场景下录制的场景声,每一段是长达5 min的音频,有咖啡厅、车站、厨房等不同的场景,所有的音频都为单通道且采样频率为16 kHz。

由上述定义,正样本为原始未修改过的音频,而负样本则是将Demand数据库进行裁剪叠加到原始音频上得到的一段带有场景声的语音音频。从主观角度来评价制作的负样本,负样本完全可以以假乱真、混淆视听。

对正样本与负样本进行时域及频域上的分析。首先获取正负样本的语谱图,并将其数据取对数来放大它们的时域以及频域分布,如图1所示:图(a)、(c)为原始音频,图(b)、(d)为场景替换音频;为了放大真假样本音频的区别部分,图(a)、(b)为取了对数处理的语谱图,图(c)、(d)是正常语谱图。

在图1(a)中可以明显看到,高亮的部分基本集中在中低频说话人讲话的部分。而经过场景声音频的叠加后,会将原先高亮的部分分布模糊化,在低频部分还多了一些新的信息。从图1(d)可以看到,被掩盖之后依旧会表现出跟原始分布略有差异的表现形式,只是有些地方会被“修改”得表现不出原始音频的特性,大部分叠加到原始音频上的部分集中在低频部分,某些中高频部分也会发生一些突变,只是数量比较少。因此,从语谱图上分析来看,可以使用一些能够表现人类说话相关的特征值来描述音频,例如MFCC、CQCC等,这些音频的特征可以将低频中的信息放大,进而将两者区别开来。

图1 正负样本的语谱图

2 区分场景声替换音频的算法

2.1 提取声学特征

在ASVspoof 2015数据库的实验结果表明,CQCC在音频取证领域具有实用性,它的性能比之前的最佳结果高出72%。在此之后,CQCC在说话人验证等方面也表现出了很强的竞争力[13],它作为音频的一类特征值在很多的场景下都发挥了作用。

得到CQT之后的处理相对简单,主要是利用一些朴素的数据处理方式将音频的特征凸显出来。最后经过DCT得到CQCC最终表达式为:

提取CQCC特征值的流程如图2所示。

图2 CQCC特征提取流程

Fig.2 Flowchart of CQCC feature extraction

将音频进行快速傅里叶变换(Fast Fourier Transform,FFT)之后,如图3所示:图(a)展示的是原始音频的频率分布,音频的信息基本上分布在中低频的部分;经过场景替换之后,在中低频有明显的差异,如图(b)。根据CQCC特征的设计,在低频段会使用带宽窄的滤波器进行计算,所以经过CQT之后中低音频信息可以将这部分的信息差异放大,从而将正常样本与场景替换的造假样本(负样本)区分开来。

图3 正负样本频率分布

2.2 音频区分算法

本文采用的网络模型是在ASVspoof 2019上性能表现优良的残差网络模型[14],结构如图4所示。该网络结构中采用了多个残差块(图4中虚线框所示),每个残差块都由两个卷积以及卷积对应的归一化和激活函数构成,最后使用交叉熵作为损失函数。虽然在视觉层面上网络的层数非常深,但是归功于跳跃连接的使用,不会让梯度随着网络深度的递增而消失[15]。同时根据原始残差网络的设计理念,特征图随着网络深度的增加,会放大所需的“信息”部分。由于送入到网络结构中的是CQCC特征值,是类似于图片的一组单通道的数值矩阵,所以在应用残差网络时可以让决策边界快速收敛,即使收敛到极限时也不至于退化严重。

图4 ResNet的结构示意图

在训练过程中,特征值经过每一个残差块之后,都会将特征的大小进行一定程度上的压缩。特征进行第一次卷积之后,都会把每一组的数据进行横向的归一化,保证数据在均值为0、方差为1的范围内。接下来把归一化之后的矩阵经过激活函数中的线性整流函数(Rectified Linear Unit,ReLU)。在第二次卷积之后会加上第一次卷积之后的第二路卷积后的值,这么做是为了防止发生梯度消失,叠加之后继续归一化和激活。以上是每一个残差块的工作,网络中具有多个残差块,并且前后直接紧密相连。特征值经过若干个残差块的提取之后,需要将其展平到一维并连接到紧密层,即全连接层。为了防止过拟合现象发生,会在两个全连接层之间加上一个Dropout层,其中Dropout层也会在之前的残差块中有应用,随机断开一定数量的连接来防止过多连接所导致的过拟合。最后将一维的特征数据经过LogSoftmax层,产生是否为场景替换音频的概率。以上就是一个完整的训练过程。

为了探究不同的模型对实验结果的影响,实验中使用在分类模型中性能优良的VGG网络[16]以及机器学习中的支持向量机(Support Vector Machine, SVM)模型来对比在不同特征值选择条件下的结果。

3 实验与结果分析

3.1 实验设置

实验中使用的音频来自多个数据库,其中正样本来自TIMIT和Voicebank数据库,噪声样本来自Demand数据库,均是开源且具有一定代表性的语料数据库。来自Demand数据库的噪声样本包含多种不同场景下的声音,如厨房、车站、咖啡厅等。

实验中将所有音频样本均统一重采样到8 kHz,重采样后的音频表现都大致相似而且可以减少运算量。将每段音频统一剪切至时长2 000 ms,即16 000个采样点。正样本与负样本的数量一致,但正、负样本出现的音频中的纯净音频都不同。负样本的制作是将场景音频叠加至纯净音频上生成带有场景声的音频,在控制好两者叠加音频音量的条件下,负样本可以达到以假乱真的效果。

ResNet中一共有6个残差块,每个残差块前后直接紧密相连,在特征输入到残差块之前会经过一次3×3卷积。在送入到网络模型中的数据中,每25个音频为1个Batch,初始化学习率为0.000 1。

根据笔者调研了解,目前还少有人进行场景声替换音频的检测,为了客观地分析实验结果,实验中选用了两个指标来衡量检测的结果:检测准确率(Accuracy)用来展示检测算法的效率;错误接受率(False Acceptance Rate, FAR)则用来展示检测过程中错漏过负类的占比。FAR的计算公式如下所示:

3.2 结果与分析

从两个不同实验场景呈现实验结果:第一个实验中的负样本是将场景声音频直接叠加在纯净的原始音频上;而第二个实验是在真实物理世界场景中的,大部分原始音频本身就含有场景声音频,而负样本则需要在原始音频处理之后再进行场景声音频的叠加。

3.2.1 数据库场景下的实验

人耳感受到的声音高低与其频率不呈线性关系,人耳对低频信号比高频信号更加敏感[13],因此根据人耳的特性模拟出的MFCC特征会适用于该场景。与CQCC一致的是映射到频域阶段的滤波器都是低频窄、高频宽的设置,由于使用滤波器的不同,两者中低频的信息量也不同。

图5是在VGG以及ResNet下,用CQCC作为特征值输入时训练过程中的损失的表现。可以清晰地看到,在训练过程中损失保持下降趋势,足以说明使用残差的结构会使得整个网络保持收敛状态,让决策边界不断收缩,从而使往后训练时更新的步伐会很小,并且整个网络也没有表现出退化的趋势。在收敛性上VGG以及ResNet都表现出持续收敛,ResNet某个时刻的损失值会突然增大,但是在后期会慢慢修复这个突然的变化。

图5 两种网络的收敛性分析

表1是在不同的判别模型下CQCC和MFCC特征在不同数据库训练的准确率与FAR。SVM的准确率在大部分的数据库上都很高,但是在跨数据库间的表现上会差一些。VGG网络依旧存在数据库之间的准确率偏低、同时FAR也比较高的问题。ResNet的表现比SVM和VGG好很多,准确率较高而且很均衡,不会出现像SVM和VGG模型中某些样本无法判别的情况。在两个特征值中,CQCC作为特征表现得比MFCC好一些。从上述结果可以看出,用CQCC作为特征值,结合ResNet来区分样本是否经过场景声的替换是有效的。

表1 不同条件下不同模型的准确率和错误接受率

3.2.2 现实场景下的实验

现实场景录制的音频不如数据库音频纯净,为了增加数据真实性的验证,用不同的手机设备进行录制,并且每段录音都含有原始的场景声音的音频,场景有办公室、操场、医院、食堂等,使用录制设备有Letv、OPPO和iPhone手机。在实验中将录制好的原始音频作为正样本。为了更加贴近现实中替换场景声的操作,将原始音频利用去噪软件进行降噪后叠加上录制好的场景声音频,实现场景替换。

表2是用三个不同设备录制的音频的检测准确率结果,使用的模型是由TIMIT和Voicebank两个数据库进行训练的ResNet。由表2可以看出,CQCC作为特征值的检测效果会比MFCC好很多(表2中加粗数据)。由于录制设备的不同,原始音频可能含有的场景声有设备的本底噪声以及原始的场景声,或者有些音频在经过设备的录制之后会经过设备自带的压缩过程,所以检测的结果会略有些差异,但是整体检测率依旧不够高。

表2 不同设备录制音频的准确率 单位: %

4 结语

本文提出了对音频场景声替换的造假样本的检测方法,目前相关方面的工作还不多。实验的基本思想是通过对正负样本的频谱分析,提取音频样本的CQCC特征值,利用ResNet对特征值进行判断分类。虽然在公认的数据库上的检测准确率可以达到一个很高的水准,但依旧存在一些问题,例如在检测真实场景下不同设备录制的音频时,模型对这些样本有不同的效果,针对有些设备录制并造假的音频检测率非常低。所以我们今后的工作是提出更加鲁棒的跨设备的检测方法,让现实场景下场景替换的造假样本能以一个高准确率被检测出来。

[1] WESTERLUND M. The emergence of deepfake technology: a review[J]. Technology Innovation Management Review, 2019, 9(11): 39-52.

[2] WU H J, WANG Y, HUANG J W. Identification of electronic disguised voices[J]. IEEE Transactions on Information Forensics and Security, 2014, 9(3): 489-500.

[3] LIN X D, LIU J X, KANG X G. Audio recapture detection with convolutional neural networks[J]. IEEE Transactions on Multimedia, 2016, 18(8): 1480-1487.

[4] AL-ALI A K H, DEAN D, SENADJI B, et al. Enhanced forensic speaker verification using a combination of DWT and MFCC feature warping in the presence of noise and reverberation conditions[J]. IEEE Access, 2017, 5: 15400-15413.

[5] LIDY T, SCHINDLER A. CQT-based convolutional neural networks for audio scene classification[C/OL]// Proceedings of the 2016 Workshop on Detection and Classification of Acoustic Scenes and Events. [2021-04-21].https://dcase.community/documents/workshop2016/proceedings/Lidy-DCASE2016workshop.pdf.

[6] WU Z F, SHEN C H, VAN DEN HENGEL A. Wider or deeper: revisiting the ResNet model for visual recognition[J]. Pattern Recognition, 2019, 90: 119-133.

[7] HE K M, ZHANG X Y, REN S Q, et al. Identity mappings in deep residual networks[C]// Proceedings of the 2016 European Conference on Computer Vision, LNIP 9908. Cham: Springer, 2016: 630-645.

[8] REN Y Z, LIU D K, XIONG Q C, et al. Spec-ResNet: a general audio steganalysis scheme based on deep residual network of spectrogram[EB/OL]. (2019-02-26)[2021-04-21].https://arxiv.org/pdf/1901.06838.pdf.

[9] LIU M L, WANG W C, LI Y X. The system for acoustic scene classification using ResNet[R/OL]. [2021-04-21].https://dcase.community/documents/challenge2019/technical_reports/DCASE2019_SCUT_19.pdf.

[10] GAROFOLO J S, LAMEL L F, FISHER W M, et al. DARPA TIMIT: acoustic-phonetic continous speech corpus CD-ROM: NIST speech disc 1-1.1: NISTIR 4930[R]. Gaithersburg, MD: National Institute of Standards and Technology, 1993.

[11] VEAUX C, YAMAGISHI J, KING S. The voice bank corpus: Design, collection and data analysis of a large regional accent speech database[C]// Proceedings of the 2013 International Conference Oriental COCOSDA Held Jointly with 2013 Conference on Asian Spoken Language Research and Evaluation. Piscataway: IEEE, 2013: 1-4.

[12] THIEMANN J, ITO N, VINCENT E. The Diverse Environments Multi-channel Acoustic Noise Database (DEMAND): a database of multichannel environmental noise recordings[J]. Proceedings of Meetings on Acoustics, 2013,19(1): No.035081.

[13] TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients: a spoofing countermeasure for automatic speaker verification[J]. Computer Speech and Language, 2017, 45: 516-535.

[14] ALZANTOT M, WANG Z Q, SRIVASTAVA M B. Deep residual neural networks for audio spoofing detection[C]// Proceedings of the Interspeech 2019. [S.l.]: International Speech Communication Association, 2019: 1078-1082.

[15] 杨磊,赵红东. 基于轻量级深度神经网络的环境声音识别[J]. 计算机应用, 2020, 40(11):3172-3177.(YANG L, ZHAO H D. Environment sound recognition based on lightweight deep neural network[J]. Journal of Computer Applications, 2020, 40(11): 3172-3177.)

[16] MATEEN M, WEN J H, NASRULLAH, et al. Fundus image classification using VGG-19 architecture with PCA and SVD[J]. Symmetry, 2019, 11(1): No.1.

Detection algorithm of audio scene sound replacement falsification based on ResNet

DONG Mingyu1, YAN Diqun1,2*

(1,,315211,;2,324000,)

A ResNet-based faked sample detection algorithm was proposed for the detection of faked samples in audio scenes with low faking cost and undetectable sound replacement. The Constant Q Cepstral Coefficient (CQCC) features of the audio were extracted firstly, then the input features were learnt by the Residual Network (ResNet) structure, by combining the multi-layer residual blocks of the network and feature normalization, the classification results were output finally. On TIMIT and Voicebank databases, the highest detection accuracy of the proposed algorithm can reach 100%, and the lowest false acceptance rate of the algorithm can reach 1.37%. In realistic scenes, the highest detection accuracy of this algorithm is up to 99.27% when detecting the audios recorded by three different recording devices with the background noise of the device and the audio of the original scene. Experimental results show that it is effective to use the CQCC features of audio to detect the scene replacement trace of audio.

audio falsification; audio scene sound replacement; Residual Network (ResNet); Constant Q Cepstral Coefficient (CQCC)

This work is partially supported by National Natural Science Foundation of China (U1736215, 61901237), Zhejiang Provincial Natural Science Foundation (LY20F020010, LY17F020010), Ningbo Natural Science Foundation (202003N4089).

DONG Mingyu, born in 1997, M. S. candidate. His research interests include machine learning, multimedia forensics, adversarial example.

YAN Diqun, born in 1979, Ph. D., associate professor. His research interests include machine learning, information security, information hiding.

TP391.4

A

1001-9081(2022)06-1724-05

10.11772/j.issn.1001-9081.2021061432

2021⁃08⁃10;

2021⁃11⁃10;

2021⁃11⁃17。

国家自然科学基金资助项目(U1736215, 61901237);浙江省自然科学基金资助项目(LY20F020010, LY17F020010);宁波市自然科学基金资助项目(202003N4089)。

董明宇(1997—),男,浙江宁海人,硕士研究生,CCF会员,主要研究方向:机器学习、多媒体取证、对抗样本;严迪群(1979—),男,浙江余姚人,副教授,博士,CCF会员,主要研究方向:机器学习、信息安全、信息隐藏。

猜你喜欢
特征值残差准确率
多级计分测验中基于残差统计量的被试拟合研究*
基于残差-注意力和LSTM的心律失常心拍分类方法研究
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
融合上下文的残差门卷积实体抽取
高中数学特征值和特征向量解题策略
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
伴随矩阵的性质及在解题中的应用