郑榕 孟凡芹 王志宣
1. 北京远鉴信息技术有限公司研究院 2. 公安部第一研究所 3. 多维身份识别与可信认证技术国家工程研究中心
人工智能生成内容(Artificial Intelligence Generated Content,AIGC)正在快速兴起,通过人工智能算法对数据或内容进行生产和编辑,重塑数字内容的生产和消费模式[1]。语音是人机交互的的主要接口,伴随着人工智能技术的兴起和新设备不断推出,得到了快速发展,其中一些只能通过语音命令或声音交互进行操作,这为黑客或破坏者提供了攻击的机会,特别是涉及语音欺诈或者深度合成(Deep Synthesis)语音方面[2],达到以假乱真的程度,轻松实现变声、声音克隆等。技术滥用后很可能使得伪造生成内容通过互联网和电信网广泛传播,造成虚假身份、虚假信息、违法违规内容流出或传播,给检测、追溯、监管等造成严重困难。
随着深度学习技术的发展,典型人机交互系统例如声纹识别系统、语音控制系统等,在走向实际应用的过程中易受语音欺骗的攻击[3]。语音欺骗攻击利用各种算法生成与特定说话人或特定内容尽可能相似的语音,包括语音合成、声音转换、录音重放、语音拼接和对抗样本等形式。
语音欺骗主要可分为物理访问(Physical Access)攻击和逻辑访问(Logical Access)攻击。物理攻击通常经过了声音采集环节,通过APP、HTML5页面等形式,例如录音重放。逻辑攻击通常是通过调用SDK/API、服务接口完成攻击,例如语音合成、声音转换、声音克隆等。实际应用中需要鉴别各种来源音频或视频中音轨数据的真伪,包括来自互联网和电信网等复杂多样的音频数据。音频鉴伪是将音频数据输送到自动音频鉴伪系统中,通过系统输出的相似度判决是否为伪造音频。本文结合音频鉴伪检测典型系统和技术发展历程,开展了音频鉴伪检测与防御技术研究,旨在提升实际应用场景中音频鉴伪检测的通用性和泛化能力。
典型的音频鉴伪检测技术需支持传统伪造音频以及深度合成音频的检测,如音频增删拼接伪造、语音身份风格伪造、音色伪造、韵律伪造和声音转换等各种类型的伪造音频[4]。鉴伪检测系统流程如图1所示。
训练阶段:把真实音频和伪造音频的波形或特征输入分类网络或分类器,例如门控循环单元(Gated Recurrent Unit,GRU)或者轻量级卷积神经网络(Light Convolutional Neural Network,LCNN)等,迭代训练网络,最后得到真实音频和伪造音频的分类模型。非端到端分类网络中通常前置音频特征提取模块。
检测阶段:把待测音频的波形或特征输入到鉴伪检测模型,计算相似度并与预设阈值进行比较,得到检测判决结果。
声音模仿和录音重放,实现成本较低,通过简单的录音设备即可实现。利用开源算法工具,语音合成和声音转换的伪造门槛不断降低。攻防技术手段不断升级,伪造攻击可以是单点攻击但是检测防御需要做到线防御或面防御。随着变分自编码器、生成对抗网络、流模型、扩散模型等技术的发展,攻击技术手段不断提升,例如声音转换逐渐朝着小样本、轻量化、多对多转换的技术路线发展。语音合成逐步提升韵律音色合成的稳定性、个性化和表现力。录音重放基于各种新推出的采集设备、播放设备、录音设备,以及录放过程中引入的各种环境噪声。
随着录音设备质量的提高和语音合成、声音转换等语音智能处理技术的发展,特别是深度合成技术的深入应用,真实音频与人工生成后的音频将越来越难以区分,给语音防欺骗检测和自动声纹识别系统的安全性带来严峻的挑战。当前技术应用主要存在以下几方面的局限性:
攻防对抗频繁:鉴别技术提出之后会有针对该鉴别技术的对抗方式出现,攻防对抗非常频繁。
泛化能力不足:通常鉴伪技术只针对特定生成模型,对未见场景或者迁移后的性能下降明显,比如在跨域跨场景或多种数据来源的数据场景中性能下降,实际应用中会遇到长尾分布问题导致效果不佳,这些问题均要求检测模型具备更好的泛化能力和通用性。
深度学习效果有待提升:通常方法是先将原始音频数据预处理成特征,再把特征输入神经网络。神经网络和其他模块分别训练以提升整体模型的效果,由于各个模块的最优解结合后并不一定是全局最优,因此深度学习的效果发挥还不够充分。
音频鉴伪攻防对抗中,进一步研究真实音频与伪造音频之间差异性及有效解释,应对复杂多样音频鉴伪的通用能力,提升基于深度学习的检测防御能力,特别是端到端音频鉴伪系统性能、多系统融合鉴伪等方面,受到越来越多的重视。
国际上对语音防欺骗这一问题持续关注,并从2015年至2021年连续举办了四届声纹防攻击挑战赛(Automatic Speaker Verification and Spoofing Countermeasures Challenge,ASVspoof)[5]。最早关注合成转换类攻击,然后是录音重放攻击,最近一届挑战赛细分为合成转换赛道、录音重放赛道和深伪赛道。挑战赛的举办极大地推动了语音防欺骗技术的进步。国内外研究单位联合在语音领域会议ICASSP2022上举办首届语音深度合成鉴别挑战赛(Audio Deep Synthesis Detection Challenge,ADD2022)[6],推动研究人员提出具有创新性的算法,促进音频鉴伪领域的技术发展。语音领域会议INTERSPEECH2022上举办了首届欺骗感知声纹确认挑战赛(Spoofing-Aware Speaker Verification Challenge,SASV2022)[7],旨在促进联合优化解决方案的研究,以完成传统上分别优化的音频鉴伪和声纹识别任务。
?
当前音频鉴伪主要可分为特征工程和深度学习两种技术路线。特征工程是提取多种频谱特征或对频谱提取器的改进,例如梅尔倒谱、线性倒谱等滤波器组频谱,属于根据专家知识设计的滤波器组。深度学习技术思路一方面可用于改进特征提取,例如基于深度神经网络的滤波器提取器优化训练等;另一方面,可用于直接训练真实和各种类型伪造音频的分类器。
1. 特征提取
音频鉴伪检测任务中,特征提取是非常重要的环节。特征工程技术路线可提取梅尔倒谱系数特征(Mel-Frequency Cepstral Coefficient,MFCC)、线性倒谱系数(Linear Frequency Cepstral Coefficients,LFCC)、逆梅尔倒谱系数特征(Inverted Mel-Frequency Cepstral Coefficient,IMFCC)、短时傅里叶变换(Short-Time Fourier Transform,STFT)声谱图特征、恒定Q倒谱系数特征(Constant Q Cepstral Coefficient,CQCC)、伽马通(GammaTone)听觉滤波器组频谱等。当前主要是两种形式,一种是常见的倒谱系数提取,在滤波器组设计方面,依据专家知识设计或者基于深度学习训练得到。另一种是引入音乐分析的恒定Q倒谱系数提取。参数Q描述滤波器之间的分离程度,人类听觉系统在500Hz到20000Hz的频带内Q不变。由于恒定Q变换获取的几何分布的能量谱,需转成离散余弦变换要求的频率上的线性分布再提取倒谱特征,因此增加均匀重采样环节。
上述两种特征提取方法中,均通过设置较多的滤波器组和较高的倒谱系数获取更好的分辨能力,增强对高频信息的刻画能力。同时,增加一阶和二阶差分倒谱系数,增强对动态信息的刻画能力。
2. 分类模型
特征提取之后,需要具有分类性能出色的后端分类模型对声学特征进行建模,当前主流的两类方法:
基于传统机器学习的检测方法,主要包括生成式模型和判别式模型两种技术路线,例如生成式模型中的高斯混合模型分类器、判别式模型中的支持向量机分类器。
基于深度学习的检测方法,例如基于卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)以及上述网络结构的衍生算法,例如基于长短期记忆(Long Short-Term Memory,LSTM)、残差网络(ResNet)和变形器(Transformer)的音频鉴伪网络。
音频鉴伪任务中,通常采用真伪二分类模型。而如果将音频鉴伪看作是异常检测或者类别极度不平衡的分类任务,研究人员也提出了单分类(One-Class)模型。单分类问题不是将不同标签的数据区分开来,而是对单个类别的数据表征在样本空间中进行区域轮廓描述,当某个音频表征落在这个区域外,判定该音频不属于目标类别。
1. 非端到端网络
非端到端网络中各模块按照一定的规则与其他模块相互联系而构成更加复杂的系统,例如音频鉴伪技术中的混合网络(Hybrid Network)或管路网络(Pipeline Network)。轻量级卷积神经网络LCNN鉴伪是非端到端网络的典型代表[8]。
LCNN音频鉴伪技术采用轻量级卷积神经网络和最大特征映射(Max Feature Map,MFM)激活模块。最大特征映射改进了通常的池化方式,通过激活卷积层特征图的最大值获取更多富有竞争力的节点,实现特征选择并加速生成稀疏连接,使得卷积神经网络可获得更紧凑的表征。同时,最大特征映射局部特征选择利用竞争关系而非阈值来激活神经元,在跨域条件下有更好的泛化能力。基于轻量级卷积神经网络的鉴伪研究主要是针对损失函数的选择和注意力机制学习方面。
2. 端到端网络
(1)RawNet系列网络
RawNet是一种原始信息卷积神经网络架构,最早用于声纹识别任务。RawNet网络可输出语音嵌入表征。第一个卷积层直接应用于原始语音波形,所有滤波器参数自动学习。在较高层中提取帧级表示的残差块,残差块使用跳转连接,使训练更深的分类器能够利用更多区分信息。
RawNet2结合了原始RawNet方法和正弦网络(SincNet)的优点[9]。RawNet2的第一层与SincNet基本相同,而上层由与RawNet相同的残差块和门控循环单元层组成。RawNet2使用基于残差块输出激活函数的特征图缩放(Feature Map Scaling,FMS)。FMS注意力机制获得更具辨别力的表征。
RawNet3网络是基于RawNet2和ECAPA-TDNN网络的改进。ECAPA-TDNN通过引入挤压激励(Squeeze-Excitation,SE)模块以及通道注意机制,在国际声纹识别比赛VoxSRC2020中取得了第一名的成绩,并已成为声纹识别的主流框架之一。RawNet3对原始波形应用预加重并通过实例归一化(Instance Normalization)层,输出使用参数化的分析滤波器组的时频域表示。该层是RawNet2中正弦卷积层(Sinc-Convolutional Layer)的扩展,即由实值参数化滤波器组变为复数值参数化滤波器组。RawNet3每个主干块称为AFMS-Res2MP,基于Res2Net网络结构得到,这里Res2Net是在单个残差块内构造分层的残差连接而构建的CNN结构,在粒度级别上表示了多尺度特征,增加了每层的感受野。AFMS是RawNet2的特征图缩放模块的扩展。
(2)图卷积注意力网络
基于图注意力网络(Graph Attention Network,GAT)的音频鉴伪系统RawGAT,如图4所示。包含频域和时域图注意力网络,能够学习跨越不同子带和时间间隔的线索之间的关系,使用频谱和时间的模型级图融合子图和图池化(Graph Pooling)策略以提高真假音频的区分度[10]。该网络模型结构实现了端到端的高层语义特征表征,在频域-时域注意力机制基础上增加了图注意力模块,采用了图池化层用于区分性节点选择,并最终实现模型级别的融合音频鉴伪检测。
在RawGAT方法基础上,进一步提出了AASIST(Audio Anti-Spoofing using Integrated Spectro-Temporal GAT)鉴伪检测模型[11]。AASIST使用了各向异性堆叠图注意层(Heterogeneous Stacking Graph Attention Layer,HSGAL)、竞争性最大图操作(Max Graph Operation,MGO)和扩展读出策略,取得了性能上的大幅度提升。
为了应对实际环境中音频鉴伪检测性能下降问题,提升系统鲁棒性和泛化能力,通常采用数据增强的方法。根据处理方式不同,数据增强可分为在线数据增强和离线数据增强。离线数据增强就是一次性把数据读入并扩增后存储,再用这个扩增后的数据集进行训练,适用于较小的数据集。在线数据增强就是在每个训练周期或批次前,对数据集进行加噪声、加混响等操作。
当前数据增强方法存在一定的局限性,例如,离线数据增强需要先对语音和噪声/混响数据进行加噪,生成大量数据存储并在训练过程中读取,对存储和磁盘I/O要求高。在线方式的数据增强,虽然节省了磁盘空间,但需要对数据重复加噪声或混响等扰动,极大地增加了训练时间。
1. 面向复杂多样音频场景的数据增强
实际场景中音频来源和音频特性复杂多样,会受到话音传输干扰、网络特性干扰和采集设备干扰。传输干扰包括基于IP的语音传输(VoIP)、公共交换电话网络(PSTN)等影响;网络特性干扰包括编解码、网络丢包丢帧、码率变化等;编码译码器(Codec)干扰包括非线性失真、语谱缺失等。针对上述干扰,音频增强方式可从以下几方面进行:
话音传输干扰:影响信道响应,针对VoIP、PSTN、卫星通话等信道的话音数据,采用G.722、G.729、amr等音频格式的转换。
网络特性干扰:针对有损编解码,采用FFmpeg或SoX软件工具,实现多种网络音频格式的互相转换,例如mp3、aac、silk、opus等。由于每种格式存在不同码率的影响,通常随机选取高中低三种码率进行数据增强。
编码译码器的影响:主要体现在宽带编码译码器(Wide-band Codec)或窄带编码译码器(Narrow-band Codec)的使用。带通滤波的影响会造成高频信息的丢失,可对音频进行宽带或窄带编码译码器的模拟增强。
2. 嵌入表征数据增强
嵌入表征数据增强方法,是通过表征层噪声分布匹配(Noise Distribution Matching,NDM)。基本思想是在嵌入空间对干净和含噪嵌入表征计算差值,假定服从均匀分布、拉普拉斯分布或高斯分布,基于上述分布模型去估计分布参数。得到噪声嵌入向量的分布估计之后,不再需要对原始数据进行加噪再提取含噪嵌入向量,而是直接从噪声嵌入向量分布估计中直接采样得到,并与干净嵌入向量相加得到加噪增强的嵌入向量。相较于常见的数据增强方法,在磁盘存储、I/O资源和训练时间等方面均有节省。
3. 时频域掩蔽增强
基于时频域掩蔽增强训练的音频鉴伪检测泛化能力提升方法,采用时频域掩蔽技术,损失函数采用加权交叉熵损失和混合正则化损失相融合,避免了训练数据中真实音频和伪造音频不平衡造成的模型偏向某一类别的风险,提升模型的泛化能力。
利用音频编辑软件可轻易对真实音频进行剪切、复制、粘贴等拼接伪造操作,导致音频的真实性与完整性不易判断。按照音频拼接方式的不同,可以分为同人语音或非同人音频拼接、一段或多段拼接、真实片段音频拼接或真实与伪造音频片段拼接等多种形式。录音取证中鉴别一段音频检材是否经过拼接处理,已成为重要技术问题。
轻量级卷积神经网络利用时间和空间上的平移不变性,以及长短期记忆网络在时域的上下文记忆的优点,对自然音频和拼接音频能够更好地区分。通过滑窗的方法对待检测音频进行鉴别,对窗内音频特征信息进行分析,提高鉴别准确率,并能提供拼接点数量和时间信息估计。
ASVspoof2015数据集是第一个用于伪造和检测研究的主要数据集。该数据集仅针对逻辑访问攻击场景,分为Train、Dev和Eva三部分,其中Train和Dev包含真实和S1到S5共五种欺骗算法的虚假语音。Eva包含真实和S1到S10共十种欺骗算法的虚假语音。S10是基于开源文本转语音系统的拼接合成算法。使用ASVspoof2015-Eva的真实和S10数据构成拼接语音测试集,共计9404条真实和18400条拼接虚假语音。
由于ASVspoof2015未提供拼接训练集,本文采用两个中文语音数据集自制拼接训练数据,即THCHS-30(https:// www.openslr.org/18/)和MAGICDATA(https://www.openslr. org/68/),分别自制5470条真实和拼接虚假语音。基于PyTorch搭建实验环境,采用等错误率(Equal Error Rate,EER)作为评价指标,EER指标越接近于0表示模型的鉴伪检测效果越好。
?
由表2,在较大的帧长帧移和批次大小上取得了明显的效果提升,改变LSTM的层数对检测性能有进一步的提升。本文提出的LCNN和LSTM的网络结构,能够提高拼接语音鉴别的准确度。
注意力机制可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断。采用端到端的架构将音频的原始信息经过简单的转换编码格式等处理,然后直接送入模型进行检测是否为虚假音频。网络结构包含音频的嵌入特征提取模块,为了更全面更精准地学习伪造音频和真实音频的区别,嵌入特征提取模块分为两大部分,第一部分提取音频全频带嵌入特征,第二部分提取音频不同子频带嵌入特征。网络引入组合注意机制模块。为了让网络更好地学习音频局部的特点,该模块分为三个子模块:时间区域注意力模块、频谱区域注意力模块和通道区域注意力模块。网络中引入了融合注意力模块,既用于学习经过组合注意力模块进行特征选择之后保留的重要信息,也是对各个子频带和全频带进一步利用注意力机制进行融合学习。
ASVspoof2019数据集包含LA和PA两个子集,LA子集为真实语音和合成/转换语音,PA子集为真实语音和重放语音。使用ASVspoof2019-Eva的LA子集作为测试集,共计7355条真实和63882条虚假语音。使用ASVspoof2019-Train的LA子集作为训练集,共计2580条真实和22800条虚假语音。基于PyTorch搭建实验环境,引入基于残差网络的TSSDNet(Time-Domain Synthetic Speech Detection Net)[12],即Res-TSSDNet 端到端网络进行实验对比。
?
从表3可以看出,目前端到端网络比非端到端网络在音频鉴伪任务上取得了更好的检测效果,基于图卷积网络和多重注意力机制的等错误率低于1%,证明了方法的有效性。
为了提升检测准确率,降低检测误报率,实际音频鉴伪应用通常采用多系统融合的鉴伪检测方法。以下是一种基于端到端网络和非端到端网络融合的音频鉴伪系统。端到端网络系统中,获取音频的序列信息并进行归一化,结合融合损失函数进行优化训练得到端到端模型。非端到端网络系统中,提取音频特征并输入到后续模块中,结合融合损失函数进行优化训练得到非端到端分类模型。两种网络在训练时独立进行,在测试阶段将对两种模型检测的分数进行融合,提升系统的准确率和稳定性。端到端网络和非端到端网络中注意机制均可采用图注意力网络,该网络每个节点可以根据相邻节点的特征,为其分配不同的权值,另外引入注意力机制之后,只与相邻节点有关,无需得到整张图的信息。图注意力网络可以处理变长输入,关注有影响力的输入,可有效学习到真实音频和伪造音频之间的区别,从而提升模型检测性能。
智能语音技术日新月异,加强音频鉴伪检测与防御技术研究十分必要。从音频鉴伪攻防对抗角度,回顾了音频鉴伪技术的主要发展历程。从特征工程、深度学习、数据增强等方面介绍了音频鉴伪技术路线。阐述了当前主流的端到端鉴伪模型、注意力机制网络、面向实际复杂场景的数据增强等关键技术。最后,以语音拼接的传统伪造检测、基于多重注意力机制的音频鉴伪和基于多系统融合的音频鉴伪为例,详述了音频鉴伪技术系统。从实验结果可以看出,基于空间平移不变性以及时域上下文记忆的轻量级卷积神经网络和长短期记忆网络,可实现对自然音频和拼接音频的区分。在音频鉴伪任务上,端到端网络比非端到端网络普遍取得了更好的检测性能,进一步挖掘端到端网络的效果值得更多关注。
实际场景对音频鉴伪的通用性和泛化能力提出了更高要求,特别是对未见或跨域场景的伪造生成攻击。多因子多系统融合鉴伪,基于场景迁移、预训练模型、自监督学习(Self-supervised learning)的音频鉴伪技术将是未来的技术发展趋势。监督学习模型极度依赖于大量的有标签数据,而自监督学习可以作为音频鉴伪的前置任务,从海量无标签数据中学习音频的有效表征,更好地用于下游音频鉴伪任务。