基于倒谱特征的重放语音检测

2020-06-24 03:00金雨晨凌霖许毅

物联网技术 2020年6期

金雨晨凌霖许毅

摘要：IoT设备身份认证是物联网领域的重要应用。语音重放欺骗攻击现已成为自动说话人验证（ASV）系统所面临的严重的安全威胁。文中以ASVspoof 2017语音数据集为研究对象进行重放语音检测实验，利用倒谱均值方差归一化（CMVN）改进检测系统性能。实验结果表明，采用CMVN后的线性频率倒谱系数（LFCC）特征在重放语音的检测上性能优于常数Q变换倒谱系数（CQCC）、梅尔倒谱系数（MFCC）和逆梅尔倒谱系数（IMFCC）特征。

关键词：物联网;自动说话人验证;倒谱特征;重放语音检测;倒谱均值方差归一化;逆梅尔倒谱系数

中图分类号：TP393;TN912.3文献标识码：A文章编号：2095-1302（2020）06-00-03

0 引言

说话人识别领域在过去的几十年中取得了重大进展。事实上，这项技术已经成熟了，可以广泛的应用于现实世界中。但是多项研究表明，没有采取一定检测措施的自动说话人验证（Automatic Speaker Verification，ASV）系统对于欺骗攻击表现得非常脆弱[1-3]。语音欺骗攻击手段主要有模仿、语音合成、语音转换、录音重放等，其中重放录音是最容易采用的欺骗攻击方式，它不需要特殊的信号处理知识就能够进行[4]。在过去的几年里，特别是从ASVspoof 2015挑战赛开始，为了保护说话人识别系统，人们进行了大量的研究工作，制定了各种反欺骗策略。一般，反欺骗系统由两部分组成：前端用于参数化语音信号，后端通过分类器确定其是真实语音还是欺骗语音[5]。

本文对基于倒谱特征的重放语音检测系统进行实验和分析，并对比几种不同倒谱系数特征系统的性能。

1 ASV系统及重放语音检测

基于GMM-UBM分类器的ASV系统模型如图1所示。

ASV系统模型可能在8个位置受到攻击，其中重放语音攻击一般发生在语音信号的输入，即麦克风接收端。相应的，反欺骗系统的分类器需要训练真实语音模型和欺骗语音模型，针对重放语音的检测过程如图2所示。

2 基于倒谱特征的重放语音检测算法

重放语音检测算法的流程如下。

（1）语音信号的采集。

（2）信号的预处理，包含采样量化，预加重，端点检测，分帧，加窗等。

（3）特征提取。

（4）模型的训练，即分类器。本文采用高斯混合模型（GMM），通过训练集语音数据获得真实说话人语音模型与欺骗语音模型。

（5）检测判决。对测试语音数据（开发集或评估集语音数据）分别在真实说话人语音模型与欺骗语音模型上计算对数似然分值后，获得系统的等错误率EER值。

本文主要对基于不同倒谱系数特征的欺骗检测系统进行评估对比，系统的EER值越低反映检测性能越优。

2.1 实验条件

造成重放语音攻击研究困难的部分原因是缺乏可公开使用的数据库和统一的基准，ASVspoof 2017是第一个提供重放语音标准语料库、协议和度量指标的公共框架倡议。

ASVspoof 2017数据集主要以RedDot数据库作为真实语音的来源，RedDot重放数据库作为伪造重放录音的来源[6]。数据集被分成训练集、开发集和评估集三个分组，表1给出了它们的数据统计，数据对应177种不同的重放会话和61种

不同的重放配置[3]。重放配置是指录音环境、录音设备和重放设备的一种组合。

2.2 基于CQCC特征的重放语音检测

CQCC（Constant Q Cepstral Coefficients）是一种经常使用的声乐识别与检测的声学特征。CQCC的特征提取主要分为以下几个过程：预处理，常数Q变换（CQT），能量谱，对数能量，离散余弦变换（DCT）[7]。

将经过预处理的语音信号进行常数Q变换，将语音信号由时域变换到频域。CQT可以被视为一组有着对数间隔的滤波器，它和小波变换类似，具有可变的时间和频率分辨率，相较传统的DFT而言，能提供更佳的信号分辨能力，在ASVspoof 2015的合成语音检测任务中表现出优秀的检测性能，因而ASVspoof 2017将CQCC特征的检测系统作为基线（BASELINE）系统。

提取CQCC特征时，不进行预加重，最低分析频率设为15.625 Hz，最高分析频率取8 000 Hz，第一个八度音阶的均匀采样数d为16，每個八度音阶包含的频带数设置为96，CQCC原始特征维度设置为30维（包括0阶系数），在经过一阶和二阶差分以后，最终每帧音频对应的CQCC特征为90维特征向量。GMM分类器的高斯分量数设置为512，利用训练好的GMM模型对系统进行性能评估。

2.3 基于MFCC，IMFCC，LFCC特征的重放语音检测

提取MFCC（Mel Frequency Cepstral Coefficients）倒谱系

数一般包括：预处理、快速傅里叶变换（Fast Fourier Transform，

FFT）、梅尔滤波、DCT变换。经过快速傅里叶变换后得到的离散频谱用一组三角滤波器进行滤波，最后进行离散余弦变换。在用MFCC进行特征提取时，滤波器以MEL频率比例放置，在低频区域中具有更密集的间隔。

与MFCC不同，IMFCC采用了逆梅尔滤波器组取代梅尔滤波器组。逆梅尔滤波器组与传统梅尔滤波器组的结构相反，它使用在“倒MEL”尺度上线性分布的滤波器，更强调高频区域，因而在高频范围有着更高的分辨率[5，8]。

LFCC（Linear Frequency Cepstral Coefficients）与梅尔倒谱特征提取过程类似，但它的滤波器组频率不是按MEL频率分布，而是按照线性频率分布的。

在进行重放语音检测时，对语音信号进行预加重，系数取0.97，FFT长度为512。窗函数为Hamming窗，窗口长20 ms，时间偏移为10 ms，其他设置和CQCC相似，每帧语音得到90维特征向量，GMM模型同样为512维。

2.4 倒谱均值方差归一化

信道干扰会降低重放语音检测系统的性能，而倒谱均值和方差归一化（Cepstrum Mean Variance Normalization，CMVN）是一种用于消除干扰信道效应的有效的归一化技术。不同声学环境下不同设备的语音回放和记录类似于附加通道效应的积累，而CMVN的目的是减少信道效应，这可能会对重放检测造成不利影响[3]。但这种情况只在录音发生在相同信道的条件下成立，由于ASVspoof 2017数据来自使用异构设备和信道的Red Dots数据库[6]，此情况并不成立。

CMVN可以帮助將真实的和重放的语音分布调整到一个共同的范围，从而迫使欺骗检测根据信道差异外的其他影响对两者进行区分。

3 实验结果

不采用CMVN时，对基于不同倒谱特征的检测结果进行分析，见表2所列。

对比MFCC和IMFCC，IMFCC特征在重放语音检测中的性能要明显优于MFCC特征的性能。由于逆梅尔滤波器组的特性，IMFCC在高频段分辨率要高于梅尔滤波器组，说明语音信号高频段对检测结果的影响更大。总体来看，CQCC基线系统在评估集的结果最优，LFCC次之，MFCC和IMFCC的性能则相对较差。开发集的检测结果优于评估集，主要是由于评估集的语音数量和重放配置远多于开发集（见表1），所以评估集结果更能反映系统的实际检测性能。

为改进重放语音检测系统的性能，对CQCC，LFCC特征采用CMVN，得到的检测结果见表3所列。

对比加入CMVN前（见表2）数据，CQCC的评估集EER减少了10.61，LFCC的评估集EER下降了19.72。结果表明，CMVN有助于提升系统对新语音样本的适应能力，并且从改善效果看，LFCC的性能要好于CQCC的性能，因此，可以得出LFCC+CMVN针对重放语音的检测中有很好的效果。

进一步，在LFCC加入CMVN的基础上，考察GMM模型高斯分量数的改变对于重放检测系统性能的影响，结果见表4所列。

由表4可见，随着高斯分量数的增加，EER的值会有一定的减小，但减小幅度有限。实验结果表明，适当增加高斯分量数可以提升系统的性能。但是，增加高斯分量数会使得计算量增大，大大增加实验的时间。

4 结语

基于语音的身份认证相对其他生物特征，具有用户接受程度高、拾音设备简单、数据量小、计算复杂度低等优势，因此基于说话人识别的身份认证系统应用越来越广泛。但是，说话人识别系统对于各种欺骗攻击技术表现非常脆弱。基于倒谱系数特征的重放语音检测系统能增加ASV系统的可靠性，本文在实验后得出结论：基于IMFCC特征的系统检测性能要优于基于MFCC特征的系统，但总体上，基于MFCC和IMFCC特征的系统性能相对较差;CMVN能提升重放语音检测系统的性能;增加GMM模型高斯分量数也能少许改善系统检测性能，但要付出运算量代价;相比CQCC，MFCC，IMFCC，基于LFCC特征的检测系统，性能最优。

参考文献

[1] WU Z Z，EVANS N，KINNUNEN T，et al. Spoofing and countermeasures for speaker verification：a survey [J]. Speech communication，2015，66：130-153.

[2] KINNUNEN T，WU Z Z，LEE K A，et al. Vulnerability of speaker verification systems against voice conversion spoofing attacks：the case of telephone speech [C]// IEEE International Conference on Acoustics. Kyoto：IEEE，2012：4401-4404.

[3] DELGADO H，TODISCO M，SAHIDULLAH M，et al. ASVspoof 2017 Version 2.0：meta-data analysis and baseline enhancements [C]// Odyssey 2018-The Speaker and Language Recognition Workshop. Les Sables dOlonne，2018.

[4] FONT R，L?PEZ J M E，CANO M J. Experimental analysis of features for replay attack detection：results on the ASVspoof 2017 challenge [C]// International Speech Communication Association. Stockholm：Interspeech，2017：7-11.

[5] SAHIDULLAH M，KINNUNEN T，CEMAL H. A comparison of features for synthetic speech detection [C]// Proceedings of the Annual Conference of the International Speech Communication Association. Dresden：Interspeech，2015：2087-2091.

[6] KINNUNEN T，SAHIDULLAH M，FALCONE M，et al. RedDots replayed：a new replay spoofing attack corpus for text-dependent speaker verification research [C]// 2017 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP 2017）. New Orleans：IEEE，2017：5395-5399.

[7] TODISCO M，H?CTOR D，EVANS N. Constant Q cepstral coefficients：a spoofing countermeasure for automatic speaker verification [J]. Computer speech & language，2017，45：516-535.

[8]林朗，王让定，严迪群，等.基于逆梅尔对数频谱系数的回放语音检测算法[J].电信科学，2018，34（5）：96-104.

[9]凌贤鹏，李绽蕾，刘昊.基于智能语音的智能家居系统设计[J].物联网技术，2019，9（1）：73-74.

[10]原晨，高勇.高质量信道上回声隐藏法秘密信息提取出错原因分析[J].现代电子技术，2015，38（11）：103-106.