多场景下中文录音回放语音数据集的设计与分析

2020-03-05 09:47周颖慧刘亚丽

中国传媒大学学报(自然科学版) 2020年1期

周颖慧，刘亚丽

(中国传媒大学传播声学研究所，北京 100024)

1 引言

说话人识别是一种不需直接接触，可远程操作的生物识别技术，因此受到关注与应用，如电话银行身份确认、司法案件侦破等[1-2]。说话人识别也面临被伪造的安全问题。目前主要的伪造手段有模拟说话人、语音合成、语音转换和录音回放。因为录音回放设备的不断发展，高质量伪造语音的获取变得不再复杂难操作。所以，在进行说话人识别系统设计的时候，防录音回放功能就成为一个重要的考虑因素[3]。关于该课题，国内外均以展开了一系列的相关研究。

在国外，1999年，Lindberg等人[4]首次评估了回放攻击的易破坏性，实验说话人只包含两人；2008年，Shang等[5]指出了基于语谱图相似度的检测算法，为评估系统性能，建立了一个由四个发音人、三种录音设备、三种回放设备组成的数据集；2017年，Kinnunen等人[6]为对不同录音回放环境下文本相关说话人识别系统进行保护，建立了一套进行录音回放检测的数据集。该开放录音回放数据集源自RedDots集。在The ASV spoof 2017 Challenge，该数据集被选为基础评估数据集。

国内针对汉语语音数据集的建立也在逐步完善中。2007年，清华大学张利鹏等人[7]从回放前后信道变化的角度出发，提出了一种基于静音段MFCC特征检测待测语音方法，该实验在安静的环境下，用高保真录音设备和普通录音设备同时录制发音人的语音，然后在相同的环境下回放高保真录音设备录制语音，用录音设备采集，得到数据集。2011年，王志锋等人[8]在华南理工大学多媒体与信息处理实验室设计并录制的“多设备录音回放语音数据集”已由中文语言资源联盟(Chinese Linguistic Data Con-sortium，CLDC)收录并发布，该数据集以发音人语音子库为基础，采用多个录音设备录音建成多录音设备语音子集，采用高保真回放设备将所录语音进行回放扩展成录音回放语音子集。该数据集在安静办公室和实验室环境下录制。2017年，陈亚楠等人[9]在一较为安静的办公室录制了包含31名发音人、两种采集设备、五种入侵设备和三种回放设备的录音回放语音数据集。

以上为录音回放攻击检测建立的数据集大部分针对具体研究目标和具体团队需求，因此存在环境单一、发音人覆盖面小、语料类型不足、设备不全面等问题。且针对中文的、成熟公认的语音数据集并未形成。

鉴于此，本文根据录音回放检测技术实际需求，建立一套多设备、多环境、多语料的针对中文的录音回放语音数据集，并通过听音实验与时域波形、语谱图和共振峰图的声学参数初步分析，对数据集质量进行综合评价，为录音回放数据集的进一步完善与录音回放检测技术的更好发展提供参考。

2 录音回放语音数据集的建立

2.1 语料文本

语料文本按照汉语普通话音节组成规则进行设计，基本遍历了所有的单音节结构，并且四声齐全。详细文本如下：

1.单语料

本部分语料以实际应用需求为指导，录制固定短语多次，如重复录制AI音箱唤醒词 “小爱同学”20遍。

2.多语料

•102个单音节：MHK一级词汇表中单音节60个，汉语中频率出现最多的前42个单字。

•140个多音节：其中包括指令词5个，四个声调的16种组合，音素音节分布均匀平稳。

•10个数字串：每个数字串包含8个数字，数字随机排列，数字0-9出现频率相等。

•10个短句：以一年级教材所学句子为主，有陈述句、疑问句、感叹句等类型。

•20首古诗词：常见的中国古诗词。

•自由文本：从给定话题(但不限于给定话题)中选取一两个，一分钟自由发挥。

2.2 发音人构成

选取209名发音人，男女比例基本平衡，普通话发音较好。具体情况如下：

•年龄分布：10-20岁140人，20-30岁58人，30-40岁10人，40-50岁1人。

•性别分布：男生87人，女生122人。

•地域分布：发音人籍贯共覆盖26省、自治区和直辖市，地域分布情况如表1所示。

表1 发音人地域分布情况

2.3 录音环境

录音回放过程主要由三部分构成，分别是录音环境、录音设备和回放设备。

录音环境有语言录音室(面积30m2，全封闭隔音设计，本底噪声为PNC 15)，会议室(约25m2)、办公室(约20m2)以及实验室(约50m2)。

录音设备包括采集设备和入侵设备。采集设备的选取必须可以保证语音原始音质尽可能的保留。入侵设备必须具有易隐藏、便于携带的特点。录音设备选取如表2所示。

表2 录音设备信息

注：因为商业因素，隐去设备品牌型号，用编号标注。

结合实际场景需求，回放设备需具有易隐藏、便于携带的特点，所以本文回放设备选取手机1、手机7和手机8。

2.4 录音过程

以现场发音人或者已有发音人语音集为原始素材，采用多录音设备进行采录(如图1所示)，选取回放设备将所录语音进行回放(如图2所示)，形成由发音人语音子集、多录音设备语音子集和录音回放语音子集构成的语音数据集。发音人口齿清晰、情绪正常，发音语速、语调、发声响度正常。录音回放包括以下三个步骤：

(1)发音人语音子集：发音人发音或用高保真扬声器播放已有发音人语音，用采集设备采录，采集设备距发音人(或高保真扬声器)0.3m左右。

(2)多录音设备语音子集：采录发音人语音子集同时，用不同入侵设备进行多角度入侵，入侵设备距录音人员(或高保真扬声器)0.7m左右。

(3)录音回放语音子集：同一环境，用回放设备对各个入侵设备录制得到语音进行回放，同时用采集设备进行采录，采集设备与回放设备间距离0.3m左右。

图1 录音过程现场图

图2 回放过程现场图

2.5 语音存储和命名

语音文件为 wav 格式，16bit 采样。对已录数据集进行分类，存储于各级文件夹下。一级文件夹根据录制环境分别命名为语言录音室、会议室、办公室以及实验室。二级文件夹根据设备类型分别命名为采集设备、入侵设备和回放设备。每个二级文件夹内包含该类设备对应所有语音文件。文件夹命名规则如图3所示。

语音文件的命名规则如图4所，例如OHF0119BJ.wav表示的是编号01的19岁来自北京的女生的用华为手机采集的信号；RHMRM0126TJ.wav表示的是编号01的26岁来自天津的男生用小米入侵用华为回放并通过录音笔进行采集的语音信号。

图4 语音文件的命名规则

2.6 语音标注

对已录数据集内容进行人工听辨校对，去除偏差较大及具有明显错误的语音。采用Praat软件进行语音标注，标注分为三个级别，分别是声韵母级、单字级、词级，如图5所示。在进一步研究中，可依据需求对语音文本进行音素标注。

图5 语音文本标注示意图

3 听音实验

本文通过听音实验，一方面对录制语音的质量做主观听感评价，另一方面从听觉感知角度为录音回放检测技术提供参考。

3.1 实验过程

实验在中国传媒大学全封闭隔音设计的声学实验室内进行，基本尺度7×6×4 米，本底和空调噪音低于N1。听音人共12名，5男7女，年龄分布在22-25岁之间，无听音障碍，有一定听音经验。

从录音回放语音子集中选取12组(6男6女)发音人发音数据“今天的太阳多么大啊我们家有三十六只羊”。录音回放环境为办公室；采集设备为手机2；入侵设备为录音笔1和手机1；回放设备选取手机1和手机7。

为了进行细致听辨，确保实验的准确性，本实验采用对偶比较法进行听音评价。听音者只需就某个给定的信号，按要求进行判断选择。首先通过预实验让听音者掌握实验过程。正式实验包括三部分：能否辨别出原始语音和回放语音；能否听出不同入侵设备之间区别；能否听出不同回放设备之间的区别。除了判断信号是否具有区别以外，三部分实验都需要根据给出选项对判断依据进行选择(如：空间感、噪声、音色、清晰度、明亮感、音调、远近、感情、亲切感、高低频成分、通透感)，同时也可添加选项中没有的判断依据(如：温暖感、磁性、真实感等)。

3.2 实验结果分析

对三组实验获取到的数据进行计算分析，同时对判断依据进行顺序统计，得到表3-表4。

表3 能否辨别出原始语音和回放语音

表4 不同设备之间区别

由表3可以看出，回放语音与原始语音的听辨准确率为99.5%，准确率非常高。听辨判断依据主要有清晰度、通透感、噪声和音色。

由表4可知，1)不同入侵设备之间整体准确度为82.1%，不同回放设备之间整体准确度为76.6%。相比较而言，入侵设备之间的差距大于回放设备之间的差距，原因可能是入侵过程中不仅存在设备之间的差距，还存在入侵位置不同；2)同类型设备比较分析，对于入侵设备，相同设备被误为不同设备的概率为1.0%，不同设备被误认为相同设备的概率为13.6%。对于回放设备，相同设备被误为不同设备的概率4.0%小于不同设备被误认为相同设备的概率42.9%。由此可知，不同设备之间的听感辨别还是有一定困难；3)在进行不同设备区别判断时，主要用来进行判断的依据有：清晰度、通透感、噪声和音色。该判断依据可为回放检测技术中的参数提取过程提供依据。

4 声学参数分析

本文将采集设备和入侵设备录制的用户语音定义为原始语音；将回放设备重放已采录语音得到的语音定义为回放语音。

以1名女性发音人发音数据“中午的太阳多么大啊”为例，从时域波形、语谱图、共振峰对比分析原始语音与回放语音。录音回放环境为语言录音室；采集设备为录音笔1；入侵设备为手机4、录音笔1和手机5；回放设备选取手机1和手机7。

4.1 时域波形分析

图6-图7分别表示回放设备为手机1和手机7时对应回放语音与原始语音的波形图。

(a)原始采集语音 (b)手机4入侵

(c)录音笔1入侵 (d)手机5入侵图6 原始语音与回放录音波形图(手机7回放)

(a)原始采集语音 (b)手机4入侵

(c)录音笔1入侵 (d)手机5入侵图7 原始语音与回放录音波形图(手机1回放)

由图6和图7可知，经同一入侵设备不同回放设备录制语音，衰减程度有区别。经同一回放设备不同入侵设备录制语音波形图间差异较小。整体来看，不同回放设备、不同入侵设备对应的回放语音相较原始语音波形图整体趋势相近，差别较小。

4.2 语谱图分析

图8-图9分别表示回放设备为手机1和手机7时对应回放语音与原始语音的语谱图。

(a)原始采集语音 (b)手机4入侵

(c)录音笔1入侵 (d)手机5入侵图8 原始语音与回放录音语谱图(手机7回放)

(a)原始采集语音 (b)手机4入侵

(c)录音笔1入侵 (d)手机5入侵图9 原始语音与回放录音语谱图(手机1回放)

由图8和图9可知，1)不同入侵设备、不同回放设备产生的回放语音语谱图变化趋势与原始语音基本相同，但回放语音能量有衰减，且在静音区有较多噪声出现，其高频部分能量有增加；2)同一回放设备不同入侵设备，录音笔1产生的能量衰减较为明显，手机4和手机5能量衰减基本相同；3)同一入侵设备不同回放设备产生语音，能量变化趋势基本一致。

综上所述，从语谱图直接观察可得到，回放语音与原始语音差异主要存在于能量及噪声分布上。

4.3 共振峰图分析

图10-图11分别表示回放设备为手机1和手机7时对应回放语音与原始语音的共振峰图。图中红点表示共振峰的中心频率。

(a)原始采集语音 (b)手机4入侵

(c)录音笔1入侵 (d)手机5入侵图10 原始语音与回放录音共振峰图(手机7回放)

(a)原始采集语音 (b)手机4入侵

(c)录音笔1入侵 (d)手机5入侵图11 原始语音与回放录音共振峰图(手机1回放)

从图10和图11可知，原始语音共振峰中心频率位置相较于回放语音更加规律。回放语音共振峰中心频率分布增加了很多的不确定性，分布更加分散，这部分引起原因可能是设备引起的噪声。但变化趋势一致，即录音回放没有改变共振峰整体走向。

从时域波形、语谱图、共振峰对比分析发现，原始语音与回放语音在时频域的相似度很高，因此直接通过波形、语谱图或者共振峰相似度进行二者识别，则难度较大。所以，寻求更具有区别度的深度特征进行模式匹配，对防录音回放攻击而言是非常有必要的。

5 结论

本文建立了具有丰富发音人信息、信道信息以及环境信息的针对中文的多场景下录音回放语音数据集，包含209个发音人，4种采集设备、6种偷录设备和3种回放设备，涉及4种不同应用场景。通过听音实验对录制语音质量进行主观听感评价，同时从时域波形、语谱图、共振峰角度进行声学参数初步分析，为录音回放检测技术的发展提供参考。