翻录对语音真实性检验的影响研究

2021-01-07 01:07倪令格王华朋刘元周张琨瑶牛瑾琳
关键词:频响频带痕迹

倪令格,王华朋,刘元周,张琨瑶,牛瑾琳

(中国刑事警察学院公安信息技术与情报学院, 辽宁沈阳 110854)

0 引言

使用录音设备录制正在播放的音频以获得新数字音频资料的过程,叫做翻录。翻录的存在,对法庭语音证据真实性检验产生一定威胁。随着科学技术及电子设备的快速发展和运用,人们利用手机或电脑即可轻易获得高质量的数字音频,且对录音资料进行编辑加工等操作简单易行。在音频篡改拼接中,翻录通常被用作后处理方法,弱化甚至抹除篡改痕迹,使获得的伪造音频听起来更自然。此外,翻录可以通过预先录制当事人语音进行回放来伪造说话人,扰乱身份认证系统,攻击声音解锁功能,文献中也表明在说话人自动识别系统中翻录语音的识别错误率增加[1]。因此,翻录语音真实性检测成为法庭取证的一个重要环节。

Villalba J等人[2]发现翻录改变了信号的频谱和调制指数,这种改变可以被判别分类器检测到,对区分原始音频和翻录音频具有较好的效果。罗达等人发现翻录可以改变音频的信噪比(SNR),而且翻录获得的音频频带稍微减弱[3]。Chettri B等人[4]通过实验分析表明,部分真实语音中前几帧的能量较剩余帧更低,存在离群值(奇异值),而翻录语音的各帧之间的能量分布似乎是均匀和平滑的。谢志峰等人通过使用当下发布的ASVspoof 2017和BATS 2016,比较了梅尔频率倒谱系数(MFCCs)、线性倒谱系数(LFCCs)、翻转梅尔频率倒谱系数(IMFCCs)、常数Q倒谱系数(CQCCs)和瓶颈特性5个特征,表明MFCCs及瓶颈特征优于其他特征,且通过增加滤波器和倒谱箱的数量,可以显著提高欺骗检测系统的性能[5]。但这些都很难通过谱图直接观察得知,故而很难应用于司法语音的真实性检验过程中。

法庭语音的真实性检验是一个系统检验的过程,其技术、方法较为成熟,王华朋[6]研究了常见语音被编辑加工痕迹的检验方法,刘满良等人[7]从文件属性检验、听觉检验和声学检验3个模块分析,进行语音原始性检验。翻录操作会对法庭语音证据的真实性检验产生重要影响,但翻录对其影响暂未有系统性研究。本文重点从声谱图角度分析,关注噪声检验、文件属性和听觉检验、异常图谱检验过程中,翻录时噪声特征、篡改点的改变、频带特征和频响范围的改变;同时总结翻录后篡改痕迹的变化规律及其在语音真实性检验中的应用。

1 原始语音和翻录语音的产生过程

原始语音和翻录语音的产生过程如图1所示,本实验共录制100段原始语音,语音时长2~6 s,包含相对静音片段。采样率为48 kHz的30段,量化精度32 bits;采样率为16 kHz的70段,量化精度16 bits。

图1 原始语音和翻录语音的产生过程

对其中20段原始语音(48 kHz)经室外、实验室环境转录,研究相同设备下翻录操作对背景噪声及本底噪声的影响;对其他80段语音,进行篡改处理(插入、抹除、剪切、不同频响范围拼接),并分别用高低采样率设备进行转录,研究翻录设备采样率不同对于篡改点声谱图的影响,同时观察翻录操作本身的声痕迹。

设备信息具体如下:原始语音及翻录过程涉及到的高采样率(48 kHz)设备为HUAWEI MATE 10,低采样率设备(16 kHz)为Honor Che1- CL10,翻录时,播放设备为手提电脑Lenovo小新Air 14IKBR,播放响度60 dB,录制设备距离扬声器40~50 cm。

2 翻录操作对法庭语音真实性检验的影响

2.1 翻录对音频噪声的影响

2.1.1 对声学环境噪声的影响

音频资料在翻录过程中,必然增加3种噪声元素,即声学环境(AE)噪声、播放设备(PD)噪声和录制设备(RD)噪声,但后两者很难区别开来。故实验采用相同播放设备、录制设备,控制播放音量、录制距离相同的情况下,研究声学环境噪声对原始音频影响。

结果表明,翻录会增加原始音频的背景噪声,改变音频信噪比,且室外翻录语音段信噪比明显降低,如图2所示。实验室环境下录制的语音背景噪声差距较小,需结合其他特征进行分析识别,但室外环境下录制音频,不仅增加非语音段的整体噪声,而且在语音段还会附加无规则噪声信息,如图3所示。根据录制时刻的不同,增加的噪声种类、大小也不尽相同。在语音原始性检验过程中,着眼于背景噪声与送检方声称录制环境的不符,鉴别语音真实性。

图2 原始语音及不同环境下翻录语音段信噪比

2.1.2 对本底噪声的影响

音频中,背景噪声和本底噪声是独立的,本底噪声主要由与麦克风相关的电子元件及编码传输失真产生的噪声组成[8]。录音设备的本底噪声是设备本身产生的,是一种在没有信号输入的情况下也能产生的噪声。

翻录过程中,为保证语音录制的完整性,往往会优先开启录制设备,再回放音频。分析实验所得,本底噪声弱,开启音频后,本底噪声突然增强,在声谱图上会表现出播放设备开启前后本底噪声的明显差异,如图4所示。

图3 原始音频与实验室环境、室外环境下 翻录音频背景噪声差异

不同的录音和回放设备引入不同的噪声[9](麦克风、扬声器、抖动电路、前置放大器、功率放大器、输入和输出滤波器、A/D、D/A、取样保持电路等都会引入相应的噪声[10],这些噪声叠加在翻录语音上,使得翻录后的语音与原始语音存在细微的差异。在语音真实性检验过程中,持续且规则噪声的出现,考虑为音频翻录事实的存在。

2.2 翻录对文件属性、听觉检验影响

法庭语音的检验程序主要包括文件属性分析、听觉检验和声学检验3个方面,通过分析比对原始音频与翻录音频,研究翻录操作的影响,并检验分析翻录语音的真伪性。

2.2.1 翻录对文件属性检验的影响

对数字音频进行文件属性检验,主要包括文件名、创建时间、修改时间、音频时长、格式、MD5码、采样率及声道数目等,此外还能获得音频格式信息[11]。

(1)初级检验:由于翻录语音的伪造性,其录制设备与原始设备往往不同,音频格式信息也会有所差异,故核实检材录音与其声称送检录音设备中其他录音文件属性的异同,检材录音的文件属性与送检方声称的录制情况是否存在矛盾,辨识检材语音的真伪。

(2)文件名隐藏的信息:如文件名为20191201140027.wav的音频,文件名时间为“录制开始的时间,文件名时间+录制时长=文件修改时间”。翻录语音与原始语音录制时间必然相违背,根据音频录制时间的唯一性,发现检材音频文件与送检方声称录制时间的矛盾,推断该语音的真实性。

(3)文件属性中包括创建时间、修改时间、访问时间等信息,结合翻录事实,根据各时间信息的矛盾,推断此音频文件的真实性。

2.2.2 翻录对听觉检验的影响

考虑到对音频进行翻录的主要目的是为了掩盖篡改事实,伪造录制环境,故针对翻录语音的听觉检验主要包括仔细审听、理解语义、异常分析3个阶段。

第一阶段,审听送检语音的整体情况,看交谈是有卡顿、不流畅的地方。因翻录语音常存在录音环境与当事人声称的不一致,故关注细节,重点听背景声音中是否存在突兀声音的加入,音强高低是否有明显改变。

第二阶段,理解谈话内容,了解事情发生的来龙去脉与目的。考虑到篡改操作不仅可以拼接、复制,也可能改变说话人的音色,而翻录可以将这些特征固定下来,故检验时辨识交谈者身份是否相符,语义是否连贯,说话人是否存在伪装现象。

第三阶段,因翻录语音的真伪性识别相对困难,重点分析听觉中断或异常的位置,关注非常见的词语或语法的表达,针对背景声音不连贯或异常的位置多次进行真实性排查。

2.3 翻录对异常图谱声学检验的影响

声学检验常通过分析频谱图或声谱图的表现,以发现音频编辑加工出现的痕迹,对不同篡改操作及翻录音频进行声学检验,并给出翻录对篡改痕迹的影响。

2.3.1 翻录对插入拼接痕迹的影响

插入拼接痕迹是指向一段音频内插入来自语音文件或其他语音文件的语音片段,以求更改语音表达的意思,达到混淆视听的目的[12]。语音证据的提供方往经常采取插入拼接的方式,加入自身有利的信息以更改原始语义,试图掩盖事实真相。

由于录音设备的不同或录制环境的差异,在图谱上可见本底噪声和背景噪声的不同,表现为噪声的大小和分布差异,在拼接处存在明显整齐的边缘(复制或剪切痕迹处也会表现出明显的边界),在听觉感知上可以通过背景噪声的突然变化加以区分[13]。

如图5所示,将文本为“电话号码”的语音插入拼接至采样率为16 kHz的原始音频中。根据本底噪声周边检验法,可见其开始、结束及上方出现整齐的边缘分割痕迹。经过低采样率(16 kHz)的设备翻录后,结束位置的边界变得模糊,变化程度较轻;经过高采样率(48 kHz)的录音设备翻录后,8 kHz以上位置出现本底噪声,同时插入拼接处痕迹几乎被全部掩盖,高于原采样率一半的频率区域能量为0。

图4 播放设备开启时本底噪声痕迹

2.3.2 翻录对抹除(静音)类痕迹的影响

抹除类痕迹是指语音证据的提供方抹除语音中对己方不利的语音片段或字词,而把对己方有利的部分留下[12]。此类痕迹经常出现在视频证据中,因不能对音频直接删除,否则将导致删除后音频错位,而采取静音操作。

静音痕迹在波形图上表现为没有任何的振动信号,即使对波形进行放大,声波的采样点数据亦几乎为零。在声谱图中会表现出现间断现象,使用不同的软件观察可见白色或黑色的空白区域,没有任何的频率的能量存在,即使在相对静音段进行抹除,在图谱中亦能表现出明显的分界线。

如图6所示,此处被抹除的语音文本为“我欠你”。经低采样设备翻录后,该静音痕迹被部分抹除,但在静音段两侧出现微弱的能量条,解释为播放设备在遇到静音段时频率的改变而产生的播放痕迹。在高采样率设备翻录后,静音痕迹被完全抹除。

图5 插入拼接痕迹及低、高采样设备翻录声谱图

语音真实性检验过程中,当静音类痕迹被翻录时,人工检验时不能通过声谱图发现其抹除痕迹,但在听觉感知上可能会出现上下文逻辑混乱,说话内容突兀,与正常交流的内容相差甚远,出现非正常的听觉中断或异常的情况。

2.3.3 翻录对剪切/删除类痕迹的影响

剪切/删除类痕迹是指证据提供方为了自身需求,剪切或删除掉对自己不利的录音片段,而形成的编辑后痕迹,一般表现为听觉异常或本底噪声差异大,声谱图中剪切痕迹两侧分界明显等。

根据汉语语法规则可知,两个声母不能连续出现,而一般剪辑操作者不会特别注意此问题,给我们在检验其真实性方面提供了便利。如图7所示,声谱图中为/sh/和/ch/两个声母相连的遗留痕迹,经低采样设备、经高采样设备翻录后,编辑痕迹被抹除,但/sh/和/ch/两个声母相连的事实不会改变,仍然存在听觉异常。而且,翻录后擦音部分出现共振峰,但未见第一共振峰,此共振峰的出现与播放设备有关。

图6 静音痕迹及低、高采样设备翻录后声谱图

同时,在声谱图中,只有塞音(如b,p,d,t等)和塞擦音(如z,q等)前因气流突然爆破才会出现冲直条,其他的音节都是一个逐渐增强又减弱的一个过程。

2.3.4 翻录对频响范围改变痕迹的影响

语音在篡改过程中,由于录制设备的不同,可能出现音频采样率的不同,低采样率设备与高采样率设备录制的音频拼接后,声谱图上会表现为音频的频响范围明显不同。高采样率设备录制低采样率语音时,可见翻录语音中高频部分出现明显的能量缺失现象;低采样率设备录制高采样率语音时,相当于对原始语音进行降采样,部分翻录语音的本底噪声上边缘整齐,与一般真实性语音不符。

如图8所示,原始语音文件为低采样率,而被加入高采样率的一段音频,这不仅使数字音频资料的整体采样率发生改变,而且可以清晰观察到声谱图中插入音频处的频响范围明显大于其两侧的频响范围,因此判断为篡改痕迹。使用低采样率对该篡改痕迹进行翻录时,由于采样率的限制,完全抹除频响范围差异的痕迹,表现为前后语音相同频响范围;使用高采样率设备对篡改音频进行翻录,则可重现编辑痕迹,从而发现修改事实,识别数字音频的非真实性。无论图谱表现与否,在听觉感知上,翻录语音中经过修改处的语音明显增强,由此可以作为辨别其真伪性的依据。

图7 剪切痕迹及低、高采样设备翻录后图谱表现

2.4 音频翻录操作声痕迹特征

音频在翻录过程中,不仅会出现平滑甚至抹除篡改痕迹,而且其操作本身会留下一定的声痕迹,根据观察比对原始语音与翻录语音,结合操作事实得出以下两方面固有特征。

2.4.1 音频翻录频带能量特征

频带是指无线电频谱上位于两个特定的频率界限之间的部分。根据实验观察声谱图发现,翻录操作能够改变某频带范围内能量的强弱,将其解释为播放设备与录制设备的相互干扰,使翻录后音频声谱图中表现出类似于“带阻滤波器”的效果,从而减弱该频带范围的能量。该实验中使用的低采样设备翻录音频声谱图显示,降低了频带为3 kHz左右的能量,而高采样设备降低了频带6 kHz左右及4 kHz左右的能量,如图9所示,白色区域内深色条带。不同设备翻录后频带减弱范围不同,且能量降低的程度存在差异,但该特征相对稳定且易于观察。当声谱图中出现某固定频带范围内能量减弱,应考虑为音频被篡改或经翻录形成的可疑点。

图8 不同采样率音频拼接痕迹表现及不同设备翻录后声谱图

2.4.2 翻录操作动作痕迹特征

语音的翻录可以对多个音频起到拼接作用,断章取义得到目标音频,最常使用暂停、继续等按键操作。若在录音过程中有暂停行为,说明得到的数字音频不具备真实性,也表明出现暂停按键动作会遗留下暂停按键声音痕迹[14]。

实验研究证明,手指在触摸到手机屏幕使其暂停的时刻,时域波形图上出现单条竖线状短时刻振幅,操作后因设备反应延迟音频仍在录制,直至真正暂停。再次开始时,按键操作痕迹没有图谱痕迹显示,但开始时音频录制会出现延迟现象,能量图谱中对应区域出现空白,如图10所示。

图9 不同设备翻录后音频频带能量改变

图10 暂停、继续痕迹

同一台设备录制后留下的暂停痕迹不尽相同,这与每次按键的快慢、力量大小的不同、按键的机械结构相关[12]。使用不同设备、不同触摸方式,图谱表现也相差甚远。

3 翻录痕迹特征分析及其在语音真实性检验中的应用

根据实验设计,将文中提及的相关痕迹特征的语音段进行统计并得到表1。

表1 实验中相关痕迹统计信息

可见,本底噪声改变痕迹、篡改后翻录语音频响范围改变痕迹的出现是稳定的,能作为识别翻录的重要依据;而不规则噪声、频带能量减弱及翻录动作留痕的出现存在偶然性,其中频带能量特征痕迹特征出现率高,若在检验过程中发现异常,可作为语音真实性检验的参考因素。

在常规法庭语音真实性检验的基础上,出现声谱图中出现以下特征,则考虑为篡改后的翻录语音:

(1)当音频中出现本底噪声明显差异,应考虑为翻录操作中音频播放的起始位置。

(2)当音频表现出背景噪声差异,可观察到异常语音段声谱图分界明显而有别于常规插入拼接痕迹,尤其是出现整齐的上边缘,应考虑为插入拼接篡改后的翻录语音。

(3)当录音文件中出现相对静音段或前后文语义不连贯,但图谱表现中仍存在连贯的本底噪声,应考虑为抹除篡改后的翻录语音。

(4)当声谱图中出现某固定频带范围内能量减弱或增强,应考虑为音频被篡改或经翻录形成。

(5)根据声谱图及汉语规则,当录音文件中出现元音的谱图呈现无规律变化或具有塞音、塞擦音、擦音遗留痕迹,且声谱图中过渡平滑,应考虑为剪切/删除篡改后的翻录语音。

(6)当图谱中出现明显频响范围不同,主要使用比对法是在相似语音环境下使用原始录音设备录制一个语音样本,对比两者频响范围[7]。若二者差异明显,则考虑为篡改痕迹。

4 结论

为打击不法分子利用翻录语音进行违法犯罪、断章取义伪造音频,利用翻录操作平滑甚至抹除音频篡改痕迹的现象,通过分析对比原始、篡改语音及200段翻录语音数据,研究了翻录特征及其对文件属性检验、听觉检验及篡改点痕迹的影响,并对翻录后的篡改痕迹改变规律进行了总结。结果表明,翻录过程存在其固有特征,即翻录过程使原始音频中固定频带范围的能量减弱,动作声痕迹遗留,背景噪声及本底噪声增加;翻录操作在包含文件属性检验、听觉检验和异常图谱声学检验的整个语音真实性检验过程中都产生作用及影响,且高采样率设备翻录后的平滑效果更明显。研究翻录对法庭语音真实性检验的影响,不仅完善了司法语音的内容检验范畴,而且能够对于制止网络中出现的不实语音恶意攻击具有借鉴意义,从而打击犯罪、维护社会公共安全,同时保证自动说话人识别系统中身份验证、信息检索的准确率。未来,针对翻录语音进行真实性检验会朝着更加智能化的方向发展。

猜你喜欢
频响频带痕迹
基于小波变换的输电线路故障类型识别方法研究
跳频通信系统同步捕获回路抗干扰性能分析
基于频响函数预测法的车内振动传递路径分析
基于分块化频响函数曲率比的砌体房屋模型损伤识别研究
Wi-Fi网络中5G和2.4G是什么?有何区别?
美团外卖哥
单音及部分频带干扰下DSSS系统性能分析
小偷留下来的痕迹
生命痕迹
变压器绕组变形的检测