吕志胜 胡永健 李晗 刘琲贝
(华南理工大学 电子与信息学院,广东 广州 510640)
如果数字录音设备由市电供电,则在录音过程中电网频率(ENF)会在录制的内容中留下印迹,此印迹可用于音频篡改检测[1-2].文献[3-6]中通过比较从待测语音信号中提取的ENF 与实时记录的市电ENF 的连续性和一致性来判断是否发生篡改.文献[7-8]中指出日光灯的闪烁频率是ENF 的两倍,并将此类方法推广到对室内照明环境中录制的视频真实性进行检测.这类方法的不足是需要大量参考ENF信号,且灵敏度不高,只能对较长的音频(持续时间为几分钟甚至几个小时)进行检测.文献[9-10]中利用不同电网的ENF 存在差异这一特点估计音频录制的区域,但不涉及对音频篡改的讨论.目前利用ENF 实现音频篡改盲检测的代表性工作有文献[11-13].文献[11]中利用频谱距离和ENF 相位的突变来检测音频真实性,但对频率的分辨率较敏感,只有分辨率足够大时才能准确估计相位,否则误差较大.文献[12]中采用高精度傅里叶分析方法改进了文献[11]中的方法,但计算量较大.笔者曾在文献[13]中通过引入一个理想的正弦信号作为参考信号,计算待测音频中ENF 信号各子块与参考信号取得最大相关时的偏移量,通过最大相关偏移的变化情况来检测音频篡改.
文中从两个方面改进文献[13]中的方法:一是提出一种不需要额外参考信号来计算各块ENF 信号最大相关偏移的方法;二是利用最大相关偏移的变化及其极值点斜率变化联合判断篡改区域.所提出的方法更加便捷和准确.
设读取的待测音频信号为s(n),其采样频率为fs,其中n 为采样时刻.为减小运算量,对音频信号进行下采样得到x(n)=s(nM),其中M=fs/fd,fd为下采样频率.设电网固有频率为f0,为了防止频率混叠,取fd≥2f0.将x(n)通过一个中心频率为f0的窄带零相位带通滤波器滤波,得到ENF 信号y(n)=xENF(n)+d(n),其中xENF(n)为理想的ENF 信号,d(n)为窄带噪声,n=1,2,…,L,其中L 为音频数据的长度.
为了利用所抽取的ENF 信号检测音频是否发生篡改,可将y(n)划分为相互重叠的子块,各子块长度为ENF 固有周期的整数倍.设子块的采样点数为NW,则NW=C0N0,这里N0=fdf0,为一个ENF 周期内的采样点数.通常相邻子块之间取(C0-1)N0的数据重叠.由于理想的xENF(n)为正弦信号,故第i 个子块的信号可表示为
式中,k=(i-1)N0+l,l=1,2,3,…,NW,i=1,2,…,NBLOCK,NBLOCK为子块数.θi为第i 个子块的初始相位.A0是ENF 信号的幅度.具体估算初始相位的方法详见文献[12].
若待测音频没有被改动过,则在不考虑干扰的情况下ENF 信号是一个连续光滑的正弦波,这个特性反映到各个子块上,则表现为各个子块的初始相位相等.文献[12]中通过评估各子块ENF 信号初始相位是否相等来确定所测音频是否发生插入或删除篡改.当处理真实世界的待测音频时,必须考虑电网的波动.受电网波动干扰的ENF 信号是一个有畸变的正弦信号,此时各子块的初始相位不再严格相等,而是有小幅度的波动,但在篡改区域,相邻块的相位会出现大幅度的跳变.下面用一个例子来说明.图1 中的待测音频有部分语音片段(第9.502 至第13.887s)被删除,文中用文献[12]中的方法来检测篡改.先从待测音频中抽取ENF 信号,对应的信号见图1(a),然后分块并计算各子块的初始相位.图1(b)中虚点线为正常未篡改时的各子块相位的正常波动曲线,星型曲线为篡改后各子块相位的波动曲线.可以看到大约在第500 块处(即对应篡改处)相邻块的初始相位出现了很大的变化,这说明文献[12]中的方法可以检测出发生了篡改.但也注意到由于其跳变不陡峭,且跳变的起始点和终止点不清晰,故较难精确确定篡改发生的位置.
图1 文献[12]和[13]中删除篡改检测的结果Fig.1 Detection results of deletion for Ref.[12]and[13]
文中作者的早期工作于文献[13]对此提出了一种改进算法,先采取同样的分块策略划分ENF 信号,考虑到未篡改的音频中理想的ENF 信号是一条正弦曲线,故引入一个标准的正弦信号作为参考信号,对其也进行相应分块,然后计算出ENF 信号各子块和参考信号对应子块的相关性,将出现相关系数最大处的偏移称为该子块的最大相关偏移量(MOCC).若未发生篡改,各个子块的最大相关偏移在理想情况下应该相等,而对来自真实世界的音频信号,MOCC 值也应该相差不大.基于MOCC 进行篡改检测的原理和技术细节详见文献[13],其检测效果见图1(c)和(d).由图可见在篡改发生处相邻子块的MOCC 值发生了很大跳变,且跳变的边缘较陡峭.文献[13]中的不足是在未发生篡改的区域MOCC 曲线有城墙一样的齿,容易引起误判(即虚警),且紧邻跳变处也有齿,不方便精确定位.文中针对这两个问题进行进一步研究,提出利用斜率来解决上述问题,同时还提出一种免除引入参考信号直接计算MOCC 值的方法.
文中直接以y(n)的起始子块作为基准信号,计算各子块与它的最大相关偏移.设基准信号y1为
式中,偏移量=0,1,2,…,N0-1,l=1,2,3,…,NW,θ1为起始子块的初始相位.当 取不同值时,分别计算各子块与基准信号的相关系数,对于第i 个子块有:
式中,η 为噪声之间以及噪声与ENF 信号之间的互相关之和.式(3)的具体推导和文献[13]中计算子块与参考块之间的互相关类似.由第1 项可见,当-2 /N0+θi-θ1=0 时,Ri)取得最大值
类似于文献[13],将对应式(4)的偏移量 称为最大相关偏移MOCC,记作max(i).对于信噪比较高的音频信号有2≫η,此时Ri()受噪声的影响很小.
针对前述MOCC 曲线的城墙齿,文中提出一种双处理机制从MOCC 曲线得到一条新的曲线,它在未篡改区域平坦而在遭受篡改的地方突变.第1 层机制根据偏移量变化的子块间隔时间和偏移量变化的累积确定篡改区域.首先计算相邻子块的最大相关偏移之差
式中,i=1,2,3,…,NBLOCK-1.将δmax(i)≠0 的子块进行标记,若有P 个此类子块,则记为i1,i2,i3,…,iP.显然,这类块是出现篡改的潜在块.然后计算子块im和im-1之间的时间间隔Dt(m)以及偏移量变化的累积Dos(m):
式中,m=2,3,…,P.文中通过设定相邻偏移量变化累积的门限Tos来减小因噪声干扰而引起的虚警.如果Dos(m)≥Tos,则 max的差异可能是由篡改引起.否则,max的差异被认为是由噪声引起的波动.与此同时,文中还设定时间间隔门限Tt来减小因ENF 偏差引起的虚警.若Dt(m)<Tt,则表明在短时间内有突变,应该是由篡改导致;否则,非短时间内突变,即由非篡改引起的变化.文中设定Tt=αNT0,其中NT0= NBLOCK/(P +1)为 max 发生变化的平均时间间隔,α 为时间因子.通常,篡改引起的变化时间间隔会远小于NT0,而非篡改引起的则大于NT0.将同时满足Dos(m)≥Tos和Dt(m)≤Tt的im值记为 max突变的子块序号.假设共有U 个这样的子块,用集合K 记为K=[k1k2k3… kU].如果K 不为空,则该音频信号被篡改过;否则未被篡改.
第2 层机制根据MOCC 的斜率变化确定篡改位置.首先计算δmax(i)≠0 的P 个子块之间MOCC 的斜率,并令其余子块的斜率为0,则全体子块的斜率G1可表示为
式中,m=2,3,…P,i=1,2,…,NBLOCK.对于未篡改的原始音频,即使ENF 存在一定的偏差,其斜率也基本保持不变;相反,被篡改过的音频在篡改边界的斜率则会出现较大的突变.据此可设定斜率判别门限TG=βG0,其中,是斜率不为0 的P 个子块的斜率绝对值均值,β 为幅度因子.通常,篡改处的斜率会大于G0,非篡改处的则小于G0.把的子块认为是可能发生篡改的位置.设共有Q 个这样的子块,用集合J 记录,则有J=[j1j2j3… jQ].
将上述两种判决机制联合使用,取两者的交集为最终篡改判决结果,即Z=J∩K.若Z 不为空,则音频信号被篡改过;否则为原始信号.根据集合Z对斜率G1进行处理,保留篡改子块的斜率,而其余子块的斜率用所有子块斜率的均值mG1代替,则可得到G2:
在G2所对应的曲线上,Z 的第一个子块和最后一个子块之间即为发生篡改的部分.结合ENF 的时间周期(例如1/50 Hz=0.02 s),进一步定位到音频信号中的篡改区域.定位精度为一个子块的时间长度.根据定位的篡改区域为静音部分还是语音部分,判断篡改操作是删除还是插入.
文中实验所用测试音频均在市电频率为50 Hz时录制,音频的保存格式为WAV,下采样频率fd=1000 Hz.用零相位FIR 窄带滤波器提取的ENF 信号中会有噪声干扰以及音频的泄漏频谱,尽管减小滤波器带宽可降低这两方面的影响,但这种做法会使滤波的过渡过程变长,从而使篡改边界变平坦,影响定位准确性.事实上,当带宽小于0.6 Hz 时甚至会出现无法检测到篡改点的情况.经验上带宽在0.6~1.4 Hz 之间取值效果较好,文中取1.2 Hz.另一方面,数据子块越长,得到的MOCC 曲线越平滑,但篡改定位误差也会越大.通常子块长度可在60~200之间取值,即对应于C0=3~10.文中取C0=3.此外,文中直接以待测音频的起始子块作为基准信号替代文献[13]中的标准正弦信号来计算各块的MOCC 值.
仍以图1 中的音频为例,图2(a)是用最大相关偏移法计算的MOCC,图2(b)显示各段的斜率.图2(c)是第1 层和第2 层机制联合作用的结果.可以看到,除了篡改区间斜率不为0 外,其余区间的斜率均为0.图2(d)给出在对应音频上定位的篡改区域为第9.37~9.77 s,这与实际音频删除位置第9.502 s接近.定位存在微小误差主要有两个方面的原因:一是前述的窄带滤波后信号突变位置存在过度过程[14];二是文中检测篡改是以一个数据块为最小单位,这对定位精度也有一定的影响.文中两层机制中所使用的参数Tos=2,α=0.7,β=1.3.
图2 删除篡改检测Fig.2 Detection of deletion forgery
图3(a)是从一个有插入的音频提取的ENF 信号,插入发生在第8.921~13.568 s.相位法和最大相关偏移法的结果分别见图3(b)和(c).相位法难以准确检测篡改边界,而MOCC 法则难以检测插入段的后边界.图3(d)则是根据MOCC 曲线得到的斜率,图3(e)是双机制联合作用的结果.由图3(f)可看到文中方法估计的插入区域为第8.91~13.71 s,与实际插入区域的起点仅有0.011 s 的误差,而与终点有0.142 s 的误差,明显好于文献[12-13].
为了考察不同斜率门限TG对检测结果的影响,分别取不同的幅度因子β 对该插入音频进行实验,结果如表1 所示.通过多个音频实验可发现一般β 取值1.1~1.5 时结果较好.作为折中,文中取1.3.
图3 插入篡改检测Fig.3 Detection of insertion forgery
表1 取不同斜率门限TG 的定位误差Table 1 Estimated error with different slope threshold TG
如前所述,文献[12]无法对篡改区域精确定位.文中将机制2 推广应用到文献[12]中解决定位问题,用图3 中的插入篡改为例来说明具体步骤.首先寻找相位的极值点,计算各相邻极值点之间的斜率,然后用机制2 的准则排除虚警和干扰,对篡改区域定位,结果如图4 所示.
图4 (a)为篡改音频ENF 信号各子块的相位及相位的极值点,图4(b)为各相邻极值点之间的斜率,图4(c)为处理后的结果.图4(d)为在音频上对应的篡改定位,其起始和终止位置分别为第9.48 和第14.32 s,虽然存在一定的误差,但也估计出了篡改的大致位置.
图4 机制2 应用到文献[12]的例子Fig.4 An example of applying the second mechanism to themethod in[12]
同理将机制2 推广到文献[13]中,结果如图5所示.直接用文献[13]的方法定位出的篡改区域为第8.71~14.01 s,而联合机制2 定位的篡改区域为第8.91~13.71 s,精度明显提高.
图5 机制2 应用到文献[13]的例子Fig.5 An example of applying the second mechanism to the method in[13]
重采样是音频中常见的操作,首先考察文中方法能否抗重采样.利用音频编辑软件CoolEdit 将图3中原始采样率为16 kHz 的音频分别作上、下采样处理后进行检测,结果如图6 所示,可发现其与未重采样时的结果图3(e)和(f)没有明显差异.其中图6(a)和(b)是采样率为44kHz 的结果,图6(c)和(d)是采样率为8 kHz 的结果.
图6 采样率为44 kHz 和8 kHz 的检测结果Fig.6 Detection results of the re-sampled signal with frequency 44 kHz and 8 kHz
文献[12]中的语音库[15]包含100 个原始音频文件,对其进行编辑得到130 个篡改文件,其中删除操作和插入操作的文件各占65 个.利用文中方法对其进行篡改检测,得到正检率93.08%,虚警率8%.其中,正检率是指将篡改文件正确判断为篡改文件的概率,虚警率是指将原始文件误判为篡改文件的概率.将语音库中所有文件分别以44、32、11、8 和6 kHz重采样后,再用文中方法对其进行检测,发现在不同重采样频率下正检率仍为93.08%,虚警率仍为8%.说明重采样对文中方法的检测效果无影响.
压缩是另一种常见的音频操作.仍以图3 中的音频为例,利用压缩软件Lame 3.98 将其压缩为MP3 格式文件,采样率仍为16 kHz,比特率为32 kb/s,文中方法检测结果如图7(a)、(b)所示.由于在WAV 文件压缩为MP3 的过程中存在频域掩蔽效应,从而损失了ENF 信号的部分信息,使得篡改定位误差与未压缩时比较,起始点差异不大,但终止点差异较大,说明文中方法不能完全抵御压缩操作,但有一定的抵御能力.
图7 MP3 的检测结果(采样率为16 kHz 和8 kHz)Fig.7 Detection results of the MP3 with frequency 16 kHz and 8 kHz
图7(c)、(d)是将图3 中音频压缩为采样率8 kHz,比特率32 kb/s 的MP3 的检测结果,这相当于对音频同时进行了下采样和压缩操作,此时MP3 丢弃的信息更多,故对ENF 信号造成更大的损失.此时出现明显误判,说明文中方法对下采样和较大压缩比(例如,32 kb/s)的联合操作鲁棒性较差.
将3.4 节所用的语音库分别以采样率16、8 kHz压缩成比特率为32 kb/s 的MP3,再用文中方法进行篡改检测.采样率为16 kHz 时,正检率为93.08%,虚警率为8%,故算法性能未受影响.当采样率为8 kHz时,正检率为62.31%,虚警率为37%,算法性能明显下降.
向音频中添加噪声也是掩盖篡改痕迹的常用手段.为了检测文中算法抗噪能力,对图3 中的音频添加不同功率的高斯白噪声后,再用文中方法进行检测.图8(a)和(b)是信噪比为30 dB 时的结果,图8(c)和(d)是信噪比为20dB 时的结果.前者与未加噪时的结果(见图3(e)和(f))相比,无明显差异;而后者出现虚警,且对篡改区域的定位也出现较大误差.不过在信噪比为20 dB 时噪声已使人耳感到明显的不适.一般而言,信噪比在30 dB 以上时文中方法能取得较好的检测效果.
图8 信噪比为30 dB 和20 dB 时的检测结果Fig.8 Detection results of the noisy signal with SNR 30 dB and 20 dB
对语音库中音频添加高斯白噪声后再用文中方法进行篡改检测.信噪比为30 dB 时,正检率为85.38%,虚警率为15%,与未加噪时的正检率93.08%和虚警率8%相比,算法性能有所下降.当信噪比为20 dB 时,正检率为66.92%,虚警率为33%,可见算法性能进一步下降.
针对现有基于ENF 信号的音频篡改盲检测方法对插入和删除定位精度不足的问题进行改进,提出了一种使用双重判断机制联合进行篡改定位的检测算法.为简化算法实现,在计算子块间最大相关偏移量时,还提出一种无需引入额外ENF 参考信号的计算方法.与现有文献中两种代表性算法相比,文中方法的篡改定位精度明显提高.在抗重采样和MP3压缩以及抗噪方面,也有一定的鲁棒性.文中的篡改定位机理也可容易地推广到以前的算法.未来将在ENF 信号的抽取质量改善、同时存在插入和删除的音频篡改检测、自适应检测门限的设置以及算法的鲁棒性等几个方面进行进一步研究.
[1]Daéid N N,Houck M M.Interpol's forensic science review[M].Lyon:CRC Press,2010:379-380.
[2]Brixen E.ENF quantification of the magnetic field[C]∥AES 33rd International Conference on Audio Forensics,Theory and Practice.Denver,Colorado:AES,2008.
[3]Grigoras C.Digital audio recording analysis the electricnetwork frequency criterion[J].International Journal of Speech Language and the Law,2005,12(1):63-76.
[4]Grigoras C.Applications of ENF criterion in forensic audio,video,computer and telecommunication analysis[J].Forensic Science International,2007,167(2):136-145.
[5]Cooper A J.The electric network frequency (ENF)as an aid to authenticating forensic digital audio recordings-An automated approach[C]∥AES 33rd International Conference on Audio Forensics,Theory and Practice.Denver,Colorado:AES,2008.
[6]Huijbregtse M,Geradts Z.Using the ENF criterion for determining the time of recording of short digital audio recordings[C]∥3rd International Workshop on Computational Forensics.Berlin:Springer-Verlag,2009:116-124.
[7]Garg R,Varna A L,Wu M.Seeing ENF:natural time stamp for digital video via optical sensing and signal processing[C]∥19th ACM International Conference on Multimedia.Scottsdale:ACM,2011:23-32.
[8]Garg R,Varna A L,Hajj-Ahmad A,et al.“Seeing”ENF:power-signature-based timestamp for digital multimedia via optical sensing and signal processing [J].IEEE Transactions on Information Forensics and Security,2013,8(9):1417-1432.
[9]Hajj-Ahmad A,Garg R,Wu M.Instantaneous frequency estimation and localization for ENF signals[C]∥2012 Asia-Pacific Signal & Information Processing Association Annual Summit and Conference(APSIPA ASC).Hollywood,California:IEEE,2012:1-10.
[10]Hajj-Ahmad A,Garg R,Wu M.ENF based location classification of sensor recordings[C]∥2013 IEEE International Workshop on Information Forensics and Security(WIFS).Guangzhou,China:IEEE,2013:138-143.
[11]Nicolalde D P,Apolinario J A.Evaluating digital audio authenticity with spectral distances and ENF phase change[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing.Taipei:IEEE,2009:1417-1420.
[12]Nicolalde D P,Apolinario J A,Biscainho L W P.Audio authenticity:detecting ENF discontinuity with high precision phase analysis[J].IEEE Transactions on Information Forensics and Security,2010,5(3):534-543.
[13]Hu Yong-jian,Li Chang-Tsun,Lü Zhi-sheng,et al.Audio forgery detection based on max offsets for cross correlation between ENF and reference signal[C]∥11th International Workshop on Digital-Forensics and Watermarking.Shanghai:Springer,2013:253-266.
[14]常广,鄢素云,王毅.零相位数字滤波器在非平稳信号处理中的应用[J].北京交通大学学报,2011,35(6):49-56.Chang Guang,Yan Su-yun,Wang Yi.Application of zero-phase digital filter on non-stationary signal processing[J].Journal of Beijing Jiao Tong University,2011,35(6):49-56.
[15]Ortega-Garcia J,Gonzalez-Rodriguez J,Marrero-Aguiar V.Ahumada:a large speech corpus in Spanish for speaker characterization and identification[J].Speech Communication,2000,31(2):255-264.