基于广义高斯模型的音频篡改盲检测

2013-09-10 01:18:34林晓丹
计算机工程与设计 2013年9期
关键词:广义录音高斯

林晓丹

(华侨大学 信息科学与工程学院,福建 厦门361021)

0 引 言

图像、音频和视频编辑处理技术的发展使得篡改多媒体信息变得容易和快捷,数字媒体的真实性也正面临着前所未有的挑战。人们获取信息的来源越来越广泛,然而精心制作的图像和音视频可以轻而易举地蒙蔽人们的感官,即使专业人士也很难辨识真伪。特别是图像和录音作为法庭证据时,其可靠性往往会影响司法判决的公正。网络上获取的新闻图片和录音是否可信,也对传播行业造成了巨大的冲击。因此,如何保证多媒体信息的真实性和完整性的问题变得迫在眉睫,数字多媒体取证技术[1]应运而生。现有的取证技术根据是否需要辅助信息分为两种,即主动取证和被动取证。数字水印是主动取证技术的典型代表,要求预先在数字媒体中嵌入水印,接收者则利用水印信息的受损程度检验数字媒体的完整性[2]。这项技术要求录制设备必须具有水印嵌入能力,而目前大多数设备并不具备这样的功能。此外,嵌入的水印信息也可能遭受各种恶意攻击而被破坏,失去了它本应具有的验证功能。与主动取证不同,被动取证不依赖于任何标识信息就能完成对数字媒体真伪性的鉴别,因而更具实用性。然而,被动取证技术所能利用的信息非常有限——只有待认证的媒体内容本身,因此也增加了取证的难度。

数字图像的被动取证方法主要围绕着几个方面进行[3-4]:①基于自然图像的统计特征,例如双相干系数、邻域像素分布重心等;②基于场景约束的方法,例如利用光照方向的一致性;③基于成像设备特征的方法,例如CFA插值检测;④针对特定篡改方法和特殊格式图像的取证,例如针对JPEG图像合成伪造[5]、图像双重压缩的检测[6-7]。相对数字图像取证而言,现有的数字音频被动取证研究还相对匮乏。鉴于数字音频在时域体现的非平稳性、幅值的连续变化特性,以及音频录制与图像成像过程的不同,数字图像取证方法对音频信号并不适用。已有的音频被动取证方法主要有几种:①基于录音中电网频率的分析,检测内容的完整性和录音时间[8-9];②基于音频自身特性的变化分析篡改痕迹,由于音频篡改引入的非线性,分析双谱特征和高阶统计量可检测是否有篡改发生[10];③基于录音设备的分析,例如文献 [11]提取近似无音段的傅里叶系数直方图作为特征,实现对麦克风的分类;④基于录音环境的分析,文献 [12]利用房间的反射效应产生的音频回响,估计回响时间并利用该特征进行取证,文献 [13]提出了一种估计背景噪声的方法,利用噪声一致性进行检测;⑤针对特殊音频格式和特定篡改方法的取证,例如文献 [14]利用帧偏移检测 MP3音频是否被篡改,文献[15]通过分析音频二次压缩引起的频域系数变化检测MP3音频的真实性,文献 [16]则通过分析音频信号各子带频谱的波动程度检测音频是否经过重采样和拼接,并且该方法能够估算信号插值前的原始采样率。

针对目前大多数音频被动取证技术仍无法定位篡改位置的问题,且直接获取的录音信号通常未经压缩。本文选取未压缩音频作为研究对象,在对原始音频和伪造音频的MDCT系数分析的基础上,采用广义高斯模型对两类音频MDCT域统计特性进行建模,获取其形状参数的变化特征,提出了一种能够鉴别音频真伪的方法并进行篡改定位。

1 MDCT域统计建模

1.1 MDCT子带滤波原理

和大多频域变换方法类似,MDCT子带滤波是对DCT(离散余弦变换)的一种改进,能够将时域内相关性很强的信号转换成变换域的一组系数,有效减弱了变换域内系数的相关性。并且,变换域中的大部分系数接近于零,信号能量有效地集中在少数系数上。相对DCT变换而言,由于MDCT变换采用了时域混叠消除技术,能够有效降低量化失真所引起的边界效应。MDCT定义如下

式中:h(n)——满足时域混叠消除的窗函数。由式 (1)可见,MDCT变换实质上是一种子带分析滤波方法,将输入信号x(n)调制到N个不同的子带上输出。图1给出了一个包含2048个样点音频帧的MDCT系数。由图1结果可见,音频信号经过MDCT变换后,大部分系数接近于0,能量几乎都集中在低频成分上。

此外,由式 (1)可知,对于输入长度为2 N的音频帧,输出只有N个MDCT系数。因此对信号加窗时,使前一帧和后一帧存在50%的混叠。对于音频篡改而言,由于篡改可能发生在帧边界处,所以这种混叠技术有利于检测发生在帧边界的篡改。

1.2 MDCT系数统计建模

图1 音频MDCT变换结果

图2(a)和图2(b)分别给出了原始音频和伪造音频经过分帧后,进行MDCT变换取其高频成分得到的统计直方图。图2中结果可见,两类音频高频成分的统计直方图,在0附近均出现尖锐的峰值,而远离0处则出现严重的拖尾,呈现出非高斯分布。对于此类具有尖锐峰值及厚重拖尾的分布,较有效的做法是采用更为灵活的广义高斯模型进行拟合。为此,本文采用广义高斯模型对各音频帧MDCT系数分布进行建模。

图2 音频MDCT系数直方图及广义高斯拟合

1.3 广义高斯模型的参数估计

广义高斯分布具有如下概率密度函数形式

图2(a)和图2(b)还分别给出了原始音频和篡改音频采用广义高斯拟合的结果,图2结果可见,MDCT系数呈指数衰减,广义高斯模型对其拟合的结果较为准确。尽管原始音频和伪造音频的MDCT系数都可用广义高斯分布进行拟合,然而其衰减速度不同。因此,本文利用这一特征实现对音频真伪的检测。有效估计广义高斯分布的形状参数α对检测准确率非常重要,本文采用最大似然估计(MLE)算法对α进行估计。对于变换后的一组MDCT系数x=(x1,…xN),定义似然函数

式 (3)分别对参数α和β求取一阶导数,并令一阶导数为0。得到

其中 Ψ(z)= Γ′(z)/Γ(z)。

求解上述方程得到尺度参数的估值

代入式 (4)可得

利用Newton-Raphson迭代法对式 (7)进行求解,得到形状参数α的最大似然估计。将α的估值代入式 (6)得到尺度参数的估值β∧。

2 音频篡改检测

由于高频分量对样本不连续性更为敏感,而低频分量则更多地反映了音频内容。因此,本文对音频分帧后计算MDCT系数并取其高频成分进行分析,用上述方法拟合MDCT域高频系数直方图,得到各音频帧广义高斯分布的形状参数α。图3(a)和图3(b)分别为一段原始语音信号以及对该语音进行局部替换后的伪造信号。图4则给出了对上面两段语音各音频帧拟合得到的形状参数。由图4(a)可见,对于未篡改的音频信号,形状参数的取值集中在一定的区间。在对大量原始音频进行测试的基础上,发现其形状参数也几乎落在同一区间内。而经过篡改的音频信号,在篡改发生处的音频帧和前面音频帧的相关性大大减弱,导致上述范围的形状参数无法准确拟合该位置的MDCT系数。因此,通过设置合适的形状参数阈值可以检测出篡改发生的位置。这里需要设置检测阈值的上限λ2和下限λ1。当α>λ2或α<λ1时都认为在该位置发生了篡改。图4(b)可见,在音频的第17帧和20帧之间发生了篡改。

3 仿真实验与结果分析

实验中采用不同的录音设备录制了50段原始语音 (包含男声和女声各25段),采样率都为16kHz。在不改变采样率的情况下,分别对这50段录音进行拼接、替换,删除篡改得到150段伪造的语音信号,将这200段录音作为测试样本。此外,实验中还采用50段采样率为44.1kHz的wav音乐信号作为另一组测试信号,保持原有的采样率,分别对这组测试信号进行拼接、替换和删除得到150段篡改的音乐信号,因此也得到200个测试音频。实验中采用的音频帧长为2048。

表1给出了对上述400段测试音频,检测阈值λ1和λ2分别设为0.5和2时,针对不同篡改本文方法的检测正确率。表1结果可见,本文方法对于语音和音乐信号篡改检测都具有较高的准确率。表1还给出了本文方法与经典的基于信号双谱特征检测方法 (文献 [10])的性能比较。尽管文献 [10]对于拼接、替换和删除篡改同样具有良好的检测准确率,然而对100段原始音频信号的测试,虚警率却比本文方法高了许多。此外,文献 [10]无法定位发生在帧边界处的篡改。由于采用了改进离散余弦变换,下一帧MDCT变换需要利用前一帧的样点,因此,对于发生在帧边界处的篡改,本文的方法也能正确定位。图5分别给出了对200段语音和200段音乐进行测试得到的ROC曲线。图5结果可见,本文方法对语音信号的检测正确率更高一些,因为语音信号的短时相关性更为明显,且具有较稳定的频谱分布。

表1 本文算法的检测正确率

图5 语音和音乐信号ROC曲线

4 结束语

本文阐述了一种数字音频被动取证方法。在分析音频篡改前后MDCT域统计特性变化的基础上,本文采用广义高斯模型对音频的MDCT系数进行概率分布建模。采用最大似然法估计各音频帧MDCT系数的形状参数,并将估计得到的形状参数与阈值比较,实现了音频篡改盲检测。在不改变采样率的情况下,对200段语音和200段音乐片段进行了篡改检测实验。实验结果表明,对于拼接、删除和替换,无论是语音还是音乐信号,本文方法都能够正确检测,检测准确率高于95%。此外,本文方法还能够准确定位篡改发生位置。与现有算法相比,提高了检测的可靠性。

[1]HU Yongjian,LIU Feibei,HE Qianhua.Survey on techniques of digital multimedia forensics [J].Journal of Computer Application,2010,30 (3):657-662 (in Chinese).[胡永健,刘绯贝,贺前华.数字多媒体取证技术综述 [J].计算机应用,2010,30 (3):657-662.]

[2]ZHAO Xuemin,GUO Yuhong,ZOU Xueqiang,et al.Digital audio watermarking algorithm for media copyright management[J].Journal of Electronics &Information Technology,2011,33 (10):2384-2389 (in Chinese). [赵学敏,郭宇弘,邹学强,等.用于版权管理的数字音频水印算法 [J].电子与信息学报,2011,33 (10):2384-2389.]

[3]Sencar H T,Memon N.Overview of state-of-the-art in digital image forensics [M].Part of Indian Statistical Institute Platinum Jubilee Monograph Series Titled Statistical Science and Interdisciplinary Research.USA:World Scientific Press,2008.

[4]WU Qiong,LI Guohui,TU Dan,et al.A survey of blind digital image forensics technology for authenticity detection[J].ACTA Automatica Sinica,2008,34 (12):1458-1466(in Chinese).[吴琼,李国辉,涂丹,等.面向真实性鉴别的数字图像盲取证技术综述 [J].自动化学报,2008,34(12):1458-1466.]

[5]ZHENG Ergong,PING Xijian.Passive-blind forensics for a class of JPEG image forgery [J].Journal of Electronics &Information Technology,2010,32 (2):394-399 (in Chinese).[郑二功,平西建.针对一类JPEG图像伪造的被动盲取 [J].电子与信息学报,2010,32 (2):394-399.]

[6]WANG Junwen,LIU Guangjie,DAI Yuewei,et al.A new method for estimating the primary quantization step of JPEG double-compression [J].Journal of Electronics &Information Technology,2009,31 (4):836-839 (in Chinese). [王俊文,刘光杰,戴跃伟,等.一种估计JPEG双重压缩原始量化步长 的 新 方 法 [J].电 子 与 信 息 学 报,2009,31 (4):836-839.]

[7]LIU Xiaoteng,JING Tao,LU Yanfei,et al.Blind detection of color forgeries using double JPEG quantization properties [J].Signal Processing,2011,27 (1):136-142 (in Chinese).[刘晓腾,荆涛,卢燕飞,等.基于JPEG双量化特性的彩色伪造图像盲检测 [J].信号处理,2011,27 (1):136-142.]

[8]Huijbregtse M,Geradts Z.Using the ENF criterion for determining the time of recording of short digital audio recordings[C]//Proc 3rd Int’l Workshop Computational Forensics.Springer Verlag,2009:116-124.

[9]Grigoras C.Applications of ENF criterion in forensic audio,video,computer and telecommunication analysis [J].Forensic Science Int’l,2007,167 (2):136-145.

[10]GAO Yang,HUANG Zheng,XU Che.Detection of audio forgeries based on bispectral analysis [J].Information Security and Communications Privacy,2008 (2):94-96 (in Chinese).[高阳,黄征,徐彻.基于高阶频谱分析的音频篡改鉴定 [J].信息安全与通信保密,2008 (2):94-96.]

[11]Buchholz R,Kraetzer C,Dittman J.Microphone classification using fourier coefficients,information hiding [G].LNCS 5806:11th International Workshop.Springer Berlin Heidelberg,2009:235-246.

[12]Malik H,Farid H.Audio forensics from acoustic reverberation [C]//International Conference on Acoustics,Speech,and Signal Processing,2010:1710-1713.

[13]Ikram S,Malik H.Digital audio forensics using background noise [C]//Magdeburg,Germany:Proc of 6th ACM Multimedia and Security Workshop,2004:25-34.

[14]Yang R,Qu Z,Huang J.Detecting digital audio forgeries by checking frame offsets [C]//Proc 10th ACM Workshop Multimedia and Security,ACM Press,2008:21-26.

[15]Liu Q,Sung A H,Qiao M.Detection of double MP3compression [J].Cognitive Computing,2010,2 (4):291-296.

[16]DING Qi,PING Xijian.Audio tampering detection based on band-partitioning spectral smoothness [J].Journal of Applied Science,2010,28 (2):142-146 (in Chinese). [丁琦,平西建.基于子带平滑度的音频篡改检测 [J].应用科学学报,2010,28 (2):142-146.]

猜你喜欢
广义录音高斯
小高斯的大发现
Rn中的广义逆Bonnesen型不等式
Funny Phonics
funny phonics
天才数学家——高斯
从广义心肾不交论治慢性心力衰竭
Colorful Seasons多彩四季
A New Term
有限群的广义交换度
有限域上高斯正规基的一个注记