王 欣, 黎 鑫, 胡 磊
(1.蚌埠汽车士官学校 运输指挥系,安徽 蚌埠 233011;2.蚌埠汽车士官学校 干部轮训大队,安徽 蚌埠 233011)
一种针对JPEG图像的通用隐写分析算法
王 欣1, 黎 鑫1, 胡 磊2
(1.蚌埠汽车士官学校 运输指挥系,安徽 蚌埠 233011;2.蚌埠汽车士官学校 干部轮训大队,安徽 蚌埠 233011)
提出了一种针对JPEG图像的通用隐写分析算法。该算法提取了15个具有良好分类特性的特征参数,输入构建的LS-SVM分类器,以达到检测载密图像的目的。实验结果表明,该算法的检测正确率较高,检测速度快,能够实现针对各类JPEG载密图像的有效检测。
隐写分析;DCT系数;特征参数;JPEG图像
近几年来,随着信息隐藏技术[1]的迅速发展,越来越多的人开始关注隐写分析技术[2]的研究。隐写分析的目的是检测数字载体中秘密信息的存在性,一方面,它可以促进信息隐写技术安全性的提高,推动信息隐写技术的实用化;另一方面,有助于发现不法分子的秘密通信,预防恐怖事件的发生,维护国家和社会公共安全。目前,各国学者都致力于研究具有通用检测性能的隐写分析算法,能够针对某一类或几种隐写算法进行检测,但是通用隐写分析算法存在提取特征难、检测正确率低、实时检测效果差等弊端。
文中在对原始图像和载密图像的DCT系数进行统计分析的基础上,提出了一种针对JPEG图像的通用隐写分析算法。该算法提取15个具有一定区分能力的特征参数组成特征向量,作为LS-SVM分类器的输入,通过自学习的训练过程得到检测载密图像的分类器,以达到检测载密图像的目的。
JPEG是网络和日常生活中使用最为普遍的图像格式,以JPEG图像为载体的信息隐写算法(例如:Jsteg[3]、Outgess[4]、MB[5]、F3~F5[6]等)大多选择将秘密信息嵌入到量化后的DCT系数中,来达到信息隐藏和提取秘密信息的目的。因此,JPEG图像中DCT量化系数(以下简称DCT系数)的统计分布问题一直为众多学者所关注,也是各类通用隐写分析算法提取特征参数的研究重点。
文中基于Fridrich的载体图像预测理论,首先对解压缩后的载密图像进行4×4的剪裁,再按压缩时的量化表进行量化,构造出一幅统计特性与原始图像相近的参考图像(即预测图像)[7],通过比较待测图像及其预测图像在DCT系数上的统计差异,提取15个具有一定区分能力的特征参数,其中一阶特征参数7个,二阶特征参数8个,用于检验待测图像是否含有秘密信息。
1.1.1 一阶统计特征参数
DCT系数的直方图是最简单的一阶统计特征参数,但是其运算复杂、统计量大,一般很少直接使用。为了得到运算简单、分类性能良好的特征参数,文中主要针对直方图中重要的DCT系数进行分析研究,并从中提取了以下7个一阶统计特征参数,它们分别是:5 个独立直方图参数 ΔH-2、ΔH-1、ΔH0、ΔH1、ΔH2、1个局部直方图参数ΔH和1个差分直方图参数ΔHC。
1.1.1.1 独立直方图参数
令Hdl(J1)表示待测图像J1中l位置上值等于d的低频系数的个数,则Hdl(J2)表示预测图像 J2中相应的特征量,构建出以下5个统计特征参数:
其中,‖·‖表示其中包含的所有元素的绝对值之和。由于 d 值集中在 0 附近,所以取 d∈{-2,-1,0,1,2}。
1.1.1.2 局部直方图参数
令 Hdl(J1)、Hdl(J2)分别表示待测图像和预测图像中 l位置上值等于d的低频系数的个数,根据下式计算:
可以得到局部直方图参数ΔH。由于d的绝对值越大,其对应的低频系数出现的次数就越少,因此式(2)中仅针对-7≤d≤7范围内的低频系数的个数进行统计。
1.1.1.3 差分直方图参数
生态破坏、气候异常、环境污染是压在我国环境头上的“三座大山”。尤其是近年来的雾霾天气增多,使环境受到很大污染。砀山县机动车辆和砖窑厂较多,尾气、烟雾、灰尘等影响生物进行光合作用,对酥梨的成长不利。寒潮带来的低温、大风、霜冻等气象灾害也会导致绿色酥梨产业损失严重。在酥梨的生长过程中,果农对农药使用的习惯一时不易改变,酥梨的农药残留还时有发生,这是绿色酥梨生产的大忌。
令Hd表示DCT系数值d的出现次数 (DCT系数直方图中 d对应的柱条高度),取 H-5~H5共 11个值,以 H0为中心,向两边将每相邻的两个Hd做差分,并进行归一化。如式(3)所示:
定义差分直方图参数如下:
1.1.2 二阶统计特征参数
现有的一些隐写算法在嵌入秘密信息后,可以保持载体图像的一阶统计特性不变,这使得一阶统计特征参数可能无法检测出使用该类型算法的载密图像。针对这种情况,本文提取了DCT分块特性参数ΔBDCT、DCT块间相关性参数ΔV、以及引入共生矩阵 G(s,t)得到的 ΔS00、ΔS01、ΔS02、ΔS11、ΔS22和ΔS12共8个二阶统计特征参数。
1.1.2.1 DCT分块特性参数
DCT分块特性参数是判断JPEG图像是否隐藏有信息的一个重要特征量。大多数的JPEG图像隐写算法都是将原始图像分为8×8的小块后,以块为单位进行秘密信息的嵌入,由于嵌入位置的不均匀,会引起DCT块间的边界产生不连续性,且嵌入信息越多不连续性越大。用BDCT表示DCT块间的边界不连续性的测度,计算公式如下:
分别从待测图像和预测图像中提取出 BDCT(J1)和 BDCT(J2),则DCT分块特性参数为:
1.1.2.2 差分直方图参数
令H(d)表示DCT系数值d的出现次数(DCT系数直方图中 d对应的柱条高度),取 H(-5)~H(5)共 11个值,以H(0)为中心,向两边将每相邻的两个做差分,并进行归一化。如式(7)所表示:
得到了DCT系数的差分直方图分布频率h(d)(-5≤d≤5,其中d≠0)。当以某种隐写算法嵌入秘密信息时,会改变h(d)的分布特性,并且随着嵌入信息比例的增大,改变的程度越严重。基于这点,定义差分直方图参数如下:
1.1.2.3 共生矩阵参数
由于每个DCT块主对角线左上方区域的系数值较大,常被选用于嵌入秘密信息,因此本文选取每个块中l=0,1,…,14上的DCT系数作为重要的研究对象,并引入共生矩阵G(s,t)来描述相邻DCT块的系数值对(s,t)的概率分布情况,定义如下:
由于DCT系数值大多集中在0附近,所以取s,t∈{-2,-1,…,2},可以得到5×5的共生矩阵。载体图像的共生矩阵示意图以(s,t)=(0,0)为中心具有近似的对称性,但是秘密信息的嵌入改变了共生矩阵的这种特性,秘密信息的嵌入比例越大,改变的程度也越大,而且随着隐写算法的不同,改变这种特性的方式也不同。
因此,让 Gs,t(J1)、Gs,t(J2)分别表示待检测图像裁剪前后J1、J2的 G(s,t),令 ΔGs,t=Gs,t(J1)-Gs,t(J2), 就 得 到 了 下 面 的 6个共生矩阵参数:
最小二乘支持向量机(LeastSquaresSupportVectorMachine,LS-SVM)[8]由于在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,已经被广泛应用于构建隐写分析算法的检测器之中。这不仅大大降低了计算的复杂度,而且在实际应用中可以保持较高的分类准确度。因此,文中选用LS-SVM来构建算法中的分类器。
分类器的目的就是判断待测图像中是否含有秘密信息,即检测识别载体图像或载密图像。实现的原理框图如图1所示,分为训练过程和检测过程两个部分。
图1 分类器原理框图Fig.1 Schematic diagram of the classifier
输入选择的训练样本,设定LS-SVM的参数,经过机器的自学习过程,就可以训练得到能够检测载密图像的LSSVM分类器。需要说明的是,分类器中参数r的σ2设定,训练样本中载体图像与载密图像比例的选取,训练样本中载密图像的类型和信息嵌入比例等,都将直接影响到分类器的检测性能。关于这些参数的优化选取,文中也做了大量的相关实验,由于篇幅所限,这里仅在实验部分直接使用最后的结论。
本文算法的实质就是对每幅待测图像进行统计分析,提取上述的15个特征参数,以特征向量的形式输入到训练好的LS-SVM分类器中,实现针对JPEG图像的检测。
实验所用的测试图像库包含原始图像库和载密图像库两部分。原始图像库由300幅原始数码照片统一处理成大小为512×512、质量因子为75的灰度JPEG图像构建而成。然后,以每幅图像所能嵌入的最大数据长度为衡量标准,采用Jsteg、Outgess、MB、F5 4种较为常见的JPEG图像信息隐写算法,分别嵌入最大数据长度10%,20%……100%比例的秘密信息,得到载密图像库。
根据大量的实验数据,当选取径向基函数(RBF)作为分类器的核函数,设定训练样本与测试样本的比例为4:1,且训练样本中载密图像的信息嵌入比例为40%时,得到的LSSVM分类器检测性能相对最好。因此,文中按照上述参数构建LS-SVM分类器,每次实验选取300张原始图像和某一算法(Jsteg、Outgess、MB 或 F5)在某种嵌入比例下(例如 20%)的载密图像300张,研究4种隐写算法在不同嵌入比例下的检测性能。为测试算法的稳定性,设定参数γ=1:1:10、σ=1:1:10,运行得到不同参数组合下的100组实验数据,根据以下公式:
计算出每组实验得到的检测正确率,将所有的检测正确率的数值相加并除以100,就得到了平均检测正确率,平均每次运算时间为1.78 s。实验结果如表1所示。
表1 针对不同隐写方法在不同嵌入率下的平均检测正确率(%)Tab.1 The average detection rate of three steganography with different embedding rates(%)
从表1中可以看出:该算法对原始图像的检测率较高;对于每一种特定的隐写方法,随着信息嵌入比例的增大,平均检测正确率也都会增大;而当信息嵌入率大于40%时,针对4种隐写算法的平均检测正确率均可达到90%以上。由此可见,文中提出的算法具有较高的检测率,能够有效实现对载体图像和各种JPEG载密图像的正确检测。
实验结果表明,算法中提取的15个特征参数具有良好的分类特性,构建的LS-SVM分类器运算速度快,计算复杂度低,针对各类JPEG图像隐写算法具有较高的检测正确率,能够达到通用检测的目的,在实时检测中具有重要的应用价值。然而,图像信息隐写分析是多学科交叉融合的技术,目前还有很多理论和实际技术问题需要完善和解决。如何在全局范围内对核函数的选取、最优参数的设定进行优化,提高算法中LS-SVM分类器的正确率,将是下一步研究工作的重点。
[1]Petitcolas F A P,Anderson R J,Kuhn M G.Information hiding-a survey[J].Proceedings of IEEE,1999,87(7):1062-1078.
[2]Provos N,Honeyman P.Detecting steganographic content on the internet[C]//In Proceedings of Network and Distributed System Security Symposium,San Diego,CA,2002.
[3]Hsc C T,Wu J L.Hidden digital watermarks in images[C]//IEEE Trans.on Image Processing,1999:58-68.
[4]Provos N.Defending against statistical steganalysis[C]//In 10th USENIX Security Symposium,Washington DC.,2001.
[5]Cachin C.An information-theoretic model for steganography[C]//In Proceedings of 2nd International Workshop on Information Hiding,Berlin:Springer-Verlag,1998(1525):306-318.
[6]Westfeld A.F5-A steganography algorithm:high capacity despite better steganalysis[J].Lecture Notes in Computer Science,2001(2137):289-302.
[7]Fridrich J,Goljan M,Hogea D.Steganalysis of JPEG images:breaking the F5 algorithm[C]//In:Lecture Notes in Computer Science2578,Berlin:Springer-Verlag,2002:310-323.
[8]Suykens J A K,Gestel T V,Brahanter J D,et al.Least squares support vector machines[M].River Edge World Scientific,2002:71-148.
A blind steganalysis algorithm for JPEG images
WANG Xin1, LI Xin1, HU Lei2
(1.Dept.of Transportation Command,Automobile N.C.O Academy of PLA,Bengbu233011,China;2.Cadre Rotational Training Brigade,Automobile N.C.O Academy of PLA,Bengbu233011,China)
A blind steganalysis algorithm for JPEG images was proposed.The algorithm calculates a total of 15 characteristic parameters from each JPEG image, and using LS-SVM classifier to classify cover and stego images, which can apply to blind steganalysis.The experiments results show that,the algorithm has good performance in both detection rate and computation speed,and it is also reliable to steganalysis for all kinds of JPEG images steganography.
steganalysis; DCT coefficients; characteristic parameters; JPEG image
TP309.7
A
1674-6236(2012)05-0129-03
2012-01-12稿件编号:201201052
王 欣(1985—),男,安徽蚌埠人,硕士,助教。研究方向:通信与信息系统。