栗风永 张新鹏 余 江
结合集成比例训练的彩色JPEG图像隐写分析
栗风永*张新鹏 余 江
(上海大学通信与信息工程学院 上海 200072)
该文提出一种YCbCr颜色空间的彩色JPEG图像隐写分析方法。该方法中的特征包括通道内特征和通道间特征,首先从Y通道提取Markov特征,扩展DCT特征以及共生矩阵特征构成通道内特征集合,通道内特征可以有效捕捉到Y通道内DCT系数之间的相关性;然后对Y通道进行下采样,从采样平面与CbCr平面相互之间的差分平面上提取特征构成通道间特征集合,通道间特征可以捕捉到两两通道之间的相关性。由于通道内特征和通道间特征在分类性能上有着较大差别,在分类阶段由通道内特征和通道间特征分别训练子分类器,通过调整两类子分类器的比例,使用多数投票方式来合成集成判决结果,最终获得最佳的检测性能。实验结果表明,该方法不仅适合小嵌入率的彩色JPEG图像,而且在性能上优于已有的JPEG图像隐写分析方法。
彩色JPEG图像;隐写分析;校准;集成分类器;比例调整
数字隐写(Steganography)是在不对多媒体信号产生过分影响的前提下,将额外的秘密信息嵌入到数字媒体中,以实现隐蔽通信。与此相对应,隐写分析技术(Steganalysis)也有了较快发展,该技术根据载体的视觉和统计特性判断其中是否含有额外的隐蔽信息。
JPEG是互联网上最常用的图像格式,该格式一般采用YCbCr颜色空间,其中Y是亮度通道,Cb和Cr是两个色度通道。JPEG压缩过程首先将R, G, B颜色空间转换到YCbCr颜色空间,然后对Y, Cb, Cr 3个通道分别进行DCT并量化。为了减少数据量,对Cb, Cr通道分别进行下采样使其为Y通道尺寸的一半;由于人的肉眼对Y通道更敏感,因此对Cb, Cr通道进行下采样使得肉眼察觉不到图像质量的变化。存储过程中,彩色JPEG图像保留了Y, Cb, Cr 3个通道的信息,而灰度JPEG图像只保留Y通道的信息。
以上特征虽然都具有良好的性能,但大都是基于灰度JPEG图像的隐写分析方法,由于互联网上的图像大部分是彩色JPEG图像,因此针对彩色JPEG图像的隐写分析更有实际意义。当前,彩色JPEG图像隐写主要是通过修改Y, Cb, Cr 3个通道的DCT系数来隐藏信息,这样针对灰度JPEG图像的隐写方法都可以扩展到彩色JPEG图像隐写,比如Jsteg, nsF5, MBS, EMD等算法。由于彩色JPEG图像有3个通道,对任意一个通道的DCT系数进行修改都会使3个通道之间的相关性也随之发生变化,这就为隐写分析提供了线索。文献[16]给出了彩色图像YCbCr颜色空间DCT系数的统计分布模型,计算载体图像和含密图像DCT系数统计分布之间的差异,并以此对图像进行分类。文献[17]针对隐写所导致的图像DCT系数分布,空域像素值平坦性以及颜色空间一致性的改变,从系数分布模型背离程度、空域相关性以及不同颜色分量的相关性3个方面提出10维的彩色JPEG图像隐写分析特征。文献[18]基于彩色JPEG图像中任意两个通道间梯度方向随机序列以及颜色梯度与随机序列振荡特性的变化提出4维的彩色JPEG图像的盲隐写特征。虽然上述的隐写分析方法针对彩色JPEG图像,但只能在秘密信息嵌入率较高时才具有良好的检测性能,在嵌入率较低的情况下检测性能会大幅下降。
本文提出一种新的基于YCbCr颜色空间的彩色JPEG图像隐写分析方法,其分析特征包括通道内特征和通道间特征两部分。从Y通道提取Markov特征,扩展DCT特征以及共生矩阵特征构成通道内特征集合,该部分特征可以有效捕捉Y通道内DCT系数之间的相关性。通过研究彩色图像原始采样模型并对Y通道进行采样,从采样平面和Cb, Cr通道相互之间的差分平面上提取特征作为通道间特征集合,这些特征可以很好地获取各个通道之间的相关性。由于通道内特征和通道间特征在分类性能上有着较大差别,在训练阶段由通道内特征和通道间特征各自训练子分类器,通过调整两类子分类器的比例找到最佳集成分类性能。本文同时对校准方法进行扩展,通过多次剪切校准,使特征对图像的改变更加灵敏。实验结果表明,本文方法不仅适合低嵌入率的彩色JPEG图像,在检测性能上也优于针对灰度JPEG图像的隐写分析方法。
通常,彩色图像的亮度通道或者灰度图像的DCT系数中的交流分量(AC系数)近似服从广义高斯分布[19]。对彩色JPEG图像,隐写者可以在任意通道内嵌入信息,为了全面分析彩色JPEG图像,本文在通道内和通道间分别提取特征。通道内特征主要在Y通道提取特征,而通道间特征则首先根据彩色JPEG图像的原始采样模型对Y通道进行下采样获取与Cb, Cr尺寸相同的采样平面,然后分别提取采样平面,Cb平面,Cr平面两两之间差分平面的特征构成通道间特征集合,最后将通道内和通道间特征合并构成彩色JPEG图像隐写分析特征。
最后将81维的平均特征与193维扩展DCT特征合并构成了274维的PEV特征。
降维后每个DCT模式对最终形成25维特征。表1给出了所选择的DCT模式对,共生矩阵特征空间共计250维。
本文只在Y通道提取通道内特征,因为Y通道内含有更多的非零DCT系数,隐写之后的变化更大,提取的特征对隐写算法更敏感,而CbCr通道内非零系数较少,若在其内提取特征不仅大大增加了通道内特征的维数,还会降低整体特征的性能。最终提取的通道内特征集合为848维。
表1共生矩阵所选择的模式对
相对偏移量8×8块中选择的模式位置(u, v)维数 Du = 0, Dv = 1, Dm = 0, Dn = 0(0,1), (0,2), (1,0), (1,1), (2,0)125 Du = 1, Dv = -1,Dm = 0, Dn= 0(0,1), (0,2), (1,1)75 Du = 2, Dv = -1, Dm = 0, Dn = 0(0,1)25 Du = -1, Dv = 2, Dm = 0, Dn = 0(2,0)25
通常彩色图像的R, G, B 3个通道之间存在着较强的相关性[15]。从RGB色彩空间转换到YCbCr色彩空间之后,Y, Cb, Cr 3个通道之间依然存在着较弱的相关性。由于JPEG压缩过程中对CbCr通道进行了下采样,如果对Y通道进行相同方式的下采样,得到的采样平面与CbCr通道同样存在着弱的相关性。通过求采样平面与Cb平面,Cr平面之间的差分平面并在差分平面上提取特征,可以有效捕捉通道间的相关性。
(1)对Y通道进行逆DCT变换
(3)对采样平面重新进行DCT变换
(4)按照式(8)计算Cb平面,Cr平面以及采样平面相互之间的差分平面
(5)对每个差分平面分别提取包含Markov特征,PEV特征以及共生矩阵特征在内的共计848维特征,所有差分平面特征求平均得到848维通道间特征集合。
最终的彩色JPEG图像的通用隐写分析特征由848维的通道内特征集合和848维的通道间特征集合,以及它们各自的校准特征组成,特征总维数为3392维。
由于CbCr通道中非零DCT个数比Y通道要少很多,隐写之后的CbCr通道中非零DCT系数改变的数量也很少,系数之间的相关性变化较小,使得通道间的特征不如通道内特征有效。基于此,本文在分类阶段引入集成分类器,分别利用通道内特征和通道间特征训练出两类子分类器,由于两类子分类器的准确率各不相同,通过不断调整可以找到一个最佳比例使得最终的检测性能达到最优。
Kodovsky等人[11]提出集成FLD分类器,该分类器由多个FLD子分类器构成。从特征空间中随机抽取一部分特征进行训练,得到一个子分类器,通过该子分类器对测试样本做出分类。对一个给定的测试样本,集合各个子分类器的判断,通过多数投票(majority voting)形成最终判决。
由于通道间特征与通道内特征在检测准确率上有较大差异,将两者的判决结果通过多数投票方式进行综合时,若两者所占的比例不同,则判决准确率也不同。当固定子分类器总数时,通过调整1和2可以找到一个最佳值=1/(1+2),使得众数投票判决结果()的准确率在该嵌入率下最高。
对于给定的隐写方法,在每一种嵌入率下都可以找到一个最佳比例使得误检率在该嵌入率下最低。表2给出了4种隐写方法JSteg[1], nsF5 (no-shrin- king F5)[4], MBS (Model Based Steganography)[5], EMD(Exploiting Modification Direction)[6]在不同嵌入率下的最佳比例。由于不同的隐写方法导致提取的隐写分析特征的性能各不相同,最佳比例会随着两类子分类器判决准确率的变化而变化,换句话说,r的最佳值受不同的嵌入方法影响。而对同一种隐写方法,不同嵌入率时的r值变化不大。
表 2不同嵌入率下的最佳子分类器比例
算法嵌入率(bpac)最佳比例r JSteg0.020.69 0.030.68 0.040.66 0.050.66 nsF50.050.74 0.100.70 0.150.67 0.200.65 MBS0.010.75 0.020.75 0.030.74 0.040.73 0.050.71 EMD(n=498)0.020.63 EMD(n=220)0.040.61 EMD(n=135)0.060.58 EMD(n=95)0.080.57 EMD(n=72)0.100.56
本文的实验图像库由从NRCS图像库[20]选取的3000幅彩色JPEG图像组成,包括人物、风景、动物以及建筑等,图像尺寸通过中心剪切至1024´1024,所有图像都以75的质量因子进行压缩。
为了验证本文彩色隐写分析方法的性能,隐写图像选择最近比较流行且性能较好的JSteg[1], nsF5[4], MBS[5], EMD[6]4种隐写方法生成。分别用上述4种隐写方法对3000幅原始载体图像进行隐写,实验图像库共计(1+4+4+5+5)´3000 = 57000幅图像。在分类前,将载体图像和对应的隐写图像混合并随机分为相等的两部分,一部分用于训练,一部分用于测试。实验采用如式(12)的最小平均误检率E来衡量分类的准确性。
其中FA为虚警概率,即将载体图像判为隐写图像的概率,MD为漏检概率,即将隐写图像判为载体图像的概率。
对于彩色JPEG图像,传统的隐写分析方法只对Y通道提取特征,如果嵌入者随机在任意一个通道嵌入秘密信息,则特征可能不能有效提取。本文方法同时提取通道内和通道间特征,因而对任意通道的嵌入都能有效检测。图1给出了4种隐写方法。(1)Y通道嵌入,(2)CbCr通道嵌入,(3)3个通道全部嵌入,(4)3个通道全部嵌入且使用比例训练4种情况下的平均误检率。前3种情况分别抽取3392维特征使用集成分类器进行训练,但不使用比例训练的方法,第4种情况在提取3392维特征后使用比例训练的方法进行集成分类测试。从图中可以看出,仅对CbCr通道嵌入时的平均误检率相对较高,这是因为CbCr通道在非零DCT个数以及尺寸上都小于Y通道。由于3个通道全部嵌入而不使用比例训练的情况只是将3个通道的特征简单合并,在检测性能上与仅在Y通道嵌入的情况相比并没有很大提升,通过比例训练则可以使平均误检率比仅在Y通道嵌入时降低2%-4%,比3个通道特征简单混合训练要降低1%-3%。
为了对比文献[8]中的原始校准方法与扩展校准方法的性能,我们使用两种校准方法分别提取3392维特征,并利用比例训练的方法对4种隐写算法进行检测。表3中给出了两种校准下本文方法与其它流行分析方法的性能对比,包括文献[12]方法,文献[9]方法,文献[10]方法以及文献[11]方法,其中文献[12,9,11]方法在训练过程中使用SVM分类器,而文献[11]方法在训练过程中使用集成分类器。为了便于比较,隐写时在Y, Cb, Cr 3个通道同时嵌入秘密信息,并应用以上分析方法对3个通道分别提取特征并进行合并,将合并特征作为实验对比的隐写分析特征,最后得到文献[12]的特征为648维,文献[9]的特征为1644维,文献[10]的特征为1944维,文献[11]的特征为23550维。从表中可以看出,使用扩展校准方法提取的特征在整体检测性能上比原始校准提取的特征好,虽然提高的比率只在0.5%以内,但对所有方法都有一定程度的提高,说明扩展校准方法比原始校准更具优势;另外,通过实验也注意到,扩展校准过程所耗费的时间比原始校准要长。综合表中各种隐写分析特征,本文提出的隐写分析特征在性能上优于以上其它特征。
图1 4种隐写方法在4种嵌入方式下的最小平均误检率PE
表3 各隐写分析方法在4种JPEG隐写算法下的最小平均误检率PE
本文提出一种基于YCbCr颜色空间的彩色JPEG图像隐写分析方法。该方法在通道内和通道间分别提取特征,通道内特征只在Y通道提取,而通道间特征则在各通道间的差分平面上提取。在分类训练阶段引入集成FLD分类器,由通道内和通道间两部分特征分别训练出两类子分类器,通过调整两类子分类器的比例对众数投票结果产生扰动,从而达到最佳性能。通过几种隐写方法的检测对比,证明本文提出的分析方法能够对彩色JPEG图像进行有效检测,并且在低嵌入率下的性能优于当前流行的几种特征分析方法。
[1] Upham D. Steganographic algorithm JSteg [OL]. http://zooid.org/~paul/crypto/jsteg, 2002.
[2] Provos N. Defending against statistical steganalysis[C]. Proceedings of 10th USENIX Security Symposium, Washington, DC, August, 13-17, 2001: 323-335.
[3] Westfeld A. High capacity despite better steganalysis (F5-A steganographic algorithm)[C]. Proceedings of 4th International Workshop Information Hiding, New York, 2001: 289-302.
[4] Kodovský J, Fridrich J, and Pevný T. Statistically undetectable JPEG steganography: dead ends, challenges, and opportunities[C]. Proceedings of 9th ACM Multimedia & Security Workshop, Dallas, TX, 2007: 3-14.
[5] Sallee P. Model-based methods for steganography and steganalysis[J]., 2005, 5(1): 167-190.
[6] ZhangX Pand Wang S Z. Efficient steganographic embedding by exploiting modification direction[J]., 2006, 10(11): 781-783.
[7] Solanki K, Sarkar A, and Manjunath B S. YASS: Yet Another Steganographic Scheme that resists blind steganalysis[J]., 2007, 4567: 11-13.
[8] Fridrich J. Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes [J]., 2004, 3200: 67-81.
[9] Pevný T and Fridrich J. Merging Markov and DCT feature for multi-class JPEG steganalysis[C]. Proceedings of SPIE, Electronic Imaging, Security, Steganography, and Watermarking of Multimedia Contents IX, San Jose, CA, 2007: 1-13.
[10] Shi Y Q, Chen C, and Chen W. A Markov process based approach to effective attacking JPEG steganography[J]., 2007, 4437: 249-264.
[11] Kodovský J, Fridrich J, and Holub V. Ensemble classifier for steganalysis of digital media[J]., 2012, 7(2): 432-444.
[12] Liu Q. Steganalysis of DCT-embedding based adaptive steganography and YASS[C]. Proceedings of 13th ACM Multimedia & Security Workshop, New York, 2011: 77-86.
[13] Liu Q, Sung A, and Qiao M. Neighboring joint density-based JPEG steganalysis[J]., 2011, DOI:10.1145/1899412. 1899420.
[14] Kodovský J and Fridrich J. Steganalysis of JPEG images using rich models[C]. Proceedings of SPIE, Electronic Imaging, Media Watermarking, Security, and Forensics of Multimedia XIV, San Francisco, 2012: DOI: 10.1117/ 12.907495.
[15] Kodovský J and Fridrich J. Rich models for steganalysis of digital images[J]., 2012, 7(3): 868-882.
[16] 何军辉, 黄继武. 彩色JPEG图像的隐写分析[J]. 电子学报, 2005, 33(12A): 2543-2548.
He J H and Huang J W. Steganalysis for color JPEG images [J]., 2005, 33(12A): 2543-2548.
[17] 孙文颙, 刘婷婷, 张新鹏, 等.彩色图像通用隐写分析的多类统计特征[J]. 中国图象图形学报, 2008, 13(10): 1914-1917.
Sun W Y, Liu T T, Zhang X P,.. Statistical features for universal steganalysis on color images[J]., 2008, 13(10): 1914-1917.
[18] 綦科, 张大方, 谢冬青.基于颜色梯度特性的彩色图像隐写分析[J]. 通信学报, 2011, 32(1): 27-36.
Qi K, Zhang D F, and Xie D Q. Reliable steganalysis of color images based on color gradient sequence[J]., 2011, 32(1): 27-36.
[19] Mohand Said A. Wavelet modeling using finite mixtures of generalized Gaussian distribution: application to texture discrimination and retrieval[J]., 2012, 21(4): 1452-1464.
[20] NRCS Image Database[OL]. http://photogallery. nrcs.usda. gov/. 2010.
栗风永: 男,1983年生,博士生,研究方向为多媒体信息安全、数字取证.
张新鹏: 男,1975年生,博士,教授,博士生导师,研究方向为多媒体信息安全、数字取证、加密域信号处理、数字水印.
余 江: 男,1981年生,博士生,研究方向为多媒体信息安全、加密域信号处理.
Steganalysis for Color JPEG Images Based on Ensemble Proportion Training
Li Feng-yong Zhang Xin-peng Yu Jiang
(,,200072,)
A new steganalytic scheme of color JPEG images is proposed based on YCbCr color space. The features of the proposed scheme include intra-channel features and inter-channel features. The intra-channel features are formed by Markov features, extended DCT features and co-occurrence matrices features and capture effectively the dependency among DCT coefficients in Y channel. The inter-channel features are extracted in difference planes between channels, which can effectively capture the dependency between channels. In the classification process, the intra-channel and inter-channel features are respectively used to train sub-classifiers. By adjusting the proportion of two kinds of sub-classifier, the optimal decisions are synthesized by using majority voting. Experimental results show that proposed scheme is applicable to low embedding color JPEG images and the performance outperforms some state-of-the-art feature sets.
Color JPEG image; Steganalysis; Calibration; Ensemble classifier; Proportion adjusting
TP391
A
1009-5896(2014)01-0114-07
10.3724/SP.J.1146.2013.00443
2013-04-07收到,2013-08-12改回
国家自然科学基金(61073190, 61071187, 61103181),上海市浦江人才计划(13PJ1403200)和上海高校特聘教授(东方学者)专项资助课题
栗风永 fyli@shu.edu.cn