黄 曜,许华虎,欧阳杰臣,高 珏
(1.上海大学,上海 200444;2.上海上大海润信息系统有限公司,上海 200444)
基于混合特征提取的图像来源鉴别算法
黄 曜1,许华虎2,欧阳杰臣1,高 珏1
(1.上海大学,上海 200444;2.上海上大海润信息系统有限公司,上海 200444)
随着数码图像的普及,图像盲取证成为时下的研究热点之一。如何识别图像来源是其中主要的研究内容。特征提取是对图像进行鉴别的前提。文中通过对现有的特征提取方法进行研究,针对现有单一特征提取不能完全反映图像特质导致识别出错的问题,提出混合特征提取的概念,依次提取图像的颜色特征、纹理特征以及统计特征,从而提高图像来源的识别率。通过实验对文中提出的算法进行了验证。结果表明,文中提出的混合特征提取算法较任一单一特征提取算法都能取得更好的图像来源鉴别率。
图像盲取证;单一特征提取;混合特征提取;图像来源鉴别率
随着现代数字技术的发展,以及数码相机的普及,数字图像在日常生活和工作中得到了广泛的使用。相应地,篡改图像内容并使得人眼难以觉察出伪造的痕迹变得越来越频繁与容易,由此带来的影响轻则干扰人们的正常生活,重则影响国家、社会和政治稳定[1]。因此,鉴别图像的真实性显得日益迫切,图像盲取证技术作为研究要点被提出并成为时下热点之一。
图像盲取证技术主要涉及四个方面的问题[2-3],其中之一便是如何确认图片是由相机、手机等设备所拍摄的自然图像,还是经过计算机制作的图像,抑或是扫描仪直接扫描生成的图像。传统的图像来源鉴别算法主要包括特征提取、特征选择以及构造分类器等多项技术。特征提取作为前期的重要部分,所做的工作是如何高效地提取对最终鉴别有利的特征。针对特征集维数过大的问题,现有的图像盲取证大多采用单一特征提取。Lyu等对摄影图像和计算机生成图像进行分类时采用基于金字塔分解的自然图像统计模型的方法[4]。其主要方法便是对图像的统计特征加以分析,最终区分这两种不同来源的图像。Khanna等对扫描图像进行研究,先对待测图像进行不同的去噪操作,从而获得不同的噪声信息,然后通过提取图像的残余噪声行以及列平均值的统计信息等一系列相关性特征,成功鉴别由扫描仪生成的图像[5]。Binghamton大学的J.Fridrich在对自然图像的研究中,提出将由自然图像提取的模式噪声作为“相机指纹”来进行数码相机的个体识别,并最终将该理论扩展到打印图片的来源辨识中[6]。
这些算法大多都是对图像的某个特征进行提取并分类以达到特定的鉴别效果,也取得了一定的鉴别率。但是,图像的信息量其实是非常丰富的,如果仅用某种单一的特征进行鉴别,那么所能获取的关于图像的来源信息则相当有限,甚至无法反映图像的特质,这将直接影响最终鉴别的效果。所以,找到一种高效而又尽可能地反映图像特征的特征提取方法意义重大。
因为传统的单一特征提取算法从图像中获取的信息非常有限,不能全面地概括图像的个性特征,导致了图像来源鉴别率不高。所以,文中提出有关混合特征提取的理论,希望通过提取包括图像的颜色特征、纹理特征以及统计特征的混合特征以达到提高鉴别率的目的。
1.1 基于HSV颜色直方图的颜色特征提取
通常来说,扫描仪的色纯受灯管的工艺限制影响,使得扫描而成的图像有一定的偏色现象[7]。所以,颜色特征可以用来鉴别自然图像与扫描图像。因此,文中将颜色特征作为要提取的混合特征之一。另外,为避免可能出现的“维数灾难”问题,文中采取可量化的HSV颜色空间进行颜色特征提取。
1.1.1 颜色模型转换
在实际应用中,通常选取RGB颜色模型来表述图像的颜色空间。所以,为得到HSV颜色空间,首先应进行从RGB空间到HSV空间的颜色模型转换。
令
则有:
h=
(1)
(2)
v=max(r,g,b)
(3)
其中,r,g,b∈[0,1],h∈[0,60],s,v∈[0,1]。
1.1.2HSV空间的量化
通常来说,采用模式分类的思想鉴别图像来源,问题之一是如何避免维数灾难[8]。设计分类器的时候,如果特征维数过大,会导致出现计算量过大、复杂性高、效率低的情况。而一幅彩色图像所含的颜色信息非常丰富,这导致了图像的特征向量维数非常高。因此,缩减特征维数是非常必要的。
对于HSV颜色空间中的颜色特征来说,量化包括非等间隔与等间隔两种方式[9]。 由于等间隔量化后的颜色空间可能会出现信息集中于少数颜色中,还有可能会使得相同的颜色中包含完全不同的信息,这显然会影响最后识别的效率,所以文中采用非等间隔量化。
文中选择降低到72维矢量,即把色调H空间分成8份,饱和度S和亮度V空间分别分成3份,进行非等间隔量化。则有:
(4)
(5)
(6)
其中,H的不同取值表示色调的种类。
为便于计算,先对H、S、V取不同的权值,再根据H、S、V的量化级数和频带宽度,进而得到组合后的一维矢量L:
L=HQsQv+SQv+V
(7)
其中,Qs,Qv表示S和V的量化级数,Qs=3,Qv=3。
因此,式(7)可表示为:
L=9H+3S+V
(8)
则L的取值范围为[0,71],这样计算L可获得72柄的一维直方图。通过提高色调H的权重,相对降低饱和度S以及亮度V的权重,这样便能充分提取图像中的颜色信息,为最终的鉴别做好准备。
1.2 基于灰度共生矩阵的纹理特征提取
在计算机制作生成图像的过程中,设备以及自然光线没有起到任何作用[10],所以最终生成的图像与自然图像在统计与纹理特征方面都有显著的差别。因此,文中将纹理特征与统计特征作为混合特征中的另外两个特征用以鉴别自然图像与计算机生成图像。
文中采用灰度共生矩阵[11]的方法来提取图像的纹理特征。除了不用考虑颜色信息外,灰度共生矩阵的方法计算量以及复杂程度相对较低,并且提取出的特征向量维数相对较少,这对鉴别是非常有利的。
1.2.1 计算共生矩阵
假设图像在水平和垂直方向上分别有Nx和Ny个像素。水平空间域表示为Zx={1,2,…,Nx},垂直空间域表示为Zy={1,2,…,Ny}。给定距离d和方向角度θ后,就可以计算相应的共生矩阵元素p(i,j|d,θ)值。一般取d=1,θ分别为0°、45°、90°、135°。则有相应公式:
(9)
(10)
(11)
(12)
其中:k、m和l、n表示所选窗口中的变动;#表示集合中的像素对数。
1.2.2 纹理特征的提取
(1)RGB图像转换成灰度图像。
N=0.299×r+0.587×g+0.114×b
(13)
(2)共生矩阵的归一化。
(14)
其中,R为归一化常数,R=
(3)计算特征向量。
实际应用中,还需要通过得到的共生矩阵计算二次统计量作为纹理状况的表征。Haralick等[12]发现了多个灰度共生矩阵特征参数用于分析图像的纹理状况。Ulaby等[13]研究发现:在这些参数中,只有4个特征是不相关的,而且这4个特征相对地更加方便计算,所以文中也选取这4个特征。
①角二阶矩或能量。
(15)
角二阶矩是考量图像灰度变化是否均一的特征参数。由式(15)可知,对于均匀性较好的纹理,其大多数元素大多集中在共生矩阵的主对角线上,所以角二阶矩值较大,而对于均匀性较差的纹理,其元素多分散于对角线两边,所以角二阶矩值较小。
②对比度。
(16)
对比度描述了图像的灰度变化情况,反映了纹理的强弱和图像的清晰度。对比度越大,纹理就越明显;反之,纹理就越不明显。对比度为0表示图像没有纹理。
③熵。
(17)
熵是考量图像信息量的特征参数,用来表示图像灰度级的混乱程度。图像灰度级的混乱程度高,图像熵值较大;混乱程度低,图像熵值较小。同样地,图像没有纹理时,熵值为0。
④相关性。
(18)
相关性是考量图像灰度线性关系的特征参数,用来表示灰度共生矩阵中行或列元素之间的相似程度。若灰度值沿某些方向延伸得越长,相关性的值就越大。
1.3 基于相对频率的统计特征提取
对于图像来说,不同的成像模型以及光线传递方式会导致不同的内在属性[14]。而图像的统计特征可以用来表示图像信息的变化情况和内在属性,故文中将图像的统计特征作为识别成像设备所提取的特征之一。同样地,因为灰度图像的直方图与RGB三通道直方图分布相似[15],为了减少计算量,降低特征维数,本节还是对灰度图像进行统计特征提取。
1.3.1 计算相对频率
假设给定的彩色图像大小为M×N,则其相应灰度图像的滑块总数Ng可由下式计算得出:
Ng=⎣M/b」×⎣N/b」
(19)
其中,b为滑窗操作的窗口大小。
由于自然图像与计算机生成图像的灰度级数大多不同[16],所以本节引入相对频率来表征图像的统计特征。每个图像块中每个像素的相对频率的计算公式如下:
(20)
1.3.2 计算相对频率均值与方差
对于数字图像而言,每个像素点的相对频率从某种程度上反映了图像的像素统计特征。均值能够反映统计总体的平均特征,所以文中计算相对频率均值(MRF),用以表征图像相对频率总体的平均特征。MRF计算公式如下:
(21)
方差能够从某种程度上反映统计总体的信息和能量梯度[17]。图像的方差越大,则图像的信息越丰富。因此,文中计算相对频率方差(VRF),用以表征图像相对频率的统计信息和能量梯度。VRF计算公式如下:
(22)
相对于普通的成像设备鉴别算法,文中拟提取颜色特征、纹理特征、统计特征的混合特征以提高鉴别准确率,具体算法步骤如下:
(1)按照上文所述方法依次提取图像的颜色特征、纹理特征以及统计特征。
(2)训练和测试。对于最终的鉴别,文中采用的是模式识别的方法。即使用SVM分类器对待测图像进行分类以鉴别图像由哪种成像设备生成。首先,从图像库里选取一定数量的自然图像、扫描仪生成图像以及计算机生成图像,然后将所有图像分成训练组与测试组。训练组用来训练分类器得到分类模型,测试组用来最后的鉴别。鉴别的具体步骤与流程如图1所示。
图1 混合特征提取算法流程
首先,从图像库中随机选取300张自然图像,300张计算机生成图像以及300张扫描图像作为训练组,再选取200张自然图像,200张计算机生成图像以及200张扫描图像作为测试组。同时,为了验证混合特征提取对最终鉴别效果的提升作用,文中利用传统的单一颜色特征提取、纹理特征提取以及统计特征提取分别进行了实验,并对比了文中提出的混合特征提取算法的实验效果,结果如表1所示。
由表1可得:首先,传统的单一颜色特征提取算法对扫描图像有良好的鉴别效果,而纹理特征提取与统计特征提取算法对计算机生成图像有更好的鉴别效果。所以,选取这三个特征用以鉴别自然图像、计算机生成图像与扫描仪生成的图像是正确的。其次,文中算法相对于任一单一特征提取算法,在鉴别效率上都有一定的提高,从而验证了文中起初的设想,混合特征提取能提高图像来源鉴别的效率。
表1 文中算法与传统单一特征提取算法鉴别效果比较 %
为避免单一特征提取算法所造成的图像来源鉴别率不高的问题,文中提出了基于混合特征提取的图像来源鉴别算法。文种依次提取了图像的颜色特征、纹理特征以及统计特征,并使用模式分类的方法,实现了图像的来源识别。最后的实验结果表明,相比任一单一特征提取算法,文中提出的混合特征提取算法在图像来源鉴别率上都有一定的提高,能较好地区分自然图像、计算机生成图像以及扫描仪生成图像,达到了预期效果。但是,混合特征提取的算法使得特征维数有相应增加,导致计算量增大以及在最终的鉴别阶段,如何决定所选择的各个特征的权重都是文中亟待解决的问题。
[1]YongIY.Detectionofdigitalforgeriesusinganimageinterpolationfromdigitalimages[C]//ProcofIEEEinternationalsymposiumonconsumerelectronics.[s.l.]:IEEE,2008:1-4.
[2]SencarHT,MemonN.Overviewofstate-of-the-artindigitalimageforensics[C]//ProcofWSPC.[s.l.]:WorldScientificPress,2008.
[3]KhannaN,MikkilineniAK,MartoneAF,etal.Asurveyofforensiccharacterizationmethodsforphysicaldevices[J].DigitalInvestigation,2006,3:17-28.
[4]LyuSW,FaridH.Howrealisticisphotorealistic?[J].IEEETransactionsonSignalProcessing,2005,53(2):845-850.
[5]MikkilineniKN,ChiuAK,AllebachGTC,etal.Scanneridentificationusingsensorpatternnoise[C]//ProcofSPIE.[s.l.]:[s.n.],2007.
[6]LukasJ,GoljanM.Cameraidentificationfromprintedimages[C]//ProcofSPIE.SanJose,CA:[s.n.],2008.
[7] 张桂兰,齐爱军.扫描仪实用指南[M].北京:印刷工业出版社,2007:30-75.
[8] 宋枫溪,高秀梅,刘树海,等.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922.
[9] 荆仁杰.计算机图像处理[M].杭州:浙江大学出版社,1990.
[10]SwaminathanA,WuM,LiuKJR.Digitalimageforensicsviaintrinsicfingerprints[J].IEEETransactionsonInformationForensicsandSecurity,2008,3(1):101-117.
[11]HaralickRM.Statisticalandstructuralapproachestotexture[J].ProcofIEEE,1979,67(5):786-804.
[12]HaralickRM,ShanmugamK.Texturefeaturesforimageclassification[J].IEEETransactionsonSystems,Man,andCybernetics,1973,3(6):610-621.
[13]UlabyFT,KouyateF,BriscoB,etal.TexturalinformationinSARimages[J].IEEETransactionsonGeoscienceandRemoteSensing,1986,24(2):235-245.
[14] 谭碧涛,景春元,张 新,等.光电系统对空间目标成像建模仿真研究[J].计算机仿真,2009,26(5):240-243.
[15] 张恒博,欧宗瑛.一种基于色彩和灰度直方图的图像检索方法[J].计算机工程,2004,30(10):20-22.
[16] 王学良,李生红,金 波,等.一种用于计算机生成图像与自然图像鉴别的改进方法[J].光电子·激光,2010,21(5):783-785.
[17] 姚 权,吴晓红,何小海,等.基于能量、梯度与方差的多聚焦图像融合[J].信息与电子工程,2012,10(1):93-97.
Image Source Identification Algorithm Based on Mixed Feature Extraction
HUANG Yao1,XU Hua-hu2,OUYANG Jie-chen1,GAO Jue1
(1.Shanghai University,Shanghai 200444,China; 2.Shang Da Hai Run Information System Co.,Ltd.,Shanghai 200444,China)
With the popularity of digital images,blind image forensics has become one of the hotspots nowadays.The main research content of blind image forensics is how to identify the image source.Feature extraction is a prerequisite to identify the image.By studying the existing feature extraction methods,aiming at the problem that the single feature extraction may not fully reflect the image characteristics to lead to the recognition error,the concept of mixed feature extraction is proposed,extraction of the features of color,texture and statistics to improve the recognition rate for image source.The algorithm proposed in this paper is validated through the experiment.The results show that the mixed feature extraction algorithm proposed can achieve better image source identification rate compared with any single feature extraction algorithm.
blind image forensics;single feature extraction;mixed feature extraction;image source identification rate
2015-07-15
2015-10-21
时间:2016-03-22
国家重大科技专项课题(2009ZX04001-111)
黄 曜(1991-),男,硕士,研究方向为图像多媒体技术;许华虎,教授,博士生导师,CCF高级会员,研究方向为人机交互、图像处理、多媒体网络技术等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1521.076.html
TP301.6
A
1673-629X(2016)04-0011-05
10.3969/j.issn.1673-629X.2016.04.003