徐彤阳,尹 凯(.山西财经大学信息管理学院;2.中国科学院文献情报中心)
图像作为一种图文并茂、形象直观的信息表现形式,广泛应用于信息传递和信息交流,是大数据时代公众获取信息的主要来源。随着大量非法修改伪造图像的出现,公众的版权保护意识日益增强,在数字图书馆中图像资源的版权保护也逐渐成为学者们的研究重点。目前,面对图像资源版权侵权问题,在健全规章制度、完善法律法规的前提下,运用技术手段对数字图书馆的图像资源进行版权保护是最直接有效的方法。
图像资源版权主动保护方法的原理是指在图像作品中嵌入水印或签名等先验信息,通过对这些先验信息进行检测来判断图像作品是否被修改,以此来确保图像作品版权的完整性(见图1)。主动保护方法是保护数字图书馆图像资源版权的有效途径之一,利用主动保护方法进行图像资源版权保护的研究已取得了丰硕的成果。[1-6]
图1 图像资源版权主动保护方法的流程
数字水印技术是指通过特定算法将少量的不容易被人的视觉所察觉的标识性信息(即数字水印)嵌入到数字图书馆的图像作品中,并且是在尽量不影响原始图像使用价值的前提下。当需要对图像作品进行版权认证时,利用相应的算法提取待测图像中的数字水印,通过对这些数字水印进行检测,可以达到获取图像内容的原始信息和检验图像是否被修改等目的。[7]数字签名技术是指通过对比从原始图像作品和待检测图像作品中提取出来的、与内容相关的摘要信息来确定图像作品版权的完整性。对两个摘要信息进行对比,若摘要信息一致,则接收的图像作品版权完整,否则,说明图像版权遭到侵犯。[8]
可见,主动保护方法可以有效确保数字图书馆图像资源版权的完整性,但也存在一定的局限性。一方面,主动保护方法需要事先在图像中嵌入标识信息,事后对这些信息进行取证。但实际上,现有的绝大多数图像资源并没有被事先嵌入标识性信息,这就导致该方法不能被广泛的应用。另一方面,在图像资源中嵌入标识性信息可能会影响图像质量,这在数字图书馆中某些对图像质量要求很高的领域是不能被接受的。因此,主动保护方法还不能完全满足数字图书馆图像资源版权保护的需求。
针对主动保护方法在图像资源版权保护方面的局限性,本文利用被动保护方法对数字图书馆中没有被嵌入先验信息的图像作品的真实性进行检测。若被检测的图像作品的真实性被破坏,则表明该图像作品的版权遭到侵犯;反之,该图像版权没有遭到破坏。被动保护方法是指在待测图像作品没有被嵌入标识性信息的情况下,利用图像作品本身的特征变化,对其内容的真实性进行检测,从而对图像作品的版权进行认证和保护的一种方法。当检测人员对图像作品的真实性进行检测时,只能从图像本身入手,没有与图像相关的任何原始信息。图像资源版权的被动保护方法的流程见图2。
图2 图像资源版权被动保护方法的流程
数字图书馆中被修改的图像作品经过了特定的后期处理,虽在大多数情况下无法被视觉感知,但会导致图像本身的特征发生变化。检测人员可以利用这个特点来检测图像作品的真实性,对其版权进行认证和保护。图像作品的被动保护方法主要有三种:基于图像作品伪造过程遗留痕迹的检测、基于图像作品内在统计特性的检测和基于图像作品成像设备一致性的检测。[9]其中,应用最广的是基于图像作品伪造过程遗留痕迹的检测,这也是本文的研究重点。基于图像作品伪造过程遗留痕迹的检测是指通过对修改后的图像作品的特征进行分析,找出并分析修改操作在图像作品中遗留的修改痕迹,从而对其真实性进行检测。不同的修改手段会产生不同的遗留痕迹,尽管这些遗留痕迹不易被察觉,但可以利用计算机技术来进行分析,从而判断出图像作品受到的修改类型,甚至可以对修改区域进行定位与修复。
目前,修改遗留痕迹检测方法主要包括:复制-粘贴检测、模糊检测、重采样检测和JPEG双重压缩检测等。[10]
(1)复制-粘贴检测。复制-粘贴是在图像作品修改操作中应用最为广泛而有效的手段之一,它将图像作品中的某一区域复制出来,粘贴到同一副图或其他图像中的某一特定区域,从而达到伪造源图像中没有的情景或隐藏源图像中重要对象的目的。根据粘贴区域的来源,复制-粘贴检测可分为同幅图像作品的复制-粘贴修改和异幅图像作品的复制-粘贴修改两类。① 同幅图像作品在色彩度和亮度等方面相对一致,变化比较平滑,图像的局部块与整体图像的相容性较高,因此在同幅图像中进行复制-粘贴修改操作时不会让人产生显著的视觉差异,它是数字图书馆中最为常见的一种图像修改手段。对同幅图像作品进行复制-粘贴操作后,图像中会出现相似程度极高的不同区域块,学者们根据这一特点提出了一些检测方法。② 异幅图像作品的复制-粘贴修改操作在图像的色彩度和亮度等方面的变化比较大,在修改区域的边缘往往会形成容易被察觉的痕迹。为了削弱甚至消除这种不同图像结合边缘的不连续程度,往往会在后期处理上对其进行羽化、模糊等润饰操作。与同幅图像作品的复制-粘贴修改操作相比,异幅图像的修改往往将多种修改操作结合使用,这就使得图像作品的真实性检测问题更加复杂。因此,虽然异幅图像作品的复制-粘贴操作在图像修改中也非常多见,但目前学者们对这方面的研究还处在初步探索阶段。
(2)模糊检测。模糊操作是数字图书馆中图像作品在修改后期最为常见而有效的一种润饰手段,目的是为了让修改区域与原始图像更好地融为一体。[11]经过复制-粘贴修改操作的图像会在修改区域存在视觉差异,特别是异幅图像作品的复制-粘贴修改,为了淡化和去除在修改区域与原始图像之间的视觉上断层,往往会采用模糊操作进行后期处理,掩盖修改痕迹,从而获得无缝的伪造图像。模糊操作主要是对伪造图像作品修改区域的像素值进行平均,使修改后的图像作品的修改区域与原始图像更好地融合在一起。因此,检测模糊操作痕迹能为图像作品的真实性检测提供有力的凭据。
(3)重采样检测。图像作品在进行过复制-粘贴修改操作后,为了消除修改痕迹,通常需要对伪造部分做几何变换,如缩放、旋转等。这样的操作会对图像进行重采样,并且会在伪造后的图像作品中留下重采样的痕迹,经重采样后的伪造图像的修改区域块的像素与其周围原始图像的像素之间会产生特殊的相关性。[12]因此,可以检测图像作品是否存在重采样痕迹,进而检测图像作品的真实性。但是在某些情况下,图像作品的几何变换操作被认为是必要的,所以仅仅根据图像的重采样痕迹的检测结果并不能说明图像作品被伪造过,重采样检测方法只能作为一种辅助手段。
(4)JPEG双重压缩检测。JPEG格式是数字图书馆存储数字图像时最为推荐和适用的格式,它只需要较少的存储空间,就可获得形象生动的图像,而且支持所有主要计算机平台和Web浏览器,十分适合网上传输。JPEG格式的图像作品在经过伪造后需要重新保存,那么图像作品就经过了双重JPEG压缩。双重JPEG压缩具有某些一次JPEG压缩所不具备的特征,可以通过检测这些独有的特性来确定图像作品是否遭受双重JPEG压缩,进而判断图像作品的真实性。需要注意的是,经过了双重压缩并不能绝对说明图像作品被伪造过,因为在很多情况下为了节省存储空间或者重新保存,都会经过重压缩操作。因此,在图像真实性检测过程中,JPEG双重压缩不能直接作为图像伪造的依据,只能作为一种辅助手段。
本文尝试利用被动保护方法对图像作品的真实性进行检测,弥补主动保护方法在数字图书馆图像资源版权保护方面的缺陷,从另一角度对数字图书馆图像作品的版权进行认证和保护。本文对伪造图像(经过异幅图像的复制-粘贴修改操作,再经过模糊润饰操作处理后的图像作品)进行研究,利用一种模糊检测方法对图像作品真实性进行检测,并对修改区域进行定位(见图3)。
图3 图像作品真实性检测流程
划分子块是指对二次模糊操作的两幅图像分别实施位置对应、大小相等的子块划分,并采用相应的算法提取图像子块中的特征,进行统计分析,判断其是否经过相应的修改操作。需要注意的是,图像子块划分的大小会影响最后修改区域定位的精度。图像子块划分得过小,子块中包含的反映修改操作特性的信息就会较少,可能导致在图像子块中提取的特征不能真实反映图像修改操作的特性,产生误判;图像子块划分得过大,虽然可以包含更多信息,但会导致修改区域的定位结果不够精确,特别是修改区域边缘的图像子块,它们可能既包含部分修改区域也包含部分非修改区域。因此,图像子块划分的大小是影响最后修改区域定位精度的关键。
本文基于二次模糊相关性的方法对经过模糊处理的伪造图像进行真实性检测。[13]二次模糊相关性方法的主要原理是伪造图像的二次模糊操作前后图像修改区域相关性要大于背景区域相关性,即可以对比不同区域对应图像子块之间的相关系数来对伪造图像的模糊修改区域进行检测和定位,从而对图像的真实性进行检测。
基于二次模糊相关性的方法对模糊处理后的伪造图像进行二次模糊操作,具体公式为
其中,s(x,y)表示经过模糊处理的伪造图像,f(x,y)表示二次模糊函数,h(x,y)表示经过二次模糊处理后的伪造图像。接下来,对 s(x,y) 和 h(x,y) 分别进行位置对应、大小相等的子块划分,得到smn(x,y) 和 hmn(x,y),运算 smn(x,y) 和 hmn(x,y) 得到(i,j) 和(i,j)。二次模糊处理前后的图像的对应位置子块之间的相关性可描述为
其中,ρmn为二次模糊处理前后的图像对应位置子块之间相关性的相关系数。依照上述步骤,依次将所有对应位置子块的(i,j) 和(i,j) 带入式 (2),则可计算出图像所有对应位置子块之间的相关系数。
在计算出二次模糊处理前后的图像中所有对应位置子块之间的相关系数后,基于二次模糊相关性方法就可以根据相关系数对伪造图像的修改区域进行检测,进而实现对图像真实性的检测。伪造图像修改区域的定位是指在已经确认图像作品经过修改伪造处理的情况下,通过相应的算法来实现对修改区域的定位。在本文的实验中,根据图像对应子块之间的相关系数对图像子块进行定位标识,在所有子块相关系数计算完成后,就可以在定位结果图中看到对修改区域的标识。
实验的操作软件为Matlab2015B和Photoshop。本文选取了三组经过Photoshop模糊操作处理后的伪造图像为实验对象,大小为256x256,(a)组、(b)组为源图像,(c)组是经过模糊处理的伪造图像(见图4)。本文选用高斯模糊作为二次模糊方式。通过大量试验,发现将划分的子块大小设置为8较为合适。实验按照图3所示流程进行,将(a)组图像中的一部分复制-粘贴到(b)组图像中的特定区域,对修改区域进行模糊操作得到(c)组图像,则(c)组就是经过模糊操作处理后的伪造图像;对(c)组图像进行高斯模糊操作得到(d)组图像,则(d)组就是经过二次模糊处理后的图像;对(c)组图像和(d)组图像分别进行大小相同的子块划分,计算对应位置子块之间的相关性,由于(c)组图像与(d)组图像中修改区域的相关性要大于背景区域的相关性,因此可以实现对图像模糊修改区域的检测,同时对其真实性进行了检测,并根据相关系数对相应位置的子块进行定位标识得到(e)组图像,则(e)组图像就是修改区域显示结果。
图4 实验结果
(e)组图像可以清晰地反映出图像的伪造区域,虽然存在误判的图像子块,但数量极少。可见,本文采用的基于二次模糊相关性的方法可以有效检测经过模糊处理的伪造图像的真实性,而且可以定位图像的修改区域。
目前,虽然对于数字图书馆图像资源版权保护的研究工作已经取得了很多进展,但还是有许多问题需要进行深入的探索。[14-16]图像作品在经过特定的修改操作后会引起图像本身的特征发生变化,被动保护方法通过检测这种图像特征的变化来确定图像作品遭受的修改类型,以此来对图像作品的真实性进行检测,从而对图像作品的版权进行保护。但是被动保护方法中所涉及的技术只能检测一种指定的修改操作,还没有一种通用的方法可以检测出所有类型的修改操作,而且随着图像处理软件功能的不断强大,图像真实性检测问题将更加复杂。因此,如何将多种检测方法进行有效融合,研究出能够检测出多种混合修改操作的检测方法是当前研究的重点。
在数字图书馆的图像资源版权保护中,主动保护方法和被动保护方法都属于事后保护手段,并不能阻止版权侵犯活动的发生。对数字图书馆图像资源版权的保护应该遵循“预防为主、防治结合”的原则,因此,可以将用户访问控制技术、信息加密技术、信息隐藏技术、防拷贝技术和数字版权管理技术等多种保护技术结合使用,对数字图书馆的图像资源版权进行较为全面的保护。同时,制定严谨、合理的版权保护管理制度和法律法规,用科学的保护技术和健全的管理制度共同为数字图书馆图像资源版权保驾护航。