基于光源颜色和噪声的图像拼接篡改检测方法*

2021-06-25 09:46魏伟一赵秀锋赵毅凡

计算机工程与科学 2021年6期

魏伟一，赵秀锋，赵毅凡

(西北师范大学计算机科学与工程学院,甘肃兰州 730070)

1 引言

随着各种功能强大的图像编辑软件的出现，数字图像的真实性受到严峻的挑战。图像拼接是一种常见的图像伪造手段，是选取一幅图像作为宿主图像，然后从另一幅或多幅图像中复制一部分区域粘贴到宿主图像中完成篡改[1]。这种来源不同的图像合成的总图往往会造成整幅图像特性的不一致，如光照方向[2]、噪声[3]、光源颜色和CFA(Color Filter Array)插值[4]等，为图像拼接篡改研究提供了思路。文献[5]首次提出利用光源颜色不一致检测图像拼接篡改，虽然取得了一定的效果，但阈值的选择依赖于先验经验。Sun等人[6]通过估计图像中不同区域的光源颜色实现拼接篡改检测与定位，但该方法根据先验知识人工选取未篡改的块作为参考区域，无法实现拼接区域的自动检测与定位。根据拼接图像中噪声不一致的特性，Wu等人[7]在单尺度超像素中估计局部噪声方差，排除不符合正态分布的超像素，将剩余区域通过与阈值比较定位可疑区域。文献[8]提出在多尺度超像素中利用噪声差异检测拼接伪造区域，该方法通过建立噪声水平和亮度的多项式函数，将不受函数约束的块标记为可疑区域，在原始区域和拼接区域的噪声差比较小的情况下，该方法性能不理想。因此，文献[9]提出利用主成分分析PCA(Principal Component Analysis)在灰度空间对图像逐块估计噪声水平，利用K-means聚类检测拼接区域。Wang等人[10]将图像划分为顺序块，在彩色空间中利用PCA估计噪声。文献[11]在超像素块中提取局部噪声水平和噪声分布特征，实现篡改检测。

综合现有研究来看，图像拼接篡改检测方法大多针对图像的某个单一特征进行提取分类实现篡改检测。但是，由于图像的信息量较为丰富，单一特征提取的方法导致图像特征信息捕获不充分，对拼接区域检测精确率不高或无法识别拼接区域。另外，以上方法多在灰度空间或单色通道中进行检测，丢失了图像的颜色信息。针对现有方法存在的不足，本文提出一种新的基于混合特征的方法来有效定位拼接区域。利用超像素分割策略划分图像，并提取局部光源颜色和噪声的混合特征，通过对特征进行二分类定位拼接区域。经过实验对比，光源颜色和噪声的混合特征提取方法较单一特征提取方法能取得更高的检测精确率。

2 本文方法

图像拼接篡改会造成多种图像特性发生改变。传统方法针对单一特性不一致提取到的特征非常有限，对拼接区域检测精确率影响较大。因此，本文根据篡改图像光源颜色和噪声特性的不一致，通过对二者的混合特征提取，实现对拼接区域的正确检测与定位，提高检测精确率。方法流程如图1所示。首先将待检测的彩色图像利用简单线性迭代聚类SLIC(Simple Linear Iterative Clustering)算法分割成不重叠的超像素块；其次将每个图像块转换到YCbCr颜色空间提取光源颜色特征，同时将图像块表示为四元数并利用PCA提取噪声特征；然后将这2种特征组合作为最终特征向量，采用K-means聚类将特征向量分为2类，并将所含特征数较少的一类标记为篡改区域，实现彩色图像拼接篡改检测。

Figure 1 Framework of method

2.1 图像分割

为量化描述不同区域特征的差异，本文采用SLIC算法分割图像，分割后的超像素块满足式(1)：

(1)

其中，I表示输入图像，K表示超像素的总数目，kj表示第k个超像素中的第j个像素点。

SLIC算法将具有相似性的像素分组形成超像素块。与顺序分块相比，超像素块的结构更为紧凑，形状均匀且边缘轮廓更为清晰。另外，用超像素代替多个像素来表达图像特征，能大大降低后续算法的时间复杂度。

SLIC算法包括2个步骤：初始化超像素块的个数和像素点分配。首先将图像传输到CIELAB颜色空间，原始的种子点为Ck=[Lk,Ak,Bk,Xk,Yk]T，k=1,…,K。假设输入图像的像素点个数为N0，那么每个超像素的像素点个数为N0/K，且相邻种子点的距离近似为S=sqrt(N0/K)。为避免种子点分布在图像边缘的位置，将种子点的初始位置定位到3×3邻域中梯度最小的位置。在像素点分配步骤，遍历每个像素并计算其与种子点的欧氏距离，将像素点分配到距离最近的种子点所属簇中，并将种子点更新为各个簇中所有像素的平均向量。前一个聚类中心与当前聚类中心之间的误差小于给定阈值或达到给定的迭代次数，算法停止，完成分割。

2.2 光源颜色特征提取

不同的颜色空间所表示的颜色特性不同，与RGB相比，YCbCr颜色空间能够更好地捕获图像光源颜色差异。因此，为了更准确地估计光源颜色，首先要把图像从RGB颜色空间转换到YCbCr颜色空间。光源颜色估计就是计算整个图像的平均色差,文献[12]中的相机自动白平衡算法通过遍历整幅图像中满足一定约束条件的像素点来计算平均色差。考虑到拼接区域在图像中仅占部分区域，本文提出利用SLIC算法将图像分割成不重叠的超像素块，并将文献[12]中计算图像平均色差的算法应用到图像拼接检测领域，用于提取超像素块的光源颜色特征。为了降低算法的时间复杂度,在实际计算中选择满足约束条件(2)的像素来计算平均色差[12]。

Y-|Cb|-|Cr|>φ

(2)

其中，φ为约束因子，当Y较小时,Cb和Cr范围控制得很紧，只有少量像素可以参与色差计算；而当Y增大时,Cb和Cr的范围相应放大，更多像素参与计算，从而可以提高估计精度。

对于分割后的超像素块，遍历每个超像素块中符合约束条件(2)的像素，按照式(3)提取每个超像素块的光源颜色特征：

(3)

其中，n表示第k个超像素块中符合条件(2)的像素数量，且k=1,2,…,K；Yi，Cbi，Cri分别表示像素点i在YCbCr颜色空间的值。对每一个超像素块进行光源颜色提取，结果记为ICk={Yk,Cbk,Crk|k=1,2,…,K}。

2.3 噪声特征提取

现有的利用噪声不一致检测拼接区域的方法多在灰度空间或单色通道中进行，并采用顺序分块的分割策略，这样一方面会丢失图像的颜色信息，另一方面顺序分块会将真实区域与篡改区域的边缘区域划分在同一个块中，对噪声估计的准确性造成影响。针对此问题，本文在提取图像噪声特征时，首先将彩色图像表示为四元数(Quaternion)，充分利用R、G、B 3个通道的颜色信息，然后在超像素块中利用PCA提取噪声特征。

2.3.1彩色图像的四元数表示

四元数是哈密顿在1843年提出的数学概念，其由1个实部和3个虚部组成，可以用式(4)表示：

q=a+bi+cj+dk

(4)

其中，a，b，c，d∈Z。a是四元数的实部，b,c和d分别是对应于四元数3个虚部i、j和k的系数。如果实部a=0，则q称为纯四元数。

用四元数模型表示彩色图像时，RGB图像的3个通道分别对应于纯四元数3个虚部的系数。给定彩色图像的像素(x，y)，R(x，y)、G(x，y)和B(x，y)分别表示像素(x，y)在R、G和B通道中的值。对于每一个像素，通过式(5)可获得该点的四元数表示。

q(x,y)=R(x,y).i+G(x,y).j+B(x,y).k

(5)

利用式(5)可以很容易将彩色图像表示为四元数。

2.3.2 PCA噪声估计

利用PCA对超像素块进行局部噪声水平估计是目前能够比较准确估计噪声的方法之一。

假设1通过应用PCA，f0可以稀疏地表示为所有f0i，{f0i}都位于子空间VM-m∈RM中,其中M=M1×M2，m是预先定义的正整数。

当假设1成立时，式(6)成立。

(6)

彩色图像四元数噪声估计算法具体步骤如下所示：

步骤1f被划分为重叠块fi，i=1,2,…,N。重叠块的尺寸为5×5,即M0=25。

步骤2利用方差分布来计算初始估计，该初始估计还用作整个估计的上限。设s2(fi)为样本fi的四元数方差，Q(p)为{s2(fi),i=1,…,N}的p分位数。初始噪声估计为C0Q(p0)。文献[13]作者实验性地设定C0=3.1,p0=0.0005。

步骤3通过递归丢弃方差最大的图像块，直到满足假设1，用式(7)选择图像块Bs的子集:

Bs={fi|s2(fi)≤Q(p),i=1,…,N}

(7)

且假设1通过条件(8)检查：

λBs,m-λBs,min

(8)

采用PCA估计每个超像素的噪声水平，记为NLk={σk|k=1,2,…,K}。

2.4 拼接区域检测与定位

对每一个超像素，将提取到的光源颜色和噪声融合作为最终的特征向量，所有超像素块的特征向量记为SF={{ICk,NLk}|k=1,2,…,K}，其中ICk是光源颜色特征，NLk是噪声特征。根据对大量篡改实验图像的统计可知，绝大部分拼接篡改图像中，篡改区域所占图像比例小于原始区域所占图像的比例。因此，本文利用K-means算法将混合特征SF划分为2个簇，统计2个簇中所含超像素块的数量，并将数量较少的簇标记为可疑区域。

在超像素分割结果中存在块区域较小的问题，可能导致本应属于拼接区域的超像素未被标记，或者原始区域的超像素被误标记为篡改区域。针对此问题，为进一步提高检测精确率，本文将经过聚类的初始标记结果在超像素块级做后处理操作，包括孤立块过滤和空洞填充。孤立块过滤的主要步骤是：遍历所有超像素块k(k=1,2,…,K)，如果与其邻接的超像素块都被标记为原始区域，则将k也标记为原始区域。空洞填充的主要步骤是：遍历所有超像素块k，如果超像素块k的所有邻接块都被标记为篡改区域，则将k也标记为篡改区域。初始分类结果如图2a所示，经过孤立块过滤和空洞填充处理后的分类结果如图2b所示。其中，灰色表示原始区域，白色表示篡改区域。

Figure 2 Superpixel block-level filtering and filling

3 实验结果与分析

本节通过实验评估和分析，研究混合特征提取方法对拼接图像的检测性能。首先在哥伦比亚未压缩图像拼接检测评估数据集(Columbia IPDED)[14]上检测图像拼接。这个数据集由真实图像库和拼接图像库组成，真实图像由4种相机拍摄而得：佳能G3、尼康D70、佳能350D Rebel XT和KodakDCS330。拼接图像库中总共有180幅拼接图像，并且每幅拼接图像都是使用Adobe Photoshop图像处理软件由源自不同相机的2幅原始图像合成。由于真实图像的成像光照条件包括室内光源、室外阳光、阴天和阴影等，并且均由不同的相机拍摄而成，因此它们具有不同的光源颜色与噪声，可充分检验本文方法的有效性。

3.1 与相关方法的比较

评估图像拼接检测方法性能的最重要指标之一就是检测精确率。本节通过视觉展示和定量评估来检验所提方法的检测性能，并与其他相关方法进行比较。从Columbia IPDED中选取拼接位置、块大小和区域纹理不同的4幅拼接图像，然后分别使用本文混合特征提取方法与文献[6,9,10]中的单一特征提取方法来检测这些图像。另外，为说明本文混合特征提取方法适用于更多类型的拼接图像定位，在整个Columbia IPDED数据集上将该方法与其他相关方法进行比较。

首先将本文混合特征提取方法与文献[6]的单独提取光源颜色特征的方法进行比较，结果如图3所示。在图3中，本文方法相较于文献[6]的方法有更少的误检及漏检区域。这主要有3个原因：(1)在分割策略上本文采取SLIC超像素分割策略，很大程度上避免规则分块导致的将拼接区域和原始区域的边缘划分在同一个子块中；(2)SLIC分割的超像素块边缘轮廓更清晰平滑，使得本文方法对拼接区域的边缘检测效果较好；(3)当拼接区域与原始区域的光源颜色差异较小时，本文利用噪声特征进行补充，实现了更准确的检测。

Figure 3 Detection results comparison with method from reference [6]

其次，将本文方法与文献[9,10]中单独提取噪声特征的方法进行比较。在图4中，与本文方法相比，在第1行中，文献[9]方法表现出较多的误检测区域。在第2行和第3行中，文献[9,10]方法具有更高的漏检率。在第4行中，文献[9]方法对拼接区域检测失败，其他方法实现了较高的精确率。从图4可以看出，本文方法获得了更精确的检测区域，而其他方法在某些情况下可能会失败或具有更多的错误检测。原因是此数据集中某些拼接图像的原始区域和拼接区域之间的噪声差异很小，本文利用光源颜色作为辅助特征，当噪声差异较小时仍可区分拼接块与原始块。

Figure 4 Detection results comparison with methods from reference [9, 10]

为定量分析本文所提方法的拼接检测性能，引入真阳性率TPR和假阳性率FPR来评价像素级的精度，如式(9)所示：

(9)

其中，TPR是正确检测到的拼接区域中像素的比率，FPR是原始区域中被错误检测的像素的比率。TP表示正确检测的拼接区域的像素数，FN表示未被检测到的拼接区域的像素数，FP表示原始区域中被检测为拼接像素的像素数,TN表示正确检测的原始区域的像素数。有效的拼接定位方案有望同时获得高TPR和低FPR。

图4中4幅图像的像素级TPR和FPR测试结果如表1所示。

从表1可以看出，本文方法能提供较准确的检测，并且检测精度高于文献[9,10]的。

3.2 鲁棒性分析与比较

从CASIA2.0图像库中选择JPEG格式的4幅拼接图像，以评估所提方法抗压缩的鲁棒性。图5显示了4幅拼接图像的检测结果。很明显，由于拼接图像经过JPEG压缩，所有方法的检测结都包含一定的漏检区域，但与其他方法相比，本文方法柯检测出更多的拼接区域。

Table 1 Pixel-level accuracy

Figure 5 Detection results of each method on CASIA2.0

将本文方法和其他方法分别应用于整个Columbia和经压缩因子QF为95和85的JPEG压缩后的数据集上,各方法的平均像素级定量比较如表2所示。

Table 2 Pixel-level performance comparison onthe Columbia IPDED before and after post-processing

在表2中，对于没有后处理的图像数据集，与其他方法相比，本文方法可获得较高的真阳性率TPR和较低的假阳性率FPR。这主要有3个原因：(1)相比较于单独提取光源颜色或噪声特征的检测方法，本文方法将二者结合用于拼接检测，当一方差异较小时，另一方将起到补充作用。(2)在四元数的基础上利用PCA提取到的噪声更接近真实噪声，因为将RGB图像的3个通道作为四元数的3个虚部，能充分保留图像的颜色信息。(3)相比较于顺序分块，本文采用超像素分割策略划分图像，保留了更清晰平滑的边缘轮廓。同时对于经过JPEG压缩过的图像，相比于文献[9,10]中的方法，本文方法表现出相对较高的真阳性率，这说明混合特征提取方法较单一特征方法更具鲁棒性。

3.3 计算复杂度分析

计算复杂度包括在超像素分割、光源颜色及噪声特征提取和拼接区域检测上花费的时间，本文在2.60 GHz CPU和4 GB RAM的计算机上使用Matlab进行了仿真。实验测试了混合特征提取方法对Columbia IPDED中每幅图像的平均运行时间，并与文献[9,10]中的方法进行比较。表3显示出了统计平均值。混合特征提取方法的检测精确率高于文献[9,10]的同时，相较于文献[10]中的方法，本文方法表现出更低的时间消耗。

Table 3 Computational time comparison of each method

4 结束语

为避免单一特征提取方法造成图像拼接检测精确率过低，本文提出了一种基于混合特征提取的图像拼接篡改检测方法。该方法分别提取图像的光源颜色及噪声特征，并使用K-means聚类算法进行特征分类，实现篡改图像拼接区域的检测与定位。在不同数据集上的实验结果表明，相比单一特征提取方法，混合特征提取方法具有更好的检测性能。但是，本文方法对JPEG压缩的图像不够鲁棒，另外，本文方法对含有多个拼接区域的图像检测精度较低。因此，在未来的工作中，一方面可以将 JPEG 压缩的检测方法与本文方法结合使用，提高鲁棒性；另一方面可以针对多个拼接区域开展研究。