魏显峰, 王 宇, 胡祖平
(浙江汉博司法鉴定中心,浙江杭州 310007)
随着彩色激光打印机的迅速普及,彩色激光打印机的打印速度、打印品质也不断提高,在为人们日常工作提供便利的同时,也为一些不法分子伪造各类打印文件创造了条件,他们利用彩色激光打印机伪造高质量的假钞、假票据甚至伪造政府公文,严重危害了国家利益和人们的正常生产生活秩序,也为此类案件的物证鉴定工作带来极大挑战。打印机制造商及有关政府机构很早就意识到高质量的打印设备会给不法分子提供便利,美国密勤局(United States Secret Service)要求打印机生产商在彩色激光打印机中设置一种跟踪暗码,执法部门和打印机制造商可以通过这项隐藏技术来确认伪造者的身份[1]。
跟踪暗码是指重复出现在某种机型的彩色激光打印机打印文件上,由直径只有0.1 mm左右的黄色墨点所组成的点阵图形[2],点阵图形以组为单位规律分布于整张纸面,图文处和纸张空白处均有分布。由于白色纸张和黄色墨点之间的色差较小,所以肉眼往往难以直接识别,必须借助仪器设备进行显现。打印机制造商将打印机的信息编码为一个唯一性的点阵图形并储存在芯片中,由芯片中的固定程序指挥,一般的机械故障不会影响到该系统的正常工作,如果试图毁坏该系统,那么有可能会直接造成打印机具的损毁[3],所以该特征具有较强的稳定性。
打印机制造商一直将跟踪暗码作为商业机密未向外界透露其破译方式,除了一个名为“电子前沿基金会”(Electronic Frontier Foundation,EFF)的研究组织在此前破译并公布了富士施乐牌彩色激光打印机跟踪暗码所包含的品牌、打印时间等信息外,其他品牌的打印机跟踪暗码信息目前尚未完全破解,因此需要采用逆向分析方法,通过对不同品牌、不同型号、不同打印时间的样本进行分析,总结归纳出彩色激光打印机跟踪暗码特征规律,建立不同品牌、不同型号彩色激光打印机暗码特征数据库,利用计算机自动比对技术对彩色激光打印机跟踪暗码进行识别与比对,从而提高鉴定效率。
VSC8000文检仪、Stemi2000-C体视显微镜、Epson Perfection V850 Pro扫描仪、Photoshop CS6图像处理软件等。
收集了3台市面上比较常见的彩色激光打印机,使用同一个Word文档在A4幅面的复印纸上分别以彩色模式和灰度模式进行打印,时间间隔为7天,实验样本打印质量较高,具备检验条件,具体机具品牌型号如表1所示。
表1 彩色激光打印机品牌型号表
利用体视显微镜将实验样本放大观察,可以清晰地观察到纸张表面跟踪暗码的轮廓和颜色。由于显微镜的视场较为狭窄,且纸张颜色与黄色墨点的颜色反差不大,所以很难通过显微镜直接观察到跟踪暗码的整体形态,上述3台彩色激光打印机跟踪暗码微观形态如图1、图2、图3所示。
图1 HP Color LaserJet CP1515n牌彩色激光打印机打印文件跟踪暗码微观形态
图2 TOSHIBA FC-2010AC牌彩色激光打印机打印文件跟踪暗码微观形态
图3 Konica Minolta blzhub C226牌彩色激光打印机打印文件跟踪暗码微观形态
由于不同颜色的物体对光的吸收和反射的特性不同,使用波段范围在400~480 nm的蓝色光源照射,蓝色光线被跟踪暗码的黄色染料所吸收,黄色小点呈深灰色,而白色纸张会全部反射这一波段的光线,使得两者增大了反差,从而将跟踪暗码显现出来,蓝光越强,显现效果越好[4]。把实验样本依次置于VSC8000文检仪中,采用蓝色光源可以较为快捷地将打印文件上的跟踪暗码显现出来,上述3台彩色激光打印机跟踪暗码点阵形态如图4、图5、图6所示。
图5 TOSHIBA FC-2010AC牌彩色激光打印机打印文件跟踪暗码点阵形态(局部)
图6 Konica Minolta blzhub C226牌彩色激光打印机打印文件跟踪暗码点阵形态(局部)
把实验样本放入到Epson Perfection V850 Pro扫描仪中,采用1200dpi扫描分辨率对实验样本依次扫描,扫描完成后将扫描图像保存为JPG格式文件。然后运行Photoshop CS6图像处理软件将上述文件打开并放大到合适倍率,在“通道”栏中仅勾选“蓝”,此时可以清晰地观察到跟踪暗码的点阵图案,为了增大反差可以选择图像——调整——反向功能使图片呈现黑底,也可以继续使用图像——调整——色阶功能来增大反差,直至得到最佳的显现效果。在显现过程中,应注意底灰等因素造成虚假的暗码点。上述3台彩色激光打印机跟踪暗码点阵形态如图7、图8、图9所示。
图7 HP Color LaserJet CP1515n牌彩色激光打印机打印文件跟踪暗码点阵形态(局部)
图8 TOSHIBA FC-2010AC牌彩色激光打印机打印文件跟踪暗码点阵形态(局部)
图9 Konica Minolta blzhub C226牌彩色激光打印机打印文件跟踪暗码点阵形态(局部)
实验发现,彩色激光打印机的跟踪暗码大多由直径约为0.05~0.2 mm的黄色小点组成,且在彩色打印模式下打印彩色内容时出现,在彩色模式下打印黑白内容或在灰度模式下打印则不会出现。同种品牌不同型号或者不同品牌的打印机跟踪暗码的微观形态可能会存在差异,但对于富士施乐牌彩色激光打印机,同一品牌、不同型号的打印机打印文件跟踪暗码的形态和大小完全一致[5]。比较常见的跟踪暗码形态有正圆形、空心圆、扁椭圆等,一般情况下,同机打印的文件上跟踪暗码的形态和大小完全一致,不会随着时间的变化而变化。
彩色激光打印文件跟踪暗码分布于整张纸面,在纸面的任何部位都可以观察和提取,纸面空白处和图文处均有分布,以点阵为单位重复出现。
本次实验发现:HP Color LaserJet CP1515n牌彩色激光打印机打印文件跟踪暗码点阵形态轮廓为21×17阵列,TOSHIBA FC-2010AC牌彩色激光打印机打印文件跟踪暗码点阵形态轮廓为17×21阵列,Konica Minolta blzhub C226牌彩色激光打印机打印文件跟踪暗码点阵形态呈较为密集型轮廓。根据当前的研究结果显示[6-8],不同品牌之间的彩色激光打印机打印文件的跟踪暗码点阵形态存在差异,同一品牌的彩色激光打印机打印文件的暗码点阵形态之间既有相似之处,同一品牌不同型号之间也存在一定的差异。对于同一台彩色激光打印机而言,大多数打印文件的暗码点阵形态不会随着时间的变化而发生改变,但也有少数的彩色激光打印机,如富士施乐牌彩色激光打印机打印文件的暗码点阵形态会随着时间的变化而发生局部改变。
通过显现实验获得跟踪暗码的点阵图,再经过对比增强、噪点去除、裁剪等方式消除干扰项后,可以利用计算机图像识别技术对其进行关键特征提取,相关特征可以作为图片的“指纹”信息,与相关打印机型号信息等进行关联,建立检索数据库。对于未知的点阵图片,可通过对比数据库进行已有特征的相关性检测,计算得出相关打印机型号等信息。
常见的相似图片检测方法有:基于哈希算法、基于特征匹配、基于BOW+K-Means模型以及基于卷积网络的图像相似度计算方法。受限于实验样本的数量,本实验目前探索了前3种计算方法,相关实验图片如图10、图11、图12、图13所示。
图10 样本图片
图11 对比图片(a)
图12 对比图片(b)
图13 对比图片(c)
哈希算法是通过生成类似缩略图的方式保留图片低频信息,对图片生成一个“指纹”字符串,然后比较不同的图像指纹,结果越接近说明图片越相似。本实验使用差异哈希算法(Hash)对实验图片做比对。实现过程如下:
(1)将图片缩小至8×9共72像素,然后将缩放图片转为256阶灰度图。
(2)计算每行中相邻元素差异,若左边像素比右边更亮,则记录为1,否则为0,总计产生64个差异值,组成该图的指纹。
(3)图片相关性检测。计算两张图片指纹字符串的汉明距离,距离越小则差异越小、相关性越高。测试结果显示,跟踪暗码图与非跟踪暗码图差异明显,跟踪暗码图之间差异值符合真实相关性[9]。
SIFT特征提取是在不同的尺度空间上查找关键点,对关键点周围区域计算特征向量。其不止具有尺度不变性,即使改变旋转角度、图片亮度或拍摄角度等,都有比较好的检测效果,在实验中甚至对未做优化处理的原始图片也能计算较为准确的相关性。对于特征匹配,则使用KNN算法计算图片相关性。实现过程如下:
(1)读取样本及测试图,并转为灰度图片。
(2)使用OpenCV SIFT算法分别检测获得图片的关键点及对应描述。
(3)使用OpenCV FlannBasedMatcher算法查找两图中每个特征最相关的2个关键点,然后统计其中最近距离距较近的关键点占整体匹配结果的比例,作为二者的相关性[10]。
SIFT特征虽然已经能很好地描述一幅图片,但每个SIFT特征矢量是128维的,而一幅图通常包含成百上千个SIFT矢量,所以在进行图片相似度计算时计算量非常大。实践中更常用的做法是使用KMeans算法对样本特征矢量进行聚类生成码本,然后将样本图片矢量映射到码本,最终只需要使用一个码本矢量来描述一幅图片,大大提升相似度计算效率。实现过程如下:
(1)图片预处理,然后使用SIFT提取特征,每个特征使用128维矢量表示。
(2)使用K-Means对所有矢量做聚类,将矢量聚为200个簇,形成一部字典。然后计算每样本图片SIFT特征到每个特征词的距离,对距离最近的特征词计数+1,作为词频。完成当前图片特征映射后即得到了图片对应到码本的词频矢量。
(3)构造码本,做TF-IDF加权消除停用词影响,做L2归一化。最终将处理后的码本持久化作为模型。
(4)相似图片检索。对检索图片做同样的特征提取、TF-IDF、L2归一化之后,计算其与(3)产出的训练码本的距离,对应距离最近的样本图片则可认为与检索图片最相似[11]。
上述3种测试方法的具体结果如表2所示。
从表2可以看到3种相似度检测方法都能反映出与样本图片最相近的对比图片,SIFT与Bow+KMeans则可以更高的精度反映出图片的相似程度。
表2 测试结果
本文对常见不同品牌、不同型号的彩色激光打印机跟踪暗码进行了显现和分析,并分别运用基于哈希算法、基于特征匹配、基于BOW+K-Means模型3种检测方法对实验样本进行了比对,取得了较好的效果,证实了该方法的可行性。但受限于当前收集的打印机样本数量不足以及相似图片检测模型精准度等情况,本次研究还存在一定的局限性。需要建立更多不同品牌、不同型号的彩色激光打印机跟踪暗码数据库、提升样本图片质量等手段来提高模型精度,做到对检索图片的精准匹配,进而更好地运用到鉴定工作实践当中。