量化激光打印机打印文件墨迹形态微观特征分析研究
牟小彬,王洁,程卫国
(上海市公安局,上海200083)
摘要:目的探索区分不同激光打印机打印样本的量化分析方法。方法运用“图像扫描分析系统”对打印件上由制造工艺等因素引起的,人眼无法辨识的微观特征如打印字迹的灰度、背景噪声点面积等相关参数进行量化测量研究和数据分析。结果使用15项参数组合,能够将18台不同型号激光打印机3 600页打印样本中的3 596页正确分类,正确率为99.8%。结论通过上述15项参数可区分不同类型的激光打印机,此方法对于不同类型激光打印机中等打印量的打印样本分类具有可行性。
关键词:文件检验;激光打印;微观特征;量化
目前,司法鉴定中打印文件检验的主要依据是打印机具在文件页面上留下的明显故障性特征。随着制造业工艺的日益精湛,明显的故障特征在样本上出现机率降低,传统检验方法面临困境。ImageXaminer图像扫描分析系统可对打印文件的灰度、线条打印质量、炭粉附着性、色间渗透等参数进行测量,对打印文件质量进行量化分析。
决策树算法(Decision Tree)是一种典型的分类方法,首先利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,本质上决策树是通过一系列规则对数据进行分类的过程,由于这种决策分支画成图形很像一棵树的枝干,故称决策树。通过决策树算法分析,可以找出不同打印机打印样本的分类规则,从而发现ImageXaminer图像扫描分析系统中与打印机分类相关性较强的测量参数,为打印机的鉴别提供新的检验思路。
本文运用“图像扫描分析系统”对打印件上由制造工艺等因素引起的,肉眼难以辨识的微观特征,如打印字迹的灰度、背景噪声点面积等相关参数开展量化研究。并结合决策树算法对不同型号激光打印机打印样本进行分类,为不同激光打印机的鉴别提供依据。
1.1仪器
ImageXaminer图像扫描分析系统(美国ImageX-pert公司),配置:EPSON Experssion 10000XL真实光学分辨率2400dpi扫描仪、EPSON A3 Automatic Doc-ument Feeder文件自动输入仪、imac27英寸电脑、ImageXpert图像专家软件。扫描仪参数设置见表1。
1.2材料
选取市场上9个主流品牌共18种型号的激光打印机各1台,将其分别编号为01~18号打印机(见表2)。使用同一电子文档(文档为案件中常用汉字“的、了、法、是、我”随机组合而成),在同一品牌A4幅面纸张上打印文件200页,分别编号为010001~010200、02000~020200、……180001~180200。
1.3数据分析软件
本文选择决策树C4.5算法建立数学模型,使用数据挖掘软件Weka作为模型建立工具,贝尔实验室开发的Graphviz作为模型结果的呈现方法。
1.4测试条件
1.4.1灰度阈值设定
由于打印机品牌、型号、使用环境等相关因素的影响,打印件打印文字墨迹墨粉堆积感及底灰不同,即墨迹的灰度不同。在灰度图象中的每个像素都是从0~255的亮度值,通常把0定义为“黑”,255定义为“白”。阈值就是临界值,是基于图片亮度的一个分界值,默认值是50%中性灰(即128),也就是当选择灰度阈值为128时,亮度低于128即被认为“黑”,在对打印件相关参量进行测量时,可以自行定义阈值,而阈值的确定决定了准入计算的亮度值。通过适当的阈值设定,可以充分地识别文件上的墨点:当阈值过小时,无法识别笔画中较淡的墨迹;反之,当阈值过大时,会将纸纤维上的细微疵点计入在内。为了全面反映各样本的量化测量情况,实验中选择亮度较深的80、中间值117、默认值128、亮度较浅的160四种阈值设置。
1.4.2最小准入面积设定
打印机墨迹的连通区域测量过程中可以自定义参与计算的最小墨迹面积,该设置最小值为1,即1为最小的数量级,系统默认最小值为100,可自行设定任意值。系统会根据最小测量面积选择参与测量的墨点,为了充分反映笔画周围的细微墨点分布情况,实验中选择最小测量面积为1。
1.4.3测试参数
ImageXaminer图像扫描分析系统可实现图像增强、图像形态改变、目标区域运算、面积测量、灰度测量、线条、边缘测量、连通区域测量、相关区域测量、霍夫变换算法、向量、文字识别、二维码解码、条纹测量等测量运算。在实验过程中对适用于打印文件整幅测量的参数进行筛选,发现连通区域测量、灰度测量、面积测量三类参数适用于打印文件整幅测量(见表3)。
表1 扫描仪参数设置
表2 实验用激光打印机品牌、型号
表3 测试参数
连通区域测量(connectivity)是根据设定的像素极性(polarity)、灰度阈值(threshold)、最小准入面积(blob criteria)等测量条件,将待测目标区域中的字符划分为若干个连通区域,并对具有相同明暗极性的连通像素群(part)或由相同明暗极性像素群围成的整块像素群(包括该像素群中的明、暗两类像素)(blob)的面积、周长、圆度、背景噪声等微观特征进行量化测量。
灰度值测量(gray)是根据设定的像素极性(polarity)、灰度阈值(threshold)等测量条件,对明、暗像素的灰度、明暗线条数量、对比度等微观特征进行量化测量。
面积测量(area)是根据设定的像素极性(polarity)、灰度阈值(threshold)等测量条件,对明暗像素的面积、面积比值等微观特征进行量化测量。
1.5数据测量与分析
使用ImageXaminer图像扫描分析系统对3 600份样本进行扫描录入,并选取等大的目标区域对上述29种116项测量参数进行整幅测量。通过决策树C4.5算法建立数学模型,使用数据挖掘软件Weka作为模型建立工具,贝尔实验室开发的Graphviz作为模型结果呈现方法,训练模型见图1。
图1 决策树模型
2.1阈值选择对分类结果的影响
ImageXaminer图像扫描分析系统会根据阈值选择所测部分,阈值设定不同,同一参数的测量值会随之变化。阈值设定为亮度较深的80,一些浅淡的笔画不参与计算;设定为中间值117,笔画周围的散落墨粉点基本不参与计算;设定为默认值128,笔画周围的散落墨粉点大部分参与计算;设定为亮度较浅的160,除笔画周围的散落墨粉外,页面上的散落墨粉点和部分纸张纤维疵点也参与计算。研究发现,连通区域测量时,阈值设定为160,部分样本超出了其测量的阈值范围,样本无测量值,数值显示为0,若出现这种情况,则舍弃该参数值。灰度阈值选择80、117、128、160四种阈值设置,可以较为全面反映各样本的量化测量情况。此外,阈值设置不同,打印文件的分类情况也发生了变化,图2中阈值为80的灰度标准差参数无法区分3号、12号打印机,而图3中阈值为117的灰度标准差参数则可区分3号、12号打印机;图3中阈值为117的灰度标准差参数无法区分10号、15号打印机,而图2中阈值为80的灰度标准差参数则可区分10号、15号打印机。
图2 阈值为80的灰度标准差
图3 阈值为117的灰度标准差
表4 最小测量面积为1时,阈值为128的字块面积标准差值
根据决策树分析筛选出的打印机分类强相关系数,阈值为80的测量参数有7项,阈值为117的测量参数有5项,阈值为128的测量参数有2项,阈值为160的测量参数有1项,若需固定阈值,设定为低于默认值128的灰度阈值会取得较好的分类效果。
2.2最小准入面积对分类结果的影响
在连通区域测量时,ImageXaminer图像扫描分析系统可自定义参与计算的最小墨迹面积,系统会根据最小测量面积选择参与测量的墨点,最小准入测量面积不同,同一参数的测量值也会随之变化。为确定最小准入面积设定对分类结果的影响,抽取1~5号打印机各10页样本,将最小准入面积分别设置为系统默认值100和系统最小值1,比较其参数测量结果,发现最小准入面积设置为1的打印机区分效果优于最小准入面积设置为100。如当最小测量面积为1时,阈值为128的字块面积标准差可区分1号、4号打印机,而最小测量面积为100时,1号、4号打印机则无法区分,测量数值(见表4~5)。
2.3决策树模型分类结果
从决策树模型中可以看出:使用阈值为117、最小准入面积为1的字块面积标准差,阈值为117、最小准入面积为1的字块灰度平均值,阈值为80的灰度众数值,阈值为80的中位灰度值,阈值为128、最小准入面积为1的字块灰度平均值,阈值为80的灰度标准差,阈值为128、最小准入面积为1的字块平均面积,阈值为80、最小准入面积为1的字块圆度标准差,阈值为117的灰度标准差,阈值为160、最小准入面积为1的字块圆度标准差,阈值为80、最小准入面积为1的墨块数量,阈值为80、最小准入面积为1的字块面积标准差,阈值为117、最小准入面积为1的墨块总周长,阈值为80的面积比值,阈值为117、最小准入面积为1的字块总周长等15项参数组合,能够分类18台激光打印机打印样本,经测试集测试3 600页打印样本中3 596页分类正确,正确率为99.8%,并且得到的决策树只有8层,结构简单。
2.4模型验证与评价
选取办公用激光打印机3台,其中HP LaserJet P2015dn型2台,编号分别为19、20号机;FUJI Xerox P255d型1台,编号为21号机。在相同实验条件下,每台打印机连续打印样本3页,1个月后再连续打印样本3页,收集样本共计15页(编号如下:1190001~1190003、2190001~2190003、1200001~1200003、2200001~2200003、1210001~1210003、2210001~2210003),使用ImageXaminer图像扫描分析系统对上述15份样本进行扫描录入,并选取等大的目标区域对打印文件进行整幅测量。决策树模型筛选出的15项打印机分类强相关参数测量结果见表6。
续表6
通过上述测量结果发现:
(1)21号机与19、20号机在上述15项参数值上均存在明显差别;19、20号机由于品牌、型号相同,上述15项参数测量值比较接近。从19~21号机的测量结果与1~18号机的参数自身变化程度比较中可进一步发现,19、20号机与21号机在阈值为117、最小准入面积为1的字块面积标准差参数项上的差别程度分别为19.6%、19.1%,而18台实验用打印机自身变化的最大幅度为18.6 %;在阈值为117、最小准入面积为1的字块灰度平均值参数项上的差别分别为14.3%、17.2%,而18台实验用打印机自身变化的最大幅度为10.2 %;在阈值为80的灰度标准差参数项上的差别分别为9%、7.8 %,而18台实验用打印机自身变化的最大幅度为4.3%;在阈值为117的灰度标准差参数项上的差别分别为7.5 %、6.6 %,而18台实验用打印机自身变化的最大幅度为3.8%;在阈值为117、最小准入面积为1的墨块总周长参数项上的差别分别为7.6 %、10.3%,而18台实验用打印机自身变化的最大幅度为7.2%,5项参数的差别程度均大于18台实验用打印机自身变化的最大幅度,该决策树模型筛选出的测量参数组合可为区分不同种类打印机提供判别依据。
(2)19、20号打印的参数测量值虽较为接近,但在打印量跨度较小的情况下,不同机台打印样本的参数测量值之间存在一定差别,如2190001~2190003 与1200001~1200003虽在阈值为80、最小准入面积为1的字块面积标准差上较为接近,但在阈值为80的灰度标准差上存在明显差别,该模型筛选出的部分参数组合,可为区分打印量跨度较小的同品牌同型号不同打印机提供判别依据。
(3)同一打印机相隔一个月的样本在阈值为117、最小准入面积为1的字块灰度平均值,阈值为128、最小准入面积为1的字块灰度平均值,阈值为80的灰度标准差,阈值为117的灰度标准差,阈值为80的面积比值等参数值上存在较为明显的差别,且20号机的变化幅度较大。经统计20号打印机一个月的打印量约为200页,19、21号机一个月的打印量约为50页,打印文件的参数测量值随打印量发生变化,该模型筛选出的部分参数组合,可为区分同一打印机不同时期的打印样本提供判别依据。
(1)通过决策树模型分析,发现116项参数中阈值为117、最小准入面积为1的字块面积标准差,阈值为117、最小准入面积为1的字块灰度平均值,阈值为80的灰度众数值,阈值为80的中位灰度值,阈值为128、最小准入面积为1的字块灰度平均值,阈值为80的灰度标准差,阈值为128、最小准入面积为1的字块平均面积,阈值为80、最小准入面积为1的字块圆度标准差,阈值为117的灰度标准差,阈值为160、最小准入面积为1的字块圆度标准差,阈值为80、最小准入面积为1的墨块数量,阈值为80、最小准入面积为1的字块面积标准差,阈值为117、最小准入面积为1的墨块总周长,阈值为80的面积比值,阈值为117、最小准入面积为1的字块总周长等15项参数对于激光打印机打印样本分类具有较强的相关性,可以用于打印样本区分。
(2)根据决策树模型分类结果及19~21号机的测试结果,5号机(惠普P2055d)与6号机(惠普M401dn),9号机(兄弟HL-2250DN)与10号机(兄弟HL-2240D),11号机(理光SP310DN)与12号机(理光SP200),15号机(柯尼卡美能达MAGICOLOR 1650EN)与16号机(柯尼卡美能达MAGICOLOR 1700W)样本在接近树的底层才被区分开来,19、20号机(HP LaserJet P2015dn)的参数测量值差别较小。说明品牌相同、档次接近的激光打印机在上述15项参数测量值上较为接近,在打印量跨度较大的情况下,同品牌同型号的激光打印机较难通过量化测量的方法区分。
(3)从19~21号打印机的测量结果可以看出,打印量对激光打印文件参数测量值的变化有着较大影响,可在打印量跨度较小的情况下,通过量化测量方法区分同品牌同型号不同打印机打印样本以及同一打印机不同时期的打印样本。
(4)本研究是对18台打印机连续打印的200页样本建立数学模型,发现通过阈值为117、最小准入面积为1的字块面积标准差等15项参数组合可以区分18台打印机打印样本,并将该实验结果应用于3台办公用激光打印机的区分,发现通过上述15项参数可区分不同类型的激光打印机,此方法对于不同类型激光打印机中等打印量的打印样本分类具有可行性。
参考文献:
[1]梁政,韩星周,郝红光.利用ImageXpress系统灰度特征区分激光打印复印一体机的打印及复印文件初探[J].刑事技术,2013,38(4):36-40.
[2]韩星周,梁政,郝红光.激光连续打印文件特征变化的实验探究[C].北京:中国人民公安大学出版社,2013:91-93.
[3]王洁,牟小彬,程卫国.喷墨类打印机打印文件量化分析研究初探[C].北京:中国人民公安大学出版社,2013:86-91.
[4]Tan PN,Steinbach M,Kumar V. Introduction to data mining[M]. New Jersey: Addison Wesley,2005:150-168.
[5]Rokach L,Maimon O. Data Mining with Decision Trees[M]. Singapore :World Scientific Publishing Company,2008:77-81.
(本文编辑:张清华)
鉴定制度
Forensic System
Quantitative Study on the Microscopic Morphological Characteristics of Laser Printed Documents
MU Xiao-bin,WANG Jie,CHENG Wei-guo
(Shanghai Municipal Public Security Bureau,Shanghai 200083,China)
Abstract:Objective To establish a quantitative method for the classification of printed samples produced by different laser printers. Method A quantitative measurement and data analysis of the gray scale of printed contents,background and other related parameter terms was conducted using the ImageXaminer. Results 3 596 out of 3 600 pages of printed samples produced by 18 different laser printers were correctly classified based on the comprehensive analysis of 15 parameter terms. The accuracy of classification was 99.8%. Conclusion These 15 parameter terms can be used to distinguish samples of different types of laser printers.
Key words:questioned document examination; laser printing; microscopic characteristics; quantification
作者简介:牟小彬(1981—),女,高级工程师,硕士,主要从事文件检验研究。E-mail: gaomusihuo@163.com。
基金项目:上海市公安局科研项目(NO.2014002)
收稿日期:2015-03-06
文章编号:1671-2072-(2015)05-0056-07
doi:10.3969/j.issn.1671-2072.2015.05.011
文献标志码:A
中图分类号:DF794.2