陈艾伦,陈庆虎,鄢煜尘,熊海亚,周小丹
(武汉大学 电子信息学院,湖北 武汉 430072)
基于因子分析的打印文档鉴定方法
陈艾伦,陈庆虎,鄢煜尘,熊海亚,周小丹
(武汉大学 电子信息学院,湖北 武汉 430072)
针对现有打印文档鉴定方法在检材和样本中无相同字符时基本失效的问题,提出一种基于因子分离的打印文档鉴定方法。该方法将字符图像看作是融入了字符形态结构的残缺纹理图像,并建立基于灰度共生矩阵特征的2个因子模型,该特征可划分为纹理因子和字符因子两部分。通过因子分离方法获得与字符无关的独立纹理特征,并利用最小距离分类器来实现打印文档的同机鉴定。选取35台激光打印机参与测试,鉴别正确率达94.29%,证明了该方法的有效性。
打印文档鉴定;因子分析;纹理特征;灰度共生矩阵
随着数字技术的发展和打印机的普及应用,打印文档逐渐取代手写文档成为承载信息的主要媒介。与之相伴的与打印文档相关的民事纠纷、刑事案件等也越来越多,如篡改法律合同,散播非法传单,伪造身份证、票据、护照等。因此,通过有效的文档取证技术,检验文档是否经过编造,以及识别出问题打印材料的打印机类型,对司法和公安部门乃至普通群众都非常有价值。
由于打印文档直接来源于打印机,每台打印机独有的机械、电气特性以及器件组合性能的不同通过打印过程均会反映到打印文档中,因此不同打印机打印的文档存在差异。Allen[1]在1990年的《国际物证检验》期刊上发表论文,首次分析了根据打印图形的差异进行文档鉴定的可能性,并利用某些明显打印缺陷判断源打印机。目前,国内外已经有很多关于打印文档鉴定的研究,文献[2-3]提出利用打印机齿轮传动系统产生的条带特征和字符的纹理特征进行打印机鉴别;文献[4]通过检测文本行倾斜的角度和两端对齐的距离查找被篡改的文本行;文献[5]通过提取多尺度DCT特征训练支持向量机来识别源机;文献[6]利用双极性距离对字符形状进行匹配来鉴定打印文档;文献[7]通过拼接打印字符内部纹理的方法来进行文档检验研究;文献[8]提出利用图像质量评价特征追踪打印机来源。
目前,大多数的打印机鉴定方法均是基于文档中出现频率较高的字母或者单词,且检材与样本文档中包含足量的相同字符,而在2份文档中没有相同字符的情况下,目前已有的方法基本失效,鉴别率极低。针对这一问题,本文提出一种基于因子分析的打印文档鉴定方法,将字符图像看作是融入了字符形态结构的残缺纹理图像,通过对灰度共生矩阵法获得的特征进行分析,将影响特征的因素划分为纹理因子和字符因子两大类,并通过因子分离方法获得独立的纹理特征,从而消除了字符因子的影响,最后利用最小距离分类器来实现文档鉴定。该方法不仅获得了良好的鉴别正确率,还摆脱了对文档内容的依赖,扩大了打印文档鉴定的适用范围。
影响打印文档墨粉纹理的因素复杂多样,不仅包括传动系统因素,还与墨粉的成分、硒鼓表面附着性能、打印机压辊的定影性能,以及墨盒中墨粉存量等因素有关,这些因素为打印字符图像带来了丰富的纹理细节特征,使得纹理分析的方法能够为打印机鉴定提供依据。为了能够更好地获得打印字符图像的纹理信息,本文所用图像均由本实验室自主设计研发的“图像整体高倍放大扫描系统”[9]采集获得。
图1a是HP-Scanjet-4850高性能扫描仪在4 800 dpi下扫描一个字符“e”的图像,可以看到图像整体轮廓十分模糊,而且细节特征也无法体现;图1b是本文装置拍摄采集的同一个字符的等大图像,不仅轮廓清晰分明,而且墨粉喷洒、内部纹理等细节均可完整采集到。图2是来自4台不同打印机生成的纹理图像,可以清楚地看到不同打印机的打印纹理在高倍放大条件下具有显著差异。
图1 扫描仪与本文装置采集的字符图像比较
图2 4台不同打印机生成的纹理图像比较
2.1 灰度共生矩阵法特征提取
灰度共生矩阵法是由Haralick[10]提出的一种比较成熟有效的纹理描述方法。在图像的空间位置上,各灰度反复交替变化形成纹理,因此,图像中相隔一段距离的两个像素间可能存在着某些灰度关系,这种关系也被称作是图像灰度的空间相关,灰度共生矩阵法的基本思想就是通过研究灰度的空间相关来表征纹理。
一幅由水平方向的N个像素、垂直方向的N个像素组成,像素的灰度级数为H的图像可以用一个二维函数f(x,y)(x=1,2,…,N;y=1,2,…,N)来表示。灰度共生矩阵元素的定义为从灰度值为i的像素沿θ方向出发,统计与其距离为δ、灰度值为j的像素同时出现的频率P(i,j,δ,θ),其数学表达式为
f(x,y)=i,f(x+Dx,y+Dy)=j}
(1)
式中:i和j分别表示两个像素的灰度值,其取值范围为[0,H-1];δ和θ是灰度共生矩阵的构造参数,其中δ是生成步长,θ是生成方向,θ通常取0°(水平)、90°(垂直)、45°和135°;Dx和Dy是位置偏移量,η是计数函数,R为相隔δ的2个像素总共有的点对数。
本文利用灰度共生矩阵法对打印字符图像提取特征,其中矩阵生成方向取0°(水平)和90°(垂直)两个方向,对应于打印机的扫描方向和走纸方向;矩阵的生成步长根据打印纹理粒度大小的估计取20;统计特征取能量、对比度、相关性和熵这4个常用参数,Ulaby[11]等研究者发现这4个特征值分辨力最好且互不相关。因此特征总维数为2×20×4=160。
2.2 影响特征的因素
字符图像可以看作是融入了字符形态结构的残缺纹理图像。利用灰度共生矩阵法提取特征,其中影响特征的因素主要分为两类:打印机墨粉堆积纹理的差异(与打印机的型号有关,简称纹理因子);英文字母形态结构的差异(与打印文档内容有关,简称字符因子)。灰度共生矩阵法是经典的纹理特征提取方法,因此纹理因子是打印文档鉴定的基础,而字符因子则不利于分类鉴别。划分影响因子的目的就是要从特征中分离出字符因子,获得独立的纹理特征,从而在检材与样本中没有相同字符的情况下也可以实现打印机鉴定,接下来对这两类因子进行建模分析。
2.3 因子分析模型
首先分析纹理因子和字符因子对特征影响的显著性。通过研究大量的打印文档样本,发现利用灰度共生矩阵法对英文字符提取的特征整体分布近似符合正态分布,因此可以利用2个因子模型分析特征值。
(2)
(3)
(4)
(5)
(6)
(7)
(8)
则有统计量为
(9)
(10)
(11)
(12)
直观上,SS反映全体数据中的波动;SSA反映由于纹理因子A在各个水平下的不同作用而引起的波动,常数M表示每个水平Ai在各对水平搭配中出现了M次,SSB的意义与SSA类同;SSe反映由于随机误差作用而在数据中引起的波动。分别称SS为总离差平方和,SSA为纹理因子A的离差平方和,SSB为字符因子B的离差平方和,SSe为误差平方和。且可证
SS=SSA+SSB+SSe
(13)
取显著性水平为α,可得到纹理因子A的检验统计量为
(14)
它在显著性水平α下的检验拒绝域为
FA≥Fα(N-1,NM-N-M+1)
(15)
式中:Fα(N-1,NM-N-M+1)表示在水平α下自由度为(N-1,NM-N-M+1)的F分布。
字符因子B的检验统计量为
(16)
它在显著性水平α下的检验的拒绝域为
FB≥Fα(M-1,NM-N-M+1)
(17)
式中:Fα(M-1,NM-N-M+1)表示在水平α下自由度为(M-1,NM-N-M+1)的F分布。即因子A,B显著性假设成立的条件分别是式(15)和式(17)。
为了验证纹理因子与字符因子的显著性假设,本文选取9台不同型号激光打印机的打印文档进行实验,对每份打印文档抽取同样的16个不同英文字符组成该文档的字符集,其中字符图像的尺寸大小为450×450像素。利用灰度共生矩阵法提取160维特征并进行方差分析。
取显著性水平α=0.05,可知:Fα(N-1,NM-N-M+1)=F0.05(8,120)=2.02,Fα(M-1,NM-N-M+1)=F0.05(15,120)=1.75。
2个因子方差分析结果如图3所示。
图3 两因子实验的方差分析结果
由图3可知,在α=0.05水平下,利用灰度共生矩阵法所提取特征的FA值均大于Fα(N-1,NM-N-M+1),所以纹理因子对特征的影响是显著的,这也是利用灰度共生矩阵法可以实现打印文档鉴定的根据;同时看到所提取特征的FB值也全部大于Fα(M-1,NM-N-M+1),因此字符因子对特征的影响也是显著的,必须对特征进行因子分离,消除字符因子的影响,获得独立的纹理特征。
(18)
1)收集45台不同型号激光打印机的打印文档建立数据库,记为p=1,2,…,45,基本涵盖市场上占有率较高的打印机品牌,每份打印文档有26个英文字符,记为j=1,2,…,26。
2)利用灰度共生矩阵法对每份打印文档的每个字符图像提取160维特征,对于第k维特征可以得到45×26的特征值矩阵。
为验证上述分析,选取之前参与测试的9台打印机的打印文档,对160维特征因子分离后重新进行2个因子方差分析,计算结果如图4所示。
图4 因子分离后的方差分析结果图
由图4可知,经过因子分离后,纹理因子对特征影响的显著性无明显变化,而FB值均小于Fα(M-1,NM-N-M+1),因此字符因子对特征的影响是不显著的。
(19)
利用最小距离分类器,即街区距离最小的2份文档属于同一台打印机。
本文提出的鉴定方法的流程见图5。首先将整份文档图像分割为单个字符图像,然后利用灰度共生矩阵法提取160维特征,并进行因子分离得到与字符无关的独立纹理特征,再对文档中所有字符求取均值获得该文档的特征向量,最后通过最小距离分类器来实现打印文档的同机判定。
图5 本文方法流程图
为了测试本文方法的有效性,选取35台不同型号激光打印机打印的英文文档进行实验,每台打印机各2份,分别建立检材集和样本集,每份打印文档有15个不同英文字符。将检材集中的每份文档依次与样本集中的所有文档作比对,利用灰度共生矩阵法提取160维特征。
对于同一份打印文档,分别抽取1,5,10,15个英文字符,计算该文档字符因子分离前后的特征均值向量,将街区距离最小的2份文档判定是同机生成的。实验鉴别结果如表1所示。
表1 打印机鉴定实验结果
字符个数灰度共生矩阵法的正确率/%灰度共生矩阵+因子分离法的正确率/%145 7177 14551 4282 861057 1488 571562 8594 29
实验结果表明,利用因子分离法对文档鉴定有明显的改善效果,在打印文档中有15个不同英文字符的情况下,准确率为94.29%,达到了较为理想的水平。本文提出的鉴定方法在检材和样本无相同字符的情况下,依然可以比较精确地进行打印机同机鉴定,与现有方法的结果相比,获得了接近于基于相同字符方法的准确率,大大拓宽了打印文档鉴定的应用范围。
传统的打印文档鉴定方法均是基于检材与样本文档中的相同字符,当检材与样本中没有相同字符时,鉴别正确率急剧下降。本文首先利用经典灰度共生矩阵法提取特征,且通过两因子方差分析模型验证了纹理因子与字符因子对特征均具有显著影响,然后提出一种因子分离方法,获得与字符无关的独立纹理特征,并利用最小距离分类器来实现打印机鉴定,取得了良好的识别效果。该方法在传统方法无法应用的情况下,为打印文档鉴定提供了一种新思路。
[1] ALLEN M J,HARDCASTLE R A. The distribution of damage defects among characters of printwheel typing elements[J].Forensic Science International, 1990,7(3):249-259.
[2] MIKKILINENI A K,CHIANG P J,ALI G N,et al. Printer identification based on graylevel co-occurrence features for security and forensic applications[C]//Proc. the SPIE International Conference on Security,Steganography,and Watermarking of Multimedia Contents VII. San Jose,CA:[s.n.],2005:430-440.
[3] MIKKILINENI A K,ARSLAN O,CHIANG P J,et al. Printer forensics using SVM techniques[C]//Proc. the IS&T's NIP21, International Conference on Digital Printing Technologies. Baltimore,MD:[s.n.],2005:223-226.
[4] BEUSEKOM J,SHAFAIT F,BREUEL T M. Text-line examination for document forgery detection[J].International Journal on Document Analysis and Recognition (IJDAR),2013,16(2):189-207.
[5] JIANG W,HO A T S,TREHARNE H,et al. A novel multi-size block Benford’s law scheme for printer identification[C]//Proc. Advances in Multimedia Information Processing-PCM 2010. Shanghai:[s.n.],2010:643-652.
[6] 涂岩恺,陈庆虎,邓伟. 计算机激光打印文档鉴别与检索[J].电子与信息学报,2011,33(2):499-503.
[7] 邓伟. 基于打印墨粉纹理分析的打印文件检验研究[J].电子测量技术,2014,37(2):70-74.
[8] 沈林杰,孔祥维,尤新刚. 基于字符图像质量评价的打印机取证[J].东南大学学报:自然科学版,2007,37(S1):92-95.
[9] 陈庆虎,邓伟,涂岩恺. 图像整体高倍放大扫描系统:中国200920084691[P].2010-01-15.
[10] HARALICK R M,SHANGMUGAM K,DINSTEIN L. Textural features for image classification[J].IEEE Trans. Systems Man and Cybernetics,1973,3(6):610-621.
[11] ULABY F T,KOUYATE F,BRISCO B,et al. Textural information in SAR Images[J].IEEE Trans. Geoscience and Remote Sensing,1986,24(2):235-245.
[12] 盛骤,谢式千,潘承毅. 概率论与数理统计[M].4版.北京:高等教育出版社,2008.
陈艾伦(1991— ),硕士生,主研图像处理与模式识别;
陈庆虎(1957— ),博士,教授,主要研究方向为图像处理与模式识别;
鄢煜尘(1971— ),博士,讲师,主要研究方向为图像处理与模式识别;
熊海亚(1990— ),硕士生,主研图像处理与模式识别;
周小丹(1992— ),硕士生,主研图像处理与模式识别。
责任编辑:任健男
Identification Method of Printed Document Based on Factor Analysis
CHEN Ailun,CHEN Qinghu,YAN Yuchen,XIONG Haiya,ZHOU Xiaodan
(SchoolofElectronicInformation,WuhanUniversity,Wuhan430072,China)
A printed document identification method based on factor separation is proposed, since the existing printed document identification methods lose efficacy when there are no identical characters between test and training documents. In the proposed method, the character image is considered as an incomplete texture image integrated with character structure. A two-factor model based on gray-level co-occurrence matrix feature is established, and the feature is decomposed into texture factor and character factor. Thus, character-independent texture feature is obtained, and minimum distance classifier is applied to implement printed document identification. Thirty-five laser printers are selected for testing, and the accuracy can reach to 94.29%, which proves the effectiveness of the proposed method.
printed document identification; factor analysis; texture feature; gray-level co-occurrence matrix
文件检验鉴定公安部重点实验室(中国刑事警察学院)基金资助项目(11KFKT002);公安部重大项目(2014JSYJA017)
TP391.4
A
10.16280/j.videoe.2015.18.022
2015-07-01
【本文献信息】陈艾伦,陈庆虎,鄢煜尘,等.基于因子分析的打印文档鉴定方法[J].电视技术,2015,39(18).