王海彬+傅涛
摘要:本文旨在针对抗打印扫描纸质文档信息隐藏和检测开展研究,重点讨论了文本信息保真技术,二次图像校正技术和基于字符欧拉数和格式调整相结合的文本信息隐藏技术,为实现对纸介质文件泄密溯源提供了基础。
关键词:纸介质文件;溯源;信息隐藏;盲检测
中图分类号:TP393.08 文献标识码:A DOI:10.3969/j.issn.1003-6970.2016.03.014
0引言
随着数字化技术的迅猛发展,目前许多行业和个人普遍都使用电子文档处理资料和保存信息,并且常常通过打印、复印等途径将电子文档中的内容显现在纸张上,以供阅读和传播。但是,对于涉及密性信息(如合同、财务等重要文档)的企事业单位,很多重要信息或者机密信息很可能通过这些纸质文档而泄漏出去。因此,需要采取一些安全保密措施来防止通过打印、复印等操作而生成的纸质文档所造成的文档信息泄密。然而,随着各单位的业务量逐渐增加,单位规模的不断扩大以及人员数目的日益增加,各种管理的成本和难度都随着增大,管理员很难及时掌握单位内部的文档打印情况,这在一定程度上给安全保密措施带来了挑战,增加了重要文档信息泄密的可能。并且,对于打印后的纸质文档及其复印件,往往由于缺乏文档溯源追踪信息,而导致无法确定文档打印的源头和对打印内容进行审计,造成纸质文档的随意打印、有意或无意的非法传播,进一步加大了文档打印管控的难度。因此,研究电子文档的打印过程管理和控制、文档溯源追踪和内容审计是一个重要的且具有挑战的课题。
本文旨在针对抗打印扫描纸质文档信息隐藏和检测技术开展研究,实现电子文档在打印时能够嵌入不可见密级标志、收发文单位等编码信息的信息隐藏技术以及纸质文件隐藏信息提取系统,实现对纸介质文件泄密溯源。
1当前研究现状
近年来,除了针对图片、音视频的数字水印技术得到很快的发展之外,国内外对于电子文档在打印时嵌入隐藏信息的水印技术研究、纸质文档隐藏信息抗扫描打印等攻击的鲁棒性研究以及相应的提取方法研究已经取得了一些成果。目前常见的纸质文本信息隐藏方法分为以下两种:
1.1基于文本格式的信息隐藏方法
基于文本格式的信息隐藏方法是早期数字水印的研究方法,嵌入的水印信息都在空间域中,典型的算法有行间距编码、字间距编码和特征编码。这类算法的基本思想就是在不改变文本内容的前提下,对文档格式做轻微的调整,以此来嵌入水印信息,如在行间距编码中,上移某行,隐藏“1”;下移某行,隐藏“0”。这类算法的最大弱点就是隐藏的信息与载体内容无关,只与载体的格式相关,嵌入的水印信息很难抵抗如格式调整,删除文本段落等攻击。近些年来兴起的水印嵌入方法,嵌入的水印信息也大都在空间域,也有一些水印是嵌入在变换域中的。典型的算法有根据文本内容做同义词替换、根据自然语言特征对特定的句式做变换,以此来嵌入水印信息。这类算法的优点是隐藏信息与文本内容紧密关联,水印的安全性较好。如Bmssil等人提出了基于文本格式微调的方法进行水印的嵌入。该算法利用文本文件的特点,通过调整文本格式,如字符间距、文本行间距进行水印的嵌入,视觉效果良好,且有一定的鲁棒性。基于文本文档的数字水印实现简单,但缺点是由于不同格式的文本的格式不统一,因此对不同格式的文档需要采用不同的嵌入方式。另外,由于文档是以原格式存在,且为可编辑的,因此水印容易受到攻击。该算法虽视觉效果良好,但无法抵抗文本格式变化的攻击,且基于行移的文本水印算法信息量少,无法满足对泄密者身份的追踪。
1.2基于文本图像的信息隐藏方法
该方法是通过在文本图像中添加数字水印来实现的。在文档打印时,需要首先将待打印文档转化为文本图像格式,然后在文本图像中完成数字水印的嵌入。在该算法中,所有文档在数字水印嵌入之前需要具有相同的格式,即数字水印嵌入在相同格式的文档存在,因此,在数字水印嵌入前有时必须做文档格式转换,增加了复杂度。基于文本图像数字水印的算法按照变换域可以分为以下两种:
1)空间域方法:该类算法包括LSB水印算法、Patchwork算法和文档格式微调法。格式微调法主要是通过调整文本字符的某些几何特征,如字符的笔画、质心等实现水印的嵌入。代表性的研究成果包括:卞文法等人通过将打印扫描过程对文本图像的影响等同于一个卷积过程,经计算得到文本图像在打印扫描俞后的不变量,通过对该不变量进行调整完成数字水印的嵌入,该算法水印容量较大,视觉效果良好;李刚等针对二值文档印刷图像提出了基于文字区域嵌入水印的方法,将文字分割成若干个区域,并以区域中的0/1比率作为特征量来决定水印的数值。将信息直接叠加到图像的空间域上的算法叫空间域数字水印算法。LSB水印算法是将信息嵌入到随机选择的图像点中最不重要的像素位(LSB:Least Significant Bits)上,这可保证嵌入的水印是不可见的。但是由于使用了图像不重要的像素位,算法的鲁棒性差,水印信息很容易被滤波、图像量化、几何变形的操作破坏。另外一个常用方法是Patchwork算法,它的基本原理是在不影响图像主观质量的前提下,通过改变图像的统计特性来实现水印的嵌入。首先将图像分成两个子集,其中一个子集的亮度增加,另一个子集的亮度减少同样的量,这个量以不可感知性为标准,整个图像的平均灰度值保持不变,在这个调整的过程中完成水印的嵌入。适当地调整参数,Patchwork方法对JPEG压缩、滤波以及图像裁剪有一定的抵抗力,但该方法嵌入的信息量有限。
2)频率域方法:基于DCT、DWT变换文本水印算法。该类算法主要是通过对文本图像进行变换后对变换域中各分量的系数进行调整完成水印的嵌入。该类算法具有视觉效果好,鲁棒性强的优点。研究成果如:宋玉杰等针对彩色图像采用CIELab色彩空间,通过在图像的DCT系数上线性运算实现水印嵌入,并指出通过多次重复实验该算法嵌入的水印可以用来判断是经过一轮印刷扫描(正版)还是两轮印刷扫描(盗版);张静等研究了傅立叶变换的旋转、缩放、剪切等特点,较早开展了脆弱水印的研究,并在傅立叶变换系数的log-polar map或log-log map中嵌入水印来抵抗打印扫描攻击。T.Mizumoto等提出了一种基于小波变换的私有水印和公开水印算法。将图像和待嵌入的水印信息分别做小波分解,根据视觉特性进行数据融合,此方法在提取水印时需要原始图像。
2研究内容
本文将研究基于文本图像和文本格式相结合的纸质文档信息隐藏和提取算法,主要包括以下方面:
2.1文本信息保真技术
文本图像在打印扫描过程中受打印机和扫描仪的分辨率影响,包含多次不均匀的采样和量化操作,可能存在的信息丢失。如何保证文本图像的信息量,尤其是水印信息,是本文需要解决的技术难点之一。
针对不同格式电子文档和不同分辨率打印机和扫描仪,本项目拟采用基于文本图像和文本格式相结合的纸质文档信息隐藏方法。该方法在文档打印前首先将电子文档转换成文本图像或统一格式的文档,如jpg图像,pdf文档等,然后进行信息隐藏,从而解决不同格式电子文档的兼容性问题。
2.2二次图像校正技术
打印扫描过程中,即文本图像由数字文本图像经过模拟文本图像再次转变为数字文本图像的过程中可能会受到的几何攻击或者污损折叠等人为攻击。因此如何对再次扫描成数字信号的文本图像进行各种预处理和校正,是实现纸介质文件准确溯源的重要基础。
2.3基于字符欧拉数和格式调整相结合的文本
信息隐藏技术
针对传统基于文本格式的信息隐藏信息量少且鲁棒性弱问题,本文拟采用基于字符欧拉数和格式调整相结合的文本信息隐藏算法,该算法基于文本图像的字符分割,但不同于传统空间域文本水印算法依赖于文本的格式,该算法通过调整单个字符的特征量,即欧拉数进行水印的嵌入,并结合字移、行移等文本格式信息隐藏算法,可有效抵抗格式变换的攻击,具有更强的鲁棒性和隐藏信息容量,可有效抵抗文本的打印扫描攻击。
3技术路线
本文拟采取基于文本图像和文本格式相结合的纸质文档信息隐藏和提取方法。具体技术路线如下:
3.1格式转换
为了提高信息隐藏算法对不同格式电子文档的兼容性,本项目首先考虑将文本文档转换成文本图像,具体技术路线为:通过特定的打印拦截技术拦截操作系统的打印任务,将系统打印的文档转换成文本图像,并保存到系统的指定目录下,然后调用水印算法模块进行水印的嵌入。
该部分生效后,可在系统的打印机列表中构造一个新的打印机。从操作系统来看,该打印机为一台真实打印机。事实上,该打印的实际功能是完成文件到图片的转换,当启用正常的打印任务时,虚拟打印机会根据用户设置的打印参数把要打印的文件打印成文档图像,输出到指定的目录。
3.2隐藏信息嵌入
为保证隐藏信息的鲁棒性和容量,本文拟采用基于字符欧拉数和文本格式调整相结合的信息隐藏方法。陈海生等人提出的欧拉数信息隐藏是把图像区域中孔数作为描述子,且这种描述子不受伸长、旋转变换的影响,较其他图像的特征或描述具有一定的稳定性。基于字符欧拉数的文本水印算法是通过字符欧拉数的奇偶量化来完成水印嵌入的,通过翻转字符某个连通区域的部分像素点来调整字符欧拉数的奇偶。具体技术路线为:
1)对二值文本图像进行图像的预处理,处理后仍得到二值文本图像。
2)对处理后的二值文本图像进行字符的拆分。拆分包括先对行进行切分,后对每行进行字符拆分,最后获得每个字符的坐标。
3)计算字符的欧拉数根据水印信息进行水印的嵌入。该水印嵌入算法是通过对字符欧拉数的奇偶量化实现的。其量化规则如下:
其中,E代表字符x的欧拉数;i代表嵌入到字符x中的水印信息,其取值为0或1。欧拉数的定义是物体个数和孔数之差。在一幅图像中孔数为H,物体连接部分数位a则欧拉数定义为:E=C-H。欧拉数是基于图像几何特征的区域描绘子,且欧拉数不受伸长或旋转变换的影响,因此可认为字符的欧拉数不受打印扫描的影响,鲁棒性较高。
4)在不改变文本内容的前提下,根据分割后字符的间距和行距,对文档格式做轻微的调整,以此来嵌入水印信息,如在行间距编码中,上移某行,隐藏“1”;下移某行,隐藏“0”。以提高隐藏信息的容量。
3.3隐藏信息的提取
对扫描得到的文档图像进行二值化,在二值图像上进行去噪、倾斜校正,然后进行行分割并在图像行中分割出单个字符,并通过字符距和行间距的变化来判断隐藏信息的存在。在此基础上,根据隐藏信息嵌入规则,逐个提取出隐藏的每一位二进制信息并组合成最终的提取信息。
4小结
本文旨在针对抗打印扫描纸质文档信息隐藏和检测开展研究,首先分析了近年来国内外对于电子文档在打印时嵌入隐藏信息的水印技术研究、纸质文档隐藏信息抗扫描打印等攻击的鲁棒性研究以及相应的提取方法研究已经取得了一些成果。在此基础上,重点讨论了文本信息保真技术,二次图像校正技术,提出了基于字符欧拉数和格式调整相结合的文本信息隐藏技术,为实现对纸介质文件泄密溯源提供了基础。