张瑞倩
(武汉大学遥感信息工程学院,湖北武汉 430079)
基于文字行特征匹配的规则平面碎片复原技术
张瑞倩
(武汉大学遥感信息工程学院,湖北武汉 430079)
规则平面碎片的复原在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。本文基于2013年“高教社杯”全国大学生数学建模竞赛B题第二问数据,采用文字行间距、高度等的行特征信息和碎片边缘灰度连续性分析的综合评价的方法,从每张碎片行特征和两两碎片间的边缘匹配度大小两方面综合进行分析,最终求出了所有碎片拼接的最优解,为规则平面二维碎片复原技术提供了新的思路与方法。
行特征信息碎片复原匹配度二维拼接
规则平面破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。近年来,不少文章提出了基于形状特征的碎片拼接技术,通过图像分割、边界检测与提取等,将碎片轮廓进行提取,并搜索碎片之间轮廓的相似性,自动检测出相似性高的轮廓进行匹配[1]。但是对于碎纸机等破碎形成的规则平面碎片,碎片与碎片之间存在形状一致性,并不能够通过轮廓匹配来完成自动拼接复原过程。
针对这种规则平面碎片,罗智中[2]等提出基于文字行特征的拼接方法。这种半自动拼接法很好地完善了纸片拼接复原方法,但由于其提出的方法需要首先对碎纸片进行二值化处理,导致文字周围的灰度信息丢失,可能存在信息减少拼接不准确的问题。
基于现有碎片拼接技术存在的问题,本文提出一种基于行特征匹配和碎片边缘灰度信息的综合评价的规则平面碎片复原技术。其在不进行图像二值化的基础上基于文字行特征先进行碎纸粗匹配,然后再基于碎片边缘文字灰度信息进行精匹配的过程。
碎片图片是灰度图像,可以将其每一张图片转化成一个灰度矩阵。比较两两碎片图片之间像素灰度的连续性,连续性越强匹配概率越高。对于2013年“高教社杯”全国大学生数学建模竞赛B题第二问数据,碎纸机既纵切又横切,每一张碎纸片较小而碎纸片数量较大,考察汉字行间距和高度的几何特征信息[2]发现,可以通过比较两两碎纸片黑色像素点所在行的差异性,判断两两碎纸片属于同一行的可能性。
为了得到两张纸片属于同一行的可能性大小,本文作如下处理:对于某一张碎纸片,将其有文字处按行全部填充黑色,如图1所示。
设 d1( m,n)表示第 m张纸片与第n张纸片的行匹配值。则其可计算如下
图1 碎纸片所属行的判断
此式中各点的灰度值均为涂黑以后的灰度值大小,计算出的 d1越小表示两纸片在同一行的可能性越大。
在计算过碎纸片间属于同一行的可能性计算后,需要对两碎纸片邻接列的连续性进行计算。在有文字处,即灰度值较小处,其相邻处的灰度值也较小,因此设 d2( m,n)为这一度量值的大小,表达如下:
此式中各点的灰度值均为原碎纸片上像素点的灰度值,计算出的 d2越小表示两纸片的连续性越强。
本文以综合距离来度量两张碎纸片的匹配度,综合距离是综合考虑了两张碎纸片属于同一行的可能性及两张纸片邻接处的连续性之后得到的距离。步骤如下:
对 d1和 d2进行数量级统一处理:
设 d( m, n)为第 m张纸片到第n张纸片的综合距离,则:
比较两两碎纸片之间综合距离的大小,综合距离越小的两张纸片拼接起来的可能性越大。
针对数据,本文采用先复原11个行碎片,然后复原整张纸片来完成。为使结果更加准确,在一定的人工干预基础上,利用Matlab软件[3]进行编程,以综合距离 d从小到大进行搜索,得到正确的复原顺序,最后得到完整复原图像,其局部如下:
图2 碎片复原结果图(局部)
实验得到的复原后图像准确完整,从内容、结构上都保持了很好的连续性,效果明显。同时算法计算速度快,能够满足规则平面碎片自动拼接复原的要求。
本文提出的基于文字行特征匹配的规则平面碎片复原技术,能够较好地通过文字内容的拼接,对规则平面碎片进行自动复原,具有速度快准确率高的特点,是一种实用有效的图像复原技术。
[1]贾海燕,朱良家,周宗潭,等.一种碎纸自动拼接中的形状匹配方法[J].计算机仿真,2007,23(11):180-183.
[2]罗智中.基于文字特征的文档碎纸片半自动拼接[J].Computer Engineering and Applications,2012,48(5).
[3]MATLAB基础与应用教程.北京:人民邮电出版社.2009.
张瑞倩(1993.6—),女,籍贯:河南省洛阳市,研究方向:摄影测量与遥感、图像处理与模式识别。