曾凡锋, 段漾波
(北方工业大学计算机学院,北京 100144)
一种基于页眉线的扭曲文档图像快速校正方法
曾凡锋, 段漾波
(北方工业大学计算机学院,北京 100144)
在对文档图像进行光学字符识别时,由于书籍扭曲的存在,识别率会降低。对于含有页眉页脚线的扭曲文档图像,提出一种快速校正方法。首先分别检测并定位图像中的页眉线,保存页眉线的坐标信息。根据等比算法计算页眉线上各点在校正时所需向上或向下移动的距离,然后以此距离为参数扫描图像,计算页眉页脚线之间的各个目标像素校正所需移动的距离,同时进行像素点的移动重构图像,最终得到校正的图像。实验结果表明,该方法校正效果明显,对于包含页眉页脚线的扭曲文档图像有较好的校正效果,校正后OCR识别率大幅度提高。
计算机应用;扭曲文档;页眉页脚线;等比距离;图像校正
在进行文档图像的光学字符识别(optical character recognition,OCR)时,由于纸质文档自身几何形变和拍摄角度,或者由于积厚文档导致的扭曲[1],其识别率会因图像的扭曲而降低,为提高识别率,需要对扭曲的文档图像进行校正[2]。目前,扭曲文档图像的校正方法,大多是基于文本行的校正,其主要特点是以每行文字为单元进行校正,校正精度较高,但是由于要对每一行文字单独进行处理,甚至在基于连通域搜索文字的方法中也要对每一个字进行单独处理,因此耗时长,校正效率较低。还有一部分是基于模型重建的校正方法,如文献[3]提出一种度量重建的扭曲文档校正方法,文献[4]提出一种基于鱼眼模型的映射校正图像方法。在众多的扭曲文档图像中,有很多是采集于书本文档,而目前在大多数书本文档中,都存在页眉页脚线,扭曲图像中的页眉页脚线是可以反应图像的扭曲程度的,因此将页眉页脚线作为校正参数。
通过以上分析,在对包含页眉页脚线的扭曲文档图像进行校正时,可以利用页眉线作为计算参数对图像进行全局校正,而不需要对每一行文字进行单独处理。本文基于此思路提出了一种利用页眉线作为计算参数的扭曲文档图像的快速校正方法。该方法可以根据页眉线计算出在页眉线之下的文档内容校正所需的参数,进而对图像进行整体校正。对于同时含有页脚线,或者只包含页脚线的文档图像,也可以页脚线作为计算参数来校正,方法与利用页眉线的方法类似,即从页脚线向上扫描即可。该方法校正后识别率有明显提升,校正效率较其他方法有很大改进。
在采集图像的过程中,由于相机位置以及书本厚度,都可能使获得的图像发生扭曲。图1所示为4幅内容不同且带有页眉页脚线的扭曲文档图像。
在文本文档图像扭曲的情况下,识别率将会大大降低;在严重扭曲的情况下甚至无法识别[2]。文献[5]和[6]提出一种基于连通域的提取文档图像中复选框组件的方法,该方法是针对于每一行文字进行校正的。在包含有页眉页脚线的扭曲文档图像中,根据页眉或页脚线的扭曲特征可以计算出校正文档所需要的参数,这样做能很大程度地提高校正速度,即不用对每一行文字做单独处理。同时本文提出的方法只针对于包含页眉页脚线的文档进行研究,对于文档中介于页眉页脚线之间包含有其他线条(如表格线)的情况,需要做特定的图像变换算法来检测图像中存在的线条,再用类似本文的校正算法校正图像即可;本文对此类情况不做特殊讨论。
对于含有页眉线的扭曲文档图像,扭曲校正的第一步是检测出页眉线并保存其坐标;然后校正页眉线,并计算出页眉线上每个横坐标的目标像素校正所需的参数,其参数就是将每个目标像素校正到正确位置所需移动的距离;利用这些参数就可以校正页眉线之下的文档内容。本文就此提出一种基于页眉线校正参数的校正方法,算法实现均采用C++编程语言,解决方案流程图如图2所示。
图1 页眉页脚线扭曲文档示意图
图2 本文解决方案流程图
2.1图像预处理
由于原始图像大多数为真彩图像,在本文所提出的方法中,需要对原始图像进行预处理,其内容包括灰度化、二值化、去噪3个步骤。由于页眉线比较细,容易受到噪声干扰,所以在进行灰度化和二值化后需要进行去噪处理。将真彩图像灰度化是将具有R、G、B分量的真彩色图像转换为灰度图像。转换规则采用下式:
灰度化处理后需将图像进行二值化转换,使图像只包括背景色和前景色。传统的二值化方法较多,如双峰法、大津法(OTSU)、Sauvola算法[7]等。由于在光照均匀的情况下大津法可以很好地处理本文的研究图像,得到效果较好的二值图像[8],因此本文在研究中选用大津法进行处理。
由于文档扭曲,在扭曲边缘可能会产生光照不均的情况,这会影响校正算法[9]。本文图像采集均在光照均匀的条件下进行,因此无需考虑光照等因素的影响,并选取简单的邻域去噪算法去噪,其对后续的处理不会造成影响。预处理后的图像如图3所示。
图3 预处理图像
2.2检测页眉线
校正的第一步是检测出页眉线的位置,在图像处理中,Hough变换被用来检测线条[10],但是对于本文来说,校正扭曲图像对效率要求很高,因此如果采取Hough变换进行线条检测势必会降低效率[11]。而本文的研究对象均为含有页眉线的文档图像,即页眉线是已存在的,如图4所示。因此,所需要做的工作就是检测出页眉线的位置,并保存其位置信息。经以上分析,本文采取一种快速的检测页眉线方法,即扫描检测。
图4 8-邻域像素图
本算法步骤如下:
步骤 1. 从图像最上部的中间位置开始向下扫描,若扫描到两个连续的黑色像素点,认为是页眉线上的点,用C++编程语言设置一个vector,保存该位置信息。
步骤2. 以步骤1中的位置为起点,分别向左、右扫描,每向左或向右扫描一个点,就以当前点为基准在纵向方分别向上、下扫描 10个像素单位,若检测到连续的两个黑色像素点,就保存为当前页眉线上的点。
步骤3. 重复步骤1及步骤2,直至页面左右边缘,即完成页眉线检测。
步骤4. 找出vector中值最大的元素,即为页眉线中最高的点,并保存该点信息。
2.3计算页眉线校正参数
扭曲校正的核心思想就是把扭曲的文字行中的文字移动到等高的位置。检测出页眉线后,可以先将页眉线校正,即将页眉线拉成水平,而将页眉线拉平相比于拉平文字行要简单的多。
本文实现页眉线拉平的方法,是采用位移参数校正文档内容。首先是要拉平页眉线,并计算展平页眉线所需的参数。其步骤如下:
步骤 1. 在保存的页眉线信息中,计算出页眉线各横坐标上的点与最高点的高度差,并保存到一个数组中。
步骤2. 根据步骤1数组中保存的高度差,将页眉线上的每个点在纵向上均提升到最高的位置,完成页眉线的拉平。
原始页眉线如图5所示,拉平后的效果如图6所示。
图5 原始页眉图
图6 拉平后的页眉图
2.4校正图像
对于页眉线之下的文档内容校正计算,其参数可以沿用校正页眉线时计算得到的参数。对于页眉线之下的目标像素,校正的目的就是要使其移动到正确的位置,所需要移动的距离可以根据校正页眉线时计算出的高度差数组来计算如图7所示。具体校正所需要移动的距离可通过式(2)计算得到。
图7 算法原理图
式(2)中,Y是页眉线最高点到当前点水平坐标的距离,y1是当前目标像素点到其所在纵向上页眉的距离,Δh为当前点所对应的页眉点校正到水平位置需要移动的距离。H即为当前点校正到正确位置所需要移动的距离。算法步骤如下:
步骤1. 从页眉开始纵向扫描图像,遇到目标像素首先根据式(2)计算目标像素所需要移动的距离。
步骤2. 将目标像素按步骤1中计算出来的距离移动到正确的位置。
步骤3. 重复步骤1及步骤2直至遍历完图像上位于页眉线之下的目标像素点,随着所有目标像素点移动结束,图像的重构完成。最终获得校正后的图像,如图8所示。
图8 校正图
从图8可以看出,在文档内容包含线条的情况下,内容中的线条校正效果和页眉线的校正效果并不完全一致,这是由于校正首先从页眉线开始,页眉线之下的文档内容校正需要用式(2)来计算校正参数,所以在校正精度上会产生差别。但是这种差别并不会对文档的整体校正效果和OCR识别率有负面影响。
3.1测试环境
本文算法均在VS2005开发环境下采用C++语言实现。实验环境为:Inter(R) Core(TM) 2 Duo CPU E7400 @2.80 GHz;内存2 GB;操作系统为Windows 7。实验样张取自16开普通中文书本,共100张,对其不同扭曲程度进行测试。拍摄摄像头为500万像素。使用汉王OCR文字识别软件进行文字识别。
图像的获取均在光照均匀的环境下进行,本文校正方法忽略光照强度的干扰。图像数据为:24位真彩图像,大小为1609×2469像素。本文算法主要针对横排的文档图像进行研究,图像版面的特征包含页眉页脚线,对于文档图像的其他内容不做限定,如可以包含图形(如线条)、图像以及表格线等非文字元素,对这些文档图像进行有效的扭曲校正。
3.2校正效果对比
图9为文献[5]方法校正结果,图10为本文方法校正结果。可以看出,对于复杂版面的文档图像,文献[5]的校正效果明显较差,不但没有达到校正的目的,而且有的文字行已经损失,识别率大大降低。而本文算法进行校正的效果明显,且对文档内容是不敏感的,不管页眉线以下的内容是什么均可以很好地校正,因此提升了识别率。如文献[12]、[13]中所提出的校正算法相比于本文算法都有明显不足。在实验中,采用本文方法进行测试的样张中,只有3张的校正效果不很理想,其余的样张在校正后不论是可识别字符数还是识别率都有大幅度提升。表1是本文方法对图1中4张测试图的校正实验结果统计。
图9 文献[5]校正效果图
图10 本文校正效果图
表1 本文算法实验结果比较分析
由于本文方法只需要对文档进行页眉线的检测,所以相对于其他校正方法在时间效率上有很明显的改进,可达100毫秒级。在校正精确度和校正后识别率以及可识别字符数上也都有明显优势。本文所提出的校正方法只针对于文档中包含页眉线的文档图像,所以在进行测试时,只进行有页眉线的纸质文档图像的采集和测试。其中所测试的样张中平均识别率可以达到96%以上,而可识别字符数也明显高出其他方法。同时本文方法有较强的鲁棒性,对于不同的复杂版面均有较好的校正效果。
本文针对含有页眉线的扭曲文档图像进行研究,提出基于页眉线的校正方法。首先通过校正页眉线找出校正参数;然后对于目标像素点计算校正参数,并进行校正。该方法能在150 ms内校正1609×2469像素的图像,而且校正效果良好,其校正后的OCR识别率可以达到95%以上。本文提出的方法在本实验室开发的智能阅读机上进行了应用,在无需人工干涉的情况下已能实现复杂版面扭曲文档图像的快速校正,校正后的平均实时识别率能达到96%,可满足工程上的要求。因此,本文提出的方法可以推广到实时文字图像识别系统中进行应用。
[1] 向世明, 赵国英, 陈睿, 等. 积厚文档扫描图像校正[J].计算机辅助设计与图形学学报, 2005, 17(1): 42-48.
[2] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//Iranian Conference on Electrical Engineering (ICEE). Iranian, 2013: 1-6.
[3] Meng G F, Pan C H, Xiang S M, et al. Metric rectification of curved document images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 4(34): 707-722.
[4] 杨玲, 成运. 应用经纬映射的鱼眼图像校正设计方法[J]. 工程图学学报, 2010, 31(6): 19-22.
[5] 宋丽丽, 吴亚东, 孙波. 改进的文档图像扭曲校正方法[J]. 计算机工程, 2011, 37(1): 204-206.
[6] Liu H, Ding R W. Restoring Chinese warped document images based on text boundary lines [C]//International Conference on Systems, Man and Cybernetics (ICSMC). San Antonio, Texas, USA, 2009: 571-576.
[7] 张伟业, 赵群飞. 读书机器人的版面分析及文字图像预处理算法[J]. 微型电脑应用, 2011, 27(1): 58-61.
[8] Nafchi H Z, Moghaddam R F, Cheriet M. Application of phase-based features and denoising in postprocessing and binarization of historical document images [C]// Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. Washington, DC: [s. n.], 2013: 220-224.
[9] Meng G F, Xiang S M, Zheng N N, et al. Nonparametric illumination correction for scanned document images via convex hulls [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(7): 1730-1743.
[10] 都文鹏, 王敏. 基于图像边缘直线特征的尾随目标识别[J]. 华中科技大学学报, 2013, 41(增刊I): 160-162.
[11] 付芦静, 钱军浩, 钟云飞. 基于汉字联通分量的印刷图像版面分割方法[J/OL]. [2013-07-31]. 计算机工程与应用, 2013, 19(3): 4. http://www.cnki.net/kems/detail/ 11.2127.TP.20130731.1817.001.html.
[12] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//21stIranian Conference, Electrical Engineering (ICEE). Iranian, 2013: 1-6.
[13] Tong L J, Zhang G L, Peng Q Y, et al. Warped document image mosaicing method based on inflection point detection and registration [C]//International Conference on Multimedia Information Networking and Security (ICMINES). Nanjing, China, 2012: 306-310.
A Correcting Method Based on Header and Footer Line for Warped Documnet Images
Zeng Fanfeng,Duan Yangbo
(College of Computer, North China University of Technology, Beijing 100144, China)
The recognition rate of OCR (optical character recognition) is low because of the warped document images. For those warped document images with header and footer lines, a fast method is proposed to increase the rate of OCR in this paper. Firstly, the location of the header line is detected and restored in the document image. Then the distance of the line moving upward or downward is calculated based on geometric algorithm. After that, the image is scanned using the distance as parameters and the distance that every target pixel needs to remove is calculated. At the same time, allpixelare removed in order to restructure the image and then a well corrected image is obtained. Experiments demonstrated that this correcting method was efficient. The OCR rate of warped document image with header line could be significantly improved.
computer application; warped document; header and footer line; geometric distance; image correct
TP 391
10.11996/JG.j.2095-302X.2016010079
A
2095-302X(2016)01-0079-05
2015-07-03;定稿日期:2015-10-15
国家自然科学基金项目(61371142)
曾凡锋(1966–),男,江西吉安人,副研究员,硕士。主要研究方向为图像处理、智能识别、系统辨识。E-mail:zengfanfeng@sina.com