一种高精度文本图像倾斜检测方法

2014-01-27 03:00孙日明梁波
大连交通大学学报 2014年3期
关键词:污损频谱峰值

孙日明,梁波

(大连交通大学 理学院,辽宁 大连 116028)*

一种高精度文本图像倾斜检测方法

孙日明,梁波

(大连交通大学 理学院,辽宁 大连 116028)*

为了降低浮点运算导致的舍入误差,提高初始倾斜角度的检测精度,在基于能量频谱图检测方法的基础上引入了一个空域的基于平行线覆盖的快速收敛方法.新方法结合了频域和空域的信息,不仅提高了检测精度,同时保持了基于能量频谱图检测方法对污损噪声图像的鲁棒性.

倾斜检测;周期性纹理;傅立叶变换;能量频谱图

0 引言

随着数字化生活的到来,自动文本处理已经广泛应用于各类办公系统,比如图书馆、银行、邮局、印刷厂等等.在扫描这些文档过程中,倾斜会不可避免地出现在扫描的文本图像中.倾斜检测和校正成了自动识别这些文本图像必不可少的预处理过程.作为一个重要的研究方向,在近几十年里得到了广泛的关注,所处理的图像也从原来的文本图像扩展到票据图像,织物图像等.常见的倾斜检测方法可分为六大类,投影分析法[1]、KNN聚类方法[2]、基于 Hough 变换法[3]、交叉相关统计法[4]、边界框法[5]和基于傅立叶变换[6]的方法.

在绝大多数情况下,文字是文本图像的主体内容.基于文字在文本图像中的排列方式,使得大部分的倾斜检测方法都是基于文字所形成的文本线结构.这些方法通过不断地迭代来检测文本线的方向,从而获取文本图像的倾斜角度.由于这些检测方法是通过迭代的方式来获取倾斜角度,因此它们共同的缺点是迭代步长越小、检测结果越精确、运行时间越长.虽然很多方法已经通过用特征点[7]代替图像点极大的降低了计算复杂度,但是这些方法的计算量还是很惊人的.不同于传统的基于文本线的检测方法,Chou等人[10]提出了一种基于平行线的分段覆盖的倾斜检测方法.该方法通过统计不同方向平行线覆盖后的空白区域,来找出最多空白区域的所对应的平行线方向,从而得到文本图像的倾斜角.Prasenjit Dey和S.Noushath[11]通过置信度测量鲁棒了这个算法,同时它引入的快速收敛方式进一步减少了运行的时间.

由于文字在文本图像中特有的或行或列的排列方式(HFT或VFT),使得文本图像可以看成是具有周期性纹理的图像.傅立叶变换是检测周期性的有用工具,通过分析傅立叶变换后的能量频谱图可以检测出文本图像由文本线结构特征所引发的周期性[8].我们在文献[9]中提出了两种不需要迭代的基于能量频谱图的倾斜检测方法,最大值检测方法和最小二乘方法.最大值检测方法通过找寻最大的峰值点来确定主纹理方向,从而确定倾斜角.该方法具有很强的抗噪性,但是它受到舍入误差的影响较大.最小二乘法虽然可以通过多个峰值点来拟合主纹理方向,但是多点拟合降低了抗噪能力,对污损图像的鲁棒性较差.新方法在最大值检测方法的基础上,引入了文献[11]的收敛方法来提高原方法[9]的检测精度.当最大值检测方法能够快速的得到一个初始检测角度,可以缩减收敛方法[11]的检测区间,使得新方法在不显著影响检测速度的情况下提高原方法的检测精度.

1 倾斜检测方法

文字是文本图像的主体内容,文字在文本图像的排列方式使得文本图像可以看作是具有周期性纹理的图像.基于傅里叶变换后的能量频谱图的倾斜检测方法在不需要迭代的情况下快速地得到了文本图像的倾斜角度.由于图像是定义在离散点上的函数,在计算倾斜角度的时候受到舍入误差的影响比较大,尤其对于倾斜角度较小的情况.新方法引入了文献[11]的收敛方法,在不显著增加运行时间的情况下快速收敛到具有高精度的文本图像倾斜角.

1.1 文本线方向的判别

文本排列方式的确定有助于缩小倾斜角度的检测范围,这里我们提出了一个简单有效的判别文本线是水平排列(HFT)还是垂直排列(VFT)的方法.由图1可以看出,能量频谱图中峰值点所确定的直线总是垂直于文本图像的文本线方向.

图1 图像及其能量频谱图

由于被扫描的文本并不会被故意摆歪,因此倾斜角的范围应该在[-45°,45°].如果是水平排列(HFT)的纹理,那么峰值点会出现在[45°,135°];如果是垂直排列(VFT)的纹理,那么峰值点会出现在[0°,45°]或[135°,180°].在能量频谱图中,峰值点总是对称的,因此只考虑上半图像就可以通过峰值点的位置判别文字在文本图像中的排列方式,见图2.

图2 判别文本线排列的示意图

1.2 最大值检测方法

文字是文本图像的重要内容,因此在绝大多数的文本图像中,都会存在一定数量的文本线.在预处理过程中,最优的图像子块可以通过能量频谱图中峰值点的大小被确定出来,见前期工作[9].在这样的图像子块中,文本线结构占据主要成份,因此会在能量频谱图中出现对应于文本线结构的最大峰值点.最大值检测方法就是找到对应于文本线的峰值点.最大峰值点的检测方法可以表示为:

这里,z(i,j)表示能量频谱图中(i,j)点的能量值,(i*,j*)表示所求的最大峰值点,(icenter,jcenter)为图像中心点.由于最大值检测方法找寻的是最大的峰值点,即使图像被噪声或其他因素造成污损,也不会影响对主纹理的周期性的检测.因此,最大值检测方法的最大优点是具有对污损噪声图像的鲁棒性,见图3.值得注意的是,峰值点的选择应尽量避免离图像中心过近.这是由于图像是离散点上的函数,如果所选取的峰值点过于接近图像中心,会导致很大的舍入误差.

图3 最大值检测方法对污损噪声图像的校正结果

1.3 快速收敛方法

为了保持对污损噪声图像的鲁棒性同时尽量减少舍入误差带来的影响,新方法引入了一个快速收敛方法来精确最大值检测方法得到的初始倾斜角.虽然引入的收敛方法也是个迭代过程,但是由于初始值和精确值差别不是很大,因此需要迭代的区间很小,且每次迭代只需统计白点的个数,因此收敛速度是很快的.该收敛方法的迭代过程类似牛顿二分法,首先以初始角度θinitial为中心确定三个方向,然后通过计算函数BlankArea()[11]的值逐步地缩减区间,最后收敛到高精度的倾斜角度.具体方法如下:

(1)设置初始步长step=3;

(2)设置初始角度θ*=θinitial;

(3)循环step>0.1;

在上面的迭代中,函数BlankArea()统计的是平行线覆盖空域的文本图像后空白点的个数.在每一次的迭代中,找出三个方向{θinitial,θinitial+step,θinitial-step}中空白点个数最多所对应的角度θ*.然后以新的角度θ*为中心的重新定义三个方向(步长为原来的一半),以此类推,直至收敛到符合精度要求的倾斜角度或超过给定的迭代次数.

2 实验结果与讨论

2.1 基于能量频谱图检测方法的比较结果

通过对大量的文本图像实验比较了新方法与其它基于能量频谱图检测方法的检测结果.实验图像分为两类,第一类是文本占主要成分的文本图像,第二类是图像占主要成分的文本图像,详见文献[9].当这两类文本图像都被旋转5°后,分别比较了最大值检测方法、最小二乘法、加权最小二乘法和加入收敛后的检测结果.从附表可以看出,引入收敛方法后,能够对于第二类文本图像能够起到很好的修正作用,对于文本线为主体内容的第一类文本图像在绝大多数情况下也能够起到提高精度的作用.

附表 基于能量频谱图检测方法的实验比较结果

2.2 与其它检测方法的比较结果

在不计运行时间的情况下,基于文本线结构的聚类方法[12]能够检测出高精度的倾斜角度.从图4可以看出新方法和文献[12]的方法都能得到准确的检测结果.区别于聚类方法[12],新方法几乎只需要一个快速傅立叶变换的时间.同时基于统计的方法[13]对于文本为主体内容的图像能够取得较高精度的检测结果,由图5可以看出,新方法可以取得更高的检测精度.新方法不仅对于汉字为文本的文本图像具有高的检测精度,对于其他语种的文本图像也能够得到较高的检测精度.图6给出了果鲁穆奇语的文本图像的倾斜检测结果,新方法和文献[14]的方法都能够得到令人满意的校正结果.这里,图4~6中的倾斜文本图像分别来源于文献[12-14].

图4 新方法与聚类方法[12]的比较结果(新方法检测的倾斜角度是2.549 3)

图5 新方法与聚类方法[13]的比较结果(新方法检测的倾斜角度是12.765 9)

图6 新方法与方法[14]对果鲁穆奇语的文本图像的比较结果(新方法检测的倾斜角度是4.731 9)

3 结论

本文提出了一个高精度的快速倾斜检测方法.新方法采用最大值检测方法在不需要迭代的情况下得到了初始的倾斜角度,在不显著增加计算量的情况下引入了一个快速基于平行线覆盖的收敛方法.结合了空域和频域的信息,使得新方法不仅保持了对污损噪声图像的鲁棒性同时降低了由于舍入误差造成的影响.

[1]SHUTAO LI,QINGHUA SHEN,JUN SUN.Skew detection using wavelet decomposition and projection profile analysis[J].Pattern Recognition Letters,2007,28(5):555-562.

[2]CHIHHONG KAO,DON H S.Skew detection of document images using line structural information[C].Third International Conference on Information Technology and Applications,2005,1:704-709.

[3]CHANDANSINGH,NITINBHATIA,AMANDEEP KAUR.Hough transform based fast skew detection and accurate skew correction methods[J].Pattern Recognition,2008,41(12):3528-3546.

[4]HONG YAN.Skew correction of document images using interline cross-correlation[J].CVGIP:Graph.Models Image Process,1993,55(6):538-543.

[5]AMIN A,WU S.Robust skew detection in mixed text/graphics documents[C].Eighth International Conference on Document Analysis and Recognition,2005:247-251.

[6]乔德江,陈鸿昶.基于粒子群优化的文本图像倾斜检测[J].通信技术,2009,42(7):266-268.

[7]YANG CAO,SHUHUA WANG,HENG LI.Skew detection and correction in document images based on straightline fitting[J].Pattern Recognition Letters,2003,24(12):1871-1879.

[8]SU ZHIXUN,WEN ZHIJIE,QIAO WANSHUN,et al.Automatic Identification of The Fabric Structure Based on Fourier Transform[J].Journal of Information and computational science,2006,3(3):527-534.

[9]RIMING SUN,ZHIXUN SU,ZHIJIE WEN.A Skew Detection Method Based on Periodic Texture[J].Journal of Information and Computational Science,2010,7(4):915-924.

[10]CHIENHSING CHOU,SHIHYU CHU,FU CHANG.Estimation of skew angles for scanned documents based on piecewise covering by parallelograms[J].Pattern Recognition,2007,40(2):443-455.

[11]PRASENJIT DEY,S NOUSHATH.A robust skew detection method for scanned document images[J].Pattern Recognition,2010,43(3):937-948.

[12]CAO Y,WANG S,LI H.Skew detection and correction in document images based on straight- line fitting[J].Pattern Recognition Letters,2003,24(12):1871-1879.

[13]CHEN Y K,WANG J F.Skew detection and reconstruction based on maximization of variance of transitioncounts[J].Pattern Recognition,2000,33(2):195-208.

[14]LOVELEEN KAUR,MANDEV SINGH.Comparison of skew detection and correction techniques by applying on Gurmukhi Script[J].International Journal of Engineering Research & Technology,2012,1(5):1-5.

A High Accuracy Skew Detection Method for Document Images

SUN Ri-ming, LIANG Bo

(School of Mathematics and Physics,Dalian Jiaotong University,Dalian 116028,China)

A high accuracy skew detection method based on periodic texture is presented by introducing an effective converging method.Combining the information of frequency domain and spatial domain,the proposed method not only remarkably improves the accuracy of detected skew angle but also continues the robustness of original method for noised and contaminated images.

skew detection;periodic texture;fourier transform;power spectrum

A

10.13291/j.cnki.djdxac.2014.03.025

1673-9590(2014)03-0106-05

2013-05-15

国家自然科学基金资助项目(11201045)

孙日明(1978-),女,讲师,博士,主要从事倾斜检测及图形图像压缩的研究

E-mail:sunriming@djtu.edu.cn.

·研究简报·

猜你喜欢
污损频谱峰值
“四单”联动打造适龄儿童队前教育峰值体验
基于视觉显著度的污损图像缺陷识别方法研究
污损的成绩单
一种用于深空探测的Chirp变换频谱分析仪设计与实现
污损土地修复现状与发展趋势研究
污损土地修复发展前景探究
频谱大师谈“频谱音乐”——法国作曲家缪哈伊访谈记
宽占空比峰值电流型准PWM/PFM混合控制
基于峰值反馈的电流型PFM控制方法
遥感卫星动力学频谱规划