夏莉丽,刘一锋,彭家伟,曾友,徐则中
(常州工学院计算机科学与技术系,江苏 常州 213032)
随着数字化技术的发展,基于文本文件的扫描图像文字识别与处理技术目前已得到广泛应用[1]。然而在将纸质文件转换为电子文档的过程中,由于摆放不正或拍摄角度不正等原因,不可避免地会造成文档图像的倾斜。这种倾斜将对文本图像的后续分析处理,如光学字符识别(OCR)[2]、版面分析[3]、电子作业自动批阅等产生不利的影响。因此,需要对倾斜的电子文档图像进行倾斜检测与校正,以用于后续的文档分析、识别。
文档图像倾斜角度的检测是文档图像倾斜校正的前提。目前最常用的倾斜校正方法主要有投影法[4-5]、近邻法[6]、傅里叶变换法[7]、Hough变换法[8-9]等。投影法选择不同的角度进行投影测试,通过分析投影轮廓,选择轮廓方差最大的测试角度作为文档倾斜角,检测精度依赖于测试角度的精度[10]。Hough变换法通过在参数空间里检测最大值对应的角度,作为文档的倾斜角。Hough变换法计算量大,且检测精度与参数空间的离散度有关[11-12]。近邻法的倾角检测精度低。傅立叶变换法的计算量太大。
本文为了提高倾斜电子文档的倾角检测精度,通过计算对应每个测试角的水平投影方差,运用函数拟合技术将这些投影方差拟合,把函数取最小值所对应的角度作为文档的倾斜角度,从而得到更高精度的文档倾角。
对于扫描的印刷文档图像,其中都包含着大量具有相同方向和固定行间距的文字行,而对于拍照的手写文档图像,虽然文字行之间没有固定间距,但行与行之间总存在空隙。把文本区域向不同方向进行投影,通过分析投影点的分布情况确定文档的倾斜角度。当投影方向与文本行方向一致时,投影点分布最为密集,也就是投影点的方差最小。
本文通过对倾斜的文档图像旋转不同的角度,进行投影测试,计算对应不同角度的投影点方差。将这些方差拟合成二次函数,对函数求导,计算函数最小值对应的角,作为文档的倾斜角度,进而对原始文档进行旋转变换,得到校正的电子文档图像。算法流程如图1所示。
图1 算法流程图
首先对原始图像进行灰度化处理,然后对图片进行二值化处理。把原始文档图像转换成灰度图像如图2(a)所示,再运用Otsu法进行阈值分割,得到二值化图像,如图 2(b)所示。
(a)灰度文档图像
在每个测试角度时都将文档图像中的每个黑点像素向y轴进行水平投影,计算投影坐标,再根据投影坐标计算投影方差。步骤如下:
步骤一,选择测试角度的范围[-15°,15°],测试角度的精度为1°。
步骤二,水平投影:对测试角度θ,把预处理后的倾斜文档图像中的每个黑点像素 (i,j)向y轴进行投影。投影坐标为
同时统计对应投影坐标y的投影数量H(y)。
把D(Y)记作对应该测试角度的投影方差σ2(θ)。
根据上述步骤得到每个测试角θ和其对应的方差σ2(θ),以测试角θ为自变量,以方差σ2(θ)为因变量。拟合二次函数,表示为
σ2(θ)=a0+a1θ1+a2θ2。
通过投影测试得到的二次函数的数据如表1所示。
表1 测试角及其对应的方差
根据表1给出的数据拟合出一个二次函数,如图3所示。
图3 二次函数拟合图像
根据方差最小化原则,最佳测试角对应的投影坐标方差应该最小,因此对拟合的二次函数σ2(θ)=a0+a1θ1+a2θ2求导数,求得其驻点,从而计算函数的局部最小值。
对上述拟合的二次函数求导,可得σ2(θ)=a1+2a2θ,令其等于0,得到函数最小值对应的角度,也就是文档的倾斜角度:
得到图像的倾斜角后,便可对图像进行校正。对原始文档进行旋转变换,旋转θ角。在进行旋转变换时,采用双线性插值算法计算校正图像中每个像素点的灰度值。
基于双线性插值算法,将图2的倾斜文档图像进行旋转变换,校正后的文档图像如图4所示。
图4 校正后的文档图像
为了评判本文校正方法的性能,首先选择1幅扫描后没有倾斜的印刷文档图像,分别旋转变换不同的角度,并记作真值。然后用3种校正方法进行倾角检测。测试角度选择为[-15°,15°],角度分辨率为1°。
采用投影轮廓方差最大法,进行水平投影测试,计算投影轮廓值的方差,选择最大方差对应的角度为倾斜角度。采用Hough变换法进行变换,在参数空间中选择值最大的10个单元格。把这10个单元格对应的角度进行平均,作为倾斜角度。采用本文提出的拟合方差最小法,计算投影坐标方差,进行二次函数拟合,把函数最小值对应的角度作为倾斜角度。检测结果如表2所示。
表2 印刷文档图像的倾角检测结果比较 (°)
根据表2的检测结果可知,本文提出的方法较投影轮廓方差最大法和Hough变换法准确度更高。
再选取1幅拍照的手写图像,对其进行处理,分别用3种方法检测倾斜角度,检测精度如表3所示。
表3 手写拍照文档图像的倾角检测精度比较 (°)
根据表3的比较结果可知,通过本文提出的方法和Hough变换法都可以得到亚像素精度,检测精度高,而轮廓方差最大法的检测精度低。
选取1幅扫描的印刷文档图像,该文档图像字字分明,运用本文提出的方法对其进行文本图像倾角检测和校正。扫描的印刷文档图像原图和校正之后的对比图如图5所示。
(a)倾斜的文档图像
选取1幅拍照的手写图像,该图像中不仅有纯文字还有公式,因此具有一定的代表性。运用本文的方法,对其进行文本图像倾斜的角度检测和校正。拍照的手写图像原图和校正之后的对比图如图6所示。可以看到即使图像中的文字没有印刷文档那么字字分明,并且还带有公式,但运用本文提出的方法仍然可以根据检测出的倾斜角度进行准确的校正。
(a)倾斜的文档图像
通过分析文档图像的水平投影坐标点的分布,以水平投影方差最小化原则检测倾斜文档的倾斜角度。选择一定范围内的离散角度进行投影测试,计算投影方差,把方差拟合成二次函数,对
拟合的二次函数求导,以计算出的函数最小值对应的角度作为文档倾斜角度,进而对图像进行旋转校正。实验证明,运用该方法计算出的倾斜角度具有较高的准确度和精度。