一种基于YOLOv3和数学形态学的表格检测方法

2021-03-24 11:16王泽强陈义明
电脑知识与技术 2021年2期
关键词:图像处理深度学习

王泽强 陈义明

摘要:本文提出利用形态学函数进行特征强化的数据预处理方法,结合一阶段目标检测器YOLOv3进行表格检测。实验证明,在利用特征强化的方法后,本文的F1-Score的相對提升达到1%,优于二阶段的Faster R-CNN方法。考虑到本文的方法在模型训练和推断中无须引入额外的计算量,因此本文的方法具有较强的推广性。

关键词:表格检测;图像处理;深度学习

中图分类号: TP18        文献标识码:A

文章编号:1009-3044(2021)03-0014-03

Abstract: In this paper, a data preprocessing method using morphological functions for feature enhancement was proposed, and a table detection was carried out by combining the YOLOv3 model of the one-stage target detector.Experiments show that the relative improvement of F1-SCORE in this paper reaches 1% after using the method of feature enhancement, and it is better than the two-stage Faster R-CNN method.Considering that the method in this paper does not need to introduce additional computation in model training and inference, the method in this paper has strong generalization.

Key words: table detection;image processing;deep learning

大量数据表格出现在纸质文档中,从中提取出表格数据具有十分重要的意义。手工提取的方法耗时费力。一种更高效的方法是将表格文档扫描为图片,开发软件程序从图片中自动提取表格数据,将其电子化。从图片中提取表格数据分为表格检测和表格解析识别两步,本文主要研究表格检测的问题。

表格检测的一种典型方法是使用以OpenCV为代表的数字图像处理工具,通过反复的膨胀、腐蚀等操作,消除图片中的文字、图片等信息,提取出表格的轮廓,从而检测出表格的位置[1]。这种方法对有线表检测非常有效,但由于没有封闭边框,无线表的检测精度较低。

另一种比较典型的方法是手工提取表格特征,使用机器学习分类模型检测表格。Anh提出一个混合方法,先对文档图片进行分类,划分文字与非文字区域,然后基于这种划分寻找表格的候选区域[2]。Kasar提出了一种通过识别列和行分隔符来定位表的方法。该系统采用扫描法,从输入图像中检测水平和垂直线。从每组水平和垂直线中,提取26个低级特征并将其传递给支持向量机(SVM)学习分类模型,完成表格检测任务[3]。这种方法的主要问题在于没有表格边框线的情况下会失效。Jahan等使用字间距和行高的局部阈值来定位和提取文档图像中的表区域[4]。此方法的主要限制是它检测表区域以及周围的文本区域,它必须其他文本作为参照而不能仅用于一个单独表的提取。这些常规表格分析技术通常以文件的布局分析为基础,大多数都无法泛化,因为它们依赖于手工构建的特征,对布局变化不具备鲁棒性。

因此,本文尝试利用深度学习中强大的特征提取和泛化能力设计一种基于深度学习和形态学函数的表格检测方法。论文的第二节详细描述了模型和方法,第三节包括实验数据描述、实验方案和结果分析,最后是本文的结论。

1 方法

1.1 模型架构

本文利用YOLOv3[5]网络作为表格检测的核心网络是YOLO (You Only Look Once)系列目标检测算法中的第三版[6-8],相比之前的算法,精度和速度方面有着显著的提升。模型的整体结构概图如图1所示。

其中模型的基本单元称为Darknetconv2d_BN_Leaky组件,由卷积(convolution,conv)、批归一化(batch normalization,BN)和弱化线性整流单元(Leaky Relu)组成。利用DBL组件构成了YOLOv3的特征提取的骨干网络DarkNet53。通过输出不同尺度上的特征图(Feature Map)对不同尺度的目标进行检测,我们可以很直观地认识到在小尺度的特征图上进行大目标的检测,在大尺度的特征图上进行小目标的检测。

其中YOLOv3的改进部分在于边框回归方式(Bounding Box Prediction,BBox)的改进。YOLOv3借鉴了Faster R-CNN[9]中区域提议网络(Region Proposal Network,RPN)采用的锚框(anchor)机制,但是这种anchor机制采用线性回归带来一定的不稳定性,因为边框回归的偏移量(offset)可以偏移到任意位置。因此YOLOv3直接预测相对位置,预测出边框回归中心点对于网格左上角的相对坐标。

1.2 形态学函数

本文利用形态学函数对数据进行预处理,在表格图片中表格边框特征作为检测时的重要特征形态不明显,特别是在复杂表格结构中,周围存在大量干扰因素。因此本文利用数字图像处理中的形态学函数进行处理,具体有如下几种操作。

腐蚀(Erosion)操作:腐蚀是一种消除边界点,使边界向内部收缩的过程。可以用来消除小且无意义的物体。例如当用3x3的结构元素,扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作 如果都为1,结果图像的该像素为1。否则为0 ,最终使得使二值图像减小一圈用公式表示为:

膨胀(Dilation)操作:膨胀是将与物体接触的所有背景点合并到该物体中,使边界向外部扩张的过程。可以用来填补物体中的空洞。例如当用3x3的結构元素,扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“或”操作。如果都为0,结果图像的该像素为0,否则为1,最终使二值图像扩大一圈。膨胀可以看作是腐蚀的对偶运算。

通过上述几种操作能够充分的去除文字杂讯,具体效果见图2,通过反复的开闭运算最大限度地突出表格特征,弱化文字特征。

1.3 模型与形态学函数的结合

在模型训练时,利用基础的图像增广操作如翻转、拉伸。在模型推断过程中,利用形态学函数进行数据预处理,获得特征强化后的表格图片,使得模型能够更加聚焦于特征,从而获得更好的实验结果。

2 实验

2.1 表格检测

为了验证本文方案的有效性,我们设置两个标准:检测准确率,检测召回率。检测准确率使用通常二元分类的综合F值来衡量。用m张包含不少于一张表格的文档图片作为正例,不含表格的n张文档图片作为负例。假设正例中[m1]个被正确检测,[m2]个被错误检测,即真阳性数[TP=m1],假阴性数[FN=m2],而负例中有[n1]个被错误地识别为正例,[n2]个被正确地检测,即假阳性数[FP=n1],真阴性数[TN=n2],则准确率、召回率和F1综合分值分别定义如下:

检测结果如表1:

实验结果证明,在没有形态学特征增强的情况下YOLOv3的表现稍逊于Faster R-CNN模型,而通过形态学函数处理强化表格特征后YOLOv3模型的性能较Faster R-CNN更好,考虑到YOLOv3作为一种一阶段的检测模型相较于二阶段的检测模型而言,运行的速度更快。因此本文提供的方法更能够在实际的生产环境中使用。

3 结论

在表格检测任务中,传统的表格检测方法比如提取特征再利用SVM等分类器进行表格检测的方法,准确性不高并且面对不同的问题域,通常不够鲁棒。因此本文设计一种基于形态学函数的数据预处理方法并结合深度学习进行表格检测。实验证明,本文方法效果较好,能够广泛地应用到发票、单据等类似表格的任务中。

综上所述,在较好地完成表格检测这一任务后,我们希望能够借助表格检测的基础进行表格的结构化识别和分类,这将会是我们未来的发展与思考方向。

参考文献:

[1] C. e Silva, “Learning rich Hidden Markov Models in document analysis: Table location,” in Document Analysis and Recognition, 2009. ICDAR09. 10th International Conference on. IEEE, 2009:843–847.

[2] T. T. Anh, N. In-Seop, and K. Soo-Hyung, “A hybrid method for table detection from document image,” in Pattern Recognition (ACPR), 2015 3rd IAPR Asian Conference on. IEEE, 2015:131-135.

[3] T. Kasar, P. Barlas, S. Adam, C. Chatelain, and T. Paquet, “Learning to detect tables in scanned document images using line information,” in Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. IEEE, 2013:1185-1189.

[4] M. A. Jahan and R. G. Ragel, “Locating tables in scanned documents for reconstructing and republishing,” in Information and Automation for Sustainability (ICIAfS), 2014 7th International Conference on. IEEE, 2014:1-6.

[5] Redmon J , Farhadi A . YOLOv3: An Incremental Improvement[J]. 2018.

[6] Redmon J , Divvala S , Girshick R , et al. You Only Look Once: Unified, Real-Time Object Detection[J]. 2015.

[7] Redmon J , Farhadi A . YOLO9000: Better, Faster, Stronger[J]. 2017:6517-6525.

[8] Bochkovskiy A , Wang C Y , Liao H Y M . YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. 2020.

[9] Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

【通联编辑:唐一东】

猜你喜欢
图像处理深度学习
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用
Bayesian-MCMC算法在计算机图像处理中的实践
改进压缩感知算法的图像处理仿真研究
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于图像处理的定位器坡度计算
Photo Shop通道在图像处理中的应用