数字研发系统中非结构化数据的融合方法研究

2021-11-05 07:47国网福建省电力有限公司信息通信分公司陈严纾林彧茜蔡宇翔方略斌
电子世界 2021年17期
关键词:像素点结构化表格

国网福建省电力有限公司信息通信分公司 陈严纾 林彧茜 蔡宇翔 方略斌

福建亿榕信息技术有限公司 卢伟龙 蔡映红

生活中有很多文档数据都是以图像的方式储存在网络系统中,而如何将这些非结构化的图像数据转换成结构化内容是实际发展的重难点。本文研究选用了改进后的区域卷积神经网络,也就是Faster- CNN结构的深度学习网络模型,并利用投影计算算法对数字研发系统中非结构化的文档图像实施版面内容进行自动分类和定位,并针对识别、获取转换非结构化文档图像当中的表格,最终得到非结构化数据的融合方法。

1 非结构化的文档版面

1.1 二值化和降噪

对非结构化的文档图像而言,其是由前景因素与背景因素两部分构成,而二值化的根本目的在于利用计算图像当中包含的像素值,将一副图像转变为只存在黑白两种像素点的图像,以此提取图像当中的前景因素。此时,所对应二值化的变化函数公式为:

其中,T代表阈值,同样也是计算二值化最重要的一步。除此之外,也有其他方法进行处理,例如全局阈值法、局域阈值法以及自适应阈值法等。本文研究所选阈值法,设非结构化文档图片是I(x,y),图像大小是W×H,分割前景图像和背景图像之间的阈值为T,前景像素点数量和整体图像的像素点数量之间的比例为η0,而背景像素点数量和整体图像的像素点数量之间的比例是η1,且图像的总体灰度数值为λ,前景背景的灰度数值为λ0,背景像素的灰度数值为λ1。对比图像当中的灰度值和阈值可知,低于获取阈值的像素点数量是a,超过阈值的像素点数量是a,方差可以记作ω。

而在降噪中,一般会利用不同类型的低通滤波器清除图像当中的高频,促使图像在一定意义上变得更加模糊,最终达成降噪的目标。在实际操作中,最常见的降噪方法有很多种,例如中值滤波、均值滤波等。本文研究以均值滤波为例,在实际操作过程中就是利用一个具备归一化特点的卷积框在模版窗口覆盖范围内所有像素之间获取的平均数值取代原有图像中的像素点灰度值。假设处理图像I(x,y),图像当中某点噪声坐标为(x0,y0),灰度数值是g(xn,yn)。运用大小是a×a的卷积框实施降噪,其中灰度值的计算公式为:

1.2 投影算法

将表格图像按照竖直方向划分成五分高度相等的矩形,可以用Ri来表示,其中i=0,1,2,3,4,且高度都是Htable/ 5,宽度是Wtable。根据投影计算得到的数值,将其放在水平投影数组中,且N=5,那么其中所包含的所有元素sp[i]的数值就是Ri,且i=0,1,2,3,4,这也代表全部前景像素的总数。

2 运用Faster R- CNN分析文档特征

Faster R- CNN作为定位非结构化文档中各类结构的有效手段,在目标检测算法操作中,Faster R- CNN是相对运算速度更快和精度更高的一种应用算法。从实际角度来看,Faster R- CNN有效整合了Region Proposal Network(RPN)网络和Faster R- CNN网络,并由此构建了网络结构,相对应的损失函数公式为:

其中,Ncls运用ni-batch size对256对分类损失函数Lcls实施标准化处理,具体可以表示为:

且Nreg利用锚点数量为2400个对回归损失函数Lreg实施标准化处理,具体公式为:

其中,R函数是指:

3 提取与识别

为了确保表格可以被快速转换为Excel格式的文档,从而对其中包含的内容实施可编辑操作,而后对识别表格进行分类操作,且利用更为精准的图像算法进行辅助操作,再对不同类型表格在图像处理层面进行科学处理,进而降低转换的错误率。在对表格识别分类时,最重要的是明确表格的明显特征,并利用加工处理达成实验目标。在本文研究中,按照现阶段大部分表格的表现形式,并按照表格的基本线性特点分离处理表格,例如,全线表格、纯横线表格、色彩相间的表格、无限表格等。通过利用HSV通道,正确区分相同色系下不同类颜色,并根据通道的明度数值进行研究。

4 结果分析

针对非结构文档版面的竖直和水平两种方向,有效结合投影计算和深度学习网络Faster R- CNN的操作方式,帮助整体系统利用最少的计算方式,对图片、表格以及文字的位置进行准确定位和分类。一方面为了便于后续计算分析,需要先对非结构文档实施预处理,从而促使其可以转化成可操作的图片,运用Python代码当中的Java接口转换文档,这种方法在应用期间并不会出现多余的文件占据系统内存;另一方面可以减少转换和计算时间,能充分处理容量庞大的文档系统。

结合Faster R- CNN识别得到的结果分析,真实数值和预测数值之间的关系如图1所示。

图1 关系图

通过观察图1可以发现,在loU数值接近1的情况下,本文研究数字研发系统的预测结果更接近于真实数值。在Faster R- CNN网络训练,利用自主构建的数据,在标记中完成训练。以3000张图片为例,按照6:1的概率随机分配到训练集和测试集中,并统计分析图片当中包含的文本、表格等数据量,而后完成训练验证。

在研究分析中,如果预测数据和真实数据的交并比阈值是0.7,在完成30000次迭代训练之后,m AP的指数是71.3,且损失函数非常接近于0.01。

观察图1发现,在完成训练之后的非结构化文档图片的识别结果,绿色边框代表文字内容,黄色边框代表表格内容,再对比实验数据内容后发现,实际识别结果非常有效,且没有出现过于严重的错误情况,和其他算法相比,分类的准确性虽然不高,但整体结果的满意度非常高。

在本文概述实验中,准确识别并转换出的文档形式图片的表格样本数量是100张,实际转换率可以达到92%,相比同类文献识别概率分析可知,其他所选方法的准确识别率只有86.97%。由此可知,针对非结构化数据的文字、图片以及表格等进行全面分类和定位,并统一分析其中的识别数值和转换概率,不仅能发现其中存在的问题,而且可以为后续实验分析和探索提供更多依据。

结语:综上所述,在分析数字研发系统中非结构化数据融合方法时,利用Faster R- CNN和图像算法有效结合饿的方式对其进行全面分析,能在准确定位和识别的基础上,完成版面分析工作。需要注意的是,因为Faster R- CNN算法对数据集的要求过低,且不需要利用过于繁琐的图像算法进行操作,所以可以能充分保障文档图片当中定位分类的有效性和精确性。同时,根据识别分类所获取的信息,对横纵线不完善的表格进行优化,以此完成所有单元格的切分储存,并按照Excel格式进行内容重新构建。另外,本文利用图像算法和Faster R- CNN进行表格识别,可以提升实际识别效率,并对表格分类进行逐一细化,而后优化不同类型表格的算法识别处理工作。

猜你喜欢
像素点结构化表格
《现代临床医学》来稿表格要求
《现代临床医学》来稿表格要求
促进知识结构化的主题式复习初探
基于局部相似性的特征匹配筛选算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
统计表格的要求
基于5×5邻域像素点相关性的划痕修复算法
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割