彭雨明++陈伟豪++麦定康++钟乐臻
摘 要
为创建良好的电子商务发展环境,电商企业需规范化严格管理商品信息。自动对展示商品的图片进行字符检测与识别能减少监管的工作量和难度。因此研究小组构建了对图片自动进行字符检测与识别的系统,设计了总体流程的解决方案。研究建立的识别模型和f-score评价模型在测试集上进行了对比测试,结果说明本方法的各项指标均优于基准方法。
【关键词】字符识别 图像二值化 边缘检测
用户进行网购时无法接触商品实物,因此电商网站提供的商品信息是用户做出购买决定的重要依据。由于电商提供的信息绝大部分不是以文本而是以图片形式,从而增加电商网站监管的工作量和监管难度。本研究的目标就是利用电商平台提供的大量图片数据,采用级数实现对电商平台图片的文字识别。使得电子商务企业在商品推荐、售后服务、信息监管等方面都达到较高的工作效率。
1 分析方法与过程
1.1 总体流程
如图1所示。
1.2 具体步骤
1.2.1 图像预处理
将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。
1.2.2 图像处理
图像处理定义为:为得到所期望的结果而对一个物体表示施加一定的操作。这是一个从图像到图像的过程,表现为一幅图像转化为另一幅经过修改或完善的图像,并且获取图像的特点,获取更有价值的信息。
1.2.3 图像的二值化
图像的二值化处理是将灰度图像上的点的灰度等级置为0或255,即将具有256个灰度等级的灰度图通过适当的阈值转化为仍然能够反映图像特征的二值图像,这样使得图像呈现黑白分明的效果。
1.2.4 图像增强
根据处理过程所处空间的不同,图像增强处理方法可以分为基于空间域的增强和基于频率域的增强两大类。空间去噪步骤通过减少图像采集系统产生的伪迹来改善图像的完整性。这个步骤一般能够减少获取图像的小的空间改变。
1.2.5 边缘检测
一个边缘可以定义为处于两个区域之间的相互连接的像素集合。边缘检测在图像处理领域有着很多关键的作用。应用边界地图的众多重要应用中有些就是目标检测/识别。目标识别有两个等级,低级和高级。边缘检测在低级图像处理中较之于高级处理中更重要。
1.3 深度学习
卷积神经网络。卷积神经网络是一种特殊的深度神经网络。其主要特性包含下面几点:局部性,共享性以及平移不变性。体现到设计思想上来说,就是卷积神经网络中的局部感受野、权值共享,以及子采样三个思想。
1.4 卷积神经网络的训练
卷积神经网络的训练方式与传统的神经网络一致,都是使用梯度下降和反向传播这两个主要算法。
1.4.1 梯度下降
机器学习中模型预测结果与实际标签的差距的方程叫做代价函数。机器学习训练的目的是找到一系列的参数,使得对于全部训练数据与类别,代价函数的值最小。对于训练数据有10000的模型,训练目的是使得所有10000数据的预测与实际差距最小;对于有10种类别的分类任务,训练目的是让所有类别的预测与实际差距最小。如图2。
在图2中,是一个包含两个参数的代价函数。梯度下降算法首先随机给两个参数赋值,也就是在图中找到一个初始点,然后梯度下降算法计算在这个初始点时两个参数的梯度,也就是对应到x 和y方向上的斜率, 并且让初始点朝着梯度的反方向前进。 前进的幅度是通过一个学习因子alpha 给出的,假设当前点的梯度是t,那么每次前进的幅度s由下面的公式给出:s=t×alpha.
1.4.2 反向传播
反向传播算法是计算梯度下降算法中每次迭代中的梯度值的算法。在线性模型或者逻辑回归模型中,梯度的计算较为简单,而在神经网络模型中,尤其是深层神经网络中,由于结构复杂,可以利用反向传播算法,包括前向传播计算残差和反向传播计算梯度。前向传播过程中,每个神经元节点会计算其所有连接的节点的加权和,然后对和叠加上一个非线性函数后输出到下一层。依次不断传递,最后在输出层计算输出结果和实际结果的残差。
1.5 基于深度学习的字符识别算法实现
1.5.1 MSER算法识别
使用一个改良的 MSER 算法去进行字符的检测,MSER是一个连通区域算法。所以这些连体字无法以单个字符的形式被提取出来,也就无法用字符检测过程去处理。 幸运的是,通过实验发现,大部分的连体字都可以被MSER算法以一个完整的区域提取出来。由于连体字和单个字符存在较大的差异性,因此我们不使用同一个检测过程去检测它们。
1.5.2 字符检测
使用一个启发式的规则去将 MSER 提取的区域划分为两类:单体字符和连体字符。一个简单并且直观的区别点就是两者的宽高比,对于单体字符来讲,宽高比的范围一般是[0.5,2],而连体字符则一般含有2个以上的字符,宽高比一般大于3。于是我们可以使用一个比较区域宽高比和阈值的规则,如果大于这个阈值,则认为其是连体字符,如果小于这个阈值,则认为其是单体字符。本文中,这个阈值被设为3。在划分结束以后,连体字符被保留下来留待后面的步骤处理。
1.5.3 区域整合
真字符区域随后根据它们的相对位置和大小组合成文字行,使用启发式规则去组合字符,但是做一些略微的调整。在原先的方法中,两个字符矩形的尺寸的比较仅仅考虑了它们之间的宽度的比例。在本文的方法中,同时考虑字符之间的宽比和高度比。如果两个字符矩形的高的比例的范围是[0.5,2],同时它们的宽的比例的范围落在[0.3,3]的话,这两个字符矩形在尺寸上是相似的。
(1)组合方法。如果两个字符矩形的中心点的垂直方向的距离不大于它们平均高度的 1.2/3,并且它们中心点的水平距离不大于它们两个平均宽度的3倍,则这两个字符矩形在位置上是相近的
(1)
(2)
当两个字符矩形同时满足尺寸相似和位置相近时,它们属于同一个类别。接着使用 Union Find 算法去把同一类的字符矩形进行合并。由于在一个词中若干个字符之间的距离可能是不定的,因此很难定义一个自适应的值去适应所有情况。本文选择了3这个值作为水平距离的比例判断阈值。这样的选择会导致一些词会合到同一个类中,并且形成一个文字行,需要使用一个算法去将文字行切分成词。
(2)切分方法。首先把图片分为左右两部分。然后从最左边第一个开始,依次计算它与后面一个字符矩形的距离。如果发现某个距离极大于前一个(2.5倍)字符距离,则认为发现了两个字符之间的间隔,于是将字符组从这个间隔处划分开。继续这个过程直到最后一个字符。通过这种方式将一个文字行切分成若干组字符,以便用于文本检测。
1.5.4 文本检测
在最终结果输出前,经过组合与切分的单词需要被识别为真正的文本。 该阶段需要处理前面步骤中保存下来的连体字符。由于单词与连体字符的相似性,它们可以用同一个模型去分类。在输入预测前,将图块区域转为宽 100,高 32 的尺寸输入模型中处理。AlexNet模型的架构,使用GPU 训练所有的参数。
2 结果分析与对照
f-score评测:我们测试的是本方法在文字识别的效果。本文使用的是f-score评测,这个方法相比传统的评价方法综合考虑了多种识别效果的因素。传统的识别评价方法可能只会看矩形框一对一的情况,而这个方法考虑到了识别方法中可能会出现的多次识别情况,图片中的文字框的标准位置是由ground truth文件给出的。在进行训练集中图片测试时,可以使用 ground truth 进行方法效果的比对。
字符识别方法的评价指标由三个参数给出,分别是回归率,正确率,以及综合两者的 FScore值。回归率代表着图片中真实的文本框被检索出的比例,正确率代表方法正确识别字符的比例。FScore 值综合了回归率与正确率的结果,它的计算公式如下:
(3)
FScore值受回归率与正确率中两者中较小的影响, 因此对两个值进行了权衡。 只有同时提高回归率与正确率,才能获得一个较好的结果。单一的提升某个,而忽视另一个,只会对 FScore 值的提升有负面效果。通过实验结果可以看出,本模型还是能够较好的解决字符检测及识别的问题,最后的综合识别效果,使用f-score方法进行评价。在检测集上的综合评价指标结果如下:
测试集的基准方法的指标是: Reccall, 35.07%; Precise, 60.95%; F-Score,44.52%。本方法的各项指标是Reccall, 65.66%; Precise, 63.26%; F-Score, 64.44%。可以看出, 本方法的各项指标全面优于基准方法。 同时,本方法的Recall 比基准方法高了30%,证明了本方法的可靠性。最终的 F-Score值相比测试集的 baseline 提升了近 20%,说明了本方法的有效性。
3 结论
本文对京东等电商平台提供的图片数据进行预处理,利用深度学习及MSER算法等方法建立多种数据挖掘模型,实现了对图片字符的检测分析,在较大程度上对图片字符进行识别,并且为集检测与识别为一体的图片文字识别系统提出了建设性的解决方案。有利于赢得消费者对商家的信任、增强顾客在购物时舒适度、减轻监管部门售后服务以及信息监管负担,对推动文字检测及识别的性能提升及走向实用化做出了有意义的探索和尝试。虽然本方法从一定程度上解决了图像识别问题,但是本方法仍然还存在很多不足,如何提出一种集检测与识别为一体的图片字符识别方法,以便实现有识别反馈的检测,融入检测思想的识别,是以后研究的重点。
参考文献
[1]蒋先刚.数字图像模式识别工程软件设计[M].北京:中国水利水电出版社,2008.
[2]白俊江,洪春勇.基于Sobel的边缘检测方法[J].电脑知识与技术,2009,5(21).
电子技术与软件工程2016年18期