基于移动端PCANet识别算法在电力铭牌文字识别的应用

2018-02-25 11:25陈习曾智翔张蓓蕾陈春
科技视界 2018年34期
关键词:图像识别

陈习 曾智翔 张蓓蕾 陈春

【摘 要】在本文中,我们提出了一个深层次基于图像分类学习网络基本数据处理组件:级联主成分分析(PCA)、二进制散列分类、块状直方图分析。在提出的架构中,PCA被用于学习多级滤波器组。这个架构称为PCA网络(PCANet),可以非常容易和有效地设计和学习。PCANet在图像、文字识别的应用中,是十分有效的方法。本文利用其原理技术,通过对电力铭牌图像识别,适应其场景化做了相应的改进和特化。包括对光照变化,不匹配不对齐,遮挡等因素做了相应预处理改进。在实验数据对比中,基于PCANet的电力铭牌图像识别比其他传统的识别技术效率都要高,获得了95%的识别准确率,对于铭牌识别提供了即拍即识别的有效方案。

【关键词】图像识别;PCA;PCANet;电力铭牌;

中图分类号: TP391.41 文献标识码: A 文章编号: 2095-2457(2018)34-0023-005

DOI:10.19694/j.cnki.issn2095-2457.2018.34.009

Application of PCANet recognition algorithm in character recognition of electric nameplate

CHEN Xi ZENG Zhi-xiang* ZHANG Bei-lei CHEN Chun

(Hainan Power Grid Co.,Ltd.,Hainan Haikou 570203,China)

【Abstract】In this paper,we present a deep hierarchical image processing component based on image classification learning network:cascade principal component analysis(PCA),binary hash classification,and block histogram analysis.In the proposed architecture,PCA is used to learn multi-stage filter banks.This architecture,called the PCA Network(PCANet),can be designed and learned very easily and efficiently.PCANet is a very effective basic concept in the application of image and character recognition.In this paper,the principle technology is used to improve and specialize the image recognition of the electric nameplate and adapt to its scene.Including the changes in lighting,mismatch,misalignment,occlusion and other factors have been improved.In the comparison of experimental data,PCANet-based power nameplate image recognition is more efficient than other traditional recognition techniques,achieving 95% recognition accuracy,and providing an effective solution for instant recognition.

【Key words】Image classification;PCA;PCANet;Power nameplate

0 引言

電气铭牌的字符识别是光学字符识别[1](Optical Character Recognition,OCR)的一个方面.光学字符识别OCR是模式识别领域一个古老的研究方向.OCR的研究内容是利用电子计算机等人工智能(计算)设备来识别各种形式的文字及符号的图像所包含的信息。在学科分类上,字符识别技术属于模式识别和人工智能的范畴,它涉及模式识别、光电子技术、计算机图像处理、人工智能、模糊数学、组合数学、信息论、自然语言理解等技术,它是一门介于基础理论研究和应用研究之间的综合性学科。现代的OCR产品实际上已经成为现实世界和计算机世界的沟通纽带。

变压器铭牌是变压器重要的信息标识部件,由于其铭牌信息往往都是以人工形式采集,采用拍照记录,再通过信息绘制成表单,记录效率较低。本文主要是解决在拍照过程中只能画识别图片信息,生成对应铭牌信息表单的可视化界面后还能提供可操作功能(修改,删除一些数据信息)的软件,简化其手工操作的繁琐过程,其核心技术就是电力铭牌文字识别的技术。

由于电力铭牌种类繁多,而且字体大小,形式,清晰度,污化度等各种因素,增加了对电力名牌的文字识别难度,普通常规的文字识别算法根本不足以支持具体环境下的文字识别准确率。对不同的文字识别算法进行分析后,我们采用基于PCAnet的算法,应用到具体项目中。从预处理,文字识别算法处理,后处理等过程,对比不同的模块处理过程,综合出一个相对符合标准的可视化电力铭牌文字识别算法。

1 预处理

由于拍照获得的像素图片不高,导致识别率降低。预处理过程则是对识别的照片进行质量提高,如图像灰度化,图像切分,降躁,图像定位矫正,字符分割,字符分割统一化等。

1.1 图像灰度化

彩色图像转化为灰度化有:I=0.3R+0.59G+ 0.11B.I表示灰图的亮度值,通过R,G,B红绿蓝三色分量的比重计算。图像灰度化也有许多种措施,如最大类间方差法,是一种自适应的阀值方法,它是利用图像的灰度特性,将图像分成前景和背景两个部分,当阀值达到最佳,背景和前景差别最大,从而达到二值化的目的,但是有时候某些字体和背景差距不大时,就会很难捕抓到。再如,Bernsen法,他是基于全局的灰度值处理,对图像进行逐点二值化,它会遍历所有的点,所以对于差距不大的背景反差,也能有较好的区分,但是由于遍历所有的点特征,效率不高。再如,改进的bradley算法[2],具体步骤为:使用积分图计算移动窗口内的值,将当前灰度值与当前窗口灰度值作比较,如果当前灰度值比均值高出t个百分点,就设置为白色,否者就设置为黑色。忽略平滑过渡区,这种基于bradley适用于简单的,光照不均匀的图像,不适合应用于复杂的图像环境,且不论是效率还是处理效果,此算法是相对铭牌识别较优的。

1.2 图像切分

由于铭牌识别的铭牌样式多种多样,对于单字识别的结构很难完整的组合成一系列的词语,有时词语组合还会错乱,这就要考虑到字符分割前提下的图像切分,这是一种基于布局化的图像切分,利用模版匹配的方法可以很好的解决这一点,基于自学的方法,先让系统训练各种铭牌样式的布局,然后根据轮廓,边框,来对图像进行有規律的切分,训练后作为匹配模版进行实际图像切分的比较。图像切分很好得解决了图片识别结果以后的逻辑还原问题,即在字符识别相对准确的情况下还原铭牌的基本布局。

根据像素的矩阵排列规律,可以切分为四个模块,如下图所示:

1.3 降噪

本文用到小波变换去噪原理[3],因为小波变换具有良好的时频局部化特征,其线性表示为:,这种方法保留了大部分包含信号的小波函数,发现并去掉由噪声控制的小波函数。剩下的小波系数做逆变化得到去噪信号。

小波变换去噪可以很好的保护有用的信号尖峰和突变信号,因此小波变换适合用于暂态信号和瞬间信号的噪声去除方面,以及抑制高频噪声的干扰,有效将高频信息和高频噪声区分开来,从而较好地保持图像细节,用在铭牌识别上的预处理很恰当。下图为降噪后的效果图:

1.4 图像定位矫正

铭牌识别应用图像为自然场景下所拍摄的,由于拍摄的角度问题,通常图像不是正位的,这就需要对图像进行定位矫正。透视形变矫正这种方法应用比较广泛,透视形变导致图像中的铭牌不再具有真实场景中的轮廓。由于金属铭牌大多为矩形,而且铭牌图像中的金属铭牌具有明显的轮廓,与背景区比较为明显。因此,在本设计中将利用Harris角点检测法求出铭牌金属边缘的四个角点,将这四个交点作为求解方程组中用到的四组平面的点。Harris算子是一种基于信号点特征提取的算子,如果在某一点上向任意方向细微的偏移都会引起灰度值很大的变化,那么Harris算法就会将其认定为角点。在标记好了所有特征点后,我们挑出距离原图四个边点最近的Harris角点,将其位置记录,认为这四个点即为原始金属的角点或相对边缘点,将其作为四点法中世界平面的参考点应用于形变矫正。经实验证明,透视形变矫正效果很好,这有利于铭牌的文字识别效率。

1.5 字符分割

经过铭牌定位后的铭牌是一个整体,要对字体达到准确识别,要对铭牌进行字符分割,包括汉字、字母、数字,就必须把字符从一行文字中分割出来,这就是字符分割。字符分割也分很多种,统一化分割,分类法分割等。

但是,字符分割之前需要对图片进行一系列预处理。

1.5.1 基于垂直投影的字符识别切分

垂直投影法通过将垂直方向的字符像素点的黑色进行累加,然后利用白色间隔进行字符切分。但是这样做有两个前提,第一,在二值化处理过后的灰度图片背景不能与字体太过于接近,即差距要大否则会导致切分失误。第二,有些字由于偏旁原因间隙也会大,会把一个字切分为两个。所以还要做相对距离的判断处理。

1.5.2 基于类型综合考虑的方法

其一,利用字符间空隙和字符大小特征,利用投影特征的切分及利用连通元特征切分。其二,以识别为基础的切分,通过反扩散法判断切分结果是否正确,起到预确认的效果。其三,整体切分策略,即系统将字符串作为一个整体进行词识别而不是字识别,在这种方法中加入了上下文关系等联系。而且单个字符识别后还得进行统一化处理,消除字符位置和大小的变化。归一化处理主要包括位置归一化和大小归一化。字符的归一化十分重要,因为输入的测试样本大小不一样,如果不能将字符在位置和大小统一化处理,字符与模版的相似度比较就显得很难匹配。

2 文字识别算法

2.1 基于PCAnet识别文字识别

主成份分析(PCA)也称主向量分析[4],主元分析,是由英国统计学家Kart Peason提出的,之后由Hotelling将其改进,使之成为经典方法之一,并广泛应用在各个领域。

在一些统计问题的研究中,往往需要考虑到各种影响因素,全面而系统的分析问题。在多元统计分析学中,这种影响因素被称为变量。而我们在定量分析中恰恰希望变量越少越好。主成份分析法正是适应了这一点,对于铭牌文字识别提供了解决思路。

PCAnet是基于人工网路方面的识别算法,所以相关的一些算法比较复杂。但是基本步骤还是比清晰易懂的。PCANet的网络结构运算实现:

(two-stage)PCANet

1)通常,采集的原始数据用一个m维向量表示,每个向量有n个特征值,也就可以表示为:

构造样本阵列,进行标准化变换:

其中,

2)对标准化阵列Z求相关系数矩阵

3)解样本相关矩阵R的特征方程,得m个特征根确定主成份,按确定w值,使信息的利用率达到85%以上,对每个,解方程组得单位特征向量b

4)将标准化的指标向量转换成主成份

其中,称矩阵U的第一行为第一主成分,称矩阵U的第二行为第二主成份,以此类推。

5)对m个主成份进行综合评价,对m个主成份进行加权求和,即得最终评价值,权数为每个主成份的方差贡献率。

在运用到铭牌识别的技术上,只需要提取需要训练的图像素材即可,在进行相关的结果分析,经实验证明,PCANet速度较快,计算量较小,更易于环境操作效率。

由于铭牌识别具有字体局部性,一些参数和数字的信息,可以作为基本训练的识别模式库,对不同字体的相同符号参数进行特征统一化,减小了一二层筛选模式的规模大小,从而加快了识别速度。即对进行识别的已经分割好的字符进行预分析,判定是否是该铭牌识别的必要信息,进行初步的过滤。

本实验训练库的识别样本如下:

字符类样本:产 品 型 号 额 定 电 流 压 联 结 组 标 短 阻 抗

绝 缘 水 平 准 代 频 率 相 数 三 冷 却 方 式 使 用 条 件 器 高 低 出 厂 序 号

非字符类样本:

1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZ%-.+

本设计只是选取一般电力铭牌公用字段作为样本,对于非库中的中文就无法识别,所以需要进行特定扩充如需用到其他解析方面的话。

2.2 模板匹配法字符识别

传统模版匹配法,也称为近邻法,是模式识别中最原始、最常用的分类方法。模版匹配并不需要特征提取过程,而是直接把图像作为特征,和字典中的模版相比,相似度高的模版即为识别结果。这种方法的优点是直观,算法简单,容易实现,只要求训练模版的数据源够丰富。由于铭牌识别的字符个数和类别是有所固定的,所以采用此法比较简便,但是要提高正确率,就需要使用多個模版进行匹配,那么处理速度就会有所下降。

3 后处理

对于后处理部分,针对相似字符,粘连字符,特殊符号的识别错误等问题,需要进行后处理,可以根据识别结果来进行对应处理。例如,在某些场合铭牌识别的准确率很低,就需要人工手动进行调整。

系统运行要具有较高的可靠性,会经过严格的性能测试来保证每一个环节在相对的准确域中,同时,对于错误和模糊的识别结果应该给使用者反馈标识出来,以便及时发现问题,并进行修复。

针对字符粘连的后处理。对于字符的粘连问题主要有两种,一种为简单粘连--字符接触,但并没有重合的部分,如果粘连位置探测准确,可以将其分开,但可能造成误切分。一种为交错粘连--逻辑上的粘连,即字符不接触,但有重合。

对应的可行性解决方案如下:

1)从上往下行扫描图像,找到第一个白变黑的像素点,记录坐标,然后继续扫描,找到第一个黑变白的像素点,记录其坐标,然后取这两个跳变的中间点,记录其坐标。

2)继续扫描找到下一个中间点,直到找到所有的中间点为止,记录其坐标。

3)将第一步中找到的中间点和第二步中找到的所有中间点,利用这些点进行划线。

4)连线上如果全是黑色的像素点则证明是交错粘连,那么将左边的字符移动,把第一步中的中点的横坐标距离长度的字符放到一个新的空白矩阵中,如果不全是,则证明非交错相连。

5)对于剩下的图像像素行继续上诉步骤,逐一进行移出。

4 总结

在大数据和人工智能发展的时代背景下,一方面无标数据变得唾手可得,加上计算机运算水平的提高,这些都给人工智能技术的移植提供良好的环境;另外一方面无监督深度学习的表达方法能够自动的从原始数据里提取鲁棒的特征性信息,使得分类识别准确率更高。

本文旨在当前背景下利用文字识别技术的综述和比较,提出了将主成份分析法应用于铭牌识别。首先通过对种方法的对比选择了brdley方法作为二值化方案,选择PCAnet用作识别。识别环节中一方面采用了无监督训练的方式,提取了高表征力的特征,识别准确率优于人工设计特征的浅层算法;另一方面针对汉字字符识别这类多分类问题,有更快的识别速度。对于铭牌文字识别问题,PCANet做到了准确率和计算速度矛盾调优中的最佳方案。

【参考文献】

[1]马文冀.基于Android平台的字符识别预处理算法设计与实现[D].北京邮电大学硕士论文,2012.

[2]安芳.PID控制器参数整定机器及其在逆变控制上的应用[D].南昌:南昌航空大学,2013.

[3]马玲玉.基于OpenCV手机拍照快递单文字识别的研究[D].哈尔滨商业大学,2016.

[4]尹远,余正涛.融合字符及字符排列特征的铭牌识别方法[J].现代电子技术,2016,39(22):7-9.

猜你喜欢
图像识别
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
浅谈模式识别在图像识别中的应用
基于多组合内容的图像识别机制