浅议车牌识别中字符的特征提取方法

2009-11-04 08:04
科技传播 2009年18期
关键词:车牌识别提取字符

陈 辉

摘要 本文对车牌识别中的字符的结构特征提取方法和统计特征提取方法做了概述,并对二者进行了比较,分析其二者各自的利弊。

关键词 车牌识别;字符;提取

中图分类号 U491文献标识码 A文章编号 1674-6708(2009)05-0035-02

0引言

字符识别的特征提取主要有结构特征提取方法和统计特征提取方法两种方法。车牌字符,包括汉字、英文和数字,有其特殊的结构特征,如笔画、拓扑点、结构突变点等等,这些结构特征可区别性强、稳定性好,可以作为特征用来进行分类。这种以字符图像的自身结构作为提取特征,与设定好的模板进行相关计算,得到与字符相似度最大的模板,从而判断其所属的类别,称为结构特征提取方法。另外一种方法是统计特征提取方法,这种方法,需要对整个字符图像进行变换,在大量训练集样本中估计统计特征的分类情况、设定分类器,然后根据识别器的分类曲面进行分类判别。

1字符的结构特征提取方法

结构特征提取方法的基本思想是把字符图像分割简化为若干基元,如笔画、拓扑点、结构突变点等,与模板对比,观察必要的基元是否存在,不可以有的基元是否出现,从而判断所属的类别。在字符识别的早期,这种方法得到了广泛的应用,如何得到以基元表示的结构信息是结构特征提取方法的重点。目前为止,主要有根据骨架、轮廓和笔画得到结构基元的方法。在这里面,最常使用的是将字符细化得到骨架作为结构基元。

中轴变换(medial axis transform,MAT)是一种用来确定物体骨架的细化技术,中轴变换具有边界B的区域R的MAT是这样确定的。对每个R中的点P,我们在B中搜寻与它最近的点,如果对P能找到多于一个这样的点(即有2个或以上的B中的点与P同时最近),就可认为P属于R的中线或骨架,或者说P是1个骨架点。理论上讲,每个骨架点保持了其与边界距离最小的性质,所以如果用以每个骨架点为中心的圆的集合,就可以恢复出原始的区域来。具体就是以每个骨架点为圆心,以前述最小距离为半径作圆周。它们的包络就构成了区域的边界,填充圆周就得到区域。或者以每个骨架点为圆心,以所有小于和等于最小距离的长度为半径作圆,这些圆的并集就覆盖了整个区域。

图1是一些区域和它们的用欧氏距离算出的骨架。由图(a)和图(b)可知,对较细长的物体其骨架常能提供较多的形状信息,而对较粗短的物体则骨架提供的信息较少。注意,有时用骨架表示区域受噪声的影响较大,例如比较图(c)和图(d),其中图(d)中的区域与图(c)中区域只有一点儿差别(可认为由噪声产生),但两者的骨架相差很大。

基于骨架的结构特征提取方法,在保持字符特征的基础上,大大简化了字符的表达,减少了字符的信息量,但它也有自身的缺点,它过多的依赖于图像的细化质量。当图像中有墨点或粘连的框线时细化常常会产生拓扑结构上的变化。

轮廓可以反映字符图像的结构,提取方法简单,结果确定,是一种较好的数据信息源。轮廓提取的方法,是在提取字符骨架的基础上掏空内部点,我们首先按从上往下,从左往右的顺序找到其第一个黑点,也就是0点,然后找其点的各方位的点,每个点都与0点相比较,如果所有值都相等,那么这个点就为此图的内部点,就去掉此点信息,将此点的值设为1,然后重新寻找新的内部点,如果不是所有的都相等,那么直接寻找下一个点信息。轮廓相对于骨架,带入了更精确的位置,也节省了细化的运算量,但它易受到笔画宽度和断线的影响。并且预先设定的规则中有很多涉及位置参数,适于质量较好的图像。

另外,字符的局部笔画特征是很重要的标志性特征。可用于区分“由”与“田”,“于” 和“干”的局部差异。

结构特征提取方法的缺点在于难以摆脱字体变形及噪声的影响。字体变形对结构的影响几乎无规律可循,因而容易造成规则库的片面性。即使能够得到较为全面的规则库,也存在规则的灵活应用问题,这些问题严重影响系统性能。因此,仅靠模板的机械性匹配句法和规则的推理方法是远远不够的。

2字符的统计特征提取方法

统计特征提取方法是通过选取同一类字符中相对稳定的分类性能好的共有统计特征作为特征向量,包括字符的位置特征、笔画特征、水平投影直方图和垂直方向投影直方图特征、矩特征等等。字符经过频域变换或其它变换后得到统计特征,然后在大量训练集样本中估计统计特征的分类情况,设定分类器,最后根据识别器的分类曲面进行分类判别。大量字符的统计特征经过提取和分类后形成关于字符原型知识,构成识别字符的模板信息,存储在识别系统中。在识别时首先提取相同的统计特征,然后与识别系统存储的字符原型知识匹配比较,根据比较结果确定字符的最终分类。

统计特征包括全局特征和局部特征。全局特征包括字符欧拉数特征、外围轮廓特征、方向链码、周边面积等,局部特征包括网格特征、线段梯度、线段方向长度、笔画密度等。全局特征对平移和旋转具有不变性,对局部变化不敏感,抗干扰能力强,但容易忽视某些重要的局部信息无法正确区分相似字,计算代价也较大;局部特征区分相似字的能力较强,但是无法适应不同的书写风格。

3结构方法和统计方法的比较

结构方法和统计方法各有利弊,结构方法的优点是对细节的变化比较敏感,能够较好的分辨出结构上的细微的差别,在区分字形相近,结构上有细微差别的字符时,通常会比较有效。缺点是鲁棒性较差,对噪声比较敏感,容易受到干扰,而且由于对字符结构特征的描述要占用大量的存储资源,因此,算法在实现上相对复杂、识别速度也比较慢。统计方法的优点是对噪声不敏感,有较好的鲁棒性和稳定性,缺点是对细节上的细微差别反映不灵敏,不能很好地区分字与字之间的一些细节上的差异,无法对字符进行细分类。在实际的应用中,我们应该结合结构方法和特征方法的优点,特征提取在保证系统识别的稳定性和准确率的同时,也要兼顾好系统的识别速度和处理时间,处理好速度和识别率之间矛盾。

猜你喜欢
车牌识别提取字符
寻找更强的字符映射管理器
字符代表几
一种USB接口字符液晶控制器设计
消失的殖民村庄和神秘字符
土壤样品中农药残留前处理方法的研究进展
中学生开展DNA“细”提取的实践初探
基于支持向量机的车牌字符识别方法
浅析城市老街巷景观本土设计元素的提取与置换
车牌识别系统设计与实现
虾蛄壳中甲壳素的提取工艺探究