基于神经网络的手写体汉字识别实验系统

2015-04-16 01:29:54郑少兰
电脑与电信 2015年5期
关键词:手写体手写笔画

郑少兰

(福建水利电力职业技术学院,福建 永安 366000)

1 引言

基于神经网络的手写汉字识别在众多领域中应用广泛,比如在信息处理领域,通过手写汉字识别系统的应用就能够使纸质文档的电子化效率得到大大提高。若将汉字识别的速度与准确度都提高到比人工手动输入更高的层次,这样在提高效率时又节省了大量的人力资源。因此,研究基于神经网络的手写汉字识别试验系统能够有效实现汉字信息的高速输入,进而能够更加方便快捷地加工和处理信息。

2 手写体汉字识别实验系统的设计目标

本次设计要实现的目标就是建立一个图像处理识别的平台,使手写的汉字以图像文件格式(BMP)的形式输入FPGA,提取出其特征向量,通过分类识别,转换为汉字文本。我们需要设计和实现基于神经网络的手写汉字识别系统,主要实现样本采集、预处理、特征提取、分类与识别五个方面。系统的具体目标有以下几个方面:

首先就是使用FPGA对字库图像文件进行前期处理,包括字符分割平滑去噪、二值化处理、归一化、细化等;其次就是使用处理后的标准字符图像对分类模型进行训练,使其成为具有字形识别功能的分类器。通过包括神经网络、笔画密度、字型特征、四角特征等多种分类器的测试,综合考虑每种分类器的并行化可能性、汉字特征针对性等,选出合适的分类器分别进行粗分类和细识别,以利用FPGA的并行运算特性大幅度提高识别的效率和准确度;最后就是对多个手写样本图像文件进行并行化的采集和预处理,提出具有价值的字形特征。采用适当的分类器对其进行分类识别,得到汉字国标码,从而实现手写体汉字从图片到文本的转换。

3 手写体汉字的预处理及其原理

3.1 行、字切分

从实际出发,一个完整的脱机手写体汉字识别系统必须能对输入的整个手写体汉字图像进行一些必要的处理,并从中正确切分出一个个手写体汉字,形成单个汉字的图像阵列,以便对其进行方便的单字识别处理。一般的做法是自上而下逐行地对汉字图像进行扫描,同时对各个扫描行的像素进行计算,得到图像水平的投影,利用文字每行之间存在的空白间隔,对其进行分割,然后再利用字和字之间空白间隔的投影空隙把单个的汉字图像切分出来。

如下图1所示,我们从一个汉字上、下、左、右四个对角线方向,用一种假想的网线对手写汉字进行扫描和切分,某条网线穿过笔划的次数就是该笔画的密度特征。

图1 汉字切分

设Ii是水平方向上第i条网线,则沿这条扫描线得到的手写汉字加权笔划密度特征的公式为:

3.2 平滑去噪处理

一幅汉字图像往往会存在许多噪声,对图像中噪声成分的处理就叫图像平滑化,平滑化的目的共有两个:第一就是按照特定的要求将一幅图像中较为有用的信息凸显出来,从而使汉字图像更加地清晰,达到更好地视觉效果;另外一种就是为了更好地适应计算机处理的需要,避免汉字再输入数字化的过程中混入噪声。目前较为常用的平滑去噪算法有Unger平滑算法、中值滤波以及邻域平均法等。

3.3 二值化

二值化也就是将手写汉字图像灰度数字信号处理为只含1与O两个级灰度的图像。将灰度图像进行二值化处理能够有效地减小数据存储的容量,这样在后续处理的过程中其复杂度就会有所降低。二值化最基本的要求就是字笔划中不可以存在空白,并且原来的文字特征也要得到有完整的保存。最简单的二值化通过设定固定灰度阈值完成,其关键在于阈值的选择。常用的方法有动态阈值法、整体阈值法以及局部阈值法三种。但是动态阈值与局部阈值比较浪费时间,而且在选择算法的过程中还会在图像整体的选择上产生失真,因此,在对文字进行识别时,通常选用整体阈值的方法。

3.4 归一化

单个汉字图像或者点阵,都要归一化处理,目的是消除汉字在大小与位置上的变化。大小归一化与位置归一化是归一化处理的两个必要的部分。对汉字点阵进行归一化处理是非常重要的,这是因为对汉字进行识别的原理就是在汉字图形结构的基础上进行的,若无法把汉字点阵在大小与位置上保持一致,就无法正确进行汉字的相似性比较。

3.4.1 位置归一化

若对位置归一化进行细分,还可以分为两种:一种是重心的归一化处理,另一种就是外框的归一化处理。重心计算的抗干扰性要强于边框搜索,由于大部分汉字的笔划分布较为均匀,其重心大多等同于汉字字形的中心,但若对少数分布不均匀的汉字进行识别的话,重心归一会导致字形移动,最后造成字形失真。

3.4.2 大小归一化

在对一些大小不统一的汉字识别时,就一定要进行大小归一处理。最常用的方法就是按照汉字点阵外围的边框来处理的,首先对汉字点阵各个方向上的外围边框进行判断,然后再根据比例把汉字进行线性缩小或者放大,从而形成规范的点阵。

3.5 细化

细化之后汉字的骨架存储量与原来汉字的二值化点阵相比要少很多,在减少处理工作量的同时又会保留以前汉字的大多数特征,这样方便抽取特征,从而可以确保识别的正确性和高效性。但是在细化的过程中通常会产生新的畸变,这就大大增加了识别手写汉字的困难与干扰。进行细化的算法有许多,大体分类如下:

(1)按细化后图形的连续性分,有四邻连接算法,八邻连接算法和混合连接算法。四邻接连指的是水平垂直四个方向上的连接,八邻连接则加上正反斜向共八个方向。

(2)按细化处理过程分,有串行、并行和串并行处理法。FPGA适合并行计算,故我们采用并行处理法,即对边缘点全部检测完毕后,再同时改变所有可删除点的值。

(3)按处理方式分,有单方向,双方向和四方向细化法。愈是方向多的细化处理方式,细化的速度愈快。

如图2所示,我们可以从手写汉字上下左右四个方向的八个等距边缘点处对所要识别汉字的一阶和二阶外围特征进行检测,通过四方向法的处理,可以使细化速度更快,加权和也就更加容易算出。

图2 一阶、二阶外围特征检测

4 手写汉字的特征提取

由于汉字字量大、字体多、结构复杂,我们采用分级分类的方法进行识别,而每级分类应采用最合适的特征提取算法。同时,考虑到FPGA的并行计算特点,应优先选用并行性好的算法。基于以上两点,我们在对BP神经网络、字型特征、笔画密度特征、弹性网格特征、笔画结构特征、四角特征等能够提取特征的算法进行了理论分析。

4.1 基于分类识别的选择

BP神经网络具有自适应性,通过反复训练不断修正连接权值以进行特征提取。该方法具有较高的普适性,并且可以通过调整学习方法得到一种较优的网络。但该方法并未利用汉字的特征,适用于子类中单字识别。通过对水平和垂直方向上投影得出的直方图的分析,可得出一个汉字的字型统计特征(左右、上下等),适于粗分类。从水平,垂直方向等间隔取多根扫描线,取穿过笔画数的最大值,形成2维特征向量,适于粗分类。在弹性网格特征上,根据笔画位置将单个汉字分割为几个网格,通过计算每个网格内笔画的矢量特征进行特征提取,特征向量较多,适用于子类中单字识别。在笔画结构特征上,通过寻找交叉点和拐点将汉字分为笔段,然后将笔段按倾斜度和连通性合并成笔画,提取笔画的矢量特性作为特征向量,向量数较多,适用于子类中单字识别。但该方法同时可以统计出笔画总数和交叉点总数,可用于粗分类。在四角特征上,通过提取四角的笔画结构特征进行分类,向量中包含四个元素,可结合笔画结构特征进行粗分类。通过MATLAB对以上算法进行实验,以确定最优的分类和子分类中单字识别的算法。

4.2 基于并行化运算的选择

在BP神经网络上,由于神经网络由神经元构成,每个神经元的计算以及权值调整计算都为乘法和加法,以上特征使之很适合并行化和流水线计算。在字型特征上,投影运算为串并行结合加法运算,最大值计算为串行运算,字型判断部分为较复杂串并行结合逻辑运算。在笔画密度特征上,水平和垂直扫描运算为串行,多根扫描线并行,取最大值运算为串行。在弹性网格特征上,分格后可对每格进行并行化运算,但其中的向量计算包含大量除法,其实现效率有待验证。在笔画结构特征上,交叉点寻找为并行,倾斜度计算为并行,提取矢量特性为并行,但以上步骤的结果入库过程为串行扫描。在四角特征上,四角可并行运算。在进行MATLAB进行算法实验的同时,使用System Generator进一步对算法的并行化及流水线计算可能性进行评估实验,并结合基于分类识别的选择进行总体效率评估。

5 统计方法的选择

常见的统计方法有基于事例学习以及最近邻归类等,这些方法其实就是在某种距离的基础上通过相应的变换,然后得到一些具有其它类别参数公式。统计学上常见的距离公式主要有明斯基距离、绝对值距离以及欧氏距离等。最小距离分类器是一种非常有效直观的分类方法,广泛应用于实际的手写汉字识别系统中,特别是对于一些高维多模式来说,采取类聚等分类的方法有着计算量巨大以及很难确保算法的收敛等问题,这样距离函数分类器就会充分发挥其优势。

6 结语

如果能采用FPGA进行高速并行计算,使上述困难能得到最大程度的化解,从而使基于神经网络的手写体汉字识别系统达到实用阶段,则在实际应用方面和理论研究方面均有重大意义。由于汉字模式类别多,是大类别(或者称为超多类)模式识别问题,因此其识别涉及到模式识别、图像处理、数字信号处理、人工智能、模糊数学等多个学科,是一门综合性技术,有着重要的价值和意义。

[1]袁丁,傅一平,李志能.基于小波变换的字符识别快速算法[J].浙江大学学报(工学版),2004,(03):62-66.

[2]郭招球,赵跃龙,高敬欣.基于小波和神经网络的车牌字符识别新方法[J].计算机测量与控制,2006,(09):1257-1259.

[3]黄戈祥,陈继荣.ART2神经网络在手写体汉字识别中的应用[J].计算机仿真.2006,(7):153-156.

猜你喜欢
手写体手写笔画
手写比敲键盘更有助于学习和记忆
哐当(外一首)
哐当(外一首)
我手写我心
笔画相同 长短各异
——识记“己”“已”“巳”
有趣的一笔画
学生天地(2020年14期)2020-08-25 09:21:06
抓住身边事吾手写吾心
基于大数据下的手写体识别的设计与研发
科技风(2020年3期)2020-02-24 06:52:46
披着书法外衣的手写体
中国篆刻(2019年6期)2019-12-08 15:56:23
基于集成学习的MINIST手写数字识别
电子制作(2018年18期)2018-11-14 01:48:08