联机手写汉字笔迹识别系统设计研究

2022-02-18 09:43周斌周雨

科学与信息化 2022年3期

周斌周雨

1. 冰辰网络科技（上海）有限公司上海 200000；2. 南通骏星信息科技有限公司江苏南通 226500

引言

联机手写汉字笔迹识别系统实现了书写者通过物理设备（如手写笔、数码板等）输入笔迹，通过实时采集笔迹信息并进行分析处理识别汉字的过程；联机手写汉字笔迹识别系统具有识别快速准确的特点，广泛运用于资料处理、辅助教学、智能阅卷、票据识别等场景。本文设计了一种联机手写汉字笔迹识别系统，具有识别自动可靠、可识别常用汉字、系统鲁棒性好的特点。

1 联机手写汉字笔迹识别系统的基本情况

1.1 设计目标

联机手写汉字笔迹识别系统需要达到以下目标：

1.1.1 识别自动化。整个识别过程自动化，不需要人参与。为此，需要串联所有的处理模块，实现流水化处理过程。

1.1.2 仅识别常用汉字。为简化设计，仅实现了对GB2312字符集中所有共6763个汉字的识别。如果遇到非GB2312中的汉字，会出现识别错误。

1.1.3 需要处理书写汉字的异常现象。联机手写输入汉字时，需要对不规范的汉字输入或异常情况做出相应的处理，比如连笔、飞笔、断笔等。

1.2 设计原则和基本方案

按照以下原则设计联机手写汉字笔迹识别系统：

1.2.1 系统正确性。为了实现系统识别正确，设计时采取以下几条：

1.2.1.1 选取稳定的不易受干扰的特征作为识别的依据。例如笔迹坐标就是一个不稳定的识别依据，因为很容易受到干扰（比如笔的抖动），但是笔画顺序就是一个稳定的输入特征，书写一个特定汉字必然要按顺序书写某些特定笔画，因此，选取笔画顺序作为输入特征。

1.2.1.2 识别模块采用多个分类器的组合，每个分类器输入不同的特征。在识别模块中，通过对不同类型的分类器的组合，可以构成更强大的分类器，从而获得更好的识别效果。

本系统采用了整字的二值图像和按顺序输入的笔画二值图像作为特征，将这两种特征通过不同的分类器进行识别，最后通过某种方法综合两者结果作为输出。

1.2.2 系统鲁棒性。考虑可能出现输入异常，并采取相应的处理措施：

1.2.2.1 书写连笔情况。当出现的连笔情况时，以笔画二值图作为输入的分类器就会失效，因此，需要判断出连笔情形，并屏蔽掉以笔画二值图作为输入的分类器的输出，仅保留整字二值图的输入。

1.2.2.2 笔迹点的丢失情况。加入预处理环节处理由于某些因素导致的笔迹点丢失，通过数学方法对笔迹进行插值，补充丢失的笔迹点。

1.2.2.3 飞笔、断笔的处理。飞笔时，会出现与正常笔迹相距较远的孤立笔迹点，可以忽略掉；断笔时，会出现大量的笔迹点丢失，归结到b的情况。

1.2.3 系统可扩展性。将整个系统分解为多个模块，每个模块高内聚，低耦合，便于优化、替换和扩展。

2 联机手写汉字笔迹识别系统的具体设计

联机手写汉字笔迹识别系统由以下模块组成：

①笔迹信息采集模块；②笔迹信息预处理模块；③笔迹特征提取模块；④笔迹识别模块。

各模块之间相连接并传递不同的信息，如图1所示：

图1 模块连接图

2.1 笔迹信息采集模块

笔迹信息采集模块通过物理设备（如手写笔、数码板等）实时采集信息，主要采集以下数据：

笔迹坐标；

抬笔、落笔状态；

笔迹坐标是笔迹信息采集模块采集的最重要信息，为后续的各处理模块提供了基础数据；该坐标信息包括两个坐标x和y，抬笔/落笔状态由笔尖的压力传感器采集的压力值计算获得，通过该状态信息可知当前笔画是否书写结束。注意若有连笔，则抬笔和落笔之间可能有多个笔画。

2.2 笔迹信息预处理模块

笔迹信息的预处理包括以下过程：

①笔迹坐标的补全；②笔迹坐标的去噪；③笔迹坐标规整化；④笔画分割；⑤笔画边缘的拟合。

笔迹坐标的补全的目的是使笔迹坐标均匀化，由于笔迹采集频率和书写速度不均匀，导致笔迹坐标的不连续和不均匀，某些地方会出现笔迹坐标的缺失，严重影响笔迹精度，因此，需要用插值的方法，补全缺失的笔迹坐标点，使笔迹坐标均匀化。

插值算法流程图如图2所示：

图2 插值算法流程图

出于稳定性考虑，系统不直接采用笔迹坐标作为笔迹信息识别模块的输入，这使得笔迹坐标的去噪并不是特别必要，但是对于某些飞笔点还是要消除的。因此采用了一个简单的准则，只要某个笔迹坐标周围20像素内无其他笔迹坐标，则去除该笔迹坐标。

笔迹坐标规整化的目的是将所有的汉字缩放到同等尺度便于统一处理。具体做法为首先计算出汉字笔迹坐标x轴和y轴的范围，并通过平移和缩放使汉字笔迹x轴坐标范围为[0,80]，y轴坐标范围为[0,80]，以完成笔迹坐标规整化。此时汉字所有笔迹点坐标都在x轴坐标范围为[0,80]，y轴坐标范围为[0,80]的一个正方形区域内，笔画分割的目的是将汉字的完整的笔迹分割成各个笔画，这里通过抬笔、落笔状态实现分割，抬笔状态为笔画的开始，落笔状态为笔画的结束。注意，若有连笔现象，则用该方法分割出的笔画数小于实际的汉字笔画数。

笔画边缘的拟合的目的是得到笔画的图像，便于提取笔画图像的特征，提高笔迹识别的准确性，具体方法是先将各个预处理后的笔迹坐标点绘制在平面上，通过膨胀算法[1]和高斯模糊[2]将各点连成一个区域，最后找出区域的边缘，并光滑化。注意到由于笔迹坐标已经实现了补全和去噪，不存在断笔和飞笔现象，所以每个笔画都会得到有且仅有一个闭合曲线边缘。

2.3 笔迹特征提取模块

汉字笔迹特征分为整字特征和笔画特征。

整字特征即汉字的二值图像，所有汉字的二值图像大小均为80×80

笔画特征为按书写顺序提取的各个笔画的二值图像数组，二值图像大小均为80×80 ________________________________________________________________________________________________________________________

由于笔迹坐标不够稳定，此时用填充笔画边缘闭合曲线内部区域的方法来获取笔画的二值图，并通过叠加笔画二值图的方式来获得整个汉字的二值图。

2.4 笔迹信息识别模块

笔迹信息识别模块采用不同的方案处理整字特征和笔画特征，并结合两者的结果得出最终的识别结果。

笔迹信息识别模块流程：处理签字特征-是否有连笔情况-处理笔画特征-签字特征处理结果、笔画特征处理结果结合作为输出-结束（签字特征处理结果作为输出）。

下面对整字特征和笔画特征的处理分别说明。

2.4.1 整字特征的处理。采用深度神经网络GoogleNet[3]对整字特征进行识别，具有准确率高，速度块的特点GoogleNet网络的结构。

该网络采用在不同层计算loss值和使用Inception结构的方法在增加网络宽度和深度的情况下缓解了过拟合和梯度消失现象，适用于汉字识别这种大型分类问题。

该网络输入为汉字二值图向量化后的生成的6400维向量，输出为长度为6763维（汉字总数）的向量，输出向量的每一个分量值均在0和1之间，表示输入向量与某个汉字的接近程度，分量为1表示输入向量被匹配为该分量表示的汉字，分量为0表示输入向量未被匹配为该分量表示的汉字。

网络的训练过程是，采集400个人手写的GB2312字符集中6763个汉字作为样本集，共2705200个样本，使用MiniBatch[4]的方式每次随机抽取128个样本共训练1000000轮，最终生成的网络可以有效地实现对汉字图像的匹配。

2.4.2 笔画特征的处理。在处理笔画特征前，先要判定连笔情况。

预先定义一个汉字笔画数据库记录每个汉字的笔画数目，并与笔画特征中的汉字实际笔画数比较，若实际笔画数小于笔画数据库中汉字笔画数，则说明有连笔现象，此时不进行笔画特征处理，直接用整字特征处理的匹配结果作为系统匹配结果。

笔画特征的处理采用深度神经网络GoogleNet对笔画的特征进行识别，此时网络的输入为长度为24的笔画二值图像数组经过向量化后生成的153600维向量，输出为长度为汉字总数6763维（汉字总数）的向量，输出向量的每一个分量值均在0和1之间，表示输入向量与某个汉字的接近程度，分量为1表示输入向量被匹配为该分量表示的汉字，分量为0表示输入向量未被匹配为该分量表示的汉字。

2.4.3 整字特征和笔画特征方案的结合。当无连笔情况时，采取结合整字特征处理输出向量和笔画特征处理输出向量的方式作为系统输出。

对整字特征和笔画特征的处理，均可以得到一个6763维的向量，采用加权平均的方法综合两者的结果，并找出值最大的分量对应的汉字作为系统的输出，令整字特征结果向量为x，权重为，笔画特征结果向量为y，权重为，则最终结果为，经过反复实验，取时，系统识别汉字效果最好。