何 凯,黄婉蓉,刘 坤,高圣楠
基于改进LeNet-5模型的手写体中文识别
何 凯,黄婉蓉,刘 坤,高圣楠
(天津大学电气自动化与信息工程学院,天津 300072)
手写体中文的自动识别是中文文档数字化的前提和基础,由于中文字符数目繁多、相似性强、字体种类繁多、书写随意、缺乏统一规范等原因,一直是计算机视觉领域中一个具有挑战性的问题.为解决这一难题,提出了一种基于卷积神经网络的手写体中文识别方法.在经典LeNet-5网络模型的基础上进行改进,提出了一种LeNet-Ⅱ模型.利用改进的Inception模块和空洞卷积,设计了一种并行的双路卷积神经网络结构;两路分支可分别提取手写中文图像中不同尺度的特征,获得多个尺度的特征图像;通过对其进行特征融合,可以达到丰富特征图像多样性、提升识别准确率的目的;最后经过全连接层进行分类.利用经典手写体中文数据集进行训练,利用该模型实现了3755类手写体中文字符及相关文本的自动识别.实验结果表明,基于改进LeNet-5模型的手写体中文识别方法,在同一训练数据集上的收敛速度和识别准确率明显优于经典LeNet-5模型,对经典数据集的识别准确率可以达到95.21%,也高于其他传统算法;此外,对4幅手写体中文文本的平均识别准确率达到97.30%,超出了人类表现,取得了理想的实际效果.
手写体中文识别;卷积神经网络;LeNet-5模型;Inception 模块
手写体中文自动识别是实现文档数字化的前提和基础,也是计算机视觉领域的研究热点,其在历史文档识别、邮件分类、手写笔记的转录等方面都有着广泛的应用.在过去的几十年中,各国学者在该领域做了大量研究工作,取得了很大进展,但目前仍然存在一些问题[1-2].手写体中文自动识别的困难主要来自于:①中文字符结构复杂、数量大、风格不同、手写失真;②在无约束条件下,部分手写体中文字符之间差异极小,甚至人类自身都难以识别,如字符“天”、“夫”和“夭”,“已”、“己”和“巳”,“目”、“白”和“自”等,这使得中文识别具有很大的挑战性.
手写中文识别可分为联机手写中文识别和脱机手写中文识别2大类.与前者相比,后者由于没有可以利用的笔画时序信息,识别难度更大,准确率更 低[3].本文主要针对后者开展相关研究,常用的识别方法主要有支持向量机(support vector machine,SVM)[4-5]、改进的二次判决函数(modifled quadratic discriminant function,MQDF)[6]以及鉴别学习二次判决函数(discriminative learning quadratic discriminant function,DLQDF)[7]等.
上述方法的识别准确率与人类表现有很大差距,无法满足实际要求.因此,Lecun等[8]在20世纪90年代提出了卷积神经网络(CNN),其在字符识别中取得了较好的实际效果,代表了当前的主要研究方向.例如:瑞士Dalle Molle人工智能研究所(IDSIA)[9]提出基于卷积神经网络GPU实现汉字识别,富士通团队提出基于深度卷积神经网络模型的识别方法,以及Wu等[10]提出的基于松弛卷积神经网络(ATR-CNN)的识别方法,都取得了较好的中文识别效果.
本文在经典LeNet-5模型[11]的基础上,提出了一种改进的LeNet-Ⅱ模型.实验结果表明,利用改进后的模型对数据集进行训练,能够更好地提取不同中文字符的图像特征,获得更高的识别准确率.
LeNet-5模型是一种常用的卷积神经网络,被广泛用于手写体数字识别领域.经典LeNet-5模型由7层组成,分别为3层卷积层、2层池化层、1层全连接层和1层输出层.具体结构如图1所示.
LeNet-5模型输入层是1个大小为32×32的图像.Layer1为卷积层,包括6个5×5的卷积核,输出6个大小为28×28的特征图像,卷积层计算公式为
传统LeNet-5模型适合用于手写体数字识别,但对手写体中文字符的识别准确率较低.其主要原因在于:①常用中文字符多达3755个,分类种类过多;②手写体中文远比数字复杂、特征较多,采用LeNet-5模型输入层的默认图片大小32×32,不足以满足要求;③LeNet-5模型仅有3层卷积层,卷积层和池化层采用的卷积核个数都较少,不足以提取足够多的特征.鉴于此,本文对传统LeNet-5模型进行了改进和优化,提出了一种改进的LeNet-Ⅱ模型,以适应手写体中文识别的要求.
图1 经典LeNet-5模型
为了获得更高的手写体中文识别准确率,在经典LeNet-5网络模型的基础上,利用改进的Inception 模块和空洞卷积(dilated convolution)[12],设计了一个新的网络结构,本文称之为LeNet-Ⅱ模型.该模型由branch1、branch2和输出3部分组成,具体结构如图2所示.
图2 LeNet-Ⅱ模型网络结构
经典LeNet-5模型是一个简单的串行网络,提取汉字特征图像的多样性不足,为此,本文设计了一个并行的双路卷积神经网络,以获得不同尺度的特征图像,增强网络的适应力.其中,branch1部分由3层卷积层、3层最大池化层和一个改进的Inception模块所组成;branch2部分由4层空洞卷积层和3层最大池化层组成.
(1) Inception 模块有助于解决由于增加神经网络的层数和宽度所导致的过拟合、梯度弥散、计算复杂度增大等问题[13].本文在其基础上设计了一个改进Inception模块,其与原模块结构对比如图3所示.由于Inception模块前一卷积层使用256通道,且卷积核大小为3×3;为避免特征表示瓶颈,造成信息损失,本文重新分配了Inception模块的4个通道数,适当增加3×3卷积核的通道数,减少1×1卷积核的通道数,由原本的4∶1∶2∶1修改为5∶1∶1∶1;同时,在3×3卷积层后又添加了一层卷积层,以增强3×3这一通道的表达能力.此外,还将5×5的二维卷积核分解为1×5和5×1两个一维卷积,以降低计算成本,减轻过拟合,并利用非对称的卷积结构来获得更加丰富的空间特征.
LeNet-Ⅱ模型中branch1及输出部分和传统LeNet-5模型的结构参数对比如表1所示.从表1中可以看出:LeNet-5模型由于输入层的特征图片较小,不足以提取中文特征;而增加输入图像的大小虽然能够获得更多的特征信息,但会在一定程度上增加计算量.多次测试结果表明,输入图像为64×64时效果最优,可实现二者之间的有效平衡.
图3 改进前后Inception模块对比
此外,LeNet-5模型采用3层卷积层,对手写体中文识别(3755类)表示能力不足;为此,本文增加了一层卷积层和一个改进的Inception模块,以提高模型的表示能力;此外,通过增加2层池化层,来降低卷积层输出的特征图像维数,减少计算复杂度[14].最后,将最后一层输出层的神经元个数改为3755,以满足常用中文字符的分类要求.
表1 经典LeNet-5模型和本文LeNet-Ⅱ模型结构和参数对比
Tab.1 Comparison of the structures and parameters of the classic LeNet-5 model and the proposed LeNet-Ⅱ model
(2) 为增加特征图像的多样性,本文设计了LeNet-Ⅱ模型的branch2结构,它由4层空洞卷积层和3层最大池化层组成.一幅手写汉字图像可在不同尺度上对特征进行提取,以更全面地反映图像信息.LeNet-Ⅱ模型中branch1结构使用3×3的卷积核提取图像信息,因此branch2结构需要使用更大的卷积核,以更好地学习手写汉字图像边缘的形状特征.然而,采用5×5或者7×7的卷积核,会极大地增加参数个数和计算复杂度.为解决这一问题,本文利用空洞卷积来进行branch2卷积层的计算.计算公 式为
(3) 最后,分别将branch1和branch2的Layer7输出特征图进行叠加,以获得多个尺度的特征信息.此外,LeNet-Ⅱ模型采用文献[15]提出的swish激活函数,并将其应用于LeNet-Ⅱ模型的卷积层,以进一步提升模型的准确率.Swish函数的计算公式为
此外,训练时在全连接层后添加Dropout层,以提高模型的泛化能力,防止出现过拟合.LeNet-Ⅱ模型采用Adam优化算法做优化器;与传统SGD算法相比,Adam算法可自适应调整学习率,参数平稳,适合处理大数据,有助于网络更快收敛.
手写中文数据集选用中国科学院自动化研究所(CASIA)模式识别国家重点实验室公布的脱机手写样本数据库(HWDB)中的CASIA-HWDB1.1数据集;其包含3755个中文类别,每个中文符号有300种不同笔迹[16].在数据集中随机选取80%的数据作为训练数据集,剩下的20%数据作为测试数据集,用于评估模型的准确性.实验操作系统采用Ubuntu16.04,GPU型号为GTX1080TI,采用TensorFlow深度学习框架.
采用LeNet-5和LeNet-Ⅱ模型,训练accuracy曲线如图4所示(基于TensorFlow可视化工具Tensorboard显示).其中,横轴表示训练步数,每一步代表网络更新一次参数.从图4中可以看出,LeNet-5模型经过80×103步训练之后,准确率曲线才逐渐趋于平稳,之后一直在80%附近波动;而LeNet-Ⅱ模型,经20×103步训练之后,准确率即可达到90%,40×103步之后,基本保持平稳;70×103步之后,基本达到98%以上;从图4中可以看出,在网络参数更新次数较少的情况下,与LeNet-5模型相比,LeNet-Ⅱ模型能够学习到更多的特征,进而能够获得更高的准确率,性能优于LeNet-5模型.
图4 两种模型训练对比
为了验证LeNet-Ⅱ模型中改进Inception模块的有效性,在其他条件相同的情况下,分别使用改进前后的Inception模块,在HWDB数据集上进行训练和测试,结果如表2所示.
表2 改进前后的Inception模块识别效果对比
Tab.2 Comparison of the recognition accuracy of the traditional and improved Inception modules
从表中可以看出,相比于改进前的Inception模块,利用改进后的Inception模块,识别性能明显提高.改进后的模块更有利于在不同尺度下对中文字符图像进行特征提取,网络模型的表达能力明显增强,进而提高了识别准确率.
为验证本文LeNet-Ⅱ模型中branch2结构对模型性能的影响,去除branch2结构,仅保留branch1 和输出部分,在HWDB数据集上进行训练和测试,其识别结果如表3所示.
表3 去除branch2结构前后识别效果对比
Tab.3 Comparison of the recognition accuracy before and after removing the branch2 structure
从表3中可以看出,branch2 结构明显提高了识别准确率,证明了本文提出的branch2结构在提升模型识别性能方面的有效性.
采用不同识别方法对HWDB数据集进行识别,其内存、参数量及识别准确率对比如表4所示.
表4 几种经典中文识别算法性能对比
Tab.4 Comparison of the performance of several Chinese recognition methods
从表4中可以看出,基于本文LeNet-Ⅱ模型,识别准确率明显优于传统方法,也略优于ICDAR-2011和ICDAR-2013冠军队伍方法,且参数量明显少于Fujitsu团队方法,证明了该模型的有效性.值得注意的是本文方法的准确率略低于参考文献[19]的方法,这是因为本文模型在结构设计的复杂度和深度上远低于HCCR-Ensemble-GoogLeNet模型.HCCR-Ensemble-GoogLeNet模型由10个18层网络训练所得,每个网络的flops约为1084×106,而本文LeNet-Ⅱ模型的flops仅为589×106.
为测试本文LeNet-Ⅱ模型对实际手写体中文文本的识别效果,随机选取4位同学,每人各写1篇文档(如图5所示),采用LeNet-Ⅱ模型进行识别.
首先,对文本图片进行灰度化、二值化处理和正射纠正,利用直方图投影技术[20-21]对中文文本进行分割,得到单个字符;利用本文LeNet-Ⅱ模型和其他几种经典算法对其进行识别,结果对比如表5所示.
从表5中可以看出,对实际手写中文文本进行识别,本文LeNet-Ⅱ模型的准确率达到了97.30%,远高于HCCR-CNN9Layer模型,同时也略高于HCCR-AlexNet模型和HCCR-GoogleNet模型,证明了本文模型的泛化能力和鲁棒性.经统计分析发现,识别错误的中文字符,如“需”和“雷”、“你”和“称”等都是因为手写体字形过于相似所致,而且识别错误的重复率较高;由此可见,如果针对上述形近字增加训练集,继续优化模型,可有望进一步提高识别的准确性.
图5 手写体中文文档样本
表5 手写中文文本识别效果对比
Tab.5 Comparison of the recognition accuracy of hand-written Chinese texts test
在经典LeNet-5模型的基础上,提出了一种改进的LeNet-Ⅱ模型.实验结果表明,基于LeNet-Ⅱ模型对手写中文进行识别,其准确率优于传统LeNet-5模型及其他传统CNN方法,取得了比较理想的识别 效果.
[1] Wu Yichao,Yin Fei,Liu Chenglin,et al. Improving handwritten Chinese text recognition using neural network language models and convolutional neural network shape models[J]. Pattern Recognition,2017,65:251-264.
[2] Yin Fei,Wang Qiufeng,Zhang Xuyao,et al. ICDAR 2013 Chinese handwriting recognition competition[C]// 2013 12th International Conference on Document Analysis and Recognition. Washington,DC,USA,2013:1464-1470.
[3] 金连文,钟卓耀,杨 钊,等. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报,2016,42(8):1125-1141.
Jin Lianwen,Zhong Zhuoyao,Yang Zhao,et al. Applications of deep learning for handwritten Chinese character recognition:A review[J]. Acta Automatica Sinica,2016,42(8):1125-1141(in Chinese).
[4] Mangasarian O L,Musicant D R. Data Discrimination via Nonlinear Generalized Support Vector Machines[M]. Boston:Springer,2001:233-251.
[5] 安金龙,王正欧,马振平. 基于密度法的模糊支持向量机[J]. 天津大学学报,2004,37(6):544-548.
An Jinlong,Wang Zheng’ou,Ma Zhenping. Fuzzy support vector machine based on density[J]. Journal of Tianjin University,2004,37(6):544-548(in Chi-nese).
[6] Wei Xiaohua,Lu Shujing,Lu Yue. Building a compact MQDF classifier by sparse coding and vector quantize-tion technique[C]// 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Kyoto,Japan,2017:454-459.
[7] Liu Chenglin,Sako H,Fujisawa H. Discriminative learning quadratic discriminant function for handwriting recognition[J]. IEEE Transactions on Neural Networks,2004,15(2):430-444.
[8] Lecun Y,Jackel L D,Bottou L,et al. Learning algorithms for classification:A comparison on handwritten digit recognition[J]. Neural Networks:The Statistical Mechanics Perspective,1995,261:261-276.
[9] Liu Chenglin,Yin Fei,Wang Qiufeng,et al. ICDAR 2011 Chinese handwriting recognition competition[C]// 2011 11th International Conference on Document Analysis and Recognition. Beijing,China,2011:1464-1469.
[10] Wu Chunpeng,Fan Wei,He Yuan,et al. Handwritten character recognition by alternately trained relaxation convolutional neural network[C]// 2014 14th Interna-tional Conference on Frontiers in Handwriting Recognition. Crete,Greece,2014:291-296.
[11] Lecun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition[J]. Proceed-ings of the IEEE,1998,86(11):2278-2324.
[12] Yu F,Koltun V. Multi-Scale Context Aggregation by Dilated Convolutions[EB/OL]. https: //arxiv.org/abs/15-11.07122,2015-11-23.
[13] Szegedy C,Christian V,Ioffe S,et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:2818-2826.
[14] Simonyan K,Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. https://arxiv. org/abs/1409. 1556,2014-09-14.
[15] Ramachandran P,Zoph B,Le Q V. Searching for Activation Functions[EB/OL]. https: //arxiv.org/abs/1710. 05941,2017-10-16.
[16] Liu Chenglin,Yin Fei,Wang Dahan,et al. CASIA online and offline chinese handwriting databases[C]// 2011 International Conference on Document Analysis and Recognition. Beijing,China,2011:37-41.
[17] Wang Yanwei,Li Xin,Liu Changsong,et al. An MQDF-CNN hybrid model for offline handwritten Chinese character recognition[C]// 2014 14th International Conference on Frontiers in Handwriting Recognition. Crete,Greece,2014:246-249.
[18] Liu Chenglin,Yin Fei,Wang Dahan,et al. Chinese handwriting recognition contest 2010 [C]// 2010 Chinese Conference on Pattern Recognition(CCPR). Chongqing,China,2010:1-5.
[19] Zhong Zhuoyao,Jin Lianwen,Xie Zecheng. High performance offline handwritten Chinese character recognition using googlenet and directional feature maps[C]// 2015 13th International Conference on Document Analysis and Recognition(ICDAR). Nancy,France,2015:846-850.
[20] 王莉丽,于 印. 一种基于双向投影的文本图像字符分割方法[J]. 数字技术与应用,2017(5):74-75.
Wang Lili,Yu Yin. Text image character segmentation method based on bidirectional projection[J]. Digital Technology and Application,2017(5):74-75(in Chinese).
[21] 路敬祎,薛 征,邵克勇,等. 基于改进的连通域算法与垂直投影相结合的车牌字符分割[J]. 自动化技术与应用,2015,34(12):93-97.
Lu Jingyi,Xue Zheng,Shao Keyong,et al. License plate character segmentation based on improved connected component and vertical projection[J]. Techniques of Automation and Applications,2015,34(12):93-97(in Chinese).
[22] Xiao Xuefeng,Jin Lianwen,Yang Yafeng,et al. Building fast and compact convolutional neural networks for offline handwritten Chinese character recognition[J]. Pattern Recognition,2017,72:72-81.
[23] Szegedy C,Liu Wei,Jia Yangqing,et al. Going deeper with convolutions[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston,USA,2015:1-9.
Chinese Handwriting Recognition Using the Improved LeNet-5Model
He Kai,Huang Wanrong,Liu Kun,Gao Shengnan
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
Chinese handwriting recognition is the premise and foundation of the digitization of Chinese documents. It is a challenging problem in the computer vision field for many reasons such as the large number of Chinese characters,strong similarity,wide variety of fonts,free writing forms,and lack of standardization. To solve this problem,a Chinese handwriting recognition approach using a convolutional neural network(CNN)is proposed. An improved LeNet-Ⅱ network model based on the traditional LeNet-5model is also proposed. Using the improved Inception module and dilated convolution,a collateral dual CNN structure is designed. The two branches contribute to the feature extraction of Chinese handwriting images in different scales. After feature fusion,the diversity of feature images is enriched and therefore,the recognition accuracy is improved. Finally,classification is realized using a fully connected layer. Using the proposed network model,3755 handwritten Chinese characters as well as relative Chinese documents and texts are recognized by training the classic Chinese handwriting dataset. The experimental results compared with those obtained using classic methods show that the improved model performs well in terms of convergence speed and recognition accuracy under the same training dataset. The recognition accuracy on the classic dataset is 95.21%,which is higher than those obtained by other traditional algorithms. Moreover,the average recognition accuracy on four handwritten Chinese documents is 97.30%,which is higher than that of human performance.
Chinese handwriting recognition;convolutional neural network(CNN);LeNet-5 model;Inception module
TP391
A
0493-2137(2020)08-0847-07
10.11784/tdxbz201905020
2019-05-06;
2019-10-25.
何 凯(1972— ),男,博士,副教授.Email:m_bigm@tju.edu.cn
何 凯,hekai@tju.edu.cn.
国家自然科学基金重点资助项目(61271326).
the Key Program of the National Natural Science Foundation of China(No. 61271326).
(责任编辑:王晓燕)