计算机技术在手写体汉字识别方面的应用及发展趋势

2018-10-21 17:37陈擎国
科技传播 2018年19期

陈擎国

摘 要 随着计算机技术以及大数据时代的到来,大众将在越来越多的方面需要手写体汉字识别技术产品。这意味着手写体汉字识别技术的市场空间将变得更加广阔。手写体汉字识别技术主要分为联机手写体汉字识别技术与脱机手写体汉字识别技术。其中,联机手写体汉字识别技术已较为成熟。文章对手写体汉字识别技术发展历程、基本原理、脱机手写体汉字识别技术识别准确率较低、反应时间长等问题,以及手写体汉字识别技术的未来发展方向做了研究及展望。

关键词 手写汉字;汉字识别;脱机识别;光学字符识别

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)220-0001-03

随着计算机科学技术的发展以及大数据时代的到来,传统的纸质文献将越来越多地需要被转化为电子文档储存在计算机中。例如:将纸质的会议记录拍摄成图像,将其快速地转化为能够在计算机内储存与加工的电子文档;将文献古籍以图片或扫描件的形式快速转换为电子文档进行保存等。这将势必需要完善目前的汉字手写体识别方面的技术,并提升其识别的准确率以及减少其对较大训练样本及硬件运行内存的依赖。

1 手写体汉字识别技术的发展历程

随着计算机技术的发展,汉字识别技术已经逐渐融入人们的日常生活中,并将在经济、教育等领域发挥越来越重要的作用。汉字识别技术,主要基于光学字符识别技术(Optical Character Recognition),以识别对象为标准,可分为印刷体汉字识别与手写体汉字识别技术;以输入方式为标准,可分为联机汉字识别与脱机汉字识别。手写体汉字识别技术,源于印刷体汉字识别技术,从20世纪六七十年代开始,大致可分为3个时期:理论探索期、快速发展期、深入发展期。

1.1 理论探索期(20世纪60年代—70年代)

自1946年世界上第一台电子计算机在美国出现后,人们除了将计算机用于复杂计算外,还将其应用于文档的处理与保存。由于电子文档拥有效率高、易于储存、容量大等特点,一经问世便受到科学家们的广泛重视与研究。因为英文字母数量较少、笔画简单,在计算机识别中遇到的困难较小。而汉字数量大、笔画繁杂、形近字较多,给予这一时代的科学家不小的困难。

在这一阶段,主要是欧美大型计算机企业以及中国国内一些高校、研究所进行初步的理论探索。例如:在1966年,Casey R与Nagy G首次发表关于印刷体汉字识别的文章,提出计算机识别汉字的理论基础以及需要解决的技术难题。清华大学、南开大学、北京大学等高校开始进行对规则且有限的汉字识别进行研究。这个时期进行的探索,尽管较为粗浅,但其为之后印刷体及手写体汉字识别奠定了理论基础、发现并定位了亟待解决的问题。

1.2 快速发展期(20世纪80年代至21世纪初)

到了20世纪80年代,汉字识别技术有了一定发展。印刷体汉字识别技术逐渐发展并最终成熟。科学家们通过模仿人类视觉识别的过程,采用统计模式识别方法,通过逼近取值的算法来提取汉字,解决了印刷体汉字识别中汉字结构与笔画提取困难的难题,也为手写体汉字识别提供了思路与方法。

在这个阶段,一些实用性高、错误率低的印刷体汉字识别软件问世。例如:IBM公司的OCR技术已经趋于成熟;20世纪90年代,清华大学研发的TH-OCR产品率先实现了中英文混排识别;汉王公司的汉王OCR凭借识别率高等优势,在2000年达到世界领先水平。80年代中国发布了GB 2312-80國家标准字符库,国外计算机公司也建立了相应字符库。这对汉字识别的发展起到极大的推动作用。

而在20世纪80年代,手写体汉字识别技术才刚刚起步,仅作为印刷体汉字识别产品的附加功能,识别率低,实用性不强。但至21世纪初,联机手写体汉字识别技术由于可通过笔画的先后顺序进行识别,发展已经较为完善,也有多种实用的联机手写体汉字识别产品面世。然而,脱机手写体识别技术仍处于萌芽阶段。

1.3 深入探索期(21世纪初至今)

在21世纪初期,印刷体汉字识别技术已经完善的背景下,越来越多的学者将目光投向了脱机手写体汉字识别技术,并构建出基本识别流程,针对汉字分类提出了多种方法。主要分类方法分为:统计模式识别与结构模式识别。这两种方法各有利弊,但实用性尚为欠缺。近几年随着人工智能的发展,人工神经网络、多分类器聚合等方法也相继被提出。

近年来,腾讯云OCR推出手写体汉字识别服务;百度、科大讯飞等互联网企业也推出了手写体汉字识别产品。但是,真正有效实用的脱机手写体汉字识别技术仍然需要科学家们继续深入探索。

2 手写体汉字识别基本原理

目前,计算机对手写体汉字进行识别分为两种类别:联机手写体汉字识别与脱机手写体汉字识别。尽管联机识别时有笔顺可进行辅助参考,但两种类别的基本原理大致相同,均分为:样本输入、预处理、特征提取、分类识别、末处理等五大流程(参见图1)。

2.1 样本输入

样本输入,指的是将所需识别的汉字通过拍摄图片、扫描等手段,转换为计算机所能识别的图像。在联机手写体汉字识别中,不仅要将相应的图像信息输入电脑,也需把对应的笔画顺序输入电脑,以作为分类识别时的辅助参考。由于缺少相应的笔画顺序作为辅助判断的工具,脱机手写体汉字识别在下列步骤中的识别速度与准确率目前均不及联机手写体汉字识别。

2.2 预处理

预处理,指的是计算机对输入的图像通过二值化、去噪等手段,降低图片的维度,通过扭转校正等方法,初步规范汉字图像,继而对图像进行切分,切分出单一的汉字,以便于对汉字的特征提取并降低识别的错误率。

其中:二值化指的是,对图片进行灰度处理,将图片转换为黑白色,并用坐标的方式标记各个像素点,从而简化计算机对汉字特征提取的难度,降低出错率。去噪指的是,对图像中的孤立点、孤立的笔画、污点等进行去除,以简化识别难度,降低对CPU的使用率,降低对计算机硬件的要求。扭转校正是指:将歪斜扭曲的笔画变化成整齐规则的标准笔画,或将不同字体、风格的文字统一转换为标准字体,从而降低分类识别的难度。

2.3 特征提取

特征提取,指的是计算机对汉字中能够体现出差异的特有信息进行提取,例如:提取汉字的偏旁部首、笔画的离散程度等。目前,特征提取方法主要分为两种:提取结构特征与提取统计模式特征。提取结构特征是指:提取汉字结构中的特殊结构,如:部首、框架等,并记录提取的信息以供分类识别使用。

该方法的优点是易识别形近字,对不同字体的识别能力较强。但是,此方法对预处理要求较高,若预处理的图像中出现断裂、连笔等影响因素,此方法的提取成功率将会下降。而提取统计模式特征指的是:对样本的坐标进行数学变换,利用傅里叶变换、Gabor变换等数学方法,再结合正态分布等统计方法来提取汉字特征。这种方法对预处理要求较低,但识别形近字、不同字体汉字的能力较弱。

2.4 分类识别

分类识别是指:利用上一步所提取的汉字特征信息,在计算机的字符库中进行检索比对,检索出相似程度最高的汉字作为输出结果。这种检索比对的方法被称为分类识别方法。目前,汉字的主流分类识别方法有基于结构的识别方法、基于统计模式的识别方法、神经网络识别法、贝叶斯决策法与支持向量机法等。其中神经网络识别法与支持向量机法是时下的热点研究方向。

各种分类方法适用不同的情形,有他们各自的优缺点,例如基于结构的识别方法中,隐马尔科夫模型是其中的典型,该方法成功率较高,在中小字符集的识别中成功率较高,但在识别大字符集方面识别率较低。而支持向量机法,拥有识别率较高,适应训练字符集较小情况等优势,复杂程度高,对大字符集的识别时间较长。

2.5 末处理

在分类识别给出结果后,需要计算机通过解析句式结构来验证对汉字识别的正确与否。此时,联机手写体汉字识别还可以通过笔画顺序来辅助验证。若验证通过,则输出识别结果;若验证未通过,如:出现识别乱码或语意等严重不符时,则反馈给分类识别环节重新进行识别。末处理能够显著降低识别的错误率。目前,科学家也在试图用增加末处理的环节等手段来提高手写体汉字识别的准确率。

3 手写体汉字识别技术的短板及发展趋势

近年来,联机手写体汉字识别由于拥有可以运用笔画顺序来辅助识别的优势,发展比脱机手写体汉字识别技术较快。目前,市场上已经有为数众多的联机汉字识别产品供大众使用。即使目前已有脱机手写体汉字识别技术产品问世,我们也无法忽视脱机手写体汉字识别技术中仍然存在的问题。下面将大致说明脱机手写体汉字识别技术存在的缺陷。

3.1 识别准确率较低

脱机手写体汉字识别技术由于只能够通过输入的图像进行分析,受字体风格、连笔、缺损、污点、扭曲等因素影响较大,给予预处理及特征提取步骤不小的困难。这也导致了在一开始的两步中极易出现错误,从而导致后面分类识别环节中的错误,降低了识别准确率。

3.2 反应时间长,对计算机硬件要求高

脱机手写体汉字识别技术由于缺乏笔画作为辅助参考,一个汉字往往有几个,甚至几十个、上百个相似的汉字。因此在分类识别环节中,相应的算法较为复杂,检索比对的耗时较长,从而拖慢了整个流程的反应时间。这也使得该技术对计算机硬件的要求较高,特别是对CPU的要求较高,并且增加能耗,浪费资源。

3.3 分类识别方法的适应性较差

尽管目前某些分类识别方法在某一方面的识别准确率、反应时间表现均比较出色,但或多或少都存在着不足之处。例如:隐马尔科夫模型在中小字符集的识别中成功率较高,但在识别大字符集方面识别率较低;贝叶斯决策法识别正确率较高,但其需要的样本量较大,计算较为复杂,同时对硬件的要求也比较高;神经网络识别法在小字符集识别方面表现优异,但若将大字符集拆分成小字符集来识别,又会造成响应时间过长等问题。

虽然脱机手写体汉字识别技术仍需进一步完善,市场上产品较少,用户反馈不佳。但脱机手写体汉字识别技术依然存在着较大的应用市场空间。随着科学家们对相应技术的进一步改进,手写识别领域出现了许多新的发展方向。

1)利用多种方法进行汉字切分。通过运用多种方法对图像中的汉字进行切分,能够有效地减少后面步骤中的反应时间与识别错误率,降低对计算机硬件的需求,从而提升脱机手写体汉字识别技术的实用性。

2)将多种分类方法并行。科学家们认为,如果将多种分类器并行使用、取长补短,将会大大提高脱机手写体汉字识别技术的识别准确率,以达到用户满意的程度。

3)延长末处理流程。一些学者指出,通过延长末处理流程,如增加利用语意等語法因素在末处理步骤中进行查证,能够进一步提升脱机手写体汉字识别技术的识别准确率,同时也不会对计算机硬件提出更高的要求。

4 结论

文章对手写体汉字识别技术的发展历程、基本原理及未来发展的趋势进行了概述与展望。能够看出,近年来,联机手写体汉字识别技术已经逐渐完善,市场上也出现较多的联机手写体汉字识别产品。脱机手写体汉字识别技术从无到有。基本原理也较为清晰。但是,脱机手写体汉字识别技术仍不完善,存在着识别准确率较低、反应时间长、计算复杂、对硬件要求高等缺陷,制成的产品诟病颇多。

在不断研究的同时,科学家们开始尝试运用多种方法对汉字进行切分、将多种分类方法并行、增加末处理环节流程等方法,从而使这项技术能够真正的实用化。相信通过解决这些难题,可以将脱机手写体汉字识别技术更好地运用于大众的日常生活,赢得用户的赞许。

参考文献

[1]孙华,张航.汉字识别方法综述[J].计算机工程,2010,36(20):194-197.

[2]何志国,曹玉东.脱机手写体汉字识别综述[J].计算机工程,2008,34(15):201-204.

[3]宋佳.模式识别综述及汉字识别的原理[J].科技广场,2007(9):133-135.

[4]丁晓青.汉字识别研究的回顾[J].电子学报,2002,30(9):1364-1368.