刘庆祥
摘 要:本文在研究汉字识别理论的基础上,介绍了手写汉字识别系统研究的意义及其在实际中应用,并对当前手写汉字识别的现状及存在的问题进行了分析,提出了限定性脱机手写汉字识别的研究方向。
关键词:限定性;脱机手写汉字;模式识别;人工神经网络
中图分类号:TP391 文献标识码:A
一、引言
以计算机为基础的现代信息处理技术已成为信息社会的重要标志,随着信息时代的到来,如何用计算机对汉语信息进行处理已发展成为一门综合性的交叉学科——中文信息处理。汉字信息的计算机处理技术对我国乃至世界信息事业的发展具有重要的意义,在以微电子与计算机技术为先导的信息化浪潮中,成为我国高新技术的一个热点。
汉字信息的计算机处理技术包括汉字信息的输入、处理和输出。汉字是一种象形文字,它不像西方拼音文字那样可以直接方便地输入到计算机中,虽然现在已有数百种的汉字输入编码方案,但它们不是速度慢就是过于复杂不便学习,难以适应高速发展的中文信息处理技术的需要。汉字输入问题成为汉字信息处理的“瓶颈”,影响了计算机在我国的推广使用,成为我国乃至世界信息化进程的障碍。研究高速自动的汉字输入方法是中文信息处理技术领域的一个重大课题。汉字自动录入的关键是汉字的计算机自动识别问题。
二、汉字识别及其研究的领域
汉字识别是指让计算机对经由某些特定输入设备得到的汉字图象进行自动识别,从而得到相应的计算机内码表示的汉字文本的一种技术。它是智能计算机接口的一个重要组成部分,也是汉字高速、自动输入计算机的重要手段。汉字识别系统有时也称为“光学字符阅读机”,简记为OCR(Optical Character Reader)。
形象地来讲,汉字识别就是在汉字图象(或笔画序列)与汉字的计算机内码之间建立一种关系,使得计算机能够自动地将汉字图象转换为汉字内码。设G为汉字图象的集合,C为汉字集合,则汉字识别问题可以看作一个映射(如公示一所示):
公式一: f:G → C 或 c = f ( g )
其中g ∈ G为一个汉字图象,c ∈ C为其所对应的汉字内码。
但在现有的识别系统中,这种映射还不是一一对应的关系。其原因在于就现有的机器识别技术,还不能作到对识别结果的完全确定,存在误识和拒识问题。
为了评价一个识别系统的性能,通常引入识别率、误识率、拒识率和识别结果可信度的概念。
识别率指汉字识别系统能够正确识别的字数与待识别的总字数的比率;
误识率指汉字识别系统错误识别的字数与待识别的总字数的比率;
拒识率指汉字识别系统不能够识别的字数与待识别的总字数的比率;
识别结果的可信度是指识别器输出汉字C时的可信程度。若被识别器识别汉字C的总字数是Mc,对应Mc中输入汉字C的个数为Nc,则C的可信度Bc用公式二表示。
公式二: Bc=(Nc/Mc)×100%
为了减小研究难度,集中研究精力,人们对汉字识别研究领域进行细致的划分。依照待识别汉字的形成方式,汉字识别可分为印刷体汉字识别和手写体汉字识别两大类。手写体汉字识别又可根据识别的实时性分为联机手写体汉字识别和脱机手写体汉字识别。对脱机手写体汉字识别又分为特定人非限定性脱机手写体汉字识别、非特定人限定性脱机手写体汉字识别和非特定人随意性脱机手写体汉字识别。
联机识别指手写体识别时,用光电书写板边输入边识别,各笔迹点的坐标被顺序地输入计算机内,原始信号为一维序列;而脱机识别研究的对象是书写在纸上经由扫描仪输入的点阵字符,原始信号为二维图象。因此从识别的角度看,联机手写识别要比脱机手写识别简单,因为在联机识别中容易抽取笔划和笔顺信息。
所谓“限定性”是指手写印刷体识别时,要求人们工整书写,例如书写时要求横平竖直;而“非限定性”是指人们在实际生活中那样可以连笔地自由书写。
目前印刷体汉字识别和联机手写体汉字识别己逐步实用化,而脱机手写体汉字识别,因其自身的复杂性被视为汉字识别领域中“最难征服的领域”,成为国内外学者研究的热点。本文研究的对象是脱机手写体识别中的非特定人限定性脱机手写体汉字识别(以下简称脱机手写体汉字识别)。
汉字识别在学科上属于模式识别中的文字识别分支,是模式识别领域中的一个重要研究课题,汉字识别的研究涉及人工智能、模糊数学、人工神经网络、图象识别、计算机科学、心理学、语言学等学科。
三、手写体汉字识别研究的理论价值及应用前景
手写体汉字识别研究的理论价值是多方面的。
(一)手写体汉字识别的理论研究是为了认识高难度模式识别的一般规律,发展机器自动识别技术。传统的模式识别理论和方法在手写体汉字识别中有很大的局限性,手写体汉字识别的研究有助于发展新的模式识别理论。
(二)汉字识别技术的研究是揭示人类智能奥秘的一个理想窗口,也是实现人工智能的良好平台和环境。模式识别能力在人类智能行为中属于较低层,相对独立,对其研究需要的背景知识较少。但它也因为处于意识觉察的范围之外,人类对其工作过程难以进行有意识的描述,所以迄今为止人类的基本模式识别能力中,仍然有许多待解之谜。而汉字由于其独特的复杂结构,考察人认识汉字的过程成为研究人类认识能力的一个良好手段。这是因为人对具有丰富结构特征的汉字进行辩识时,不仅要应用模式识别能力,还要应用推理判断能力。这样人对汉字识别的过程既包括高层的以符号推理为主的“深思熟虑”型的智能,又包括底层的非推理的“本能反应”型的智能,使得它处于人类高层智能与低层智能的结合部,能够部分为意识所觉察和描述。
(三)人类的习字与识字的过程是一个典型的学习训练过程,对于机器学习算法的研究很有意义。
(四)由于手写体汉字识别是一个涉及多学科的复杂性问题,各个学科从自身角度探索手写体汉字识别问题,出现了大量新思想和新方法,促进了相关学科的深入发展,因此手写体汉字识别在相关学科研究中,具有很高的理论探索价值和启发创造作用。
手写体汉字识别不仅具有重要的理论研究价值,而且具有广阔的应用前景。手写体汉字识别技术的应用是多方面的,它能使习惯汉语的计算机用户保持传统的书写方式,又享受到计算机给人们带来的快捷和便利,该技术的应用和发展必将彻底改变人机界面的传统模式,加速计算机在使用汉语的国家和地区的普及。手写体汉字识别技术有着很强的应用前景,综合起来,主要有以下几个方面:
(1)智能计算机
人能够以自然的方式与计算机进行交互,是智能计算机的一个重要标志。汉字作为人类常用的主要交流方式之一,必将在未来的计算机人机接口中占有重要的地位,智能计算机必须能够接收以各种形式提供的汉字信息。
(2)文献检索
资料库的建立是文献检索的首要条件,汉字识别技术为资料库提供了有效的方法。
(3)办公自动化
在自动化办公过程中,每天都要输入大量的信息,虽然已经有很多种编码方案可以实现汉字的键盘输入,但手写输入是最自然、最易被人接受的方式之一。
(4)笔记本计算机
对超小型笔记本式计算机,因体积的限制,不可能采用通常的键盘输入,手写输入是其唯一可选的输入方式。
(5)票据、表格录入
在许多场合下,由于各种条件的限制,计算机要处理的信息必须首先书写在纸张上,然后再输入到计算机中处理。例如:财务单据,制度规定必须有手写底单存档:人口普查、工农业普查等,因条件的限制,只能先填写在纸上:还有其它的税务报表、保险单据等。汉字识别(包括数字识别)技术的应用,可以极大地提高这些领域的工作效率。
(6)机器翻译
汉字识别可以作为机器翻译系统的一个组成部分提供给用户,实现汉字的自动录入。
(7)盲人阅读机
与语音合成技术结合在一起,实现语音阅读机,或者与相关的机械设备相结合,实现普通文字到盲文的自动转换(翻译)。
(8)邮政自动分拣系统
早期的邮政分拣系统只能对数字的邮政编码进行识别,目前国外的分拣系统可以识别城市名、州名等。识别的手写体可以是手写印刷体、自由手写体以及两种字体的混合使用。地址的识别结合了自然语言理解中的上下文相关技术,这一技术多用于文字识别的后处理, 目前在文字识别过程中也有采用。国内有些大型邮政系统也采用了邮政编码的分拣系统。
4 手写体汉字识别研究存在的主要问题和难点
从1990年开始,我国专家组对汉字OCR已经先后组织了五次评测,有力地推动了手写体汉字识别技术的发展。评测表明,汉字识别技术已经基本成熟,表现为识别率较高,简繁印刷体汉字识别率都可以达到96—98%以上,手写体单字识别率也可以达到90%左右,联机识别率则在91-94%左右。目前的识别系统存在的主要问题是:
(1)识别结果受图象质量影响较大;
(2)前、后处理在系统中的作用还需要不断加强;
(3)对于自由书写汉字的识别仍然不能令人满意;
(4)学习能力普遍较弱,难以适应不同字型的变换。
从目前情况看,手写体汉字识别的研究距实用还有一定差距,究其原因,汉字独特的结构给计算机的自动识别造成了巨大的困难和障碍:
(1)第一个难点在于汉字的字量大,汉字类别多。国标一级汉字3755个,二级汉字3008个,两级共计6763个,比西文字符高出两个数量级,从而使得许多行之有效的模式识别方法难于直接应用。
(2)第二个难点在于汉字字形结构复杂,笔划繁多。
(3)第三个难点在于汉字集合中相似字较多,手写时变形的存在,产生较印刷体更多的相似字。
(4)第四个难点在于手写体汉字的变形因人而异,差别很大,具体表现在以下方面:
基本笔划变化多,横不平,竖不直,直笔变弯,折笔的拐角变成圆弧等;
笔划模糊,不规范,该连的不连,不该连的却相连;
笔划与笔划之间、部位与部位之间的位置发生变化;
笔划的倾斜角、笔划的长短、部位的大小发生变化;
对于脱机手写汉字,不同人使用不同的书写笔可能造成笔划的粗细变化。
这四个难点中,手写汉字字形的变化是最难解决的问题。
就识别技术看,主要困难在于:手写体汉字识别是涉及多学科的综合技术,各个学科交叉领域的研究还是一个薄弱环节,特别是在心理学和生理学中人们对大脑认字原理的研究还不够深入,使得手写体汉字机器识别的研究缺乏相关理论的指导,具有很大的盲目性。因此,综合运用相关学科的最新成果,如人工神经网络、模糊数学等理论,采取现有识别技术综合集成的策略,是手写体汉字识别研究的一个重要方向。
5 结论
通过综合分析手写体汉字识别研究的现状,笔者认为对手写体汉字识别的研究应该从下几个方面进行突破:
针对手写体汉字类别多,相似字难以识别的突出问题,应找出机器识别中相似字识别率低的原因,在相似字以及相似字集簇的概念的基础上,研究在GB2312—80一级汉字范围内获取相似字集簇的有效方法;
将人工神经网络理论引入手写体汉字识别系统,采取系统集成策略,研究基于统计与人工神经元网络方法相结合的非特定人脱机手写体汉字识别方法,以解决脱机手写体汉字识别中相似字识别率低的问题;
用人工神经网络算法实现小集合手写体相似汉字的分类识别,对网络参数以及隐含层节点数目的选取进行研究。
参考文献:
[1] 金连文,徐秉铮.基于多神经网络结构的手写体汉字识别[J].通信学报,2012(8).
[2] 闻新,周露,王丹力.神经网络应用设计[J].科学出版社,2012(6).
(本文审稿 肖洁)