张婷,王卓英
手写体数字计算机识别系统的应用研究
张婷,王卓英
摘 要:以手写体数字识别系统的基本处理流程为主线,在图像模式识别理论的基础上提出了一种基于图像处理、提取数字几何结构特征,由构建的几何特征向量通过可变形模板匹配算法对手写体数字进行识别,最后,利用VC++6.0编程软件对本识别算法进行实现。
关键词:手写体数字识别系统;模式识别;图像处理;数字几何特征;模板匹配
数字是我们日常生活中进行信息交流不可缺少的重要工具之一,实现计算机的手写体数字识别是加快社会信息化进程的关键所在。手写体数字识别[1](Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的是:如何利用计算机自动辨认手写在纸上的阿拉伯数字。本文提出了一种基于图像处理技术提取字符结构特征的识别算法,阐述了图像预处理、特征提取、分类识别等主要部分。
利用计算机自动识别字符的技术是模式识别[2-3]应用的一个重要领域。OCR[4-5]是指电子设备(例如扫描仪或数码相机)检查纸上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即针对字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。通常OCR识别方法有:统计特征字符识别技术、结构字符识别技术和基于人工神经网络的识别技术。统计特征字符识别技术一般选取同一类字符中共有的、相对稳定的且分类性能好的统计特征作为特征向量。结构字符识别技术首先要提取字符的结构,所有的这些提取出的结构按照某种顺序排列起来就构成了字符的特征。基于人工神经网络的识别技术目的技术通过人脑功能和结构的模拟来实现字符的高效识别。
本文采用的是结构字符识别技术,依据输入的图像,动态确定结构特征的选取。结构特征通常包括圈、端点、交叉点、笔画、轮廓等,其主要优点是能描述字符的结构,在识别过程中能有效地结合几何结构的知识,以便得到可靠性较高的识别结果。
图像处理(Image Processing),用计算机对图像进行分析,以达到所需结果的技术,又称影像处理。图像处理一般指数字图像处理。数字图像处理[6](Digital Image Processing)又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。进行数字图像处理所需要的设备包括摄像机、数字图像采集器(包括同步控制器、模数转换器及帧存储器)、图像处理计算机和图像显示终端。主要的处理任务,通过图像处理软件来完成。数字图像处理包括图像的空间域处理、频域处理、复原处理、压缩处理、形态学处理及分割处理等等。
3.1 系统识别流程
系统识别流程如图1所示:
图1 系统识别流程图
它包含图像输入、预处理、特征提取、特征分类及字符识别等几个部分。在输入阶段,用户将通过CCD摄像头采集到的二维32位真彩色图像字符信息加以保存;预处理阶段是系统识别的基础,样本在采集时会含有各种噪声的干扰,不能直接用于识别,因此在对样本进行识别前,必须对其进行预处理;特征提取阶段需要对包含大量信息的预处理后字符进行特征提取和压缩,获得代表字符分类的具体特征以及区分其它字符的目的;最后是通过在特征样本库中进行特征分类处理获取待识别字符所属类别,完成字符的识别。3.2 数字图像预处理
基于图像技术的手写体数字识别系统中,如果想得到较好的图像识别效果,那么在获得手写体数字图像之后,必须要对这个图像进行预处理[6-7],即通常我们所说的图像预处理。预处理的主要目的是去除字符图像中的噪声、压缩冗余信息,得到规范化的点阵,为识别做好准备。数字图像预处理是后面特征提取、特征分类以及数字识别过程的基础,因此,它是一个非常关键的过程。本文图像预处理流程如图2所示:
图2 预处理流程图
包括图像灰度化、二值化、平滑去噪、字符分割、倾斜校正、细化和归一化等处理过程。
手写体数字图像主要是通过扫描仪或摄像机等工具对纸张上的数字进行数据采集成为计算机中的一幅图像。所谓灰度处理就是将色彩复杂的256色的位图转化成为每个像素的R、G、B分量都相等的便于计算机处理的只包含亮度信息而不包含色彩信息的图像。所谓二值化就是通过设定的阈值,把灰度图像变为仅用两个灰度级表示的黑白图像,二值化的目的就是去除原始数字图像中严重影响程序处理速度的、不需要的灰度信息。本文采用动态阈值的方法,将整个图像呈现出明显的黑白效果,如图3所示:二
图3 图像二值化效果
值化处理后的字符图像通常在背景中有黑色孤立点噪声或在字符中有白色孤立点,这些噪声会干扰字符的识别过程,改变图像轮廓,影响特征提取精度以及干扰分类识别,因此在识别前必须采用相应算法将其去除。平滑去噪主要的工作就是选择平滑模板,选择模板的质量是平滑去噪的关键,其算法思路是通过一点和这点周围的几点做平均运算,获取变化很快的点加以去除,达到滤掉噪声的目的,本文采用中值滤波对图像进行平滑去噪,如图4所示:
图4 图像平滑去噪效果
系统识别时只能根据每个数字特征单独进行判别,因此需要对图像进行字符分割,把图像中的字符独立分割出来。由于人们在书写的过程中一般都是按照行进行(垂直方向不一定对齐),因此本文采用基于垂直投影的直线字符分割方法。
在实际识别过程中,由于扫描或拍摄角度的不确定性、光学失真及机械偏差等原因,使得获得的手写体字符图像会存在一定角度的倾斜,为避免影响后续的工作,必须在字符识别前对去进行倾斜校正处理。本文采用倾斜图像自动校正的方法,通过一条基准线对图像计算倾斜度,得到倾斜度后,对图像进行度数校正。
同时由于书写时所采用的笔不同,手写体字符在笔画宽度上存在一定的非特征差异,为消除这些影响因素,采用细化算法可以去除字符笔画宽度的差异,减少图像的冗余信息量,保留描述字符几何及拓扑性质的骨架特征,提高识别精度。本文采用像素领域分析的细化算法[8],如图5所示:
图5 图像细化效果
图像的归一化是预处理中非常重要的一环,由于原始图像在大小方面存在很大的差异,必须进行归一化处理,使其具有相同的大小,即将原来不相同的字符统一到同一高度和宽度,这样有利于减少网络训练的时间,提高识别的准确率。根据单个字符最佳宽高比1:1,本文采用线性归一化的方法归一化为40×40大小的图像。
3.3 结构特征提取
手写体数字图像预处理后,下一步工作是提取手写体数字的特征。由于手写数字时往往带有不规范性,不同的数字间的相似度都会降低识别率,有效的保持图像信息是主要目标。特征提取是通过变换的方法,把模式空间的高维特征变成模式空间的低维特征,提取数字图像中的相关拓扑结构、数字的笔划分布情况等特征信息。数字图像主要包括端点、分点、拐点、交叉点(三叉点和四叉点)、直线、弧圆等结构特征[9],且手写体数字图像的位置和端点的数量比较稳定,基元特征不会因为书写的不同而发生太大的变化,如图6所示:
图6 图像上检测到的特殊点示意图
本系统在特征判决时采用一票否定的思路,即只要一个条件不满足就给予否定。如特征提取时出现了圆则要否定数字“1”,因为“1”无论如何也不可能出现圆。又如特征提取时出现了四叉点则否定数字“7”,因为在“7”的书写过程中不可能出现四叉点。由于拓扑结构特征排除的是确定的数字,因此否定数字的正确性较高,同时大大提高了系统的识别率。
3.4 数字识别算法
手写体数字识别技术中模板匹配算法的本质是将待分类的样本与模板库中的每个模板进行比较,通过一定的准则判断待分类样本与每个模板的相似程度,相似度最大的类别即为待分类样本所属类别。在系统识别前,首先制作模板样本库。然后将待识别预处理后的手写体样本与模板样本采用基于结构特征的可变形模板匹配算法进行数字识别(可变形模板抗干扰能力强,可根据外界字符影响而改变自身形状,从而提高系统的识别率)。本文采用基于提取的手写数字特征向量间的最小距离判别准则[10]来对手写数字进行分类。3.5系统实现和结果分析
系统硬件由PC机和CCD摄像头组成,考虑到软件系统的应用领域及推广性基于WindowsXP平台,编程软件采用VC++完成设计构造,采用到的系统函数如表1所示:
表1 系统函数列表
系统识别界面如图7所示:
图7 识别界面图
本算法的实验样本集为0-9(共10个数字),训练样本为300个,待识别样本200个,实验结果统计如表2所示:
表2 实验结果统计表
实验结果表明,本算法耗时短且识别率较高。
手写体字符识别技术在人们日常生活中被广泛应用,主要目的就是通过计算机从纸张上获得手写体字符信息并加以识别。本文提出基于手写体数字字符结构特征的可变模板匹配算法,以最小距离向量作为分类识别的依据,设计规模小效率高的模板库,有效的实现了手写体数字的识别。
参考文献
[1] 张晓.手写数字识别的前景与难点[J].计算机工程与应用,2013(10) :7.
[2] 严红平,潘春洪.模式识别简述[J].自动化博览,2006(02):22-26.
[3] 范会敏,王浩.模式识别方法概述[J].电子设计工程,2012(10):48-51.
[4] 岳晓峰,焦圣喜,韩立强.模式识别中的光字符识别技术及其应用综述[J].河北工业科技,2006(09):312-316.
[5] 彭伟.基于OCR识别信息的语音合成在WEB上的实现[D].武汉:湖北工业大学,2007,5.
[6] 陈府庭.字符图像识别技术及应用研究[D].广州:广东工业大学,2012,06.
[7] 沈茜. 手写体识别识别系统的研究[J]. 内江科技. 2008(04):128-129
[8] Lam.L, W.Lee.S, Suen C.Y. Thinning Methodologies-A Comprehensive Survey[D]. IEEE Transaction on Pattern Analysis and Machine Intelligence.1992,14(9):879.
[9] 卢海霞,杨耀权,苏杰. 基于图像处理的手写体数字识别[D]. 仪器仪表与分析监测. 2005(03):13-15.
[10] 张婷.基于图像识别技术的光学标记阅读机的研究与应用[D]. 合肥:安徽大学,2007,05.
Research and Application of Handwritten Numeral Recognition System
Zhang Ting, Wang Zhuoying
(Department of Communication Engineering, STIEI, Shanghai 201411, China)
Abstract:This paper proposes a structure feature of numeral geometry based on image process and extraction on the basis of image pattern recognition theory, regarding the basic process of handwritten digital recognition system as the main line. It uses the match algorithm of deformable template to do handwritten numeral recognition by the constructed vectors of geometry feature. Finally, it uses VC++6.0 to implement the recognition algorithm.
Key words:Handwritten Numeral Recognition System; Pattern Recognition; Image Processing; Digital Geometry Feature; Template Matching
收稿日期:(2015.05.13)
作者简介:张 婷(1980-),女,九江人,上海电子信息职业技术学院,通信系,讲师,硕士,研究方向:通信技术,上海,201411王卓英(1976-),女,上海人,上海电子信息职业技术学院,通信系,讲师,硕士,研究方向:通信技术,上海,201411
基金项目:2014年上海教育委员会高校中青年教师国内访学进修计划。
文章编号:1007-757X(2016)01-0019-03
中图分类号:TP391
文献标志码:A