宋昌统,黄力明,王辉
基于概率神经网络的手写体数字识别
宋昌统,黄力明,王辉
随着手写体数字识别技术的发展以及概率神经网络的应用,基于概率神经网络的手写体数字识别技术,即PNN技术,是手写体数字识别领域才刚刚开始的一个研究方向。本文把概率神经网络技术应用在数字识别系统中,在特征提取技术的基础上,设计了特征提取算法,通过手写体数字识别流程,构造了概率神经网络的分类器。最后在数据输入、特征提取、模型训练、测试等几个部分,实现了手写体数字识别,获得了令人满意的正确度。
神经网络;手写体数字识别;特征处理;预处理
光学字符识别(OCR)是一种模式识别技术,它起源于20世纪20年代。光学字符识别后来发展成为图像处理以及模式识别领域一个重要的组成部分。手写体数字属于光学字符识别的范畴,但分类的识别比光学字符识别少得多,主要只需识别0-9共10个字符。近年来,随着计算机技术和数字图像处理技术的飞速发展,手写体数字识别在电子商务、机器自动输入等场合逐步获得推广。与其他字符的识别相比,手写体数字识别的研究较为成熟,尽管就目前来说,机器自动识别的性能依然无法与人类的识别性能相比,但在许多自动录入、识别领域已经发挥了重要的作用。
手写体数字识别一直是字符识别中的一个研究热点。数字识别可分为印刷体数字识别和手写体数字识别。由于不同的人往往拥有不同的手写笔迹,因此手写体的识别难度远高于印刷体数字识别。尽管手写体数字识别仅需要区分10个类别,但由于其应用领域往往对识别率和可靠性具有较高的要求,因此这个领域一直是研究热点之一,处于不断的发展过程中。典型的应用领域有邮政编码自动识别系统,税表和银行支票自动处理系统等。对于与金融相关的手写数字自动识别,如支票、发票中的金额填写部分,要求系统具有极高的识别准确率。近年来随着模式识别技术的发展,新的分类器不断提出,但依然没有算法能够达到完美的效果。支持向量机、人工神经网络[1]等算法具有较强的非线性映射能力,在识别中往往能有较好的性能。识别时,手写体数字一般是以图像的形式提供的。原始图像是通过光电扫描仪、电子传真机等设备获得的图像信号。手写体数字识别的完整处理过程[2]如图1所示:
图1 手写数字识别流程
预处理阶段。与大多数图像处理算法类似,数字识别的第一步是对图像进行预处理。由于获得的原始图像往往包含各种各样的噪声,为了防止造成干扰,第一步应对图像进行去噪、滤波等处理。常见的噪声有椒盐噪声、高斯噪声等。此外,在数字识别中,使用的是二值图像。因此,如果输入的是灰度图像,应首先选取恰当的阈值进行二值化,如果输入的是彩色图像,则还需要先进行灰度化。经过预处理后的图片不仅能够有效滤除噪声,并且能够将不同的大小、倾斜角度的字符进行归一化到一个固定大小,对大量数据进行压缩处理。预处理是整个识别过程中非常重要的一个环节,预处理进行得好,可以得到更好的识别效果,精度更高,性能更好。
特征提取阶段。由于原始的字符图像中本身的数据量较大,而且冗余信息较多,一般情况下不进行直接识别,即使进行识别,识别的准确率也会较低。一般的操作是进行提取有效特征数据,然后再进行识别。随后需要将整张图像分割为单个数字图像,这也是数字识别的难点之一。粘连的图像、连笔、打印机的随机墨点都有可能造成分割不正确,后续的正确识别也就无从谈起了。
分类识别阶段。分类识别是数字字符识别中非常关键的步骤。分类识别过程是指分类器根据上一步特征提取阶段所提取的图像的关键特征[3],将采集得到的待识别的字符输入分类器中,进行最后的字符分类识别的过程。得到了数字的单个图像后还不能直接用于分类,图像为二维信号,使用全部图像数据进行直接分类是不可取的,必须将其表示为一个低维的向量。
2.1 特征提取算法
特征提取的目标是得出n个向量{x1,x2,x3,…,xn},用来表示原始图像。该向量应满足以下条件[4]:
当图像类似时,得出的特征向量也比较类似;当图像差距很大时,得出的特征向量也有可观的距离;即该特征向量必须能够代表这一图像模式。
向量的长度n尽量小,尽量不包含对分类来说没有作用的分量,以有效地进行分类并减小计算量。
特征提取的好坏会直接影响其识别的分类效果,进而影响识别率,因此特征选择是模式识别的关键。在本例中,采取了结构特征与统计特征相结合的方式,共抽取了14个特征。其中,结构特征有8个。包括竖直中线交点数、竖直1/4处交点数、竖直3/4交点数、水平中线交点数、水平1/3处交点数、水平2/3处交点数及主对角线与次对角线交点数。其中,竖直1/4处交点数是指,在图像宽的1/4处沿着竖直方向绘制一条直线,然后计算图中等于1的像素与该直线的交点个数。数字8的结构特征提取模式如图2所示:
图2 水平和垂直结构特征图3对角线结构特征
统计图2中每条直线与数字的交点个数,可以得到6维结构特征。此外,还要统计两条对角线与数字的交点,共计8维结构特征向量。
2.2 构造分类器----概率神经网络
概率神经网络属于径向基神经网络的一种[5],特别适用于分类问题。在本次实验中,构造的概率神经网络结构如图4所示:
图4 概率神经网络
网络的第一层为输入层,神经元节点数与输入向量维数相同,因此包含14个神经元。第二层为径向基层,神经元节点数等于样本个数1000。第三层为隐含层,神经元节点个数为分类的类别数,因此等于10。输出层只包含一个神经元,对应分类的类别。在MATLAB的工具箱函数newpnn中,输出的类别是以向量的形式给出的。例如共有10个类别,则第4类的向量表示形式为[0,0,0,1,0,0,0,0,0,0]²。
概率神经网络的径向基层采用了高斯函数作为传递函数,每个径向基层神经元对应一个训练样本。输入的新样本与每个神经元的计算,相当于求出新样本属于该神经元对应样本的概率。径向基层中的同类神经元输入到隐含层神经元中,得出新样本属于某一类别的概率。最终,网络将概率值最大的那个类别作为判定类别输出。
手写体数字放置在1000张64*64二值图像中。通过将所有图片数据读入,做一个简单的中值滤波,然后对每一幅图像提取特征向量,最后通过概率神经网络建模,对数据实现分类。将训练数据本身输入到网络中,分类正确率可达100%,表明该特征提取的方法所得的特征向量能有效地表示图像,使得不同类型的图像能够被区分出来,不存在不同类型数据样本的交错重叠现象[6]。
计算流程包含数据输入、特征提取、模型训练、测试等几个部分。
(1)数据输入。将1000张图像放在dig_pic子目录中,其中数字i的第j张图像文件名为i_j.bmp,j为三位宽度的整数。在MATLAB中定义函数I=getPicData(),用于读取dig_pic目录中的所有图像,并保存于I中,I为64*64*1000数组。输入数据主要代码如图5所示:
图5 数据输入
(2)特征提取。进行特征提取前进行去噪处理。特征提取的函数为[Feature,bmp,flag]=getFeature(A),该函数接受一个64*64二值矩阵输入,返回的Feature为长度为14的特征向量,bmp为图像中的数字部分,flag为表示宽高比的变量。具体内容如图6所示:
Handwritten Digit Recognition Based on Probabilistic Neural Network
Song Changtong, Huang Liming, Wang Hui
(Electron and Information Department , Zhenjiang College, Zhenjiang 212003, China)
With the development of digit recognition technology and neural network, handwritten digit recognition technology based on probabilistic neural network, namely, PNN technology, is just an inchoate research direction in the field of handwritten digit recognition. In this paper, the probabilistic neural network technology is applied in the digital identification system. Based on the technology of feature extraction, it designs the feature extraction algorithm. It constructs the probabilistic neural network classifier through handwritten numeral recognition process. Finally, it achieves the handwritten numeral recognition in the parts of data input, feature extraction, model training, testing and others, and it obtains a satisfactory degree of accuracy.
Neural network; Handwritten digit Recognition; Feature processing; Preprocess
TP393
A
1007-757X(2016)10-0014-02
江苏省现代教育研究课题(2012R22170);镇江高等专科学校科研基金项目(GZ2015SJ104)
宋昌统(1980-),男,连云港人,镇江高等专科学院,硕士,讲师,研究方向:语义Web、分布式虚拟现实,镇江 212003
黄力明(1956-),男,溧阳人,镇江高等专科学院,教授,研究方向:智能优化算法,数字图像处理等,镇江 212003
王 辉(1980-),女,汉族,镇江人,镇江高等专科学院,硕士,讲师,研究方向:控制系统,数据挖掘,镇江 212003