数字手写体的深度信念网络识别方法

2016-11-19 06:34苑强李纳新
工业技术创新 2016年5期
关键词:层数手写信念

苑强,李纳新

数字手写体的深度信念网络识别方法

苑强1,李纳新2

(1. 青岛科技大学信息学院,山东青岛,266061;2. 新疆库尔勒塔里木油田通信事务部,新疆库尔勒,841000)

深度信念网络可以通过低层特征组合抽象形成更高层的特征,具有良好的学习能力,其无监督学习特点减少了人工劳动量。主要研究了使用深度信念网络(DBN)对手写数字进行识别的方法,实验表明设计识别数字的网络模型时的最佳层数为5层。使用MNIST数据库中的60 000个图片训练深度信念网络,再使用MNIST中的另外10 000个图片测试网络,得出高达93.42%的准确率,高于同等条件下的SVM。另外,在深度学习网络中引入Dropout参数,可以在使用少量样本的情况下获得更高的识别准确率。

数字手写识别;深度信念网络;Dropout训练

引言

手写数字识别具有重要现实意义。在金融和电子商务等涉及手写数字的场合,当待处理数字量特别大,而且要求识别准确率又很高时,对手写数字进行智能识别显得更加重要。

手写数字识别是图像识别领域的基础,常用的数字识别技术有:模板匹配法、SVM(支撑向量机)法、神经网络识别等,这些方法在准确率、实时性和实施性方面还有一定缺陷[1]。本文采用深度学习算法,学习训练数据特征和规律,以用来对新样本进行智能识别或某种可能性的预测。本文内容安排如下:首先,介绍手写数字识别整体算法流程;随后,介绍深度学习网络的设计配置以及训练技巧,比如动量因子和Dropout参数的引入;最后,是实验设计和实验结果的对比。

1 手写数字识别整体算法流程

手写数字识别流程主要包括训练和识别两部分,训练是指使用MNIST数据集训练形成深度信念网络模型;识别是指将欲识别的图片进过预处理后,输入深度信念网络模型进行识别。整体流程如图1所示,其中下文对部分内容进行概述。

1.1图像预处理

本文的训练和测试网络模型使用的是MNIST数据集,该数据集含有0~9的60 000个训练数据集和0~9的10 000个测试数据集,这些图像数据都保存在二进制文件中,每张图片可以使用一个784维的向量表征。在实验中使用MNIST数据集时,预处理主要是灰度的归一化处理。每张图片都是28像素×28像素的,部分图片展示如图2。

图1 手写数据识别整体流程

图2 MNIST部分图片

一般来说,由于光照和背景等因素,使欲进行识别的原始图像带有噪声,不利于准确识别,所以有必要进行预处理。本文图像预处理主要包括灰度化、去噪、分割几个步骤。然后将进行过预处理的图像数据输入深度信念网络进行识别,并得到识别结果。

1.2深度信念网络模型

深度信念网络的形成是其中极其重要的一环。深度信念网络是由限制性玻尔兹曼机(RBM)叠加而成的。首先,从第一个RBM开始,对其进行无监督训练,确定其权重及偏置;其次,把第一个RBM的输出向量作为第二个RBM的输入,然后训练第二个RBM网络,反复训练多次;第三,通过前向传播,在最顶层加上标签层,整个网络相当于进行了一次完整的无监督学习;最后,使用反向传播(BP),将误差自顶向下传播至每一层RBM,通过梯度下降法修改层间参数,达到微调整个DBN网络的目的。

其中,限制性玻尔兹曼机(RBM)网络结构中有两层,分别是可视层和隐藏层。可视层有m个可视节点,隐藏层有n个隐藏节点,其中每个可视节点只和n个隐藏节点相关,而和同层的其他可视节点之间独立。通过RBM的能量函数,得到隐藏层和可视层的联合概率分布,再通过对比分歧算法,更新权重等参数。

2 DBN的配置与训练

上面章节介绍了手写数字识别的整体流程,并对其中深度信念网络模型的设计进行了概述。DBN的应用重点是训练过程的各种参数选择和训练技巧,详述如下。

2.1激活函数的选择

激活函数的选择很重要,好的激活函数可以避免梯度扩散等问题,主要有如下特性需要考虑:

(1)非线性:当激活函数是非线性函数时,基本上所有的函数都可以被一个两层的神经网络实现。然而,如果激活函数是恒等激活函数等线性函数时,一个深层网络与单层神经网络的作用相差不多,且对于大量非线性函数网络无法表示。

(2)单调性:当激活函数具有单调性时,单层网络能够保证其是凸函数。

(3)可微性:当优化方法是基于梯度下降时,函数必须可微。

(4)f(x)≈x的限制条件:当激活函数满足f(x)≈x时,如果训练参数是随机初始化的很小的值,则训练神经网络的效率很高;然而若不满足该条件,只能谨慎设置参数初始值。

(5)输出值的范围:当激活函数的输出是有限值时,利用梯度下降优化代价函数效果可观;当激活函数的输出没有限制时,训练模型会更快,不过此时的学习速率会比较慢。

2.2学习率

当学习率设置较大时,将导致重构的误差急剧增加,权重值也会很大。设置学习率的方法是先进行权重更新和权重直方图,以令权重更新量为权重的0.001左右。若有一个单元的输入值很大,则令权重更新值再小一些。

2.3动量因子

学习率较大,收敛速度加快,但易造成算法的不稳定;学习率较小,可以减轻算法不稳定性,收敛速度降低。为解决该问题,引入动量因子参数,作用是本次参数值的修改方向不完全由当前样本的梯度方向决定,而是采用上一次参数的方向和本次梯度的方向相结合,可以避免过早收敛到局部最优点[2],动量因子momentum一般设置为0.5。

2.4Dropout参数

训练网络模型时,如果用于训练的样本较少,则形成的网络模型会出现过拟合现象,既而使模型的泛化能力降低。为解决该问题,引入Dropout参数,其作用是使训练中的隐藏层部分节点失去作用,这样就一定程度上解决了过拟合现象。理论上,dropout是一种模型平均,随机性地忽略隐藏层的节点,从而得到不同的模型,通过其最终获得平均概率[3]。然而使用Dropout参数时,网络的训练时间会有所延长。本文设置Dropout的值为0.5。

3 实验设计及结果

本实验是在Windows 7操作系统下的Matlab 2012平台进行的。实验设计主要包括测试深度信念网络模型识别手写体数字的最优层数,以及Dropout训练技巧对识别精度的影响,测试结果陈述如下。

3.1DBN层数变化对识别精度的影响

在设计网络时,暂不使用Dropout技巧,仅设置激活函数为sigmoid函数,动量参数值为0.5,学习率值为1。设置层数分别为3、4、5、6进行测试,网络模型如图3所示。

对以上四种网络模型在相同的软硬件平台上运行,经过相同方法和数据集进行训练、测试。最后得出实验结果见表1所示。

图3 不同层数的DBN网络模型

表1 实验对比结果

由实验结果得知,数字识别准确率起初随着深度的增加而增加,当深度为5,即隐藏层数为3时精确度最高,达到93.4%,高于此时的6层网络。因此可知,深度学习算法在手写数字时,并非层数越多,识别效果越好,其主要原因是当层数较高时,产生过拟合现象[4],导致泛化能力降低。

3.2Dropout训练对识别精度的影响

在网络初始化时,在Dropout参数值为0.5,设置激活函数为sigmoid函数,层数为5层,动量参数值为0.5,学习率值为1的情况下,如果使用2 000个图片训练,1 000个图片测试,使用Dropout的错误率为11%;不使用Dropout的错误率为13%。在同样条件下,增加为60 000个图片训练、10 000个图片测试,使用Dropout的错误率为7%;使用Dropout的错误率也为7%。实验结果说明,当训练样本较少时,使用Dropout参数可以一定程度上避免过拟合[5];然而当训练样本较多时,Dropout 效果不明显,且训练时间增长。

4 结束语

在基于深度信念网络的手写数字识别研究中,本文为提高识别准确率,测试了不同网络层数对准确率的影响,确定最佳层数为5层,此时的最佳识别精度为93.4%,高于同等实验条件下基于SVM设计的手写数字识别系统的91%的准确率。以上结果表明本文方法的有效性。

此外,测试了Dropout参数对准确率的影响。结果表明,当训练样本较少时,设置Dropout参数值为0.5,可以避免过拟合现象的发生,提高泛化能力,有效作为小样本时训练DBN网络的一个小技巧。

[1]吴忠, 朱国龙, 黄葛峰, 等. 基于图像识别技术的手写数字识别方法[J]. 计算机技术与发展, 2011, 21(12): 48-51, doi: 10.3969/ j.issn.1673-629X.2011.12.013.

[2]马玉梅, 武玉厚. 动量因子对BP算法的影响[J]. 中央民族大学学报:自然科学版, 2008, 17(4): 35-40, doi: 10.3969/j.issn.1005-8036.2008.04.006.

[3]DINARELLI M, TELLIER I. Improving Recurrent Neural Networks for Sequence Labelling [J]. 2016, arXiv: 1606.02555.

[4]张卫东. 深度信念网络及其在手写字体识别中的应用[D]. 成都: 成都理工大学, 2015.

[5]ZHAO F, HUANG Y, WANG L, et al. Learning Relevance Restricted Boltzmann Machine for Unstructured Group Activity and Event Understanding [J]. International Journal of Computer Vision, 2016: 1-17, doi: 10.1007/s11263-016-0896-3.

Recognition of Digital Handwriting based on Deep Belief Network

YUAN Qiang, LI Na-xin
(1. Information Institute, Qingdao University of Science and Technology, Qingdao, Shandong, 266061, China; 2. Communication Department of Xinjiang Korla Tarim Oil Field, Korla, Xinjiang, 841000, China)

By means of combining features of image low level, deep belief network (DBN) can form the feature of higher level, which has a good learning ability. Also, carrying out unsupervised learning can reduce the amount of manual labor. The use of deep belief networks to recognize handwritten numerals is mainly studied. When designing the network model, the optimal number of layer is 5. By using 60 000 images in the MNIST database to train the deep belief network, and then using the rest MNIST 10 000 pictures testing network, its recognition accuracy can reach 93.42%, which is higher than that of the SVM. Moreover, by using the Dropout training techniques in DBN, the network using a small amount of sample training has higher recognition accuracy than that of the network of Dropout absence.

Identification for Digital Handwriting; Deep Belief Network; Dropout Training

TP391.43

A

2095-8412 (2016) 05-921-04工业技术创新 URL: http://www.china-iti.com

10.14103/j.issn.2095-8412.2016.05.025

苑强(1982-),男,青岛科技大学信息学院研究生,研究方向:数据处理与模式识别。

E-mail: yuanqiang2@swhysc.com

李纳新(1968-),女,新疆库尔勒塔里木油田通信事务部工程师,研究方向:信息通信与处理。

E-mail: linx8998@sohu.com

猜你喜欢
层数手写信念
填筑层数对土石坝应力变形的影响研究
浅探铺设土工格栅技术在软土路基加固处理中的运用
我手写我心
为了信念
抓住身边事吾手写吾心
发光的信念
MoS2薄膜电子性质随层数变化的理论研究
基于集成学习的MINIST手写数字识别
信念
深度学习在手写汉字识别中的应用综述