胡 月,沈永良
(黑龙江大学 电子工程学院,哈尔滨 150080)
深度学习模型与成对分类相结合的人脸识别新算法
胡月,沈永良*
(黑龙江大学 电子工程学院,哈尔滨 150080)
针对深度学习人脸识别系统样本数据中存在干扰时会腐化分类边界,导致识别率下降,提出了一种改进的深度学习模型,将成对分类概念引入到深度学习中,提升人脸识别系统对于噪声、腐化、变化的鲁棒性。采用深度信念网络模型,将人脸图像送入深度学习模型中逐层训练网络,在参数微调阶段采用改进的成对BP神经网络进行参数优化,在输出层与前一隐含层之间采用成对连接。在ORL、Extended Yale-B的实验结果表明,所提算法与传统的深度学习算法相比,构造的系统更稳定,算法识别率更高,系统在存在干扰的人脸图像中鲁棒性更强。
人脸识别;深度学习;深度信念网络;成对BP神经网络
近年来,随着大数据的兴起,基于深度学习的人脸识别系统由于其强大的训练能力得到了广大学者的青睐,并且取得了优异的效果。2006年Hinton首次提出深度学习[1-2](Deep learning)的概念,深度信念网络作为一种深度学习的方法,可从低层到高层逐层学习不同层次的抽象特征,最终获得特征的结构性描述,该过程中提取的特征是通过自动学习得到的,不依赖于人工选择[3]。但在大样本人脸库中,每一类含有大量图片或者含有大量的类,当人脸图像含有噪声、腐化和变化等干扰时,类与类之间的边界变得更为复杂,使识别变得更加困难[4-6]。对于深度学习,传统的改进方法不外乎增加隐含层层数或增加隐含层神经元个数来提升人脸识别的准确率。但增加模型的复杂度,使训练时间过长;并且增加系统的隐含层层数和神经元个数,需要增加人脸样本来避免过拟合现象的发生。如此就会造成一个死循环[7]。
为了克服这一问题,文献[8]提出成对分类系统。成对分类系统是将多元分类问题转换成二元分类问题,其分类边界比多元系统简单。除此之外,成对分类器的训练样本精度要低于多元系统,使训练任务变得更简单[9]。成对分类器的输出,可作为类成员的概率,组成最终类的后验概率。该方法是利用每一次输入来近似所需的后验概率,尽管这个近似需要额外的计算。另一种方法是将成对分类器的结果作为类成员值(而不是类成员概率),然后使用“赢者通吃”的方式直接作出最后的决定。这种决策方法对于竞争层神经网络模型有很好的效果[10]。
然而,上述成对分类方法的效果尚未在深度学习模型中充分应用。因此本文研究成对分类系统对于提升深度学习人脸识别系统鲁棒性的能力。在实践中对于研究人脸识别系统性能的提升非常重要,这是本论文的创新点。试验中,改进的人脸识别系统的识别精度要优于对比试验中的人脸识别算法。
图1 分离函数,将以下每两类分隔开:C1与C2,C1与C3,C2与C3Fig.1 Splitting functions,and dividing the following pairs of classes: C1 versus C2, C1 versus C3 and C2 versus C3
成对分类的思想是使用两类神经网络模型对样本中所有类进行分类。因此,对于有n类的分类系统,应该包括n(n-1)/2个成对分类器来解决n类分类问题。比如n=3,图1表示了类C1,C2和C3,可设置3×(3-1)/2个二元分类器。线fi/j是分离函数,用来从类j中分离类i。
这里假定fi/j对属于类i的输出为正值,对类j为负值。将分离函数f1/2,f1/3和f2/3结合起来,构造新的分离函数g1,g2和g3。
(1)
图2 n=3类的成对神经网络系统Fig.2 Example of pairwise neural-network system for n=3classes
这里函数g1使用1.0的权重,因为f1/2和f1/3为类C1的数据提供了正的输出值。同理,分离函数g2和g3公式如下:
(2)
(3)
在实践中,将每一分离函数g1,g2,…,gC用隐含层全连接到输入节点的2层BP神经网络实现。n=3类的成对神经网络系统见图2,成对分类系统包含3层神经网络,先训练得到近似分离函数f1/2,f1/3和f2/3。3个输出神经元g1,g2和g3与隐含层神经元全连接,权重分别为(+1,+1),(-1,+1)和(-1,-1)。
一般来说,成对神经网络分类系统由n(n-1)/2个隐含层神经元f1/2,…,fi/j,…,f(n-1)/n组成,n个输出神经元g1,g2,…,gn,其中i 深度信念网络(DBNs)是深度学习中最为广泛应用的一个模型,它由多个受限玻尔兹曼机(RBM)组成的深层网络,在这个网络中,每一层都是单独训练。RBM是一个两层无向图模型,其同一层结点之间无连接[11-13]。 RBM是一个基于能量的网络,对于一个RBM模型来说,给定可视层,那么隐含层可服从任意分布,反之亦然;一般都假定可视层和隐含层是只能取0或1的二值变量。 假设一个RBM模型,其可视层和隐含层的结点数分别是n和m,可视层结点用向量v表示,隐含层结点用向量h表示,即v={v1,v2,…,vn},h=(h1,h2,…,hm),并且用vi表示可视层中第i个结点状态,用hj表示隐含层中第j个结点状态。则这个RBM系统的能量是: (4) 式中θ={Wij,ai,bj};Wij表示RBM网络中上一层结点i和本层结点j的连接权重;ai表示可视层结点i的偏置;bj表示隐含层结点j的偏置。训练网络的目的就是学习到参数θ,参数的确定就代表网络已经成型。由RBM的能量函数可求出系统的联合分布: (5) (6) 其中Z(θ)是归一化因子。进而求出联合分布的边缘分布: (7) 该函数就是可视层v在RBM模型中的概率函数。经过多次迭代可求出网络中各层的参数Wij,ai,bj,而RBM是同层结点无连接的网络,也即:如果可视层状态给定,可求出每个条件独立的隐含层结点,反之隐含层状态给定,也可求出每个可视层结点。因此在给定可视层状态下,隐含层的激活条件为: (8) 其中σ(x)是激活函数,x<0时σ(x)值为0,x>0时σ(x)值为1,表示为: (9) RBM是一种对称结构,因此在隐含层状态给定情况下,可视层条件独立,激活条件为: (10) DBNs的训练过程分两步:①在非监督数据上建立多层神经网络,并且逐层训练,每层这个过程和RBM的训练完全一样,参数也是独立调整,上层的训练结果作为下层RBM的输入,直到每一层都训练完成,这个过程称为预训练;②有监督的参数调优过程,这时DBNs网络就是一个普通的多层BP网络,只是各层的参数是上一步训练好的,只需要少量的迭代,就可获得很好的效果。 本文在使用BP网络进行参数微调阶段,引入了成对分类模型,使人脸图像在存在噪声、腐化、变化的情况下可更好地分离类边界,提高识别系统的鲁棒性,达到提高人脸识别准确率的目的。 将深度学习与成对分类相结合,将人脸图像作为DBN可见层输入,逐层训练网络参数,得到初步的网络后,再成对使用BP算法进行全局的微调,优化模型参数,并成对进行分类。可以降低深度学习系统模型的复杂度,对系统的鲁棒性、过拟合问题有一定的效果。 实验的DBNs模型,采用双层DBNs结构,其系统最终模型结构为m-100-100-n×(n-1)/2-n,其中m为输入图像的维度,n为输出层结点数即分类数,n×(n-1)/2为成对分离层结点个数。在DBNs与训练阶段,每一层RBN的训练迭代次数都设置为100,两层学习率均设为0.2。在RBM进行训练时使用对比散度算法,它一般只需一次布吉斯采样就可以获得对模型的估计。两层RBM训练完成后,将学习到的权重传入到系统模型中,利用反向传播算法(BP)进行参数微调,对于微调阶段的系统模型,设置它的迭代次数为100,学习率为0.01[11],使用的激活函数为“tansig”函数。算法模型见图3。 图3 算法实验模型 Fig.3 Experimental model of algorithm 本文算法的检验均在ORL和Extended Yale-B人脸数据库上进行。ORL, Extended Yale-B的图像像素大小分别为112×92, 32×32。这些人脸图像集的人数和每人的样本数分别为40和10,38和60。在很多情况下,数据的主要信息都集中在主成分上,因此PCA算法不仅能降低特征向量维度,还能消除信息的冗余,因此本实验采用PCA算法将人脸图像进行降维,不仅对人脸图像归一化维度为100,有效降低计算的复杂度,且仍能保证较高的识别率。采用5折交叉验证法进行系统的训练、微调和测试,样本分配比例为6∶2∶2。 在进行对照试验时,使用BP神经网络。为验证本文算法的有效性,实验1设计了4组对比试验。其具体步骤如下: 第一组实验将人脸特征向量送入隐含层神经元数为50的BP网络进行训练,并设置它的迭代次数为100,学习率为0.01;将测试样本送入训练好的模型中,统计识别结果。 第二组实验将人脸特征向量送入和第一组设置相同的BP神经网络中训练,并使用成对分类法进行识别,将测试样本送入训练好的模型中,统计识别结果。 第三组实验将人脸特征向量作为DBNs的可视层输入,对深度信念网络进行逐层训练,学习到模型参数,将测试样本送入训练好的模型中,统计识别结果。 第四组实验也是将人脸特征向量送入DBNs模型进行训练,在参数微调阶段使用成对BP神经网络法进行参数微调与分类,统计识别结果。 实验2将人脸图像进行一定的变化,并分别送入传统的深度学习识别算法和本文提出的改进人脸识别算法进行训练,比较识别率。 实验1不同的人脸识别方法得到的正确识别率见表1。 表1 人脸识别在不同算法上的识别率 其中PW为本文提出的成对(Pairwise)分类方法,由于系统验证是使用5折交叉验证法,识别的结果用(均值±标准差)的形式表示。由表1可见,深度学习算法在大样本图像集(Extended Yale-B)中的识别率要略高于小样本图像集(ORL);深度学习算法的识别率无论是对于大样本图像集还是小样本图像集都高于只含一层隐含层的神经网络模型;本文提出的改进算法在BP神经网络模型上识别率有明显提高,在DBNs深度学习模型中也略有提升,本文提出的算法的识别率标准差明显降低,这说明训练出的模型趋于全局最优,并且更加稳定。 实验2人脸图像中存在的干扰会严重腐化类边界,识别困难。笔者在图像数据中引入3种干扰变量来检测人脸识别系统的鲁棒性。实验中分别采用噪声密度为0.005的椒盐噪声、3×3模板均值滤波、位移6像素角度10度的运动模糊,其中均值滤波干扰带来的效果是降低图像的分辨率,图像效果见图4。 图4 存在干扰的人脸图像Fig.4 Face images with interference 实验2将人脸图像分别送入传统的DBNs模型和本文提出改进的DBNs模型中进行学习,最终的识别结果见表2、表3。 表2 ORL干扰图像识别率 表3 Yale-B干扰图像识别率 本实验对原始人脸图像加入了不同类型的干扰,通过实验发现,改进的DBNs算法识别率的均值要略高于传统的DBNs算法,标准差要明显低于传统算法,说明本文提出的改进算法对于人脸识别的效果较传统的DBNs算法更好,鲁棒性更强,识别率更高,系统更稳定。 本文提出了一种改进的深度信念网络进行人脸识别的方法,在DBNs的参数微调阶段,将成对分类系统引入BP神经网络进行参数微调,通过算法验证:无论是在小样本的ORL人脸库还是大样本的Extended Yale-B人脸库中,改进算法都有更好的识别率,并且通过此算法得到的模型参数更稳定,系统在图像存在各类干扰时的鲁棒性更强。 [1]Ngiam J, Coates A, Lahiri A, et al. On optimization methods for deep learning[C]//Proceedings of the 28thInternational Conference on Machine Learning (ICML-11), 2011:265-272. [2]Lee H,Pham P T, Largman Y, et al. Unsupervised feature learning for audio classification using convolutional deep belief networks[C]// NIPS, 2009:1096-1104. [3]张雯,王文伟.基于局部二值模式和深度学习的人脸识别[J].计算机应用,2015,5(5): 1474-1478. [4]Kung S Y, Mak M W,Lin S H.Biometric Authentication: A Machine Learning Approach[M].Beijing: Pearson Education, 2005:45-72. [5]Liu C,Wechsler H.Robust coding schemes for indexing and retrieval from large face databases[J].IEEE Transactions on Image Processing, 2000,9(1):132-137. [6]Tolba A S, El-Baz A H, El-Harby A A.Face recognition: a literature review[J].International Journal of Signal Processing, 2005,2(2):88-103. [7]Taigmany Y,Yang M,Ranzato M A, et al. Deepface: closing the gap to human-level performance in face verification [C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014:1701-1708. [8]Hastie T,Tibshirani R. Classification by pairwise coupling[J].Conference on Advances in Neural Information Processing Systems,1998(10):507-513. [9]Uglov J, Jakaite L, Schetinin V,et al. Comparing robustness of pairwise and multiclass neural-network systems for face recognition[J]. Hindawi Publishing Corporation EURASIP Journal on Advances in Signal Processing,2008(7):1-7. [10] Schetinin V, Schult J, Scheidt B,et al. Learning multiclass neural-network models from electroencephalograms[J]. Knowledge-Based Intelligent Information and Engineering Systems, 2003,2773: 155-162. [11] 李卫.深度学习在图像识别中的研究及应用[D].武汉:武汉理工大学,2014:4-20. [12] 孙志军,薛磊,许阳明,等.深度学习研究综述[J]. 计算机应用研究,2012(8):2804-2811. [13] 马超,徐谨辉,侯庆诚,等.UGES反向传导算法:一种新的小样本深度机器学习模型[J].黑龙江大学自然科学学报,2015,32(16):831-840. Modified deep learning algorithm to promote the recognition rate and robustness of face recognition system HU Yue,SHEN Yong-Liang* (SchoolofElectronicEngineering,HeilongjiangUniversity,Harbin150080,China) An improved model based on deep learning is proposed aiming at corrupting classification boundary and reducing the recognition rate because of interference in the sample data of deep learning face recognition system. The concept of pairwise classification is introduced into the deep learning, to improve the robustness of noise corruptions and variation in face recognition system. The model of deep belief networks is used and face images are sent into deep learning model and trained layer-by-layer. In the parameters fine-tuning phase, pairwise BP neural networks which is connected by pairs between the output layer and front hidden layer is used to optimize parameters. The experiments are applied on ORL, Extended Yale-B datasets show that the proposed algorithm is more stable in terms of structure of the system, has higher recognition rate, and has stronger robustness in the face images with interference, face recognition; deep learning; deep belief networks; pairwise BP neural networks 10.13524/j.2095-008x.2016.03.044 2016-06-24; 2016-07-01 国家自然科学基金青年科学基金资助项目(61503127) 胡月(1991-),女,黑龙江齐齐哈尔人,硕士研究生,研究方向:智能检测与图像处理,E-mail:huyue18945098651@163.com;*通讯作者:沈永良(1964-),男,黑龙江双鸭山人,教授,研究方向: 智能检测与自动化仪器,E-mail:shen-yl@163.com。 TP391.41 A 2095-008X(2016)03-0068-062 深度信念网络模型
3 改进的深度信念网络模型
4 实验结果与分析
5 结 论