梁淑芬,刘银华,李立琛
(五邑大学 信息工程学院,广东 江门 529000)
人脸识别作为非入侵式的生物特征识别方法,在国防安全、视频监控、人机交互等方面具有广泛的应用。传统人脸识别算法在受某种或某几种特定因素影响的限制条件下能够获得较好的效果,但在非限制条件下识别性能急剧下降。目前,非限制条件下人脸识别研究可分为2类:基于3-D模型[1,2]和 2-D模型[3~7]的人脸识别方法。其中,后者是研究的热点。基于3-D模型的人脸识别方法,对克服环境因素中姿态和光照影响非常有效。但3-D模型法计算复杂,拟合时间较长,不易达到实时性要求。2-D模型法主要将人脸图像中具有判别性的相对不变特征表达出来。Wolf 等[3]对 LBP(local binary pattern )描述子进行优化,并将其与 Gabor小波结合,试图获得非限制条件下人脸图像特征的最佳表示,但该算法特征提取过程有过多主动因素介入。Marsico 等[4]提出 FACE (face analysis for commer-cial entities)算法进行非限制条件下人脸识别,该算法主要通过对非限制条件下的姿态和光照进行归一化,从而得到非限制条件下的准确识别。在LFW(labeled faces in the wild)库上识别率达到61%,但其识别性能过度依赖于对眼角、嘴巴、鼻尖等 13个标注点的准确定位。现存算法所提取的人脸图像特征判别性不强,且特征的表达方式过度依赖于人工选择,但实际应用中研究者往往不知道如何准确选择和表达。
最近,深度学习越来越受学者关注。深度学习模拟大脑组的深度组织结构,通过组合低层特征形成更抽象、更有效的高层表示[8]。其中,深度信念网络(DBN,deep belief network)[9]是一种典型的深度学习方法,由Hinton在2006年首次提出,可称为第三代神经网络[10]。它通过自下而上自动学习不同层次的抽象特征,最终获得特征的非线性描述,表达了一种不依赖于人工选择的特征自动提取过程。DBN已成功应用于手写数字识别[9]、动态人体检测[11]等诸多领域。但是,DBN忽略了图像局部结构,难以学习到人脸图像的局部特征[12];同时,以像素级的人脸特征作为DBN的输入,网络会因光照等因素影响而学习到不利的特征表达。LBP算子[13]是由Ojala等提出的一种有效纹理描述子,能够刻画出人脸图像的亮点、暗点、边缘等局部微模式及其分布情况,且计算简单、运算速度快,具有光照和旋转不变性。LBP算子在动态纹理识别[14]、表情分析[14]、人脸识别[15]等方面得到广泛应用。以LBP纹理特征作为DBN的输入,可有效避免深度学习中遇到的难题。二者相结合,能为人脸识别提供更科学的理论基础,而将其用于非限制条件人脸识别目前国内外报道不多。
本文通过 LBP提取非限制条件下人脸图像的纹理特征并利用 DBN进一步自动学习更抽象、更有效的人脸特征,并在DBN顶层自动进行人脸分类。LBP所提取的人脸图像的局部纹理特征对光照和微小平移具有较强的顽健性,将其作为DBN输入特征更有助于网络对图像特征分布的理解,进一步减少网络学习到不利的特征描述;同时,通过DBN对输入数据进行深度学习和自动特征提取,并在网络最顶层实现特征识别,有效避免了过多主动因素的干预。在LFW 人脸库上实验表明,与传统算法 PCA、SVM、LBP等相比,本文算法所提取的具有结构性和层次性的特征判别性更强,能够更有效地表征非限制条件下人脸图像的特征信息,并对其进行更准确的预测。同时,在Yale库和Yale-B库上也获得较高识别率,表明基于LBP纹理特征的DBN能够提取限制条件下人脸图像中更加有效的特征。
一幅二维人脸图像 fM×N(x,y)的纹理特征可以通过图像中的每一个像素点与其邻域像素比较而得到,编码方法为
由于LBP纹理特征具有灰度平移不变性、旋转不变性、计算简单等优点,它已经成功应用于纹理分类、人脸识别、图像分析、背景建模等领域,并呈现出优越的性能。
DBN是Hinton在2006年提出的一种概率生成模型,如图1所示,其基本模型是受限玻尔兹曼机(RBM,restricted boltzman machines)。对于一个具有l层隐藏单元的DBN来说,其可视单元与隐藏单元之间的联合分布可表示为
其中,v=h(0),v为DBN可视单元,h(k)(k=1,2,…,l)为第k层隐藏单元,而第k层和第k+1层的隐藏单元满足
图1 DBN结构模型
DBN是一种典型的深度学习网络,它的原型类似于人的大脑组织结构,能够由简单到复杂、由低级到高级地提取输入数据的特征,在顶层单元应用SoftMax回归对特征分类,从而得到输入数据的类标值,最终得到输入数据与类标值的非线性映射。借助 DBN这种算法,计算机可以不依赖人工选择自动学习输入数据的抽象特征。在信息爆炸的时代,这无疑在数据处理领域能够节约大量的人力,并能自动挖掘出隐藏在已知数据中的丰富信息。
以像素级人脸特征作为DBN的输入,它能学习到人脸图像中隐含的抽象特征,但由于输入特征是向量形式,无法学习到人脸图像的局部结构性特征。将LBP和DBN相结合可以使深度网络有效捕获人脸图像的局部信息,此时的深度网络联合分布为
其中,H为LBP纹理特征, h(1),h(2)…h(l)是深度网络对输入特征H学习到的不同层次的高级特征,因而其优劣性关系到深度网络学习的有效性。若H为传统LBP纹理特征,即其维度为2P,而LBP对应的二进制数大多数最多包含2次“0→1”或“0←1”跳变,而大于2次跳变的二进制数很少,此时H较为稀疏,且维度很高,使深度网络在学习过程中计算量很大,实时性降低。若H为均匀 LBP纹理特征,其特征维度仅有 P(P-1)+ 3,可起到降维的作用,并且还能减少高频噪声带来的不利影响。
当人脸图像受均匀光照和微小旋转影响时,由于 LBP纹理特征H对其具有极强的顽健性,因而由 DBN学习到的抽象特征仍然具有不变性。深度网络能够通过对H中的暗点、亮点、边缘等微模式以及它们分布情况的学习,得到更具有结构性和层次性的抽象特征。将LBP纹理特征作为DBN的输入,可以强化深度网络的学习能力。
DBN对输入LBP纹理特征学习的准确度取决于网络训练的优劣,若 DBN参数没有达到全局最优,该网络用于人脸图像分类无法达到浅层网络的分类性能[16]。训练 DBN过程如下:1)对第一层RBM,以LBP纹理特征为输入,对RBM进行无监督训练,获得该层最优的参数;2)高层RBM以低一层RBM输出数据为输入,对RBM进行无监督训练,获得RBM网络最优的参数值;3)最后利用全局训练的方法对训练好的各层参数微调,使得DBN收敛到全局最优。该训练方法绕过了全局训练的复杂性,通过快速散度(CD,contrastive dibergence)[17]训练 RBM 获得 DBN各层的最优参数,降低了学习目标过拟合的风险,使得网络具有更好的数据预测能力。
本文通过LBP和DBN研究非限制条件下人脸识别,如图2所示。本文算法具体步骤如下。
1)用双线性内插法将测试样本和训练样本降维至32×32,并进行直方图均衡化等归一化预处理。
2)对训练样本和测试样本进行分块并提取每个子块的 LBP纹理特征,将每个子块的特征连接起来形成样本的LBP纹理特征。本文LBP纹理特征提取时样本分块为4×5,半径R为1,像素数P为8。此时所提取的LBP纹理特征和像素级特征维数相当。
3)将训练样本的LBP纹理特征作为DBN可视层输入,对深度网络进行逐层训练,以获取最优网络参数。文中DBN层数选为2层:第1层学习率为0.002,迭代次数为40;第2层为0.003,迭代次数为40。
4)当深度网络训练完后,将测试样本的 LBP纹理特征作为DBN可视层输入,利用优化后的网络由下向上多层次地学习和提取测试样本的抽象特征,在网络最顶层进行SoftMax回归分类,获得测试样本的类标值,并计算正确识别率。
图2 人脸识别
为了验证本文算法在非限制条件下的有效性,选用 LFW 人脸库进行人脸识别实验,同时,为进一步评估算法的性能,在限制条件下的人脸库Yale和Yale-B上进行仿真实验。实验前,所有的人脸图像经过眼睛定位、校准、剪切,最后归一化到32×32。实验硬件配置为:2.20 GHz的 Intel(R)Core(TM)2 Duo CPU,2.00 GB内存。
LFW中的人脸图像是用标准人脸检测器Viola-Jones从Internet上收集到的,包含5749人共13233幅图像。其中,1680人的图像数目大于或等于两幅,另外 4069人只有一幅图像。图像分辨率为250×250,人脸图像以彩色为主,包含少量灰度图像。LFW主要用于非限制条件下的人脸识别,该库能充分表现真实条件下人脸图像的变化,如姿态、光照、遮挡、表情、背景、种族、性别等的变化。本文选取图像数目大于或等于 20幅的人作为实验对象,其中,包括62个人共3023幅图像。每人随机选取5幅图像作为训练样本,剩下为测试样本。
1)隐藏单元数不同时算法性能
DBN对输入数据分类的准确性取决于对其自下向上、多层次学习的有效性。Hinton[9]指出,为保证贪婪学习算法提高网络的性能,DBN各层隐藏单元的个数应保持一致,本文实验中,各层隐藏单元数相同。非限制条件下人脸图像特征复杂,且含有较多噪声,为提取人脸图像的有效特征,首先讨论不同隐藏单元数情况下本文算法性能。实验结果如表1所示。其中,训练时间是无监督预训和有监督训练的时间之和,分类时间指测试样本分类时间,总时间指训练时间和测试时间之和。值得注意的是,在进行传统LBP纹理特征作为DBN输入的实验中,当隐层单元数达到4000时,由于特征维数巨大,其对内存要求超出了本文的硬件能力范围,因而主要考虑隐藏单元数在1000到3000的情况。
从表1可知,随着隐藏单元数的增加,深度网络能够更好地表达人脸图像特征,但是网络的训练时间和分类时间也随之增加,计算量逐渐增大,因而对硬件要求也随之提高。同时,由表1可知,当隐藏单元数相同时,基于均匀LBP纹理特征的深度学习方法识别率均高于基于像素级特征和传统LBP纹理特征的深度学习方法,基于传统LBP纹理特征的深度网络分类能力同基于像素级的深度网络相当。均匀LBP在降低特征维数的同时,还能减少高频噪声带来的不利影响,对光照和微小旋转具有极强的顽健性,它没有因为特征的不完整性导致深度网络学习能力下降,性能反而得到一定的提升。因此,均匀LBP纹理特征相对于传统LBP纹理特征和像素级图像,当作为DBN输入时在降低维度情况下能更好地代表人脸图像信息,更有利于深度网络学习。
表1 不同隐藏单元数的正确识别率及时间消耗
2)样本数不同时算法性能
在人脸识别中,训练样本主要为整个识别过程提供原型,训练样本数越多则能够提取的差异性特征越多,对测试阶段的预测越有利。表2为深度网络隐藏单元为5000,不同训练样本数时,本文算法与传统算法的比较结果。从表2可知,传统算法PCA、SVM、LBP在样本比较少时,提取的类别特征代表性并不强。当训练样本数增加时,提取类别特征较为丰富,算法识别率剧增,可见传统算法在非限制条件下顽健性较差。深度学习经过非监督预训练,为网络参数提供良好的优化起点后只需要少量有标注训练样本进行监督训练,就能获得较好的识别效果。训练样本数的增加对 DBN和LBP+DBN影响不是很大,表明深度学习算法在非限制条件下稳定性更好,对各种因素的综合影响具有更强的顽健性,同时,由表 2进一步说明基于LBP纹理特征的深度学习算法较基于像素级深度学习算法的识别率更好。
表2 不同训练样本数的正确识别率
3)LFW库不同类别时算法性能
为探讨本文算法在非限制条件人脸识别的有效性和普适性,以文献[4]为参考基准,另外选取LFW 库中人脸图像数目大于或等于 8幅的最前面50个人共417幅人脸图像作为实验对象,每人随机选取5幅图像作为训练样本,其余为测试样本。深度网络隐藏单元数与表2相同,实验结果如表3所示。由表3可知,不同算法分类时,本文算法识别率最高,达到85.16%,说明本文算法具有较好的识别能力。文献[4]在LFW取得61%的识别率,但其算法的识别效果依赖于特征提取过程中人脸特征点的准确定位,且当样本数目庞大时,人工介入非常繁琐。比较表2和表3可知,当测试样本复杂多变时,PCA、SVM、LBP识别率波动较大,而本文算法能够保持较稳定的识别率,从而更进一步表明本文算法在非限制条件下顽健性更强。
表3 不同类别时不同算法的正确识别率
通过在LFW人脸库上实验结果可知,基于LBP纹理特征的 DBN分类精度高于输入特征为像素级的情况。将LBP纹理特征作为网络的输入,有助于网络减少对冗余信息的联想记忆,学习到人脸图像中局部性的特征,从而实现对非限制条件下人脸图像的准确识别。
Yale人脸库有15个人,每人11幅图像,共165幅图像,图像灰度级为256,分辨率为243×320。每个人有6种不同的表情,3种不同的光照,并且图像有戴眼镜和不戴眼镜的区别。在实验中,每人随机选取5幅图像作为训练样本,剩下的作为测试样本。表4为深度网络隐藏单元数不同时的正确识别结果,从表4可知,当隐藏单元较少时,同样深度网络不能准确学习到限制条件下人脸图像的类别信息,随着隐藏单元数的增加,网络学习到的特征越来越充分,隐藏单元数为5000时,网络学习到的人脸图像特征判别性较强。从表5可知,本文算法在Yale人脸库上识别率最高达到98.89%,较PCA、SVM、LBP、DBN分别提高了18.89%、4.45%、5.89%、2.22%,说明算法在限制条件下具有较好的识别能力。
表4 Yale库上不同隐藏单元时正确识别率
表5 Yale库上不同算法时正确识别率
Yale-B人脸库有10个人,每人有64幅光照不同的图像,图像分辨率为192×168、灰度级256。在实际应用中,对方位角大于90°,垂直角大于90°的人脸图像研究的价值不高,舍弃这部分图像。剩余的人脸图像分成3部分:子集1受光照影响很小,光源的方位角小于10°,垂直角小于10°,每人7幅人脸图像;子集2与子集1光照条件相近,光源方位角小于20°、垂直角小于20°,每人共12幅人脸图像;子集3与子集1光照条件差异很大,每人共30幅人脸图像。子集1设为训练集,子集2和子集3设为测试集。
上述实验验证了本文算法对非限制条件下和限制条件下综合因素的有效性,但其中什么因素对算法影响较大还需要研究,本节实验首先讨论本文算法受光照影响时性能。表6为深度网络隐藏单元数为1000~5000时Yale-B人脸库上的识别率。由表6可知,本文算法对于光照变化具有较强的顽健性。
表6 Yale-B库上不同隐藏单元时正确识别率
同时,由表7可知,本文算法与PCA、SVM、MSR(muitiscale retinex)、SQI(self-quotient image)、LBP、DBN等算法在光照变化不大的子集2识别率相当,但光照变得复杂时,如在子集3上实验结果可知,本文算法能够保持比较稳定的识别率,而传统算法识别率急剧下降,进一步说明本文算法对光照的顽健性较强。
由以上实验结果可知,基于 LBP纹理特征的深度学习网络能够学习到更加有效的人脸图像的类别特征。由于深度网络模拟了人的大脑组织结构,隐藏单元类似于脑细胞,因此隐藏单元数越多,深度网络提取的特征判别性越强。比较表2和表5可知,本文算法在限制条件下的正确识别能力远远高于非限制条件下,非限制条件的人脸图像比限制条件下的人脸图像需要更多的隐藏单元来模拟其特征分布情况。
表7 Yale-B库上不同算法时正确识别率
本文提出LBP和DBN相结合的非限制条件下人脸识别,在LFW人脸库上的实验结果表明,本文算法能够自下而上自动提取非限制条件下人脸图像的有效特征。将LBP与DBN相结合,克服了DBN不能学习到人脸图像局部结构特征的缺点,使得 DBN学习到的抽象特征受光照、微小平移等的影响较小。本文算法在受姿态、光照、表情、遮挡等综合因素影响的非限制条件下具有较好的识别效果,同时在受多种因素影响的Yale库和光照因素影响的Yale-B库上取得较高的识别率。
文中采用均匀LBP纹理特征作为DBN学习的初始特征,均匀LBP纹理特征只包含了58种常见的纹理模式,而将198不常见的模式只整合为一种模式,这198种模式包含的信息量较少,并没有造成 DBN学习到的特征性能下降,反而有所提升,均匀LBP特征相对传统LBP特征性能更优。
[1]MEDIONI G,CHOI J,KUO C H,et al. Identifying noncooperative subjects at a distance using face images and inferred three dimensional face models[J]. IEEE Trans Syst,Man,Cybern A,Syst,Humans,2009,39(1):12-24.
[2]BLANZ V,VETTER T. Face recognition based on fitting a 3D morphable model[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2003,25(9): 1063-1074.
[3]LIOR W,TAL H,YANIV T. Effective uncon-strained face recognition by combining multiple descriptors and learned background statistics[J].IEEE Pattern Analysis and Machine Intelligence,2011,33(10): 1978-1990.
[4]MARSICO M D E,NAPPI M,RICCO D. Robust face recognition for uncontrolled pose and illumination changes[J]. IEEE Transactions on Systems,Man and Cybernetic,2012,43(1): 149-163.
[5]JAVIER R,RODRIGO V,MAURICIO C. Recognition of faces in unconstrained environments: a comparative study[J]. Journal on Advances in Signal Processing. 2009,12(4): 44-69.
[6]WOLF L,HASSNER T,TAIGMAN Y. Descriptor based methods in the wild[A]. Faces in Real-life Images Workshop in ECCV[C].2008.1-14
[7]ZHAO D,LIN Z,XIAO R,et al. Linear laplacian discrimination for feature extraction[A]. Proc IEEE Conference on Computer Vision and Pattern Recognition[C]. 2009.1-7.
[8]BENGIO Y,DELALLEAU O. On the expressive power of deep architectures[A]. Proc of 14th International Conference on Discovery Science[C]. Berlin: Springer-Verlag,2011.18-36.
[9]HINTON G E,OSINDERO S,THE Y-W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7): 1527-1554.
[10]COTTRELL G W. New life for neural networks[J]. Science,2006,313(5786):454-455.
[11]TALOR G W,HINTON G E,ROWEIS S T. Modeling human motion using binary latent variables[A]. Advances in Neural Information Processing Systems[C]. 2007. 1345-1352
[12]ITAMAR A,DEREKC R,THOMAS P K. Deep machine learning—a new frontier[J]. Artificial Intelligence Research IEEE Computa-tional Intelligence Magazine,2010,5(4): 13-18
[13]OJALA T,PIETIKAINEN M,MAENPAA T. Multiresolution grayscale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7): 971-987.
[14]ZHAO Z,PIETIKAINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Trans PAMI,2007,27(6):915-928.
[15]LEI Z,LIAO S. Face recognition by exploring information jointly in space,scale and orientation [J]. IEEE Trans on Image Processing,2011,20(1):247-256.
[16]BENGIO Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning,2009,2(1): 1-127.
[17]HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation,2002,14(8): 1771-1800.