周慧敏 杨明
摘要:为了解决在深度学习提取人脸图像特征时,易忽略其局部结构特征和缺乏对其旋转不变性学习的问题,提出了一种基于单演局部二值模式(MBP)与深度学习相结合的高效率人脸识别方法。首先,用多尺度单演滤波器对图像进行滤波,得到幅值和方向信息;其次,用LBP算法和象限比特的方法进行编码,分块计算组合其直方图特征;然后,将提取的单演特征作为深度信念网络(DBN)的输入,逐层训练优化网络参数,得到优异的网络模型;最后,将训练好的DBN网络在ORL人脸数据库上进行人脸识别实验,进行识别率计算,其识别率为98.75%。所提出的方法使用无监督的贪婪算法,隐藏层设定为2层,使用反向传播算法优化网络。相较于已知的人脸识别方法,MBP+DBN算法对光照、表情和部分遮挡变化具有较好的鲁棒性,在人脸识别中识别率较高,具有一定的优势,为图像特征提供了一种新的识别方法。
关键词:模式识别;深度信念网络;单演信号分析;单演局部二值模式;特征提取
中图分类号:TP391 文献标志码:A doi: 10.7535/hbgykj.2019yx01005
ZHOU Huimin, YANG Ming.Face recognition based on monogenic binary patterns and deep learning[J].Hebei Journal of Industrial Science and Technology,2019,36(1):25-30.Face recognition based on monogenic binary
patterns and deep learning
ZHOU Huimin, YANG Ming
(School of Science, North University of China, Taiyuan, Shanxi 030051, China)
Abstract:In order to solve the problem of ignoring its local structural features and lacking its rotation invariance learning when extracting face image features from deep learning, an efficient face recognition method based on Monogenic Binary Pattern (MBP) and deep learning is proposed. First, the image is filtered by using log-Gabor filter to obtain amplitude and monogenic direction information. Next, the LBP and the quadrant bit method are used for encoding, and the histogram feature is combined by block calculation. Then, the extracted monogenic features are used as the input of Deep Belief Network (DBN), and the network parameters are trained and optimized layer by layer to obtain excellent network model. Finally, the trained DBN network performs face recognition experiments on the ORL face database, and the recognition rate is 98.75%. The proposed method uses unsupervised greedy algorithm, the hidden layer is set to 2 layers, and the back propagation algorithm is used to optimize the network. Compared with known face recognition methods, MBP+DBN algorithm has better robustness to illumination, expression and partial occlusion changes, and has higher recognition rate in face recognition. It has certain advantages and provides a new recognition method for image features.
Keywords:pattern recognition;deep belief network;monogenic signal analysis;monogenic binary patterns;feature extraction
21世紀以来,人脸识别系统被应用于各个领域,但在实际应用中存在着遮挡、姿态及光照等因素变化的影响[1-2]。为解决此类问题,国内外学者提出了用于人脸特征提取和分类的各种方法,其中具有代表性的方法有:基于Gabor特征的分类(GFC)方法[3-4]、局部二值模式(LBP)方法[5-8]、深度学习方法[9]等。
LBP算子[6]采用直接编码图像的强度来提取图像的局部结构特征,取得了不错的效果。但LBP仅编码像素点之间的信息,忽略了像素点本身的方向(强度)信息。像素点本身携带着编码局部变化所不能替代的方向信息,例如,2个具有相同变化模式的像素点的中心强度可能具有非常大的差别。ZHANG等[10]提取多尺度多方向Gabor幅值特征,并运用LBP算子对幅值进行编码,克服了光照强度等因素对识别结果的影响,但基于Gabor特征人脸识别的方法,时间复杂度和空间复杂度高,匹配速度慢。单演信号表示[11-12]用于人脸识别,先将图像通过log-Gabor滤波器得到单演幅值和单演方向,然后通过LBP算子和象限比特算法分别编码单演幅值和像素点方向信息,得到MBP特征。与基于Gabor滤波方法相比,基于MBP算法的局部特征提取具有更短的时间和更小的空间复杂度[10],与LBP算法相比增加了像素点本身的方向信息,提高了其在人脸识别中的竞争性。但算法中关于特征的提取没有可靠的依据,过分依赖人工选择,识别准确率不能被完全信赖。
第1期周慧敏,等:基于MBP算法和深度学习的人脸识别 河北工业科技第36卷Geffrey Hinton在2006年首次提出了深度信念网络(deep belief network,DBN)的概念,模拟大脑的学习过程,通过多层网络结构学习原始数据特征得到更有代表性的抽象特征,深度学习方法更有利于人脸识别[13]。2014年,Face Book AI团队[14]结合Deep Face算法改进了传统的人脸特征提取方法,运用9层深度神经网络对人脸库进行训练,并利用支持SVM学习网络模型参数,得到9725%人脸识别率,与一般的人脸识别算法相比准确率高,但是该算法需要大量的人脸图片训练模型且耗时长。深度信念网络是深度学习常用的方法之一,DBN网络能够自主学习图像的抽象特征并进行识别。但是,直接将人脸图像的像素输入DBN网络,会受到光照、姿态等因素影响,学习的特征不够准确,尤其是缺乏对图像旋转不变性的学习,并且会忽略图像的局部特征。
MBP算法可以解决深度学习特征提取时忽略局部结构的问题,而深度学习无监督学习的特性又可以弥补MBP算法特征提取容易介入主观因素的缺点,笔者将两者结合应用于人脸识别。MBP算法利用单演信号真正旋转不变这一特性,运用log-Gabor滤波器得到图像幅值和像素点方向信息,编码后得到MBP特征信息;然后将其作为DBN网络的输入数据,学习训练DBN网络,减少了网络对无效特征的学习,明显提高了识别性能。将该算法在ORL数据库进行实验,证明了该算法的有效性。
1基础知识
1.1单演信号表示
Felsberg和Sommer在2001年引入了单演信号,其表示的一个突出特性是特征提取过程(幅值和方向)是真正旋转不变的。目前单演信号分析已被应用于许多领域并取得了很好的效果。
单演信号围绕Riesz变换[12]构建,对于输入图像f(z),z=(x,y)为图像坐标,在二维空间中,Riesz变换表示为fR(z)=fx(z)fy(z)=hx*f(z)hy*f(z),(1)其中Riesz变换核为(hx,hy)=x2π‖z‖3,y2π‖z‖3,(2)因此,图像f(z)的单演信号表示定义为
fM(z)=(flg(z),fx(z),fy(z))=(flg(z),hx*flg(z),hy*flg(z)),flg(z)=f(z)*F-1(G(ω)),(3)
式中: fx(z), fy(z)分别是滤波后图像在x轴和y轴上的Riesz变换;F-1是傅里叶逆变换;G(ω)为log-Gabor滤波器的频域响应,表达式为
G(ω)=exp{-[log(ω/ω0)]2/
(2[log(σ/ω0)]2)},(4)
式中:ω0=(λminμS-1)-1是中心频率; σ=σratioω0是带宽比例因子;λmin是最小波长;μ是波长的倍数; S=1,2,3是尺度空间。因此,单演信号的局部幅值A和局部方向θ可以通过式(5)来计算:
A=f2lg+f2x+f2y,θ=arctan(fy/fx)。(5)
1.2深度学习模型
深度学习[13-15]是一种无监督学习、自主提取特征的过程。基本思想是构建网络学习模型(前一层的输出作为后一层的输入,逐层训练;利用全局优化算法调整网络参数),尽可能减小初始输入特征与最后输出特征的误差。常用方法有:自动编码器、稀疏自动编码器、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、卷积神经网络(CNN)[15]等。正因为深度信念网络结合了无监督和监督学习的优点,笔者选用了深度信念网络作为学习模型。
DBN是多个受限玻尔兹曼机(RBM)组成的概率模型。RBM模型是一个2层(输入层v和隐藏层h)的无向概率图模型。对于任意的i, j,有vi∈{0,1},hj∈{0,1},则v, h的联合分布为p(v,h)=1Ze-h′Wv-b′v-c′h,(6)式中:Z是归一化常量; b,c是偏置项;W是2层之间的权值矩陣。
RBM模型是一个二分图,可视层节点与隐藏层节点可以清楚地相互区分,在给定任一层节点状态时,另一层节点状态的条件分布是独立的,即式(7)和式(8)成立。p(v|h)=∏j(hj|v,W),(7)
p(v|h)=∏i(vi|h,W)。(8)典型的DBN模型如图1所示,其训练过程分为预训练和微调2个阶段[6]。预训练阶段,每一层的输入数据都来自于前一层的输出,采用无监督的贪婪算法进行逐层优化,逐次递进训练相邻两层RBM模型的参数来构建DBN网络;之后用有监督的学习对整个网络进行微调以得到最优的DBN网络。
2基于MBP和深度学习的人脸识别
人脸图像的纹理特征具有一定的稳定性,在受到光照、姿态、表情和遮挡等因素的影响时不会发生太大的变化[6]。单演信号表示能得到图像幅值和像素点方向信息,过程所需时间较少、空间复杂度较低,运用单演局部二值模式(MBP)能够简单有效地提取图像的结构特征。深度学习过程中可以将人脸图像像素直接作为深度信念网络的输入数据,但数据的输入是以向量形式,无法学习到人脸的局部结构特征。因此本文将MBP算法和深度学习结合应用于人脸识别,该算法共分为MBP特征提取和DBN网络构建与识别2部分。
2.1MBP特征提取
特征提取是人脸识别的关键。MBP特征提取分2步进行:先分别对单演信号局部变化和局部强度(像素点方向)进行二值编码,然后将两者组合。
单演信号表征的局部幅值A是像素点zc局部变化信息的度量,采用LBP算子[4](LBP8-3)对其进行编码,得到的8位二进制数作为MBP特征的低8位。A(i)是第i个邻域的幅度值,则第i个邻域的幅值二值编码,被定义为 CAi(zc)=1,A(i)≥A(zc),0,其他,(9)因此,中心像素zc的幅值二值编码CA可以表示为CA(zc)=[CAN,CAN-1,…,CA1]binary。(10)中心像素点的强度由单演信号表示的2个虚部(fx和fy)表示,使用象限比特的方法编码,如图2所示。
将中心像素点zc方向的二值编码[CIx(zc),CIy(zc)]binary作为MBP编码的高2位,编码规则如下,CId(zc)=0,fd(zc)>0,1,fd(zc)≤0,d∈{x,y},(11)最后将幅值8位二值编码和方向2位编码组合在一起得到图像的MBP二值编码,如式(10)所示,然后转化为十进制得到MBP特征, MBP=[CIx(zc),CIy(zc),CA(zc)]binary。(12)如果直接对整幅图像进行编码不能够得到人脸细节信息,所以将图像分为Mb×Mb小块,每一小块又被分为Mr×Mr子块。经过多次实验发现Mb=5,Mr=2时效果最佳,如图3所示。
2.2DBN网络构建
模式识别是人脸识别中的重点。DBN网络进行模式识别分为预训练和微调2个阶段(见1.2节),将2.1节提取到的MBP特征输入到DBN网络中,学习训练两层隐藏层网络,具体过程如下。
1)预训练将深度信念网络划分为若干个相邻的RBM模型,逐层训练参数,初始化网络。首先,在可见层输入训练数据v,由式(8)求得第1层隐藏层向量h1,然后由式(7)反过来重构可见层,学习训练第1层权值系数矩阵W1;接着,将h1输入第2层隐藏层,学习训练矩阵W2;重复上述训练过程,求得每一层的权值系数矩阵Wi。
2)微调对预训练得到的初始化网络,采用有监督的反向传播算法(BP算法)微调整个DBN网络的参数,使网络的性能更加优异。
2.3MBP+DBN算法
由2.1节和2.2节得到MBP+DBN算法,具体步骤如下。
1)将人脸图像分为训练集和测试集,然后输入图像,进行单演滤波,得到多尺度的幅值(见图4)和像素点强度信息,对滤波后图像进行二值编码(LBP和象限比特)得到编码后的特征图像。
2)将编码后的特征图像分为5×5块,每一小块分为2×2子块,求得每一子块的直方图特征hi,i∈{1,2,…,r},然后计算所有局部块直方图特征Hj,j∈{1,2,…,b},最后将所有局部直方图特征组合成直方图矢量HMBP,用HMBP表示人脸图像特征。
3)将由步骤1)和2)得到的训练集图像HMBP特征作为DBN的输入数据X,训练深度学习模型。依据第2.2节中DBN网络训练流程,从下到上学习训练集的抽象特征,逐层学习训练网络,然后反向微调,优化网络参数,得到最终DBN网络模型。
4)将测试集图像的HMBP特征输入上一步训练好的DBN网络中,在网络的最上层进行分类,统计识别结果Y。
3实验结果及分析
在Windows7,Matlab2014a平台上进行仿真实验,运行环境是Intel双核处理器,2 GB内存。为验证算法的有效性,选取LBP算法、EPMOD算法[11]、M-PCANet算法[13]和MBP算法在ORL人脸数据库上作对比实验,其中各算法使用的准确率均为最优结果。ORL数据库共有400张(40个人每人有10张)不同光照条件、姿态、表情和遮挡的人脸图像,如图5所示。
为验证MBP+DBN算法的有效性和稳定性,笔者设计了3组实验,每组实验选取的训练集大小不同,同时在每次实验时随机将每个人的图片分为训练集和测试集。训练样本的大小会对深度学习网络学习抽象特征产生影响,从而影响最后的识别准确率,一般情况下,训练集样本数要大于测试集样本数;此外,选取的样本不同也会影响实验结果。以下是识别率为10次实验的平均值。
1)每人随机选取5张图片,共200张作为训练集,剩余的200张图片作为测试集进行10次实验。
2)每人随机选取6张图片,共240张作为训练集,剩余的160张图片作为测试集进行10次实验。
3)每人随机选取7张图片作为训练集,剩余的120张图片作为测试集进行10次实验。
3.1参数设定
MBP算法[11]图像编码参数设定为λmin=4,μ=0.64,S=3和σratio=1.7。参照文献[6]并结合实验,笔者设定DBN网络隐藏层数为2层,网络结构为m-100-100-n,其中m为输入向量维数,n为目标分类数,层数过多会导致学习时间过长,层数过少则不能充分地优化网络。为保证模型训练的充分性和参数训练的稳定性,每一层的迭代次数为30次;学习率为0.001。LBP算法图像被分为4×4块,其余参数都相同。
3.2模型评价
训练DBN网络时,采用近似的方法来评估模型的优劣。笔者使用重构误差(Error)作为评价模型优劣的标准,Error越小,即输入、输出数据之间的差距越小,网络模型设计越优异。表达式为 Error=Error+‖v′-v(t)‖,t∈{1,2,…,T},(13)式中:Error初始化为0,v(t)是样本训练数据,T为训练样本个数。图6和图7是DBN网络训练时第1层重构误差迭代变化图和第2层重构误差迭代变化圖。
DBN网络参数的更新与重构误差相关,从图6和图7中可以看出,2层网络在训练过程中,迭代初期误差迅速下降,当迭代到第5步后误差趋于稳定。对比2图可以得出,第1层网络迭代结束时的误差远大于第2层重构误差,说明经过2层学习重构误差明显减小,DBN网络参数更新优化完成。由图6可知,如果只选择1层隐藏层,重构误差较大,网络模型不合理会影响实验结果;由图7可知,第2层训练完成时重构误差很小,不再需要增加隐藏层。可见,本文设计的网络模型合理。
3.3ORL数据库实验结果
本文MBP+DBN算法实验结果及其对比实验结果分别见表1和表2。
从表1中的3组实验结果可以看出,MBP+DBN算法准确率高,效果稳定,进行多次实验求其平均值,最终分别得到了97.30%,98.38%和9875%的识别率,前2组的准确率略低于实验三的原因是由于实验三的训练样本比前2组多,随着训练样本的增加,准确率会提高,因为通过DBN网络训练可以提取更全面的特征,更有利于识别。
從表2的实验结果可以看出,在ORL人脸数据库上LBP,MBP,EPMOD,LBP+DBM和M-PCANet算法都取得了不错的识别效果,但本文提出的MBP+DBN算法识别准确率最高。LBP算法忽略像素点本身的方向信息,而像素点本身也携带着局部强度信息,所以识别率不高。M-PCANet模型虽然准确率高,但时间成本高。MBP和EPMOD结合单演信号的单演幅值和方向信息,与LBP相比增加了像素点本身的方向信息,特征提取较全面,比MBP准确率高。深度学习网络是每一层都进行抽象学习,将采用MBP算法提取的直方图特征作为网络输入时,能够进一步自主地提取更有效的人脸识别抽象特征,并且能够在模型顶层进行分类识别,有效地提高人脸识别准确率。所以MBP+DBN算法有效。
4结语
在已有人脸图像局部结构特征提取和深度学习人脸识别研究的基础上,基于单演局部二值模式(MBP)与深度学习的结合,提出了一种将MBP和深度信念网络结合的人脸识别方法。MBP结合单演信号的单演幅值和单演方向信息,对图像进行滤波后,用LBP算法对其像素的局部变化进行编码,用象限比特方法对局部强度信息进行编码,将两者组合在一起,分块统计其直方图特征。该方法能有效地提取出人脸图像特征,提高人脸识别性能。训练深度学习模型DBN网络时,使用无监督的贪婪算法,隐藏层设定为2层,将采用MBP算法提取的人脸特征作为DBN的输入、逐层训练,在经过2层训练后得到很小的重构误差,说明模型参数选取合理。使用反向传播算法优化网络,在ORL人脸数据库上的实验结果表明,所提出的算法在人脸识别中有更好的识别效果。
参考文献/References:
[1]NEVES J, NARDUCCI F, BARRA S, et al. Biometric recognition in surveillance scenarios: A survey [J]. Artificial Intelligence Review, 2016, 46(4):515-541.
[2]OPITZ A, KRIECHBAUMZABINI A. Evaluation of face recognition technologies for identity verification in an eGate based on operational data of an airport[C]// IEEE International Conference on Advanced Video & Signal Based Surveillance.[S.l.]: IEEE, 2015:10.1109/AVSS.2015.7301747.
[3]LI Chen, WEI Wei, LI Jiaxue, et al. A cloud-based monitoring system via face recognition using Gabor and CS-LBP features [J]. The Journal of Supercomputing, 2017, 73(4):1532-1546.
[4]MASHHADI P S. A novel feature vector in the fused space of Gabor Magnitude and Gabor phase for face recognition [J]. Journal of Computational Intelligence & Electronic Systems, 2014, 3(4):135-142.
[5]TORTORICI C, WERGHI N, BERRETTI S. Boosting 3D LBP-based face recognition by fusing shape and texture descriptors on the mesh[C]// 2015 IEEE International Conference on Image Processing (ICIP).[S.l.]:IEEE, 2015:10.1109/ICIP.2015.73511287.
[6]张雯,王文伟. 基于局部二值模式和深度学习的人脸识别[J].计算机应用, 2015, 35(5): 1474-1478.
ZHANG Wen, WANG Wenwei. Face recognition based on local binary pattern and deep learning[J]. Journal of Computer Applications, 2015, 35(5): 1474-1478.
[7]LI Lei, FENG Xiaoyi, JIANG Xiaoyue, et al. Face anti-spoofing via deep local binary patterns[C]//2017 IEEE International Conference on Image Processing (ICIP).[S.l.]:[s.n.], 2018: 10.1109/ICIP.2017.8296251.
[8]WANG Yandan, SEE J, PHAN R W, et al. Efficient spatio-temporal local binary patterns for spontaneous facial micro-expression recognition [J]. US Nationsl Library of Medicine National Institutes of Health, 2015, 10(5): 10.1371/journal.pone.0124674.
[9]SAWAT D D, HEGADI R S. Unconstrained face detection: A deep learning and machine learning combined approach [J]. CSI Transactions on ICT, 2017, 5(2):195-199.
[10]ZHANG Wenchao, SHAN Shiguang, QING Laiyan,et al.Are Gabor phases really useless for face recognition?[J].Pattern Analysis and Applications,2009,12(3):301-307.
[11]闫海停,王玲,李昆明,等. 融合MBP和EPMOD的人脸识别[J]. 中国图象图形学报, 2014, 19(1):85-91.
YAN Haiting, WANG Ling, LI Kunming, et al. Face recognition by fusing MBP and EPMOD [J]. Journal of Image and Graphics,2014,19(1):85-91.
[12]SWANHILD B . Fractional Riesz-Hilbert-Type transforms and associated monogenic signals [J]. Complex Analysis and Operator Theory, 2017, 11(5):995-1015.
[13]胡正平,何薇,王蒙,等. 多层次深度网络融合人脸识别算法[J]. 模式识别与人工智能, 2017,30(5):66-73.
HU Zhengping, HEI Wei, WANG Meng, et al. Multi-level deep network fused for face recognition[J]. Pattern Recognition and Artificial Intelligence, 2017,30(5):66-73.
[14]TAIGMAN Y,YANG M,RANZATO M A, et al.Deepface: Closing the gap to human-level performance in face verification[J].Conference on Computer Vision and Pattern Recognition,2014:10.1109/CVPR.2014.220.
[15]DING H, ZHOU S K, CHELLAPPA R. FaceNet2ExpNet: Regularizing a deep face recognition net for expression recognition[J].IEEE International Conference on Automatic Face & Gesture Recognition, 2017:10.1109/FG.2017.23.第36卷第1期河北工業科技Vol.36,No.1