(宁波大学信息科学与工程学院,浙江 宁波 315211)
采用双字典协作稀疏表示的光照及表情顽健人脸识别
龚飞,金炜,朱珂晴,符冉迪,曹燕
(宁波大学信息科学与工程学院,浙江 宁波 315211)
提出一种采用小波变换 (WT)及双字典协作稀疏表示分类 (CSRC)的人脸识别方法——WT-CSRC。WT-CSRC首先利用PCA(主成分分析)将小波分解后的人脸高频细节子图融合成高频细节图像;然后用PCA分别对人脸低频图像和高频细节图像进行特征提取,构造低频和高频特征空间,并用训练样本在两种特征空间上的投影集构造低频字典和高频字典;最后将测试样本在两种字典上进行稀疏表示,并引入互相关系数以增强人脸识别的可靠性,实现了人脸的协作分类。实验结果表明,提出的方法提高了人脸识别率,对光照变化及表情变化具有较强的顽健性,并且具有较高的时间效率。
人脸识别;双字典;协作稀疏表示;互相关系数
人脸识别技术因其在系统安全验证、身份管理、信用验证、智能家居等方面的巨大应用前景,成为一个当前模式识别和人工智能领域越来越热门的研究方向[1],特别是随着移动应用的发展,面向移动终端的人脸识别技术更是成为移动身份认证的重要手段。然而,现有的人脸识别技术大都仅在光照均匀、表情及姿态变化小、无遮挡等理想场景下才能取得较好的效果,而在实际应用中,终端可随意移动,难以保证理想的成像条件,因此,非理想条件下的顽健人脸识别方法成为移动身份识别亟待解决的问题,特别是光照及表情顽健的人脸识别研究,仍然是当前人脸识别研究中的挑战和热点之一。
一般而言,人脸识别包括人脸特征的提取及相似度计算两个环节;传统全局特征提取算法如主成分分析[2](principal component analysis,PCA)、线性判别分析[3](linear discriminantanalysis,LDA)等在复杂人脸样本上的识别率较低,对光照、表情变化等因素的顽健性较差。Wright等人[4]近年提出了一种基于稀疏表示分类(sparse representation-based classification,SRC)的人脸识别方法,该方法模仿人类的视觉压缩感知特性,利用训练样本来线性表示测试样本,最后通过最小残差来实现人脸识别。稀疏理论为解决许多棘手的人脸识别难题提供了新思路,将稀疏表示分类应用于人脸识别成为近年来的研究热点。Yang等人[5]将利用Gabor特征训练字典,提出一种基于Gabor字典的稀疏表示分类(SRC)人脸识别方法——GSRC,该方法提高了人脸识别率,且具有一定的顽健性,但Gabor变换需要对人脸进行多尺度和多方向的分解,其计算过程复杂、识别时间较长;张勇等人[6]将LDA方法引入SRC,实现了一种基于线性判别和稀疏表示分类(LDA-SRC)的人脸识别方法,但由于LDA类内散度矩阵的奇异性问题,使得LDA-SRC在许多人脸识别问题上无法顺利进行,并且该方法没有考虑光照、表情、遮挡等因素的影响;Tang等人[7]提出了一种加权组(weighted group,WG)稀疏表示分类(SRC)的人脸识别方法 (WGSRC),该方法对混合l1,2范数进行加权处理,通过正则化重建误差对样本进行识别,WGSRC对人脸的姿态变化具有较好的顽健性,但是其权值是根据经验设置的,并且其在光照变化较大的人脸库上的识别率较低。
为解决以往人脸识别方法在光照变化、表情变化等情况下识别率下降的问题,本文提出一种结合小波变换(wavelet transform,WT)及双字典协作稀疏表示分类(collaboration of double-dictionary’s sparse representation-based classification,CSRC)的人脸识别方法——WT-CSRC,WT-CSRC利用PCA方法融合人脸图像小波分解后的高频信息子图,并提取人脸图像的小波域特征,构造低频和高频特征空间,将训练样本在两种特征空间下的投影集分别构造低频字典和高频字典,最后将人脸测试样本在两种字典上进行稀疏表示,并引入互相关系数进一步增强人脸识别的可靠性,实现了人脸的协作分类。实验结果表明,本文方法不仅提高了识别率,而且对光照变化及表情变化等具有较强的顽健性。
小波分析因其具有多分辨率和多尺度分解的特点,为信号的时频分析提供了一种高效的方法。对人脸图像进行一层小波分解,可得到1幅低频人脸图像和3幅高频人脸细节图像。分解后的低频图像包含了原始人脸图像的全局信息,集中了原图像的主要能量,和原图像最相似;而水平、垂直、对角这3个细节图像代表人脸图像面部的细节信息。其中,水平细节图像包含了人脸轮廓中的眉毛、眼睛、嘴巴、胡须等水平细节信息,垂直细节图像包含了人脸轮廓、耳朵、鼻子等垂直细节信息,而对角细节图像不仅包含了部分水平细节信息和垂直细节信息,还受噪声、光照、表情等因素影响。
主成分分析[2]是一种常用的特征提取和降维方法。用这种方法得到的主成分能够反映原始变量的绝大部分信息。其操作原理如下:假设为含有m类的训练样本集,第 i类含有 n个样本,i=1,2,…,m,j=1,2,…,n,这里是由大小为 M×N的人脸图像矩阵按列堆叠成的向量,于是,训练图像的平均脸向量为:
C为对称方阵,存在m×n个相互正交的属于特征值λs的特征向量αs,即有Cαs=λsαs,s=1,2,…,m×n。将求出的λs按降序排列,λ1≥λ2≥…λs…≥λm×n, 并将对应的特征脸向量αs构成正交空间 Ωpca:
其中,Ωpca也称为特征脸空间,p为特征脸向量的个数。
本文提出的人脸识别方法分别将人脸图像小波分解的低频图像和高频细节图像作为两个独立的集合进行特征提取,最后再实现人脸的稀疏表示分类。在构造高频细节人脸图像集时,首先利用PCA方法对3幅高频细节图像进行融合。PCA融合算法可以保留原图像的主要信息,利用PCA方法进行图像融合,首先获取原始图像的协方差矩阵,然后计算协方差矩阵的特征值和特征向量,根据特征值的大小确定融合图像算法中的加权系数,得到最终的融合图像[8]。在融合3幅高频子图时,先对水平细节图像和垂直细节图像进行融合,再将得到的融合图像与对角细节图像进行融合,最终得到融合后的人脸高频图像。接下来再用PCA方法分别对人脸低频图像和融合后的高频图像进行特征提取,提取的特征脸如图1所示,从图1(a)和图1(c)可以看出,低频特征脸较为平滑,偏向于人脸全局特征的表达,可清晰地表达出不同明亮程度下的光照特征,与原始人脸图像相比,低频特征脸上的光照特征更易于分析和辨别;从高频融合人脸图像中提取出的特征脸表面比较粗糙,偏向于面部细节的表达,如图1(b)和图1(d)所示,人脸器官的细节特征在高频空间上表现更加突出,通常情况下,人脸面部表情的变化体现在人脸面部器官细节的变化上,这些高频细节特征有助于不同表情变化下的人脸识别。
图1 两种频带下的特征人脸及其特征表达
低频特征脸所包含的信息虽然在面部细节上表达不明显,但其包含了人脸信息的主要能量,展现出了人脸的主要轮廓,且对不同光照特征的表达也较为清晰;高频人脸虽然在面部细节上的表达能力较为突出,但其并不能体现出人脸的特定轮廓。本文将人脸图像在两种频域空间上的不同特征结合起来进行分析,使两种不同频域下的特征互相弥补,充分发挥出二者在不同光照和表情条件下人脸识别中的作用。
近年来,稀疏表示理论在信号、图像处理领域得到广泛应用[9]。稀疏表示的目的就是在合适的参考基底(字典)下,将观测信号表示成尽可能少数原子的线性组合。在稀疏表示的分类识别应用中,通过求得测试样本在训练字典上的稀疏表示系数,就可根据表示系数的稀疏性与稀疏集中度衡量其类别属性。
3.1 传统稀疏表示人脸识别
在传统稀疏表示人脸识别中[4],设X=[X1,X2,…,Xm]为含有m类目标的训练样本矩阵,第i类含有n个样本,i=1,2,…,m,j=1,2,…是 Xi中的第j个训练样本。这里将X看作过完备字典为字典中的原子。对于第i类测试样本y,可以用子字典Xi线性表示为:, 其中,αi,j为稀疏编码系数。如果用整个字典X中的原子来线性表示y,则只有和子字典Xi相关的稀疏编码系数不为0时成立,于是上述稀疏表示原理可表示为:
其中,E为稀疏约束常量,α=[0,…,0,αi,1,…,αi,ni,0,…,0]T是测试样本y在字典X上的稀疏表示系数向量,理想情况下,α 中只有 αi,1,…,αi,ni不为0。这是一个NP难问题,在某些情况下,可等价于求解l1范数的凸问题[4]:
其中,ε为误差常量,引入δi(α)来提取子字典Xi上的稀疏表示系数于是,测试样本y可以用Xi重建如下:
3.2 双字典协作稀疏表示人脸识别
本文提出了一种利用人脸图像低频字典和高频字典进行协作稀疏表示分类的人脸识别方法。由第2节的介绍可知,人脸训练样本经过一层小波分解后,用PCA方法对分解得到的低频图像进行特征提取,构造低频特征空间ΩL;然后用 PCA方法分别对融合后的高频图像进行特征提取,构造高频特征空间ΩH;接下来分别将训练样本集在ΩL和ΩH上进行投影,得到样本在两种特征空间映射下的投影特征,分别为低频特征XL和高频特征XH,令DL=XL为低频字典,DH=XH为高频字典。对于测试样本y,对其进行一层小波分解后的低频部分为yL,3幅高频细节图像融合后的高频部分为yH,利用第3.1节中的稀疏表示原理,在低频字典和高频字典上分别对 yL和 yH进行稀疏表示,最终将二者重建如下:
其中,cov(·)表示求两个变量的协方差,D(·)表示求变量的方差。通过式(12)和式(13)求出测试样本与两个类别之间的相关系数后,将两个相关系数绝对值的较大者所归属的类别确定为测试样本y所属的类别,即:
本文的双字典协作稀疏表示分类人脸识别方法,其主要思想可描述为:利用低频字典和高频字典进行稀疏表示分类,二者互相监督,当二者的分类结果相同时,双字典的作用在于增强分类结果的可靠性;一旦低频字典和高频字典的分类结果不相同,表明分类出现了冲突,互相监督起到了作用,引入相关系数来确定最终的分类结果,这种情况下,双字典协作分类缩小了分类范围,将最有可能的分类结果圈定在两个类别之间,从而尽可能地减小了分类误差。因此,在整个分类过程中,双字典的组成成分不同, 二者互相监督、 互相纠正, 提高了WT-CSRC的分类准确性与可靠性,增强了人脸识别算法的顽健性。
下面将通过数值实验来验证本文所提出的人脸识别方法的有效性,实验基于Yale B、JAFFE和AR 3个标准人脸库,在3.30 GHz、4 GB内存、64 bit Windows 7的计算机系统下进行,实现工具为MATLAB(R2010b),实验中的小波分解采用 db2小波基。本文选择 PCA[2]、LDA[3]、SVM、SRC[4]、LDA-SRC[6]以及GSRC[5]6种代表性的人脸识别方法与提出的WT-CSRC进行对比。
4.1 光照顽健人脸识别实验
Yale B人脸库[11]中包含了10类人的640张不同光照变化下的人脸图像,每张人脸图像分辨率为192 dpi×168 dpi,根据光照角度与摄像光轴的角度,可将人脸图像分为5个子集:子集1(θ<12°)、子集2(20°<θ<25°)、子集3(35°<θ<50°)、子集4(60°<θ<77°)、子集5(θ>78°),部分人脸图像如图2所示。
图2 Yale B人脸库上不同光照条件下的人脸样本
由于θ的差异,进入成像系统的反射光线强度不同,从而使得不同θ下的人脸图像表现出不同的感光特性,这与不同光照强度下的人脸具有同样的特点。本文用Yale B人脸库进行光照顽健性的测试。子集1~子集 5分别含有7、12、12、14、19张人脸图像。实验时将子集4中的14张人脸图像用于训练,剩下的子集用于不同光照条件下的测试实验,识别率结果见表1。
表1 Yale B人脸库上7种方法在不同光照子集下的识别率
从表1可以看出,WT-CSRC有较好的光照顽健性能,在几种不同光照条件下的人脸子集上都保持了较高的识别率,尤其在光照强度变化最大的子集5上,识别率仍保持在90.00%以上,平均识别率达到97.07%。几种对比方法中,基于特征脸的PCA方法的识别率最低,其次是LDA、SVM方法在某些子集上的识别率较高,但在光照变化最大的子集5上,其识别率较低,LDA-SRC和GSRC方法在子集5上的识别率还有待提高。对于识别的时间效率,在考虑图像预处理所需时间的基础上,对几种算法的运行时间也做了分析和比较。
对于训练时间,SRC直接利用训练集对样本进行稀疏表示分类,其训练时间可忽略不计;PCA、LDA计算相对简便,其训练时间较短,约为2.00 s;GSRC方法由于需要训练Gabor字典,其训练时间最长,约为15.50 s;而本文算法的识别时间与LDA-SRC和SVM相近,约为3.00 s。
对于测试时间,实验记录了各个算法的平均测试时间(平均识别每个样本的时间),GSRC的平均测试时间最长,约为21.50 ms,PCA、LDA以及SVM由于计算相对简单,其平均测试时间最短, 本文算法的测试时间略短于LDA-SRC,约为15.4 ms。
上述实验结果表明,本文算法不仅具有较强的光照顽健性,还具有较高的时间效率。
4.2 表情顽健人脸识别实验
本文在 JAFFE人脸库[12]上验证几种人脸识别方法的表情顽健性,该人脸库包含了10类人的219张不同表情下的人脸图像,本文选择其中的210张人脸进行实验,每人包含了21张6种不同表情(开心、难过、惊讶、生气、害怕、沮丧)和中性表情的人脸图像,每种表情有3张人脸图像。部分人脸样本如图3所示。
实验时,将每个人的3张中性表情人脸样本用于训练,用剩下6种表情的人脸样本进行测试,最终的测试结果见表2。
从表2可以看出,本文方法对各种表情的识别率都较高,其平均识别率最高,达到96.67%。其他几种方法只是对JAFFE人脸库上的少数表情有较高的识别率。从识别时间效率上来看,GSRC需要的训练时间和平均测试时间都较长,而本文提出的WT-CSRC方法仅比PCA和LDA的训练时间略长,其平均测试时间也较短,约为10.50 ms。上述分析表明,本文算法的表情顽健性较好,时间效率也较高。
4.3 光照及表情顽健人脸识别实验
图3 JAFFE人脸库上不同表情的人脸样本
表2 JAFFE人脸库上6种方法在不同表情下的识别率
为进一步验证WT-CSRC对光照及表情有较强的顽健性,本文在AR人脸库上对几种方法的光照及表情顽健性同时进行验证。AR人脸库[4]上包含了126(男70、女56)个人在不同光照、表情下的 4 000多张人脸正面图像,这些人脸图像在两个不同的时期(相隔两周)采集得到,实验中,共用到了100(男50、女50)个人的人脸图像,每人用到了14张人脸图像,如图4所示。其中,前7张是从第一个时期采集的,用于训练;剩下 7张是从第二个时期采集的,用于测试。每张图像分辨率为165 dpi×120 dpi,共用到1 400张人脸图像。
图4 AR人脸库部分人脸样本
图5给出了几种方法在 AR人脸库上的识别率曲线,可以看出,除在较低特征维数情况下WT-CSRC方法的识别率不是最高以外,在其他情况下,WT-CSRC方法的识别率都是最高的。GSRC从Gabor域变换的角度提取人脸在频域的特征进行字典学习,也能取得不错的识别效果;LDA-SRC在特征维数为150时,也能取得较高的识别率;传统基于特征脸的PCA方法识别率最低,其光照和表情顽健性最差。WT-CSRC用低频字典和高频字典进行协作稀疏表示分类,充分利用了人脸图像频域的特征,从而取得了更好的识别效果。从算法运行时间上来看,GSRC在特征提取和字典学习时计算量较大,其运行时间最长,本文方法的训练时间和测试时间均较短,仅略高于PCA和LDA,虽然PCA和LDA的运行时间较短,但其识别率较低。上述实验分析表明,WT-CSRC在保持较强的光照及表情顽健性的同时,还具有较高的时间效率。
图5 AR人脸库上的识别率曲线
在实际的人脸识别应用中,姿态和遮挡也是必须要解决的问题,采用可扩展Yale B和AR人脸库分别进行姿态和遮挡的人脸识别实验[4],并与所选的6种方法进行比较。结果表明,WT-CSRC在识别率和时间效率上,仍然具有一定的优势。这表明本文提出的算法,由于充分利用了人脸图像的低频、高频信息,不仅对光照和表情人脸识别具有顽健性,而且在解决姿态和遮挡问题上,也具有一定的推广价值。
本文提出一种结合图像小波变换及双字典协作稀疏表示的人脸识别方法,该方法利用小波变换对人脸图像进行分解,并将分解后的3种高频细节子图用PCA方法融合成单一的高频细节人脸图像,从而分别对低频人脸图像和高频细节人脸图像进行特征提取,并分别构造低频特征空间ΩL和ΩH高频特征空间,然后将训练样本在 ΩL和ΩH上的投影特征构造两种字典,即低频字典DL和高频字典DH,最后通过两种字典的协作稀疏表示,并引入相关系数,增强了分类结果的可靠性,缩小了分类范围并减小了分类误差。在Yale B、JAFFE和AR人脸库上的实验表明,本文提出的方法在光照及表情变化下的人脸识别具有较高的识别率,其光照和表情顽健性较好,并且识别的时间效率也较高。接下来将着重研究如何提取出人脸图像更加有效的特征,并降低算法的复杂度,以增强本文方法的实际应用能力。
[1] 苏楠,吴冰,徐伟,等.人脸识别综合技术的发展[J].信息安全研究,2016,2(1):33-39. SUN,WUB,XUW,etal.Thecomprehensivetechnology development of face recognition[J].Journal of Information Security Research, 2016,2(1):33-39.
[2]TURK M,PENTLAND A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,13(1):71-86.
[3]BELHUMEUR P,HESPANHA J,KRIEGMAN D.Egienfaces vs fisherfaces:recognition using class specific linear projection[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.
[4]WRIGHT J,YANG A Y,GANESH A,etal.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[5]YANG M,ZHANG L.Gabor feature based sparse representation for face recognition with gabor occlusion dictionary[C]//European Conference on Computer Vision(ECCV’2010),September 5-11, 2010,Crete,Greece.Berlin:Springer-Verlag,2010:448-461.
[6] 张勇,党兰学.线性判别分析特征提取稀疏表示人脸识别方法 [J].郑州大学学报(工学版),2015,36(2):94-98. ZHANGY,DANGL X.Sparse representation-based face recognition method by LDA feature extration[J].Journalof Zhengzhou University: Engineering Science,2015,36(2):94-98.
[7]TANG X,FENG G,CAI J.Weighted group sparse representation for undersamp led face recognition [J].Neurocomputing,2014, 145(18):402-415.
[8]潘瑜,孙权森,夏德深.基于PCA分解的图像融合框架[J].计算机工程,2011,37(13):210-212. PAN Y,SUN Q S,XIA D S.Image fusion framework based on PCA Decomposition[J].Computer Engineering,2011,37(13):210-212.
[9]金炜,王文龙,符冉迪,等.联合块匹配与稀疏表示的卫星云图修复[J].光学精密工程,2014,22(7):1886-1895. JIN W,WANG W L,FU R D,etal.Satellite cloud image inpainting based on patch matching and sparse representation[J].Optics and Precision Engineering,2014,22(7):1886-1895.
[10]CHEN N,XU Z,XIA M.Correlation coefficients of hesitant fuzzy sets and their app lications to clustering analysis[J].Applied Mathematical Modelling,2013,37(4):2197-2211.
[11]GEORGHIADES A,KRIEGMAN D,BELHUMEUR P.From few to many:illumination cone models for face recognition undervariable lighting and pose[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):643-660.
[12]LYONS M,AKAMATSU S,KAMACHI M,et al.Coding facial expressions with Gabor wavelets[C]//Third IEEE International Conference on Automatic Face and Gesture Recognition, April 14-16,1998,Nara,Japan.New Jersey:IEEE Press,1998: 200-205.
Illum ination and expression robust face recognition using collaboration of double-dictionary’s sparse representation-based classification
GONG Fei,JIN Wei,ZHU Keqing,FU Randi,CAO Yan
Faculty of Electrical Engineering and Computer Science,Ningbo University,Ningbo 315211,China
A face recognition method named WT-CSRC was proposed by using wavelet transform(WT)and a collaboration of double-dictionary’s sparse representation-based classification (CSRC).Firstly,the proposed method used principal component analysis(PCA)to achieve the fusion of three high-frequency detail sub-images which were generated by WT,and a integrated high-frequency detail image could be obtained;then,features extracted from the low-frequency images and high-frequency detail images by PCA were used to construct the low-frequency feature space and high-frequency detail space;and low-frequency dictionary and high-frequency dictionary could be constructed by samples’projection on two kinds of feature space.Finally,face images could be classified by a collaborative classification via sparse representation in two dictionaries,and the reliability of the recognition could be enhanced by using the cross correlation coefficient.Experimental results show that,the proposed method has high recognition rate with strong illumination and expression robustness with acceptable time efficiency.
face recognition,double-dictionary,collaborative sparse representation,cross correlation coefficient
TP391
:A
10.11959/j.issn.1000-0801.2017057
龚飞(1989-),男,宁波大学信息科学与工程学院硕士生,主要研究方向为模式识别、压缩感知和图像处理。
金炜(1969-),男,博士,宁波大学信息科学与工程学院副教授、硕士生导师,主要从事压缩感知、模式识别和数字图像处理等研究工作。
朱珂晴(1989-),女,宁波大学信息科学与工程学院硕士生,主要研究方向为模式识别和图像处理。
符冉迪(1971-),男,宁波大学信息科学与工程学院副教授、硕士生导师,主要从事数字图像处理、模式识别等研究工作。
曹燕(1993-),女,宁波大学信息科学与工程学硕士生,主要研究方向为数字图像处理、模式识别。
2017-01-10;
:2017-02-23
国家自然科学基金资助项目(No.61471212);浙江省自然科学基金资助项目(No.LY16F010001);宁波市自然科学基金资助项目(No.2016A610091)
Foundation Item s:The National Natural Science Foundation of China(No.61471212),The Natural Science Foundation of Zhejiang Province of China(No.LY16F010001),The Natural Science Foundation of Ningbo of China(No.2016A610091)