单建华,张晓飞
(安徽工业大学机械工程学院,安徽马鞍山243032)
稀疏表示人脸识别的关键问题分析
单建华,张晓飞
(安徽工业大学机械工程学院,安徽马鞍山243032)
稀疏表示是一种高效的图像表示方法,且稀疏系数具有很好的稀疏性和可扩展性。基于稀疏表示的人脸识别能够提高识别率,增强鲁棒性。针对人脸识别在实际应用中遇到的问题,对稀疏表示人脸识别的方法、识别中遇到的关键问题及其解决办法进行综述。结果表明:稀疏表示人脸识别中,光照变化,可以通过增加不同光照的人脸图像训练样本解决;遮挡腐蚀,可以通过用加入误差字典来扩展过完备字典解决;姿势变化或未对准,可以通过对输入图像进行线性结构迭代变换解决;利用稀疏集中指数可以实现图像是否有效的判断。指出采用稀疏表示同时处理对准和连续遮挡的人脸图像识别,及识别准确性与实时性的提高是需进一步研究的方向。
人脸识别;压缩感知;稀疏表示;鲁棒性
人脸识别是生物识别技术中一个重要的研究领域,主要方法有:基于几何特征的方法,从人脸几何特征中提取特征参数形成特征向量,对特征向量进行分类,但稳定性不够;基于子空间的方法,把人脸看成矩阵或高维向量,通过空间变换把原始人脸图像变换到子空间(如PCA[1]),以降低计算复杂性,多用于人脸特征的表示;基于神经网络的方法,利用神经网络对人脸图像进行特征提取并识别[2],但运算速度较慢,适用于小型人脸库;基于多分类器的方法,将多分类器组合广泛应用于模式识别中[3],但较难选择分类器的类型和训练方法;基于隐马尔科夫的方法,把同一个人的人脸图像的各种变化看成是同一种状态产生的一系列实现[4],计算复杂度较高。稀疏表示是一种高效的图像表示方法,通过由原始图像构成的过完备字典线性表示输入图像,对于人脸识别应用中遇到的关键问题,如变化光照、遮挡或腐蚀、未对准等提供了良好的解决途径。
稀疏表示的最初目的是用比香农采样定理更低的采样率来表示和压缩信号[5]。在Candes[6]提出的压缩感知理论的启发下,稀疏表示理论[7]得到了广泛应用。稀疏表示理论是:将一个输入信号用多个基础信号线性表示,线性组合(稀疏表示系数)包含了信号的绝大部分信息,基础信号从一个过完备“字典”中选取。稀疏表示理论应用于人脸识别[8]时,将训练样本集合作为过完备字典,如果每一类的训练样本足够多,则输入样本可以由同类训练样本线性表示[9],其中过完备字典设计是关键。过完备字典由原子组成,原子数目远大于信号维数,因此能在更大的范围选取原子用于信号表示或逼近。
基于稀疏表示的人脸识别问题描述为:y=A x,其中y∈Rm是人脸图像,即把长宽为w×h的图像拉长为维数m=w×h的列向量;训练图像数据库构建过完备字典A∈Rm×n,n为训练图像数目,每个训练图像为1列,称为1个原子,所以过完备字典为m×n维矩阵;x∈Rn是输入图像在过完备字典上的n维稀疏表示,即稀疏系数,即其中大部分系数为0,或者接近0。求解输入图像在过完备字典上的稀疏表示是一个稀疏编码问题,有2种求解方式[10]:
其中:x̂为y最优稀疏表示;t是稀疏阈值;ε是误差容限;‖.‖0表示l0范数,即向量中非0元素的个数。
式(1),(2)可通过不同的方法逼近,如正交匹配追踪、基追踪[11]、Focal欠定系统求解(FOCUSS)、梯度追踪[12]等。目前多采用l1范数近似求解l0范数。Elad[13]解释了l1范数与l0范数的解近似的原因,式(2)可转换为
该方法简称为SRC(Sparse Representation-based Classication)[8]。由于存在稀疏误差,SRC采用对准人脸图像,记过完备字典A=[A1|A2|…|Ai|…|Ak],k为训练样本的类别数,则式(3)可变换为下列求最优解x问题
其中:Ai表示第i类训练样本集合;e表示没有光照变化、遮挡、姿势变化的理想情况下,输入图像与训练图像之间的误差。若xi是解x的一个子向量,且对应于第i类样本,则将输入图像y归为第î类
SRC模型如图1。图1(a)是将属于第1类的图像下采样为12×10,SRC算法重构的稀疏系数集中于第1类训练样本,所以输入图像归为第1类;图1(b)是对应于各类对象的残差,第1类的残差最小。
图1 SRC稀疏表示人脸图像Fig.1 Sparse representation of an input imageby SRC
式(3)存在2个问题:1)l1范数约束‖x‖1是否很好地描绘了信号稀疏性特征;2)l2范数‖y-A x‖22≤ε能否有效描述信号保真度,特别是当输入图像y具有噪声或异常值(由光照变化、遮挡、姿势变化等引起的)时。
对于第一个问题,可以修正系数约束。Liu等[14]增加1个非负余数稀疏系数α;Gao等[15]提出1个稀疏表示系数的拉普拉斯算子;Wang等[16]使用加权l2范数来进行稀疏性约束。另外,Ram irez等[17]提出通用稀疏模型的框架,设计了稀疏性正则化算子;贝叶斯也用于设计稀疏正则化算子。除了文献[18-19],将l1范数用于信号保真度上,较少有文献涉及提高‖y-A x‖22方面的研究。
SRC算法在没有光照变化、遮挡腐蚀、姿势变化的理想情况下,识别对准好且有多幅训练图像输入时效果较好,适用于某些特定的场景,如秘密地点或者门禁系统。非理想情况下,如出现在图像局部空间的镜面反射、投影和遮挡时,可以看作量级较大的稀疏误差处理;姿势变化和对准会造成大量的非线性转换,破坏低维的线性模型,需用系数误差修正,即“鲁棒的PCA”[20]去除稀疏误差(除对准外)。
实际人脸图像存在非理想情况,但只限于图像的一部分,如遮挡部分对于整个图像的像素而言是稀疏的,用附加的误差e表示。前提条件是e是稀疏的,优化问题可以转化为
式中e 表示在有光照变化、遮挡、姿势变化等非理想情况下输入图像与训练图像之间的误差。式(4)和式(6)形式相同,且e 都表示输入图像与训练图像之间的误差,但意义不同,式(6) 中e 表示在有光照变化、遮挡、姿势变化情况下的误差,求解较复杂,需要扩展过完备字典A ;式(4)中e 表示的是在无遮挡、光照变化、姿势变化情况下,输入图像与训练图像的误差,且误差不是很大,可以修正的,不需要扩展过完备字典A 。
SRC算法要求输入图像与训练图像之间精确对准。在实际应用中存在以下关键问题:光照变化、遮挡和像素腐蚀、姿势变化和对准以及对无效输入图像的拒绝等。
2.1 光照变化
基于SRC进行人脸识别需要大量不同光照环境下的人脸图像。对于光照不够的人脸图像,稀疏表示不一定稀疏,通常是统计假设光照变化影响图像的程度,然后提取1个光照不变量的新表示[21-22]。尽管这类方法有效,但由于每个对象只有1幅光照变化的训练图像,由此得到光照不变量特征很难。文献[9]中,远距离光照且固定姿势的人脸可近似地由9张基本人脸图像线性组成。即使有光照变化或者自身阴影的影响,光照和图像之间的关系仍是线性的[23],可以用训练图像线性表示输入图像。
实际应用中,训练数据库里单纯的正面光照不足以线性表示含有室内室外光照的人脸图像,所以Wagner等[24]设置专门的采集系统,采集室内室外不同光照的人脸训练图像,并获得了较好的识别率。图2为采集某一对象的38张光照变化的人脸图像,包含前后左右4个方向的光照,采集中拍摄角度要求严格。
图2 一个对象的38张光照变化训练图像Fig.2 38 training images in changing illum ination of one subject
李志星[25]用PCA代替下采样降维输入图像,再对人脸图像Gabor变换所得的能量子带固定分块,然后进行特征融合,构成增强的Gabor特征,提取的局部特征应用于稀疏表示模型进行表示和识别,实验证实该算法对光照、表情的变化具有比稀疏表示人脸识别方法更强的鲁棒性。
2.2 遮挡和像素腐蚀
遮挡是实际人脸识别中的一个难点[26-27],主要因为遮挡区域的不可预测性。遮挡一般只占据图像小部分,研究者们将遮挡问题限定在图像局部空间,以提高算法的鲁棒性。若遮挡或腐蚀是图像的小部分区域,则遮挡或腐蚀误差是稀疏的,可看作1种特殊的训练样本。遮挡的输入图像可以用扩展的过完备字典(训练图像加上误差基向量)稀疏表示,受遮挡或腐蚀的输入图像的本体部分和误差部分的分离如图3。
图3 稀疏表示用于遮挡和像素腐蚀的人脸图像识别Fig.3 Face recognition based on sparse representation used in occluded and corrupted faces
没有遮挡或像素腐蚀的人脸识别,可采用式(3),但有遮挡和像素腐蚀的人脸识别,SRC需要1个身份矩阵I(误差字典)对被遮挡或腐蚀的像素编码[9],如下式所示
式中:ω0表示输入图像在新字典B下的稀疏表示。该式是理想情况扩展为一般情况的表示,而对扩展的l1最小化:ω1=argm in‖ω‖1s.t.Bω=y下,B=[A,I]为扩展过完备的字典,用新字典B线性表示适当遮挡或腐蚀的总误差,求稀疏解得到误差e1,用校正图像补偿噪声图像,消除遮挡或像素腐蚀。SRC算法的实验效果:对从0%到50%的随机像素腐蚀能够完全识别,对30%以下的随机块遮挡也能够很好地识别[9](各自独立的标准分布腐蚀随机像素)。
Yang等[28]采用RSC(RobustSparse Coding)方法处理AR数据库中戴围巾和戴墨镜遮挡的带伪装人脸识别,提高了稀疏表示的鲁棒性与有效性,表明保真项(用来描述信号保真度)很大程度上影响最终的编码结果,可保证输入图像y能够用过完备字典清晰表示。从最大似然估计(MLE)角度来看,用l1或者l2范数定义保真度算子,本质上认为残差e服从高斯或者拉普拉斯分布,但实际上有遮挡或者像素腐蚀时效果不理想。
受鲁棒回归理论的启发,Yang等[28]设计了与最大似然估计相似的信号保真算子,使表示残差函数最小化,将稀疏回归系数鲁棒回归给输入图像,并将最小化问题转化为迭代再加权的稀疏表示(IRSC)问题。需要给人脸识别找到1个适当的加权函数:用所有训练图像的平均图像yini,初始化残差e=y-yini,然后初始化权重,最后计算迭代再加权的稀疏表示。RSC是寻找稀疏表示问题的最大似然估计解,并且对异常值(如遮挡和像素腐蚀等)更加鲁棒,在扩展的Yale B(每个对象在9个姿态和64种光照条件下采集人脸图像)上取得了很好的效果。传统分类器方法(NN(Nearestneighbor)[29],NS(Nearest Subspace)[30],SVM(SupportVectorMachine)与稀疏表示方法在扩展的Yale B上的人脸识别率见表1。
表1 各分类器在扩展的Yale B上的人脸识别率(%)Tab.1 Recognition rateused in theextend Yale B(%)
2.3 姿势变化和对准
增强对姿势变化和未对准图像(如图4所示)鲁棒性人脸识别的方法[31-32]较多,而利用稀疏表示探究人脸配准的目前只见文献[33]中有报道。一般方法的训练图像本身可以是不对准的,允许每个图像都有变形,并且是将训练样本线性变换,而不是输入图像,扩大了训练集,增加了计算成本。文献[24]采用相似变换的方法,将未对准的输入图像进行一系列线性结构迭代,以训练样本为外表模型,计算最小化配准误差,利用误差稀疏性识别输入图像,修正了SRC的弱点并保持了其概念简单和高识别率的优点。
图4 不同角度对准的人脸图像Fig.4 Face image in different poses
在文献[19]中,设y0是一个对准好的图像,y是一个包含姿态变化或未对准的待识别图像,将y通过τ变换为y0,τ∈T,T是作用在图像区域有限维变换的组合。选择误差变换最小的变换结果y0,然后计算稀疏表示系数,寻求与输入图像对准得最好的训练样本。
Yang等[34]提出一种稀疏表示重构,用不变像平面变换处理未对准和姿势变化,并在CMUMulti-PIE人脸库上验证了其良好的识别性能;Yang等[35]在SRC基础上提出GSRC(Gabor-feature based SRC)方法,用Gabor特征大幅减少遮挡字典的大小,提高了人脸识别率;徐争元等[36]在GSRC基础上提出用向量总变差模型取代最小l1范数求解稀疏系数,提高了稀疏表示人脸识别对姿态和光照变化等情况下的识别率和鲁棒性。
2.4 无效输入图像的拒绝
一个实用的人脸识别系统应该不仅能识别人脸图像,也能拒绝非人脸的图像或者非人脸库中的人脸图像。在输入图像分类前,确认其是否为有效的人脸图像,是人脸识别系统实际应用中的一个关键问题。基于传统分类器的人脸识别系统通常依据第i个对象的残差ri(y)分析输入图像的有效性,用残差ri(y)的大小决定接受或者拒绝输入图像。该类算法一般仅比较输入图像与每个单独一类图像的相似性,残差ri(y)的计算脱离了人脸库中的其他人脸信息。稀疏表示是根据所有训练样本全局计算稀疏系数x,稀疏系数x包含了输入图像的有效性信息:1张有效输入图像的稀疏表示系数集中在某一训练样本上,而无效的输入图像的稀疏表示系数分布在多个训练样本上。所以,在有效性分析方面,系数x比残差好。
为判别输入图像是否为有效图像,SRC中定义了稀疏集中指数S(sparsity concentration index,简称SCI),式中:δi(x)∈Rn为一个列向量,其中唯一非零项为x中与第i个对象对应的非零项;k为样本数。若S(x)=1,则输入图像可由单个对象的图像表示;若S(x)=0,则其稀疏表示系数遍布整个样本。在实际使用时,设置阈值τ∈(0,1),如果S(x)≥τ,认为输入图像为有效图像,反之为无效图像。τ是很难定义的一个量,不同的样本,τ值不同。如图(5)所示,输入非人脸图像,在残差图中,即使是最小的残差值也较大,但远小于其他的残差值,甚至可以直接给这个非人脸图像进行分类,所以很难设置合适的阈值τ。稀疏表示人脸识别不是依靠单个统计数据,而是稀疏系数用于验证输入图像的有效性,残差用于分类人脸。这样提高了算法在验证时的性能,避免通用对象干扰。通用脸(大众脸)可能与人脸库中几个人的脸相似,可能由训练样本得到多个较小残差,用残差验证会出现错误。而通用脸在SCI规则中则不会通过,因为通用脸在得到比较好的稀疏表示时会关联到多个类的人脸图像。因此,SCI规则可以更好地判断输入图像是通用脸还是人脸库中的人脸。由此得出稀疏表示人脸识别在有无效输入图像时,通过稀疏系数x可以拒绝无效图像。
图5 SRC稀疏表示无效输入图像Fig.5 Sparse representation of an invalid input image by SRC
由于人脸识别的复杂性,实现一个通用的稀疏表示人脸识别系统目前还不现实,现有的研究仍是着重于光照变化、不同程度的遮挡及未对准的人脸等方面。稀疏表示框架可以较好地处理人脸图像的光照变化、遮挡以及未对准问题,但是稀疏表示人脸识别目前还仅仅是处理连续遮挡人脸的追踪或者对准的问题,还不能对上述2个问题同时处理。因此,能够同时处理对准和识别连续遮挡人脸图像的算法是将来要解决的问题。
稀疏表示人脸识别方法是稀疏表示在图像处理领域的新应用,其算法具有在没有特征提取的前提下也能获得较高识别率的优势,并且在遮挡和噪声情况下有出色表现。如何在大数据的情况下,保证精确的识别率及快速的识别能力也是将来要探究的方向之一。
[1]Turk M,Pentland A.Eigenface for recognition[J].Journalof Cognitive Neuroseienee,1991(3):71-86.
[2]Law renee S,Giles C L,TsoiAC,etal.Face recognition:a convolutionalneural-network approach[J].IEEETransactions on Neural Network,1997,8(l):98-113.
[3]LüX G,Wang YH,Jain A K.Combining classifiers for face recognition[C]//IEEE InternationalConferenceon Image Processing, Monona Terrace Convention Center,MadisonWisconsin,2003:13-16.
[4]刘小军,王东峰,张丽飞,等.一种基于奇异值分解和隐马尔科夫模型的人脸识别方法[J].计算机学报,2003,26(3):340-344.
[5]Donoho D.Compressed sensing[J].IEEETransactionsOn Information Theory,2006,52(4):289-1306.
[6]CandèsE J.Compressive sampling[C]//Proceedingsof the InternationalCongressofMathematicians.Madrid,Spain,2006:1433-1452.
[7]Chen S,Donoho D,SaundersM.Atom ic decomposition by basis pursuit[J].SIAM Review,2001,43(1):129-159.
[8]Yang AY,Wright J,MaY,etal.Feature selection in face recognition:a sparse representation perspective[R].UCBerkeley Technical ReportUCB/EECS-2007-99,2007:5-9.
[9]W right J,Yang A,Ganesh A,etal.Robust face recognition via sparse representation[J].IEEETransactions on Pattern Analysisand Machine Intelligence(PAM I),2009,31(2):210-227.
[10]杨荣根,任明武,杨静宇.基于稀疏表示的人脸识别方法[J].计算机科学,2010,37(9):267-269.
[11]Donoho D,Elad M.Optimalsparse representation in generaldictionariesvia l1minimization[J].Proceedingsof the NationalAcademy of Sciences,2003,100:2197-2202.
[12]Blumensath T,DaviesM.Gradientpursuits[J].IEEETransactionson Signal Processing,2008,56(6):2370-2382.
[13]Elad M.Sparse and redundant representations:from theory to applications in signal and image processing[M].New York: Springer-Verlag New York Inc,2010:6-15.
[14]Liu Y A,Wu F,Zhang Z H,etal.Sparse representation using nonnegative curds and whey[J].In Computer Vision and Pattern Recognition(CVPR),2010,54:3578-3585.
[15]Gao SH,Tsang IW H,Chia LT,etal.Local featuresarenot lonely-laplacian sparse coding for image classi fi cation[J].In Computer Vision and Pattern Recognition(CVPR),2010,54:3555-3561.
[16]Wang JJ,Yang JC,Yu K,etal.Locality-constrained linear coding for image classi fi cation[J].In Computer Vision and Pattern Recognition(CVPR),2010,54:3360-3367.
[17]Ram irez I,Sapiro G.Universalsparsemodeling[R]//TechnicalReport.University ofM innesota,2010:6-8.
[18]Wright J,Ma Yi.Denseerror correction via l1m inimization[J].IEEETransactionson Information Theory,2010,56(7):3540-3560.
[19]Wagner A,W right J,Ganesh A,etal.Towards a practical face recognition system:robust registration and illum ination by sparse representation[Z].In Computer Vision and Pattern Recognition(CVPR),2009:625-630.
[20]Candès E,LiX D,Ma Y,etal.Robustprincipalcomponentanalysis?[J].Journalof theACM,2011,58(3):11.
[21]Chen T,YinW,Zhou X S.etal.Totalvariationmodels for variable lighting face recognition[J].IEEETrans Pattern Analysis and Machine Intelligence(PAM I),2006,28(9):1519-1524.
[22]Zhou SH,AggarwalG,ChellappaR,etal.Appearance characterization of linear lambertian objects,generalized photometric stereo, and illum ination-invariant face recognition[J].IEEETransPattern Analysisand Machine Intelligence(PAM I),2007,29(2):230-245.
[23]LeonardisA,Bischof H.Robust recognition using eigenimages[J].Computer Vision and Image Understanding,2000,78(1):99-118.
[24]Wagner A,Wright J,Ganesh A,etal.Towards a practical face recognition system:robustalignmentand illum ination by sparse representation[J].IEEETrans Pattern Analysisand Machine Intelligence(PAM I),2012,34(2):372-386.
[25]李志星.基于图像特征的稀疏表示人脸识别算法研究[D].秦皇岛:燕山大学,2012:33-47.
[26]Martinez A.Recognizing imprecisely localized,partially occluded,and expression variant faces from a single sample per class[J]. IEEETrans Pattern Analysisand Machine Intelligence,2002,24(6):748-763.
[27]Sanja F,SkocajD,LeonardisA.Combining reconstructiveand discriminative subspacemethods for robustclassification and regression by subsampling[J].IEEETrans Pattern Analysisand Machine Intelligence,2006,28(3):337-350.
[28]Yang M,Zhang D,Yang J.Robust sparse coding for face recognition[C]//Computer Vision and Pattern Recognition(CVPR). University of Colorado atColorado Springs,2011:625-632.
[29]Duda RO,HartPE,Stork D G.Pattern classification[M].JohnWiley&Sons,2012:61-78.
[30]Ho J,Yang M H,Lim J,etal.Clustering appearancesofobjectsundervarying illum ination conditions[C]//IEEEComputer Society, Monona Terrace Convention Center.MadisonWisconsin,2003:11-18.
[31]Cootes T,EdwardsG,TaylorC.Activeappearancemodels[J].IEEETrans Pattern Analysisand Machine Intelligence,2001,23(6): 681-685.
[32]Wiskott L,Fellous J,Kuiger N,etal.Face recognition by elastic bunch graphmatching[J].IEEETrans Pattern Analysisand Machine Intelligence(PAM I),1997,19(7):775-779.
[33]Huang JZ,Huang X L,Metaxas D.Simultaneous image transformation and sparse representation recovery[C]//Proc IEEEConf Computer Vision and Pattern Recognition.Anchorage,Alaska,USA,2008:1-8.
[34]Yang JC,Yu K,Huang T.Supervised translation-invariant sparse coding[J].Proc IEEE Conf Computer Vision and Pattern Recognition,2010,55:3517-3524.
[35]YangM,Zhang L.Gabor featurebased sparse representation for face recognitionwith gaborocclusion dictionary[M].In ECCV,2010: 448-461.
[36]徐争元,张成,韦穗.稀疏表示人脸识别算法的研究与改进[J].计算机仿真,2013,30(6):405-408.
责任编辑:何莉
A Survey of Face Recognition Based on Sparse Representation
SHAN Jianhua,ZHANG Xiaofei
(SchoolofMechanicalEngineering,AnhuiUniversity of Technology,Ma'anshan 243032,China)
Sparse representation is an efficient representation method for image,and the coefficient of sparse representation has good sparsity and scalability.It can make higher recognition rate and stronger robustness of face recognition.For problems of face recognition in practical application,the sparse representation method of face recognition,and the key problems in application and their solutionswere summarized.The results show that: these problems can be solved in face recognition based on sparse representation method,such as illum ination changes,by means of addingmore train samples in different illum ination;occlusion and corrosion,bymeans of using the extend over-complete dictionary with error dictionary;m isalignment,bymeans of using linear structure iterative and using the sparsity concentration index to refuse invalid input image.To solve the problems of misalignmentand continual occlusion in same time,and to improve the recognition rate and real-time processing are the directionsof further research.
face recognition;compressed sensing;sparse representation;robustness
TP391.4
A
10.3969/j.issn.1671-7872.2014.02.018
1671-7872(2014)02-0188-07
2013-10-12
国家自然科学基金项目(51374007)
单建华(1979-),男,江西黎川人,博士,副教授,主要研究方向为数字图像处理。