基于深度学习特征的稀疏表示的人脸识别方法

2016-06-02 08:24:00马晓张番栋封举富

智能系统学报 2016年3期

关键词：字典人脸识别人脸

马晓,张番栋,封举富

(1.北京大学信息科学技术学院，北京 100871; 2.北京大学机器感知与智能教育部重点实验室，北京 100871)

基于深度学习特征的稀疏表示的人脸识别方法

马晓1,2,张番栋1,2,封举富1,2

(1.北京大学信息科学技术学院，北京 100871; 2.北京大学机器感知与智能教育部重点实验室，北京 100871)

摘要：本文针对传统的基于稀疏表示的人脸识别方法在小样本情况下对类内变化鲁棒性不强的问题，从特征的层面入手，提出了基于深度学习特征的稀疏表示的人脸识别方法。本方法首先利用深度卷积神经网络提取对类内变化不敏感的人脸特征，然后通过稀疏表示对所得人脸特征进行表达分类。本文通过实验，说明了深度学习得到的特征也具有一定的子空间特性，符合基于稀疏表示的人脸识别方法对于子空间的假设条件。实验证明，基于深度学习特征的稀疏表示的人脸识别方法具有较好的识别准确度，对类内变化具有很好的鲁棒性，特别在小样本问题中具有尤为突出的优势。

关键词：机器学习；生物特征识别；深度学习；特征学习；子空间；小样本；稀疏表示；人脸识别

人脸识别是作为一项重要的生物识别技术，在公安刑侦、企业管理、自助服务及互联网金融方面都取得了广泛的应用。实际的人脸识别系统多遇到的是小样本的人脸识别问题，即在识别中可以采集到的每个人的人脸样本相对较少，而且采集环境通常是在不可控的自然环境下进行的，人脸样本常常含有诸如光照、姿态、遮挡、表情、噪声等类内变化。如何在含有较大干扰的小样本人脸识别问题中取得鲁棒的识别结果，便成了当前许多人脸识别方面的研究工作所关心的问题。受稀疏编码[1]和子空间方法[2-3]的启发，John Wright等[4]提出了基于稀疏表示的分类方法，在含遮挡、噪声、光照的复杂环境下的人脸识别问题中取得了较好的效果。在John Wright工作的基础上，一系列基于稀疏表示的分类方法的研究取得了一定的进展，具有代表性的包括关于稀疏表示中字典学习的研究工作[5-7]，稀疏表示的快速优化策略[8-10]，和关于添加对表示系数的不同约束的工作[11-13]。其中，Lei Zhang[14]指出了在基于稀疏表示的分类方法中协同性机制的地位，并提出了使用更松弛的二范数来约束训练字典表示系数的协同表示的分类方法。为了解决小样本情况下单类训练集字典对类内变化表达不充分的问题，文献[15-18]创造性地将补偿字典引入了基于稀疏表示的人脸识别的方法中，在小样本的人脸识别问题中取得了一定的突破，但依然不能彻底分离训练集字典中类内变化产生的干扰。

传统的基于稀疏表示的方法本质上依然基于样本的灰度特征，利用稀疏线性表达来实现对类内变化分量的分离。但对于实际问题，类内变化相对比较复杂，如姿态、表情、复杂的光照，简单依靠线性表达很难将其分离出来。特别对于训练集字典极欠完备的小样本问题，凭借有限的训练样本更难实现这一目标。为了解决这一问题，本文将人脸的灰度特征通过深度神经网络非线性映射到一个特征线性子空间内，这一映射保留了样本分类相关的主要信息，去除了类内变化信息的干扰，使得映射后的特征对类内变化具有不变性且更有可区分性。然后，将该特征利用基于稀疏表示的分类方法进行表达和识别。实验证明，本文方法在具有较大类内变化的小样本问题上效果尤其突出，且对于姿态、表情这类非线性叠加的类内变化具有更好的鲁棒性。

本文提出了基于深度学习特征的稀疏表示的人脸识别方法，将深度学习特征与稀疏表示相互结合，充分发挥了深度学习在特征学习方面的优点和稀疏表示在小样本识别上的优点。通过实验，在一定程度上说明了深度学习所得的特征具有线性子空间特性，并对深度学习所得特征进行了较为系统的分析。

1相关工作

1.1基于稀疏表示的人脸识别方法

基于稀疏表示的分类方法(sparse representation based classification, SRC)[4]假设人脸图像位于线性子空间中，测试样本可以为所有类的训练样本(字典)协同线性表达，而测试样本所属类别的字典可以表示得更加稀疏(用较少的字典可以达到更好的重构)。在对表示系数增加稀疏性的约束后，求解所得的稀疏表示系数中非零项应主要为测试样本所属类别字典的对应项，因此便可以根据哪类字典可以取得对测试样本更小的重构误差来进行分类，这便是SRC的工作原理。各步骤公式如下：

SRC表示过程：

(1)

SRC分类过程：

(2)

基于稀疏表示的分类方法能够有效利用人脸图像的子空间特性，不需要大量样本进行分类器的学习，对噪声具有较好的鲁棒性。

基于稀疏表示的识别方法假设每类训练样本(字典)都必须是完备的，每类训练样本(字典)都有足够的表达能力。这一假设在具有较大干扰(如光照、姿态、遮挡等)的小样本问题中一般是不成立的。在小样本且具有较大干扰的人脸识别问题中，测试图片常常会被错分为具有相似类内变化的字典的类中，而不是具有相同外貌变化的类中。为了消除小样本情况下类内变化的干扰，文献[15-18]创造性地将补偿字典引入了基于稀疏表示的人脸识别的方法中，在小样本的人脸识别问题中取得了一定的突破，但依然不能彻底分离训练集字典中类内变化。

1.2较大类内变化干扰下的小样本人脸识别问题

为了更好地分析子空间方法中类内变化带来的影响，Tang等[19]提出了统一子空间的理论概念。统一子空间理论认为人脸图像由原型成分、类内变化成分和噪声成分线性组合而成。如式(3)和图1所示。

(3)

图1　统一人脸子空间示意Fig.1　The unified face subspace

式中：μ为与人脸相貌相关的原型成分，ν为与人脸图像的类内变化成分(如光照、姿态、遮挡等)，ε为噪声成分。在人脸识别中需要尽可能地将与分类无关的成分μ和ε与分类相关的成分μ分离开来。但通常，μ、ν和ε3个成分之间具有较强的相关性，很难通过线性表示(即便是稀疏线性表示)将其有效地分离开来，或者将v和ε有效地去除掉。以人脸的姿态变化为例，同类人脸在不同姿态下的类内差与不同人脸在统一姿态下的类内差十分接近(均在外貌轮廓处有较大的响应)，很难通过有限的样本和稀疏线性表示去除姿态对人脸图像的影响。且这一问题，在小样本的人脸图像识别的问题中，变得更加棘手。

本文将人脸样本从灰度空间投影到特征空间，然后在特征空间使用基于稀疏表示的分类方法进行识别。对于投影后的特征，需要满足如下2个条件：1)投影后的特征需要满足线性子空间特性，这样才能符合基于稀疏表示的分类方法的基本前提；2)投影后的特征对类内变化不敏感，或者消除了类内变化。为了有效解决小样本问题，我们同时期望特征的学习可以通过外部数据来完成，然后迁移到小样本的数据集上来。换句话说，也就要求所学得的特征具有一定的可迁移性。

传统的特征如HOG、SIFT、LBP等不能很好地保证人脸图像中的类内变化可以被有效地去除，特别对于诸如姿态、遮挡、表情等这类比较复杂的类内变化，同时变化后的特征一般不具有子空间特性，很难适用于基于稀疏表示的分类方法，使之发挥更大的效能。

1.3深度卷积神经网络

深度卷积神经网络(deep convolutional neural network, DCNN)是一种有监督的深度学习模型，已成为当前语音分析和图像识别领域的研究热点。 Lecun等早在1998年就提出了经典的LeNet网络[20]， Hinton等使用的大规模深度CNN[21]在Imagenet这样1 000类的分类问题上取得了非常好的结果。文献[22-25]利用CNN网络在人脸识别领域取得了较大的突破，成为目前工业界和学术界的主流算法。卷积网络的核心思想是局部感受野、权值共享(或者权值复制)以及时间或空间亚采样。CNN通常使用最后一层全连接隐层的值作为对输入样本所提取的特征，通过外部数据进行的有监督学习，CNN可以保证所得的特征具有较好的对类内变化的不变性。

为了更有效地解决复杂类内变化条件下的小样本人脸识别问题，本文结合近年来被深入研究和广泛应用到各类视觉问题的深度卷积网络，使用深度学习的方法来提取特征，然后与基于稀疏表示的方法相结合。使用深度学习得到的特征被诸多实验证明具有较好的可分性和迁移性，并对类内变化具有较好的鲁棒性。但其是否具有子空间特性这一问题却很少被人关注。本文利用实验的方式，在一定程度上证明了深度学习所得的人脸特征具有较好的子空间特性，而且具有可迁移性和对类内变化的不变性。

2基于深度学习特征的稀疏表示的人脸识别方法

本文结合基于深度学习的特征提取方法和基于稀疏表示的人脸识别方法，提出了兼顾二者所长的基于深度学习特征的稀疏表示的人脸识别方法(sparse representation via deep learning features based classification,SRDLFC) 。SRDLFC对于含较大类内变化的小样本人脸识别问题具有较大的优势。

2.1SRDLFC整体流程

SRDLFC方法包括网络学习和样本识别两个过程，样本识别过程包括特征提取和稀疏分类两个环节，其中特征提取所用的CNN网络需要通过外部数据进行有监督的学习和训练。整体流程如图2。

图2　SRDLFC方法流程图Fig.2　The process of SRDLFC method

基于深度学习特征的稀疏表示的人脸识别方法(SRDLFC)如下。

1)网络学习过程：

①利用外部数据学习特征提取的CNN网络f(y).

2)样本识别过程：

①对于测试样本y，通过特征提取网络提取深度学习特征y′=f(y)。

②对y′用特征空间的训练集字典X′进行稀疏表示，得表示系数α′:

③通过训练集字典对测试样本的表示残差进行分类:

2.2基于深度学习的特征提取方法

SRDLFC方法的特征提取过程是通过深度卷积神经网络完成的，本文所用的CNN网络结构如图3所示。

图3　SRDLFC特征提取网络结构Fig.3　The structure of SRDLFC’s feature extraction network

网络各层具体参数如表1所示。

表1　SRDLFC特征提取网络具体结构

该网络训练中使用的Dropout概率为50%，激活函数为Relu。

本文使用CASIA数据集[26]进行训练，数据集为不受控环境下采集到的人脸图像，包含光照、遮挡、姿态。我们选用前7 000类约39万人脸图像作为数据进行有监督学习，监督学习中输出为各类的标签。图像使用DLIB开源库[27]定位68个特征点，然后进行人脸对齐。我们使用FC1层作为人脸特征，使用cosine距离作为人脸特征的相似度度量，在LFW数据库上测试得到了96.75%±0.57%人脸认证准确率，充分证明网络学到的特征不仅拥有极强的判别性，而且具有良好的迁移性。

3基于深度学习的人脸特征分析

在基于深度学习特征的稀疏表示的人脸识别方法SRDLFC中，要求特征满足线性子空间特性，且具有对类内变化的不变性、较好的迁移性和可分性。下面对SRDLFC中所提取的深度学习特征进行分析和讨论。

3.1深度学习特征对类内变化的不变性与可区分性

SRDLFC中特征提取CNN网络的各层卷积核如图4所示。

图4　SRDLFC特征提取网络的第一层卷积核示意　Fig.4　The first level’s convolutional filters of SRDLFC’s feature extraction network

从图4可以看出，CNN底层主要提取一些与边缘、角度、轮廓相关信息，具有一定的通用性。CNN高层逐渐提取出一些图像结构的信息。

以AR数据集的人脸图像为例，将10类人脸样本的深度学习特征进行可视化，如图5所示(每一列代表一个样本的特征，每张子图对应一类人脸)。同一类的样本，在经过多层卷积和池化后，得到的特征图是相似的，各个子图有明显的横线纹理(说明同类对应项上的特征值比较相似)，说明深度学习特征具有对类变化较好的不变性。而不同类的样本的特征图明显差异很大，这在一定程度上说明了CNN所提取的特征具有较好的可分性。

图5　人脸图像的深度学习特征可视化图Fig.5　The visualization deep learning face features

3.2深度学习特征的子空间特性

SRDLFC将深度学习的特征与基于稀疏表示的人脸识别方法相结合，要求特征空间满足人脸线性子空间的假设。CNN特征提取网络实现了人脸灰度空间到深度学习特征空间的非线性映射，不一定能保证所得特征满足人脸子空间假设。为了验证这一问题，本文进行如下说明实验。

选择AR中图像作为测试样本，对特征空间中任一个人脸样本，将其用同类的特征空间内的人脸样本做稀疏线性表达，记录重构误差所占样本能量的百分比；对特征空间中任一人脸样本，将其用所有类的特征空间内的人脸样本做稀疏线性表达，记录重构误差所占样本能量的百分比。训练集字典大小为每类20项。实验统计结果如表2所示。

表2　深度学习特征的类内差类间差分布

在SRDLFC的稀疏线性表示的过程中得到的表示系数示例如图6。

(a)示例样本1

(b)示例样本2

(c)示例样本3

(d)示例样本4图6　SRDLFC在稀疏表示过程中的表示系数示例Fig.6　The represent coefficients in SRDLFC’s representation process

根据表2和图6，可以看到在特征空间内的人脸样本可以很好地被本来样本线性表达，满足子空间的条件。且其在被其他类样本协同线性表达过程中，表达是稀疏的，且同类样本表达更加稀疏，符合稀疏表示分类方法的适用条件。实验说明，深度学习特征具有一定的线性子空间特性。多层卷积和池化的非线性操作也有助于将人脸样本投影到一个更好的线性子空间中。在这样的线性特征子空间中，使用基于稀疏表示的分类方法进行分类识别，具有更高的鲁棒性和更好的识别效果。

4实验结果及分析

本文选择AR和CMU PIE人脸数据库进行识别实验，对应不同类内变化环境下的人脸识别情况。

4.1AR 人脸数据库识别实验

AR数据库包含大约100人的彩色图像(每人约50张)，含有光照、遮挡、表情的类内变化的干扰。图像使用DLLIB开源库进行人脸对齐。本文随机选择每类1～25张人脸图像作为训练集字典，其余图像做测试集，10次实验取平均值。对比方法为灰度特征+最近邻分类(Pixel+NN)、灰度特征+Bayesian方法(Pixel+Bayesian)、灰度特征+稀疏表示分类方法(Pixel+SRC)、深度学习特征+最近邻分类(DL+NN)、深度学习特征+Bayesian方法(DL +Bayesian)、深度学习特征+稀疏表示分类方法(DL +SRC，SRDLFC)。所得识别率结果如表3和图7所示。

表3　AR数据库中人脸识别结果 (每类字典数1～7)

图7　AR数据库中人脸识别结果Fig.7　Recognition results in AR

4.2CMU PIE 人脸数据库识别实验

CMU-PIE数据库包含68人的41368张彩色图像(每人约50张)，含有13种姿态、43种光照、4种表情的类内变化的干扰。图像使用DLIB开源库进行人脸对齐。

本文随机选择每类1-25张人脸图像作为训练集字典，其余图像做测试集，10次实验取平均值。对比方法同4.1章节。所得识别率结果如表4和图8所示。

表4　CMU PIE数据库中人脸识别结果 (每类字典数1～7)

图8　CMU PIE数据库中人脸识别结果Fig.8　Recognition results in CMU PIE

通过实验可以看到，基于深度学习特征的各类方法在较大类内变化干扰的环境下均能有较大的提升，特别是本文提出的基于深度学习特征的稀疏表示的人脸识别方法，取得了较各类方法更加优越的效果。SRDLFC较传统的各类方法能够提升 6%～60%，尤其在小样本情况下更为明显，体现了稀疏表示的特征具有较好的子空间特性、可分性、可迁移性及对类内变化的不变性。而基于稀疏表示分类框架的应用，更加有助于提升深度学习特征的分类准确率，在较大类内变化的小样本的人脸识别问题中具有更大的优势。

5结束语

本文针对较大类内变化干扰下的人脸识别问题，提出了基于深度学习特征稀疏表示的人脸识别方法SRDLFC。本文充分分析论证了基于深度学习所提取的人脸特征基本满足线性子空间假设，并具有较好的可分性、可迁移性及对类内变化的不变性。本文将基于深度学习的特征应用到稀疏表示的分类框架中，充分发挥两者优点，实现识别率的提升。本文提出的SRDLFC算法，可以有效地应对光照、姿态、表情、遮挡等类内变化带来的干扰，且在小样本问题中具有较大的优势。未来的研究工作将进一步对深度学习特征进行研究分析，通过改进网络结构和损失函数，使网络所得特征更加满足线性子空间约束，进一步提升SRDLFC的识别效果，并尝试做一些理论上的推导工作。满足线性子空间约束，进一步提升SRDLFC的识别效果，并尝试做一些理论上的推导工作。

参考文献:

[1]DONOHO D L. Compressed sensing[J]. Information theory, 2006, 52(4): 1289-1306.

[2]LEE K C, HO J, KRIEGMAN D. Acquiring linear subspaces for face recognition under variable lighting[J]. Pattern analysis and machine intelligence, 2005, 27(5): 684-698.

[3]NASEEM I, TOGNERI R, BENNAMOUN M. Linear regression for face recognition[J]. Pattern analysis and machine intelligence, 2010, 32(11): 2106-2112.

[4]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. Pattern analysis and machine intelligence, 2009, 31(2): 210-227.

[5]AHARON M, ELAD M, BRUCKSTEIN A. K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation[J]. Signal processing, 2006, 54(11): 4311-4322.

[6]YANG M, ZHANG L, YANG J, et al. Metaface learning for sparse representation based face recognition[C]// Proceedings of the IEEE International Conference on Image Processing, Hong Kong, China, 2010, 119(5):1601-1604.

[7]YANG M, ZHANG D, FENG X, et al. Fisher discrimination dictionary learning for sparse representation[C]// Proceedings of the IEEE International Conference on Computer Vision. Barcelona, Spain, 2011, 24(4):543-550.

[8]YANG J, ZHANG Y. Alternating direction algorithms for l1-problems in compressive sensing[J]. arXiv: 0912.1185, 2009, (1):250-278.

[9]UJDAT D M, MALIOUTOV D M, ÇETIN M, et al. Homotopy continuation for sparse signal representation[C]// Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing,Philadelphia, USA, 2005:733-736.

[10]KOH K, KIM S J, BOYD S P. An interior-point method for large-scale l1-regularized logistic regression[J]. Journal of machine learning research, 2007, 8(8): 1519-1555.

[11]LIU Y, WU F, ZHANG Z. Sparse representation using nonnegative curds and whey[C]// Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010, 119(5):3578-3585.

[12]GAO S, TSANG I W, Chia L, et al. Local features are not lonely-laplacian sparse coding for image classification[C]// Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010, 23(3):3555-3561.

[13]FISER J, BERKES P, WHITE B. No evidence for active sparsification in the visual cortex[C]// Advances in Neural Information Processing Systems,Vancouver, B.C., Canada, 2009: 108-116.

[14]ZHANG D, YANG M, FENG X. Sparse representation or collaborative representation: which helps face recognition?[C]// Proceedings of the IEEE International Conference on Computer Vision. Barcelona, Spain, 2011, 6669(5):471-478.

[15]DENG W, HU J, GUO J. Extended SRC: undersampled face recognition via intraclass variant dictionary[J]. Pattern analysis and machine intelligence, IEEE transactions on, 2012, 34(9): 1864-1870.

[16]GUO J. In defense of sparsity based face recognition[C]// Proceedings of the IEEE International Conference on Computer Vision. Sydney, NSW, Australia, 2013, 9(4):399-406.

[17]SU Y, SHAN S, CHEN X, et al. Adaptive generic learning for face recognition from a single sample per person[C]// Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2699-2706.

[18]WEI C, WANG Y-F. Learning auxiliary dictionaries for undersampled face recognition[C]// Proceedings of the IEEE International Conference on Multimedia and Expo.San Jose, California, USA, 2013, 2013:1-6.

[19]WANG X, TANG X. Unified subspace analysis for face recognition[C]// null. Proceedings of the IEEE International Conference on Computer Vision. Nice, France, 2003:679-686.

[20]LECUN Y L, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition. Proc IEEE[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

[21]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Advances in Neural Information Processing Systems.Lake Tahoe, Nevada, USA, 2012, 25:2012.

[22]TAIGMAN Y, YANG M, RANZATO M A, et al. Deepface: Closing the gap to human-level performance in face verification[C]// Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 1701-1708.

[23]SUN Y, WANG X, TANG X. Deeply learned face representations are sparse, selective, and robust[J]. arXiv: 1412.1265, 2014.

[24]SZEGEDY C, LIU W, JIA Y, ET AL. Going deeper with convolutions[J]. arXiv: 1409.4842, 2014.

[25]SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering[J]. arXiv preprint arXiv:1503.03832, 2015.

[26]YI D, LEI Z, LIAO S, ET AL. Learning face representation from scratch[J]. arXiv preprint arXiv:1411.7923. 2014.

[27]V. KAZEMI AND J. SULLIVAN. One millisecond face alignment with an ensemble of regression trees[C]// Pro-

ceedings of the IEEE International Conference on Computer Vision and Pattern Recognition.Columbus, OH, USA, 2014:1867-1874.

马晓,男,1990 年生,博士研究生,主要研究方向为机器学习、模式识别和子空间理论。

张番栋,男,1991 年生,博士研究生,主要研究方向为机器学习和生物特征识别。

封举富,男,1967 年生,教授,博士生导师，博士,主要研究方向为图像处理、模式识别、机器学习和生物特征识别。主持参与国家自然科学基金、教育部新世纪优秀人才支持计划、“十一五”国家科技支撑计划课题、973计划等多项项目。曾获中国高校科技二等奖等多项奖励。

中文引用格式：马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J]. 智能系统学报， 2016, 11(3): 279-286.

英文引用格式：MA xiao, ZHANG fandong, FENG Jufu.Sparse representation via deep learning features based face recognition method[J]. CAAI transactions on intelligent systems, 2016,11(3): 279-286.

Sparse representation via deep learning features based face recognition method

MA Xiao1,2, ZHANG Fandong1,2, FENG Jufu1,2

(1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China; 2.Key Laboratory of Machine Perception (Ministry of Education) Department of Machine Intelligence, Peking University,Beijing 100871, China)

Abstract：Focusing on the problems that the traditional sparse representation based face recognition methods are not quite robust to intra-class variations, a novel Sparse Representation via Deep Learning Features based Classification (SRDLFC) method is proposed in this paper, employing a deep convolutional neural network to extract facial features and a sparse representation based framework to make classification. Experimental results in this paper also verifies the features extracted from deep convolutional network do satisfy the linear subspace assumption. The proposed SRDLFC proves to be quite effective and be robust to intra-class variations especially for under-sampled face recognition problems.

Keywords：machine learning; biometric recognition; deep learning; feature learning; subspace; under-sampled recognition; sparse representation; face recognition

作者简介：

中图分类号：TP391.4

文献标志码：A

文章编号：1673-4785(2016)03-0279-08

通信作者：马晓. E-mail: maxiao2012@pku.edu.cn.

基金项目：国家自然科学基金项目(61333015); 国家重点基础研究发展计划(2011CB302400).

收稿日期：2016-03-16.网络出版日期：2016-05-13.

DOI:10.11992/tis.2016030

网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0919.012.html