付宇贤, 彭良玉, 彭 辉
(湖南师范大学物理与信息科学学院,湖南 长沙 410081)
融合Gabor特征与投影字典对学习的人脸识别算法
付宇贤, 彭良玉, 彭辉
(湖南师范大学物理与信息科学学院,湖南 长沙 410081)
为了获得更好的人脸特征,有效地提高算法的识别率,提出了一种联合Gabor特征与投影字典对学习的人脸识别算法G-DPL。算法使用Gabor小波提取人脸图像的局部特征,对特征向量使用PCA与LDA的方法进行降维。将投影字典对学习算法与降维后的Gabor特征融合,然后进行分类识别。提出的G-DPL算法在ORL库上整体识别率达到99.00%,特征维数为39维。在AR库上识别率达到96.14%,特征维数为99维。提出的G-DPL算法在占用较少空间的同时能够获得更高的识别率,对实际应用具有一定的参考价值。
人脸识别;Gabor;投影字典对
人脸识别作为计算机视觉与模式识别领域最常见且最具有挑战性的课题,已经被学者们广泛研究了几十年[1-4],提出了许多有代表性的方法,具有显著的研究价值。识别算法的精度与鲁棒性在很大程度上取决于使用什么样的特征来描述人脸。Turk 和Pentland[1]提出了Eigenface的识别方法,通过将人脸图像数据投影到一个子空间,可降低原本的数据维度,而降低了维度的数据之间方差最大,并使用最近邻分类器进行分类。获得了较为理想的识别效果,被认为是人脸识别领域最经典的算法之一,奠定了子空间人脸识别算法的基础。Belhumeur等[2]的Fisherface方法是将带上标签的人脸图像数据,通过投影的方式,投影到维度更低的空间中,使得投影后类别内的数据距离更加集中,类别间的数据距离更加分散,也获得了不错的识别效果,但是,这些特征在遇到表情光照等改变时,识别率与鲁棒性下降很快。Liu和Wechsler[5]提出的Gabor特征Fisher分类方法,通过计算每个像素点的Gabor特征,然后使用增强的判别分析方法进行识别,为了解决Gabor特征维数过高,采用了PCA的方法进行降维,取得了良好的识别效果。
近年来,稀疏表征理论在图像处理与模式识别中的应用引起了广泛的研究兴趣,W right等[6]将基于稀疏表示的分类算法(sparse representation classification, SRC)应用到人脸识别算法中,并且建立了分类问题的SRC框架。SRC算法用训练样本构成字典矩阵,通过l1范数最小化来计算测试样本相对于字典矩阵的稀疏表示系数,根据各类别对应的稀疏系数计算重构误差,把测试样本分在最小距离对应的类别中。为了加快算法运行时间,Zhang 等[7]指出了 SRC算法的成功实际上归因为协同表示,而不是l1范数的稀疏性约束。l1范数的稀疏性约束使得SRC算法的计算代价相当高,为了降低计算代价,提出了协同表示的人脸识别算法。在信号的稀疏表示过程中,字典扮演了重要的角色,Yang 等[8]提出的FDDL算法,通过对编码残差与编码系数应用Fisher准则,取得了不错的分类效果,在大多数基于字典的算法中,都要使用l0或者l1范数最小化求解编码系数,使得计算代价相当大,为此,Gu等[9]提出了投影字典对学习的算法,在提高识别性能的同时降低了时间的复杂度。为了获得更好地识别性能,本文将Gabor特征引入投影字典对学习的算法中,获得了更加精准的分类效果。
1.1Gabor小波变换的纹理特征描述
文献[10]已证明了Gabor特征描述能够取得非常好地识别效果,其具有优良的空间局部性和方向选择性,并可很好地抓住图像的局部特征。2D-Gabor 小波的核函数定义为:
其中,方括号中的第一项决定了Gabor核的震荡部分,第二项则为补偿直流分量,用以消除核函数相应对图像亮度绝对值的依耐性。x、y 表示像素点的坐标值,u代表Gabor 小波的方向,k表示总方向数,v代表 Gabor 小波的尺度因子,参数的取值决定了高斯窗口的大小,这里取σ=2π。对于人脸纹理特征提取,通常选取 5个尺度,8个方向。Gabor滤波可以看作一个对方向和尺度敏感的有方向性的显微镜[11],能够对人脸图像产生强烈的响应。对ORL库中的任意一幅图像进行5个尺度,8个方向上的Gabor 纹理特征提取,图1为经采样得到的Gabor核函数的实部在空域中的图示,从图上可以明显地看出尺度与方向的变化导致滤波器的变化情况。原始图像为图2所示,图3为原始图像与图1中相应位置的Gabor核函数进行卷积得到的幅值。
图1 常用的5个尺度(自上而下v分别为0~4),8个方向(自左而右u分别为0~7)Gabor核的实部图示
图2 原始图像
图3 40个Gabor 小波幅值图谱
1.2投影字典对学习
假设X=[ X1,…, Xk,…,XK]表示K个人的p维训练样本,其中Xk∈Rp× n是训练样本集的类别k,而 n是每一个类别的样本个数。传统的字典学习如下式:
其目的在于学习一个分析字典D来稀疏表示信号X,但是传统的字典模型都使用了l0或l1范数来求解编码系数,耗费了大量的时间。Gu等[9]提出了新颖的字典对学习模型,编码系可以通过简单的线性投影获得,大大节省了算法时间。字典对模型如下式:
其中,ψ(D, P, X, Y)是一些判别函数,D与P形成一个字典对,分析字典P用来分析编码X,综合字典D用来重构X。字典对学习的判别能力依靠的是合适的判别促进函数ψ(D, P, X, Y)的设计。依据文献[9]的分析,字典对的模型可以进一步化为:
1.3融合 Gabor特征与投影字典对学习的算法
稀疏编码过程可看成一个强大的分类器,对于更好的特征可以得到更加精准的分类。Gabor特征向量是一个描述局部特征能力非常强的特征向量,张宏星等[12]将Gabor特征与协同表示的算法相结合,取得了不错的效果。本文将Gabor特征引入投影字典对学习算法的框架中,提出了融合Gabor特征与投影字典对学习的人脸识别算法。该算法的过程如下:
Gabor小波与投影字典对学习分类流程。
输入:提取训练图像与测试图像的Gabor特征,使用PCA与LDA进行降维,得到较低维数的K类训练样本X=[X1, X2,…XK],测试样本y,设置参数λ、τ、m。
1. 使用Frobenious范数初始化D(0)和P(0),t=0;
2. while 不收敛do;
3. t←t+1;
4. for i=1: K do;
5. 更新Ak(t)通过公式:
8. end for;
9. end while;
输出:分析字典P,综合字典D。
分类:计算测试样本y所属的类别:
在ORL与AR人脸库上进行验证本文所提出的实验方法。实验平台:Matlab2012a,台式计算机:Windows 732位,四核3.30 GHz,4 GB内存。
ORL人脸库包含40个人的400幅正面图像,每幅图像大小为112×92。部分图像如图4所示,包含了表情、光照、姿态的变化。随机选取每个人的5幅图像用于训练,剩下的5幅图像用于测试。测试结果如表1所示。为了消除随机性,本次实验重复5次,取平均识别率。
图4 ORL人脸库中部分图像
表1 ORL上测试结果
AR人脸库包含126个人的4 000幅正面图像,都是在不同光照条件下采集的,部分原始图像如图 5所示。与文献[7]相同,本文将图像裁剪为60×43,使用由50个男性和50个女性组成的子集,每个人的 7幅在光照与表情改变条件下采集的图像作为训练图像,每个人的另外 7幅在光照与表情改变条件下采集的图像作为测试图像,测试结果如表2所示。
图5 AR人脸库中部分图像
表2 AR上测试结果
所有用来对比的算法中的参数统一与参考文献中一致。本文在提取Gabor特征之后,使用PCA 与LDA的方法降维。其他参数与文献[9]一致。经验时间为一个样本从特征提取到识别完成所用时长,不包含训练时间。
由表1和表2的数据可看出,在ORL与AR人脸库上,本文提出的算法具有最佳的识别效果,在ORL上的特征维数为39维,在AR人脸库上的特征维数为99维。其中文献[6-8]在AR人脸库上获得最高识别率的特征维数为300维,而文献[9]中的随机脸会占用比文献[6-8]更多的空间,尽管算法运行速度不及文献[9],但相对于文献[6], [8]等亦具有优势。
字典的使用在稀疏编码过程中扮演着重要的角色,然而许多字典学习模型仅仅使用表示系数或表示冗余的判别信息。文献[8]提出了一个于Fisher判别准则的字典学习,字典中的原子与样本的类别相关,不但编码冗余能够被用来区分不同的类别,而且编码系数有较小的类内散布和较大的类间散布。虽然获得了较高的识别率,但是l0或l1范数的使用,使得算法的计算负担比较大。Gabor特征在增强人脸特征的同时,对图像在一定范围内的局部变化具有一定的容忍度,因为Gabor滤波能够获得图像的一些相应的方向频率信息以及局部的显著特征。文献[12]的结果充分说明了局部特征与稀疏编码算法融合的有效性,在提高识别率的同时加快了算法的运行速度。而文献[9]的结果充分说明了投影字典对学习相对于目前提出的字典学习算法的优势,不管是在识别率还是算法的运行速度方面都是最佳的。
本文提出了一种融合Gabor特征与投影字典对学习的人脸识别算法。首先提取人脸图像的 Gabor特征,使用PCA与LDA的方法对高维的数据进行降维,将降维的数据引入投影字典对学习的框架中进行分类。在标准人脸数据库上进行测试,实验结果表明,该算法在占用较低空间和消耗较少时间的同时提高了识别率,说明了算法融合的可行性与有效性。但该算法相比于某些算法会消耗更多的时间。
进一步研究内容包括:①研究类似的纹理描述算子与稀疏编码组合,比如LGBP[13]、MBP[14]等,获得更优的识别效果。②寻求更加简单鲁棒的算法融合,使得非理想条件下算法识别率与算法的鲁棒性提高。③找到更加有效的特征描述也是未来研究人脸识别的方向之一。
[1] Turk M, Pentland A. Eigenfaces for recognition [J]. Cognitive Neuroscience, 1991, 3(1): 71-86.
[2] Belhumeur P N, Hespanha J P, Kriengman D J. Eigenfaces vs. fisherfaces: recognition using class specific linear projection [J]. Pattern Analysis and Machine Intelligence, 2013, 19(7): 711-720.
[3] Gao S H, Kui J, Zhuang L S, et al. Neither global nor local: regularized patch-based representation for single sample per person face recognition [J]. International Journal of Computer Vision , 2015, 111(3): 365-383.
[4] 陈皓, 霍星. 视频监控中人脸识别算法稳定性的改进[J]. 图学学报, 2011, 32(6): 53-56.
[5] Liu C J, Wechsler H. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition [J]. Image Processing, 2002, 11(4): 467-476.
[6] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse representation [J]. Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[7] Zhang L, Yang M, Feng X C. Sparse representation or collaborative representation: which helps face recognition? [C]//IEEE International Conference on Computer Vision. New York: IEEE Press, 2011: 471-478.
[8] Yang M, Zhang L, Feng X C, et al. Fisher discrimination dictionary learning for sparse representation [J]. Computer Vision, 2014, 109(3): 209-232.
[9] Gu S H, Zhang L, Zuo W M, et al. Projective dictionary pair learning for pattern classification [J]. Neural Information Processing Systems, 2014, 1: 793-801.
[10] 山世光. 人脸识别中若干关键问题的研究[D]. 北京:中国科学院计算技术研究所, 2004.
[11] Lee T S. Image representation using 2d Gabor wavelets [J]. Pattern Analysis and Machine Intelligence, 1996, 18(10): 959-971.
[12] 张宏星, 邹刚, 赵键, 等. 基于Gabor特征与协同表示的人脸识别算法[J]. 计算机工程与设计, 2014, 35(2): 665-670.
[13] Zhang W C, Shan S G, Gao W, et al. Local Gabor binary pattern histogram sequence (LGBPHS): a novel non-statistical model for face representation and recognition [J]. Computer Vision, 2005, 1(1): 786-791.
[14] Yang M, Zhang L, Zhang L et al. Monogenic binary pattern (MBP): a novel feature extraction and representation model for face recognition [C]//IEEE Conference Computer Pattern Recognition. New York: IEEE Press, 2010: 2680-2683.
Face Recognition Methods Fusing Gabor Feature and Projective Dictionary Pair Learning
Fu Yuxian,Peng Liangyu,Peng Hui
(College of Physics and Information Science, Hunan Normal University, Changsha Hunan 410081, China)
In order to obtain better face features and enhance the recognition rate of algorithm, a face recognition algorithm based on Gabor feature and projective dictionary pair learing named G-DPL is proposed in this paper. The local feature of face image are extracted by Gabor wavelet and PCA and LDA scheme is used to reduce the feature dimension. Projective dictionary pair learning algorithm and dimensionality reduced Gabor feature are fused to identify the classification. The recognition rate of G-DPL algorithm can reach 99.00% under ORL database. Featuredimensionality is 39. G-DPL can reach 96.14% on AR database. Feature dimensionality is 99. The proposed G-DPL algorithm can obtain higher recognition rate while taking up less space, which has certain reference value for practical application.
face recognition; Gabor; projective dictionary pair
TP 391.4
10.11996/JG.j.2095-302X.2016020214
A
2095-302X(2016)02-0214-04
2015-04-02;定稿日期:2015-10-23
付宇贤(1989–),男,湖南岳阳人,硕士研究生。主要研究方向为数字图像处理与模式识别。E-mail:363533517@qq.com
彭良玉(1965–),女,江西九江人,教授,博士,硕士生导师。主要研究方向为数字图像处理。E-mail:liangyu_peng@163.com