改进的基于DCT与局部保持投影的人脸识别方法

2014-03-28 05:11王永茂

华中师范大学学报（自然科学版） 2014年2期

王永茂，赵珊

（1.河南理工大学计算机科学与技术学院，河南焦作454003；2.北京科技大学自动化学院，北京100083）

人脸识别由于其在身份识别、检索、安全监控等方面的应用前景，已成为模式识别和人工智能领域的一个研究热点.近年来，基于表观的人脸识别方法，尤其是子空间方法，得到了迅速的发展，众多学者提出了许多识别方法，如主元成分分析（Principle Component Analysis，简称PCA）［1］和线性判别分析（Linear Discriminant Analysis，简称LDA）［2］.应用PCA方法和LDA方法的一个前提是样本服从多元正态分布，有研究表明，人脸图像很可能位于一个低维的非线性流形上［3］，不一定服从正态分布，在这种情况下，PCA和LDA方法可能失效.近年来，局部保形投影（Locality Preserving Projection，简称LPP）［4］被应用到人脸识别中，与PCA及LDA相比，LPP在投影时能够保持样本的局部结构，将人脸图像投影到一个反映其本质的流形结构上，其性能与LDA相当，远优于PCA［5］.然而，由于训练样本个数有限，样本维数往往远大于样本的个数，标准的LPP算法通常陷入小样本问题，因此在应用LPP之前往往利用PCA对样本进行降维，这样就会丢失一些有用的鉴别信息，同时，执行PCA计算复杂度较高.

离散余弦变换（DCT）是信号处理过程中常见的一种时域频域变换，广泛应用于语音及图像数据压缩领域［6］.DCT的数据压缩能力与PCA相当，并具有快速算法，可以大大降低计算复杂度.为此文献［7］提出了一种DCT与LPP相结合的人脸识别方法，利用DCT代替PCA进行降维，然后在低维空间中利用LPP进行特征抽取.在基于DCT的人脸识别方法中，DCT系数的数量与所取得的识别率并不成正比，因此如何选择最有效的DCT系数作为识别特征是这类算法的关键问题，现有的基于DCT的人脸识别［7－9］方法都是按正方形或“Z”字形顺序选择低频DCT系数作为特征进行人脸识别.为了更好反映数据的流形结构，本文以局部保持能力判据作为DCT系数选择的依据，对DCT与LPP相结合的人脸识别方法进行改进.

1 局部保形投影

LPP是特征提取的最有效的方法之一，是非线性子空间学习算法拉普拉斯映射（Laplacian Eigenmap，简称LE）的线性近似算法.在识别问题中，两个样本的欧式距离越小，其相似度越高，那么同属一个类别的可能性就越大，因此LPP的目标是寻找一个转换矩阵V将高维空间RD中的数据集X＝｛x1，x2，…，xn｝映射为低维空间Rd（d≪D）中的数据集Y＝｛y1，y2，…，yn｝，即yi＝VTxi，i＝1，2，…，n，使得在RD空间内互为近邻的两点经V映射后在Rd空间中仍互为近邻，LPP的目标公式为

其中，W＝［Wij］为权值矩阵，Wij的取值为

其中，σ为经验值，Nk（xj）表示样本xj的k近邻集合，W的定义体现了样本的局部信息，即与xi和xj是否为近邻点有关.

根据文献［3］的推导，最小化式（1）可以通过求解式（3）对应的广义特征值问题得到，

其中，D为对角矩阵，其对角元素为W的行（或列）元素之和，即矩阵，L＝D－W.v为V的列向量.假定v1，v2，…，vd为式（3）最小的d个特征值对应的特征向量，则最优的转换矩阵Vopt为

LPP得到的线性映射为

2 离散余弦变换

对于一幅M×N的图像I （x，y）矩阵，其离散余弦变换定义为：

其中，C（u，v）为矩阵I（x，y）的DCT系数.u＝0，1，…，M－1，v＝0，1，…，N－1，a（u），a（v）分别定义为

经过DCT变换后，图像的二维DCT系数构成一个与原图像大小相同的矩阵.人脸图像及其DCT系数分布情况如图1所示.

从图1（b）的DCT系数分布情况可以看出，矩阵左上角的数值较大，代表了图像信息的低频分量，是人脸图像信息的主体部分；而右下角数值较小，代表了图像信息的高频分量，主要反映人脸图像的细节部分.因为人眼对图像信息的低频分量具有较高的视觉灵敏度，可以按照图2（a）所示的选取矩阵左上角n×n正方形子块内的低频DCT系数或按图2（b）所示的“Z”字形顺序选择低频的DCT系数，从而达到压缩图像的目的.

图1 人脸图像及DCT系数Fig.1 Face image and DCT coefficient

图2 DCT系数选择方法Fig.2 DCT coefficient selection method

3 局部保持能力判据

正方形与“Z”字形特征选择方法基本上是选择低频DCT系数作为识别特征，这些特征并不能很好反映样本流形结构，本文采用拉普拉斯值（Laplacian Score，简称LS）作为局部保持能力判据选择能更好刻画样本流形结构的DCT系数.

LS用于评价特征的局部保持能力，在本质上与LPP相似［10，11］.令fri为第i个样本xi的第r个特征，i＝1，2，…，n，LS计算过程如下：

1）构造一个有n个顶点的近邻图G，第i个顶点对应样本xi.如果样本xi与样本xj互为近邻点，那么xi与xj之间有一条边相连；

2）如果xi与xj相连，则边的权值由两个样本点的相似度确定，即Wij＝exp（－‖xi－xj‖2／2σ2），其中σ为经验值，否则Wij＝0，权值矩阵W体现了样本的局部信息；

3）对于第r个特征fr＝［fr1，fr2，…，frn］T，其LS值定义为

其中，Var（fr）为第r个特征的方差，经过简单变形，式（9）变为

4 最近邻分类器以及人脸识别方法

最近邻是分类器是最简单的一种分类器，对于测试样本，计算其到各训练样本的距离，测试样本所属类别为与测试样本距离最近的训练样本所属的类别.

图3 基于DCT和局部保持投影的人脸识别流程Fig.3 Procedure of facerecognition base on the DCT and LPP

为了挑选出更有效的特征，引入特征选择算法，根据局部保持能力判据确定哪些DCT系数作为识别特征.本文提出的基于DCT和局部保持投影的人脸识别方法如图3所示，包括两个阶段：训练阶段和识别阶段.

在训练阶段，首先对训练集中每一幅人脸图像进行离散余弦变换，得到DCT系数；然后分别在不同频率的DCT系数上计算其LS值作为局部保持能力判据，按LS值从小到大进行排序；将LS值较小的DCT系数作为人脸的特征执行LPP算法，得到最佳变换矩阵和训练样本的识别特征.

在识别阶段，对于一幅待识别的人脸图像，首先对图像进行离散余弦变换，求出其DCT系数；然后按训练过程中选定的顺序选取DCT系数，并将所选定的DCT系数向训练过程中确定的最佳变换矩阵投影，获得识别特征.最后利用最近邻分类器对人脸图像进行分类，即待识别人脸图像所属类别为与待识别人脸图像的识别特征距离最近的训练人脸图像所属的类别.

5 实验

为了验证所提出算法的性能，本节设计两类实验，实验1比较不同特征选择方法的识别效果.实验2比较本文提出的方法与其它人脸识别方法的识别性能.实验在ORL人脸库上进行，该人脸库是由英国剑桥大学建立，共有40个人，每人10张图像，共有400张人脸图像，图像的面部表情和面部细节有着不同程度的变化，人脸姿势也有相当的程度变化，比较充分的反映了同一人不同人脸图像的变化和差异.实验使用的人脸图像经剪切后大小均为64×64，然后将两个人脸库中的每个图像进行标准化.图4是ORL人脸库的部分人脸图像.

图4 ORL人脸库Fig.4 ORL face database

5.1 不同特征选择方法的识别效果的比较

从每类人脸图像中随机选取5幅图像作为训练人脸集，其余的图像作为测试人脸集.先对样本进行离散余弦变换，然后分别按照正方形、“Z”字形、局部保持能力判据等3种方式对DCT系数进行选择，接着在对选定的DCT系数执行局部保持投影，提取人脸特征，采用最近邻分类器完成最后的分类任务，每组实验都重复10次，取平均值作为最终的识别结果，实验结果如图5所示.

从图5可以看出，基于正方形的DCT选择方法，在使用81个DCT系数时，达到了该方法最高识别率95.85%；基于“Z”字形的DCT选择方法，同样也是在使用81个DCT系数时，达到了该方法的最高识别率95.95%；而本文采用的基于局部保持能力判据的DCT系数选择方法，在使用49个DCT系数时，就达到了最高识别率97.05%.所以从最高识别率看，按局部保持能力判据选取DCT系数的方法取得了最高识别率，而且使用的DCT系数最少.从整体来看，基于正方形与“Z”字形的DCT选择方法的识别效果相当，而效果最好的是本文提出的基于局部保持能力判据的DCT系数选择方法，在大多数情况下，识别率均高于其他两种方法.

图5 不同DCT系数选择方法的识别率比较Fig.5 Recognition accuracy comparison of different DCT coefficient selection method

由于本文提出的方法在全部DCT范围内利用局部保持能力判据选择能够更好反映训练人脸集流形结构的DCT系数，因此识别性能得到了提高.

5.2 人脸识别性能比较

本节在ORL人脸库上对比本文提出的算法与PCA、PCA＋LPP、DCT、DCT＋LPP等算法的识别性能及执行时间，其中在PCA方法中，利用PCA得到的子空间直接进行分类；在PCA＋LPP方法中，首先利用PCA对图像进行降维，然后在得到的PCA子空间内执行LPP方法提取识别特征；在DCT方法中，将DCT系数矩阵中左上角正方形内的低频系数直接应用分类；在DCT＋LPP方法中，按照“Z”字形顺序选择低频的DCT系数，然后对于选定的DCT系数执行LPP方法提取识别特征.

在实验中，从每类人脸图像中随机选取5张图像作为训练集，剩下的作为测试集，重复进行10次，共获得10对不同的训练集和测试集，取10次实验的平均值作为最终的识别率，识别结果如表1所示.

表1 ORL人脸数据库上的识别率比较Tab.1 Recognition accuracy comparison on ORL face database

在表1中，从最高识别率看，利用DCT对图像进行降维略好于利用PCA对图像进行降维，DCT方法的最高识别率比PCA高1.25%，DCT＋LPP的最高识别率高PCA＋LPP方法1.3%，本文提出的方法取得了最高的识别率，比DCT＋LPP高1.4%.

6 结论

本文研究了基于离散余弦变换和局部保持投影的人脸识别方法.为了更好地反映样本的流形结构，将拉普拉斯值作为局部保持能力判据对DCT系数进行选择，进而在选定的DCT系数上执行局部保持投影，实验验证了提出方法的有效性.

［1］ Turk M，Pentland A.Eigenfaces for recognition［J］.Journal of Cognitive Neuroscience，1991，3（1）：72－86.

［2］ Martinez A M，Kak A C.PCA versus LDA［J］.IEEE Transaction on Pattern Analysis and Machine Intelligence，2001，23（2）：228－233.

［3］ Belkin M，Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation［J］.Neural Computation，2003，15（6）：1373－1396.

［4］ He X F，Yan S C，Hu Y X.Face recognition using Laplacianfaces［J］.IEEE Transaction on Pattern Analysis and Machine Intelligence，2005，27（3）：328－340.

［5］ Bajwa U I，Taj I A，Bhatti Z E.A comprehensive comparative performance analysis of Laplacianfaces and Eigenfaces for facerecognition［J］.Imaging Science Journal，2011，59（1）：32－40.

［6］ Hafeld Z M，Levine M D.Face recognition using the discrete cosine transforms［J］.International Journal of Computer Vision，2001，43（3）：167－188.

［7］ Zheng Z L，Zhao J M.Locality preserving projection in orthogonal domain［C］／／Proceedings of Congress on Images and Signal.Sanya：IEEE press，2008：613－617.

［8］ Samir A，Chahir Y.Face recognition using PCA and DCT［C］／／Proceedings of International Conference on MEMS NANO and Smart System.Dubai：IEEE press，2009：15－19.

［9］ Chen W L，Er M J，Wu S Q.PCA and LDA in DCT［J］.Pattern Recognition Letters，2005，26（15）：2474－2482.

［10］ He X F，Deng C，Niyogi P.Laplacian score for feature selection［C］／／Proceedings of Advances in Neural Information Processing System.Vancouver：Neural information processing system foundation，2005：507－514.

［11］ Huang H，Feng H L，Peng C Y.Complete local fisher discriminant analysis with laplacian score ranking for face recognition［J］.Neurocomputing，2012，89（7）：64－77.