熊 欣,黄全振,卢金燕
XIONG Xin,HUANG Quanzhen,LU Jinyan
河南工程学院 电气信息工程学院,郑州 451191
School of Electrical Information Engineering,Henan University of Engineering,Zhengzhou 451191,China
人脸识别是当前机器视觉和人工智能领域的研究热点,也是信息安全和社会安全的重要认证手段。近年来,大量研究文献将高维测试人脸图像投影到低维特征空间,如特征脸(Eigenfaces)[1]、Fisher脸(Fisherfaces)[2]、拉普拉斯脸(Laplacianfaces)[3]等,所有这些算法都要求测试样本必须裁剪适当、对齐,并与训练样本具有相同的规模大小。然而,人脸检测器的实际输出既不对准也不受限制,并且在规模上变化较大,对这些数据进行分类识别非常具有挑战性。
稀疏描述在目标跟踪及识别领域受到极大的关注,基于稀疏描述的人脸识别是一种根据人脸的全局信息进行分类识别的方法,虽然稀疏描述的模型简单,但是对光照变化和有遮挡人脸的识别具有较强的鲁棒性;该类算法忽略了人脸局部特征对识别效果的影响,还需要测试样本与训练样本人脸严格对齐,当存在表情和姿态变化时,其识别效果会明显下降。文献[4]研究表明,人类对视觉的感知是稀疏模型;文献[5]提出了一种人脸稀疏描述建模方法;文献[6]没有将人脸表示为一个矢量,提出了区域协方差矩阵概念;文献[7]提出了针对主成分测地分析(Principal Geodesic Analysis,PGA)的协方差描述符的降维方法,该描述符对于对齐和尺度变化是稳健的,而该描述符属于非向量对称空间,对其进行稀疏描述是不可行的,但可以通过对数映射将PGA描述符转换到切向空间来实现。大量的研究表明,最稀疏的解对于人脸的分类是有效的,因为每个人脸都紧凑地表示为其训练集的线性组合,如果训练集很大,这样的紧凑表示是非常有用的[8-9]。稀疏描述问题可以在压缩感知环境下引入L1最小化或基追踪来有效地解决[10]。
此外,绝大多数文献采用欧氏距离作为人脸相似度量指标,但其在人脸姿态和表情变化时误差较大;此时,两个像素点间存在障碍物,两点之间存在一个最短的测地弧,该测地弧的长度(测地距离)接近于两点间的实际距离,受人脸姿态和表情变化的影响较小[11-12]。
为了解决上述问题,本文在现有算法的基础上做了一些改进,提出了基于测地映射分析(Geodesic Mapping Analysis,GMA)的特征提取方法,因为人脸图像是由无数个像素点和无数条弧线构成,所以测地映射分析模型能够很好地适应人脸这一特殊结构,使得表情和姿态变化对识别的影响大大降低。此外,为了克服线性建模的局限性,引入核函数对稀疏特征空间进行建模,并在非线性稀疏空间中执行特征分类。最后,在ORL和Yale-B人脸数据库中对本文提出的基于GMA的核稀疏描述人脸识别方法进行姿态、表情和遮挡变化实验,验证了该方法在应对自由形式(非对齐、尺寸不一、遮挡、姿态和表情多样化)的人脸图像方面具有更高的识别准确度和鲁棒性。
连通黎曼流形的两点之间的距离是连接两点的曲线的最小长度,实现这个最小值的曲线被称为测地线。如图1所示,x、y为两个像素点,dxy为两点之间的直线距离,即欧氏距离。当x、y之间存在障碍物时(如表情变化较大),同类像素点边界出现一定的凹凸现象,欧式距离便不能准确地表示x、y的真实距离;此时,在绕过障碍的所有曲线中,必然存在一条最短的测地弧d1(测地线),d1的长度即为x、y像素间的测地距离。
图1 不同像素点间测地距离示意图
根据微分方程理论,通过点x∈M,存在唯一的测地线,其切线向量为v∈TXM。将通过参考点x的测地线变换成切向空间上的直线,保持与曲线相似的距离。将切线向量v映射到测地线从x到流形上的点的函数称为指数映射,如下式所示:
其中,γ(t)为测地线,将TXM的原点映射到x点,即expx(0)=x;对于每个像素点x∈M,在TXM到邻域间存在指数映射的逆运算被称为对数映射。
点y=γ(1)∈M到向量的映射如图2所示。
图2 测地距离映射图
其中,向量v的长度即x和y之间的测地距离。
样本方差由式(4)给出:
流形中的测地曲线是线性空间中直线的泛化,点x在测地子流形H上的投影是黎曼度量上最接近于x的点,由式(5)给出:
给定一组像素点x1,x2,…,xn∈M,目标是找到一个测地子流形,使得数据的投影方差最大化,可通过获取跨越切向空间TXM的切向量正交基ζ1,ζ2,…,ζd实现。为使投影方差最大化,选择指数映射下测地子流形第一个主成分由式(6)给出:
其中,H=expμ(span(ζ)),投影算子近似为:
其他测地子流形主成分定义为:
其中,系数λi,k计算如下:
将样本i的GMA特征vi定义为:
将测试数据投影到该子流形上以获得用于人脸识别的GMA分类特征,其使用以下度量:
通过式(15)即可实现基于测地映射分析的有效特征提取,该特征以测地距离为度量依据,通过对数和指数映射将测试数据投影到切向空间,从而获取更具辨别力的分类特征。
综上所述,基于测地映射分析的特征提取实施步骤如下:
(1)将通过人脸图像中像素x、y的测地线变换成切向空间上的向量v,完成指数映射和对数映射;
(2)通过梯度下降算法应用式(3)计算黎曼流行的固有平均值μk+1,应用式(4)计算样本方差σ2;
(3)应用式(5)获取点x在测地子流形H上的投影,应用式(8)使数据的投影方差最大化得到测地子流形的主要测地分量ζk;
(4)应用式(11)生成新的主投影特征,并通过式(15)提取样本i在测地子流形上投影的GMA分类特征。
人类对视觉的感知是稀疏的,每个人脸都可紧凑地表示为其训练集的线性组合,最稀疏的解对于人脸的识别分类是有效的,如果训练集很大,这样的紧凑表示将非常具有辨别力,稀疏描述问题可以在压缩感知环境下引入的L1最小化或基追踪来有效地解决。当测试人脸样本发生严重的表情或姿态变化,使用线性模型是不准确的。而非线性模型通过提供丰富的特征描述来捕获高于二阶的高阶统计量,并利用这一点实现有效分类[13-14]。为了增强自由形式人脸识别的稀疏模型性能,本文使用非线性模型进行稀疏描述,通过非线性映射将切向空间中的数据向量转换为较高维特征空间,使用内核技巧在GMA特征空间实现稀疏建模。
设φ是从输入空间到特征空间的任意非线性映射,即φ:TμM→F。c是类的数量,vj,k是第k个训练样本图像的第j个GMA特征,ni是样本i的图像数量,n=n1+n2+…+nc是总的图像数量,l是测试图像的GMA特征,训练图像的GMA特征矩阵变换为Ψ=[φ(v1,1),φ(v2,1),φ(vn1,1),…,φ(vnc,c)],可以将变换后的测试向量φ(l)表示为:
由于式(16)是超定的,维数很高,可利用核降维技术转化为欠定问题,有利于高效地执行高维度的计算:
其中R是切向空间TμM中降维后的矩阵。令Cφ为特征空间的协方差矩阵:
其中vi为GMA特征,前d个最大特征值表示为u1,u2,…,ud,将对应于非零特征值的所有特征向量转换为训练样本的线性组合:
其中,列向量 [βk,1,βk,2,…,βk,n]T是第k个特征向量描述,可得:
对于∀r=1,2,…,n,式(20)两边都乘以φ(vr)T得:
该组方程可以简化为以下矩阵形式:
上述问题可通过式(25)解决:
则核降维投影矩阵为R=[u1u2…ud],其中第k个特征向量为因此式(17)可转化为:
此时:
其中r=1→d,c=1→n,式(27)可以进一步写成:
上式可简化为:
如果α的解足够稀疏,求解L0范数的最小化就等价于求解如下L1范数的优化问题:
考虑到噪声对稀疏模型的影响,修改优化问题如下:
定义r(i)为第i类测试样本l的重建误差,δi(α)是α中对应于类i的非零系数构成的向量,可得:
综上所述,基于GMA特征的核稀疏建模实施步骤如下:
(1)将训练图像的GMA特征矩阵变换为高维测试向量φ(l);
(2)通过式(17)获得切向空间的核降维矩阵Rβ;
(3)将对应于非零特征值的所有特征向量转换为训练样本的线性组合uk,并应用式(26)得到主特征向量描述;
(4)通过式(31)求解L1范数的最小化问题;
(5)通过式(32)计算第i类测试样本l的重建误差r(i),若则算法结束,将测试样本l分到第c类。
姿态与表情变化实验采用ORL人脸数据库完成验证,该数据库包含40个人的400个灰度图像。每个样本的图像在变化的光照强度、面部表情(开/闭的眼睛、微笑/不笑)、面部细节(戴眼镜/无眼镜)和黑暗均匀的背景拍摄,姿态变化高达20°,尺寸变化高达10%。该数据库的样本图像如图3所示。
图3 ORL数据库姿态与表情变化样本图像
每一对象随机抽取5张图像作为训练样本(共200张),剩余的5张图像作为测试样本(共200张),共进行4000次识别实验,计算每个测试样本的平均识别率和总体样本平均识别率。对比本文提出的基于GMA特征的核稀疏识别方法与其他方法(KPCA[15]、Gabor[16]、GDA[17])面对不同姿态、不同表情测试样本的平均识别率,如表1所示。
表1 ORL数据库平均识别率的对比
由于本文算法以人脸图像特征点间的测地距离代替传统的欧氏距离,然后计算特征点的平均值并映射到切向空间,通过投影方差最大化获得主要测地分量,从而生成新的主投影特征。该特征可以准确地表征人脸的特殊曲面结构,在应对姿态和表情变化的测试样本时具有较强的泛化能力。
由表1数据可知,本文提出的GMA方法识别率均高于其他3种方法,表明测地映射分析模型能够很好地适应人脸的特殊结构,使得表情和姿态变化对识别精度的影响大大降低,算法更具鲁棒性。
本实验测试了本文方法面临重度遮挡条件下的鲁棒性。选取Yale-B人脸数据库的两个子集用于训练,另外一个子集用于测试。每个测试样本将插入一个不相关的图像作为遮挡块,遮挡率为50%,图4为不同遮挡位置的测试样本图像。
图4 Yale-B数据库50%遮挡样本图像
对比本文提出的基于GMA特征的核稀疏识别方法与KPCA、Gabor、GDA方法在50%遮挡条件下的识别率,如图5所示。
图5 Yale-B数据库50%遮挡的识别率对比
随着特征维数的增加,4种方法的识别率不断提高,Gabor与GDA方法的识别率比较接近,本文GMA算法在样本50%遮挡条件下获得最高82.47%的识别精度,高于其他3种方法。此外,在实验过程中,在同一遮挡比例下,遮挡块的形状与位置对算法性能影响不大;平均识别率与遮挡块的遮挡比例成反比,随着遮挡比例的加大带来具有辨别力的特征点减少,从而导致识别精度下降;当测试人脸样本发生较大的特征变化时,通过非线性映射将切向空间中的数据向量转换为较高维特征空间,在GMA特征空间实现核稀疏建模,可以在重度遮挡条件下实现人脸的有效分类。
本文针对当前非控制条件下人脸识别的突出问题,完成以下研究工作:
(1)提出了一种基于测地映射分析(GMA)的特征提取方法,该模型能够较好地适应人脸的特殊曲面结构,可以准确地测量出人脸图像在表情、姿态和重度遮挡条件下两个像素点的真实距离,大大降低了复杂条件变化对识别性能的影响,使算法更具鲁棒性。
(2)为了克服线性模型的局限性,引入核函数对稀疏特征空间进行建模,并在非线性稀疏空间中求解L1范数的优化问题实现人脸的准确分类。
(3)在ORL和Yale-B人脸数据库中对本文提出的基于GMA的核稀疏描述人脸识别方法进行了大量的实验,结果验证了该方法在应对重度遮挡、姿态和表情变化的人脸图像方面具有更高的识别准确度,大大提高了人脸识别系统应对真实复杂环境的能力。