王蓉蓉 ,师睿
(1.国网冀北电力有限公司管理培训中心,北京102488;2.神州高铁轨道交通运营管理有限公司,北京 100044)
跨年龄人脸识别是一个重要且极具挑战性的研究课题,实际生活中对护照验证、寻找失踪儿童、追捕在逃嫌犯等工作都有很大的帮助[1]。人脸老化是一个缓慢的过程,人的老化受到许多因素的影响,如基因、生活环境、生活方式、种族等,因此任何两个人的老化过程都不是完全相同的[2]。另外,图像采集的环境也是非约束的,在实际应用中识别的准确度也会受到光照、姿态、表情等因素的影响[3]。近十几年来,人脸老化吸引了许多学者进行研究,其中研究工作多集中在老化过程的模拟、年龄估计等,跨年龄人脸识别或验证的相关研究则相对较少。
人脸老化主要分为两个阶段:儿童时期皮肤纹理不会发生明显的变化,年龄增长的主要表现是颅骨形状的变化,成年人随着年龄的增长颅骨不再发生明显的变化,皮肤却会逐渐松弛,出现皱纹、斑点等,但是老化的速度并不均匀,皮肤发生明显变化的年龄段与种族、生活环境、生活习惯等均有关系。
目前跨年龄人脸识别的方法主要可以分为两种:生成模型和判别模型。生成模型出现较早,但是生成模型需要估计人脸的年龄,然后用训练好的模型合成相应年龄人脸的2D图像、3D模型或特征向量再进行匹配,由于无法准确地模拟复杂多变的老化过程,且依赖于年龄估计的精确度和大量的参数假设,生成模型无法达到更加准确的识别。N Ramanathan和R Chellappa[4]提出人脸生长模型验证小于18岁的人脸;杜吉祥[5]等人提出了一种3D模型和模拟方法实现跨年龄人脸识别;刘志哲[6]等人提出了针对人脸年龄的组合动态模型,并结合与或图模型实现人脸识别;李亚[7]等人在特征空间合成人脸在目标年龄的特征向量进行人脸识别;张建明[8]等提出一个统计模型来捕捉随时间变化人脸纹理和形状的变化。判别模型则大多选择合适的特征空间,然后使用一个或多个有效的分类器对得到的特征进行分类,即人脸识别。王俊艳[9]等人融合SIFT和MLBP作为特征向量,提出了MFDA作为分类器对跨年龄人脸进行分类;H Li[10]等人使用GOP作为特征向量,SVM作为分类器进行跨年龄人脸识别;Fantini J[11]等人使用LBP作为特征向量,提出了CARC对特征向量进行再编码;Van F[12]等人使用HOG作为特征向量,提出了HFA实现了跨年龄人脸识别;Kirkhus B[13]等人采用了BIF特征和最近邻分类器。
在简述BIF特征提取和KR-RCA分类的基础上,提出了两者混合模型解决跨年龄人脸图像识别技术,通过对BIF特征提取后PCA降维后,结合KR-RCA分类实现跨年龄人脸图像识别。
提出使用BIF特征以及加入正则化和核化相关成分分析的方法实现跨年龄人脸识别。对BIF特征采用PCA降维后,采用KR-RCA实现跨年龄人脸识别。
如图1所示,首先对图像进行预处理。本文采用K Zhang[14]等人提出的神经网络检测输入人脸图像的五个关键点,包括左眼、右眼、鼻子、左嘴角和右嘴角,然后根据上述关键点位置对图像进行对齐,使每一张图像双眼距离相等且处于同一水平线上,最后剪切对齐后的图像,除去不必要的背景、头发等部分,使得用于训练的图像只有人脸部分。
BIF(Biologically Inspired Feature)[15],又称为HMAX模型或P&R模型,在目标识别方面有很好的效果,其灵感源于灵长类动物视觉系统的前馈模型,后由Moeini A[16]等人改进后应用于人脸识别,Gaucher C[17]等人使用BIF特征进行年龄估计,Li H[10]等人采用了BIF特征实现跨年龄人脸识别。用于目标识别的BIF由两个S(Simple)层和两个C(Complex)层交叉组成。第一层,即S1层,是对上文预处理后的图像在4或8个方向以及若干个尺度下进行 Gabor滤波,如式(1)、(2)和(3)所示,
其中,θ表示Gabor函数并行条纹的方向,λ表示波长,σ表示相位偏移,γ表示长宽比;第二层,即C1层,是把S1层滤波后的图像在相邻尺度、相同方向和一定得窗口内进行有重叠地池化,与目标识别最大池化不同的是,本文采用均值池化;第三层和第四层,即S层和C2层,是针对目标识别更高级别的层,在人脸识别中,没有必要使用S2层和C2层,所以这里不再赘述。为了与BIF特征有所区别,本文把均值池化的BIF称为Mean-BIF。
提取BIF特征的方法借鉴于E Meyers提出的改进的BIF,只使用BIF的前两层S1和C1层,最后把C1层的输出整合为一个向量作为特征向量。表1是S1层Gabor滤波和C1层池化的参数,该参数表与E Meyers[18]和T Serre[19]使用的相同。
如图2所示,每个滤波方向为一组,预处理后的图像经过S1层得到64副滤波后的图像,C1层池化后共32副图像,最后联结所有C1输出得到特征向量。
表1 生物特征提取参数Tab.1 Parameters used to creat Biologically-inspired Feature
图2 Mean-BIF特征提取
采用加入正则化和核化的相关成分分析(KRRCA)对样本进行分类。相关成分分析(Relevant Component Analysis,RCA)由 N Shental[20]等人首次提出并用于人脸识别,IW Tsang[21]等人提出核化的RCA,E Meyers[18]等人在此基础上为RCA加入正则项。采用A Bar-Hillel[22]使用的RCA和E Meyers[18]的KR-RCA。
若计算两个样本点和的距离,则把两个样本点通过变换矩阵W投影,然后计算投影后的样本点的马氏距离,如式(5)、(6)所示。
(1)对于每个类别集合,求其包含所有样本的均值,如式(7)所示;
(2)计算所有中心数据点的协方差矩阵,如式(8)所示;
(3)计算Whitening变换矩阵,并把原始数据投影。即为马氏距离的协方差矩阵。
KR-RCA是在上述算法的基础上加入正则化和核化,本文采用E Meyers[18]提出的KR-RCA,核函数采用线性核函数,具体算法本文不再赘述。
如图3所示,每行是同一个人在不同年龄的人脸图像。人脸随年龄增长会发生较大的改变,化妆也会在一定程度上改变其相貌。使用FG-NET和MORPH两个最常用的数据库进行实验。
图3 FG-NET数据库的人脸图像(数字为年龄)
FG-NET数据库包含82个人,共1002幅人脸图像,每人平均约12幅人脸图像,年龄跨度是0~69岁,每个人的样本年龄分布较MORPH数据集更加分散。实验采用留一法,即依次选择一幅图像作为测试图像,剩余1001幅图像作为训练集。每幅人脸图像均转为灰度图像,且剪裁至,提取的Mean-BIF特征为21008维,采用PCA对特征向量降至1000维。如表2所示,本方法能够有效的实现跨年龄的人脸进行识别,且优于多数算法。另外,还提取了采用最大池化的BIF和LBP特征与Mean-BIF进行比较,三种特征均降维至430维,并采用RCA和KR-RCA对特征空间分类作为比较,如图4和图5所示。
表2 FG-NET数据库rank-1正确率
图4 FG-NET数据集的RCA识别正确率
图5 FG-NET数据集的KR-RCA识别正确率
如图4所示,是上述三种特征使用RCA识别的正确率对比,如图5所示,是上述三种特征使用KR-RAC识别的正确率对比。显然,无论是rank 1还是rank 20,都是采用Mean-BIF和KR-RCA分类的效果最好。
MORPH数据库由12938个人,共52099幅图像,年龄跨度是16~77岁,本文选择其中10000人,每人选择年龄最小和最大的两幅图像作为训练集,测试集分为probe和gallery,分别包含剩余图像中8111人年龄最小和最大的人脸图像。每幅人脸图像均剪裁至,提取的BIF特征为9168维,经过PCA降维至400维。如表3所示,本文方法基本可以实现跨年龄人脸识别,但相比于FG-NET,效果并不明显。由于MORPH数据集的数据分布与FG-NET差异很大,每个人样本的年龄分布不够分散,且训练集和测试集没有交集对于测试的正确率影响较大。
表3 MORPH数据库rank-1正确率
对样本提取了采用最大池化的BIF和LBP特征作为对比,图6是一些错误识别的结果,第1列是probe测试图像,第2~6列依次是按相似程度测试图像在gallery集中选择的图像,rank 1表示相似度最高。红色边框标记的是正确的识别结果。
图6 错误识别的结果
如图7所示,均采用KR-RCA进行分类,显然采用Mean-BIF和KR-RCA分类器下优势明显。
图7 MORPH数据集的正确率
提出了基于Mean-BIF和KR-RAC的跨年龄人脸识别。首先,对人脸图像进行人脸对齐预处理,其次,提取Mean-BIF特征,通过不同尺度和不同方向的Gabor滤波和均值池化提取人脸的纹理和轮廓信息,减少人脸位移等因素的影响,然后对特征空间采用PCA降维,最后采用KR-RCA对特征空间分类。针对FG-NET和MORPH数据库的实验表明,上述方法能够有效地实现跨年龄人脸识别,且可以达到较为理想的准确率。在今后的工作中,应该更多针对大年龄跨度的人脸识别,降低年龄在人脸特征中的体现。