基于判别模型的年龄不变人脸识别方法综述

2023-12-27 14:52杨晓艳邓淼磊张德贤
计算机工程与应用 2023年24期
关键词:鲁棒性人脸识别人脸

杨晓艳,邓淼磊,张德贤,李 磊,王 翠

1.河南工业大学 信息科学与工程学院,郑州 450001

2.河南省粮食信息处理国际联合实验室,郑州 450001

随着现代化信息技术的不断变革,人们对各种安全保障措施的需求也日益增大,相应地,基于生物体特征的识别技术也越来越受到人们的关注[1]。与其他生物特征,如虹膜、掌纹相比[2],人脸识别(face recognition)技术因其操作便捷、隐蔽性强、无需接触等特点,一直是国内外专家学者的研究重点[3],也被广泛应用于金融[4]、公安[5]和日常生活[6]等多个领域。为了避免因年龄增长所带来的面部变化影响人脸识别准确率,年龄不变人脸识别(age-invariant face recognition,AIFR)技术[7]得到了广泛研究。图1展示了年龄增长对面部外观所造成的影响。

图1 老化对面部外观造成的影响Fig.1 Effects of aging on facial appearance

目前针对AIFR的研究大致可分为生成方法和判别方法[8]。生成方法通常利用生成模型合成不同年龄的人脸图像实现人脸识别。但生成模型往往是不稳定的[9],在进行人脸图像合成时会引入额外的噪声,会影响最终识别结果。其次,人的面部老化过程会受到很多因素的影响,比如种族、性别、生活环境等,因此,建造一个准确的参数化生成模型[10]是非常困难的。判别方法可分为传统方法和基于深度学习的方法,其中传统判别方法采用鲁棒的年龄不变特征描述符和分类器进行人脸识别,基于深度学习的判别方法侧重于分离提取出人脸老化过程中的年龄不变量,学习不随年龄变化的身份特征进行人脸识别。本文主要介绍AIFR问题的判别类方法。

1 基于判别模型的年龄不变人脸识别方法

1.1 传统判别方法

由于局部特征描述符不仅可以处理年龄变化,还对个体内部的其他变化具有一定的鲁棒性,所以传统判别方法通常采用鲁棒的局部特征描述符从人脸图像中提取年龄不变特征,然后利用具有判别能力的分类器进行分类[11]。

早期研究人员设计的特征描述符仍然含有干扰信息。Ling等人[12]利用梯度方向的光照不敏感性,提出用梯度方向金字塔(gradient orientation pyramid,GOP)[13]获取人脸面部特征,并结合支持向量机(support vector machine,SVM)[14]进行人脸识别,与基于图像强度的特征描述符相比,GOP具有更强的鲁棒性。Li等人[15]选用尺度不变特征变换(scale-invariant feature transform,SIFT)[16]和多尺度局部二值模式(multi-scale local binary patterns,MLBP)[17]作为人脸局部特征的描述符,提出了一种新的判别方法。该方法利用SIFT 和MLBP 得到人脸局部特征,并采用多特征判别分析(multi-feature discriminant analysis,MFDA)算法对其降维,得到不同尺度的多个特征,最后通过随机子空间融合模型,将局部特征组合在一起,创建更具有鲁棒性的决策规则。MFDA算法的框架图如图2所示。

图2 多特征判别分析(MFDA)的框架图Fig.2 Frame diagram of multi-feature discriminant analysis

随着年龄的增长,面部各组件受到的影响是不一样的,因此,Otto 等人[18]提出了一种基于面部组件的年龄不变人脸识别方法。该方法使用主动形状模型(active shape models,ASM)[19]自动确定面部组件,然后利用基于子空间的线性判别分析(linear discriminant analysis,LDA)[20]方法对每个组件的MLBP 和SIFT 特征进行分类,从而实现年龄不变人脸识别。

为了有效地利用多个视角对观察到的信息进行分类,Sungatullina 等人[21]提出了一种多视图判别学习(multiview discriminative learning,MDL)方法用于年龄不变人脸识别。该方法使用SIFT、LBP(local binary patterns)[22]和GOP描述符作为判别特征,然后利用多视图特征表示的判别学习方法最小化每个特征类的类内差异、最大化特征类间差异,从而提高类别的判别信息。尽管采用上述方法可以获得不错的效果,但是对于年龄跨度很大的情况,其效果仍然不尽如人意。

为了从年龄特征中分离出稳定的个体身份特征,Gong等人[23]提出了隐因子分析(hidden factor analysis,HFA)方法。该方法利用梯度方向直方图(histogram of oriented gradient,HOG)[24]表示人脸特征,并将其分解为身份特征与年龄特征,其中年龄特征随时间的推移而变化,身份特征始终保持不变。但该方法提取的特征中带有噪声,会影响最终识别效果。因此,他们又设计了一个更有效的最大熵特征描述符(maximum entropy feature descriptor,MEFD)[25]以改进人脸图像在老化过程中的特征表示,该描述符将人脸图像的微观结构按照最大熵值进行离散编码,再对编码后的人脸图像进行密集采样,从而提取具有表达性和区分性的人脸特征。其编码方案如图3所示,内部节点通过将像素特征与阈值进行比较,将像素特征定向到左分支或右分支,如果其分量小于阈值,则将像素特征定向到左分支,否则定向到右分支。但随着年龄差距的增大,其识别准确率出现了明显下降趋势。为了解决此问题,Si等人[26]提出了一种特征递进模型,以连续递进的方式考虑特征的变化,提取出在较短年龄阶段内的稳定特征进行人脸识别,与以往的方法相比,该方法保证了年龄方差的稳健性,提高了大年龄差距下的年龄不变人脸识别准确率。

图3 基于决策树的编码方案Fig.3 Decision tree based encoding scheme

考虑到身份因素和年龄因素相互独立的假设并不符合年龄在不同人脸上产生不同外观变化的事实,Li等人[27]对Gong 等人提出的HFA 方法进行改进,将人脸特征表示为年龄特征、身份特征和潜在特征的线性组合,可以较好地提取出年龄不变特征。相比HFA 方法,该方法有效地提高了年龄不变人脸识别精度,但是忽略了身份以及年龄特征之间存在更复杂相关性的可能。

传统方法大多依赖于手工制作的特征描述符从原始图像中提取面部特征,虽然操作简单,但不易提取到面部深层特征,并且容易受光照、姿态和表情等因素影响,对年龄不变人脸识别的鲁棒性较差,在无约束环境中,其识别性能也并不稳定。此外,单个的分类器并不能有效地学习年龄不变特征,这也会导致识别性能降低。

1.2 基于深度学习的判别方法

深度学习主要利用神经网络进行特征提取,通过对大量人脸图片的训练可以获得鲁棒性更强、泛化能力更好的特征。基于深度学习的判别方法目前可以分为两种,第一类方法利用神经网络提取出具有鲁棒性的身份特征进行年龄不变人脸识别,近几年又出现了第二种将老化人脸合成与身份特征表示相结合的多任务学习方法。在学习身份相关特征的同时生成老化人脸图像,两者相互促进以提升年龄不变人脸识别的准确性。

1.2.1 基于鲁棒性的特征提取方法

作为第一个显示深度卷积神经网络在年龄不变人脸识别中的有效性的研究,Wen 等人[28]将HFA 扩展到深度卷积神经网络,提出隐因子引导的卷积神经网络模型(latent factor guided CNN,LF-CNN)。该模型利用因子分析从面部特征中分解出年龄不变特征,如图4所示,对于年龄因时间而产生的变化具有更强的鲁棒性,并使用Softmax 损失函数[29]增大类间差异、对比损失函数(contrastive loss)[30]减小类内差异。然而,该方法基于年龄特征和身份特征之间的线性关系,因此,其识别精度有限。

图4 年龄不变特征和面部特征的可视化示例图Fig.4 Visual example of age-invariant features and facial features

Xu 等人[31]使用耦合自编码器网络(coupled autoencoder networks,CAN)[32]和非线性因子分析来处理年龄不变人脸识别问题,CAN由两个自编码器组成,通过桥接两个独立的自编码器模拟非线性老化和去老化过程,并对自编码器中的网络进行训练使其能够很好地表达输入,然后对CAN编码图像进行非线性因子分析,提取出身份因子作为鲁棒的年龄不变特征实现年龄不变人脸识别。与上文Gong等人提出的基于线性因子分析的方法相比,该方法可以获得更具判别性的身份特征,但CAN作为一种无监督方法,其性能受到很大限制。

Zheng等人[33]提出了一种年龄估计引导的卷积神经网络(age estimation guided convolutional neural network,AE-CNN)模型,如图5所示,该模型利用年龄估计任务得到年龄特征,再从混合人脸特征中去除年龄特征。这是第一个证明了年龄估计在获取年龄不变特征方面的有效性并取得成效的工作。Li 等人[34]提出了一种年龄相关因子引导的联合任务卷积神经网络(agerelated factor guided joint task modeling convolutional neural network,AFJT-CNN)模型,该模型由身份判别网络与具有相同特征层的年龄判别网络组成,通过对网络模型进行对抗性训练分离出身份特征和年龄特征,具有较高的类内紧凑性和类间分离性。为了实现不同年龄的人脸识别,Du 等人[35]提出了年龄因素去除网络(age factor removal network,AFRN)框架,该框架结合迁移学习[36]和对抗学习[37]共同实现人脸识别任务,并降低了年龄、表情和姿势变化等因素造成的影响。此外,该框架仅需带有年龄标签的图片就可以通过迁移学习训练和保持身份判别能力,减少了对多标签人脸数据库的依赖性。

图5 AE-CNN网络结构Fig.5 Structure of AE-CNN network

Li 等人[38]提出了一种新的联合学习模型和相似度度量方法,该方法将深度卷积神经网络中的特征学习与度量学习[39]相结合,以端到端的方式学习特征表示和决策函数,并引入不同的训练策略降低计算成本。Wang等人[40]设计出了正交嵌入卷积神经网络(orthogonal embedding convolutional neural network,OE-CNN)模型,利用正交特征分解实现年龄不变人脸识别。为了正则化分解出的年龄和身份特征,Wang 等人[41]提出了去相关对抗学习(decorrelated adversarial learning,DAL)方法,该方法利用对抗学习降低年龄和身份特征之间的相关性,并引入批量典型相关分析(batch canonical correlation analysis,BCCA)[42]用于相关性正则化。

Bianco等人[43]在孪生网络(siamese network)[44]中使用具有共享参数的深度耦合架构进行训练,利用对比损失函数表示不同人脸图像的匹配程度,并通过外部特征注入的方式进一步提高网络判别能力,从而实现不同年龄面孔的快速鉴别,但该方法对人脸姿态、表情有一定要求,不同面孔之间的姿态和表情差异会影响其判别能力。Moustafa等人[45]从特征提取优化角度出发,设计了一种遗传算法(genetic algorithm,GA),该算法能够直接从不同年龄的人脸图像中选择最相关的特征进行人脸识别,不需要对图像进行预处理,提高了计算效率。Yan等人[46]提出了多特征融合和分解(multi-feature fusion and decomposition,MFD)框架,该方法对不同年龄的多个人脸图像进行采样,作为人脸时间序列,并将特征分解与基于人脸时间序列的融合相结合,从而得到与年龄无关的身份特征,对衰老过程具有更强的鲁棒性。

考虑到卷积神经网络模型参数量大、复杂度高等问题,刘成等人[47]提出了基于Transformer[48]的年龄不变人脸识别方法,他们在T2T-ViT(tokens-to-tokens vision transformer)[49]模型的基础上加入了特征重组模块获取人脸混合特征,再利用残差因子分解获得身份信息。相比基于传统卷积神经网络的方法,该方法有效减少了参数量,降低了模型复杂度。

最近,闫鹏飞等人[50]以ResNet 网络[51]为基础设计出了一种多任务学习模型,如图6 所示,它利用改进的ResNet网络提取面部混合特征,并以此为基础设计了一个基于注意力的非线性分解模块将其分解为年龄特征和身份特征,然后通过交叉熵损失函数和Arcface 函数[52]约束这两个特征,从而提高了年龄不变人脸识别的准确率和泛化能力。

图6 改进的ResNet网络结构Fig.6 Improved ResNet network structure

1.2.2 老化人脸合成与特征表示相结合的方法

为了提高判别模型的可解释性,Zhao等人[53]开发出了年龄不变模型(age invariant model,AIM),它包括解纠缠表示学习子网(representation learning sub-Net,RLN)和人脸合成子网(face synthesis sub-net,FSN),其中RLN由一个编码器和一个判别器组成,它们互相竞争以学习年龄不变特征;FSN由一个解码器和一个基于局部补丁的判别器组成,它利用注意机制确保对背景复杂度和光照不均匀等因素的鲁棒性,并结合双重代理来提高合成人脸的真实性。该模型在进行训练时不再要求测试样本一定具有真实年龄标签,但由于使用单一的特征提取技术,其合成人脸老化平滑度并不高。此外,他们还构造了一个新的年龄不变人脸识别数据集CAFR(cross-age face recognition)以推动年龄不变人脸识别技术的发展。

Huang 等人[54]提出了一种多任务学习框架,称为MTL-Face(multi-task learning framework),它可以在学习人脸身份特征的同时完成老化人脸合成。它首先利用注意机制将人脸混合特征分解成年龄特征和身份特征,进一步地,利用年龄估计任务和人脸识别任务监督其分解过程,最后将身份特征输入身份条件模块合成人脸老化图像,同时通过权值共享方式提高人脸老化平滑度。

人脸面部的特征点提取是判别类年龄不变年龄人脸识别方法的一大重点。传统方法利用特征描述符获取特征表示,在光照变化剧烈、旋转幅度大等情况下存在鲁棒性问题,且难以捕捉深层特征和复杂内容。而基于鲁棒性的特征提取方法利用神经网络提取特征,其提取到的特征鲁棒性更强、泛化能力更好,但存在对样本依赖性强、算力要求较高等问题。而老化人脸合成与身份特征表示相结合的方法则依靠提取出的身份特征合成高质量老化图像,摆脱了对样本集真实年龄的依赖,并为判别模型提供了模型的可解释性,但模型复杂度较高,计算量大。

不同类型年龄不变人脸识别方法的对比分析如表1所示。在传统方法中,使用特征描述符的代表性方法包括使用GOP 提取特征并结合SVM 进行人脸识别的方法以及使用SIFT、LBP 提取特征并利用LDA 进行分类的方法;对人脸混合特征进行分解的传统方法包括HFA方法以及在HFA 基础上进行改进的方法,前者利用PCA、LDA 方法对人脸特征向量进行降维,然后在降维后的向量上应用HFA 从而得到身份特征向量用于分类。后者在HFA 基础上添加了一个修正因子,得到更具判别性的身份特征;在基于深度学习的方法中,基于鲁棒性的特征提取的代表性方法包括LF-CNN 和OE-CNN方法,前者利用HFA从观察到的特征中以监督的方式推断出潜在因子(身份因素)进行人脸识别,而后者用球坐标系中的角坐标表示身份相关信息、径向坐标编码年龄相关信息,最后通过将年龄相关分量与径向坐标分离,从而在角坐标中获取年龄不变特征;老化人脸合成与特征表示相结合的代表性方法包括AIM和MTLFace,其中AIM包括用于年龄不变人脸识别的解纠缠表示学习子网(RLN)和人脸合成子网(FSN)。RLN 由编码器和判别器组成,FSN 由解码器和判别器组成,RLN通过相互竞争以学习年龄不变特征,而FSN通过相互竞争合成逼真的跨年龄人脸图像;MTL-Face 方法通过注意力机制在高级语义空间中将混合人脸特征分解为不相关的身份特征和年龄特征,然后通过多任务训练和连续域自适应将这两个分量去相关,并利用权重共享策略来提高合成人脸的年龄平滑度。

2 数据集和评价指标

2.1 年龄不变人脸识别数据集

2.1.1 FG-Net数据集

FG-Net数据集[55]是2002年发布的第一个包含年龄属性注释的人脸图像数据集,其示例图如图7所示。该数据集包含了82个不同受试者在不同年龄阶段的1 000多张照片,年龄范围从0到69岁,在年龄不变人脸识别、年龄估计(age estimation)[56]和年龄变化推演[57]等方面得到了广泛应用。但该数据集图片数量较少,且超过一半的图像都是13 岁以下的,有些还是黑白照片,在姿势、表情和图像质量方面也有较大差异。此外,大部分受试者均为白种人,缺少其他种族的人脸图像。

2.1.2 MORPH数据集

MORPH数据集[58]是年龄不变人脸识别研究中使用次数最多的数据集,其示例图如图8所示。该数据集包含了67 600 个不同受试者的400 000 多张照片,年龄跨度从16岁到77岁,每张图片都标注了身份、年龄、性别、种族等信息,可用于年龄不变人脸识别、人脸老化[59]和年龄预测[60]等研究。该数据集年龄标签十分准确,但年龄分布不均衡,缺少10岁以下的人脸图像,且大部分图像均为黑人男性照片。

图8 MORPH数据集示例Fig.8 Example of MORPH dataset

2.1.3 CACD数据集

CACD[61]是2014 年发布的一个大规模公共名人数据集,其示例图如图9所示。该数据集通过网络引擎搜集了2 000 多个明星在不同光照、姿态和妆容条件下的163 446 张图片,年龄范围从16 岁到62 岁,可以有效评估年龄不变人脸识别算法的鲁棒性。但由于采集者是通过照片拍摄时间和人物出生年份标记的年龄信息,所以其年龄标签并不准确。CACD-VS是在CACD数据集的基础之上开发的经过仔细对比和标注的验证子集,该子集包含了4 000个标注人脸图像对,包括2 000对正样本(属于同一人的两张人脸照片)和2 000 对负样本(属于不同人的两张人脸照片)。

图9 CACD数据集示例Fig.9 Example of CACD dataset

2.1.4 LFW数据集

LFW[62]是目前最受欢迎的用于测试非限制环境下人脸识别算法性能的数据集,其示例图如图10 所示。该数据集收集了5 000多个不同受试者的10 000多张人脸图像,这些图像在光照、姿态等方面存在较大差异,但它们在老化方面的变化很小,常用来验证年龄不变人脸识别算法对一般人脸识别的泛化能力。对上述数据集进行比较分析,如表2所示。

表2 年龄不变人脸识别常用数据集Table 2 Commonly used datasets for age-invariant face recognition

图10 LFW数据集示例Fig.10 Example of LFW dataset

2.2 性能评价指标

对算法性能进行评估是判断算法好坏的关键。准确率Accuracy和Rank-1准确度是目前最常用的描述年龄不变人脸识别算法性能的评价指标[63],这两个指标又与二分类指标有着紧密的联系,其混淆矩阵[64]如表3所示。

表3 二分类结果的混淆矩阵Table 3 Confusion matrix for binary classification results

顾名思义,准确率就是模型预测正确的比例,其计算方法如公式(1)所示:

准确率是最常见的评价指标。准确率越高,代表算法的性能越好。但当正负样本不均衡时,只靠准确率评价算法的优劣是不够科学全面的。

Rank-1 指第一张匹配平均正确率,计算方法如下:第一步计算数据集中每个输入图像的类别标签的概率。第二步确定真实标签是否等于具有最大概率的预测类别标签,若等于则为True,反之为False。第三步计算第二步中为True 的次数,然后除以总的测试图片数量。最终得到的结果就是Rank-1准确度。

表4、表5展示了传统AIFR方法和基于深度学习的AIFR方法在常用数据集上的效果对比。从表4中可以看出,与使用单一的特征描述符相比,使用多个特征描述符提取特征可以获得较高的识别精度。如Sungatullina等人将MLBP、SIFT 和GOP 相结合的方法在FG-Net 数据集上的Rank-1准确度达到了91.8%;相比直接使用特征描述符提取特征进行人脸识别,从面部混合特征中分解出年龄不变特征进行人脸识别的方法具有更高的准确率。如Li等人基于HFA方法进行改进的线性分解方法在MORPH数据集上的Rank-1准确度达到了87.94%;此外,从表4中不难发现,传统方法在MORPH和FG-Net数据集上的效果差异较大,分析其原因是由于FG-Net数据集采集时间较早,其中部分还是黑白照片,图像质量不高,而且单一的特征描述符不能很好地提取人脸特征,这使得Ling 等人、Li 等人提出的方法在FG-Net 数据集上表现不佳;而MORPH数据集的受试者数量虽然远高于FG-Net 数据集的受试者数量,但FG-Net 具有更多同一受试者不同年龄阶段的人脸图像,这有助于学习不同年龄阶段的人脸特征,因此Sungatullina 等人使用多个特征描述符相结合的方法以及Gong 等人提出的HFA方法在FG-Net上有更好的实验效果;从表5中可以发现,相比单一的特征提取方法,老化人脸合成与身份特征表示相结合的方法在数据集上具有更好的性能表现。如AIM 和MTL-Face,在几个常用数据集上其识别准确率和Rank-1 准确度都达到了最高;对比表4 和表5不难发现,随着深度学习的出现,年龄不变人脸识别准确率得到了显著提高。

表4 传统方法在数据集上的效果对比Table 4 Performance comparison of traditional methods on datasets

表5 基于深度学习的方法在数据集上的效果对比Table 5 Performance comparison of methods based on deep learning on datasets

3 结语

基于深度学习的年龄不变人脸识别技术在近几年取得了很大进展,但在检测失踪人口和识别潜逃罪犯等场景下仍然极具挑战性[65]。因而,将来可从以下几方面进行研究。

建立更全面的跨年龄人脸图像数据集。数据集规模的大小与人脸图片质量的好坏会严重影响人脸识别模型的训练结果,当前普遍使用的跨年龄人脸数据集并不能同时满足规模大、质量高、年龄跨度均衡的要求,且专门针对亚洲人的数据集也较少。为了得到更高的识别准确率,建立大规模、多种族、高质量和时间跨度均衡的跨年龄人脸图像数据集是今后的关键任务之一。

研究轻量级的算法框架。深度学习因其学习能力强、可移植性好、适应力强等特点而被应用于年龄不变人脸识别领域,基于深度学习的年龄不变人脸识别方法可以达到传统方法无法达到的识别精度,但通常都是依靠高性能的深度网络结构来实现,继而存在模型复杂度较高、计算耗时较长等问题,因此,为了降低计算成本、提高效率,研究轻量级的深度学习算法框架是非常有必要的。

研究3D 图像的年龄不变人脸识别。虽然基于2D图像的年龄不变人脸识别技术已经取得了很大的进展,但依然会受到遮挡、表情、光照等因素的影响,从而导致深度数据丢失、识别准确率下降。这一现象的根本原因是:图像只是简单二维空间中的三维对象的投影[66]。和2D 图像相比,3D 图像多了一维深度的信息,有更强的描述能力,可以表达人脸各个角度的特征。因此,对三维人脸图像进行年龄不变人脸识别研究是未来的方向之一。

猜你喜欢
鲁棒性人脸识别人脸
人脸识别 等
有特点的人脸
揭开人脸识别的神秘面纱
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
基于确定性指标的弦支结构鲁棒性评价
三国漫——人脸解锁
基于非支配解集的多模式装备项目群调度鲁棒性优化
非接触移动供电系统不同补偿拓扑下的鲁棒性分析
基于类独立核稀疏表示的鲁棒人脸识别
马面部与人脸相似度惊人