孪生网络模型在多人种人脸认证中的性能研究

2022-02-18 13:53赵淑欢葛佳琦刘帅奇
小型微型计算机系统 2022年2期
关键词:人种主干特征提取

赵淑欢,葛佳琦,刘 文,2,刘帅奇,2

1(河北大学 电子信息工程学院,河北 保定,071002) 2(河北省机器视觉技术创新中心,河北 保定,071000)

1 引 言

人脸认证[1]指给定两张人脸图像判定是否为同一个人,人脸数据的非接触性获取以及获取途径广泛使得人脸识别认证[2]技术在安防、娱乐、考勤、刑事侦查等领域应用广泛,而人脸图像中的变化如姿势[3]、妆容[4]等仍是人脸识别与认证任务中的挑战.目前的人脸认证算法主要分为两大类:基于传统特征提取算法的人脸认证和基于深度神经网络的人脸认证.

基于传统特征提取算法的人脸识别算法,主要是设计鲁棒的人脸特征提取算法,并利用合理有效的分类器进行分类认证.近些年人脸特征提取及认证算法主要包括EigenFace[5]、FisherFace[6]、Gabor特征[7]、稀疏表示[8]和SVM[9]等.但传统特征提取算法提取的均为图像浅层特征,且假设样本服从某种分布,仅对限制条件下采集的样本图像分类性能好,而在非限制条件下算法性能严重下降,即算法的鲁棒性和泛化能力有限.

近些年,神经网络在模式识别、计算机视觉领域取得突破性进展,基于深度学习的算法成为研究热点.基于神经网络的深度学习算法在人脸识别中的工作主要包括:DeepFace[10]利用3D仿射将人脸归一化到正面视角,并学习深度人脸表示,DeepID[11]将人脸划分多个区域,利用一组小型网络分别学习人脸各区域的表示并识别,FaceNet[12]利用相对距离约束进行训练在LFW上获得了99.6%的识别率.但构建并训练深度模型需耗费大量人力物力及时间,因而许多研究人员采用预训练的大型网络模型进行特征提取,目前常用的预训练好的网络包括: VGG[13]、GoogleNet、ResNet[14]和DenseNet[15]等.这些模型在ImageNet上完成训练,均取得了优异性能.研究人员也尝试构造更合理的损失函数改进网络性能,例如:相对距离损失[16]、三元组损失[17]、中心损失[18]和Additive Margin Softmax[19]等.

虽然深度学习网络算法在人脸识别上取得突破性进展,但模型的训练需要大量已标注的数据,本文针对的人脸认证任务中训练样本和测试样本的身份信息无交集,因此难以对大型网络进行训练,且已有模型均在单一人种上进行训练,训练样本的不均衡造成不同人种间的泛化能力有限.为此,本文提出一种采用预训练网络作为主干网络的孪生网络模型,并构造相似度度量网络用于多人种人脸认证.

本文主要工作如下:

1)基于已有的深度学习模型构造孪生网络模型,并进行度量网络的搭建,使其适用于人脸认证;

2)在模型训练策略上采用训练-微调-训练的循环训练方式,增强网络的鲁棒性;

3)采用多人种数据进行训练和验证,有效证明模型在多人种人脸认证上的有效性,并对目前存在的主流基础网络构架下的孪生网络模型进行多人种人脸认证性能的对比及分析.

2 相关工作

2.1 孪生网络

孪生网络[20]原理如图1所示,该网络输入为两个样本构成的样本对,通过共享的特征提取网络进行特征提取,然后设

图1 孪生网络模型图Fig.1 Model figure of siamese network

计合理的相似度度量网络对样本对的相似度进行预测,Chopra S等人采用对比损失(Contrastive Loss)函数对特征提取网络进行训练.输入样本对分为正样本对和负样本对,训练集中正样本对的相似度(标签)为1,负样本对的相似度(标签)为0.

2.2 特征提取网络-主干网络

孪生网络中的特征提取网络采用共享网络,可构建新型网络模型用于特征提取,但深度网络模型的训练需要大量有标注的数据且时间消耗大,为此本文选用在ImageNet上预训练的网络作为特征提取网络.常用的预训练网络包含VGG、Inception和DenseNet等.VGG是典型的卷积神经网络,其模型主要包含卷积、池化等操作,构成基本模块如图2(a)所示,通过堆叠该模块可构造不同深度的模型,目前预训练好的VGG模型主要为VGG16和VGG19.

图2 网络的基本构成模块Fig.2 Basic module of pre-trained networks

随着VGG网络不断加深,模型参数量逐渐增大,而模型泛化能力逐渐减弱.为此,Inception网络结构中采用1×1卷积核用于数据降维,基本结构如图2(b)所示.随着网络的加深,梯度消息或梯度爆炸问题使得深度网络模型训练困难,为解决该问题,何凯明等提出深度残差网络(Deep Residual Network,ResNet),其残差学习单元如图2(c)所示,该模型将上一模块的输入和输出作为当前模块的输入.DenseNet是一个网络更窄参数更少,且可有效训练更深模型的网络,与ResNet不同DenseNet将所有层的输出图串联作为当前层的输入,基本模块如图2(d)所示.

3 本文模型

本文基于预训练网络设计孪生网络模型进行人脸认证,模型如图 3所示,其中预训练网络可选用在ImageNet预训练的VGG1、Inception、DenseNet和ResNet作为主干网络,主干网络全连接层的输出作为输入图像的特征.不同于已有孪生网络直接采用损失函数训练模型,本模型在输出特征的基础上设计相似度估计网络,首先将网络的两个输出张量计算绝对差值张量,然后在此基础上利用Dense层和激活层构造相似度计算网路,其中激活函数选用PreLu,采用二分类交叉熵binary_crossentropy作为损失函数.

在训练环节,本文采用一种简单的循环训练策略对网络进行训练,该策略将在训练过程中循环进行训练和微调,训练过程中冻结主干网络中的参数,对分类网络进行训练.但因数据分布差异大,验证集损失及识别率性能远低于训练集上的性能.因此,在完成第一次相似度度量网络训练后需要对特征提取的主干网络进行微调,使得提取的特征更适用于多人种人脸鲁棒特征的提取.微调后模型在验证集上性能有所提升,继续冻结主干网络训练更优的度量网络.因此多次进行训练-微调以提高数据分布不一致情况下模型的性能.

图3 本文构建的人脸认证网络模型Fig.3 Proposed model for face verification

4 实验结果及分析

为验证模型的有效性、泛化能力,并分析不同预训练网络在多人种人脸图像上的提取特征的鲁棒性,本文在RFW数据库上进行训练及测试.

4.1 RFW数据库

目前大多数人脸识别及认证算法未考虑到不同算法在不同人种间的鲁棒性,训练样本在人种间的不平衡性造成已有算法对部分人种表现不够友好.为此,北京邮电大学邓伟洪研究团队构建了多人种的人脸数据库—RFW[21,22],该库可以更客观的评价人脸识别与认证算法性能.该数据库包含4个地区(Indian、Caucasian、Asian、African)的人脸图像,每个地区人脸图像所含类别数分别为2984、2959、2492、2995,其中每人包含 2-6张人脸图像.部分人脸如图 4 所示,可见该数据库中人脸图像不仅涵盖了人种变化还包含了遮挡、表情、姿势和年龄等自然变化,而这些变化均是人脸表示中面临的挑战.

图4 RFW数据库中部分人脸示意图Fig.4 Sample images from RFW dataset

4个人种人脸数据分布如图 5 所示,从该图可以看出RFW数据库中不同人种人脸分布有一定差异,African人脸的分布与其他人种人脸的分差异明显.因人脸图像包含自然环境下的多种变化及噪声因此同一人种的人脸分布散度也很大,该数据库上的人脸识别和认证任务难度高于其他人脸数据库,更具有通用性,因此将其作为验证数据集,更适宜设计人种友好人脸识别模型.

图5 RFW数据分布简图Fig.5 Distribution of samples from RFW dataset

4.2 实验设置

在RFW数据库上对每个地区的人脸图像选择2000对正负样本构造训练集,并从中随机抽取1/5的样本对作验证集,测试时每个人种选用与训练样本身份不重叠样本对2000对,样本对的具体构造如表1所示.

表1 训练集和测试集样本对分布Table 1 Construction of training sample pairs and testing sample pairs

分别选用VGG16、InceptionV3、DenseNet121和ResNet50作为主干网络进行特征提取,微调过程中选用各主干网络的某一节点层及之后的层进行特征提取和相似度度量网络的微调,不同主干网络的微调节点如表2所示.

表2 不同主干网络下微调节点Table 2 Fine-tune nodes of models

模型的训练及微调过程中的batchsize=32,模型输入图像尺寸为(75,75,3),训练过程中不断调整各主干网络的参数使其性能最优,其中不同主干网络中dropout层的参数设置如表3所示.

表3 各主干网络dropout层参数设置Table 3 Parameter of dropout layer

4.3 性能评判准则

本文采用ROC曲线和AUC值评判模型性能,其中ROC曲线的纵坐标TPR表示正样本被正确的判断为正样本的比例;横坐标FPR表示负样本被错误的判断为正样本的比例,通过将网络给出的预测值排序并分别作为预测阈值,即可得出TPR和FPR的值,ROC曲线越偏向左上角模型性能越好.AUC值为ROC曲线下的面积,表示正样本得分大于负样本得分的概率,AUC的值越大,则模型性能越好.首先将所有样本按照得分排序则:

(1)

其中,rank表示排序后各得分的值例如排序后第1个元素的rank值为M+N,第2个元素的rank值为M+N-1,M和N分别表示正负样本对的个数.

4.4 实验结果及分析

首先分析不同主干模型在循环训练过程中各环节的损失和准确率,如表4所示,分析表4可知大多数情况下对模型多次进行循环训练可以一定程度上提高模型在验证集上的性能,其中以VGG16为主干网络的模型性能提升明显,说明同过不断微调VGG16网络能更好地提取多人种人脸面部信息,而其他3种主干网络模型一开始的性能就明显优于VGG16网络,说明其提取的特征鲁棒性更强.

表4 各模型循环训练时验证集上的损失及准确率Table 4 Loss and accuracy of each model in each stage

不同主干在网络在4个地区的人脸图像集上测试时的ROC曲线如图6所示.

图6 不同主干网络模型在不同人种上的ROC曲线Fig.6 ROC curves of models in various races

从图6可以看出African地区人脸图像集上各模型的性能均不理想,但基于PCANet提取特征的认证性能优于其余集中深度模型,在Asian、Indian、Caucasian 3个地区人脸测试集上的ROC曲线中可明显看出基于Inception网络模型的ROC曲线明显被其他模型曲线“包住”说明其性能低于其余模型性能,而基于VGG、DenseNet和ResNet的网络模型的ROC曲线交叉,为进一步对模型性能进行评估,计算各模型的AUC值,如表5所示.

表5 各算法不同情况下AUC值对比Table 5 AUC values of each model

分析AUC值可知,浅层特征PCANet与深度网络模型在多人种人脸特征提取上有一定的竞争力,尤其是在African人脸上,PCANet提取的人脸特征其辨别力明显高于基于深度网络的模型提取的特征.在其他3个人种上,VGG16作为主干网络的模型要优于其他主干网络模型.说明虽然InceptionV3、DenseNet和Resnet在其他任务上的性能优于VGG16,但当数据分布差异极大时,这些网络对人脸本质特征的提取能力有限.应进一步考虑对图像进行处理,以适应已有预训练网络的特征提取.

对比表4和表5可知在训练阶段VGG16作主干网络的模型在验证集各阶段上所能达到的最高识别率明显低于其余3种主干网络模型下的性能,但在测试集上的性能却明显优于其余3种主干网络的性能,这主要是因为不同人种的人脸图像分布差异过大,且人脸图像存在姿势、背景、表情等较大扰动因素进一步增加了数据的离散性,使得图像的本质表征提取难度提升.

5 结 论

本文以目前流形的预训练网络模型为主干网络搭建孪生网络模型,并构建相似度度量网络,在多人种数据库RFW上进行训练测试,根据测试结果得到以下结论:1)在African地区人脸图像上PCANet提取的特征的判别性明显优于基于深度网络模型所提取的特征,在其他地区的人脸认证上PCANet性能略低于深度网络模型;2)Asian、Caucasian和Indian 3个地区人脸图像上基于Inception、DenseNet和ResNet的网络模型在训练时其能达到的最终性能优于基于VGG网络的性能,测试集样本与训练集上本的身份信息无交叉,在测试集上基于VGG网络模型的性能明显优于其他3种网络的性能,说明在多人种人脸认证问题上VGG网络提取的特征其泛化迁移能力优于其他3种网络.

基于以上结论,在今后的研究中可考虑将PCANet的优势与深度神经网络的优势进行融合以提高模型在多人种人脸认证上的整体性能.

猜你喜欢
人种主干特征提取
同步定位与建图特征提取和匹配算法研究
抓主干,简化简单句
姐妹三人种芝麻
一斤干饭,九两苹果——“十六连丰”后,陕西人种啥?吃啥?
我是黄种人
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
群文阅读:为孩子打好生命底色
基于曲率局部二值模式的深度图像手势特征提取
寓美于物理力学主干知识的复习