郑亮 陈鹏 韩晶晶 陈亚
摘 要:文章对基于深度学习的亲属关系验证方法进行了深入研究,并针对由于人脸图像与其他自然图像存在较大的差异而导致的感受野较小的问题,提出了一种基于空洞卷积神经网络的亲属关系验证方法,构建了残差空洞卷积神经网络(RDCN Net),分别从父母与孩子的人脸图像中提取深度特征,经过特征融合后使用鉴别器得到亲属关系验证结果。算法在公开亲属关系数据集KinFaceW上进行测试,实验结果表明,本文方法在亲属关系验证的准确率上有良好的表现。
关键词:亲属关系验证;深度特征;空洞卷积;特征融合
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2021)18-0071-05
Abstract: In this paper, the kinship verification method based on deep learning is deeply studied, and aiming at the problem of small receptive field caused by the large difference between face image and other natural images, a kinship verification method based on atrous convolution neural network is proposed, residual atrous convolutions neural network (RDCN Net) is constructed, the depth features are extracted from the face images of parents and children respectively, and the kinship verification results are obtained by using the discriminator after feature fusion. The algorithm is tested on the open kinship dataset KinFaceW. The experimental results show that the proposed method has good performance in the accuracy of kinship verification.
Keywords: kinship verification; deep feature; atrous convolution; feature fusion
0 引 言
基于人脸图像的亲属关系验证是受遗传学、心理学[1-5]啟发从而得到在计算机视觉上的一个研究方向,是指通过对给定的一对父母及子女的人脸图像进行相似度比对,从而得到双方是否具有某种亲属关系。亲属关系验证技术在社会中有着广泛的应用前景,如在安全领域可以通过分析父母与孩子的图像,结合遍布各个区域的摄像头用于寻找走失的儿童、打击相关犯罪活动等。在社交领域,可以进行相册分类、成长记录、分析孩子行为等应用。
现有的亲属关系验证方法主要分为三类:基于特征的方法、基于模型的方法,和基于深度学习的方法。基于特征的方法主要基于低级特征使用一些手工制作的特征并使用传统的分类器来验证亲属关系。基于模型的方法往往通过学习一个有效的模型来判断主体之间是否存在亲缘关系,所学的模型可以增大亲属对之间的距离并缩小非亲属对之间的距离。基于深度学习的方法主要通过提取图像的深度特征,并对深度特征进行分析从而得到亲属关系验证结果。这三种方式所得到的准确率也是从低到高依次递增。
目前,随着深度学习的飞速发展和硬件计算的巨大进步,研究者们已经提出了许多基于卷积神经网络(CNN)的图像处理方法,并取得了令人鼓舞的表现。但是卷积神经网络也存在一些问题,深层的卷积网络感受野比较小,会忽视整体与部分之间的联系,有着平移不变性,而空洞卷积能够有效地避免这类问题。鉴于此,根据现有的深度学习网络,本文提出一种基于空洞卷积神经网络的亲属关系验证方法,构建了残差空洞卷积神经网络,进一步增加了鉴别模型的鲁棒性。针对亲属关系验证任务展开了以下工作:
(1)结合残差网络[6]的思想,在增加RDCN网络层数同时,既增加了网络的性能,又防止出现梯度弥散和梯度爆炸情况。
(2)使用空洞卷积层组建神经网络结构,能够避免卷积网络的感受野小和平移不变性等缺陷。
1 相关工作
1.1 亲属关系验证
2010年,Fang等[7]首先提出了基于人脸图像的亲属关系验证。他们选择使用了一些可被继承的低级特征,包括颜色、人脸各个部位的距离和HoG特征,然后利用k-最邻近法和支持向量机来进行亲属关系验证。最近几年,研究人员对亲属关系验证任务有了进一步的研究并提出了许多新颖的方法[8-12]。如Lu等[13]提出了邻域排斥度量学习(NRML)方法,通过测量样本的度量,即在新的特征映射空间中,具有亲属关系的样本的距离可以尽可能小,没有亲属关系的样本距离尽可能的大,通过样本的距离来判断是否具有亲属关系。Zhou等[14]提出了一种可扩展的相似度学习方法,该方法通过截断梯度的方法学习了一个对角双线性相似模型,该模型对于具有高维度的亲属关系数据集在扩展性和计算效率方面的有着巨大的优势。Zhou等[11]提出一个自适应网络(KinNet),KinNet将通过使用有限的标记数据,在一个有监督的度量学习框架中学习一个鲁棒性的亲属度量。通过这个度量来判断样本之间是否具有亲属关系。在深度学习方面,Zhang等[10]设计了一个使用深度卷积神经网络提取高级特征进行亲属关系验证的框架,通过提取样本的深度特征,来判断是否具有亲属关系。而Nandy[15]使用深度孪生网络来验证亲缘关系,孪生网络通过参数共享的形式,利用表征卷积神经网络的学习能力,有效提高识别准确率和识别速度。gzslib2022040511231.2 残差网络
随着深度学习方法的普及,人们使用的神经网络的宽度和深度在不断地加深,通过这种方式能够有效地提高模型的性能,同时也带了一些其他问题,仅仅通过简单地增加深度,会出现网络退化,产生过拟合现象,导致精度降低,同时出现梯度弥散和梯度爆炸[16,17]。为了解决这种情况,He等[6]提出了残差的概念,残差网络由若干个残差单元构成,残差单元可以以跳跃连接的形式实现。即把残差单元的输入直接与输出加在一起,解决了过拟合等问题。
1.3 空洞卷积
卷积网络最初是为分类手写数字[18]而开发的,到后来的应用越来越广泛,使用卷积网络的过程通常是用卷积或池化操作来得到非常小的高纬度特征图,再利用这些高纬度特征图去解决相关问题。但是这样的操作会丢失大量的细节信息,如一张图像上,同时存在人脸的各种特征,如嘴巴在眼睛上方,耳朵朝向同一个方向,图像是由多张人脸拼凑而成的,此时仅通过卷积操作,会被认为是一个人脸,而不是多张人脸。这是因为卷积和池化操作会导致感受野非常小,无法感知到整张图像。此时,使用空洞卷积[19],代替常规的卷积操作,能够有效地增加卷积核的感受野,对人脸信息更加敏感,防止了误认等情况的出现。
2 残差空洞卷积神经网络模型
本文设计了一种基于空洞卷积和残差思想的残差空洞卷积神经网络(RDCN)模型用于亲属关系验证,该网络使用空洞卷积代替常规卷积,并组成了残差结构。先利用网络提取具有鉴别力的深度特征,再使用鉴别器鉴别输入的样本对是否具有亲属关系。整体网络结构如图1所示。
2.1 残差空洞卷积模型
具有亲属关系的父母和子女在面部特征上往往表现出较强的相似性。在使用人脸图像进行亲属关系验证时,若使用普通卷积可能会导致感受野小,容易出现误判等情况,于是本文使用空间卷积,增加感受野,如图2所示,2(a)为普通卷积,右侧有空洞卷积,可以看出,在空洞卷积扩张率设置为1的情况下,感受野的范围便增加了一倍。
因此,本文使用空洞卷积代替普通卷积,并借助残差网络结构的思想,构建了3个残差单元。残差单元如图2(b)所示,每个残差单元由2个3×3的空洞卷积构成,每个卷积之后都增加了ReLU作为激活函数,并使用Batch Normalization层对数据进行归一化处理。
2.2 亲属关系鉴别方法
在亲属关系鉴别中,首先找出在数据集中隐藏的FamilyID信息。具体来说,具有亲属关系的一对人脸图像分别标记相同的Family ID,而不具备亲属关系的一对人脸图像分别标记不同的Family ID,这些Family ID可以作为辅助信息用于网络模型的训练。
之后使用RDCN进行亲属关系验证。如图3所示,使用两个共享权值的分支分别提取输入的人脸图像的特征,得到父母和孩子人脸图像的特征图。基于上一步骤得到的特征图进行两类处理,第一类处理是利用特征图结合Family ID进行辅助训练;另一类将提取的特征通过组合运算和拼接的方式进行融合。将融合后的特征输入到一个由全连接层构成的鉴别器中,量化两个图像,得到相似度评分,通过设置阈值t,可以得到最终的预测结果,即有亲属关系或者无亲属关系(即1或0),最终预测值定义如式(1)所示。
RDCN网络的具体结构如表1所示,Fc1和Fc2作为鉴别器。在Fc1后增加了Dropout[20]层,用于消除网络可能会产生的拟合现象。
2.3 损失函数
本文使用了Triplet loss和Binary Cross Entropy(BCE) loss损失函数用于训练网络。
Triplet损失函数结合FamilyID,目的是增强类内(有亲属关系)的紧凑性和类间(无亲属关系)的可分离性。Triplet损失函数定义为:
x是当前样本特征,y是同类样本特征,z是不同类样本特征,其中d(·)表示两个样本之间欧式距离。α是预先设置好的边界值。
BCE loss旨在优化结合真实亲属标签的网络。BCE损失函数定义为:
其中,q是目标标签,取值为0或1。取值为1表示图像之间有亲属关系,取值为0表示图像之间没有亲属关系。p为Sigmoid激活函数得到的预测值。
网络的损失函数定义为这两个损失函数之和,如式(4)所示:
3 实验与结果分析
3.1 数据集与数据预处理
本文使用了公开的KinFaceW[21]数据集进行实验验证,该数据集由KinFaceW-I和KinFaceW-II两个子集构成。数据集中的图像来源于互联网,包括一些公众人物及其子女的照片。人脸图像是在不受約束的环境下采集的,因此图像受光线等参数的影响。此外,人脸图像均已按照眼睛的坐标进行对齐并做了裁剪处理,图像大小均为64×64,KinFaceW-II数据集中部分数据及其亲属关系如图4所示。
KinFaceW-I数据集包含4种不同亲属关系的图像:父亲和儿子(FS),父亲和女儿(FD),母亲和女儿(MD),母亲和儿子(MS)。这四种关系的图像对数分别为134、156、127、116,共计1 066张图像。该数据集中每对人脸图像均采集于不同的照片,因此图像的光照、清晰程度有些许差异。
KinFaceW-II数据集也同样包含父亲与儿子(FS)、父亲与女儿(FD)、母亲与儿子(MD)、母亲与女儿(MS)4种不同亲属关系的图像数据集由,每种亲属关系包含250对图像,数据集中总共有2 000张图像。该数据集中每对人脸图像均采集于同一张照片,具有更好的可比性。
3.2 训练与参数设置gzslib202204051124本文的訓练参数设置如下:RDCN模型的优化器选用Adam,学习率设置为0.000 25,权值衰减设置为0.005,损失函数使用Tripletloss+Kin loss。使用交叉验证方法,将数据集尽可能等分成5折,其中4折用来训练,1折用来测试。每折由相同数量的正样本和负样本构成,正样本是一对有亲属关系的父母和孩子,负样本是由在本折中的不具有亲属关系的样本随机组合构成。进行5次实验,每次实验迭代次数为200次,阈值 设置为0.5。每次实验都会得出相应的准确率,最后将5次实验结果取平均值作为最终的实验结果。
本文为了验证算法的有效性,将本文提出的算法与一些最先进的方法GA[21],DMML[22],MPDFL[23],MPDFL[23],IML[22]等算法进行了比较,在KinFaceW-I数据集的精度比较如表2所示,在KinFaceW-II数据集的精度比较如表3所示。分析表2和表3可得出分析结果,在FS、FD、MD和MS四个子数据集上,本文所提出方法的准确性得到了显著提高。GA方法的准确度与本文的方法最接近。可以看出本文所提出的方法在KinFaceW-I数据集中的平均准确率达到80.8%,与表现最好的GA方法相比,至少提高了6.3%=(80.8%-74.5%)。同时在KinFaceW II数据集上的平均准确率达到88.2%,与GA方法相比,提高了6.0%=(88.2%-82.2%)。通过实验比较,可以发现,空洞卷积能够有效地提高亲属关系识别的准确率。
4 结 论
本文提出了一种亲属关系验证方法:残差空洞卷积神经网络(RDCN),该网络使用了空洞卷积替代卷积网络,并结合残差的思想用于特征提取。基于此设计,获得更具辨别力的深层特征,将其用于亲属关系验证获得更优异的结果。本文的方法在公共亲属关系数据集KinFaceW上进行了测试。实验结果表明,亲属关系验证的准确性得到了显著提高。在未来,我们的网络将进一步优化,并将考虑不同的因素,如照明、表情、年龄、性别、屏蔽,以提升亲属关系验证的精度。
参考文献:
[1] MARTELLO M F D,MALONEY L T. Where are kin recognition signals in the human face? [J/OL].Journal of Vision,2006,6(12):1356-1366.[2021-06-22].http://journalofvision.org/6/12/2/.
[2] MARTELLO M F D,MALONEY L T. Lateralization of kin recognition signals in the human face [J/OL].Journal of vision,2010,10(8):1-10.[2021-06-22].http://www.journalofvision.org/content/10/8/9.
[3] DEBRUINE L M,SMITH F G,Jones B C,et al. Kin recognition signals in adult faces [J].Vision Research,2009,49(1):38-43.
[4] MALONEY L T,MARTELLO M F D. Kin recognition and the perceived facial similarity of children [J/OL].Journal of Vision,2006,6(10):1047-1056.[2021-06-22].http://journalofvision.org/6/10/4/.
[5] ALVERGNE A,PERREAU F,MAZUR A,et al.Identification of visual paternity cues in humans [J/OL].Biology letters,2014,10(4):1-4.[2021-06-22].https://doi.org/10.1098/rsbl.2014.0063.
[6] HE K M,ZHANG Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[7] FANG R,TANG K D,SNAVELY N,et al. Towards computational models of kinship verification [C]//2010 IEEE International Conference on Image Processing.Hong Kong:IEEE,2010:1577-1580.
[8] CHEN X P,ZHU X K,ZHENG S S,et al. Semi-Coupled Synthesis and Analysis Dictionary Pair Learning for Kinship Verification [J].IEEE Transactions on Circuits and Systems for Video Technology,2021,31(5):1939-1952.
[9] LU J W,LIONG V E,ZHOU X Z,et al. Learning Compact Binary Face Descriptor for Face Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(10):2041-2056.gzslib202204051124[10] ZHANG K H,HUANG Y Z,SONG C F,et al. Kinship Verification with Deep Convolutional Neural Networks [C]//Proceedings of the British Machine Vision Conference(BMVC)Swansea,Swansea:BMVA Press,2015:148.1-148.12.
[11] ZHOU X Z,JIN K,XU M,et al. Learning Deep Compact Similarity Metric for Kinship Verification from Face Images [J].Information Fusion,2019,48:84-94.
[12] YU J,LI M Y,HAO X L,et al. Deep Fusion Siamese Network for Automatic Kinship Verification [J/OL].arXiv:2006.00143 [cs.CV].[2021.06-22].https://arxiv.org/abs/2006.00143v2.
[13] LU J W,ZHOU X Z,TAN Y P,et al. Neighborhood Repulsed Metric Learning for Kinship Verification [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(2):331-345.
[14] ZHOU X Z,YAN H B,SHANG Y Y. Kinship verification from facial images by scalable similarity fusion [J].Neurocomputing,2016,197:136-142.
[15] NANDY A,MONDAL S S. Kinship Verification using Deep Siamese Convolutional Neural Network [C]//International Conference on Automatic Face and Gesture Recognition.Lille:[s.n.],2019:1-5.
[16] BENGIO Y,SIMARD P,FRASCONI P. Learning long-term dependencies with gradient descent is difficult [J].IEEE Transactions on Neural Networks,1994,5(2):157-166.
[17] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks [J].Journal of Machine Learning Research,2010,9:249-256.
[18] LECUN Y,BOSER B E,DENKER J S,et al. Backpropagation applied to handwritten zip code recognition [J].Neural computation,1989,1(4):541-551.
[19] YU F,KOLTUN V,FUNKHOUSER T. Dilated Residual Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Honolulu:IEEE,2017:636-644.
[20] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors [J/OL].arXiv:1207.0580 [cs.NE].[2021-06-22].https://arxiv.org/abs/1207.0580.
[21] DEHGHAN A,ORTIZ E G,VILLEGAS R,et al. Who Do I Look Like? Determining Parent-Offspring Resemblance via Gated Autoencoders [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus:IEEE,2014:1757-1764.
[22] YAN H B,LU J W,DENG W H,et al. Discriminative Multimetric Learning for Kinship Verification [J].IEEE Transactions on Information Forensics and Security,2014,9(7):1169-1178.
[23] YAN H B,LU J W,ZHOU X Z. Prototype-Based Discriminative Feature Learning for Kinship Verification [J].IEEE Transactions on Cybernetics,2015,45(11):2535-2545.