易锋 胡馨莹
摘要:随着计算机技术、图像处理和计算机视觉技术的快速发展,行人人脸识别相关问题的研究热度逐年升高。行人人脸识别是为了识别不同摄像头中的同一个人,由于行人的角度、姿势、光照等发生变化时容易影响行人的外观,使得行人人脸识别问题具有一定的难度。本文提出了一种基于深度残差网络(ResNet)与度量学习的行人人脸识别算法,将基于函数的度量学习方法与深度残差网络相结合,可以解决当前网络层次不断增加时梯度消失的现象,并可通过单纯增加网络深度來提高网络性能。通过实验验证,提出的算法在LFW上的实验结果较好,说明该算法可在实际场景中得到较好的应用。
关键词:计算机技术;人脸识别;图像处理
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)23-0233-03
1研究背景
身份验证经常在多种日常场景中出现,如考勤、支付等,已成为现在生活不可缺少的一部分。随着计算机技术的快速发展,身份验证的方式从指纹识别到虹膜识别,再到人脸识别,其使用的简单性和验证的准确性不断提升。
人脸识别是一项基于人脸特征进行身份识别的生物识别技术,是通过用摄像头采集人脸的图像或视频,并进行自动检测从而实现身份识别。人脸具有唯一性和不容易被复制的特点,且与传统的生物识别技术如指纹和虹膜识别相比,具有非强制性、非接触性和并发性等三大特点,使其在公共安全、信息安全等方面得到广泛应用。
近些年来,随着卷积神经网络CNN的不断发展,以及CNN可以避免对图像进行复杂的预处理,直接输入原始图像进行处理,且具有更高的识别准确率,使得基于CNN的人脸识别取得了优秀的成绩。DeepID1便是通过使用CNN学习特征,对任意输入的一张图片,生成160维的特征向量,然后再使用浅层机器学习组合贝叶斯进行分类。
但是由于行人所处环境较为复杂,处于时刻变化之中,通过传统的分类网络进行人脸识别难以达到理想的识别精度。同时,在使用特征学习方法进行训练时,为了保证分类准确率会产生大量的训练数据。这些数据是正、负样本对,由于其生成的随机性使得网络深度加深,使得神经网络不够稳定,性能降低。
针对许多方法的各种不足,本文提出了一种基于深度残差网络(ResNet)与度量学习的人脸识别方式,将基于函数的度量学习方法与深度残差网络相结合,可以解决当前网络层次不断增加时梯度消失的现象,这样能够通过单纯地增加网络深度来提高网络性能。
2基于深度残差网络与度量学习的特征提取方法
目前基于CNN的特征提网络大多是使用分类损失作为网络训练的监督讯号,这些网络训练的目标是使得不同类别的距离变得更远。但由于环境因素影响,同一个人的不同人脸的图片可能也存在很大的差别,甚至可能出现不同人脸的相似度比同一个人的不同人脸图片的相似度还要高的识别结果。
所以特征学习的目标是不仅需要增大不同类之间的距离还需要减小同类之间的距离。在学习特征的时候,在考虑分类准确率的同时考虑类间差距,且在目标函数上加入了验证信号即验证损失。但是在进行训练时,训练数据是大量的正、负样本对。正、负样本对的功能分别是减小同类间距离和增大不同类间距离。但由于大量正、负样本对的生成是随机的,会使得网络的性能大大下降。
在本文中,我们首先说明使用卷积神经网络来实现人脸识别时,神经网络建模遇到的困难和解决途径,同时说明在训练网络时使用的目标函数和训练设置。我们进行了多种网络的设置和建模,并将所得较优的网络用于后面的实验部分。
2.1基于深度残差网络结构的人脸特征提取网络
卷积神经网络CNN的结构一般由下面几个模块相交互构成:输入层、卷积层、池化层、全连接层和输出层。
输入层是卷积网络的前端,图像直接输入到输入层中。在人脸识别问题中,所输入的图像是多种形态的人脸图像,常见的形态是固定摄像头拍摄的相同场景中的人脸。通常这样的图像需要经过人脸检测的步骤将人脸框出等一系列预处理,使得人脸图像能够统一到相似的环境和设置中。例如在LFW人脸识别数据库中便存有不同场景中的人脸图像和经过对齐等预处理后的人脸图像。
卷积层是卷积网络的重要组成部分。卷积层的特点是卷积核的权重是共享的。不同通道上的信息会通过卷积核映射到下一层的通道的相应位置。卷积层的这个特点使得卷积网络有着和标准的多层感知机模型不同的性质,就是卷积层使得卷积网络具有位置不变性的特点。不论检测对象在图像的位置如何,卷积网络都有着相同的输出。
池化层常常间隔的用在卷积层之间。池化层的作用是在一定视野内收集通过卷积核形成的图像特征。由于是多个点的特征通过池化层被收集到一个点上,因此池化层也给卷积网络带来了一些新的特点,例如我们可以通过池化层得到旋转不变性的特性。这扩展了捕捉图像特性的能力,在图像识别任务中起到了提高识别率的效果。
全连接层是上层神经元和下一层神经元都有充分链接的神经网络组成部分。多层感知机就是由全连接层以此叠加组成的。全链接层常常设置在网络的输出部分以通过不同的图像特征组合得到区别不同图像类别的特征组合方式。在全局逼近定理的保证下,足够多的中间层神经元可以近似模拟任何的非线性关系。在卷积网络中,全连接层放置在网络输出端来建立从图像特征到图像类别的关系。
输出层是卷积神经网络最后的组成部分。输出层常常由sigmoid函数输出后再输入softmax函数而得到每个类别的比重。为了数值上的稳定,我们将sigmoid函数和softmax函数放到一个模块中实现。
2.2基于残差网络的人脸识别网络
一般情况下,为了能够获得鲁棒性更强的特征,研究者常使用加深和加宽网络结构,并通常采用以下方法加以实现:
(1)通过卷积层和池化层的相互叠加;
(2)使用多个全连接层。
但是通过这些方法构建的加深和加宽的网络结构也会产生下述问题:
(1)网络参数过多的情况下,极易出现过拟合现象;
(2)网络深度不断增加的情况下,梯度消失的现象越来越明显,网络的性能明显下降;
(3)网络的尺寸不断增大会使得计算复杂度增大,消耗的资源变多也会导致网络的性能下降。
为解决上述三个问题,我们在研究中构建了ResNet深度残差网络,与传统网络相比较,其包含有残差网络结构,并加入了y=x(恒等映射层),可使网络随着深度的增加不会出现梯度消失的现象,并且具有较好的收敛效果。我们通过叠加25个卷积层,构建的ResNet-25网络模型如图1所示。ResNet-25网络模型中ResNet残差单元的基本结构如图2所示。
在网络输出后我们利用交叉熵作为目标函数来训练网络。同时我们在实验中利用ResNet-25来得到所有的实验结果。
通过以上方式所构建的ResNet深度残差网络,其优点是网络只需建模不同层间数据的变化,无须利用卷积层去建模数据分布分身。这大大降低了网络对数据建模的复杂性,提高了网络效能。使得网络在使用较少参数的情况下就可以对数据进行较好的建模,提高识别准确率。
3 实验结果及分析
3.1 训练样本
文本使用的训练样本是WIDER FACE人脸数据集。WIDER FACE是由香港中文大学提供的拥有更广泛人脸数据的数据集。其包括了393703个人脸图像,在角度、姿势、光照等方面都有不同的变化。
3.2测试集
本文使用的测试集是LFW人脸数据库。LFW是一个用于研究无约束的人脸数据库,大约有13000张人脸图像,每张图像都以被拍摄的人名命名。其中有1680人有两张或以上不同的照片。
3.3实验细节
实验对所有训练集和测试集都需要进行相同的预处理,并通过以下两步实现。
第一步:用HOG特征和SVM分类器对人脸进行检测和人脸的68个特征点定位;
第二步:经过ResNet生成128维向量空间。
网络的训练参数设置如下:初始学习率设置为0.01,权重衰减设置为0.005,训练批次大小设置为32,最大迭代次数为10万次。之后根据获得的向量空间进行距离度量。
3.4LFW库测试结果及分析
在实验过程中,我们首先在训练数据集上按照前述的设置训练我们的网络模型,之后在测试数据集上验证我们的模型效果。当我们观察到模型在训练过程中开始出现过拟合的情況时,我们停止模型的训练。图3所示为模型在LFW训练数据集上的ROC图。从图中我们可以看见ROC曲线已经极大的偏向左上角。说明模型有足够的表达能力,已经可以拟合训练数据集上的数据。在LFW测试数据集上的ROC图如图4所示,我们可以看到在测试数据集上的ROC仍然较强的偏向左上角,模型在没有见过的数据上任然能够得到较好的结果,说明模型在LFW数据集上有着较好的泛化能力。在图4中,我们可以看到最终准确率可到94%。通过实验,我们可以得到使用ResNet-25作为卷积神经网络的核心应用到人脸识别问题上可以在LFW数据集上取得较好的效果。
4 结论
本文针对行人人脸识别过程中,因为获得更强鲁棒性特征而使用加深加宽网络结构时所导致的问题,提出了一种基于深度残差卷积网络的人脸识别方法。在这种方法中我们使用多层残差卷积网络作为基础,提出了合适的目标函数来和相应参数对网络模型进行了构建和训练,并通过LFW库人脸数据集对网络模型进行了实验验证。实验结果表明本文所提出的方法能够有效地提高人脸识别的效能,可进一步扩展至不同场景中进行检验和应用。
参考文献
[1]栗科峰,黄全振.融合深度学习与最大间距准则的人脸识别方法[J].计算机工程与应用,2018,54(05):206-210.
[2]郭金鑫,陈玮.基于HOG多特征融合与随机森林的人脸识别[J].计算机科学,2013,40(10):279-282+317.
[3]Taigman Y, Yang M, Ranzato M, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C], IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014:1701-1708.
[4]Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering[J]. 2015:815-823.
[5]Sun Y, Wang X, Tang X. Deep Learning Face Representation from Predicting 10,000 Classes[C], IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014:1891-1898.
[6]Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C], IEEE Computer Society Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2005:886-893.
【通联编辑:光文玲】