李睿,李科,孙家炜
(1.四川大学计算机学院,成都 610065;2.四川大学视觉合成图形图像技术国防重点学科实验室,成都 610065;3.四川川大智胜软件股份有限公司,成都 610045)
在互联网技术不断发展的今天,人工智能[1]成为了当前众多前沿技术的潮流,追求软件应用的快捷、安全是各个领域重要的主题。由于人工智能中计算机视觉技术[2]的快速发展,诞生出基于深度学习[3]的人脸识别技术可应用于各种需要验证身份的场景,如银行交易认证、车站卡口认证以及门禁系统等众多安防领域。
目前的人脸识别主要是利用二维人脸检测特征点[4],并分部分训练深度学习模型提取特征,再利用特征信息比对进行身份识别。但是由于受到姿势、光照、表情变化等因素的影响,其有较大的局限性。此外,随着二维人脸识别技术的成熟与广泛应用,更高标准的安全性、可靠性要求被提出,于是三维人脸识别技术[5]开始诞生。经过国内外研究人员的大量研究证明三维人脸可大大提高识别技术的可靠性。
虽然直接利用三维人脸信息的识别方法不断有新的进展,且能够更加准确丰富地描述人脸特征,并不容易受到光照和姿态影响,但是三维人脸具有信息采集耗时耗力,采集条件苛刻、成本高等缺点。所以本方法结合二维图像采集方便快捷和三维人脸识别更为可靠准确的优势,利用二维纹理重建三维人脸深度信息,将二维人脸与三维人脸转换到同一度量空间,再进行同一度量空间的人脸信息对比识别。
三维人脸数据中的深度信息与二维人脸图像中的纹理信息具有不同的性质和属性,按照纹理的具体表现形式分类可将纹理分为:颜色纹理、凹凸纹理、过程纹理。凹凸纹理是二维纹理由于不同部位光反射的不同,可以体现人脸表面的凹凸特性,该凹凸特性在三维人脸中的表现为三维人脸数据中的深度信息。考虑到实际应用中在注册端采用三维人脸采集设备进行注册是可行的且二维摄像机已经普及,因此本文重点研究了三维人脸注册加二维人脸识别,以期推动三维人脸识别的实际应用。三维人脸注册加二维人脸识别是一个异源异质异构问题,其核心问题在于如何将三维人脸与二维人脸转换到同一度量空间,本文研究了二维人脸如何转换为三维结构信息(深度图),提出了一套高精度三维人脸结构信息对二维人脸纹理信的人脸识别框架与算法。
本研究从FRGC 数据库中取466 人,共3276 组数据(每组由一张二维人脸纹理图像和对应的三维人脸深度图像构成,同一人有多组数据)。
(1)预处理
由于训练数据量较少以及三维深度图扩充受限(不受光照等影响),所以本研究将二维人脸纹理图像进行了扩展与增强[6],通过OpenCV 访问图像像素改变其对比度亮度生成新的纹理图像,再映射出其相应的三维深度图像。 亮度对比度调整公式为:g(i,j)=a*f(i,j)+b,其中 i 和 j 表示 i 行 j 列,f(i,j)为源图像像素,g(i,j)为输出图像像素,参数a 为控制对比度参数,参数b 为控制亮度的参数。扩展效果图如图1。
图1 图像扩展
(2)算法框架及网络结构
①算法的总体框架
如图2 所示,该方法利用二维图像通过深度网络重建三维深度图后进行人脸特征提取,同时原有数据集中三维人脸数据投影形成的人脸深度图也进行特征提取,最后进行特征比对。实质上本方法是将二维纹理与三维深度信息通过深度网络映射到同一特征空间上进行比较。
图2 三维深度与二维纹理的识别流程
②二维纹理到三维深度图的映射网络
二维纹理到三维深度的映射是端到端的像素映射,除特征表达外还进行了重建,且必须从总体上计算光照(纹理)与深度之间的关系。因此作为特征提取的卷积神经网络不适合二维纹理到三维深度。本研究设计通过自编码网络[7]结构实现映射,通过自编码网络对输入数据进行了降维压缩,然后在输出层中解压缩,通过这种网络训练可以将冗余信息去除并保留其主要的特征。算法结构如图3 所示。
图3 自编码网络结构
对于该自编码神经网络,含有2N 个全连接层,且具有对称性。编码器含有前N 个全连接层,解码器含有后N 个全连接层,设第k(k=1,2,…,2N)个全连接层的输出神经元单元数为m(k),网络的输入为x ∈Rd,则第 k 层的输出表达为 h(k)=g(W(k)h(k-1)+b(k)) ,其中为该层的参数矩阵,b(k)∈Rm(k)为偏置项,为激活函数。于是最后一层的输出为,其中 H:Rd→Rd,即为从二维人脸纹理图到三维人脸深度图的非线性映射模型。整个二维人脸纹理图到三维人脸深度图转换的问题转化为求取H 的问题。
图4 自编码网络详细结构
③三维深度图特征提取网络
由于训练数据量较少以及三维深度图扩充受限(不受光照等影响),所以本研究将二维人脸纹理图像进行了扩展,通过改变其对比度亮度生成新的纹理图像,再映射出其相应的三维深度图像[8]。然后针对本研究设计了简单的卷积神经网络[9]以实现三维深度图的训练与特征提取。该网络结构如图5 所示。
图5 三维人脸深度图与二维人脸映射图特征提取网络
该网络包含了两个卷积层,两个池化层,以及两个全链接层。Conv1 和Conv2 为卷积层,简单来说卷积层为利用二维滤波器根据步长在二维图像(三维深度图为二维图像)的像素点上滑动,同时与该像素点及其附近像素点做内积,通过这样的卷积操作可以不断提取图像的特征。两个Pooling 层为池化层,该层可达到减少数据处理量的作用,通过利用图像的局部相关性对图像进行子抽样,还可以保留有用的信息,并且能够在一定程度上控制过拟合。IP1 和IP2 为全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层和池化层中具有类别区分性的局部信息。该网络具有简洁但层次完备的特点,适用于本研究数据量较少的情况。
(3)评估方法
算法评估中,本研究从FRGC 数据库中取466 人,共3276 组(每组由一张二维人脸纹理图像和三维人脸深度图像构成)数据中选取100 人的722 组数据作为测试对象,余下的366 人的所有数据作为训练集。为了保证特征提取的鲁棒性,从训练集中随机抽取一半的数据(1277 组)用于二维纹理到三维深度的映射网络的训练学习,通过学习训练形成的模型将训练集中所有的二维人脸纹理图像映射为三维深度图。最后利用映射得到的三维深度图形成特征提取的训练数据进行学习训练,得到特征提取模型以提取用于人脸识别的特征。在应用到人脸识别阶段用提取的特征值进行对比,求得余弦相似度,判断是否为同一人脸,并计算判断正确的准确率。
通过二维人脸纹理图到三维人脸深度图的非线性映射模型映射出的结果如图6(每对图像中左图为二维纹理图,中间图为三维投影深度图,右图为二维纹理重建三维深度图)。
图6 二维纹理到三维深度映射的深度神经网络网络与映射结果
通过三维深度图特征提取网络提取特征后进行特征比对,测试结果表明在没有其他任何信息支撑的前提下,三维人脸深度图像对二维人脸纹理图像的异构异质识别率在 100 人的 722 组数据上,达到了75.21%。
由于该实验数据集较小,所以识别率还未达到最好效果。且由于使用深度学习的方法可以在数据继续扩充的情况下不断优化训练模型并提升准确度,且二维人脸纹理采集方便、三维深度信息可信度高,对比与当前的二维人脸识别与三维人脸识别技术,基于二维纹理重建三维人脸深度图像后的人脸识别有不错的应用价值和发展前景。与其他方法相比,该研究具有以下优势:①用采集二维纹理图代替了采集三维信息,且本研究中的两种深度学习框架架构简单,训练方便。②利用三维深度图作为验证手段,提升了人脸识别的可靠性。
针对该实验可以预见,通过采集二维人脸纹理并利用三维深度图进行人脸识别的方法将使基于人脸识别的应用更加便捷且更加可靠。对于该文中使用的深度学习模型,如果继续增加数据集以及改进深度学习网络为更多层更深的网络并使用更好的设备进行训练模型,会得到准确率更高的深度学习模型。