辽宁工业大学电子与信息工程学院 汪金涛 曹玉东 李 羊
基于深度学习的人脸识别方法探究
辽宁工业大学电子与信息工程学院汪金涛曹玉东李羊
深度卷积神经网络具有复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型自提出以来在多个大规模人脸识别任务上取得了较高的准确率。文章从典型的网络结构的构建、训练方法和性能表现三个方面进行介绍,并展望未来发展的新方向。
卷积神经网络;深度学习;人脸识别;网络结构
人脸识别是图像识别领域一个非常重要的研究方向,由于人脸图像具有易采集的特性,因此受到许多行业的关注,具有广阔的应用前景和巨大的商业市场。
在深度学习出现之前,人脸识别采用的主流方法是以Eigenfaces为代表的子空间分析方法。香港中文大学汤晓鸥教授所带领的研究团队将当时最为流行的3种子空间方法——主成分分析子空间(PCA)、贝叶斯子空间和线性判别分析子空间(LDA)有机地结合到同一个理论框架中,提出了统一子空间[1]分析方法.这种方法使用LBP和Gabor等特征对人脸图像中邻域像素区块的灰度值或颜色值进行局部特征提取,然后对这些局部特征进行特征变化,得到更易于区分的人脸表示,在人脸识别领域最受关注的测试集LFW上取得了当时的最佳识别性能。
Facebook提出的DeepFace[2]便是一种在人脸识别领域进行了优化的深度学习网络结构。输入是正规化到152×152大小的3通道RGB人脸图,接着是一个卷积层C1,有32个11×11×3大小的卷积核,每个通道的卷积核是11×11,所以3通道卷积核便是11×11×3,每个核的卷积结果为3通道上的卷积结果在对应位置累加得到,所以最后得到32张142×142大小的卷积结果图。
C1后是一个最大池化层,核大小为3×3,步长为2,故得到32个71×71×3大小的图片作为结果。M2之后是卷积层C3,这一层有16个卷积核,每个卷积核大小为9×9×16,16指的意思是从M2的32张输出图中选择16张进行卷积,在每张图以9×9为卷积核得到结果,再将16张卷积图累加得到每个9×9×16大小卷积核卷积结果图。
F7是一个全连接层,也就是普通神经网络使用的隐藏层结构,它的输入是将L6的16张卷积图按照像素排列得到的向量,F7的隐藏单元个数为4096个,所以它的输出也是4096维。DeepFace将F7的输出作为表示人脸的特征。最后的F8则是一个softmax分类器。
Xiaoou在文献[3]提出了DeepID,它包括4层卷积层,前三层卷积层之后都紧跟着一个最大池化层,在卷积层之后是一个全连接层,最后则是用于分类的softmax层。DeepID网络的特别之处有以下几点:
(1) 多尺度特征:DeepID网络将第三层卷积层经过池化层后的输出与第四层卷积层的输出连接起来之后一起传播给了全连接层作为输入。对于网络结构的特征学习来说这是很重要的一个变动,因为经过多层级联池化过程,第四层卷积层拥有的特征图尺寸只有2×1大小,因此很可能会成为特征学习的瓶颈所在。而第三层卷积层学习得到的特征比起第四层要更加具有全局性,因此将这两层特征联合起来有助于减少可能的信息损失,使得学习得到特征具有多尺度性;
(2) 网络的深度:DeepID网络有4层卷积层,3层池化层,是有深度的网络结构;
(3) 全连接层神经元的个数少:DeepID网络全连接层中神经元的个数为160个,它的输入为第三个池化层的60×(3×2)维加上第四层卷积层的80×(2×1)维一共520维特征,输出则是softmax层的输入,因为一共有10000个类别,所输出有10000维。即要用160个神经元去表示这10000个类别,这说明每个类别的特征都是十分稀疏的,这和神经网络中的sparse autoencoder很相似,通过引入稀疏性使得学习得到的特征更加具有分类与表示能力。
随着深度学习在图像领域研究的深入,利用卷积神经网络的卷积层、池化层和全连接层等基本结构,就可以让这个网络结构自己学习和提取相关特征,省略过往繁杂的建模过程。若能对网络提取的特征表示进一步的优化,使其能够更好的表达特征,加上复杂的推理,那么深度学习将在人脸识别等人工智能领域能取得更大的进展。
[1]Wang X,Tang X.A unified framework for subspace face recognition[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2004,26(9):1222-1228.
[2]Taigman Y,Yang M,Ranzato M A,et al.Deepface:Closing the gap to human-level performance in face verification[C]// Computer Vision and Pattern Recognition(CVPR),IEEE Conference on.Columbus,USA:IEEE 2014:1701-1708.
[3]Sun Y,Wang X,Tang X.Deep learning face representation from predicting 10,000 classes[C]//Computer Vision and Pattern Recognition(CVPR),IEEE Conference on.Columbus,USA:IEEE 2014:1891-1898.
汪金涛(1992—),男,安徽合肥人,硕士研究生,研究方向:模式识别,深度学习。
曹玉东(1971—),男,辽宁铁岭人,博士,副教授,研究方向:图像处理,模式识别。
李羊(1991—),男,河北石家庄人,硕士研究生,研究方向:图像处理,模式识别。