基于机器学习的样本多样性算法研究

2017-07-20 03:19张贵英

物联网技术 2017年7期

张贵英

摘要：当前，采用卷积神经网络进行图像目标检测和识别是一大研究热点，并取得了不少研究成果。这些成果在研究过程中使用大量有标签的训练样本作为训练集起了至关重要的作用。文章以人脸识别为例，阐述了多样本获取现状；讨论了基于传统方法的多样本算法研究现状和基于深度学习的多样本算法研究现状；最后展望了多样本算法未来的发展方向。

关键词：卷积神经网络；人脸识别；大样本；对抗生成网络

中图分类号：TP391 文献标识码：A 文章编号：2095-1302（2017）07-00-04

0 引言

近几年，基于大量训练数据的卷积神经网络（Convolutional Neural Networks，CNN）在目标检测、目标识别、显著性检测、行为识别、人脸识别和对象分割等计算机视觉领域取得了举世瞩目的成果。这些令人鼓舞的成绩主要归功于以下几点：

（1）将大量有标签的数据作为训练集，学习出具有百万参数的模型，从而使卷积神经网络能够有效提取对象的本质特征；

（2）不断改进性能优异的网络结构，如Very Deep VGG Network[1]，Google Inception Network[2]和Deep Residual Networks[3]等；

（3）各种并行计算硬件设备（如GPU）的支持，大大提高了CNN训练模型的效率。其中，将标签的大量数据作为训练集起着至关重要的作用。

本文以人脸识别为例，讨论和综述多样本算法的研究现状和发展方向。

有效的特征是目标识别的关键，对人脸识别问题来说亦如此。传统的主成分分析（Principal Component Analysis，PCA）[4，5]，线性区分分析（Linear Discriminant Analysis， LDA）[6]和局部二值模式化（Local Binary Pattern，LBP）[7，8]等取得了不错的成绩。基于传统特征的人脸识别受限于环境，此类特征作用在复杂或者背景多变的人脸图像时，其识别性能往往大幅下降，如在LFW数据集上其识别率骤然下降[9]。

采用CNN作为特征提取模型，主要考虑到该模型的所有处理层，包括像素级别的输入层，均可从数据中学习到可调节的参数。即CNN能自動从大数据中学习特征，无需人工设计特征。合理有效的特征需从大量数据和大量参数中自动学习获取，从而达到优秀的识别性能。基于卷积神经网络的世界领先方法均使用了上百万的数据，其中最具有代表性的如VGG-Face网络需要260万个人脸图像样本进行训练[10]，Facebook的DeepFace网络需要440万个有标签的人脸图像样本训练[11]。而Google更使用了2亿样本数据来训练FaceNet网络[12]。

1 多样本获取现状

如引言所述，有效合理的特征是目标识别的关键，而CNN能从大量有标签的数据中自动学习图像的本质特征。获得图像特征的关键因素是有标签的大数据。因此许多研究的前提工作均聚焦在人工获取数据和给数据加标签方面。然而，获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理，然后给数据添加标签，耗费大量的人力物力。虽然也有一些公开免费的数据集，且收集该类数据相对比较容易，如CASIA-WebFace[13]，有49万个图像，但远少于Facebook和Google的数据集。在这种情况下，缺乏大量样本直接阻碍了深度学习方法的使用，成为阻碍提高检测率和识别率的瓶颈。除了深度学习技术提取特征需要大量样本外，已有研究证明[14-19]，基于传统方法的技术同样需要大量样本作为支撑。在这种形势下，通过图像处理与机器学习技术自动增加样本集已成为必要手段。

无论基于传统方法的识别问题，还是基于深度学习的识别问题，大量有标签的数据作为训练集在算法中起着举足轻重的作用。如果样本不足，算法往往过拟合，无法提高算法的性能。为了获得更多样本，一些研究工作从网络上获取数据，例如在IMDb上，已经把9万有标签的数据集扩大到了26万 [10]。除此之外，Facebook获取了440万个有标签的人脸进行DeepFace网络训练[11]，而Google使用2亿个数据训练FaceNet网络[12]。

目前获取方法具有如下局限：

（1）现有方法耗时耗力，需要经费支持。获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理，然后给数据添加标签，耗费大量的人力物力。这种情况下，只有像Facebook和Google这样的大公司会收集大量有标签的数据进行网络训练。而大多数情况下的数据收集涉及个人隐私与财力物力等问题，对于一般的小公司或科研院所而言，收集数据普遍难度较大。

（2）收集特殊图片困难。对于一些特殊的图像，如医学图像，遥感图像，现实中数量本身就少，加之无法直接从网上获取，因此小样本很容易导致过拟合。

2 样本集扩大算法研究现状

2.1 基于传统方法的多样本算法研究现状

对于传统的样本生成算法，如果数据集中有足够的训练样本，均可得到比较满意的识别结果，但在现实的人脸数据库中，人脸的数据样本却是有限的。文献[20]表明，增加图像样本的数量可以较大幅度提高识别的准确率。

为了增加样本数量，提高识别准确率，科研工作者已做了大量工作。其中，借助原始样本产生虚拟样本是一种有效的增加数据集方法。这种方法大致分为如下几类：

（1）通过人脸图像的对称性来得到原始样本的虚拟样本，如Xu[14，15]和Liu等[21]提出借助原始图像的“对称脸”和“镜像脸”产生虚拟样本，从而扩大数据集并提高人脸识别的正确率，Song[22]也提出相应的算法来改进人脸识别的性能；

（2）通过改变图像的光照、姿势和表情等来产生虚拟样本，例如Boom等用一种称为VIG的方法对未知光照情况进行建模[16]，Abdolali[17]和Ho[18]等提出了类似的算法扩大数据集；

（3）基于人脸图像自身的特征生成虚拟样本，Ryu等根据原始样本的分布来产生虚拟样本[19]，Liu等也根据图像本身特性来产生虚拟样本[23]。

（4）基于数学的多样本产生方法，如Zhang等提出利用奇异值分解的方法获得基于原始样本的虚拟样本[24]。借助图像合成方法生成的新样本如图1所示。

图1 借助图像合成方法生成新样本

除了借助图像处理方法获得原始样本的新样本外，还可以利用图像合成算法获取多样本，本研究做了相关实验，其结果如图1所示。假设数据集中有c类人脸图像，每类有ni个样本，令表示第i类中的第j个样本，这里i=1，2，…，c，j=1，2，…，ni，h和w分别代表样本xij的高和宽（均为像素值）。用X=[X1，X2，…，Xc]代表所有样本，则Xi=[xi1，xi2，…，xini]，i=1，2，…，c代表第i类样本。则有：

其中， P（Xi）代表所生成的第i类新样本， f（g）表示图像处理函数，代表多个样本的串联，即将多个样本联合起来得到一个类别的新样本。

2.2 基于深度学习的多样本生成算法研究现状

大量有标签的训练数据是机器学习成功的关键，尤其对于强大的深度学习技术，大数据集能提高CNN的性能，防止过拟合[25]。为了扩充数据集，已有一些工作在不改变图像语义的情况下进行，如水平镜像[26]、不同尺度的剪裁[27，28]、旋转[29]和光照变化[27]等传统方法。

DeepID[30]采取了增大数据集手法来训练网络，只有大的数据集才能使得卷积神经网络训练得更加充分，该研究采用两种方法增大数据集：

（1）选择采集好的数据，即映入CelebFaces数据集。

（2）将原始数据集中的图片多尺度、多通道、多区域的切分，然后分别进行训练，再把得到的向量串联起来，即得到最后的向量。

以上方法仅局限于相对简单的图像处理技术，该类方法生成的多样本具有一定的局限性。比如，真正意义上的旋转应按一定的角度进行3D旋转，而不仅仅是图像本身的角度旋转。合成数据能一定程度上解决以上问题，如Shotton等通过随机森林合成3D深度数据来估计人体姿势，Jaderberg等使用合成数据来训练CNN模型识别自然场景下的文字[31]。这些研究的结果均优于使用剪裁，旋转等传统方法。但使用3D合成图像比较复杂，需要较多的前期工作。

近年来，借助生成对抗网络（Generative Adversarial Networks，GANs）来生成原始样本的方法吸引了很多学者。2014年6月，Goodfellow 等发表了论文《Generative Adversarial Nets》[32]，文中详尽介绍了GANs的原理、优点及其在图像生成方面的应用，标志着GANs的诞生。早期的GANs模型存在许多问题，如GANs网络不稳定，甚至有时该网络永远不会开始学习，生成的结果无法令人满意。文献[32]中生成器生成的图片十分模糊，针对此问题，Denton等提出一个被称为 LAPGANs的模型[33]，该模型用多个卷积神经网络连续生成图像，这些新图像的清晰度不断提高，最终得到高分辨率图像。GANs除了基于图像生成图像外，还可以通过文字生成图像，如文献[34]搭起了文本到图像的桥梁，通过GANs将文本直接转换成对應的图像。文献[35]将GAN应用于超分辨率中，该文献提出了全新的损失函数，使得 GANs 能对大幅降采样后的图像恢复其生动纹理和小颗粒细节。另外，Radford 等提出了名为DCGANs的网络[36]，该文献指出，用大数据集训练出的 GANs 能学习一整套层级的特征，并具有比其他无监督学习模型更好的效果。以上方法均为基于一大类原始样本生成另一大类图像。

基于GAN生成样本的过程如图2所示。首先将同类别的原始图像输入到生成对抗网络GAN的生成器网络G中，生成“假冒”图像G1和G2，接着借助判别器D来判断输入的图像是真实图像还是“假冒”图像。生成器G努力生成类似原始样本的图像，力争判别器D难以区分真假；而判别器D应不断提高自身性能，有能力鉴别出由生成器G生成的图像为赝品。生成器G和判别器D的价值函数如下：

生成器G最小化log（1-D（G（z））），判别器D最大化logD（x），使得最大概率按照训练样本的标签分类，生成模型G隐式定义了一个概率分布Pg，希望Pg 收敛到数据真实分布Pdata。

图2 GAN生成新样本示意图

3 结语

综上所述，基于原始样本的多样本生成算法是一个值得深入研究探索的问题，具备清晰而明确的理论意义和现实应用意义。虽然研究人员已经对相关问题进行了一些研究，取得了一系列成果，但是多样本的产生方法缺乏全面、深入的理解，尚未出现具有里程碑意义的研究成果。具体而言，本文认为，基于原始样本的多样本生成问题需要在如下几个方面展开深入的研究：

（1）在研究多样本生成算法时，保留原始样本的本质特征，如在人脸识别中，抛弃不必要信息（光照、表情和姿势）的影响是一项十分有意义的工作。

（2）在合成新样本时，设计合理有效的构造元素，使合成的新表示更接近自然亦是一个值得研究的方向。

（3）基于生成对抗网络，研究某一类对象的生成新样本的核心算法是一项有意义的工作。

参考文献

[1] K Simonyan， A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science， 2014.

[2] C Szegedy，W Lin，Y Jia， et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015.

[3] K He，X Zhang，S Ren，et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016.

[4] Turk， Matthew， Pentland， et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience， 2014，3（1）： 71-86.

[5] A Pentland.Looking at People： Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence， 2000，22（1）： 107-119.

[6] C Liu， H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society， 2000，9（1）： 132-137.

[7] T Ojala，M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2002，24（7）： 404-420.

[8] T Ahonen， A Hadid， M Pietikainen.Face Description with Local Binary Patterns： Application to Face Recognition[J]. European Conference on Computer Vision， 2004，28（12）： 469-481.

[9] GB Huang， M Mattar， T Berg，et al. Labeled faces in the wild： A database for studying face recognition in unconstrained environments[Z].Month，2008.

[10] OM Parkhi， A Vedaldi， A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference， 2015.

[11] Y Taigman，M Yang， Marc， et al. DeepFace： Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition，2014.

[12] F Schroff，D Kalenichenko，J Philbin.FaceNet： A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition，2015.

[13] D Yi，Z Lei， S Liao， et al.Learning face representation from scratch[Z]. Computer Science， 2014.

[14] Y Xu， X Zhu， Z Li， et al.Using the original and ‘symmetrical face training samples to perform representation based two-step face recognition[J]. Pattern Recognition， 2013，46（4）： 1151-1158.

[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing， 2014，31（7）： 191-199.

[16] BJ Boom， LJ Spreeuwers， RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition， 2011，44（9）： 1980-1989.

[17] F Abdolali，S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing，2011.

[18] HT Ho，R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society， 2013，22（4）： 1573.

[19] Y.-S.， Ryu.，S.-Y.， O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters， 2012，23（7）： 833-841.

[20] A Wagner，J Wright， A Ganesh，et al.Toward a Practical Face Recognition System： Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2012，34（2）： 372-386.

[21] Z Liu，X Song，Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging， 2015，24（2）： 23013.

[22] YJ Song，YG Kim，UD Chang，et al. Face recognition robust to left/right shadows； facial symmetry[J]. Pattern Recognition， 2006，39（8）： 1542-1545.

[23] Z Liu， X Song， Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications， 2015，26（8）： 2013-2026.

[24] G Zhang，W Zou，X Zhang，et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing， 2017，62： 150-156.

[25] K Chatfield，K Simonyan，A V edaldi，et al. Return of the devil in the details： Delving deep into convolutional nets[Z]. Computer science， 2014.

[26] H Yang， I Patras.Mirror， mirror on the wall， tell me， is the error small？ [J]. Der Chirurg； Zeitschrift für alle Gebiete der，2015，69（12）：235-240.

[27] A Krizhevsky， I Sutskever， GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems， 2012，25（2）： 1097-1105.

[28] G Levi，T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops，2015.

[29] S Xie， Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision，2015.

[30] Y Sun， X Wang， X Tang.Deep Learning Face Representation from Predicting 10，000 Classes[C]. in Computer Vision and Pattern Recognition，2014.

[31] M Jaderberg， K Simonyan，A Vedaldi，et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv， 2014.

[32] I Goodfellow，J Pougetabadie， M Mirza， et al. Generative adversarial nets[Z]. in Advances in neural information processing systems， 2014.

[33] E Denton，S Chintala，A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science，2015.

[34] S Reed，Z Akata， X Yan，et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning，2016.

[35] C Ledig， L Theis， F Huszar，et al. Photo-realistic single image super-resolution using a generative adversarial network[Z]. arXiv preprint， 2016.

[36] A Radford，L Metz，S Chintala.Unsupervised representation learning with deep convolutional generative adversarial networks[Z]. Computer science，2015.