卷积神经网络综述

2018-09-29 05:46雷慧静

中国科技纵横 2018年16期

雷慧静

摘要：随着我们生活中需要处理的数据量越来越大，深度学习作为处理数据的方式之一也在飞速的发展，如今已在图像识别、目标检测、目标追踪等多个方面取得突破性研究成果。卷积神经网络作为常见的深度网络之一也得到了研究人员的重视。本文主要介绍了卷积神经网络的起源与发展，对卷积神经网络的基本构成及算法进行了探讨，概述了近期在卷积神经网络上的突破与最新研究成果，及其在未来发展中的优势和劣势的分析。

关鍵词：深度学习；卷积神经网络；有监督学习；网络结构；图像识别

中图分类号：TP183 文献标识码：A 文章编号：1671-2064（2018）16-0044-04

随着社会的发展，越来越庞大的数据量与其维度的变多导致人们无法通过一般的统计学知识来处理数据，因此大数据的处理便成为我们面临的重大问题。大数据处理在一般流程上包括数据存储、数据抽取与集成、数据分析、数据解释和用户等几个层次[1]，其中，数据分析是大数据处理的核心，机器学习则是进行有效的数据分析的方式之一。机器学习可分为有监督学习和无监督学习，其核心在于将数据的特征进行分类，如若数据特征可以被标签化，则通过由监督学习可以将这些标签分类，从而达到特征分类的目的；如数据特征不存在标签，则只能依靠无监督学习将这些特征进行聚类。另一方面，人们常说的深度学习则是指通过深度网络，即多重网络进行机器学习，常见的深度网络有卷积神经网络（CNN）[2-3]。深度学习的概念来源于人工神经网络的研究，是机器学习中对于数据进行表征学习的方法。近年来，深度学习在图像分类、语音识别、目标检测等方面取得突破性的研究成果，表现出了其优秀的学习能力，如阿里巴巴、百度、google等公司都在进行深度学习在语音识别的研究，而利用图像识别技术的人脸识别、图像搜索、人体行为识别等都是具有良好发展前景的技术，并且可将其应用于医学、生物学等多种领域。在最近的人机围棋大战中获胜的AlphaGo等，也都属于深度学习的范畴。深度学习也分为有监督和无监督学习，卷积神经网络（CNN）就是一种有监督学习下的机器学习方法。它不仅具有传统神经网络的容错性高，自学能力强等优点，还具有权值共享，自动提取特征，输入图像与网络结合等优势。避免了传统识别算法中数据重建和特征提取等过程[4]。随着研究的不断深入，卷积神经网络的结构不断优化，其应用领域也逐渐得到延伸。例如，卷积神经网络与深信度网络（DBN）[5-7]相结合产生的卷积深信度网络（CDBN）[8]，作为一种非监督的生成模型，也被成功地应用于人脸特征提取。

本文将针对卷积神经网络进行综述性研究，其中主要包括了卷积神经网络的起源和发展站，和其基本结构的介绍，之后是对其主要特点的讨论和应用举例。

1 卷积神经网络的起源与发展

CNN最初起源于1962年，生物学家Hubel和Wiesel[9]发现了一种覆盖着整个整个视觉域并且对视觉输入空间的局部区域很敏感的细胞，被称为感受野。1980年，Fukushima以感受野为基础提出了结构与之类似的神经认知机（Neocognitron）[10]。Neocognitron是一个自组织的多层神经网络模型，通过激发上一层的局部感受野来的到每一层的响应，同时也是卷积神经网络在早期学习中主要的学习方式。随后，LeCun Y[11]等人，基于Neocognitron提出并设计了用于字符识别的卷积神经网络LeNet-5这个模型。LeNet-5的基本结构由输入层、卷积层（convolutional layer）、池化层（pooling layer）、全连接层及输出层构成，该系统在小规模手写数字识别中取得了成功，但依然有很大的局限性。直到2012年，CNN取得历史性突破，AlexNet[12]的出现使得CNN成为图像分类上的核心算法模型。AlexNet相较于传统的CNN模型，不但有着算法的改进，还实现了多GPU并行计算，在大量数据的支持下，Top-5的错误率越来越低，目前降低到3.5%左右。近期还先后出现了更深层的VGG结构、网中网结构的GoogleNet[13]，ResNet[14]的出现使上百甚至上千层的神经网络的训练成为可能。

2 卷积神经网络的原理及其构成

2.1 输入层

输入层是负责接收所需图片并进行处理，常见的图像数据处理有三种：去均值、归一化以及白化。去均值是指将输入数据各个维度都中心化到0，再将所有样本值减去均值；归一化则是指将幅度归一化到同样的范围；白化是对每个特征轴上的幅度归一化。

2.2 卷积层

卷积层是由多个特征面组成，每个特征面又由多个神经元组成。通过神经元中卷积核的局部区域将每个特征面连接在一起，将特征面连接在一起的局部区域又称为卷积核的局部感受域，也就是共享卷积核权值，即权值共享。将该局部加权并传给一个非线性函数ReLU即可获得每个神经元的输出值[15]：

=[+1]

oMpaN表示的是神经元个数，CiMapN表示的每个输入特征面，CWindow表示卷积核大小，CInterval表示卷积核在上层滑动步长。每个卷积层对应的可训练参数数目CParams则为[15]：

CParams表示可训练参数数目，iMap表示输入特征面的个数，oMap则是每个卷积层输入特征面的个数。

当上一个特征层被卷积核卷积时，通过一个激活函数就可获得输出特征图，每个输出特征图可以组合卷几多个输出特征图值：

其中，为卷积层l的第j个通道的净激活，是对前一层输出特征图进行卷积求和与偏置后得到的，是卷积层l的第j个输出，Mj表示用于计算的输入特征图子集，是卷积核矩阵，是对卷积后特征图的偏置。

2.3 池化层

输入图像经过卷积神经层和ReLU函数处理后，图像中包含了许多没用的信息，这些信息会降低算法性能，还会破坏算法的平移不变性[16]。而池化层的作用就是筛选这些信息。池化层是通过不同的池化操作对图像进行降维，在减少数据量的同时保留有用信息，提高图像特征的变换不变特性[17]。它是将图像分成一块一块的区域后，对每个区域计算出一个值，再将计算出的值依次排列，输出为新的图像。池化层的一般形式为：

其中，表示子采样层函数，一般是对不同的输入图像n*n块所有像素进行求和并取均值。池化后的图像缩小了n*n倍，每一个特征图都对应着一个属于自己的权值和一个偏置。池化层可再次提取图像信息并获得局部均值。通过图像的二次提取来提高图像的变换不变特性。

近年来在最大池化和平均池化的基础上提出了许多新池化操作，如混合池化、范数池化、空域金字塔池化等。

Yu等[18]将最大池化和平均池化结合起来，提出了混合池化的方法，可以用如下公式來描述：

，

其中，是取值为0和1的随机变量，是池化区域的池化窗口，表示中所含元素的个数，表示窗口中的元素。

Gulcehre等[19]将最大池化和平均池化的思想进行了推广，提出了范数池化，其定义如下：

2.4 全连接层

全连接层是负责整合卷积层或池化层中具有类别区分性的局部信息[20]，全连接层中神经元的激励函数一般采用ReLU函数，最后一层的全连接层与输出层相连，可以采用线性分类器，如softmax，进行逻辑回归分类。然而使用全连接层有一个缺点：输入尺寸改变后，原网络结构无法适应新的输入图像，使用时必须将其进行缩放或裁剪，且运算量大，导致输出结果受到影响。

2.5 激活函数

2.5.1 Sigmoid函数[21]

Sigmoid是一种常用的S性非线性激活函数，其功能是把实数压缩至0到1之间，使其对中部区的信号增益较大，对两侧区的信号增益较小。虽曾经作为深度学习的激活函数而被广泛使用，但因其缺陷明显现在很少出现了。第一个缺点是在深层网络中，Sigmoid函数反向传播时很容易出现梯度弥散情况，当Sigmoid接近饱和区时，导数趋于0，导致其无法完成深层网络的训练。第二点是其输出结果是非0均值的，这个结果产生的直接影响就是梯度下降。

2.5.2 Tanh函数

Tanh函数也是一种常用的S型线性激活函数，是Sigmoid的延伸形式。它的功能是将实数压缩在-1至+1之间，对中部区域的信号增益较大，对两侧的信号增益较小。虽然Tanh克服了Sigmoid函数的非0均值输出的缺点，延迟了饱和期，有更好的容错能力，且整体性能优于Sigmoid，但依然没能克服梯度弥散问题，使得Tanh函数的应用有着很大的局限性。

2.5.3 ReLU函数[22]

ReLU函数是一种非饱和线性修正函数，当输入值小于等于0时，就强制其等于0，当输入值大于0时则保持原输入值不变。这种做法也为训练后的网络带来适度的稀疏特性，减少了参数之间的互相依存关系，也缓解了过拟合问题的发生。且因不含除法和指数运算，函数整体的运算速度也变快了。由于其分段线性的特质，他在计算后也保持分段线性，所以在计算中不会丢失有用的特征。因为ReLU函数相较于前两个函数有较大的优势，所以我们现在常用于卷积神经网络的激活函数就是ReLU函数。

3 卷积神经网络的实用性

3.1 卷积神经网络的优势

卷积神经网络是基于生物神经网络而衍生出的具有权值共享的网络结构，它大大降低了网络模型的复杂度。当输入多维度图像时，这一特点的优势则更为明显，它避免了传统识别算法中特征提取和数据重建的过程，使得计算更加简洁。它还具有分层学习的能力，通过卷积神经网络学习得到的特征相对于人工设计特征具有更强的判别能力和泛化能力。特征表达作为计算机视觉的研究基础，如何利用卷积神经网络学习、提取、分析信息的特征表达，从而获得判别性能更强，泛化性能更好的通用特征，将对整个计算机视觉乃至更广泛的领域产生积极的影响卷积神经网络的研究意义。

3.2 卷积神经网络的劣势及改进方向

卷积神经网络虽然具有计算便捷、可以准确提取特征等优势，也依然具有一些问题以及需要改进的方面[23]。

（1）卷积神经网络的理论研究相较于其良好的发展前景还较落后，还需要更为完备的数学解释和理论指导将其完善，这对卷积神经网络的进一步发展有着重大意义。

（2）卷积神经网络的结构研究还有着很大的上升空间，若仅是通过增加网络复杂度来处理复杂问题的话很可能会遇到一些难以解决的问题，如过拟合问题、网络退化问题等。所以其性能的提升需要依靠更加合理的网络设计。

（3）在卷积神经网络的模型不断改进的过程中，现有的数据集有些已经不满足当下的要求，因此数量类别更多，数据形式更加复杂是当前研究数据集的趋势。

（4）卷积神经网络的完备性研究较为匮乏，其完备性的研究可以更进一步的发现和解决目前网络结构存在的缺陷。

4 结语

4.1 应用举例

4.1.1 图像分类

A Krizhevsky[24]等首次将卷积神经网络应用于ImageNet大规模视觉识别挑战赛（ImageNet large scale visual recognition challenge，ILSVRC）中，他所训练的深度卷积神经网络在图像分类和目标任务中取得了突破性的好成绩，使得卷积神经网络再次成为研究人员的焦点。图像识别主要包括手写字符识别、人脸识别、物体识别等。在图像识别领域，手写体数字识别能够自动识别快递信息、银行支票信息等，人脸识别则可用于计算机登录系统、视频安保监控系统等。由于图像识别问题的多样性和复杂性，目前的图像识别主要针对特定的识别问题，而手写体数字识别并不能在物体识别中获得应用，还具有很大的局限性。卷积神经网络在图像识别应用中还有着很大的发展空间，它能够改善网络结构和深度，通过大量的训练和有效算法得出一个通用的识别系统，可提高图像识别的效率和精度。

4.1.2 目标跟踪

针对可视对象的在线跟踪问题，Li[25]等将二维线性判别分析引入了跟踪目标的表观建模中，并利用了卷积神经网络矩阵形式进行计算，极大地提高了跟踪效率利用卷积神经网络，提出了一种有效的跟踪算法。该算法用截断结构损失函数作为目标函数，通过其样例选择机制，增强随机梯度下降算法训练卷积神经网络的效率。Wang等[26]将表观建模与视觉匹配看作是视觉跟踪的一个单目标优化问题，基于度量学习提出了一种判别式表观模型用于视觉跟踪中。Jia[27]等将目标跟踪问题建模为一个机器学习问题.在给定行人前一个位置和步幅的前提下，通过学习来估计行人当前的位置和步幅.在该方法中，卷积神经网络用于从视频的相邻2帧中一起学习行人的空间和时间特征。

4.2 未来研究方向

卷积神经网络在越来越多的识别中都中有着巨大的发展空间，如人脸识别、手写体数字识别和许多其他物体识别等，随着其网络深度和网络结构的改善，卷积神经网络在图像识别中的识别精度和速度得以提高，图像识别领域的扩大，使越来越多的识别问题都能通过卷积神经网络来解决。卷积神经网络也需要改变网络的结构和深度，以及研究通用的图像识别系统等，使卷积神经网络在图像识别领域应用更加广泛。

参考文献

[1]孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013，50（1）：146-169.

[2]CNN：Yann LeCun，Leon Bottou，Yoshua Bengio，et al.Gradient-based learning applied to document recognition.Proceedings of the IEEE，1998，86（11）：2278-2324.

[3]Yann LeCun， B. Boser， J. S. Denker， et al. Backpropagation applied to handwritten zip code recognition. Neural Computation，1989，11（4）.

[4]张庆辉，万晨霞.卷积神经网络综述[J].中原工学院学报，2017，28（3）：82-86.

[5]DBN： HINTON G E，OSINDERO S，TEH Y W.A fast learning algorithm for deep belief nets [J]Neura l Com putation，2006，18（7）：1527-1554.

[6]Geoffrey Hinton， Simon Osindero， Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural Computation，2006，18（7）：1527-1554.

[7]Ruslan Salakhutdinov， Geoffrey Hinton.Deep boltzmann machines.Journal of Machine Learning Research-Proceedings Track，2009，9（1）：448-455.

[8]Ruslan Salakhutdinov， Geoffrey Hinton.An efficient learning.procedure for deep boltzmann machines.Neural Computation，2012，24（8）：1967-2006.

[9]HUBEL D H，WIESEL T N.Receptive fields，binocular interaction，and funct- ional architecture in the cats visual cortex [J].Journal of Physiology，1962，160（1）：106-154.

[10]Fukushima K，Miyake S.Neocognitron：A new algorithm for pattern recognition tolerant of deform ations and shifts in position [J].Pattern Recognition，1982，15（6）：455-469.

[11]LECUN Y，BOTTOU L，BENGIO Y，et a1.Gradient-based learning applied to document recognition [J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[12]Krizhevsky A，Sutskever I，Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Cambridge：MIT Press，2012：1097-1105.

[13]SZEGEDY C，LIU W，JIA Y，et a1.Going deeper with convolutions [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattem Recognition.Washington，DC：IEEE Computer Society，2015：1-8.

[14]HE K，ZHANG X，REN S，et a1.Deep Residual Learning for Image Recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2016：770-778.

[15]金林鵬.面向临床应用的心电图分类方法研究[D].中国科学院苏州纳米技术与纳米仿生研究所，2016.

[16]王振，高茂庭.基于卷积神经网络的图像识别算法设计与实现[J].现代计算机：专业版，2015，（20）：61-66.

[17]GOODFELLOW I，BENGIO Y.COURVILLE A. Deep learning[M].Massachusetts：MIT Press，2016.

[18]WAIBEL A，HANAZAWA T，HINTONG，et a1.Phoneme recognition using time-delay neural networks [M]//Readings in Speech Recognition.Amsterdam：Elsvier，1990：393-404.

[19]LAWRENCE S，GILESC L，TSOI A C，et a1.Face recognition：a convolutional neural—network approach[J].IEEE Transactions on Neural Networks，1997，8（1）：98-113.

[20]Tara N. Sainath， Abdel-rahman Mohamed， Brian Kingsbury， et al.Deep convolutional neural networks for LVCSR//Proceedings of the IEEE International Conference on Acoustics， Speech and Signal Processing， Vancouver， Canada， 2013： 8614-8618.

[21]曲之琳，胡曉飞.基于改进激活函数的卷积神经网络研究[J].计算机技术与发展，2017，27（12）：77-80.

[22]王双印，滕国文.卷积神经网络中ReLU激活函数优化设计[J].信息通信，2018，（1）：42-43.

[23]李彦冬，郝宗波，雷航.卷积神经网络研究综述[J].计算机应用，2016，36（9）：2508-2515.

[24]KRIZHEVSKY A， SUTSKEVER I， HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Red Hook，NY： Curran Associates，2012：1097-1105.

[25]Zhu G， Porikli F， Li H. Beyond local search： Tracking objects everywhere with instance-specific proposals[C]//CVPR，2016.

[26]Wang X Y， Hua G， Han T X. Discriminative tracking by metric learning. In： Proceedings of the 11th European Conference on Computer Vision （ECCV 2010）. Heraklion， Crete，Greece： Springer，2010：200-214.

[27]Jia X， Lu H C， Yang M H. Visual tracking via adaptive structural local sparse appearance model. In： Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Providence， RI， USA： IEEE，2012：1822-1829.