黄 灿
(92124部队 辽宁 大连 116021)
2012年可谓人工智能图像识别发展的一个重要里程碑。之前人们为追求图像识别算法的准确性做出了不懈的努力,但是其错误率却一直居高不下,保持在26%左右,这一水平导致图像识别技术无法有效走出实验室。但是在2012年的视觉挑战赛(ILSVRC,Image Net Large Scale Visual Recognition Challenge)上,Krizhevsky等人采用了八层深度卷积神经网络的计算方法赢得了该大赛的管冠军,其精确度超过第二名11%,这一压倒性的优势,决定了卷及神经网络在图像识别领域的研究,必然成为未来的主要趋势。
就目前算法的发展状况而言,卷及神经网络作为当前在图像识别领域的主流算法,被诸多工作团队所广泛接受,而对于图像识别的研究重点,也从寻找更为优秀的算法,转移到了对卷积神经网络算法本身的优化上,并且在应用领域,也在近年取得了长足进展。从卷积神经网络自身的角度考虑,其在卷积层之间采用了共享参数,使得计算过程中对于计算资源的占用大大缩小,同时也在训练参数方面实现了有效的简化,提升了整体运算过程的效率。除此以外,此种计算方式几乎不需要对图像展开预处理或者特征值提取操作,这也成为卷积神经网络在图像识别领域优于其他算法的显著之处。但是卷积神经网络算法也存在诸多弱点,例如传统的算法本身并未能对算法展开深入挖掘,对应的卷积核偏大,算法结构层数较少等,都会造成此种算法的优势未能有效发挥,这些也就成为了当前在该领域中进行改进研究的工作重点。
作为深度学习领域的常用算法,卷积神经网络属于常用算法,其发展基于人体视觉系统工作模式提出,其经典的模型包括卷及神经层、Rectified Linear Units层、Pooling层以及规范化层总共四个层级。想要切实对卷积神经网络的算法实现优化和改进,首先需要从基础的角度加强认识。
在算法框架体系之下,卷积神经层负责对图像中的每个点展开卷积计算,并且将卷积核作为训练参数展开工作。在图像识别算法中,卷积的实际意义是指输出图像中的每个点都是由输入图像的对应位置的小区域的像素通过加权平均所得,而这个区域即为卷积核。在计算机的处理过程中,卷积核为正方形,其边长决定了对于图像特征值的提取效果。一般来说,卷积核越大,对于图像特征值获取的效果越好,但是对应地,需要训练的参数就越多,因此会应当到运算能力,进一步影响到图像识别的整体效率。与之对应,卷积核越小,图像识别过程中的精细程度就会有所提升,但是想要获取到同样水平的图像特征,只能依赖更多的计算层数。并且较小的卷积核意味着在计算中会存在更多的Rectified Linear Units层,在识别能力上也会因此更强。因此在当前用于图像识别环境中的卷积神经网络算法,多采用3×3或者5×5尺寸的卷积核展开工作。而Rectified Linear Units层则负责实现神经网络的激活函数控制,多为Rectified函数。Rectified Linear Units层的引入,能够有效减少训练时间,提升整体算法性能。在输入图像经过了这样两个层级的处理之后,其中的没一个像素点都包括了周围区域的相关信息,这带来了较多的信息冗余,而为了提升算法的性能和鲁棒性,就需要对图像展开二次采样,并且形成新的图像。在二次采样的过程中,需要对区域进行重新划分,如果划分区域彼此之间存在重叠,则成为Overlapping Pooling,否则被称作为Non-overlapping Pooling,Pooling层的称谓因此而来。这一层不需要训练,并且比较常见的做法是采用可以重叠的,取最大值的Pooling算法,用以对过度拟合展开适当控制。最后,规范化层,即规范化神经层(Normalization Layer),其价值在于提升图像的对比性,通常通过计算图像的对比“平均值”,来对图像的每个像素展开调整,使得图像的主体部分能够和背景更加具有区分度。这一个层面在图像识别中并非必不可少,因此只有当卷积核较大的时候,才会引入这一层级展开加工。
首先,网络深度对于卷积神经网络而言至关重要。作为卷积神经网络计算过程中最终的参数之一,其直接与需要训练的参数有关,更加与图像识别的正确率密切联系。但是从整体效率的角度看,深度的提升并不会带来参数的大幅度增加,但是正确率却因此有着显著提升。因此在卷积神经网络环境中,网络层数通过会超过普通神经网络,但也会对实际运算过程进行监督,查看具体应用情况。
其次,卷积神经网络算法中的结构同样不容忽视。之前的一些研究中多采用较大的卷积核,虽然这样做能够更好获取到图像特征,但是会造成需要训练的参数增加,进一步限制了整体算法的性能。当前为了改善运算效率,多采用较小的卷积核,并且为了能够方便地调整算法,并兼顾算法的拓展性,引入的结构应当可以直接叠加而不必引入新的神经层。实际工作中可以选择多个神经层共同参与运算,每个卷积层之后均包含有对应的Rectified Linear Units层,处于中间的层级多采用3×3或者5×5尺寸的卷积核,两端则多为1×1卷积核,使得与使用任何卷积核的神经层都可以直接相连,保持整体良好的融合特征。
最后,卷积神经网络的整体结构,也成为影响其工作效率和效果的重要因素。一个比较典型的做法,是首先对输入的图像展开一个大卷积核神经层加工,确保训练时间得到控制的同时有效降低错误率。并且可以考虑以全连接型的神经网络和Softmax回归作为算法结构的结尾,输出概率最高的几个处理结果,便于衡量算法准确率。
对于卷积神经网络在图像识别领域的应用而言,一方面需要深入分析该种算法的内在特征,另一个方面则需要关注不同类别不同环境中产生的图像本身的特征,必要的情况下综合其他算法作为辅助,提升卷积神经网络识别的整体效果。
[1] Alex Krizhevsky,Ilya Sutskever, Geoff Hinton.Imagenet classification with deep con-volutional neural networks[J]. Advances in Neural Information Processing Systems 25,2012:1106-1114.
[2] DH Hubel,TN Wiesel.Receptive fields,binocular interaction,and functional architecture in the cat's visual cortex[J].Journal of Physiology(London),1962,160:106-154.
[3] K.Fukushima,Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202.