屈薇
摘要:深度学习在图像识别方面的应用方面技术优势明显。传统的方法不能有效满足当前图像识别要求,因此,深度学习是图像识别研究的热点。基于此,文章论述了深度学习的基本思想,探讨了深度学习常用模型,如深度信念网络、卷积神经网络算法原理。
关键词:深度学习;图像识别算法;深度神经网络;卷积神经网络
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2019)09-0121-02
0 引言
大数据时代图像数据规模快速增长,如何从海量图像数据中快速准确地识别出有价值的图像数据成为迫切需要解决的问题。基于深度学习借助深度神经网络构建图像识别算法,通过分层方式采集图像的特征信息,自动学习图像的特征信息,从而高效识别图像。在此背景下,基于深度学习的图像识别算法不断出现,其中具有代表性的算法模型包括深度信念网络、卷积神经网络、循环神经网络这三种。而卷积神经网络是目前基于深度学习的最为理想的算法模型,文章重点论述了基于深度学习的图像识别算法。
1 基本思想
作为仿真人脑的计算方式,深度学习的“深度”是其最大特点,这里的深度即包含多个层次的隐含层,深度学习并非传统的I/O关系而是端对端的关系。如含有n层隐含层的深层网络S,其各个隐含层可以用表示,其中输入为I,输出为O,系统分布式可用,表示,其中表示一种输入形式,当输入I为0时,说明输入I经过逐层变换后,输入输出之间的信息没有丢失,表示每一个隐含层的信息量相等,但这里输入输出理论上相等,但在时间中往往更能会丢失,因此需要持续修正系统参数,降输入输出之间的误差降到最低,以获取I的层次特征表示:。通过多层堆叠将上层输出设为下层输入,分级表达数据,通过调节参数减少误差,这是深度学习的基本思想。
2 基于深度学习的图像识别算法研究
2.1 通过深度神经网络重构MNIST数字图像
MNIST是美国国家标准与技术研究院的大型数据集中的子数据库,是一个手写体数字库,样本由分辨率为28*28的0到9数字样本组成。MNIST数据集可以无需做预处理即可应用,因而被作为识别技术研究首选数据库。
用限制波尔兹曼机建立四层深度信念网络可以对MNIST样本进行重新构建。第一步,提取图像数据的多维特征,通过修正参数降图像数据I/O之间的信息误差。第二步,降低图像维度有效压缩数据,节约图像储存空间。
2.2 通过神经网络识别MNIST数字图像
2.2.1 变换层
图像包含一些固定的特征,且一部分特征与其它图像的特征相同,卷积神经网络基于此规律实现权值共享,精简参数。图像可以被是为一个平面,保留图像二维特性,然后采用线性/非线性变换方式对图像进行处理。
非线性操作即激励函数,常见的有三种非线性激励函数。第一:sigmoid函数,当前应用较少,因为神经元激活值在0或1 附近时,区域梯度接近0,在反向传播时最初几层权值变化很小,如初始权值过大神经元会快速达到饱和。当神经元处理数据中心非0时对梯度下降动态性将产生负面影响。第二:双曲正切函数。第三:右一为非线性修正函数,相比前两个函数非线性修正函数计算更简洁,因而应用越来越广泛,但非线性修正函数的大梯度值经过ReLU神经元时ReLU神经元不会被激活,ReLU单元较脆弱。
2.2.2 池化层
卷积提取特征维度高,存在冗余,因此需要降低维度,为实现这个目的可以统计聚合图像各位置特征。如计算图像某区域的某特征的最大值、均值,达到降低特征维度的目的,这样的处理方式成为聚合叫池化。
3 算法分析
文章采用卷积神经网络自动学习图像特征,达到识别图像的目的。传统图像识别算法需预处理图像,有着非常大的不确定性,易受人为因素影响,准确性欠缺,而且需要进行复杂的参数调节。而卷积神经网络可直接输入二维图像在初始图像中识别出视觉模式,无需太多的预处理,受人为因素影响小。卷积神经网络时一种端到端学习网络,识别准确率达99.16%。基于卷积神经网络的图像识别算法中计算梯度的值来自于输入样本的数目。
根据上个计算公式可知,如样本数量较少,程序能正常运行,反之则需要消耗大量的计算资源和计算时间,计算速度非常慢,需要大量的硬件空间资源支持。随机选择样本更新参数称为随机梯度下降,将造成严重的代价损失函数震荡,带来较大的数据误差。
4 softmax回归
softmax回归器是logistic回归拓展形式,logistic回归通常用来处理二类分类的问题,而softmax回归器通常用于处理互斥的多类分类任务。训练集类标签可以取k个值,输出一个k维向量,用于表示样本属于k个类别的概率值,每一个类别j估算得出的概率值为。
5 深度学习在图像识别领域的应用趋势
随着图像识别需求的持续增加,深度学习技术的不断发展,而可以遇见未来,图像识别中的深度学习应用日益广泛,朝着智能化方向不断发展。接下来将论述深度学习在图像识别领域应用趋势。
5.1 模型的层次越来越多,模型的结构越来越复杂
基于深度学习应该对图像特征进行逐层模型构建,假如网络模型的深度不足将使计算单元快速增加,大幅提高圖像识别的难度,使得需要我们对图像进行更多的局部区域划分,导致模型的层次大幅增加。通过对图像的多层特征进行深度学习,深度学习网络学习到的特征全局性日益增强,识别还原出来的图片真实感不断提升。例如,2012年AlexNet夺得ImageNet图像识别竞赛第一名使用的网模型采用2个全连接层、3个pool层、5个卷积层;2014年GoogLeNet夺得ILSVRC赛事第一名使用的网络模型采用2个全连接层、16个pool层、59个卷积层。
5.2 深度学习训练数据规模不断扩大
当前深度学习模型复杂度呈快速上升趋势,需要识别的图像特征大幅增加,这需要深度学习网络进行规模更多的学习训练,也就需要更大规模的学习数据来满足学习训练要求,从而提高图像识别准确度。现阶段,深度学习算法训练数据规模主要在几十万、上百万级,Google、百度等大型企业的深度学习模型的训练数据规模已达千万级、亿级,但还是不能完全满足快速增加的深度学习训练需求。
5.3 深度学习模型识别精度不断提升
随着深度学习模型的不断发展,图像识别精度,识别速度大幅提高。如初期的R-CNN模型处理一张图像需13秒,准确率53.7%。2015年,Faster R-CNN模型图像识别速度达17FPS,准确率达78.8%。2016 年YOLO 模型图像識别速度达45FPS,识别效率、识别精度大幅提升。
6 结语
综上所述,文章首先针对深度学习的基本思想进行了简要论述,阐述了基于深度信念网络对MNIST数据集进行图像重构的方法,获得可以表征图像集最有效的特征。通过构建5层卷积神经网络识别MNIST图像。揭示了网络层次越深代表可以更加准确高效地识别图像特征。
参考文献
[1] 杨雄.深度学习在网络色情图像识别中的研究与应用[J].佳木斯大学学报(自然科学版),2018,36(06):902-905.
[2] 周宇杰.深度学习在图像识别领域的应用现状与优势[J].中国安防,2016(07):75-78.
[3] 李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014.
Abstract:Deep learning has obvious technical advantages in the application of image recognition. Traditional methods can not effectively meet the current requirements of image recognition. Therefore, depth learning is a hotspot in image recognition research. Based on this, the basic idea of deep learning is discussed, and the common models of deep learning, such as deep belief network and convolution neural network, are discussed.
Key words:depth learning; image recognition algorithm; depth neural network; convolution neural network