基于深度学习的渣土车顶部覆盖率识别系统

2019-05-22 09:27刘晓东费文龙陈亮
无线互联科技 2019年4期
关键词:图像分类卷积神经网络

刘晓东 费文龙 陈亮

摘 要:卷积神经网络是一种基于局部权值共享的深度学习网络模型,近些年来被提出并广泛应用于语音识别、图像识别、图像分割、自然语言等领域。文章分析了目前主流的卷积神经网络模型及其实现方法,并在残差神经网络的基础上加以改进,通过增加浅层网络到深层网络的多个通路,将粗糙的背景信息和具有丰富细节的纹理信息加以融合,用以增强深层的卷积网络层的特征信息,从而对具有复杂背景信息和纹理的渣土车图像进行识别与分类。实验结果表明,本方法能进一步提升深度卷积网络对于渣土车顶部覆盖率的分类准确率。

关键词:图像分类;卷积神经网络;多特征融合;渣土车

建筑垃圾清运是城市市容管理不可忽视的问题,渣土车是建筑垃圾的运输主力,为城市渣土运输作出了重要的贡献,然而也存在一些不能回避的渣土车治理问题,不少渣土车并没有经过冲洗就直接驶出工地,车轮带出的大量泥土给城市道路带来了不小的污染。有的渣土车严重超载,顶端没有密封,随着一路的颠簸,渣土洒落一地。此外,施工方对于渣土车的超载现象也不闻不问,放任自流,更促使渣土车多拉快跑,违规运输,对城市环境造成严重污染。

在党的第十九次代表大会中, 习近平总书记指出:“我们既要绿水青山,也要金山银山。宁要绿水青山,不要金山银山,而且绿水青山就是金山银山。”可见解决环境问题是我国接下来发展的重中之重。因此,本文提出一个智能监管系统,能够自动识别驶出工地的渣土车图像是否符合环保标准,从而从源头上监管,能够有效地解决渣土车对城市市容环境的破坏,是具有重要意义的。

图像分类一直是计算机视觉领域的重要研究方向,近年来,深度神经网络以大规模图像数据为驱动,自主学习各个层级的特征,从而避免了人工提取特征的繁琐和出错的概率,在各类分类任务上取得突破性进展。Lecun等[1]在1998年提出基于梯度学习的卷积神经网络算法,并将其成功运用于手写数字字符识别,LeNet为卷积神经网络的发展奠定了坚实的基础。Krizhevsky等[2]在2012年提出Alex-Net,其采用GPU训练模型使得其收敛时间缩短到可接受的范围内,它本质上就是扩展LeNet的深度,并应用一些ReLU和Dropout等技巧。AlexNet有5个卷积层和3个最大池化层,它可分为上下两个完全相同的分支,这两个分支在第3个卷积层和全连接层上可以相互交换信息。VGG-Net[3]是由英国牛津大学著名研究组VGG提出,相比Alex-Net,VGG-Net普遍使用了小卷積核以及“保持大小输入”等技巧,目的是增加网络深度时确保各层输入大小随深度增加而不急剧减小,因此其泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。在AlexNet的基础上,Google Net采用Inception的结构,使用大小不同的卷积核[4],有优良局部拓扑结构,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

1 基本原理

1.1 残差网络算法介绍

残差神经网络借鉴了高速网络的跨层链接思想,用恒等映射代替原来带权值的残差项[5]。假设某段神经网络的输入是x,期望输出为H(x),即H(x)是期望的复杂潜在映射,如果是要学习这样的模型,则训练难度会比较大;如果已经学习到较饱和的准确率,那么接下来的学习目标就转变为恒等映射的学习,也就是使输入x近似于输出H(x),以保持在后面的层次中不会造成精度下降。在上图的残差网络结构图中,通过捷径连接的方式,直接把输入x传到输出作为初始结果,输出结果为:

H(x)=F(x)+x (1)

当F(x)=0时,那么H(x)=x,也就是上面所提到的恒等映射。于是,ResNet相当于将学习目标改变了,不再是学习一个完整的输出,而是目标值H(X)和x的差值,也就是所谓的残差:

F(x) = H(x)-x (2)

因此,后面的训练目标就是要将残差结果逼近于0,使到随着网络加深,准确率不下降。这种残差跳跃式的结构,打破了传统的神经网络n-1层的输出只能给n层作为输入的惯例,使某一层的输出可以直接跨过几层作为后面某一层的输入,其意义在于为叠加多层网络而使得整个学习模型的错误率不降反升的难题提供了新的方向。至此,神经网络的层数可以超越之前的约束,达到几十层、上百层甚至千层,为高级语义特征提取和分类提供了可行性。

1.2 本文方法

鉴于卷积神经网络良好的特征提取能力与局部特征良好的特征表述能力,融合多路特征的深度学习图像分类方法成为趋势。本文在残差神经网络的基础上,结合浅层的视觉特征信息和深层的语义特征信息,增强后续卷积运算的特征信息,并将其运用到渣土车顶部的覆盖率识别分类上。由于残差神经网络的层数较多,所以本文只挑选4个关键的分辨率节点进行特征的融合。

2 实验分析

2.1 数据集的采集与制作

本文在工地监管摄像头上采集了一年份约10 G大小的图片数据,去除掉误触导致的无效图片数据,制作成渣土车图片数据集,包含图片数据约12 000张,采集图像分辨率为1 280×720,格式为jpeg,将图片数据集按顶部覆盖率的情况分为全包裹、半包裹、无包裹和空车。其中75%的图片作为训练集,25%的图像作为测试集。

图片标定则使用One Hot Encoder的方式。One-Hot编码即独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。这样做的好处主要有:(1)解决了分类器不好处理属性数据的问题;(2)在一定程度上也起到了扩充特征的作用。

2.2 多特征融合Resnet的训练

为了验证算法的有效性,建立仿真实验环境:CPU处理器为i7七代处理器,内存为16 GB,GPU处理器为NVIDIA1060。采用Google的tensorflow框架,使用语言为python。迭代次数为10 000次,学习率为0.001。训练方式采用Adam算法进行梯度下降的训练,Adam算法,即自适应时刻估计方法(Adaptive Moment Estimation),能计算每个参数的自适应学习率。这意味着算法在非稳态和在线问题上有很优秀的性能。

Resnet算法和本文算法对于相同的训练集图像的精确度随着训练次数的增加数值改变,可以明显看出本文算法相比于传统算法其抖动较为平缓,并且在第6 000次迭代左右,模型已经收敛,而传统算法在7 000次左右才开始收敛。

3 结语

针对实际应用中对于工地监管系统中渣土车的顶部覆盖率的检测效率和准确率,本文在传统的卷积神经网络架构中加以改进,融合了深层的背景信息和浅层的纹理信息,能够增加模型的泛化能力,避免复杂背景和极端天气对于模型的影响。相較于传统的神经网络,其识别准确率和速度有明显提升。但本文算法相较于传统算法其参数数量亦有较大的增加,这将作为后续的研究重点,进而提供工地监管系统的性能。

[参考文献]

[1]LECUN Y L,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998(11):2278-2324.

[2]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012(2):1097-1105.

[3]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Science,2014(26):69-71.

[4]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[J].Computer Science,2014(18):152-154.

[5]SZEGEDY C,IOFFE S,VANHOUCKE V.Inception-v4,Inception-ResNet and the impact of residual connections on learning[J].Computer Science,2016(2):88-89.

猜你喜欢
图像分类卷积神经网络
基于数据挖掘的图像分类算法
基于卷积神经网络温室智能大棚监控系统的研究
基于云计算的图像分类算法
基于深度卷积神经网络的物体识别算法
基于锚点建图的半监督分类在遥感图像中的应用