周宇浩,陈锡爱*,叶 开
(中国计量大学,浙江 杭州 310018)
河岸线是水陆生态系统的中间地带,对维系河流生态系统健康起着很重要的作用,同时也是河流沿岸经济发展的基础。河岸线的生态健康遭到破坏源自于河岸线的自然演变以及不合理的、盲目的开发利用。因此,加强河岸线的保护与利用,要从规划、管理、研究、治理等方面采取措施。当前国内河道巡检方式主要有人工徒步巡检和汽艇巡查。近年来,随着无人机技术的快速发展,无人机巡检技术也在兴起。本文基于语义分割算法进行河岸线识别,并通过无人机进行河道巡检,从而降低人工成本。
语义分割算法是计算机视觉领域中的基础性算法之一,通过对图像中各个像素点进行语义识别,得到各个类别在图像中所属的区域。近些年,随着深度学习技术的日渐成熟,图像语义分割算法取得了很大的成绩。2014年提出的全卷积网络(FCN)是将成型的卷积神经网络模型经过结构改造后形成的端到端,像素到像素的深度神经网络结构。FCN将传统卷积神经网络(CNN)中的全连接层全部转化为卷积层。然而,FCN上采样时的结构相比于CNN下采样时的结构相对凌乱。因此,2015年提出了由编码器和解码器构成的SegNet分割网络,其分割精度和识别效率都得到了提高。SegNet网络中,编码器是由卷积层和池化层构成来提取图像特征,解码器是由卷积层和上采样层构成来恢复原始图像的大小,以此实现端到端的网络结构。通过图像语义分割算法的不断发展,Deeplabv3+算法中加入了多孔空间金字塔池化(ASPP)网络模块。在ASPP模块中加入了不同尺度的卷积,获取更多的上下文特征信息,实现了图像鲁棒分割。
Deeplabv算法采用膨胀卷积来保证感受野大小不受影响的同时,设置VGG网络的池化层步长来缓解特征图尺寸缩小的问题。在Deeplabv1基础上,Deeplabv2采用ASPP模块结构,获得了多尺度的特征。但是,Deeplabv2使用相同膨胀率的膨胀卷积来提取图像特征,所以只能提取图像上离散点的特征;而且在ASPP结构中,由于过大的膨胀率卷积,会缩小提取特征的有效范围。因此,Deeplabv3在相邻膨胀卷积中使用不同膨胀率;同时,用全局平均池化层替代ASPP结构中膨胀率较大的膨胀卷积。为了更精确恢复特征图尺寸,在Deeplabv3+网络结构中增加Decoder模块,整体结构变成Encoder-Decoder模块。
针对河道场景河岸线的识别问题,为了得到更为精准的识别结果,本文基于Deeplabv3+语义分割算法,对ASPP模块进行剪枝加速以及优化扩张卷积。
语义分割是像素级别的分类任务,对图片中各个像素预测其类别。实现语义分割首先要对采集到的河道图像制作图像标签。图像标签是像素值和目标类别相互对应的灰度图,且其尺寸与原图像一致。本文基于Labelme软件对无人机采集的河道图像进行了精确标注,其标注界面如图1所示。
图1 河道语义标注界面图
图2 数据集增强
为了防止过拟合和提升网络的泛化能力,对河道图像进行数据增强操作。本文通过旋转、裁剪、椒盐噪声、高斯噪声、调节亮度和对比度等方式进行了数据集扩充。样本增广完成后,将9000幅图像用于训练,2250幅图像作为验证集,剩余的2250幅图像作为测试集。河道数据集增强结果如图2所示。
Deeplabv3+是Google公司在2018年最新推出的语义分割算法,该算法在Deeplabv1-3基础上发展。该算法编码器是以Xception网络作为主干。Xception网络是由Inception结构加上Depthwise Separable Convlution,再加上残差网络结构改进而来。最后的分类和识别效果很大程度上取决于深度学习网络的深度。常规的网络在层数较深的时候,识别效果反而不好。因为梯度消失的现象随网络层数的加深会更加明显,导致训练效果不是很好。但是现在网络深度较浅的又无法明显提升识别效果。训练一个神经网络采用梯度下降算法,若没有残差,训练误差会随着网络的加深先减少后增加,导致识别效果不是很好。而对于残差网络来讲,训练误差会随着网络的加深而越来越小。这有助于解决梯度爆炸和梯度消失的问题,在网络加深的同时又能达到良好的识别效果。采用Depthwise Separable Convolution也可以带来准确率的提升。
Deeplabv3+网络编码器ASPP模块采用多尺度卷积及全局平均池化处理河道图像,其网络结构如图3所示。改进后网络编码器中ASPP模块仅含有单尺度卷积进行特征提取,其网络结构如图4所示。
图3 Deeplabv3+网络结构
图4 Deeplabv3+改进网络结构
MIoU是用于评估语义分割算法性能的标准指标。假设图像中有+1个类(从到,其中包含背景类),表示本属于类但被识别为类的像素数量。、则为假正例和假负例,而表示识别正确的像素数量。则MIoU可表示为
(1)
模型的精确程度是指使并集尽可能重合。目标的捕获程度是指使预测标签与标注尽可能重合。通过计算以上评价指标即可判断模型的精确程度和目标的捕获程度。
图5 ASPP模块剪枝加速
本文基于Linux系统搭建了深度学习的系统环境。使用Tensorflow深度学习框架。为了加速计算,使用NVIDIA GPU作为训练时的硬件加速器。系统的软硬件环境配置如表1所示。
表1
ASPP模块使用不同采样率的空洞卷积对输入特征图并行采样,捕捉到更多的图像上下文信息。ASPP结构中包含3×3扩张率分别为{6,12,18}的卷积和一个全局平局池化层。
在Deeplabv3+算法基础上,本文通过保留ASPP模块中不同卷积个数作为网络结构进行实验。通过计算测试集中河道图片平均测试时间和MIoU,得出算法测试效果如表2、图5所示,其中ASPP模块中保留3*3扩张率为6的卷积和全局平均池化卷积的网络模型在MIoU可接受的情况下,单张测试时间最短。
表2 ASPP模块剪枝加速
在传统分类网络中,一般通过连续的池化或者其它下采样操作来获取多尺度上下文信息。如果删除池化层并扩大卷积核,会加大计算量。但是如果不加入池化层,则会因感受野变小而学不到全局的特征。因此提出了空洞卷积,它在不损失分辨率的前提下支持感受野指数级增长。
图6 ASPP模块卷积扩张率优化
空洞卷积可根据特征图的大小调整扩张率,并在不增加参数数量的情况下增加了更大的上下文信息。但是当扩张率非常接近特征图大小时,常规的3×3空洞卷积充当了标准的1×1卷积。因此,扩张率的选择情况决定了空洞卷积的效率。在Deeplabv3+算法基础上,保留ASPP模块中全局平均池化层,采用不同扩张率的3×3空洞卷积进行对比实验。通过计算测试集中河道图片平均测试时间和MIoU,得出算法测试效果如表3、图6所示,其中ASPP模块中采用3*3扩张率为12的卷积和全局平均池化层的网络模型在单张测试时间基本一致的情况下,MIoU最高。
表3 ASPP模块卷积扩张率优化
随着机器学习领域的发展,深度学习在图像处理方面取得了卓越的成绩。在河道图像处理领域,相比于传统人工处理方法,拥有许多优势。本文基于无人机进行巡检,并从检测速度和精度两方面考虑,对Deeplabv3+算法中ASPP模块进行了优化。最后在河道数据集进行实验,通过对ASPP模块采用合适扩张率单个卷积进行特征提取,做了一系列对比实验。实验结果从原先单张测试时间为3.79秒、MIoU为90.28%提高到单张测试时间为3.26秒、MIoU为90.77%,提升了0.49%的精度和16.26%的速度,证明了本实验算法的可行性。