胡浩帮,方宏远,王念念,董家修,马铎
(郑州大学水利科学与工程学院,河南 郑州 450001)
在城市发展过程中,地下管线是基础设施建设中一个重要组成部分,城市功能的正常运转和人们生活质量的提高与其不可分离。在对地下管线进行全面的勘察、记录和系统管理时,如何提高探测的精度和速度,采取合理的、实用的探测识别方法,变成探测工作的重中之重[1]。探地雷达具有快速、高效、连续、无损等优点,弥补了管线探测仪的探测缺陷,因此在城市地下管线的探测中得到普遍应用[2]。在探地雷达图像中主要有两种常见的目标特征,分别是双曲线形态特征与线性形态特征,在地下管线探测中主要关注前者的检测与识别。
近年来,基于深度学习的学术研究和应用探索突飞猛进,越来越多的算法模型被应用到各种目标检测任务中。为了提高模型进行目标检测时的准确性,网络深度逐渐增大,相应的网络参数大幅增加,模型结构也趋于复杂。这对计算机硬件的计算能力提出了更高的要求,也增大了训练难度和时间成本。于是在现有算力基础上,兼顾准确性和实时性,减少网络参数,压缩网络模型也成为目标检测中的一个研究方向[3]。
神经网络模型压缩的思路大致分为:模型剪裁、知识蒸馏、量化、轻量化网络。设计轻量化网络是目前研究较多的一种方式,主要使用深度可分离卷积构建网络,通过改变或重组网络结构简化网络。常用的轻量化网络有Mobilenet[4]、Shufflenet[5]、Squeezenet[6]和Xception[7]。MobileNet网络的核心思想是深度可分离卷积,将标准卷积分解为深度卷积和点卷积,有效降低计算量和网络参数。该网络在ImageNet数据集上的精度只降低1%,但是参数量降低86%。从既有研究成果来看,采用轻量化网络的思想,在满足模型准确性的同时,可以大幅降低模型训练及运行的时间成本。
本研究采用Mobilenet-SSD作为检测工具,在SSD结构的基础上,使用MobileNet代替基础网络VGGNet,并且去除Mobilenet网络中的全连接层和Softmax层,同时新增8个标准卷积层来完成图像的特征提取工作。
不同于标准卷积,Mobilenet的核心思想是引入了深度可分离卷积[8],将标准的卷积过滤器分为深度卷积和点卷积两个结构。如图1所示,假设标准卷积中输入与输出的长×宽不变,标准的卷积过程是将输入为DF×DF×M的输入层转化为DF×DF×N的输出层,其中DF×DF为输入或输出feature map的长×宽,M,N分别为输入,输出通道数。假设卷积核过滤器的尺寸为DK×DK,则标准卷积核的计算量为:
图1 标准卷积示意图
DF×DF×DK×DK×M×N
(1)
深度卷积和点卷积的卷积核大小分别为DK×DK和1×1。深度卷积的示意图如图2所示。当特征图输入深度卷积层时,通过卷积运算会得到单一的输出,此处为第一次计算量压缩。深度卷积的计算量为:
图2 深度卷积示意图
DF×DF×DK×DK×M
(2)
深度卷积层的输出将作为点卷积的输入,经过卷积运算之后得到深度特征输出,此处为第二次计算量压缩。如图3所示,点卷积的计算量为:
图3 点卷积示意图
DF×DF×M×N
(3)
标准卷积分解为深度卷积和点卷积之后的计算量为:
DF×DF×DK×DK×M+DF×DF×M×N
(4)
最终深度可分离卷积的计算量与原标准卷积的计算量的比值为:
(5)
Mobilenet通常使用3×3的卷积核,由式(5)可以算出原标准卷积的计算量是深度可分离卷积的8~9倍,对应的参数量也是8~9倍。深度卷积将单个卷积应用到每一个输入通道,对每一个输入通道进行卷积,得到单通道卷积值。点卷积通过1×1卷积核将深度卷积的输出值进行组合,得到最终的卷积值。可在不降低精度的情况之下,通过减少卷积运算的复杂程度从而提高神经网络的运算速度。
本研究提出的网络模型结构如图4所示,模型将输入图像归一化为300×300像素,送入网络结构,图中前半部分为Mobilenet网络模型,图像数据经过Mobilenet基础分类网络模型的底层网络提取位置、边缘等信息,更加具象的特征由上层网络提取。目标检测器SSD采用多尺度特征进行预测,去除预先提取候选区域的步骤,对目标按照位置和类别置信度分别进行评价,以评估总体的损失函数。
图4 Mobilenet-SSD网络结构
新增的8个标准卷积层分别为Conv14_1、Conv14_2、Conv15_1、Conv15_2、Conv16_1、Conv16_2、Conv17_1、Conv17_2,扩宽特征图像的接受范围。Mobilenet-SSD网络模型在特征提取过程中,使用的方法与SSD网络模型类似,采用特征金字塔思想[9]获取6个卷积层的特征信息,用来进行多尺度多目标的目标检测。
模型中用来进行目标检测的6层卷积层分别为Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2、Conv17_2。其中,每一层卷积层输出的特征图的大小分别为19×19、10×10、5×5、3×3、2×2和1×1。为了防止梯度消失,在分类任务网络中每一层引入BatchNorm层和激活函数(ReLU6),并在模型训练的过程中引入两个超参数宽度乘数和分辨率乘数来减少输入输出的channels和feature map大小。
数据集是深度学习训练和应用的基础。由于地下管线周边存在各种噪声源,地下环境复杂,在实际工程中采集到的雷达图像数量不足且质量较差,不能满足模型训练的要求。本文首先建立真实图像、模型试验雷达图像与FDTD仿真图像的复合数据集。数据集在原始图像的基础上应用了数据增强技术,通过反转镜像、平移裁剪和颜色变换等,原始图像共有300张,数据增强后获得 2 400张图像。这样有效增加了训练数据的数量和种类,并且没有对原图像的地下管线双曲线特征造成改变,使算法在有限的数据集中不易受细节改变的影响。对于雷达图像的实时检测识别研究面向实际探测的使用场景,真实雷达图像占数据集图像总数的83.3%,剩下部分的图像用于丰富数据集,提高模型的泛化能力。
为了验证不同训练集的训练效果,优化网络模型的性能,设计了4个数据集组合方案,如表1所示。面向实际探测的使用场景,训练集由三种雷达图像相互组合,均在真实雷达数据上进行测试。
数据集配置方案 表1
在建立数据集的基础上,进行模型训练、对比分析与优化等步骤。基于VOC2007数据集,前期数据集处理生成的文件夹分别直接对应data数据集中的目录,简化算法配置流程。获取label信息,确定训练、测试、验证的比例为8∶1∶1。设置初始学习率、动量系数、总迭代次数等参数,设置不同的数据集组合方式,训练获得性能较优的检测识别网络模型,加载网络模型对真实雷达图像进行识别测试。
准确率accuracy是指预测结果中表示正确预测的样本(真阳性和假阳性之和)与所有样本的比值。
(6)
这里,TP、FP、TN、FN分别是真阳性、假阳性、真阴性、假阴性的个数。但当目标类别不平衡时,准确率accuracy不能体现对模型的综合评价,应以查准率-召回率曲线或者AP作为评价指标。召回率recall是指真阳性样本与实际阳性(真阳性和假阴性)样本的比例。查准率precision是真阳性样本与预测阳性(真阳性和假阳性)样本的比率。
(7)
(8)
如果一个分类器的性能较好,那么它应该有如下的表现:在recall值增长的同时,precision的值保持在一个很高的水平。而性能比较差的分类器可能会损失很多precision值才能换来recall值的提高。precision-recall曲线常用来显示分类器在Precision与Recall之间的权衡。AP是precision-recall曲线下方包围的曲面面积,可以合理地评价算法的有效性。通常来说一个性能越优异的分类器,AP值越高。
根据各种训练设置对应获得的模型性能表现,不断进行算法调优,获得兼顾准确性与实时性的网络模型。将faster-rcnn作为对照,试验结果如表2所示,最优方案为Mobilenet-SSD网络模型,迭代次数为 30 000次,AP达到89.4%,模型识别速度达到65FPS,能够满足管线探测工程实际要求。
测试结果对比表 表2
由试验结果,表中AP值对应该网络模型采用各个序号的数据集进行训练时,得到的准确性最优模型。在测试集都为真实数据的前提下,表中序号4对应的AP值最大,而且随着模型试验数据和仿真数据的加入,AP值逐渐增大,说明复合训练集有利于提高模型训练性能,改善模型识别效果;Mobilenet-SSD的准确性略低于Faster R-CNN,但模型检测速度维持在60FPS以上,算法运行的时间成本大幅降低,实时性显著改善。
采用训练获得的模型对真实雷达图像进行测试,测试效果如图5所示。模型对(a)单一金属管线,(b)单一非金属管线,(c)多个非重叠特征,(d)多个重叠特征等共4种情况,均可成功识别,且未出现错检、漏检、预测框与特征区域重合率过低等情况。Mobilenet-SSD与Faster R-CNN的检测效果基本一致,生成的预测框符合特征的位置和尺寸,预测框恰好完全包围地下管线特征区域,框的上边缘与双曲线特征的顶点位置重合。对比表明:该模型对不同埋地情况的管线特征具有较强的鲁棒性,包括复杂交叉重叠的情况,效果准确可靠,可以较好地应用于实际检测。
图5 测试效果图
本文提出了一种基于Mobilenet-SSD的探地雷达管线目标智能识别方法,通过超参数设置,数据集组合训练等对比调优,得到兼顾准确性和实时性的网络模型。模型可成功识别单一金属管线,单一非金属管线,多个非重叠特征,多个重叠特征等4种情况。模型参数较少,运行效率高,可以提高探地雷达探测地下管线的效率,为健全管线普查数据库提供支持,在实际工程问题中具有广阔的应用前景。未来还需改进的是,由于地下埋地目标多种多样,如空洞、疏松等路基缺陷,我们将收集不同类型的GPR数据,对所提出的模型进行训练改进,拓宽智能识别领域。