VGG16 在地下排水管道缺陷图像分类中的应用

2021-03-23 06:37赵志鹏
科学技术创新 2021年7期
关键词:池化层排水管道准确率

甄 珍 赵志鹏

(1、南京信息工程大学,江苏 南京210044 2、合肥工业大学,安徽 合肥230009)

城市管网就像城市的“血管”,是城市设施的基础,与生活息息相关。当管道出现堵塞、破裂,不但会造成局部地区的内涝,还会污染周边环境,所以对地下管网进行检测具有重要的意义。目前国内外排水管道检测方法主要有管道CCTV、管道QV 等,不同的检测技术虽然各有优势[1],但是这些技术都需工作人员对管道是否有缺陷进行人工判断[2],具有主观性较强、耗时费力等缺点,导致管道缺陷检测的准确率不高。因此迫切需要使用更智能的计算机代替人工对该领域的缺陷进行分类,来提高排水管道检测的效率和准确率。本文使用VGG16 卷积神经网络模型,对城市地下管网的图像进行分类,识别有缺陷的图像。该深度学习方法实现了对排水管道缺陷和完好两类图像的自动分类,加快了排水管道缺陷检测的智能化进程。

1 相关理论

1.1 卷积神经网络模型

神经网络是一种模仿人脑神经系统的算法,包括输入单元、隐藏单元和输出单元[3],它模仿的是大脑神经系统中神经元之间传递和处理信息的一种方式。每个单元包含大量的节点,节点与节点之间有一个权重,每个节点都有一个激励函数。

而卷积神经网络(Convolutional Neural Networks,CNN)是一种带有前向结构的人工神经网络。一般CNN 分为输入层、中间层和输出层,通常情况下输入层用于接收图像,由卷积层构成。中间层包含卷积层、全连接层和池化层,其中卷积层用来提取图片的特征,全连接层用来接收所有特征,池化层是为了压缩图像的特征,既能保存主要的特征又能降低网络计算的复杂度。输出层一般由全连接层构成,用于生成一个分类器,对输出值进行分类。近年来,CNN 的准确率已通过ImageNet[4]之类的大规模图像数据集进行测试,该图像数据集包含超过10000 万张图像。新的CNN 如Alexnet[5]、VGG、GoogLeNet[6]和ResNet[7]在图像分类方面表现的越来越好。并且在人脸识别[8]、车牌识别[9]、手写字识别[10]等方面取得不错成绩。deepID2+模型在人脸识别领域的识别率达到了99.47%,远远超越人眼识别能力[11]。在本文中,通过CNN 来提取排水管道的特征,用所提取特征给出图像分类的概率,其训练过程如图1 所示。

1.2 VGG16 模型

图1 CNN 的训练过程

自从深度学习普及以来,出现越来越多的网络模型用于分类,1994 年诞生了最早的卷积神经网络LeNet,之后又先后出现了AlexNet、Overfeat、VGG、网络网模型(Network in network;NIN)、GoogLeNet 以及衍生的Inception 进化结构、残差网络ResNet 等,这些网络的分类精度逐渐提高,错误率也逐渐的控制在了很低的范围内。考虑到网络模型对排水管道图像分类任务的适用性,本文主要使用VGG16 模型,由13 层卷积层和3 层全连接层组成,该网络结构如图2 所示。首先输入大小为224×224×3 的彩色图像,其中3 代表通道数,224 代表图像的长和宽均为224。实线立方体部分为卷积层,初始卷积核的大小为3×3×3,步幅stride 的大小为1,有效填充padding 的大小为1。虚线立方体部分为池化层,池化层pooling 采用2×2 的最大池化数max pooling 的方式。模型首先经历两次64 个卷积核的卷积处理,接着进行一次最大池化层max pooling,然后又经历两次128 个卷积核的卷积处理,并进行一次最大池化层max pooling,再经历三次256 个卷积核的卷积处理之后,采用一次最大池化层max pooling,最后再重复经历两次三个512 个卷积核的卷积处理,并且进行一次最大池化层max pooling。以上部分完成之后,是三次全连接层,其中箭头图形部分为全连接层,节点个数分别为4096、4096 和2,最后输出为每个类别的概率。每层卷积层进行卷积后都采用修正线性单元(ReLU)作为激活函数,VGG16 是公认的具有良好生成能力的CNN。

图2 VGG16 模型结构

2 实验

2.1 实验数据

实验对地下排水管道图像进行分类,采用的数据集来源于南京市的地下管网检测项目,运用CCTV 检测手段现场采集视频,将拍摄的视频截取为一帧一帧的图片,如图3 所示,最后对图片进行筛选分类。本文用到的数据集包括完好和缺陷两类管道图片,完好类图片有1700 幅,缺陷类图片有4000 幅,图片格式为jpg 格式。由于不均衡数据会导致网络在训练过程中出现过拟合或欠拟合现象,因此为了得到较好的排水管道缺陷识别效果,本文采用将图片进行旋转、平移角度、改变方向等操作,增加完好类图片数量至4000 幅,有效地解决了不均衡数据造成实验性能差的问题。除此之外,统一将每一幅图像的尺寸大小都转换为为224×224 的RGB 图像,并且全部归一化。

图3 管道内部情况的例子

2.2 实验结果

对于VGG16 模型而言,训练集样本数量越多、数据集越均衡,测试准确率越高。本文将样本扩充前与样本扩充后的实验准确率进行了对比,扩充前样本数量为5700,扩充后的样本数量为8000 张,为了充分训练网络并测试网络的准确性,将每个类中70%的原始数据作为训练集训练VGG16 网络,15%作为验证集,将余下的15%作为测试集测试网络性能。分别在这两个数据集上采用了VGG16 模型对其训练,对训练后的模型再进行测试验证。在VGG16 模型中加入了EarlyStopping,学习率的取值为0.0001,batch_size 为16,其中batch_size 为一次迭代更新参数的样本量。扩充前和扩充后的样本训练集在实验模型上的拟合均接近了100%,扩充前的样本在实验模型上的测试准确率为84.7%,AUC 为0.856;经过翻转、顺时针旋转90 度后的样本在实验模型上的测试准确率为94.3%,AUC 为0.931,如表1所示。其中AUC 是衡量分类模型的一种性能指标,取值在0 到1 之间,当AUC 大于0.85 时,说明预测模型的效果很好。由此可见,适当的扩充训练样本数量及使用均衡样本有利于提高网络的泛化能力,模型的精度明显高于工作人员肉眼识别的精度,证明VGG16 模型对识别地下管道缺陷十分有效。

表1 样本扩充前后对比实验

3 结论

本文提出了一种基于VGG16 卷积神经网络的地下管道缺陷图像分类方法,主要用机器代替人工解决传统检测方法速度慢、精确度低的问题。通过不断地测试及调解模型参数,发现卷积神经网络对样本的依赖性较大,样本数量较大且均衡的情况下,能够得到更加精确的分类结果。可见在利用CNN 解决分类问题时,选取合适的数据集显得异常重要。扩充后的均衡样本在实验模型上的精确率达到94.3%,远远超过人眼的分类精度。在未来的工作中,将获得数量更多、种类更广的排水管道缺陷图像,进一步提升模型的泛化能力。

猜你喜欢
池化层排水管道准确率
卷积神经网络模型研究分析*
探讨市政工程给排水管道施工中质量控制
探讨市政给排水管道施工的加强措施
市政工程给排水管道施工质量控制
给排水管道试压技术在市政工程项目中的应用
改进深度卷积神经网络及其在变工况滚动轴承故障诊断中的应用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察