基于卷积神经网络的沥青路面裂缝识别模型分析

2023-11-28 11:14许炜婷
四川水泥 2023年11期

许炜婷

(广东工业大学,广东 广州 510006)

0 引言

改革开放以来,经过一代又一代公路建设人员的不懈奋斗,中国公路网络基本形成。2021年,我国公路养护里程525.16 万公里,占公路总里程的99.4%,接近100%。公路养护已由传统的“抢修时代”过渡到“全面养护时代”,高效又智能的公路养护方式成为新时代提升道路服务水平的关键。

根据实地调研,目前公路破损的检测方法仍以人工查看方式为主,即养护队伍驾驶养护车辆行驶在管养路段,通过养护人员的眼睛和经验判断路况是否良好。该传统方法相对落后,人工检测整体覆盖率小、精度差、误差率高,容易受养护队伍的工作认真程度、精神状态和专业养护经验的影响。在新时代大趋势下,若能用路面破损智能检测方法代替人工查看,在裂缝形成初期就及时被发现并进行养护处理,将大大提高公路养护成本和效率。基于卷积神经网络的路面裂缝研究方法应运而生,该方法可大大提高养护效率,降低人工成本。本文从卷积神经网络的基本概念出发,对五种不同的卷积神经网络模型和两种卷积神经网络框架进行分析,最后探讨4 种基于卷积神经网络的沥青路面裂缝识别模型。

1 卷积神经网络的基本概念

1.1 神经元

神经元即神经元细胞,它分为细胞体和突起,是神经系统最基本的结构,突起分为树突和轴突,神经元A的树突接受神经元B 的轴突传来的冲动,并传给神经元A的细胞体,可以看出树突有信息传递的功能。

1.2 神经网络

神经网络从生物学的神经元获得灵感,将多个神经元组合起来就构成了神经网络,图1(f 为激活函数)是一个前馈神经网络。前馈神经网络指的是信息数据从输入层开始输入,每一层都是接收上一层的输出作为输入,并将输出结果作为下一层的输入,整个网络没有循环。卷积神经网络是一个前馈神经网络。

图1 神经网络模型

1.3 卷积神经网络

卷积神经网络在1994 年被学者研究发现,它推动了深度学习的发展。原始数据通过不同的滤波器进行卷积,得到C1卷积层的三个特征映射图。C1层得到的特征映射图经过加权值,加偏执和激活函数(sigmoid)得到S2 层的特征映射图,以此类推,得到S4 层。最终将S4 得到的像素值光栅化,输入到传统的神经网络,得到输出,具体过程如图2所示。

图2 卷积神经网络结构

深度指网络层次数量,宽度指神经元数量,提升卷积神经网络性能最直接的办法是增加网络深度和宽度,但需要把握好度,原因是网络层数越多,梯度越来越弥散;网络越大(神经元数量越多),参数越多,计算难度大,会出现过拟合现象。针对过拟合现象,可以采用最大池采样方法来解决。最大池化指的是取某个小区域中数值最大的点。最大池采样可以降维,使降维后的图像特征更容易分类。

2 卷积神经网络模型对比分析

卷积神经网络模型一般由输入层、隐藏层和输出层构成,隐藏层包括卷积层、池化层、全连接层等。卷积层进行卷积运算,类似滤波器,作用是提取特征;池化层用最大值或者平均值的方式对图像进行池化,作用是降低维数,减少计算量,使模型有抗噪能力;全连接层作用是对卷积层提取到的图像特征进行分类。

2.1 LeNet网络模型

LeNet 网络模型可以算是卷积神经网络的开端,LeNet-5和LeNet有一点差别,LeNet-5把tanh激活函数换成了ReLU。LeNet 网络模型一共有6 层,3 层卷积层,2 层池化层,1 层全连接层,经典的卷积神经网络LeNet结构如图3所示。

图3 LeNet卷积神经网络结构模型图

2.2 AlexNet网络模型

2.4 GoogleNet网络模型

GoogLeNet 卷积神经网络模型的创新点有:一是将全连接变成稀疏连接,作用是可以减少参数。二是加入了Inception 结构,与其他卷积神经网络结构中卷积层与卷积层、卷积层和池化层之间都是串联不同,GoogLeNet卷积神经网络中的卷积层和池化层是并联。

AlexNet 网络模型[1]一共有8 层,前5 层是卷积层,后3 层是全连接层,如图4 所示。AlexNet 网络模型用两块GPU 来运算,可以提高运算的效率。AlexNet网络模型的创新点大致有四个:一是用线性整流函数(RELU)激活函数取代传统激活函数,解决梯度发散的问题,可以减少计算量;二是局部响应归一化(Local Response Normalization),因为ReLU激活函数得到的值域没有区间,所以要对值域进行归一化;三是在第二个全连接层和第三个全连接层设置dropout,可以防止出现过拟合的情况;四是数据扩张(data augmentation),通过对原始数据进行适当的变换,得到差异更大的数据,和dropout 一样,数据扩张也是一种防止出现过拟合的方法。

图4 AlexNet网络结构模型图

2.3 VGGNet网络模型

VGGNet 卷积神经网络模型[3]和AlexNet 网络模型一样,有5 个卷积层,3 个全连接层,如图5 所示。文章里VGGNet 尝试了6 种不同的模型结构,分别是VGG11、VGG11-LRN、VGG13、VGG16-1、VGG16-3 和VGG19(VGG11-LRN 表示第一层卷积采用了LRN,如图6 中A-LRN 类所示;VGG16-1 表示后三组卷积块中最后一层卷积采用卷积核尺寸为1 示后,如图6 中C 类所示。因为大部分计算机硬件只能优化密集矩阵计算,同时大量实验证明:将稀疏矩阵聚类为较为密集的子矩阵可以提高计算性能,所以加入了Inception 结构即可以减少计算量又可以提高计算性能。三是使用大量1 用大的卷积核进行降维,修正relu 激活函数,减少计算量,如图7 所示。四是加入2 个辅助分类器,用于向前传导梯度,减轻梯度消失现象。

图6 VGGNet卷积神经网络模型分类

图7 加入1入助的卷积核后的Inception结构模型图

2.5 深度残差网络(ResNet)

2015 年,ResNet 提出将输入信息直接传给输出的思想,将直接学习目标值转变为学习输入值与输出值的残差。输出h(x)=x+f(x),f(x)残差=h(x)-f(x)。可见学习目标是f(x),f(x)相比h(x),更容易优化。残差单元由卷积层(Conv)、归一化层(BN)、激活函数(ReLU)等组成。归一化操作是将数据用某种算法处理后,一般对每一层网络层都进行归一化处理,使每一层网络层数据更加独立。使激活函数对特征进行非线性变换,使神经网络有更高的拟合性。残差神经网络是由多个残差单元组成,可以解决解决深度增加后,梯度消失或者是网络退化的问题。残差单元和残差网络的结构对网络的学习能力和泛化能力影响很大。

2.6 卷积神经网络模型的对比

表1 是常见的卷积神经网络模型的对比,模型相互之间有共同的地方,基本都有卷积层、池化层、全连接层,而深度残差网络(ResNet)则跳出原来的思维模式,将输入信息直接传给输出,作为初始输出结果,在实际应用时,应该根据实际问题选择适合的网络模型。

表1 卷积神经网络模型对比

3 卷积神经网络框架

3.1 Caffe框架

Caffe 是快速特征嵌入的卷积结构,完全开源的Caffe 框架的核心语言是C++,适合二维图像数据的特征提取。Caffe 的核心模块有三个,分别是 Blobs、Layers 和Nets。Blobs 模块可以对数据进行存储、交互和处理,确定了数据内存的接口。Layers 定义了许多层级结构,它将Blobs 视为输入输出。Nets 是一系列Layers的集合,将这些层结构形成一个网图。

3.2 TensorFlow框架

TensorFlow 支持很多平台,如GPU、CPU 等绝大多数平台都可以。TensorFlow 相对Caffe 工作流程简单、开源、框架具有高度灵活性、自动求微分等优点。

4 基于卷积神经网络的沥青路面裂缝识别模型

4.1 基于Caffe框架的改进后的LeNet-5网络模型

李楠[3]利用Caffe框架,对LeNet-5网络模型进行轻微调整后对图像进行裂缝有无识别,实验结果显示,将激活函数Sigmoid 换成Relu 的LeNet-5 网络模型能较好的识别裂缝。该网络由两个卷积层,两个池化层和两个全连接层。李楠一共用900 张沥青路面的图像,其中750 张用于训练(350 张有裂缝,400 张无裂缝),150 张用于测试(75 张有裂缝,75 张无裂缝)。作者首先对图像进行归一化和匀光处理,然后再采用lmdb 格式的Caffe 框架上对图像进行归一化均值处理。经过超过500 次迭代后卷积神经网络已收敛,可以较好的对裂缝图像和完好图像进行分类,实验结果准确率可达到0.92。

4.2 基于Caffe框架的改进的AlexNet网络模型

车艳丽[4]研究的是将AlexNet网络模型改进后的卷积神经网络,改进后网络层数更少、计算参数更少、模型训练速度更快,识别精度更高。作者用20000 张图像作为训练集,10000 张作为测试集,这30000 张图像可以分为裂缝图像和无裂缝图像。

首先她对图像预处理,目的是降低图像的噪声,让图像的裂缝与图像的背景形成比较强的对比度。她用到的方法有用Canny 算子检测边缘,用改进的Ostu 算法阈值分割,用高斯滤波平滑纹理获取图像背景,用改进后的亮度高程模型进行匀光处理。她采用的是Caffe平台框架,因为需要先对沥青裂缝图像进行数据格式转换,作者选择用LMDB 数据格式,因为该数据格式精简、高效和省内存,如图8 所示是作者改进后的卷积神经网络。

图8 优化后的AlexNet网络结构

4.3 基于Caffe框架的改进后的VGGNet网络模型

赵珊珊等[5]基于Caffe 框架,对3000 张大小为2400×3150像素的图像进行研究。首先对图像进行预处理,用的方法是强度归一化(去除路面光照不均带来的影响)和像素饱和化。然后对VGGNet网络模型进行改进:一是把原始网络convl_l,conv2_2,conv3_3,conv4_3直接与最后一个卷积层连接;二是去掉原始网络的第5个卷积层、第5 个池化层和全连接层,因为作者认为第5 个卷积层、第5 个池化层会生成小又模糊的特征图,影响结果;全连接层计算耗时长,去掉可以减少训练时间。该方法对有明显裂缝的路面图像识别效果好,但对复杂的破损图像难识别,该模型可用于简单的裂缝识别。

4.4 基于Tensorflow 框架的改进后的VGGNet 网络模型

王丹等[6]基于Tensorflow 框架,对1006 张图像进行研究。首先对图像采用旋转、镜像、随机裁剪等方式进行数据增强,将原有的1006 张图像增加到8048 张。然后对VGGNet网络模型进行改进:一是将原有的三个全连接层全部替换成卷积层,变成全卷积神经网络(FCN);二是利用相对深层的网络特征感受野大但容易丢失细节,相对浅层的网络特征感受野小但能突出细节的规律,作者将浅层网络特征和深层网络特征融合,这样即能提高改进后的网络模型对细节的提取能力。三是用空洞卷积代替池化层,保留图像细节,作者用的是改进后(三个并行通道)的多尺度空洞卷积。

5 结束语

综上所述,卷积神经网络模型种类多,卷积神经网络框架各有优缺点,可派生出多种沥青路面裂缝识别模型。本文对这些模型分析后的结论是:应用基于卷积神经网络的沥青路面裂缝识别模型时,在实际收集路面裂缝图像过程中,容易受到标线、井盖、路面垃圾等杂物的影响。如何去除杂物对裂缝图像处理的影响,是未来的路面破损图像处理的重要研究课题,也是提高路面裂缝检测精度的关键。研究者需要选择合适的算法、合适的网络模型以及合适的网络框架。随着计算机技术的发展,希望能开发对全过程路面病害进行智能监测和识别的一体机,实现智能检测。