刘光辉, 陈 健, 孟月波, 徐胜军
(1. 西安建筑科技大学 信息与控制工程学院,陕西 西安 710055;2. 建筑机器人陕西省高等学校重点实验室,陕西 西安 710055;3. 西安市建筑制造智动化技术重点实验室,陕西 西安 710055)
裂缝作为混凝土表面常见的病害之一,过大的裂缝会降低混凝土工程结构的承载力、防水性能以及耐久性。如果混凝土表面的裂缝不能及时发现修补,可能会导致严重的安全事故发生。因此,定期对混凝土建筑表面进行裂缝检测至关重要。早期的裂缝检测依靠经验丰富的工作人员进行人工检测,速度慢、成本高,存在主观臆断性,无法满足现代建筑健康监测的需求。随着计算机视觉技术的日益发展,研究人员开始将其应用于裂缝检测中,提出大量的裂缝检测方法。这些方法主要分为两类:一种是基于传统方法的裂缝分割,另一种是基于深度学习的裂缝分割。
传统的裂缝分割方法通过人工或机器学习方法获取浅层特征来实现裂缝分割。文献[1]提出一种结合自适应Canny 算法和迭代阈值分割算法的裂缝分割方法,使用自适应高斯滤波器平滑图像,并采用迭代阈值分割算法计算图像二值化阈值。文献[2]提出基于邻近差分直方图(NDHM)的裂缝图像阈值分割算法,通过构造目标像素与周围像素之间差异最大化的目标函数,形成裂缝图像的差分直方图,从而确定分割阈值。文献[3]通过小波分解去除图像噪声以及增强裂缝边缘,然后使用阈值分割裂缝。文献[4]利用随机化结构森林去生成裂缝检测模型,并且通过特征直方图去区分裂缝和噪声。虽然传统裂缝分割方法取得一定效果,但分割精度不佳,易受外界环境因素干扰,且模型鲁棒性差,难以满足实际场景的应用需求。
随着深度学习的快速发展,基于卷积神经网络的深度学习模型被广泛应用于裂缝分割之中。如文献[5]提出使用全卷积网络(Fully Convolutional Networks,FCN)分割不同尺度的裂缝,但网络在面对背景复杂多变的裂缝图像时,其特征提取能力较弱,导致裂缝分割精度较低。文献[6]利用残差网络ResNet-34 作为编码器,一方面借此加深网络层数来提高编码器的特征提取能力,另一方面利用残差结构避免因网络加深发生梯度消失的问题;文献[7]引入可变形卷积,通过其空间几何形变能力自适应地提取不同形态的裂缝特征,增强网络对裂缝特征的学习。这些方法增强了网络在复杂背景下裂缝特征的获取,但缺乏对裂缝结构信息的描述,导致分割出的裂缝总体结构模糊不清晰。为此,文献[8]通过多尺度监督学习融合不同卷积阶段的输出结果,提高网络对裂缝线性结构的捕捉能力;文献[9]依靠Transformer 建模长距离依赖关系,从而获取长距离裂缝的结构信息。与此同时,为解决传统卷积感受野受限,无法纳入更大范围裂缝信息的缺陷。文献[10-13]在不降低特征图分辨率和减少细节信息丢失的情况下,利用空洞卷积扩大感受野,捕获更大范围的裂缝信息;为了让网络应对尺寸多变的裂缝形状,文献[14]提出串并联相结合的空洞卷积模块,通过不同扩张率的空洞卷积,去囊括不同尺度的裂缝特征。为提高网络的裂缝分割性能,研究人员尝试改变编解码端浅层和高层特征的融合方式。文献[15]设计特征融合模块将包含边缘细节信息的中层特征与包含大量语义信息的深层特征相融合,从而细化裂缝边界。并且通过不同扩张率的空洞卷积提取多尺度上下文信息,整合更多有价值信息,提高裂缝分割的准确度;文献[16]通过多尺度特征融合模块,将编解码端的最深层特征逐次引入其他中浅层特征中进行特征融合,充分利用最深层特征中的高级语义信息,并且通过深度监督策略促进多尺度特征融合和模型收敛。
虽然上述基于深度学习的裂缝分割方法取得不错成效,但仍存在以下不足:编解码特征在提取过程中,网络专注挖掘最显著的裂缝特征信息,容易忽略局部细微裂缝信息;编码器浅层特征包含丰富空间信息,但同时带来了背景噪声,对后续编解码特征融合造成背景干扰;虽然空洞卷积能够扩大网络感受野,但无法有效捕捉到裂缝的线性结构。鉴于此,本文提出一种线性引导与网格优化联合网络(Linear Guidance and Mesh Optimization Joint Network,LGMO-Net),首先在模型编码阶段加入多分支线性引导模块(Multi-branch Linear Guidance Module,MLGM),通过自适应单维度池化提高网络对裂缝线性结构的捕获能力,加强空间不同区域之间的信息交流,增强模型全局信息感知能力,从而提高网络分割精度。其次通过设计网格细节优化 模 块(Mesh Detail Optimization Module,MDOM),利用分区-优化-合并三步骤,对特征图空间区域进行网格划分,学习网格中局部细节信息,避免细微裂缝特征信息丢失。与此同时采用混合注意力模块(Mixed Attention Module,MAM),过滤编码器浅层特征中的背景噪声,在空间与通道双维度突出裂缝特征信息,抑制背景信息对裂缝分割结果的干扰。
线性引导和网格优化联合网络框架具体如图1 所示,主要包括主干网络U-Net、多分支线性引导模块MLGM、网格细节优化模块MDOM、混合注意力模块MAM。首先,网络在编码器端添加MLGM 模块,通过自适应单维度池化提高网络对裂缝线性拓扑结构的捕捉能力,获取图像全局感受野。同时在编码端加入MDOM 模块,避免因连续卷积和池化操作导致细节信息丢失,造成细微裂缝漏分。对于编码器输出的浅层特征包含了大量的空间信息,但同时也带来背景噪声。这对编码特征与解码特征在跳跃连接处进行特征融合带来背景干扰。为此,本文在跳跃连接处嵌入MAM 模块,通过注意力机制过滤编码特征中的背景噪声。同时改变跳跃连接方式,先将经过背景噪声过滤后的浅层特征与深层特征进行特征融合,再将经过特征融合的浅层特征与深层特征进行通道合并,弥补之前跳跃连接方式在语义融合上的不足。
图1 线性引导和网格优化联合网络框架Fig.1 Linear Guided and Mesh Optimization Joint Network Framework
图2 是裂缝图像,图中裂缝呈现出细长且不规则的结构。如图2(a)所示,当网络采用常规池化进行信息聚合时,因其池化核与裂缝形状不契合,无法捕捉裂缝的线性结构,并且将裂缝和背景的特征信息汇聚在一起,导致分割精度不高。同时裂缝分布于全图,通过常规池化操作,只能获取局部区域的裂缝信息,造成区域信息交流闭塞,区域之间的裂缝无法建立联系,难以获取完整的裂缝。
图2 自适应单维度池化和常规池化对比Fig.2 Comparison of adaptive single-dimensional pooling and regular pooling
针对上述问题,借鉴文献[17]的思想,本文使用自适应单维度池化代替常规池化。与固定尺寸的常规池化不同,自适应单维度池化的形状会根据输入特征图的尺寸进行自适应调整,让其形状与目标尺度相匹配。并且自适应单维度池化只沿高度或宽度维度进行信息聚合。当输入特征图空间维度大小为H×W时,自适应单维度池化形状为(α∗H)×1 或1×(α∗W),α为延伸率。如图2(b)所示,自适应单维度池化其形状更加契合裂缝的形态结构,能够更好捕获裂缝的线性结构。并且让图像不同区域的裂缝建立联系,避免区域之间孤立。基于上述分析,本文设计了基于自适应单维度池化的多分支线性引导模块,其结构如图3 所示,通过对特征图执行自适应单维度池化操作,学习到更丰富的裂缝信息。
图3 多分支线性引导模块Fig.3 Multi-branch Linear Guidance Module
具体的,多分支线性引导模块包含1 条全局平均池化分支以及3 条自适应单维度池化分支。对于全局平均池化分支,采用公式(4)对输入特征图Finput∈RC×H×W执行全局平均池化操作,得到输出特征图Fs4∈RC×H×W。通过上述方式,特征图Fs4获得输入特征图的全局上下文信息,提高模型对裂缝图像的整体感受能力。而对于自适应单维度池化分支,分别采用公式(1)~公式(3)对输入特征图Finput执行自适应单维度池化操作,得到输出特征图(Fs1,Fs2,Fs3)∈(RC×H×W,RC×H×W,RC×H×W)。为了应对裂缝尺寸多变的问题,三条自适应单维度池化分支的延伸率各不相同,延伸率α分别为1、0.5 和0.25。并且每条自适应单维度池化分支还分别设置沿高度和宽度方向的自适应单维度池化子分支,去尽可能获取沿高度和宽度方向延伸的裂缝信息。
其中:Conv1×1表示核大小为1×1 的卷积;Up表示上采样操作;GAP表示全局平均池化操作;Avgα=1表示核大小为H×1 和1×W的自适应单维度池化;Avgα=0.5表示核大小为H2×1 和1×W2 的自适应单维度池化;Avgα=0.25表示核大小为H4×1 和1×W4 的自适应单维度池化。
最后,将全局平均池化和自适应单维度池化分支输出的特征图进行逐元素特征融合。该步骤在保持特征图维度不变的情况下,增加特征图空间与通道维度的信息量,有效降低因特征融合所带来的参数和计算量,生成含有丰富裂缝信息的特征图。之后通过1×1 卷积操作,实现特征图的跨通道信息交互,获得最优特征图Foutput,其过程如式(5)所示:
式中,⊕表示逐元素相加。
由于网络在编码阶段不断地卷积和池化操作过程中,图像细节信息丢失严重,导致细微裂缝漏分。因此,本文设计了网格细节优化模块,以减少模型在下采样过程中细节信息的损失,增强网络对小尺度裂缝的关注度。
网格细节优化模块结构如图4 所示,首先,沿着通道维度对输入特征图F∈RC×H×W执行切片操作得到切片特征Fi(Fi∈RH×W×C4,i=1,2,3,4);其次对每个切片特征Fi执行分区-优化-合并三步骤。
图4 网格细节优化模块Fig.4 Mesh Detail Optimization Module
以切片特征F1为例,首先进行分区操作,使用3×3 平均池化对切片特征F1进行空间区域划分,将整个空间域划分为若干个网格,得到网格描述特征,其具体过程如式(6)所示:
其中:z表示网格描述特征,表示分区操作。其次对网格描述特征z进行细节优化操作,利用卷积操作提取每个网格中的细节信息,其具体过程如公式(7)所示:
其中:s表示局部细节特征,fex( ⋅)表示细节优化操作,Conv表示卷积操作,BN代表批归一化,δ代表ReLU 激活函数。
最后进行网格细节合并操作,通过双线性插值对局部细节特征s进行上采样,合并各个网格的信息,将细节特征非线性映射到整个空间域。其具体过程如下所示:
其中:Y1是包含细节信息的分支特征,fbi( ⋅)表示网格细节合并操作,Bilinear表示双线性插值操作。
对于四个切片特征Fi(Fi∈RH×W×C4),使用不同尺寸的池化执行分区-优化-合并三步骤。其计算过程如下:
其中:Conv表示卷积操作,concat表示通道拼接操作。
在裂缝分割任务中,为了在复杂背景下实现对裂缝区域、背景区域进行准确分割,设计了空间-通道混合注意力模块,将其嵌入网络的跳跃连接处。通过混合注意力模块,特征图中裂缝区域被赋予较高权重,而背景区域被赋予较低权重,使网络聚焦于裂缝区域的分割,提高网络的特征学习和表达能力,改善分割效果。
2.4.1 空间注意力模块
空间注意力机制通过对特征图不同位置的像素元素重新赋予权重,挖掘特征图空间信息,更好地聚焦裂缝区域。空间注意力模块结构如图5 所示:
图5 混合注意力模块Fig.5 Mixed Attention Module
首先,空间注意力模块通过1×1 卷积操作,将特征图U∈RC×H×W沿着通道方向进行特征压缩,去除特征对通道维度的依赖性,得到特征图U1∈R1×H×W。与此同时,通过3×3 池化操作,将广泛的上下文信息聚集到局部特征中,得到特征图U2∈R1×H3×W3。之后通过3×3 卷积操作,加强区域之间的信息交流,建立空间关联性。然后上采样成大小为H×W×1 特征图,最后通过ReLU 激活和sigmoid 函数映射后生成空间特征权重矩阵Ws。利用该权重与输入特征图进行相乘,即实现空间维度上特征重标定,其计算过程如下:
其中:σ为sigmoid激活函数,Up表示上采样,Conv3×3表示卷积核为3×3 的卷积层,Conv1×1表示卷积核为1×1 的卷积层,Avg3×3表示池化核为3×3 的池化层,⊗表示逐元素相乘,USFR表示经过空间维度重标定的特征图。
2.4.2 通道注意力模块
通道注意力模块通过建模各个通道的重要程度,自适应的建立特征通道间的依赖关系,根据依赖关系对原特征图各通道进行加权处理,使网络关注某些权重值大的通道。在通道注意力机制中,通常采用全局池化方法将通道信息全局编码,但容易忽略位置信息和空间结构,造成分割精度降低。为此,本文设计了全新的通道注意力模块,如图5 所示:
首先,通道注意力模块为了避免全局池化造成位置信息丢失,将二维的全局池化分解为2 个并行的自适应单维度池化。 把特征图U∈RC×H×W,沿着高度和宽度方向将进行特征聚合,得到2 个注意力特征图Uh∈RC×1×W和Uw∈RC×H×1。该步骤让通道注意力模块在获取一个空间方向的远程依赖关系时,同时保存沿另一个空间方向的精确位置信息。对两个注意力特征图进行降维融合,得到每一个通道特征图的全局信息特征图Ug∈RC×1×1。经过1×1 卷积进行瓶颈操作,将通道数由C变为C4。之后经过卷积和ReLU 操作后,将通道数恢复为C。最后,经过sigmoid 函数映射后生成通道特征权重矩阵Wc,与特征图USFR相乘,从而实现通道方向上特征重标定。其计算过程如下:
其中:σ为sigmoid激活函数,Conv1×1表示卷积核为1×1 的卷积层,GAP表示全局平均池化,AvgH×1和Avg1×W分别表示池化核尺寸为H×1和1×W的自适应单维度池化操作,UCFR表示经过通道维度重标定的特征图。
损失函数是用于衡量标签真实值与网络输出预测值之间差距的指标,通过不断减小损失值来训练网络模型,从而更好地拟合样本数据。本文采用二分类交叉熵损失函数,yt表示像素点的真实标签,yp表示像素点的预测值,二分类交叉熵损失函数的计算公式如式(23)所示:
本文实验是在Ubuntu 18.04.2 系统下进行,GPU 型号为GTX2080Ti。深度学习框架采用Pytorch-1.10.2,实验环境配置为CUDA 11.4+python3.6.8。在网络训练过程中,设置训练参数batch_size 为8,epoch 为400 轮,初始学习率为0.000 5,使用Adam 优化器进行网络优化,学习率衰减策略采用余弦退火方法。
为了验证LGMO-Net 的有效性,采用Crack500[18]、Deepcrack537[19]和CFD[4]公共裂缝数据集进行实验对比。Deepcrack537 裂缝数据集共有537 张大小为544×384 的裂缝图像,包括300 张训练图像和237 张测试图像以及对应的标签图。部分裂缝图像中含有较多的噪声干扰,如水坑、斑点、碎石、阴影等噪声,用以验证LGMONet 在噪声干扰下的性能。Crack500 裂缝数据集由3 368 张裂缝图像构成,图像中包含横向、纵向、龟裂等形状各异的裂缝,并且部分图像中裂缝与背景颜色相似,分割难度较大。该数据集按照训练集(1 896 张)、验证集(1 124 张)和测试集(348 张)进行划分。CFD 裂缝数据集由118 张大小为480×320 的裂缝图像构成,这些图像中的裂缝都是具有一定分割难度的狭长裂缝,裂缝占比小且难以辨认。该数据集按照8∶2 比例随机划分为训练集和测试集。
为了更好评价网络的分割性能,本文使用了4 种常见的分割评价指标,包括准确率、召回率、F1-score 和IoU。将裂缝定义为正样本,非裂缝定义为负样本。上述的评价指标可以通过混淆矩阵进行计算,其中TP,FN,FP,TN 的含义如表1 所示:
表1 混淆矩阵Tab.1 Confusion matrix
准确率(Precision)也称查准率,反映了预测为裂缝的样本中有多少实际为裂缝样本的概率,公式为:
召回率(Recall)也称查全率,表示实际为裂缝的样本中有多少被预测为裂缝样本的概率,公式为:
F1-score 用于描述准确率和召回率之间关系,更好反映模型的分割性能,公式为:
交并比(IoU)表示预测为裂缝区域与实际为裂缝区域之间交集与并集的比值,公式为:
为了证明LGMO-Net 模型的优越性,与UNet,PSPNet,DeepCrack18,LightCrackNet[20],FFEDN[21]等网络模型分别在Deepcrack537,Crack500 和CFD 裂缝数据集上进行对比实验。并且为了验证LGMO-Net 模型各模块对混凝土裂缝分割任务的有效性,在Deepcrack537,Crack500 和CFD 裂缝数据集上进行消融实验。
3.3.1 Crack500 裂缝数据集实验结果分析
图6 是在Crack500 数据集上,LGMO-Net 模型与其他网络模型的分割结果对比(彩图见期刊电子版)。通过对比图6(a)和图6(b)的红框区域,可以看出FCN,SegNet 等网络都出现了不同程度裂缝漏分现象,部分裂缝区域没有分割出来。而LGMO-Net 所提出的多分支线性引导模块,能够精确关注到裂缝的线性结构,获取更加丰富的裂缝特征信息,较为完整的分割出整个裂缝。通过图6(c)的红框区域,可以看出SegNet等模型在裂缝分割过程中丢失了特征图的细节信息,导致细微裂缝分割效果不佳。而LGMONet 利用网格细节优化模块,提取空间网格中的细节信息,较好分割出细微裂缝。在图6(d)的红框中,由于裂缝图像中裂缝与背景特征相似,导致DeeplabV3、DeepCrack18 等模型将背景错分割成裂缝。而LGMO-Net 利用混合注意力模块在空间和通道两个维度强化裂缝特征,抑制背景噪声干扰,没有出现将背景错分为裂缝的现象。
图6 Crack500 数据集各种模型的裂缝分割结果Fig.6 Crack segmentation results of various models of Crack500 dataset
不同模型在Crack500 数据集中分割结果的定量分析如表2 所示,在Crack500 数据集上,本文所提的LGMO-Net 在准确率、召回率、F1-score 和IoU 评价指标上,分别达到78.11%,70.64%,74.19% 和58.96%,其中准确率、F1-score 和IoU 获得最高分数。FFEDN 网络在裂缝分割过程中,通过注意力和深度监督机制减少裂缝样本漏分现象发生,使其召回率指标获得最高分数。LGMO-Net 相比于FFEDN 网络,更专注于获取裂缝特征信息,提高裂缝分割准确率,其召回率有待提高。与其他算法相比,虽然本文算法在Recall 指标没有获得最高分数,但Precision指标远超其他算法,并且在综合考虑准确率和召回率的F1-score 指标上取得最高分数,表明LGMO-Net 分割性能更佳。与主干网络U-Net 相比,本文方法的准确率提高8.82%,F1-score 提高2.75%,IoU 提高3.39%。与最佳对比算法FFEDN 相比,LGMO-Net 的评价指标得到一定程度的提升,准确率提高7.1%,IoU 提高0.4%,F1-score 提高0.32%,说明LGMO-Net 通过多分支线性引导和网格细节优化模块提高网络对裂缝线性结构的捕获能力,在一定程度上缓解裂缝图像分割过程中细微裂缝漏分问题,并通过混合注意力机制抑制背景因素干扰,提高网络分割精度。
表2 Crack500 数据集定量分析实验结果Tab.2 Experimental results of quantitative analysis of Crack500 dataset
3.3.2 Deepcrack537 裂缝数据集实验结果分析
LGMO-Net 与其他网络在Deepcrack537 数据集上的可视化结果如图7 所示(彩图见期刊电子版)。从图7(a)红框区域可以看出,HRNet、UNet 等模型的分割效果较差,裂缝漏分现象严重,整体分割效果不理想。此外在图7(b)的红框区域中,SegNet 和U-Net 错分现象较为严重,把背景区域错分为裂缝。而本文方法在上述的红框区域都能进行精确的裂缝分割,表明LGMO-Net与其他方法相比能够获得更加丰富的裂缝特征信息,并且对于复杂背景下各种强干扰具有较好的鲁棒性。在图7(c)~7(e)中,其他网络对于大面积裂缝区域分割效果较好,但容易出现细微裂缝漏分。而LGMO-Net 明显改善了细微裂缝漏分问题,对于小尺度裂缝分割效果更为突出。
图7 Deepcrack537 数据集各种模型的裂缝分割结果Fig.7 Crack segmentation results of various models of Deepcrack537 dataset
在Deepcrack537 裂缝数据集上,对各种网络模型的分割结果进行定量分析,结果如表3 所示。本文所提出的LGMO-Net 在Precision,Recall,F1-score 和IoU 指标上,分别达到84.61%,89.64%,87.05%和77.07%。与其他网络模型相比,本文算法的Recall,F1-score 和IoU 指标获得最高分数。对比主干网络U-Net,LGMO-Net各项评价指标都得到大幅度提升,准确率提高3.28%,召回率提高1.50%,IoU 提高2.45%,以及F1-score 提高3.76%。与对比算法FFEDN 相比,召回率、F1-score 和IoU 分别提高4.02%,0.88%和1.37%。
表3 Deepcrack537 数据集定量分析实验结果Tab.3 Experimental results of quantitative analysis of Deepcrack537 dataset
3.3.3 CFD 裂缝数据集实验结果分析
在CFD 数据集中,裂缝形状细长且难以辨认,分割难度较大。为进一步验证LGMO-Net 模型有效性,各模型在CFD 裂缝数据集进行裂缝分割对比实验,对比结果如图8 所示。在图8(c)的红框区域中,FCN、DeeplabV3 等网络模型对细微裂缝进行分割时,出现漏分现象。而LGMO-Net 通过网格细节优化模块保留裂缝细节信息,能够完整分割出细微裂缝。在图8(b)中,裂缝图像左下角存在阴影区域,干扰模型分割结果。如DeepCrack18 网络受阴影区域干扰,将阴影区域错分为裂缝。并且U-Net,HRNet 等网络模型在阴影区域发生裂缝漏分问题,分割效果表现不佳。而LGMO-Net 能够克服阴影干扰,成功分割出裂缝。从图8 的整体分割结果可以看出,LGMO-Net 相比于其他网络模型分割效果更佳,说明本文算法对于细长结构的裂缝,具有更好的特征捕获能力。
图8 CFD 数据集各种模型的裂缝分割结果Fig.8 Crack segmentation results of various models of CFD dataset
不同模型在CFD 裂缝数据集分割结果的定量分析如表4 所示,在CFD 数据集上,本文所提的LGMO-Net 在准确率、召回率、F1-score 和IoU评价指标上,分别达到71.07%,73.46%,72.24%和56.55%,其中准确率、F1-score 和IoU获得最高分数。与U-Net 相比,本文方法的准确率提高3.09%,召回率提高0.33%,IoU 提高2.16%,F1-score 提高1.78%。
表4 CFD 数据集定量分析实验结果Tab.4 Experimental results of quantitative analysis of CFD dataset
综上所述,从DeepCrack537,Crack500 和CFD 裂缝数据集对比实验的可视化结果和定量分析上,可以看出LGMO-Net 模型的裂缝分割效果十分显著,有效地解决了网络分割精度低、细微裂缝漏分、背景干扰等问题,能准确分割出混凝土的裂缝区域。
3.3.4 消融实验
为了更好的验证所提模型以及各个模块对混凝土裂缝分割的有效性,在Deepcrack537、Crack500 和CFD 裂缝数据集上进行消融实验。所提模型是以U-Net 为主干网络,MLGM 表示多分支线性引导模块,MDOM 表示网格细节优化模块,MAM 表示混合注意力模块。表5 给出了在Deepcrack537 数据集上的消融实验结果,UNet 的Precision,Recall,F1-score 和IoU 的结果分别是81.33%,88.14%,84.60% 和73.31%;添加MLGM 模块后,指标分别上升1.19%,0.81%,1.04%和1.57%;添加MDOM 模块后,指标相比主干网络U-Net 分别上升1.21%,0.87%,1.05% 和1.60%;添加MAM 模块后,Precision,F1-score 和IoU 三个指标分别上升2.97%,0.71% 以及1.07%。 表6 展示了在Crack500 数据集上的消融实验结果,当主干网络U-Net 添加MLGM 模块后,Precision,F1-score 和IoU 分别提高7.8%,2.56% 和3.16%;添加MDOM 模块后,指标相比U-Net 分别上升3.89%,1.81% 和2.22%;添加MAM 模块后,Precision,F1-score 和IoU 三个指标分别上升5.75%,2.00% 以及2.46%。CFD 数据集的消融实验结果如表7 所示,U-Net 添加MLGM 模块后,Precision,F1-score 和IoU 分别提高2.24%,0.23% 和0.28%;添加MDOM 模块后,Recall,F1-score 和IoU 指标相比U-Net 网络分别上升2.41%,0.15%以及0.18%;添加混合注意力模块后,Recall,F1-score 和IoU 三个指标分别上升4.29%,1.36%和1.64%。
表5 Deepcrack537 数据集消融实验结果Tab.5 Deepcrack537 dataset ablation experiment results
表6 Crack500 数据集消融实验结果Tab.6 Crack500 dataset ablation experiment results
表7 CFD 数据集消融实验结果Tab.7 CFD dataset ablation experiment results
图9 为消融实验的可视化结果对比图(彩图见期刊电子版),在图9(c)的红框区域中,U-Net网络分割出的裂缝形状粗糙,并且出现将背景错分为裂缝以及细微裂缝漏分问题。而图9(d)红框区域内,当U-Net 添加MLGM 和MDOM 模块后,网络分割出的裂缝整体更加完整,没有发生细微裂缝漏分现象。 在图9(e)红框区域内,当U-Net 添加MAM 模块后,网络通过注意力机制抑制背景区域对分割结果干扰,未将背景区域错分为裂缝。在图9(f)红框中,LGMO-Net 相比于U-Net 网络在细节和背景干扰方面表现良好,极大地减少了漏分、误分问题。
图9 消融实验的可视化结果Fig.9 Visualization results of ablation experiments
消融实验结果充分表明,本文所提多分支线性引导模块MLGM、网格细节优化模块MDOM以及混合注意力模块MAM,对模型的整体分割精度提升较为显著,在不同数据集中的分割效果均十分优异,说明了本文方法在面对不同裂缝分割任务时均具有一定的适应性和鲁棒性,整体性能表现良好。
3.3.5 不同延伸率组合的对比实验
在实验过程中,采用本文算法LGMO-Net 进行实验。通过改变LMGO-Net 中MLGM 模块的延伸率α组合,验证不同延伸率组合对LGMONet 性能的影响,并在Deepcrack537,CFD 数据集上进行对比实验。
表8 给出了在Deepcrack537 数据集上的对比实验结果,当MLGM 的延伸率选择1,0.5 和0.25 组合时,LGMO-Net 网络的Precision,Recall,F1-score 和IoU 指标分别为84.61%,89.64%,87.05%和77.07%。而当MLGM 的延伸率为1,0.75,0.5 和0.25 的组合时,LGMONet 网络指标分别下降3.25%,0.71%,2.07%,3.19%。表9 给出了在CFD 数据集上对比实验结果,当MLGM 的延伸率选择1,0.5 和0.25 组合时,LGMO-Net 的Precision,Recall,F1-score 和IoU 指标分别为71.07%,73.46%,72.24% 和56.55%。而当MLGM 的延伸率为1,0.75,0.5和0.25 组合时,LGMO-Net 的Precision,F1-score 和IoU 指标分别下降5.29%,2.34% 和2.82%。
表8 Deepcrack537 数据集对比实验结果Tab.8 Comparative experimental results of Deepcrack537 dataset
表9 CFD 数据集对比实验结果Tab.9 Comparative experimental results of CFD dataset
从上述实验结果的定量分析中,可以发现当LGMO-Net 中MLGM 模块的延伸率选择1,0.75,0.5,0.25 组合时,模型的各项评价指标有一定幅度下降,模型的分割性能不佳,并且随着MLGM 模块分支数增多会导致其参数量上升。因此,本文MLGM 模块选择延伸率为1,0.5,0.25 组合。
表10 展示了不同模型的复杂度比较结果,表中Params 表示模型参数量,能够衡量模型空间复杂度;表中的FLOPs(Floating-point Operations)表示浮点运算次数,能够衡量模型时间复杂度。为了统一衡量各个模型复杂度,所有模型的输入都是大小为512×512×3 的张量。通过表10 的比较结果可见,本文方法的模型参数量相较U-Net 增加10.98 M,但相较PSPNet 减少25.08 M。与U-Net 相比,LGMO-Net 在增加少数参数量的情况下实现更优越的裂缝分割性能。而与PSPNet 相比,LGMO-Net 在模型参数量更小的情况下表现出更出色的分割性能。综合而言,LGMO-Net 在模型复杂度和模型精度之间实现了良好的平衡。
表10 参数量和浮点运算次数Tab.10 Number of parameters and number of floatingpoint operations
针对混凝土裂缝分割精度低以及容易出现复杂背景干扰、细微裂裂缝漏分等问题,本文提出一种LGMO-Net 模型用于混凝土裂缝分割。所提模型在U-Net 模型基础上,在网络的编码阶段运用多分支线性引导模块,来引导网络捕获裂缝线性结构,提高裂缝分割精度。同时利用网格细节优化模块,提取特征网格中的细节信息,避免细微裂缝特征信息丢失,进一步提高分割精度。并且改变编码阶段和解码阶段的跳跃连接方式,在跳跃连接上运用空间-通道混合注意力模块过滤编码器特征中的背景噪声,减少背景因素干扰。本文所提出的网络在Deepcrack537,Crack500 和CFD 三个公开裂缝数据集上的F1-score 指标为87.05%,74.19% 和72.24%,IoU指标为77.07%,58.96% 和56.55%,两个指标均获得最高分数。实验结果表明,所提网络具有较好的裂缝分割能力。