基于卷积神经网络的铁路桥梁高强螺栓缺失图像识别方法

2018-08-09 06:50赵欣欣钱胜胜刘晓光
中国铁道科学 2018年4期
关键词:铁路桥梁图像识别高强

赵欣欣,钱胜胜,刘晓光

(1.中国铁道科学研究院 铁道建筑研究所,北京 100081;2.中国铁道科学研究院 高速铁路轨道技术国家重点实验室,北京 100081;3.中国科学院 自动化研究所,北京 100190)

高强螺栓连接是桥梁等大型钢结构设施的主要连接方式之一。我国铁路桥梁高强螺栓用钢从40B,发展至20MnTiB和35VB,推广使用至今,40多年工程实践表明,两种材质的高强螺栓均能满足使用要求[1]。近年来,受多种因素影响,高强螺栓延迟断裂偶有发生[2-3]。通过分析11座存在高栓延迟断裂病害的铁路桥梁,发现累计螺栓断裂数量超过50套的有3座,大于10套少于50套的有3座,少于10套的有5座。总体来说断裂比例极低,虽然暂时不足以引起节点连接失效,但如不及时发现和补充新螺栓,诱发连接失效的风险会逐步累积。以某大桥为例,300余万套高强螺栓分布在大桥各个角落,发生延迟断裂脱落的仅数百套,通过桥梁维护人员定期寻查、采用望远镜目视发现高强螺栓缺失,不仅耗费紧张的养护人力,还浪费有限的检查时间,亟需研发自动化的高强螺栓缺失识别方法。目前通过机器视觉的图像识别方法在很多领域得到应用,是一个不错的选择。

当前,国内外的图像检测和分类识别方法可分为传统和深度学习两类。传统方法主要使用手工构建、选择针对目标的特征,然后进行图像检测识别分析。文献[4-5]对训练样本中的每张图像提取特征向量,然后再进行场景图像分类识别。文献[6]利用数学形态学4个基本操作算子腐蚀、膨胀、开运算和闭运算以及Top-hat等操作来完成线状桥梁目标区域的检测和识别。文献[7]采用改进Canny算子和小波变换的结合方法进行桥梁图像的检测识别分析。传统算法的图像特征提取与分类识别分2步进行,需要手工构建、选择目标特征,不但人的工作量大,而且在面临复杂陌生问题时,往往无法设计出足够抽象、深刻的特征,大多是针对诸如梯度、颜色、纹理等某一方面的浅层特征,使得传统算法具有一定局限性。近年来,越来越多基于卷积神经网络以及其他深度学习模型的方法被用于特定图像的分类识别[8]。Liu等[9]将深度卷积神经网络(CNN)应用在图像分割中,取得了较好的效果。Cha等[10]采用深度卷积网络对混凝土裂缝识别进行研究,结合滑动窗口方法可以检测任意大小的图像,并与Canny、Sobel 两种边缘识别算子进行比较,验证了深度学习在混凝土裂缝识别上的优势。黄宏伟等[11]提出基于深度学习的盾构隧道渗漏水病害图像识别方法,与传统图像识别算法相比,在错检率和运行效率上都有很大提高。经典深度学习网络算法虽然极大提高了图像分类识别的准确率和效率,但是直接用于解决桥梁螺栓缺失识别仍有不足。一是由于传统卷积神经网络采用权重共享降低参数总量,忽略了桥梁螺栓图像数据集上不同区域具有不同的影响力;二是由于桥梁图像数据集的不平衡特性,使用经典网路很难在数据集上收敛。通过机器视觉实现桥梁场景中高强螺栓缺失的高效精准识别,仍然存在图片区域差异性较大、缺少完备的高强螺栓缺失专业数据集等诸多问题。

本文针对铁路桥梁高强螺栓缺失场景特征,基于附加混合注意力子网络卷积神经网络,进行铁路桥梁高强螺栓缺失图像识别方法研究。

1 铁路桥梁高强螺栓缺失图像识别方法

铁路桥梁高强螺栓缺失图像识别主要包括专业数据集构建和基于附加混合注意力子网络卷积神经网络图像识别2部分,如图1所示。

图1 铁路桥梁高强螺栓缺失图像识别框架

1.1 高强螺栓缺失数据集构建

1.1.1 基础数据集

选取某座铁路桥梁作为目标,采用相机、手机等常规移动设备拍摄桥梁各部位。为便于确保本文提出的高强螺栓缺失图像识别方法的有效性,选取螺栓和支座2类场景。为保证数据的多样性,在不同角度、焦距和光照等条件下,对某一具体场景目标区域拍摄多幅图像。人工筛选有效图像并对每一幅图像标注其属于支座或螺栓缺失场景,部分场景图像如图2所示。为使本文方法具有普遍性,初步构建的桥梁螺栓缺失场景基础数据集中,螺栓缺失和支座场景的数据比例严重失衡,其中螺栓缺失场景信息4 205条,支座场景信息393条。

图2 构建的数据集图像样本示例

1.1.2 数据增强和均衡

为进一步增加训练数据的多样性,采用数据增强和均衡采样的方法对不平衡的基础数据集进行扩充,以便获得适合识别网络的平衡数据集。

首先将所有图像的短边缩放至分辨率为224像素,长边同比例缩放。从缩放之后的图片中,随机裁剪224像素×244像素大小的区域。然后对裁剪之后的图像,进行随机水平翻转、颜色变化、仿射变换操作,以增加训练集图像片的多样性。

基础数据集中的螺栓缺失场景与支座场景数据数量之比超过10∶1,这种严重不平衡会导致,即使识别主网络把全部图片识别为螺栓缺失,仍有超过90%的测试准确率,但显然其不具备任何泛化性。为解决这一问题,在算法实现时使用了数据均衡提升识别网络的泛化性能。首先对所有图像按类别进行排序,随后在每批次进行迭代前,按照顺序同时重叠选择2个类别的图像,以保证2个类别图像的数据集数目相等。这样就保证了训练时的每迭代批次内数据分布是均衡的,此外,由于每张图像在输入网络训练前都进行了随机增强操作,也保证了任意2个批次的图像是不完全相同的,因此,总体可以认为训练时识别网络处理的数据类别近似均衡。

1.2 高强螺栓缺失网络识别

典型深度学习的图像卷积神经网络识别首先通过卷积神经网络提取输入图片的特征,随后根据提取图像的特征与输入图象对应的标签利用Softmax损失函数计算训练误差,经学习最终得到较好的网络进行图像识别。

如果有m个训练图像,第i个图像经过卷积神经网络提取的特征向量为fi,其对应的真实标签为yi,则识别误差δ为

(1)

式中:a和b为Softmax层的权重矩阵和偏置向量;j为类别索引;ayi和aj分别为Softmax层权重矩阵中对应yi和类别索引ji的向量;byi和bj为Softmax层偏置向量中对应yi和类别索引ji的元素。

由式(1)知,δ主要取决于fi,a和b,而fi由特征提取卷积神经网络决定,a和b由训练数据的分布决定。若要获取高效的铁路桥梁高强螺栓缺失图像识别网络,需要1个轻量级的卷积神经网络和较强表现能力的fi,以及合理的训练数据分布。

本文的卷积神经网络没有采用在ImageNet[7]数据集上被证明有效的公开识别CNN模型,主要原因是,一方面对于AlexNet[12]和ResNet[13]等高精度网络来说,CNN模型参数量较大,保存的模型文件会占用大量存储空间且运行速度较慢;另一方面,近年来一些轻量级CNN模型被广泛提出,虽然这么模型可以大幅度降低CNN的参数量,但由于其都采用了分离卷积操作,导致其在CPU上的模型推断速度提升并没有在GPU上明显。本文设计的图像识别卷积神经网络结构与文献[11]中常用的不带分支的扁平化深层卷积神经网络类似,包含卷积核分别为3×3×64,3×3×128,3×3×256,3×3×512和3×3×512共5个卷积层和5个最大值池化层以及维数分别为512和2的2个全连接层。输入图像初始数据,经过卷积层对输入图像进行非线性特征的提取,经过池化层在保留主要特征同时,进行空间维度降维,全连接层对卷积层和池化层的输出进行不同特性的线性加权,最后输出2个特征值分别代表输入图像的识别结果,如图3所示。

图3 图像识别卷积神经网络架构

为提高网络的识别精度,在上述卷积神经网络(简称主网络)上附加混合注意力子网络,包括通道注意力子网络和空间注意力子网络。通道注意力子网络能够自适应地对不同图片的不同通道的语义特征赋予不同权重;空间注意力子网络解决卷积操作的全局共享造成的区域不敏感问题,高效地学习出区域影响权重因子。

1)通道注意力子网络

深层卷积神经网络的高层特征图的每个通道都代表着输入图片的不同语义信息,对于桥梁螺栓缺失场景分类识别来说,卷积神经网络最后一个最大值池化层的输出的不同通道语义信息,经过全连接层的融合可以获得最终用于场景识别的深度特征。识别卷积神经网络一旦训练完成所有参数不变,意味着对于任何输入图像的不同语义信息最终识别所占的权重不变,这显然不符合人类感知。例如,对于某些图像颜色信息占识别主导地位,而对于另一些图像可能纹理信息占主导地位。为解决这一问题,受到ImageNet2017识别冠军网络SENet的启发,提出一种通道注意力子网络。该子网络由卷积计算、空间维度降维与注意力因子映射3种运算构成,并列附加在原卷积神经网络的每层卷积层上,如图4所示。该子网络可以自适应地对不同输入图像的不同通道语义特征赋予不同权重,进而提高识别卷积神经网络的自适应性。

假设w,h和c分别表示输入图像的宽、高和通道数,图像在原卷积神经网络的第i层输入的特征值为Xi(wihici),经过原卷积神经网络第i层卷积计算得到的输出为Yi(wihici),经过通道注意力子网络的卷积计算、全局平均池化和注意力因子映射得到注意力因子矩阵Fi。

经原卷积神经网络第i层卷积计算和通道注意力子网络运算后得到的输出为

(2)

2)空间注意力子网络

图5为1张机器视觉的桥梁螺栓群场景图像,对于人类而言,图5仅有部分区域所对应的视觉内容对最终的识别结果起主导作用。若将图像均匀分割为16个网格,则区域2,3,6,9,10和13的特征在最终的场景识别计算时应具有较大权重。然而,由于卷积操作所固有的全局共享特性,对整幅图像的任意区域的操作完全相同。如果可以自适应的根据输入图像的不同区域赋予不同权重,将会进一步提高铁路桥梁螺栓缺失场景识别准确率。

图5 图像不同空间区域对场景识别影响

为解决上述问题,提出1种空间注意力子网络。该子网络也是由卷积计算、空间维度降维和注意力因子映射3种运算构成,附加在通道注意力子网络的卷积神经网络上构成附加通道和空间混合注意力子网络的图像识别卷积神经网络,其架构如图6所示。该子网络对原始图像的不同区域施加不同的影响因子,进而可以自适应地根据输入图像的视觉内容对不同区域赋予不同权重,进一步提高场景识别准确率。

图6 附加通道和空间混合注意力子网络的图像识别卷积神经网络架构

原始图像的初始特征值X(whc)经过空间注意力子网络的4层卷积计算、4层池化和注意力因子映射得到空间注意力因子矩阵Hi。其与经附加了通道注意力子网络的卷积神经网络最后一层卷积计算的输出融合得到的输出为

(3)

根据最新卷积神经网络可视化的研究结果[14]可知,主干网络的输出特征图的每个元素都对应原始图像的1块区域(即感受域),因此对于网络高层特征图的每个位置施加不同的权重等价于对原始图像的不同区域施加不同的影响因子。分支网络的每层操作类型应于原神经网络一致,可以保证语义对应的一致性。

为提升图像识别网络的训练收敛速度和准确性,采用迁移学习的方式训练图像识别卷积神经网络。首先将卷积神经网络的最后一层全连接层的维数设置为1 000个,在ImageNet[15]数据集上进行训练。将训练完成后的参数作为附加通道和空间混合注意力子网络的识别网络所有层的初始化参数,再采用构建的桥梁螺栓缺失场景数据集继续进行2次识别训练,最终得到铁路桥梁高强螺栓缺失图像识别网络参数。该识别网络即可进行螺栓缺失图像识别。

2 识别结果分析

为验证算法有效性,铁路桥梁高强螺栓缺失数据集的所有图像按照70%,10%和20%的比例划分训练集、验证集和测试集。训练时采用Adam自适应优化算法,该优化算法存储了先前平方梯度的指数衰减平均值,而且保持了先前梯度的指数衰减平均值,能计算每个参数的自适应学习率,当损失函数值在验证集上达到最小值时认为完成训练。所有试验结果均以测试集准确率作为评价指标,与目前常用的VGG深层卷积神经网络图像识别方法的识别准确率进行对比,试验结果见表1。

表1 不同识别网络的试验结果比较

2.1 图像识别主网络

对比表1中方法1和方法2的结果可知,使用本文的主网络,虽然训练集的准确率下降了1.7%,但是测试集的准确率上升了3.5%,表明本文的识别主网络相对于VGG16具有减轻过拟合的效果。此外,本文的主网络仅有60 M左右,而VGG16有250 M左右,说明本文主网络轻量且高效。

识别网络先在ImageNet上进行预训练,获取训练参数再使用桥梁螺栓缺失专业数据集进行微调,对比表1中方法2和方法3的结果可知,迁移学习后,识别准确率由92.1%提升为93.5%。

为评估本文提出的训练数据增强中的类别平衡策略对识别主网络泛化性能的影响,比较了数据增强和均衡对于不同训练图像识别网络的效果,从表1中的方法3和方法4的测试集结果对比来看,识别准确率增加了0.6%。

2.2 混合注意力模型分析

对比表1中方法4和方法5的识别结果,可知附加通道注意力子网络后,准确率有了进一步提升。当附加通道和空间混合注意力子网络之后,其识别准确率(对应表1中方法6)表现最优,达到94.9%。

图7给出了是否附加混合注意力子网络时桥梁螺栓缺失场景图像识别结果对比,颜色的深浅代表空间注意力子网络认为该区域对识别结果影响的重要程度。由图7可知,几乎每个螺栓都被较明显地识别出,也说明本文所提出混合注意力子网络的有效性。

图7 空间注意力子网络的作用结果

3 结 语

通过1种基于混合注意力子网络的图像识别网络和基于机器视觉的专业数据集,进行铁路桥梁螺栓缺失图像识别。首先,使用图像识别主网络、通道注意力模型和空间注意力模型3种方式联合建模,进行端到端的图像病害场景识别。采用迁移学习的方式训练图像分类识别主网络,提升识别主网络训练的收敛速度和准确性。采用通道和空间混合注意力模型,可以自适应地对不同图片的不同通道的语义特征赋予不同权重,进而提高螺栓缺失图像识别准确率。然后,构建了1个铁路桥梁螺栓缺失场景基础数据集,通过数据增强和均衡解决数据不平衡、多样性不够等问题。最后,进行了识别实验,与常见识别方法相比,准确率提高了4.9%。未来重点研究一方面是将提出的方法扩展到涂层裂化、异常变形等其它桥梁病害识别场景中;另一方面是进一步提升网络的训练速度,以更快更好地识别其他桥梁常见病害。

猜你喜欢
铁路桥梁图像识别高强
铁矿渣高强海绵砖配合比设计
分析铁路桥梁施工质量控制的要点
轻质高强堇青石多孔陶瓷的制备与表征
高速铁路桥梁地段综合接地系统工程设计的探讨
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
看谁法力更高强
铁路桥梁支座耐磨材料的性能研究与优选应用