曾树华 黄银秀 黄昌兵
摘 要:为解决钢轨表面伤损检测问题,提出一种少样本条件下的钢轨表面伤损检测方法。首先,设计样本随机组合策略,扩充钢轨表面伤损数据集规模;其次,引入迁移学习方法,在公开大规模数据集上进行迁移学习训练,以获得迁移学习能力,降低对钢轨表面伤损样本的需求数量;最后,加入通道自注意力机制,提高模型的训练速度。实验证明,该方法可有效提高钢轨表面伤损的识别精度。
关键词:少样本;钢轨表面伤损;迁移学习;注意力机制
中图分类号:TP391.4;TP278 文献标识码:A 文章编号:2096-4706(2023)19-0134-04
A Method for Detecting Defects in Rail Damage Images with Few Samples
ZENG Shuhua1,2, HUANG Yinxiu3, HUANG Changbing1,2
(1.Hunan High Speed Railway Operation Safety Assurance Engineering Technology Research Center, Zhuzhou 412006, China;
2.Hunan Vocational College of Railway Technology, Zhuzhou 412006, China;
3.Hunan Chemical Vocational Technology College, Zhuzhou 412006, China)
Abstract: To solve the problem of rail surface damage detection, a rail surface damage detection method with few samples is proposed. Firstly, design a sample random combination strategy to expand the scale of the rail surface damage dataset; secondly, introduce transfer learning methods and conduct transfer learning training on publicly available large-scale datasets to obtain transfer learning capabilities and reduce the demand amount for rail surface damage samples; finally, a channel self attention mechanism is added to improve the training speed of the model. Experiments have shown that this method can effectively improve the recognition accuracy of rail surface damage.
Keywords: few sample; rail surface damage; transfer learning; attention mechanism
0 引 言
传统钢轨图像缺陷检测方法关键步骤在图像分割,主要方法有阈值分割、边缘检测和区域生长等。刘琴琴等[1]针对采集的钢轨表面缺陷图片灰度不均等问题,利用构建的灰度均衡模型对钢轨表面图像中像素点的灰度值进行修正,再使用谱残差模型与相位譜增强缺陷区域,最后引入Gabor滤波器滤波,分割提取缺陷区域,此方法能较多保留缺陷区域的边缘细节,但实现方法复杂。李晓梅等[2]为了降低实现方法的复杂度,提出将灰度对比图和形态学重构得到的背景图相减,由此得到的差分图,使用最大熵法进行分割,此法在保持一定精度的情况下降低了算法的复杂度。由于背景光照复杂等因素,固定的阈值很难取得理想的图像分割效果,彭方进等[3]解决自适应阈值方法,采用迭代阈值分割法提取钢轨表面的缺陷,利用缺陷区和背景区的平均值更新迭代的方法,增强了阈值分割的鲁棒性。Shi等[4]针对重型钢轨表面缺陷,通过在不同方向上添加六个模板来弥补Sobel算法在识别中的不足,提升了缺陷的识别率,边缘检测算法可以识别钢轨表面缺陷的轮廓,但对缺陷内部信息无法描述,故也有些学者尝试利用区域生长法进行分割。
随着深度学习方法的发展,不少学者使用深度学习的方法在钢轨表面伤损图像分割领域开展了一系列研究工作。刘孟轲等[5]提出以2层卷积神经网络来识别钢轨表面的圆形、条形缺陷,实现了75%的检出率;Faghih-Roohi等[6]设计了3层卷积层+最大池化层的卷积神经网络结构,其对缺陷钢轨的识别率准确率可达到92.00%;Shang等[7](2018)采用基于Inception-v3结构的卷积神经网络检测缺陷钢轨表面图像,也得到92.08%的识别率,尽管这些方法精度较高,但在实践中无法满足缺陷定位和实时处理的要求。为了缩短检测时间,Feng等[8]引入Mobile Net网络,构建了一个基于Mobile Net的骨干网和几个新的检测层的检测网络,使用两种不同的Mobile Net架构来评估缺陷检测的性能;苏烨等[9]进一步引入Faster R-CNN网络进行钢轨表面缺陷的检测,实现了较高速度的检测。Min等[10]在深度生成模型Soft-Intro-VAE(软自省变分自动编码器)的基础上,提出了一种轻量级的语义分割架构DR-VAE,在甘肃定西段100 km实验铁路表面缺陷的语义分割,将分割的准确度提升到96.40%。以上研究者在各自的测试数据集中都能取得不错的效果,但在实际应用中其泛化能力不强,究其原因,是有缺陷的钢轨图像严重欠缺,通过数据增强后虽能扩大数据库的规模,但实际上没有解决过拟合问题和泛化难题。
元学习给少样本情况提供了新的思路,元学习利用已有的大规模数据集进行网络初始训练,将得到的经验知识快速转移到少样本的新任务解决,从而加快学习新任务的学习速度,降低其对数据规模的依赖性。元学习通常有两种思路,一种是通过先期大规模数据训练,得到一个只需微调的模型,Finn等[11]提出了一种元学习算法,它与任何使用梯度下降的训练模型兼容,在小样本学习中取得了较好的效果。一种是通过先期大规模数据训练,得到一个只需微调的初始化参数,Nichol等[12]从一个任务分布中抽取许多任务来训练元学习模型,得到一个仅需要微调的初始化参数,加快了新任务的学习速率。本文引入元学习方法解决少样本下钢轨伤损图像的语义分割问题,在公开大规模数据先期进行网络训练,将得到的参数迁移入新的学习中,以期加快训练速度,降低对样本的需要量。
1 方法
1.1 知识迁移学习
迁移就是为了加快任务A训练的速度,先期在任务B中进行训练,以训练后的模型作为初始点,重新在任务A开始新的学习。通过从已学习的相关任务中转移知识来改进学习的新任务,不仅可以降低训练的任务量,而且可以解决少样本数据难题。由于获取钢轨表面伤损图片难度很大,且大数据标注成本高,故在本文中迁移学习。其学习过程如图1所示,利用公开的已标注大数据库对神经网络进行预先训练,如图1上半部分所示,保存神经网络的卷积层,并将训练后得到的参数载入卷积层,即知识迁移,全连接层则由新任务的全连接层所取代,进而构成新的训练模型,如图1下半部分所示。
1.2 通道注意力特征提取网络
1.2.1 通道注意力机制
如前所述,本文采用知识迁移学习,需要文设计注意力网络作为特征提取器,提取样本特征的向量,注意力机制(Attention Module)是一种通用的思想和技术,通过赋予不同的权重,把注意力集中到重要信息上,进而提高特征提取的准确性。在机器视觉领域常用的注意力机制主要有通道注意力机制和空间注意力机制两种。本文采取通道注意力模型,模型图如图2所示。
通道注意力机制(Channel attention module)有别于空间注意力机制关注空间中的重要特征,而是主要关注通道中的重要特征。输入特征由最大池化和平均池化得到最大池化特征和平均池化特征。将两特征图送入多层感知器MLP,以生成通道注意力Mc。其中通道注意力Mc按式(1)计算:
(1)
其中δ为sigmoid函数,W0、W1分别为多层感知器权重。
1.2.2 残差神经网络
传统的卷积神经网络都是通过将一系列卷积层与池化层进行堆叠得到的,一般而言,网络深度越深,越能提取深层次特征信息。但事实上,过深的网络会带来网络“退化”问题:当网络堆叠到一定深度时,反而会出现深层网络比浅层网络效果差的情况。针对网络深度过深引起的退化问题,残差网络被提出,残差网络的基本思想是让网络的某些层的输入不再仅依次连接上一层,而是人为添加shortcut隔层连接,上几层的输出叠加后F(X) + X作为下层的输入,这种网络模型也被称为残差模块,残差模块如图3所示。常用的残差网络有两种,普通残差模型和瓶颈残差模型。普通残差模型适合于层次较少的神经网络,其残差模块里有2个相同输出通道数的3×3卷积层,每个卷积层后接BN层和ReLU激活函数,然后将输入直接加在最后的ReLU激活函数前。网络层数较多时常用瓶颈残差模块,这种结构由于其通道数较多,引入了1×1卷积层来调整输入的通道数,普通残差模块和瓶颈残差模块对比如图4所示。
1.2.3 通道注意力机制与残差网络融合
加入通道注意力网络主要是为了生产通道注意力,在本文中使用ResNet34作为特征提取器的基本结构,并在其中加入通道自注意力。ResNet34网络是一种比较简单的ResNet网络,如图5所示,其总共有34层,由4大部分组成,包括输入层、残差模块、全局平均池化层、全连接层4部分,其中输入层64个大小为7×7的卷积核,实现低级特征的提取;核心是中间的残差模块,共计18个,每个残差模块由两个大小为3×3的卷积核和一个跨层连接组成;全局平均池化层是在最后一个残差模块之后,其作用是将最后一个残差的输出进行平均池化,得到一个包含整个图像信息的全局特征;再由全连接层将全局特征映射到类别分数上。将注意力模块应用在ResNet网络中每个残差块之后,还在Conv1卷积层后、池化层前加入注意力模块。加入通道注意力机制的残差块结构如图6所示。
2 实验数据集与评价指标
2.1 实验数据集
为了验证本算法的性能指标,本文利用ImageNet数据集进行迁移学习训练,ImageNet数据集包含1 000种类别的数据,通过不同类别数据的训练,提高迁移学习能力。然后采用北京交通大学Li老师公开的钢轨数据集RSDDs作为实验数据集[13]。钢轨数据集中包括两大类数据,第一类是从快车道捕获的Type-I数据集,第二类是从普通/重型运输轨道捕获的Type-II数据集,两个数据集的图像大小规格不一致,为了统一大小规格,将其裁剪为统一规格:200×300像素,共计获得300张图片,其中有擦伤、掉块、疤痕等伤损图片150张,然后对数据集进行平移、缩放等数据增强操作,扩充数据集2 000张。选取其中的1 800张用作训练集,200张组成测试集进行网络训练。钢轨表面缺陷图像如图7所示。
2.2 实验过程与结果分析
2.2.1 实验一:批尺寸(Batch size)影响
Batch size表示训练模型时一次所选取的样本数量,是机器学习中一个重要参数,其大小影响训练速度和识别准确性,如果批尺寸过小,训练时间长且花费时间多梯度震荡严重,难以收敛;如果批尺寸过大,容易陷入局部极小值。本文分别设置批尺寸分别是8(绿)、16(红)、32(蓝)是模型的性能,结果如图8所示。由图8可见,综合性能來看,在三个尺寸中,16为最合适Batch size值。
2.2.2 实验二:不同模型影响
分别利用ResNet34原型和加入注意力机制并使用迁移学习的ResNet34,其他参数设置相同,包括Batch size设置为16,初始学习率设置为0.000 1,迭代次数设置为30。对比两种不同方式下的准确率,如表1所示。
由表1可见,加入注意力机制并使用迁移学习后,在其他实验参数相同情况下,准确率提升超2%。
3 结 论
为解决钢轨表面伤损样本少造成的图像识别难题,本文提出了一种少样本条件下的钢轨伤损图像缺陷检测方法,该方法引入迁移学习方法,在ImageNet数据集进行迁移学习训练,以获得迁移学习能力,降低对钢轨表面伤损样本的需求数量;以ResNet34网络为基本网络,并在其中加入通道自注意力,提高有用特征信息比重,降低无用特征信息比重,可进一步降低对样本数量的依赖度,提高模型训练速度。实验证明相比传统方法,本文方法在钢轨表面伤损的识别中,识别精度有所提高。
参考文献:
[1] 刘琴琴,周慧云,王兴洲.基于灰度均衡模型联合Gabor滤波器的钢轨表面缺陷检测方法 [J].表面技术,2018,47(11):290-294.
[2] 李晓梅,顾桂梅,常海涛.基于灰度对比图与最大熵的钢轨图像分割 [J].铁道标准设计,2018,62(4):52-56.
[3] 彭方进.一种高鲁棒性的钢轨表面缺陷检测算法 [J].中国机械工程,2019,30(3):266-270.
[4] SHI T,KONG J Y,WANG X D,et al. Improved Sobel algorithm for defect detection of rail surfaces with enhanced efficiency and accuracy [J].Journal of Central South University,2016,23(11):2867-2875.
[5] 刘孟轲,吴洋,王逊.基于卷积神经网络的轨道表面缺陷检测技术实现 [J].现代计算机:专业版,2017(29):65-69+77.
[6] FAGHIH-ROOHI S,HAJIZADEH S,N??EZ A,et al. Deep Convolutional Neural Networks for Detection of Rail Surface Defects [C]//2016 International Joint Conference on Neural Networks.Vancouver:IEEE,2016:2584-2589.
[7] SHANG L D,YANG Q S,WANG J N,et al. Detection of Rail Surface Defects Based on CNN Image Recognition and Classification [C]//2018 20th International Conference on Advanced Communication Technology.Chuncheon:IEEE,2018:45-51.
[8] FENG J H,YUAN H,HU Y Q,et al. Research on deep learning method for rail surface defect detection [J].IET Electrical Systems in Transportation,2020,10(4):436-442.
[9] 苏烨,李筠,杨海马,等.基于Faster R-CNN的钢轨表面缺陷识别研究 [J].电子科技,2020,33(9):63-68.
[10] MIN Y Z,LI Y X. Self-Supervised Railway Surface Defect Detection with Defect Removal Variational Autoencoders [J].Energies,2022,15(10):1-15.
[11] FINN C,ABBEEL P,LEVINE S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [J/OL].arXiv:1703.03400 [cs.LG].[2023-03-03].https://arxiv.org/abs/1703.03400v1.
[12] NICHOL A,SCHULMAN J. Reptile:a Scalable Metal earning Algorithm [J/OL].arXiv:1803.02999[cs.LG].[2023-03-03].https://arxiv.org/abs/1803.02999v1.
[13] GAN J R,LI Q Y,WANG J Z,et al. A Hierarchical Extractor-Based Visual Rail Surface Inspection System [J].IEEE Sensors Journal,2017,17(23):7935?7944.
作者简介:曾树华(1980—),男,汉族,湖南衡阳人,教授,硕士,主要研究方向:机器视觉、智能控制;黄银秀(1980—),女,汉族,湖南株洲人,副教授,硕士,主要研究方向:智能控制、网络控制。黄昌兵(1987—),男,汉族,湖南衡阳人,讲师,硕士,主要研究方向:无损检测、轨道探伤。
收稿日期:2023-03-30
基金项目:湖南省自然科学基金(2020JJ7054)