张 珹
(中铁第一勘察设计院集团有限公司,西安 710043)
高速铁路接触网是对电力机车提供动力的关键设备.接触网工作于露天环境,风吹日晒容易发生故障.为了保障行车安全,4C 检测装置定期采集接触网高清图像,通过人工浏览的方式对接触网部件进行检查,发现其安全隐患.接触网绝缘子固定件、双套管连接件、套管座、定位环连接件和定位器支座等支持装置的紧固件,容易发生松动、脱落和变形等故障,是检测人员关注的重点对象.人工检测工作量大,检测周期长,且受个人情绪和责任心等因素的影响.如何利用人工智能技术,实现对高铁4C 检测系统获取的接触网图像进行高效检测,是一项迫切需要攻克的技术难题.
近几年来,一些研究者对高铁接触网图像检测进行了一些尝试.文献[1]提出了基于Hough 变换、Canny 算子和特征匹配(SURF 和ORB)等特征提取技术对斜腕臂管帽和定位支座等部件进行故障检测的算法.这些算法通过人工设计检测特征,故障检测精度有限.AlexNet[2]网络出现之后,可以自动提取特征的卷积神经网络得到了快速地发展,一些分类性能优良的深度网络,如VGGNet[3]、Inception[4]等相继出现,并在图像分类工程中开始初步应用.随着Resnet[5]残差网络的提出,CNN 向更深的网络迈进,已经在深度学习领域显现出独特的优势.Girshick 提出了基于CNN的R-CNN[6]网络,其核心是对图像中每个区域通过CNN 提取特征,然后对区域进行SVM[7]分类和边框校准.Girshick 等人在R-CNN 和SPPNet[8]的基础上又提出了Fast R-CNN[9],解决了RCNN 对每一个区域都进行特征提取而产生的冗余计算问题.进而,Girshick 在2016 年提出了Faster R-CNN[10],通过使用RPN 网络,将区域推荐阶段和CNN 分类融合,实现了一个完全意义上的端到端的CNN 目标检测模型.文献[11]基于Faster R-CNN,运用VGG16 等特征提取网络对接触网悬挂目标、支柱号和定位器等部件实现检测,取得了较好的检测效果.
接触网绝缘子固定件、双套管连接件、套管座、定位环连接件和定位器支座等支持装置的紧固件,尺寸很小,利用常规深度网络技术进行故障识别时,由于特征表达不明显,导致在区域推荐网络中分类困难,最终检测精确度不高.对于这类问题,本文提出两阶段解决方案:首先进行紧固件的识别与定位,将紧固件图像分割为小图片,然后对这些尺寸小的紧固件图像,建立故障识别的深度网络模型.基于这种思路,本文提出一种改进的Faster R-CNN 深度网络算法,用于第一阶段对紧固件进行识别与定位.
本文提出的目标检测网络以Faster R-CNN 为基础,使用ResNet50 作为初始的特征提取网络,在ResNet50 的残差模块中引入基于SE 模型[12]的注意力机制,通过对网络模块特征图的每个通道进行赋权提取更有效的特征;同时对传统的RPN 网络进行改进,引入GA-RPN[13],在特征图进入区域推荐网络之后,对像素点进行分类,判断其是否可作为候选区域中心点;然后对区域中心点的边框信息进行回归操作.网络的整体结构如图1 所示.
图1: 目标检测网络的整体结构
为了在特征提取时更关注有效特征,在通道维度加入注意力模块,其结构如图2 所示.本文的注意力机制借鉴SE 模型.首先对进入注意力模块的特征图F 进行卷积操作,生成特征图F1, F1∈RH×W×C,注意力模块在通道维度关注输入特征图的有用部分,通过将特征图F1全局最大池化生成一维注意力图Fmax,为了得到每个通道最强的特征表示,全局最大池化后再经过共享的多层感知机(MLP)得到两个注意力的特征图,特征图元素按比例相加,经过Sigmoid 函数激活生成权重特征图M, M ∈R1×1×C,即为通道注意力特征图.其公式表示为
其中σ1为Sigmoid 函数.将带有注意力的权重M 加入网络,M 与特征图F1进行元素相乘得到注意力模块输出特征图
图2: 注意力模块
鉴于残差网络在图像分类领域表现出优异的性能,本文在部件检测网络中使用残差网络.它由若干残差模块组成,每一个残差模块的结构如图3 所示,x 是该残差块的输入,F(x)表示残差块在第二层激活函数之前的输出,即F(x) = W2σ2(W1x),其中W1和W2表示第一层和第二层的权重,σ2表示ReLU 激活函数,最后残差块的输出为σ2(F(x)+x).
图3: 残差块结构
本文将注意力机制与残差网络结合,形成残差注意力网络.在每个残差块中,对残差块第二层的输出F(x)之后,接入一个注意力模块,形成残差注意力模块,最终输出为
把残差注意力模块加入ResNet50 网络中,构建新的残差网络注意力网络Attention-ResNet50 作为特征提取网络.残差注意力模块结构如图4.
图4: 残差注意力模块
借鉴Wang 等人提出的GA-RPN 方法[12],改进传统的RPN 网络,新网络包括两个分支:区域中心点预测分支和目标边界框回归分支,区域中心点预测分支主要对像素点是否为有用区域中心进行二分类,边界框回归分支对像素点回归生成边界框的尺寸信息.
中心点预测分支的作用是针对像素点是否为有用中心点进行分类,在训练阶段,通过判断像素点是否处于相应类别人工标注的目标框的中心区域中,对特征点进行分类,划定阈值,筛选出相应的中心点(xi,yi).
首先,特征图FL输入区域推荐网络,进入区域中心预测点分支,特征图通过1×1 卷积压缩到单通道,然后用Sigmoid 函数对每个像素点计算得分,预测该特征图中每个像素点作为物体中心点的可能性.
中心区域是一个与标注框形状相同的矩形,其大小比例可以根据实际情况确定.本文实验所用中心区域大小为人工标注框的1/4,图5 为中心区域划定示意图.若某像素点落入人工标注的目标框的中心区域,分类为正样本;若落入目标框外,分类为负样本;落入标注框内的无效区域,舍弃,不参与计算.
边框回归分支不同于RPN 直接给出每个像素点固定的9 个推荐框,而是直接对特征图所有像素点进行边框回归,预测每个位置的最优形状(W,H),即与该像素点最近的人工标注框的IOU 最大的形状.考虑到W 和H 的取值范围较大,所以先进行如下转化
其中S 是步长,µ是经验因子(本文中取σ =8).首先通过1×1 卷积层产生通道为2 的特征图,得到预测的dW 和dH,然后经过逐元素转换层实现W 和H 的转化.由于可以预测任何形状的边框,所以对于极端形状的目标具有更好的效果.
这部分使用绝对损失函数训练回归网络,将得到的预测框位置信息,结合有用区域中心点,筛选与人工标注目标框的IOU 大于0.7 的检测框作为候选区域,输出有用区域中心点的检测框.
图5: 中心区域划定示意图
与Faster R-CNN 一样,在RPN 中得到区域推荐信息之后,将感兴趣区域的坐标映射到特征图,得到了特征图上的边框坐标后,使用Pooling 得到相同尺寸的特征图输出,ROI 池化采用最大化方法将感兴趣区域内的特征转换为具有固定尺寸H ×W 的小特征图,然后通过全连接层映射到特征向量.之后对特征向量进行分类和回归操作,这两个操作的输出是最终目的,输出候选区域所属的类和候选区域在图像中的精确位置.具体过程如图6 所示.
图6: 候选区域所属类和精确位置输出
实验硬件环境:GPU 卡为NVIDIA Tesla P100,16 GB 显存,3584 个流处理器;主机CPU 为Xeon E5-2664 v4 Gold,3.2 GHz,16 核.深度网络框架使用Pytorch1.1.0.
选取4C 检测系统采集的1935 幅高分辨率接触网图像,图像分辨率为6600∗4400.数据集中包含绝缘子固定件、双套管连接件、套管座、定位环连接件和定位器支座等支持装置的5 类紧固件,对每张图像进行了标注.类别使用one-hot 编码.数据集采用VOC 格式.训练集、测试集和验证集的比例为0.70:0.15:0.15.
对本文构造的数据集,分别采用Faster R-CNN 和本文改进的Faster R-CNN 进行紧固件识别与定位.特征提取网络前者采用ResNet50,后者使用本文提出的Attention-ResNet50.区域推荐网络均为GA-RPN.试验中,经过超参数优化,学习率设置为0.02,区域推荐网络的IOU 的阈值为0.7,batch size 取2,优化方法使用SGD,动量参数设置为0.9,经过20 次迭代,两种方法的精度对比见表1.本文提出的方法对紧固件识别效果如图7 所示.
图7: 本文方法对紧固件识别效果图
从表1 中本文方法与Faster R-CNN 识别精度的对比可以看出,在几乎没有降低紧固件召回率的前提下,本文改进的方法对绝缘子固定件、双套管连接件、套管座定位环连接件和定位器支座的识别精度分别提高了3.2%、2.0%、2.2%、2.4%和2.8%.从表1 还可以看出,本文提出的部件识别方法,对各种接触网紧固件的识别精度均达到了93.4%以上,这样的识别精度是在1935 幅接触网图像数据集的70%样本上训练的深度网络模型得到的,如果采集更多的训练样本,接触网紧固件的识别精度还有一定的提升空间.
表1: 本文方法与Faster R-CNN 的精度对比
本文针对高铁接触网紧固件的识别定位问题,在Faster R-CNN 目标检测网络中引入注意力机制,提取了更有效的特征,同时引入GA-RPN,改进了原来的区域推荐网络RPN,这两种改进策略有效地提升了接触网紧固件识别效果.下一步将从4C 系统采集更多的紧固件图像进行训练,进一步提升紧固件的识别精度.