金炜东,张志军,唐 鹏
(1.西南交通大学 电气工程学院,四川 成都 611756;2.南宁学院 中国-东盟综合交通国际联合实验室,广西 南宁 530200)
电气化铁路设备安全状态监测中,接触网状态监测及其故障检测备受关注。高速铁路接触网系统中的吊弦是承力索和接触线间的连接部件,因长时间受力拉伸、震动、磨损与环境腐蚀较易导致吊弦故障。目前对吊弦状态的辨识主要依赖人工检视,因此效率低、周期长。对吊弦状态进行快速、准确地自动辨识成为亟待解决的问题。随着智能视频分析技术的长足发展,基于视频图像分析的接触网状态检测已成发展趋势。高速列车通过安装车载接触网运行状态检测装置(3C)对接触网进行拍摄,采集接触网图像。吊弦图像由接触网图像通过目标检测算法定位截取生成。吊弦图像有如下特点:
(1)吊弦目标占比极小,背景占比大。coco数据集中定义小目标尺寸为32×32(1024个像素点),而吊弦目标一般不超过500个像素点。由于吊弦故障形态多样,故定位框尺寸又不可设定过小。
(2)背景复杂且易对吊弦识别造成干扰,如吊弦被支架、受电弓等设备遮挡。
(3)故障状态与正常状态形态相似。
(4)吊弦故障形态多样。
目前的Faster R-CNN、YOLO等目标检测算法以及各种分类网络在设计之初并未针对接触网这种高背景比例、特殊形状的待检测对象进行优化处理,因此现有的目标检测方法与分类网络对于吊弦的识别精度较低。
目前基于神经网络吊弦状态识别,一般采用现有的目标检测算法或分类网络。文献[1]采用Faster R-CNN级联的方式识别高速铁路接触网等电位线,使用第一级对等电位线进行定位,用第二级学习等电位线的故障特征,使用5层ZF网络进行特征提取。文献[2]使用多算法融合图像处理技术,使用ResNet-18作为特征提取网络,使用Faster R-CNN提取感兴趣区域(ROI)。文献[3]在高铁接触网定位器的检测和识别中使用Faster R-CNN算法。文献[4]设计了平衡注意力特征金字塔网络来预测矩形框的位置,使用Faster R-CNN检测算法对吊弦状态进行识别,ResNet-101与Faster R-CNN的结合使用使MAP达到了86.8。上述研究大多采用Faster R-CNN[5]算法,但算法和其使用的主干网络并未针对接触网这种高背景比例、特殊形状的检测对象进行优化处理。文献[6]在对紧固件进行故障分类时设计了一个简单的分类网路,网络由4个卷积层和2个全连接层组成。文献[7]提出6层卷积层和2个全连接层组成的特征提取网络对等电位线进行特征提取。浅层网络特征提取能力与复杂特征拟合能力弱,不适用于特征提取困难且形态多样的细小目标识别。
在现有研究的基础上,针对现有目标检测方法对高背景比例样本检测性能受限的问题,本文提出一种基于改进宽残差结构的吊弦状态辨识分类网络,称为VRNet。VRNet将宽残差结构与注意力模型相结合,并将改进的宽残差结构取代VGG-16中的普通卷积,形成了适用于处理吊弦数据的分类网络。VRNet提升了吊弦分类实验的精度,且因网络中使用了Ghost轻量级机制,减少了模型参数量和运算量,提高了处理效率。
残差结构[8]的出现解决了深层网络的训练退化问题,促使网络向更深层次发展。但随着网络深度的不断增加,特征的利用率降低,仅少数特征层能学到有用特征。宽残差结构[9](Wide Residual)是在残差结构(Residual)的基础上扩展了网络宽度,不仅具有残差结构的优势,而且浅层的宽残差网络便能达到深层残差网络的效果[9]。其结构与残差结构相同,如图1所示。
图1中,x为输入;F(x)+x为输出。快捷路径将输入恒等映射到输出。第K层与第K+1层的关系为
xK+1=xK+F(xK,wK)
( 1 )
l层到L层间的学习过程为
( 2 )
通过导数链式法则可得反向传播梯度为
( 3 )
根据吊弦图像数据特征对宽残差结构进行改进。首先将SE注意力机制[10]嵌入至宽残差结构内部,如图2所示。SE注意力机制可以学习全局信息选择性地强调图像的信息特征并抑制无用的特征[10],因此适用于处理吊弦这种高背景占比的数据。由于网络宽度的增加导致模型参数量的增加,为降低参数量,提高识别效率,本文使用轻量级Ghost[11]模块取代了宽残差结构中的普通卷积(Conv为普通卷积),参数量和运算量明显降低。将该结构作为特征提取模块(称为VR),结构如图2所示,其中k为宽残差的扩展系数。
图2 VR特征提取模块结构
整体结构以VGG-16[12]为基础,改变了原VGG中普通卷积堆叠的平原结构,将普通卷积替换为VR特征提取模块(图2所示),层次更深的宽残差网络在每一阶段能够提取到更鲁棒的特征[13]。为减少参数量与运算量,只保留一个全连接层。进行Dropout正则化[14]处理,最终形成本文的VRNet分类网络。
1.2.1 SE注意力机制特征强化
吊弦图片的背景占比大,接触网线路较为复杂,并且随着网络宽度的扩展,一些通道不能提供识别吊弦状态所需的信息。
SE注意力机制利用通道关系,使用全局信息选择性地突出有价值的通道特征。其实质为使用一个两层神经网络生成c个权重(神经网络由两层全连接层组成,c为原特征通道数,权重为0~1的系数),将c个权重系数分别分配到原特征的每层通道上,达到区分各层通道重要性的目的。
图3 注意力机制对吊弦的特征强化
注意力机制强化吊弦特征的实现如图3所示,X为注意力机制处理前的吊弦特征,SE首先利用全局平均池化将特征X的每个通道压缩成一个实数,因此池化后的维度和通道数相同。
( 4 )
式中:W、H为特征的宽、高。
将全局平局池化后的一维特征值作为每个通道的权重系数。
s=σ(g(z,W))=σ(W2σ(W1z))
( 5 )
式中:σ指经过Relu操作,W1、W2皆为全连接操作。W1对全局池化后的c维吊弦特征进行降维全连接操作,W2对降维后的特征上升至原维度,然后将恢复维度后的吊弦特征经过sigmoid归一化为c个0~1的权重系数。在W1、W2全连接层与整体网络同时参与训练,不断更新全连接层参数,使其分辨信息重要性的能力不断增强。
最后,将c个权重分配至原吊弦特征的每个通道上,完成权重的重新标定。
yc=s·xc
( 6 )
c为特征通道数,与原吊弦特征xc相比,被重新标定了权重的新特征,yc更加突出吊弦图像中的重要信息。
为验证SE注意力机制的作用,分别使用加入注意力模块的模型与未加入注意力模块的模型对测试集数据进行识别,将特定层处理结果分别做可视化处理(对比的可视化特征图为同一层的处理结果)。处理结果如图4所示,从处理结果可以发现,未加入SE注意力机制的模型处理结果明显丢失了部分吊弦信息。
图4 模型测试结果可视化
1.2.2 利用Ghost降低参数量
由于对网络在宽度上进行了扩展,使得计算量和参数量较大。本文使用Ghost轻量级模块,在保证精度的前提下大幅降低了计算量和参数量。
普通卷积对数据进行特征提取时,可视化特征图中一些特征图相似度较高,可以对部分卷积进行Cheap operation[11]操作得到这些冗余的特征。如图5所示,利用普通卷积生成必要特征,然后对这些特征进行Cheap operation操作生成相似特征,将两部分特征叠加,通过该思想生成的特征的参数量要远小于使用大量卷积核所产生的参数量。
图5 Ghost
本文网络中,将改进的宽残差模块中的3×3卷积全部替换为Ghost模块,同时将Shortcut中的1×1卷积替换为Ghost模块。实验结果表明,在测试集上未造成明显精度损失,参数量和运算量大幅降低。
特征提取网络的深度、宽度和参数设置直接影响分类网络的性能。文献[15]证明了深度的重要性。文献[16]使用Lebesgue可积函数逼近的方法定量分析了网络宽度对网络表达能力的影响。
对于任意Lebesable可积函数f,ε>0存在一个宽度dm≤n+4的网络y,使网络表示的函数Fy满足
( 7 )
式( 7 )说明,如果宽度小于n,则网络的表达能力和特征提取能力将大幅减弱[16]。
宽残差网络在残差网络的基础上将通道数扩展k倍,从而拓宽了网络宽度。被拓宽了通道数的残差结构更有利于生成语义信息丰富的特征图。本文选择basic-wide宽残差结构并将扩展因子k设定为8。将改进的宽残差结构(VR特征提取模块,见图2)嵌入VGG-16中,输入通道数依次设定为16、32、64,故扩展后的输入通道数依次为128、256、512,很大程度还原了VGG-16的宽度。最后加入Dropout正则化以减少过拟合,增加网络泛化能力,并在结尾仅设定1个全连接层(FC)。相比于VGG-16的3个全连接层大幅削减了参数量。输入通道与VR特征提取模块的设计见表1。
表1 VRNet结构
安装于高速列车顶端的车载接触网运行状态检测装置对接触网进行实时拍摄,使用yolov3目标检测算法对接触网图像中的吊弦进行定位截取生成吊弦数据库。吊弦图片像素尺寸为64×160(RGB图像),吊弦状态分为三类,分别为正常(Good)、松脱(Loose)、断裂(Broken)。吊弦状态如图6所示。其中正常吊弦和部分故障吊弦为视频中利用目标检测算法截取的原图。
图6 吊弦数据
但故障样本较少,为解决训练集数据量不平衡问题,对正常样本进行故障仿真,使其逼近各类故障形态。数据集见表2,共收集各类吊弦样本7539张,训练集各类样本数量均匀,防止模型学习失衡;测试集各类样本数量均衡,保证了测试结果的可靠性。
表2 数据集 张
实验所使用的硬件:inter i7-9750H CPU,NVIDIA GeForce GTX 1660 Ti GPU显存6GB。训练和测试使用框架为GPU版Pytorch。
由于吊弦数据是通过使用YOLO目标检测算法对视频文件中的接触网图像检测生成,其他的电连接线样本由手动截取生成,故样本尺寸大小不一。训练前由transform进行预处理,统一尺寸为64×160。学习率lr=0.01,使用SGD作为优化器。损失函数为交叉熵损失函数。
各组对比实验所使用的模型均在相同条件下训练完成。
设定宽残差结构扩展系数k,k=1,4,8,10(系数为1代表原残差网络,系数不为1代表不同宽度的宽残差网络),得到不同的网络宽度,将4种不同宽度的网络做对比实验,实验结果见表3。
表3 宽残差扩展系数对比 %
由对比实验可以看出,当k=8时吊弦分类网络的分类效果最优,分类准确率优于普通残差网络。
加入注意力机制的VRNet与去掉注意力的VRNet在通道扩展系数k=8条件下VRNet (8)、VRNet(SE) (8)精度分别为95.9%、97.0%的对比实验结果见表4。实验表明引入注意力机制加强了网络的分类能力。
改进的宽残差结构取代VGG-16的卷积堆叠的平原结构,该操作使参数量与运算量大幅增加,为节省计算资源VRNet只保留了一层全连接层,并使用Ghost机制代替了宽残差结构中的普通卷积。本文分别计算了VGG-16、宽残差网络Wide_ResNet50、未使用Ghost机制VRNet和使用Ghost机制的VRNet的参数量与运算量,见表4。Ghost操作大幅降低了参数量与运算量。
表4 轻量级处理对比实验结果
选择经典网络VGG-16、ResNet-50、ResNext-50、SENet以及宽残差网络与本文的VRNet进行综合对比实验。性能指标以分类精度为主,实验结果见表5。
表5 分类精度对比 %
实验结果显示,在众多的网络模型中,VRNet的吊弦分类精度为97%,在吊弦状态辨识任务中的表现优于包括VGG-16、ResNet、Wide_ResNet在内的经典分类网络。
图7分别为VRNet与ResNet-50的检测效果,图7示例代表一些被支架或受电弓等设施遮挡而无法显示完整且背景复杂的吊弦。在此类复杂数据中,一般网络分类效果差,而VRNet分类网络将正常与故障吊弦进行了准确辨识(红色框代表吊弦检测为故障状态,绿色框代表吊弦检测为正常状态)。
图7 检测效果对比
针对高速铁路接触网吊弦识别精度低的问题,本文提出VR特征提取结构和VRNet分类网络。针对吊弦样本的特殊性,选用宽残差结构作为分类网络的基本组成单元,在其中嵌入SE注意力机制强化重要特征,并使用Ghost机制降低模型参数量,以此形成VR特征提取结构。使用VGG-16作为网络的基本结构,用VR结构代替大量卷积的平铺结构,构成了VRNet分类网络。
VRNet分类网络有效提高了吊弦状态识别精度,解决了现有方法对吊弦状态识别效果较差的问题,使得车载接触网运行状态检测装置能够更准确地识别出铁路沿线的故障吊弦,为接触网吊弦的自动检修提供高效可靠的支持。结合相关科研项目中的实践,本文模型在实际应用中表现出更优的性能。接触网故障自动识别技术与装备的发展和不断成熟,将有力解决人工巡检的困难,大幅减少低精度设备因误检给检修人员造成的误导,节省人力物力,缩短检修周期,为保障铁路安全运行发挥应有作用。