崔宵洋 林建辉 陈春俊 杨 岗 杨劼力 徐 刚
(1.西南交通大学机械工程学院 成都 610031)
(2.西南交通大学牵引动力国家重点实验室 成都 610031)
(3.中车青岛四方机车车辆股份有限公司 青岛 266111)
高速列车采用弓网系统作为车辆的受流装置。随着我国列车速度越来越高,维持弓网间的良好接触变得越来越困难,其受流质量不能得到良好的保障,当严重恶化时影响列车的安全运行。定位器是接触网的关键零部件之一,确保接触线在受电弓滑板运行轨迹范围内,使接触线与受电弓不脱离。定位器的坡度状态经常会受到弓网耦合系统引起的振动和激励作用带来的不利影响,当其坡度值过大会出现受电弓滑板加速磨损的现象,当坡度值过小会导致与受电弓滑板碰撞[1~2]。因此,检测接触网定位器对确保弓网系统的正常工作有着重要的意义。在我国铁路起步阶段,铁路接触网定位器检修的自动化水平较低,主要依靠传统人工巡检方式检测。人工检测的工作量极大,维修成本高并且效率低下。随着我国铁路检修设备的快速发展和对自动化检测的需求越来越高,铁路检修行业开始使用图像处理和机器学习的技术来对接触网定位器进行自动化检测,基于视觉的定位器检测系统如图1 所示。此检测技术虽然在一定程度上提高了检测效率,降低了人工检修的成本,但是受到传统机器学习的弊端影响,造成检测的精确度和实时性都比较低,不能满足实际检测的需求[3]。现如今我国铁路检测已经进入“大数据”时代,迫切需要全面提高接触网定位器的检测技术,实现高精确率和高实时性的自动化检测目标,切实保障高速列车的安全行驶。
近二十年随着硬件GPU 计算水平的大力提高,深度卷积神经网络技术和计算机视觉技术在学术界和工业界都取得了巨大成功。铁路行业相关研究学者也广泛采用基于卷积神经网络(convolu⁃tional neural networks,CNN)的计算机视觉技术,在接触网紧固件[4]、受电弓滑板磨耗[5]和轨道表面缺陷[6]等检测领域取得了良好的检测效果。在目标检测领域,以Faster R-CNN[7]为代表的基于候选区域目标检测算法在ImageNet[8]和MICROSOFT CO⁃CO[9]图像数据库中效果表现良好,在车辆检测和行人检测等得到了广泛的实际应用。然而,Faster R-CNN 算法对于小目标的检测效果不太好。基于定位器在接触网采集图像中所占区域比较小事实,本文创新性设计了用于精确检测小目标的多尺度卷积特征,该特征融合了不同卷积神经网络层的低级和高级的卷积特征。因此我们把改进后的Faster R-CNN 称为多尺度特征Faster R-CNN(Multi-Lev⁃el Features Faster R-CNN,MLF-FRCNN)。
图1 高速铁路定位器检测视觉系统
近年来,我国铁路行业相关学者在定位器检测领域做了很多研究工作。范虎伟[11]提出首先利用Sobel 边缘算子获取图像的边缘轮廓线,然后使用链码对定位器粗定位和Radon 变换精确定位相结合的检测算法。段汝娇[12]首先对定位器图像进行细化预处理,然后利用改进的霍夫变换对细化图像中的相邻特征像素点聚类和感知编组,最后采用随机霍夫变换使感知编组后的图像中每条线段更接近直线,实现定位器快速而又准确的检测。王旭东[13]提出基于霍夫变换直线检测与AdaBoost 相结合的定位器检测算法。顾会建[14]提出基于灰度自相似度特征(Gray Self-Similarity)和AdaBoost 算法构建定位器检测的分类器,然后利用霍夫变换对定位器进行精确检测。前面所提出的定位器检测算法主要利用人工获取目标特征,然后手工对目标特征进行编码。然而现如今大规模的图像检测数据给这种基于传统机器学习的检测技术带来了严峻挑战。传统检测算法严重依赖于设计精妙的目标特征描述子,容易陷入求解局部最优解的陷阱,检测精确度和速度偏低。深度卷积神经网络模型在训练过程中整合特征提取,可以有效地解决上述问题。钟俊平[15]提出基于CNN 的接触网开口销不良状态检测,所提的深度学习模型采用新型的锚机制产生目标建议区域,提高了检测准确率。陈俊文提出[16]基于CNN 的接触网紧固件缺陷检测,整个检测模型采用了由粗检到精检的策略。刘志刚[17]研究了基于不同深度学习模型的接触网支撑组件的定位和故障检测算法,重点比较分析了基于Faster R-CNN[7]的检测模型效果。
Faster R-CNN 是R-CNN[18]家族中具有最优异的检测精确度和速度深度卷积网络模型。但是Faster R-CNN本身存在着一个弊端,即其感兴趣区域池化层(region of interest pooling,ROI-pooling)仅仅从单一高级卷积神经网络层的特征图中构建特征,比如VGG-16[19]模型只是从第五个卷积层(Conv5)的特征图做候选区域池化运算,忽略了从低级卷积特征图中提取特征,这些低级特征对于检测小目标是非常重要的。因此我们提出了基于MLF-FRCNN 的定位器检测模型,融合全局特征信息和局部特征信息,可以更好地包含检测目标的细节信息,提高定位器的检测精度和鲁棒性。
Faster R-CNN 起源于R-CNN,中间又经历了SPP-NET[20]和Fast R-CNN[21]的 发 展 而 最 终 形 成的。R-CNN 系列深度学习模型都是基于建议区域(region proposal)的目标检测算法,所以如何寻找和处理目标的建议区域对整个模型检测的性能有着至关重要的作用。搜索目标的建议区域(region proposal)算法从最初的EdgeBoxes[22]或者Selective Search[23]算法发展到在Faster R-CNN 中使用的区域建议网络(region proposal network,RPN),检测的精确率和速度至此得到了大幅度的提高。Faster R-CNN 通过卷积特征共享的方法使RPN 和Fast R-CNN 高效地结合成一体完成目标检测的任务。然而Faster R-CNN 模型在提取目标特征的过程中,其最后的Conv5 卷积层所对应的感受野范围是相当大的。因此当检测小目标的时候,Conv5 卷积层输出结果只会包含很少的像素,不能很详细地描述目标的特征信息。更糟糕的是,随着卷积神经网络层数越来越深,相应特征图上的每个像素点提取了感兴趣区域(region of interest,ROI)之外越来越多的卷积信息。这意味着如果ROI很小,特征图也就包含了更小比例的ROI内部的信息。
跨层连接(skip-layer connections)在深度学习神经网络领域中是一个比较常用的思想,它可以跨过中间神经层而将低级和高级神经层的输出直接连接在一起。例如Sermanet[24]提出基于多步特征(multi-stage features)的行人检测,就是利用了跨层连接的思想。Liu[25]研究了当采用跨层连接技术提取特征时特征归一化的必要性。根据上述Faster R-CNN 的检测弊端和相关学者的研究方向,我们认为如果将局部特征和全局特征组合起来形成多尺度特征并加以高效利用,那么能够更精确地检测定位器小目标,同时具有较高的鲁棒性。因此我们全新设计了多尺度特征,不仅有来自高级卷积神经网络层的高级特征,还有来自其他低级卷积层的特征,例如Conv3 和Conv4 等。这样MLF-FRCNN 模型的特征提取工作更加完善,既能包含目标的全局信息,还能包含更多的目标细节信息,可以保证高效率地检测小目标。受Liu 研究工作的启发,我们在提取多级卷积特征过程中加入了二范归一化的处理。基于Liu 提出的ParseNet[25]模型,我们设计了如图2 所示的MLF-FRCNN 深度卷积神经网络模型。MLF-FRCNN 的区域候选网络和Faster R-CNN 的保持不变,但是我们重新设计了可以在不同尺度下提取卷积特征的Fast R-CNN 卷积神经网络去训练目标的候选区域。新型多尺度特征深度卷积神经网络包含了5 个共享的卷积层,分别是Conv1,Conv2,Conv3,Conv4 和Conv5。前两个卷积层Conv1和Conv2后面都相应依次连接着线性整流函数(rectified linear unit,ReLU)激活层,局部响应归一化(local response normalization,LRN)层,最大池化(MAX-pooling)层。另外三个卷积层后面连接ReLU 激活层,它们的输出结果做为相应的ROI 池化层和归一化层的输入。随后对来自不同卷积层的特征进行拼接、尺度调节和降维处理(1×1 con⁃volution),形 成 多 尺 度 特 征(Multi-Level Fea⁃tures)。然后将得到的多尺度特征向量输入到两个全连接层(fully connected layer),最后softmax 回归层完成目标分类和调整目标包络框的检测任务。
图2 MLF-FRCNN模型的结构
为了能够在多尺度下提取小目标的特征,我们需要在感兴趣区域池化操作后将不同维度的特征向量连接起来。实际上每个卷积层的特征图在通道数量和像素值大小范围上都是不同的,例如卷积层越深,其特征图上的像素值会越小。如果将各个不同卷积层的特征向量未加处理直接连接,那么浅层特征向量由于像素值较大而在多尺度特征所占权重过大,多尺度特征不能很客观地描述小目标而变得不可信,最后导致整个深度卷积神级网络检测性能非常差。因此,我们对要连接成多尺度特征的每个特征向量进行二范归一化处理和尺度调节[25],这样能够平衡大特征和小特征之间对多尺度特征的贡献比,同时会使神经网络训练变得更加稳定。特征向量的二范归一化如式(1)和(2)所示:
在神经网路训练过程中,我们通过反向传播(back propagation,BP)算法和链式法则来计算尺度因子μi和特征向量X 的微分,如式(4)、(5)、(6)所示:
式中,l 表示我们要最小化的损失函数。
我们需要将二范归一化层集成到Faster R-CNN 模型中,ROI-pooling 层从Conv3,Conv4 和Conv5 卷积层中提取特征,每个卷积层都独立地将特征数据传递给二范归一化层。然后将多个特征向量连接成一个特征向量并进行尺度调节,使数值缩放至合适范围内。为了使缩放后的特征向量能够成功输入到原Faster R-CNN 的全连接层,需要保证它们二者之间的维度大小一样,所以增加了1×1 convolution 层,压缩特征向量的通道数为1。高级和低级卷积层的特征向量经过归一化处理,特征拼接,尺度调节和降维处理后,形成了固定维度的多尺度特征向量,最后该特征向量输入到深度卷积神经网络的全连接层进行目标分类和目标包络框的调整。
在Faster R-CNN 模型的区域建议网络RPN中,锚(anchor)的设计采用了3 种尺度{128,256,512} 和3 种比例{1 :1,1:2,2:1} ,总共有9 种不同的候选建议窗口在特种图上滑动。然而接触网定位器在我们线路试验采集的接触网图像中面积占比比较小,比例大概在0.009~0.042 的范围之间,远小于ImageNet 和MICROSOFT COCO图像数据集目标的面积占比(0.014~0.463),同时定位器构件的宽度值远大于其高度值。基于此,我们将anchor 尺度和比例相应地改为{64,128,256}和{4 :1,6:1,8:1} 。改进的anchor 在特征图上产生包括中心点坐标、高度和宽度一共4 个变量参数( x,y,h,w )的区域建议框。在卷积神经网络层的特征图里每一个位置上,分别产生36 个( 4×9 )用于输入到回归神经网络层的参数和18 个( 2×9 )用于输入到分类层的参数。RPN 在卷积特征图上滑动时一共产生H×W×9(H ,W 分别代表特征图的高度和宽度)个anchor。
我们创建了总数为6000 张的高速铁路接触网定位器图像数据集来评估MLF-FRCNN 模型的检测效果,其中3000 张作为网络模型的训练集,1500张作为验证集,1500 张作为测试集。接触网图像分为有隧道和无隧道两种拍摄背景,每一种拍摄背景下的接触网图像中包括了不同拍摄角度和光照强度情况。多样化的接触网图像数据库利于深度卷积模型的训练,提高定位器检测算法的鲁棒性。在模型训练之前,我们首先利用标注工具对接触网图像中的定位器做人工标注,存储目标的标注数据。为了提高网络模型对计算资源的使用效率,接触网图像的分辨率由原来的6 600×4 400 等比例降为600×400。随后进行零均值化处理,这样可以在反向传播中加快网络中每一层权重参数的收敛。在MLF-FRCNN 模型训练阶段,选用VGG16深度卷积神经网络模型,超参数学习率设置为0.001,选用动量设置为0.9 的随机梯度下降优化器。硬件平台包括2 GB RAM 的NVDIA TITAN X GPU和3.60GHz Intel i7-7700 CPU等。计算机选用Ubuntu操作系统选和Caffe[26]深度学习框架。
本小节重点分析多尺度特征对MLF-FRCNN模型检测效果的影响。表1 比较了不同卷积层特征经过归一化、尺度调节和降维操作连接成的多尺度特征对模型MLF-FRCNN 的平均精度均值(mean average precision,mAP)的影响。从表1 中我们可以看出,当多尺度特征包含卷积层Conv3、Con4 和Conv5 特征时平均精度均值可以达到最高98%。若再增加卷积层Conv2的卷积特征时我们发现模型MLF-FRCNN 的平均精度均值并没有得到实质性的提高,反而在一定程度上增加了模型的复杂性,所以我们设计的多尺度特征实际上来自卷积层Conv3、Con4和Conv5。图3展示了DPM[10]、Fast⁃er R-CNN 和MLF-FRCNN 的对比检测效果。可以看出在隧道环境下和无隧道环境下,MLF-FRCNN定位器检测模型的精确率和回召率都高于DPM 模型和Faster RCNN 模型,这表明设计的多尺度特征对于检测小目标的定位器有很大的帮助。DPM 模型的检测效果最差,大约只有70%。其中主要原因是DPM 基于传统机器学习,提取目标特征和训练特征进行目标分类的过程是独立的,并且目标特征的描述子高度依赖人工设计,有时候并不能良好地描述目标。Faster R-CNN 的检测效果处于两外二者之间,大约为92%。Faster R-CNN 与DPM 模型相比最大的不同之处是采用了深度卷积神经网络,能够做到端到端学习,可以大幅度提高检测效果。MLF-FRCNN 与Faster R-CNN 相比,实现了可以在多个不同尺度下提取目标特征,该多尺度特征包含了目标的局部细节信息,所以检测效果是最优的,高达98%。横向对比同一种模型在两种不同检测环境下的效果,我们发现三种模型在无隧道的环境下定位器检测的精确率和回召率都要高于隧道环境。该现象发生的主要因素是在隧道下拍摄的接触网图像背景显得更复杂,客观上增加了定位器的检测难度。
图3 上图和下图分别为无隧道和有隧道环境下三种检测模型的比较
表1 从不同卷积层连接多尺度特征的检测效果比较
表2 三种定位器检测模型的帧率比较
表2 展 示 了DPM、Faster R-CNN 和MLFFRCNN 定位器检测模型的帧率(Frames Per Sec⁃ond,FPS)。与Faster R-CNN 相比,MLF-FRCNN 由于使用了多尺度特征增加了一定的复杂性而导致检测速度慢了大概1%,该模型的检测帧率为4.65。MLF-FRCNN 模型的检测速度比DPM 模型快了大约10 倍,可以很好地满足实际检测中高实时性的要求。另外,MLF-FRCNN 模型检测帧率的标准差低于DPM 和Faster R-CNN 的标准差,这说明我们所提出的模型更具有稳定性。图4 展示了基于MLF-FRCNN 的定位器检测模型的最终检测结果,矩形框即为检测到的定位器。图4 的前2 个子图片显示的是在无隧道场景下定位器检测结果,后4 个子图片显示的是在有隧道场景下的检测结果。综上分析,基于MLF-FRCNN 的定位器检测模型具有高精确率和高实时性的特点,同时具有较好的鲁棒性。
图4 基于MLF-FRCNN的定位器检测结果
本文提出了一种基于MLF-FRCNN 的高速铁路接触网定位器检测模型,主要在以下两个方面进行了创新。首先是该模型很巧妙地融合了来自不同卷积神经网络层的特征,将分别来自高级和低级卷积层的特征向量经过二范归一化后进行特征拼接,随后对其尺度调节和降维处理,最终形成了多尺度特征。该多尺度特征能够更好地包含目标的整体信息和局部细节信息,因此更利于检测定位器这种小目标。另外,我们根据定位器的结构特点,重新制定了RPN 网络中anchor 的尺度和比例设计规则,使其能好地符合检测定位器这种目标场景。试验结果表明,基于MLF-FRCNN 的定位器检测模型比DPM 模型和Faster R-CNN 在检测精确度方面提高了很多,同时具有很高的实时性和鲁棒性,这对高速铁路定位器的后期维修工作具有重要的意义。由于高速铁路接触网图像的拍摄环境很恶劣,其图像背景很复杂,造成定位器的自动化检测这项工作很有挑战性。面向未来,我们需要在如何设计高效的多尺度特征方面做更加深入的研究,继续提高定位器检测的精确度。另外如何从整体上对该深度卷积神经网络模型进行优化,提高检测的速度也是非常有价值的。