基于改进Mask-R-CNN网络的轨道交通运行环境感知技术应用研究

2024-02-20 08:51郑泽熙邓晶雪
铁道运输与经济 2024年1期
关键词:列车运行障碍物语义

郑泽熙,范 楷,邓晶雪

(1.中国铁道科学研究院集团有限公司 通信信号研究所,北京 100081;2.中国铁道科学研究院集团有限公司 国家铁路智能运输系统工程技术研究中心,北京 100081)

0 引言

包括国家铁路和城市轨道交通在内的轨道交通运输方式,承载着我国大众出行和货物运输的重大任务。快节奏的经济生产活动对交通的时效性、便捷性、安全性要求日益提高,因此进一步保证列车运行环境安全具有重大意义。但是,目前的列车运行环境安全现状有待改善。

国家铁路方面,由山体滑坡、塌方、崩石、泥石流等自然灾害,前车、人、畜、物等随机障碍物造成的限界入侵,严重威胁着列车行车安全。面对以上问题,目前主要采取安装和架设防护网、视频监控设备等手段,同时辅以道路巡检和司机瞭望的人工检查方式共同完成侵限异物的检测,传统检测手段对人员要求高、工作强度大、效率低。城市轨道交通方面,支持全自动运行的基于通信的列车控制系统(CBTC),已成为地铁列车控制系统主流。无人驾驶技术是全自动运行的标志性技术,搭载无人驾驶技术的列车应在不配置司机的情况下实现正线运营中的一系列常规运营工作,列车如何在不配置司机的情况下处理异物侵限的紧急情况成为制约全自动运行技术发展的瓶颈。因此,实现列车前方障碍物的主动智能检测是列车全自动运行的前提。从轨道交通的实际运营需求可知,进一步保障轨道交通运行安全需要一套非接触式的实时监测系统,智能、实时检测列车前方一定区域内的障碍物(包括前车、人、畜、物等),在侦测到障碍物后配合车载信号系统对列车进行紧急制动,从而降低事故发生的概率,减少事故造成的损失。

近年来,随着卷积神经网络的出现,在模型算法的快速迭代中,图像识别的准确率、处理速度、所需硬件资源等核心技术指标不断优化,国内已有众多学者致力于计算机视觉技术在轨道交通行业的应用研究[1-2]。侵限障碍物的检测在技术上分为2个部分,一是需要划定检测区域,二是在检测区域内有效检测和识别障碍物。划定检测区域是实现侵限障碍物检测的基础,对轨道交通钢轨的有效检测是划定侵限检测区域的最合理方法。我国铁路钢轨间距具有高度结构化特点,轨距具有非常严格的标准,因此在早期的研究中,通常借助钢轨的颜色、纹理、边缘等视觉特征,构建算法提取钢轨连续的直线边缘,从而实现轨道检测与识别[3-5]。但是,这种方法在遇到弯道、岔区场景和图像噪声较大时效果不佳,间接造成系统误报率的提升。

在基于计算机视觉的障碍物检测和识别方面,国内外学者通过使用StixelNet,YOLO,FFDet,DisNet等网络模型[6-7],以及公开或搭建的铁路对象数据集,完成人、动物、前方列车等目标的检测和识别。但是,目标检测模型能否应用于实际生产当中的重要指标主要在于模型的准确率及处理效率。特别是在铁路运输领域,较高的检测准确率可以在保障列车安全运行的前提下降低误报警所带来的运输效率损失;而在列车运行速度日益提高的背景下,模型的处理效率直接决定模型能否部署在更高速度的列车之上。

研究在明确列车运行环境感知系统需求及结构的基础上,将Mask-R-CNN 实例分割网络应用于障碍物感知任务,并重点对该网络进行改进优化,在不降低准确率的前体下使其满足高速铁路应用处理效率需求。

1 列车运行环境感知系统需求及结构

列车运行环境感知系统结构由视觉采集模块和感知模块组成,视觉采集模块负责实时采集视觉信息,并将之发送给感知模块。感知模块首先对原始图像进行增强操作,减小环境因素对感知功能的影响,进而将图像输入计算机视觉感知模型,由模型完成列车运行环境的智能感知。由于受到隧道弯曲遮挡,以及目前视觉传感器分辨率、可视角度等参数的限制,安装于列车前部的视觉传感器不能应对弯道、坡道等运行场景。因此,列车运行环境感知系统在结构上应分为安装于列车前部的车载感知部分和安装于弯道、坡道等特殊地段的地面感知部分,二者通过车地通信机制彼此进行通信,共同完成车地协同的环境感知。列车运行环境障碍物感知系统结构如图1所示。

图1 列车运行环境障碍物感知系统结构Fig.1 Structure of obstacle perception system in train running environment

功能需求层面上,车载感知部分和地面感知部分略有差异,车载感知部分只关注当前列车运行环境内的障碍物探测,而地面感知部分则要对视野范围全部轨道运行环境内的障碍物进行检测。由此,可以总结出列车运行环境感知系统的功能需求包括以下几点。

(1)通过对视野范围内的钢轨进行像素级分割,完成检测范围的划定。

(2)对车载感知部分,需要进行当前轨道和相邻轨道的区分,防止误报警。

(3)通过对钢轨连续性的判断,完成钢轨被积水淹没、钢轨被土石掩埋等重大事故的检测。

(4)在检测范围内部,对前车、人、动物、落石等障碍物进行检测、识别,产生不同级别的报警信息。

满足以上需求的关键在于计算机视觉感知模型的设计和实现,该模型需要满足一定的实时性和准确性,在及时、准确地产生报警信号的同时,将误报率降低到可以接受的程度,从而在不影响正常运营的前提下,减少事故发生,降低事故损失。

2 Mask-R-CNN实例分割网络

2.1 图像实例分割任务

图像目标检测任务目的是将输入图片当中的物体分类并利用不同颜色的矩形框标出物体的具体位置,每一个矩形框都有一个标签,标注了物体的类别和该物体为此类别的置信度概率。语义分割则指的是从像素级别区分分割出图片中的不同语义对象,以不同颜色对像素进行标注。图像实例分割任务建立在图像目标检测和语义分割任务的基础之上。目标检测任务和语义分割任务均不能区分同一类别下的不同物体,而实例分割是结合目标检测和语义分割的任务成果,基于图中目标的完整分割掩码,即输入图像中的每个像素具体对应于图像中哪个目标实例,这样可以使图像中的每一个对象得到不同的分割掩码,因此实例分割可以区分出相同类别的不同物体。可见,实例分割的任务成果最接近于人类对视觉的感观,可以满足轨道交通运行环境感知的需求。

2.2 Mask-R--CNN网络

Mask-R-CNN 网络由经典的目标检测算法Faster R-CNN网络与语义分割FCN 网络相结合而成,在分别兼具Faster RCNN 网络具有的高检测精度、速度和FCN 网络具有的高语义分割精度的同时,又提出很多的改进措施,因此Mask-RCNN 网络虽然结构较为复杂,但最终仍有媲美Faster R-CNN 网络的检测速度和FCN网络的语义分割精度[8]。

Mask-R-CNN 网络结构如图2 所示,由图2 可以看出,Mask-R-CNN网络是一个具有3个并行输出结果的多任务框架,其3 个输出分别完成目标检测、目标分类和语义分割任务。Mask-R-CNN网络首先利用Resnet50/101 网络构建骨干特征提取网络,对输入图像进行特征提取,再通过特征金字塔网络(FPN)获取不同大小的一系列有效特征层;再利用区域推荐网络(RPN)生成一系列的建议框;进而通过RoIAlign层对特征层进行初步筛选,得到由建议框截取的局部特征层;最后通过分类回归模型进行分类及边界框回归,得到目标分类和检测结果;语义分割结果则是将分类回归模型产生的精确检测框与有效特征层输入RoIAlign层,得到精确检测框截取的局部特征层,再将其输入Mask 语义分割模型,得到语义分割结果。

图2 Mask-R-CNN网络结构Fig.2 Mask--R-CNN network structure

虽然在实例分割领域Mask-R-CNN 网络是当前应用最多、功能最强大的模型之一,但根据实验可以发现,该网络在单个GPU(GTX2080TI)上的运行速度不足5 fps,无法满足列车运行环境的实时性需求,同时也侧面说明模型的运算资源占用较多,部署难度较大。并且,Mask-R-CNN网络在上采样的过程中会造成较大的掩膜边界误差,从而使分割出的物体边缘轮廓不够准确,在列车运行环境感知场景下会造成距离较远情况下误报率较高的问题。可见,原始的Mask-R-CNN 网络在实时性、准确性、部署难度等方面还存在较大问题。

2.3 Mask-R--CNN网络的改进

2.3.1 轻量级MobileNetV2骨干网络

根据计算机视觉模型时间消耗的研究[9],可以清晰地看到,不管是使用GPU还是CPU运行,耗时最长的是卷积层。因此,想要提高网络的运行速度,亟需提高卷积层也就是主干特征提取网络的计算效率。

Mask-R-CNN网络的主干特征提取网络使用的是Resnet50/101 网络,虽然该网络使用残差结构很好地解决了高层数带来的网络退化问题,但高层数带来的大量参数还是使网络的时间消耗量大幅增加,严重影响网络的实时性和易部署性。需要使用轻量级网络对该网络进行替代,在精确性损失可控的情况下,提高整体实例分割网络的实时性和易部署性。

MobileNet 是一种小型、低延迟、低功耗的轻量级特征提取模型,可以用于实现分类、检测、嵌入和分割等。该模型计算量与Resnet50/101 相比近乎降低了一个数量级,可以更好地满足高实时性且资源受限的应用场景。MobileNetV1 网络最大的创新点是引入了深度可分离卷积[10],与标准卷积不同的是,深度可分离卷积将卷积核拆分成单通道结构,也就是在不改变输入图像深度的情况下,对各个通道进行卷积计算,从而得到和输入图像通道数一样的输出特征图,这部分称为深度卷积(DW)。过少的维度无法保障能够提取出足够的有效特征信息,因此需要进一步对输出特征图进行逐点卷积操作(PW)以达到升维的目的,最终得到与标准卷积结果相同维度的输出特征图。深度可分离卷积与标准卷积对比如图3所示。

图3 深度可分离卷积与标准卷积对比Fig.3 Depthwise separable convolution vs standard convolution

假设给定标准卷积的卷积核尺寸、维度、数量和输出特征图的尺寸,深度可分离卷积与标准卷积的参数量减少比和计算量减少比分别如公式⑴及公式⑵所示。

式中:Lo×Wo为输出特征图的尺寸;L×W为卷积核尺寸;M为卷积核维度;N为卷积核数量。

MobileNetV2 是对MobileNetV1 的改进,最主要的改进点是在深度可分离卷积的基础上借鉴Resnet 的残差结构,引入倒置残差模块(Inverted Residual)[11]。在MobileNetV1 的DW+PW 卷 积 中,计算量主要集中于PW 卷积上。含有倒置残差模块的深度可分离卷积结构如图4 所示,倒置残差模块的主要思想是将1 个PW 卷积改进为在DW 之前的1 个升维操作PW 和之后的1 个降维操作PW,升维系数均定为6。从而在提升DW 工作维度、改善其提取效果的同时,进一步降低PW 的计算量,提升网络性能。倒置残差模块的计算量如公式⑶所示。

图4 含有倒置残差模块的深度可分离卷积结构Fig.4 Depthwise separable convolutional architecture with inverted residual module

综上,以MobileNetV2 网络中的倒置残差模块替换标准Mask-R-CNN 主干特征提取网络Resnet50/101 中的所有标准卷积,以达到减少网络参数量及计算量的目的,在基本不降低模型准确程度的同时,极大提高Mask-R-CNN 模型的图像处理效率,使模型满足车载使用环境的实时性要求。

2.3.2 PointRend模块

实例分割网络在特征提取过程中,通过反复使用卷积、池化等操作,提高特征密度,再经过上采样操作,将图像尺寸恢复至原始大小,获得图像中的语义信息。但是,由于边界轮廓信息在对象像素中占比很小,上采样操作过程必然会丢失部分轮廓信息,造成较大的语义分割边界误差,限制语义分割的准确性。这在列车运行环境感知方面带来的问题是在距离较远时,不能很好地对物体的种类进行分类,并且轨道和障碍物边缘轮廓的不清晰还会对检测范围的判定造成影响,造成误报率提高的问题。

以往的研究表明[12-14],语义分割中,模型最容易误判的像素基本上都在物体边缘。用传统方法解决语义分割边界误差较大问题的难点在于,要实现高像素的实例分割,需要对像素进行逐一计算,必然会带来大算力的问题,因此就需要权衡算力和高像素语义分割之间的关系。而采用PointRend 算法可有效解决语义分割边界误差较大问题。

PointRend 算法将图像渲染思想与语义分割过程中的上采样进行结合,在上采样过程中通过迭代生成高质量的语义分割[15]。在迭代过程中,不断通过选取边界上不确定的像素点进行运算,达到最终效果。PointRend算法示意如图5所示,分为以下步骤。①使用双线性插值对CNN 网络输出结果进行2倍双线性插值上采样,得到大颗粒度的预测结果;②根据预测结果在上采样结果中挑选出若干个预测概率接近0.5的点,作为边界分割“难点”;③对于每个“难点”通过2 个方面获取其特征向量,一是通过“难点”坐标在细颗粒度浅层特征图上进行双线性插值获得,二是来自于步骤①获得的大颗粒度预测结果;④使用多层感知机(MLP)对以上特征向量进行预测,得到更加精细的预测结果。通过在模型的上采样过程中重复这样的算法,能够尽可能地保留轮廓信息,获得精确的语义分割边界点,有效提高分割精度。

图5 PointRend算法示意Fig.5 Algorithm schematic of PointRend

3 训练及验证

3.1 数据集建立

高质量的数据集对于计算机视觉任务来说至关重要,借助国家铁路智能运输系统工程技术研究中心的优势资源,在环形铁道试验中心的试验车辆上安装视觉采集设备,随车在试验当中采集大量环形铁道试验场试验车辆前方展望图像数据材料。该数据集的采集使用了2 个单目摄像头、1 套网络视频录像(NVR)记录设备,具体配置为:图像采集摄像头采用海康威视IP 摄像头B12HV2-IA;网络视频录像机采用海康威视NVR7104N-F1/4P。

完成数据的采集后,需要进行标注才能应用于模型的训练。为此,首先将采集的视频材料每隔10 帧截图1 张,进而利用开源的Labelme 数据集标注软件,采用点线标注的方式对其中的列车前方占用的钢轨进行密集标注。最后,建立了一个包含6 000余张图片的轨道检测数据集。

3.2 实验验证

训练模型的设备为CPU I9 10900K 8 核,双GTX2080Ti 显卡,64G 内存的PC 机。深度学习框架是Tensorflow开源平台和Keras人工神经网络库,通过编程软件完成模型的实现,再使用CUDA10及Cudnn工具调用GPU对模型进行训练,使模型中的参数取值达到最优化。

使用的训练集分为两部分,一部分是公开数据集,另一部分是自有数据集。其中,公开数据集使用的是微软COCO数据集,而自有数据集则是在环形试验场采集、标注的6 000 余张图片的轨道检测数据集。这样就可以使模型同时具备列车运行区域的识别能力和前车、人、大型牲畜等常见障碍物的识别能力。

为进行室内仿真试验,以列车前方展望视角录制一段人员在轨道区域反复穿梭的视频。从该视频中选取了200 帧人员进入列车运行区域的图片,以及200 帧人员不在运行区域的图片作为对照。模型处理情况对比如图6所示。

试验使用常用的F-Measure评价标准,作为评价结果的标准。F-Measure 评价体系结合准确率、精确率和召回率等参数综合计算调和平均数,是信息检索、机器学习等领域的常用的评价标准,常用于综合考量模型的实用性。在仿真试验过程中,没有对人员存在的识别发生误判,且对列车运行区域的分割始终正确、清晰。模型是否输出报警信号取决于人员轮廓边界值与列车运行区域边界值的比较,但模型对于人员轮廓的分割准确性还有待进一步提高,特别是当人员与摄像头的距离拉大以后,导致实例分割难度加大,共造成17 个图片的误判,最终模型取得95.56%的F-Measure评价值。仿真试验结果如表1所示。

表1 仿真试验结果Tab.1 Simulation test results

4 系统应用分析

相关研究表明,司机在遇到紧急情况时,观察、判断、反应到最终完成紧急制动操作的一系列过程耗时为3 s 左右,因此可以很容易得出列车在司机反应时间内的走行距离。运行环境感知系统的优势在于反应时间极快,根据室内仿真试验的结果,优化后的单帧图像模型处理耗时平均为70 ms左右,相比于司机,这样的耗时几乎可以忽略不计。将司机反应时间与各种轨道交通列车运行速度、紧急制动平均减速度和最大紧急制动距离参数相结合,可以进一步计算得出紧急情况下由运行环境感知系统代替司机输出紧急制动命令,司机反应时间内列车降低的速度和列车动能减小的幅度。

受限于相机等传感器的性能,目前的运行环境感知系统最大感知距离为300 m,还远低于司机在良好环境下2 000 m 以上的瞭望距离,这也是运行环境感知系统目前无法在国家铁路线路得到大量应用的主要原因。在司机注意力不集中或视野受限情况下,司机未能参与紧急情况处置,则障碍物在进入运行环境感知系统感知范围后,由运行环境感知系统立刻下达紧急制动命令,可以计算出列车在感知距离内降低的速度及动能降低幅度。运行环境感知系统应用分析相关数据如表2所示。

表2 运行环境感知系统应用分析相关数据Tab.2 Operating environment awareness system application analysis related parameters

(1)对于城市轨道交通,目前运行环境感知系统所具备的感知范围及感知实时性完全可以在遇到紧急情况时使列车在感知范围内停稳,从而阻止事故的发生,使城轨交通全自动运行成为可能,运行环境感知系统在城轨交通领域的应用意义最大。

(2)对于市域快线及普速铁路,虽然无法使列车在感知范围内及时停车,但运行环境感知系统相比于司机的快速反应可以为列车紧急制动争取宝贵时间,最不利情况下在感知距离内下达的紧急制动命令也可以大幅降低列车的速度和动能。运行环境感知系统在市域快线及普速铁路领域的应用可以有效降低事故损失。

(3)对于动车组及高速铁路,运行环境感知系统的感知距离与其紧急制动距离差距过于悬殊,无法对二者紧急情况下的处置起到明显作用,因此,在传感器技术没有突破性发展大幅延长运行环境感知系统的感知距离以前,运行环境感知系统在动车组及高速铁路领域的应用不能起到明显作用。

(4)以上分析均是基于列车在完全监控模式下以最高线路速度运行的条件下做出的,在降级运行的情况下,需要司机以低于25 km/h 的速度目视行车。在这种情况下运行环境感知系统的参与可以对司机的操作提供监测及预警,是对司机操作的有力补充。

5 结束语

实现列车前方障碍物的主动智能检测对保证列车运行环境安全具有重大意义,同时也是轨道交通实现全自动运行的重要前提[16]。研究在明确列车运行环境感知系统需求和结构的基础上,将Mask-RCNN 网络应用于障碍物感知任务,并创造性地对该网络进行优化改进,在不损失其识别准确率的前提下大幅提升模型的实时性。未来,在改进型Mask-R-CNN视觉网络基础上,还应研究多种传感器信息融合感知技术,进一步提升障碍物感知系统性能表现。

猜你喜欢
列车运行障碍物语义
改善地铁列车运行舒适度方案探讨
高低翻越
语言与语义
SelTrac®CBTC系统中非通信障碍物的设计和处理
列车运行控制系统技术发展趋势分析
“上”与“下”语义的不对称性及其认知阐释
相同径路的高速列车运行图编制方法
认知范畴模糊与语义模糊
节能思路在地铁列车运行图编制中的应用
土钉墙在近障碍物的地下车行通道工程中的应用