基于智能视觉的铁路大桥人员入侵防护系统设计研究

2023-10-11 15:21:38潘东亮

铁路计算机应用 2023年9期

潘东亮

（国能包神铁路集团有限责任公司科技信息部,包头 014010）

铁路大桥作为铁路线路防护重点区域,存在非法穿越、员工误入等人员侵入界限（简称：侵限）行为,给铁路运营带来严重的事故隐患,因此,亟需对铁路大桥的人员入侵情况进行实时监测,保障列车安全运行[1-2]。

目前,针对铁路大桥,多采用人员巡检和护栏布设等手段防止人员入侵,监测的时空范围和防护能力有限。部分铁路桥梁虽然布设了摄像头等监测设备,仍存在误报频繁、依赖人工辨识等问题,检测精度和智能化水平有待进一步提高。针对铁路侵限监测,相关研究人员提出了电网检测[3]、光纤光栅检测[4]、超声波检测[5]、红外线检测[6]、视频检测[7-8]、激光雷达检测[9]等方法,相较之下,视频检测法技术更加成熟,具有检测范围大、检测精度高、获取信息量大等优点[10]。

随着智能视频分析技术的快速发展,基于深度学习的目标检测模型被广泛应用于铁路周界入侵监测[11-12]。作为智能视觉领域重要研究方向,目标检测可以找出图像中所有感兴趣目标,并对之进行定位和分类。作为当前主流的目标检测模型,YOLOv5 已在京张（北京—张家口）铁路等轨道交通场景开展了实际应用[13],具有强鲁棒性和高泛化能力。

光学相机及人工智能技术的快速发展,使得智能视频分析的检测方法被广泛应用于铁路安全保障领域,并取得良好的监测效果。基于此,本文研究铁路大桥人员入侵智能检测技术,构建基于智能视觉的铁路大桥人员入侵防护系统（简称：铁路大桥人员入侵防护系统）,实现对入侵人员的实时精准监测,提升铁路大桥人员入侵检测精度和防护水平,有效保障铁路运输安全。

1 系统设计

1.1 系统组成及功能

铁路大桥人员入侵防护系统由视频平台、智能视觉平台及业务管理平台组成,如图1 所示。

图1 铁路大桥人员入侵防护系统组成

1.1.1 视频平台及其功能

视频平台主要由视频监测摄像头、数据前端处理模块、数据传输模块等组成。视频监测摄像头由云台、枪机等高清摄像头组成,用于现场数据的采集；数据前端处理模块主要负责图像数据的预处理和暂时存储；数据传输模块主要负责监测数据的回传,包括网口有线传输和4G 无线回传等传输模式。视频平台支持相机注册接入及数据采集功能,支持远程视频查看、视频存储及回放等功能。

1.1.2 智能视觉平台及其功能

智能视觉平台通过实时流传输协议（RTSP,Real Time Streaming Protocol）接收视频平台的数据,通过运行深度学习模型,实时监测桥面情况；当检测到人员入侵时,产生告警信息并发送至业务管理平台。

智能视觉平台架构如图2 所示。该平台主要提供对图像与视频的智能分析能力,针对铁路海量视频与图像数据,综合运用深度神经网络技术、图像处理技术、视频流分发存储技术,实现数据的智能视觉分析与应用；以组件化的形式提供视频采集、解码、预处理、推理、跟踪、渲染、编码输出等功能,其核心是提供面向铁路场景的视频分析算法库和模型库,及推理加速能力。

图2 智能视觉平台架构

1.1.3 业务管理平台及其功能

业务管理平台支持告警信息实时查看、处理,以及历史告警信息查询、结果统计分析、数据查询等操作。

图3 所示为业务管理平台告警时抓拍记录的图片,红色线条表示绘制的危险区域,当人员进入该区域时产生告警,便于人工复核,进一步确认入侵情况。

图3 业务管理平台告警抓拍记录

1.2 检测流程

铁路大桥人员入侵防护系统的检测流程如图4所示。

图4 铁路大桥人员入侵防护系统检测流程

（1）设置相机预置位与守望位,避免人为移动相机后检测位置不准确；

（2）配置相机参数,如昼夜参数转换、分辨率、帧率、定时重启等,满足检测基本要求；

（3）配置检测区域与检测时间,当特定时间段内进入特定区域时产生告警信息；

（4）配置系统运行参数后开始识别,实时上报告警信息,并通知相关业务人员及时处理。

1.3 系统特点

铁路大桥人员入侵防护系统具有以下特点。

（1）灵活性高：支持自定义危险区域绘制,灵活设置重点关注区域位置。

（2）全天候检测：采用深度学习算法进行人员检测,可适应不同光照条件下的检测。

（3）检测精度高：支持不同远近、不同大小人体目标检测。

（4）响应速度快：连续帧实时目标检测,当有人员进入危险区域时,在1 s 内即可产生报警。

（5）可靠性高：采用连续滑窗动态检测,当在一定时间段内持续入侵时,才进行实时检测入侵情况,避免单帧误检引起的误报。

2 关键技术

桥面人员入侵检测的实时性和准确性是制约智能视频检测技术应用的关键问题。本文采用YOLOv5 目标检测模型进行人员入侵检测,该模型的网络结构主要由主干（Backbone）网络、颈部（Neck）网络和头部（Head）网络组成。

采用Backbone 网络对图像特征进行提取；采用注意力机制（Focus）+跨阶段局部（CSP,Cross Stage Partial）网络模块,以提升图像特征提取速度和检测实时性；采用Neck 网络对不同网络层的特征图进行融合,获取图像更丰富的特征信息,以提升检测的准确性；由Head 网络层输出检测结果,通过检测框的平移和校准,进一步提升检测的准确性。

2.1 Backbone 网络

Backbone 网络用于提取图像特征,供后续网络结构使用。YOLOv5 的Backbone 网络中使用了Focus模块,并设计了2 种CSP 结构,在保证模型精度的同时大幅提高推理速度；同时,使用空间金字塔池化（SPP,Spatial Pyramid Polling）模块获取不同尺度信息,提高模型性能。

2.1.1 Focus 模块

图像输入主干网络之前,先由Focus 模块对其进行切片操作,将高分辨率图像拆分成多个低分辨率图像。以一个像素为4×4×3 的输入图像为例,对输入特征图进行间隔采样,并将采样结果在通道维度进行拼接,将通道数扩充为原来的4 倍,输出像素为2×2×12 的特征图,后续的网络层都在新的特征图上进行卷积操作。

假设图像像素为640×640×3,将其输入到YOLOv5 中,经过Focus 层进行切片操作之后得到像素为320×320×12 的特征图,再与通道数为32 的卷积层进行卷积操作,最后得到像素为320×320×32 的特征图。利用Focus 切片操作将图像的平面信息转换为通道维度,可以在确保图像信息无损的前提下实现两倍下采样操作,有效提升网络推理速度。

2.1.2 CPS 结构

针对网络优化时,因存在梯度重复计算而导致的推理计算量过大问题,YOLOv5 借鉴CSPNet 思想,设计了2 种CSP 模块。其中,CSP1_X 用于主干网络,该模块将特征图按通道拆分为两部分,一部分进行标准卷积操作,另一部分利用残差网络思想构建残差组件。最后将这两部分合并得到新的特征图,以避免重复计算梯度值,提高模型推理速度。此外,CSP 结构在反向传播过程中可以增强梯度值,当主干网络的层数较深时,可以缓解梯度消失的问题,增强网络的特征提取能力。CSP2_X 则用于Neck 网络,模块使用卷积层代替残差组件,将输入的特征图分为两部分,分别计算之后再融合,以保留更多图像信息。研究表明,引入CSP 模块可有效增强模型的学习能力,能在大幅减少模型计算量的同时保证检测精度。

2.1.3 SPP 模块

SPP 模块的主要思想是将不同大小的池化层叠加在一起,每个池化层大小与感受野大小成正比,最终获取不同大小的感受野。SPP 模块将特征图并行输入到卷积核像素为5×5、9×9 和13×13 的最大池化层,得到3 个最大池化后的特征图,再将4 个感受野不同的特征图（分别为输入特征图及3 个最大池化后的特征图）拼接到一起。

2.2 Neck 网络

针对随着网络层数增加而出现的图像局部信息消失问题,YOLOv5 利用Neck 网络融合不同像素的特征图,以获取更丰富的图像特征信息,通过将这些经过处理后的特征输入到Head 层,更好地分类和定位目标。

在YOLOv5 中,Neck 网络首先接收Backbone网络的3 个不同像素的特征图,将其作为输入,采用特征金字塔网络（FPN,Feature Pyramid Network）结构对深层特征图采样后与浅层特征图融合；再采用PAN（Pyramid Attention Network）结构增加一个自底向上的特征金字塔,对浅层特征图采样后与深层特征图融合。YOLOv5 结合FPN 和PAN 结构,这种设计方式既能自顶向下传递强语义信息,又能自底向上传达强边缘信息,可以有效提高模型性能。

2.3 Head 网络

YOLOv5 在进行目标检测任务时,首先将图像输入到Backbone 网络并提取特征,将Backbone 网络提取的特征输入到Neck 网络进行加工处理,最后由Head 网络层输出目标类别。Head 网络层主要负责根据预测的位置偏移量修正候选框的位置,进而得到更加精准的检测结果。

3 现场测试

本文提出的铁路大桥人员入侵防护系统在包神铁路集团有限公司（简称：包神铁路公司）万南站区黄河大桥进行了部署和测试。

3.1 硬件部署

在包神铁路公司万南站区黄河大桥对铁路大桥人员入侵防护系统的硬件设备进行了安装、部署。黄河大桥全长856 m,南北走向。为实现桥面人员入侵检测,在大桥的南、中、北这3 个位置分别安装双摄像头,共6 个摄像头,如图5 所示,实现桥面无死角监控。采用深度学习服务器部署智能视觉平台及业务管理平台,服务器参数如表1 所示。

表1 铁路大桥人员入侵防护系统服务器参数

图5 铁路大桥人员入侵防护系统摄像头安装示意

3.2 模型训练

3.2.1 数据集与数据预处理

在黄河大桥现场,使用桥面相机采集入侵人员图像数据。该数据集覆盖不同时间段、不同天气等各种场景,包含铁路大桥人员入侵的多数情况。通过图像标注软件Labelmg 对入侵人员进行标定,共包含27 200 张图像数据。按照9 : 1 的比例划分训练集与测试集,即24 480 张图像用来训练,2 720 张用来测试。部分数据集样本如图6 所示。

图6 数据集样本

铁路桥梁类型多样,桥梁人员侵限的种类复杂,而基于有限数据进行模型训练的结果具有泛化能力差、场景适应度低等问题,这也是制约人员入侵检测精度的又一关键问题。为提高模型的泛化能力,本文采用随机裁剪、随机翻转、色彩抖动、高斯噪声、Mosaic 等图像数据增强技术,增强原始图像数据,解决训练样本不足和样本类型单一的问题,有助于 YOLOv5 目标检测模型学习到更多图像特征,提升该模型的泛化能力和场景适应能力。

3.2.2 数据集与数据预处理

本次实验所用的实验环境与超参数设置分别如表2 和表3 所示。

表2 实验环境

表3 超参数设置

3.2.3 性能评估

使用训练集数据对YOLOv5 目标检测模型进行训练,在每个训练周期（epoch）结束后计算模型损失,并更新模型参数,训练过程Loss 变化曲线如图7 所示；在训练过程中,从训练集中选择一部分数据作为验证集,用来评估 YOLOv5 目标检测模型的性能,计算该模型在不同指标下的精度和召回率等指标；使用测试集数据测试YOLOv5 目标检测模型,评估该模型在新数据上的性能。测试结果为：在测试集上人员检测的准确率为95.3%；在NVIDIA Tesla T4 设备上,单张图片平均测试时间为2 ms；人员检测的准确率与实时性均满足工程实际应用要求。

图7 模型训练过程曲线

4 结束语

本文设计了基于智能视觉的铁路大桥人员入侵防护系统。采用YOLOV5 目标检测模型和多种图像数据增强技术,提升入侵人员检测的准确率和实时性,确保模型的泛化能力与场景适应能力。该系统在包神铁路集团万南站区黄河大桥进行了部署和测试,验证了该系统的有效性和可靠性,实现了高可靠、高精度准确率、全天候实时入侵检测。

本系统可在以下方面持续优化。

（1）工作服区分法：在正常的天窗施工期间,也会有人员告警,大多数为铁路施工人员。未来,可优化深度学习模型,通过工作服区分是否为工作人员,避免误报。

（2）自适应检测区域法：由于桥面相机为多专业共用,会出现人为移动位置的情况,导致绘制的检测区域出现偏差。未来,可通过轨道区域检测等方法,自动调整危险区域,避免漏报。