基于YOLOv5 的铁路接触网异物检测模型初步研究

2024-03-15 10:15赵仲瑜唐伟忠张文辉牛超群

铁路计算机应用 2024年2期

赵仲瑜，唐伟忠，张文辉，蒲伟，牛超群

（中国铁路兰州局集团有限公司，兰州 730000）

接触网沿铁路线路上空架设，为列车输送运行所需电流。因常年暴露在野外露天环境中，接触网上容易附着鸟窝、风筝和塑料等异物，造成接触网短路和受电弓故障，是影响列车运行安全的主要隐患之一。为保证列车安全运行，在列车开行前，需要检查接触网上是否有异物附着。目前，接触网异物排查主要依赖高频率的人工巡检，作业效率较低，耗费人力物力，且人工目视检查容易因疲劳导致漏检。

目标检测是计算机视觉领域的一个基础性研究课题，研究用于识别和定位输入图像中已知特定的某个或多个物体的图像处理方法。目前，基于深度学习模型的目标检测已成为研究热点，我国铁路领域已开展了不少研究。徐鑫等人[1]对YOLO（You Only Look Once）v5 模型的目标框损失函数和检测尺度加以改进，用以检测铁路轨道上侵入的行人及动物；李兴鑫[2]构建了基于CNN 算法的、能够理解特定场景的铁路异物入侵检测方法，用于检测铁路轨道上的侵入异物。基于深度学习模型的目标检测为接触网异物自动检测提供了一种可行方法，通过接触网图像训练深度学习模型，使其能够识别图像中的异物，区分异物类型，确定异物位置。为实现铁路接触网异物自动检测，国内相关研究人员在这方面开展了积极探索。蒋欣兰等人[3]使用人工标注的鸟巢样本图像对YOLOv3 深度网络进行训练，生成鸟巢识别模型，并使用改进的直线段检测算法（LSD，Line Segment Detector）确定待检测的接触网图像中感兴趣区域（ROI，Region of Interest），即图像中可能存在鸟巢的区域，将选定的ROI 区域输入到训练好的鸟巢识别模型进行目标检测，由于大幅缩小了异物目标检测的搜索范围，能够快速、准确地检测铁路接触网上的鸟巢；王科理等人[4]将YOLOv3和Faster RCNN 两种模型用于接触网鸟窝检测，对比实验表明，Faster RCNN 的检测精度高于YOLOv3，但速度低于YOLOv3；王晓红等人[5]在接触网鸟窝检测中，对YOLOv5s 模型加以改进，将特征提取网络由CSPDarknet 替换为Efficient Net-B4 网络，提高了检测精度和速度。

鸟窝和轻质异物（如风筝、塑料等）是2 类最常见的接触网上附着的异物。本文采用3 种神经网络模型来识别接触网上附着的鸟窝和轻质异物，包括基本YOLOv5 模型、YOLOv5+坐标注意力（CA，Coordinate Attention）改进模型、YOLOv5+ConvNext Block 改进模型，利用标注好的接触网图像对这3 种模型进行实验分析。

1 基于YOLOv5 的铁路接触网异物检测模型

1.1 相关图像处理模型

1.1.1 YOLOv5 模型

YOLO 系列算法[6]是目标检测的经典算法，其主要特点是速度快、精度高。YOLOv5 模型[7]是YOLO 系列算法之一，它引入轻量级模型设计理念，可通过各种优化方法对其进行改进，能够在保持高性能的同时，实现高精度小尺寸目标检测。YOLOv5模型结构主要包括4 部分：输入端、backbone 部分、neck 部分、输出端，其简要结构如图1 所示。

图1 YOLOv5 模型简要结构示意

在利用原始图像数据进行模型训练时，先通过输入端进行图像预处理，将原始图像数据经RGB 灰度转换之后，可得到一个三维的数值矩阵CHW，如图2 所示。图2 中，C 代表通道维度，通常为3，HW 代表了空间维度，H 为高度，W 为宽度，通道维度关注图像各个点的颜色、明暗等信息，空间维度关注图像每个像素点与周围像素点的关联关系。

图2 原始图像数据经RGB 灰度转换为CHW 数值矩阵

backbone 部分具有较强的计算效率，用于完成图像数据的特征提取，其核心网络是Focus 网络和CSP1 网络；其中，Focus 网络主要负责对图像进行切片操作，CSP1 网络主要负责特征提取。

neck 部分包含的CSP2 网络用于融合来自不同特征图层次的信息，以得到更丰富的特征表达。

最后，通过输出端的CONV 网络对图像数据进行卷积运算，将运算结果带入Focal Loss 损失函数，以得到不同尺度的特征图，Focal Loss 损失函数可缓解目标检测中类别不平衡的问题。在得到不同尺度的特征图之后，再进行非极大值抑制（NMS，Non-Maximum Suppression）处理，用于筛选边界框，去除冗余的检测框，得到最终的检测结果。

1.1.2 坐标注意力机制

坐标注意力（CA，Coordinate Attention）机制，又称为CA 注意力机制，是一种深度学习技术，常用于处理序列数据，可对图像、音频等信息进行选择和归纳。

CA 注意力机制模块[8]可根据需要灵活嵌入到其它深度学习网络中。例如，将CA 注意力机制模块嵌入到网络模块A、B 之间，对应的复合网络结构如图3 所示。网络模块A 的输出作为CA 注意力机制模块的输入，CA 注意力机制模块的输出又作为下一个模块B 的输入。

图3 嵌入CA 注意力机制的复合网络结构示例

将CA 注意力机制用于处理图3 中生成的CHW数值矩阵时，能够同时考虑通道维度和空间维度的关系，并通过学习自适应地调整通道权重，使模型更关注有用的通道信息，抑制不重要的通道。CA 注意力机制模块在通道维度上通过常规卷积操作调整权重，在空间维度上将输入经过Residual 网络一分为二，分别进行宽度W 方向和高度H 方向的平均池化操作，然后将池化后的特征图拼接在一起，进行BatchNorm 网络和Non-linear 网络计算，再接着通过Conv2d 网络进行卷积运算，运算结果再利用sigmoid激活函数和Re-weight 网络，去调整CA 注意力机制模块的权重参数，计算得到的最终结果输出到下一个网络模块B。

1.1.3 ConvNext 网络

ConvNext 网络[9]是在Swin Transformer 结构上改进得到的一种卷积神经网络，具有更高准确率和更快计算速度，且具有模块化的优点，便于嵌入到其它模型中。ConvNext 网络主要由DownSample 模块和Block 模块构成，其核心是Block 模块。例如，将ConvNext 网络嵌入到网络A、B 之间，形成的一个复合网络，其简要结构如图4 所示。

图4 ConvNext 网络结构示意

网络A 的输出先经过DownSample 模块处理，得到处理结果a，主要作用是过滤掉冗余特征，减少参数数量，保留关键信息。之后，处理结果a 复制成2 份，其中一份处理结果a1 先通过深度卷积层，计算结果利用Layer Norm 技术进行归一化处理，以使网络更快地收敛；然后通过2 个大小一致的Conv2d 网络进行卷积运算，并利用Layer Scale 对图像进行缩放，接着使用Drop Path 对输出结果进行正则化处理，以防止模型过拟合。最后，计算结果与另外一份未经过处理的处理结果a2 叠加在一起，得到ConvNext 网络的输出作为下一层网络B 的输入。

1.2 接触网异物检测模型

本文研究采用基本YOLOv5 模型、YOLOv5+CA 改进模型、YOLOv5+ConvNext Block 改进模型来检测2 类接触网异物：鸟窝和轻质异物（如风筝、塑料等）。

改进模型的基本结构大致如图5 所示，将CA注意力机制模块与ConvNext Block 模块分别嵌入到YOLOv5 模型中neck 部分的第一个concat 层之后。

图5 YOLOv5 改进模型基本结构示意

2 数据集与标注

本文选取230 张原始的接触网图像，利用图像标注工具对这些图像进行标注，作为实验用数据集，用于训练和测试接触网异物检测模型。鸟窝主要出现在接触网支架上，多为椭球形，轻质异物主要为漂浮物，质地较轻，多悬挂在弓网上面。230 张原始图像中，部分图像成像质量较低，有的图像含有多种异物目标。

图像标注使用开源labelImg 软件，将原始接触网图像标注为VOC 标签格式，类别标签0 代表鸟窝（nest），1 代表轻质异物（abnormal），将标注好的图像保存为xml 文件。标注示例如图6 所示。

图6 鸟窝（nest）标签标注

为方便模型训练，还需要将标注生成的xml 格式文件转换为txt 文件。在txt 文件中，第1 个值为异物类别标签，其余4 个值分别为经过归一化处理后的图像标注框的中心点坐标（x，y）及宽（w）和高（h），将这些值与图像作为实验用数据集。

3 实验分析

3.1 实验环境与模型参数设置

实验环境配置如表1 所示。

表1 实验环境

3.2 模型参数设置

按照大约8∶2 的比例，将实验用数据集（230张图像）划分训练集与测试集，其中187 张图像用作训练集，43 张图像用作测试集。

在模型训练过程中，为了避免出现局部最优的可能性，使用随机梯度下降算法（SGD，Stochastic Gradient Descent）作为模型优化器。此外，为了加快模型收敛速度，将Yolo 官方提供的基于COCO 数据集训练的预训练权重作为初始权重，3 种模型相关参数设置如表2 所示。

表2 3 种模型相关参数

3.3 模型评价指标

采用精确率（Precision）、召回率（Recall）、交并比（IoU）、平均准确率（mAP，mean Average Precision）作为本文所研究算法的性能评价指标，对训练后的模型进行评价，对比分析这3 种模型检测鸟窝和轻质异物的效果。

对于机器学习的分类问题，TP 表示正类判定为正类，TN 表示负类判定为负类，FP 表示负类判定为正类，FN 表示正类判定为负类。

Precision 指正确预测为正的样本占全部预测为正的样本的比例，即

Recall 指正确预测为正的样本占全部实际为正的样本的比例，即

对于目标检测深度学习模型，除了需要检测出目标所属种类，还需要判定目标的位置。在进行模型训练前，对样本中的目标进行标注，得到标注框A。在应用模型进行目标检测时，会生成检测框B。IoU表示A 和B 的交集和并集的比值，用于衡量A 和B两个区域的重叠程度，即

平均精度（AP，Average Precision）是模型检测一个类别的PR（Precision-Recall）曲线与Recall 轴所围成的面积。PR 曲线图可反映样本整体预测的效果，mAP 是全部类别下的AP 的均值，用于衡量模型检测所有目标的平均精度。mAP@0.5 表示IoU 设为0.5 时的平均精确度，mAP@0.5:0.95 表示IoU 从0.5到0.95，步长为0.05 时的平均精确度。mAP 的值越大，代表检测框的位置更加准确。

3.4 结果分析

YOLOv5 模型、YOLOv5+CA 改进模型、YOLOv5+ConvNext Block 改进模型实验结果对比见表3。

表3 3 种模型实验结果对比

由表3 可知：

（1）对于总体样本（all），YOLOv5+ConvNext改进模型在Precision、Recall、mAP 指标上均优于YOLOv5 模型和YOLOv5+CA 改进模型，Precision和Recall 比YOLOv5 模型分别提高7.7% 和8.5%，mAP@0.5 提高8.1%；YOLOv5+CA 改进模型效果次之，Recall、mAP@0.5:.95 均贴近YOLOv5+ConvNext改进模型，YOLOv5 模型的检测效果最差。

（2）从不同类型目标的预测结果来看，3 种模型识别鸟窝（nest 标签）的Precision 略高于轻质异物（abnormal 标签），且识别鸟窝的Recall 低于轻质异物，表明这3 种模型检测鸟窝的Precison 相对较高，其中 YOLOv5+ConvNext Block 改进模型识别鸟窝的检测效果最好。计算生成YOLOv5+ConvNext Block改进模型的PR 曲线图，如图7 所示。当召回率达到0.9 附近时，精确率与召回率处于比较平衡的位置，超过该值之后，精确率大幅下降。鸟窝样本曲线与Recall，Precision 轴相交的面积要大于轻质异物样本曲线，也从另一个方面表明：YOLOv5+ConvNext Block 改进模型检测鸟窝的效果较好。

图7 YOLOv5+ConvNext Block 改进模型的Precision 和Recall关系曲线

（3）图8 给出了一个小尺寸目标检测结果示例，图中的接触网上悬挂着一个体积较小的塑料薄膜，YOLOv5 模型和YOLOv5+CA 改进模型均未检测出（对应于图8（a）），图8（b）为YOLOv5+ConvNext Block 改进模型的检测结果图，相较于其它两种模型，YOLOv5+ConvNext Block 改进模型能够更好地检测出小尺寸目标，且置信度为0.69，处于一个较高水平。

图8 YOLOv5 模型与YOLOv5+ConvNext Block 改进模型的检测结果对比示例

4 结束语

本文在YOLOv5 算法的基础上，构建基于深度学习的接触网异物检测模型，利用包含鸟窝和轻质异物的接触网图像数据集，对比分析YOLOv5 模型、YOLOv5+CA 改进模型和YOLOv5+ConvNext Block改进模型的识别效果。实验结果表明，在识别和定位鸟窝和轻质异物2 种常见的接触网异物方面，本文提出的2 种改进模型相对于YOLOv5 模型具有更好的性能，且YOLOv5+ConvNext Block 改进模型在检测小尺寸异物方面的能力较强。

本文通过建模实验，初步探讨了利用基于深度学习的目标检测技术实现铁路接触网异物检测的可行性。本文研究采用的接触网图像数据集仅包含鸟窝和轻质异物2 类常见异物，对3 种模型的识别效果的对比分析只限于这两类异物。鲁棒性和计算复杂性是目标检测的两大挑战，考虑到技术的实用化，后续研究将在丰富和扩充接触网图像数据集的基础上，在提高模型识别更多类型目标能力的同时，进一步研究提高模型的计算效率，加快推动铁路接触网异物检测技术的成功应用。