基于卷积神经网络的航拍视频轨道异物检测方法*

2022-12-13 03:32俞军燕黄皓冉邢宗义

城市轨道交通研究 2022年10期

俞军燕黄皓冉杨毅邢宗义

(1.广州地铁集团有限公司， 510335，广州； 2.南京理工大学自动化学院， 210094，南京∥第一作者，高级工程师)

随着我国列车运营速度的不断提高，对列车运行安全的要求也不断提高。轨道异物检测是保证轨道线路安全运营的一项重要措施，对其进行研究具有重要意义[1-2]。由于异物侵限事件的发生具有突发性、无规律可循及不可预测等特点，而人工巡检等传统方法成本高且可靠性低，因此国内外提出了众多轨道异物侵限的检测方法。根据原理的不同，轨道异物侵限检测方法可分为接触式和非接触式两种[3]。接触式异物检测方法主要使用双电网传感器技术和光纤光栅传感器技术构成的防护网式检测系统。非接触式异物检测方法主要采用激光、红外、微波或机器视觉等方式。机器视觉技术因设备成本低、维护方便及可视化效果好等优点，在非接触式异物侵限检测系统中得到越来越多的应用。

相比于传统的定点架设相机的轨道异物检测系统，无人机巡检具有成本低、易携带、检测范围广及维护简单等特点。现有的轨道异物检测算法多对于定点架设相机拍摄的视频图像进行研究，仅能处理静态背景的视频图像。文献[4]利用霍夫变换检测感兴趣的轨道区域，并利用轮廓提取方法对轨道区域进行系统搜索；文献[5]结合形态学处理和渐进概率霍夫变换方法进行轨道区域提取，并设计了1套结构元素来增强提取效果；文献[6]使用自适应背景差分法提取入侵目标，通过K-means算法对光流矢量的聚类进行目标识别；文献[7]采用改进的高斯混合模型，对轨道线路视频进行背景建模，并对背景像素与前景像素的贝叶斯分类进行检测；文献[8]采用基于支持向量机与Kalman滤波的目标分类及跟踪算法对异物目标进行识别。上述算法均无法完全消除光照条件变化、相机抖动等干扰因素对检测结果的影响。

近年来，CNN(卷积神经网络)在图像分类、模式识别等领域取得了出色的成绩。由于其特征提取能力强与鲁棒性好，研究人员开始尝试使用其解决轨道异物检测问题。文献[9]采用CNN模型对异物目标进行快速特征提取，能够较好地提取不同光照条件下物体的特征信息，从而消除光照条件变化、相机抖动等干扰因素对检测结果的影响，证实了CNN方法的可行性。但由于该方法采用手工划定检测范围，仍无法处理无人机拍摄的动态背景视频图像。

针对现有轨道异物检测算法的不足，本文提出了一种基于CNN的航拍视频轨道异物检测方法。该方法首先根据轨道特有直线特征，使用边缘检测、直线检测等算法提取待检测的轨道区域；然后使用改进的MobileNet CNN模型与视频多帧关联算法对提取的轨道区域进行检测，实现对航拍视频图像的轨道异物检测。本方法总体流程如图1所示。

1 轨道区域提取

由于航拍视频图像视场较大、信息复杂且轨道安全界限在视频图像中的位置不固定，因此难以直接使用CNN模型对原始图像进行异物检测。本文针对这一问题，对原始图像进行处理，自动划定轨道安全界限，筛选出有用的完整轨道区域。包括Canny边缘检测、概率hough变换、设置轨道区域界限及透视变换。

1.1 Canny边缘检测

Canny边缘检测算法是一种多级检测算法，不易受噪声干扰，对于弱边缘检测效果较好，因此，本文采用该算法进行图像边缘检测。该算法主要包括高斯平滑滤波、计算梯度幅值和方向、对梯度幅值进行非极大值抑制、双阈值算法检测与连接边缘等4个步骤。本文双阈值算法高阈值设为120，低阈值设为70。Canny边缘检测结果如图2所示。

1.2 概率hough变换

Hough变换是一种使用表决原理的直线检测算法，其基本原理是通过点线的对偶性，将源图像上的点影射到用于累加的参数空间，把原始图像中给定直线的检测问题转化为寻找参数空间中的峰值问题。其变换公式如下：

ρ=xcosθ+ysinθ

(1)

式中：

(x,y)——图像坐标系中点的坐标；

ρ、θ——参数空间中的对应参数。

然而传统Hough变换计算量较大，检测速度较慢，因此，本文使用概率Hough变换进行直线检测。概率Hough变换是在Hough变换的基础上，对边缘图像上的前景点进行随机采样，在变换后形成的参数空间中进行投票，当累加值大于阈值时即认为存在直线。该算法不像Hough变换对全部边缘点进行计算，而是仅抽取部分边缘点进行计算，因此减少了计算量，提升了算法速率。本文设定累加阈值为100。概率Hough变换结果如图3所示。其中，图3 a)为图像中只包含单条轨道的检测结果，图3 b)为图像中包含多条轨道的检测结果。从图3可见，由于轨道曲率变化、周围碎石及光线变化等的干扰，检测结果中轨道被分为了多条线段，且检测结果中包含了较多的干扰线段，因此还需作进一步处理。

1.3 设置轨道区域界限

为了提取完整的轨道区域，首先需将被分割的多条线段进行合并。本文方法中两条线段是否需要被合并，主要取决于3个条件：两条线段中最靠近的两个端点间的横向距离小于阈值dx，纵向距离小于阈值dy，以及两条线段的斜率之差小于阈值kt。仅当两条线段满足上述3个条件时，两条线段才会合并，合并后的线段为两条线段中距离最远的两个端点间的连线。

根据轨道必为连续的长直线，对合并后的线段进行筛选，保留长度大于阈值L的线段。对所有保留的线段进行配对，从左向右依次将线段与其右侧斜率之差小于kt的最邻近线段进行匹配，提取两条线段间距离在[t1,t2]内的线段，根据轨道特有直线特征判断所提取线段关系，确定相应的轨道位置。

确定图像中相应轨道位置后，根据图像平面的轨道区域宽度，将各轨道位置的左、右边界各向外扩展1个轨道宽度，即可得到待检测的轨道区域界限。

1.4 透视变换

无人机飞行过程中易受到环境因素干扰，无法确保拍摄的轨道区域为矩形区域。如图3 a)所示的轨道区域即为梯形区域，而CNN训练与测试的输入均为矩形图像。因此，需使用透视变换将轨道区域变换为矩形区域。

经上述步骤，即可得到有用且完整的轨道区域图像。轨道区域提取示例如图4所示。

2 基于改进的MobileNet模型的轨道异物检测

2.1 改进的MobileNet模型

CNN是当前图像理解领域的研究热点，近年来广泛应用于模式识别、图像分类等领域。该模型具有结构简单、鲁棒性强、图像旋转与平移时高度不变性等优点。常用的网络模型有AlexNet、VGGNet[10]、GoogLeNet、ResNet、MobileNet[11]等。其中，MobileNet是一种以VGGNet为基础，使用深度可分离卷积替换标准卷积的轻量化网络模型。其计算量与参数数量大幅度减少，适用于移动和嵌入式设备。

由于MobileNet理论模型与在轨道线路场景实际应用之间具有一定差异，将该模型直接应用于轨道异物检测存在较多问题，且检测效果不佳。首先，由于模型激活函数大量使用ReLU(修正线性单元)函数，对于轨道异物检测这类背景相似度较高的场景，在训练过程中易使过多神经元死亡，影响模型检测效果且收敛速度较慢。其次，异物的大小形态各异，由于模型仅使用3×3小尺寸卷积核，前几层网络的局部感受野也有限，模型难以提取较好的特征，影响模型检测效果。此外，本文中轨道异物检测只关注轨道区域内是否包含异物，属于二分类问题，而MobileNet模型为1 000分类网络模型，原分类网络对这类相似度较高的二分类问题拟合效果不好，且自制数据集的图片数量远少于原分类网络所需的图片数量，难以较好地训练原分类网络。

本文以MobileNet网络模型为基础，设计了一种用于轨道异物检测的改进MobileNet网络模型，其结构如图5所示。

具体改进方法如下：针对MobileNet模型中过多神经元死亡的问题，本文使用ELU(指数线性单元)函数替代ReLU函数，同时在步长为2的深度卷积层后加入dropout层稳定模型进行训练，加速模型收敛。ELU函数如下所示：

(2)

式中：

a——梯度系数;

x——输入变量。

相比于ReLU函数，ELU函数可以将激活单元的输出均值向0逼近，减少偏移效应进而使梯度接近于自然梯度，从而修正数据分布，防止出现过多神经元死亡，提升模型的收敛速度与训练效果。

针对MobileNet模型前几层网络的局部感受野有限的问题，本文使用扩张率为2、步长为1的空洞卷积替换第1层步长为2的标准卷积，并将第2层深度可分离卷积中的深度卷积的步长改为2，以适应后几层深度可分离卷积层输入图像的分辨率。空洞卷积相比于标准卷积，能够在不降低分辨率的情况下扩大感受野，以捕获更多的多尺度上下文信息，且不会增加参数数量与计算量。加入空洞卷积后可有效提升前几层网络的感受野范围，提升模型特征的提取效果，提高模型的检测效果。

针对MobileNet模型分类网络训练效果差的问题，本文使用SVM分类器替换由全连接层组成的原分类网络。SVM分类器是一种二分类模型，其学习策略为间隔最大化，可形式化为一个求解凸二次规划的最优化算法。该分类器对于小样本训练集效果较好，且具有较好的鲁棒性。因此，本文使用SVM分类器，以适应自制数据集图片数量及类别数量，防止模型过拟合，提升模型训练效果。

2.2 视频多帧关联

视频多帧关联是指根据视频的连续性，剔除断续出现的单帧检测结果的虚假检测目标，从而有效降低视频检测的虚警率。本文利用视频帧间相关性对单帧图像轨道异物检测结果做进一步处理，具体为：任取连续的3帧图像，若第k帧与第k+2帧图像的检测结果均为无异物，而第k+1帧图像的检测结果为有异物，则判定第k+1帧图像的检测结果有误，需对k+1帧图像的检测结果进行修正。同时，根据异物在视频中位置的连续性，通过连续N帧检测结果判断轨道区域是否存在异物。当连续N帧图像均检测到有异物时，判定轨道区域存在异物。

3 试验结果与分析

3.1 数据集与模型训练

本文使用无人机在某段轨道线路采集共10段包含人、树枝、木板、纸盒等异物的航拍视频，相机的分辨率为1 280像素×720像素，无人机飞行高度为4～6 m。对其中4段视频进行单帧拆分，得到5 900张原始图像。对原始图像进行轨道区域提取并对提取后的图像进行人工标注，之后使用翻转、平移、改变亮度与对比度等操作进行扩充，最终建立训练验证集的图片数量为11 000张：训练集的图片数量为8 800张，验证集的图片数量为2 200张。其余6段视频用于测试。

试验使用Tensorflow神经网络学习框架，以Anaconda4.5.11的Spyder(Python3.7)作为仿真平台，电脑配置的CPU(中央处理器)为I5-7600 3.5 GHz、16 GB内存、GPU(图形处理器)为NVIDIA GTX1050，使用Numpy、Tensorflow1.13.1、Keras 2.2.4等软件，搭建改进后的MobileNet网络模型并使用自制样本数据集对其进行训练。训练参数设置为：dropout层系数为0.2；ELU函数系数为0.1；使用随机梯度下降法，初始学习率为0.01，学习衰减率为0.000 1，动量参数为0.99。改进后的MobileNet网络模型训练损失函数曲线如图6所示。

3.2 轨道区域提取效果评估

本文轨道区域提取方法输入图像为1 280像素×720像素的彩色图像。试验参数设置为：横向距离阈值dx=10像素，纵向距离阈值dy=25像素；两条线段的斜率之差阈值kt=0.1，线段长度阈值L=100像素；单条轨道场景线段间距离范围t1=100像素，t2=180像素；多条轨道场景线段间距离范围t1=40像素，t2=120像素。轨道区域提取结果如图7所示。

从图7中可见，对于包含单条轨道与多条轨道的航拍图像，该算法均能将图像中的所有轨道区域完整地提取出来。因此，可将提取的轨道区域图像直接送入CNN进行检测。

3.3 轨道异物检测效果评估

为验证本方法的有效性，使用检测率与虚警率作为精度评价标准，对视频检测结果进行定量评价。检测率RD与虚警率RF的计算公式分别为：

(3)

(4)

式中：

Ncorrect——检测正确的异物数目；

Nwrong——检测错误的异物数目；

Nall,v——视频中的异物总数；

Nall,c——检测到的异物总数。

3.3.1 MobileNet模型各改进部分有效性分析

为了对本文提出的各改进部分的作用进行评价，本文以Mobile Net网络模型为基础对各改进部分性能进行有效性分析，检测结果如表1所示。表1中，Mobile Net表示基础网络模型，E表示使用ELU函数替代ReLU函数，D表示使用空洞卷积，S表示使用SVM分类器替换全连接层。

表1 MobileNet模型各改进部分检测结果对比

从表1中可见，各改进部分能够有效地提升模型检测效果，提高模型的检测率，降低模型的虚警率。

3.3.2 轨道异物检测结果

使用VGG16模型、Mobile Net模型及本文改进的模型分别对6段测试视频进行检测。其中，VGG16模型的分类网络中全连接层的神经元数由4 096改为512，以适应数据集图片数量。视频多帧关联参数N为6。轨道异物检测结果如表2所示。表2中，VGG16S模型表示VGG16模型的分类网络由全连接层替换为SVM分类器。本文方法检测效果如图8所示。其中，safe表示检测结果为轨道区域无异物，danger表示检测结果为轨道区域存在异物。

表2 轨道异物检测结果

从表2中可见，本文模型的RD与RF均优于VGG16模型和MobileNet模型，且模型参数数量也均低于VGG16模型和MobileNet模型。从图8中可见，本文方法能够对形态、大小各异的多类型异物进行有效检测。

3.3.3 轨道异物误检结果分析

本文方法误检结果如图9所示。从图9 a)中可见，当木板刚进入视场时，由于其成像面积较小，且其特征与轨道枕木相似，导致检测结果出现漏检。从图9 b)和图9 c)中可见，由于图9 b)中左上角部分轨道的干扰，轨道区域提取算法仅提取了部分轨道区域，导致检测结果出现误检。

4 结语

本文提出了一种基于CNN的航拍视频轨道异物检测方法。首先根据轨道特有直线特征，通过Canny边缘检测、概率Hough变换、线段合并与筛选、透视变换等操作提取待检测的轨道区域；对MobileNet模型进行改进，在此基础上对单帧图像的轨道区域进行检测分类；利用视频多帧关联对单帧图像轨道区域的检测结果进行优化，得到最终的视频轨道异物检测结果;并对自制航拍数据集进行训练与测试。试验结果表明，本文方法在该数据集上的RD为90.48%，RF为7.32%，能够有效地对无人机拍摄的动态背景视频图像进行轨道异物检测。在下一步工作中，将对轨道区域的提取方法做进一步优化；提高网络模型对小目标轨道区域的检测精度，并添加新的轨道场景类型，提高网络模型的泛化性能。