胡雪霏,李丞鹏,陈俊海,刘书浩,宋晓敏
(1.交通运输部科学研究院,北京 100029;2.城市轨道交通运营安全管理技术及装备交通运输行业研发中心,北京 100029;3.北京中天路通智控科技有限公司,北京 100036)
近年来,南宁、深圳、成都等多个城市地铁保护区陆续发生钻机施工击穿隧道的险性事件[1],造成隧道及列车受损、司机受伤、运营延误等严重后果,给乘客人身安全带来了重大隐患。据不完全统计,仅2021 年,我国就发生了6 起因外部勘探等施工作业打穿地铁隧道的事件。为加强地铁保护区管理,《城市轨道交通运营管理规定》(中华人民共和国交通运输部令2018 年第8 号)以及各城市轨道交通管理规定中均对地铁保护区的作业和巡查提出了要求。然而目前各城市地铁保护区巡查主要依靠人工[2],工作量大、投入较高且效率较低,不仅难以覆盖所有区域,而且巡查效果受人员自身素质、专业素养等因素影响较大。因此,单纯的人工巡查无法解决地铁保护区面临的安全隐患[3]。
图像识别技术的发展为地铁保护区管理提供了新思路,如:Lablack等[4]通过监控摄像机分析乘客的停止、移动和观看等行为,以判断其对物体的兴趣;Ko[5]提出了可疑人类行为检测方法,将基于行为分析的视频监控应用于公共安全领域;Hu等[6]结合空间、距离和类型的特征,对交通监控视频中的典型和异常行为进行了识别。我国各大城市也在探索利用新型监测技术手段提升地铁保护区的安全管理水平,如:武汉地铁针对武汉市的特殊地质条件,研究了地铁保护区变形安全监测的方案设计、实施及控制指标,梳理出了主要安全风险因素[7];南京地铁[8]结合移动互联网、地理信息系统(Geographic Information System,GIS)与全球卫星导航系统(Global Navigation Satellite System,GNSS)定位技术,研发了轨道交通保护区信息化巡查执法智能管理系统及配套手持终端,提出了巡查结果动态查询、历史项目和案件回溯及数据智能分析算法,以加强地铁保护区巡查执法管理;北京地铁通过保护区既有部分地质、水文、管线、设施等基础数据融合技术、北斗卫星遥感、保护区电子围栏、地面线视频监控、无人机自动巡查、自动化监测等关键技术研究,搭建了保护区管理平台[9]。
综上所述,国外关于图像识别技术在地铁中的应用研究主要集中在乘客行为分析和监测方面,国内大部分地铁保护区的研究侧重于施工管理过程中的变形监测[10-13],以及施工管理全过程的信息化平台研发[14-15],对于智能监测和巡查手段的准确率和有效性研究相对不足。为此,本文拟针对地铁保护区施工钻机的图像特点,开展基于智能图像识别的地铁保护区内钻机作业监测方法研究,从图像识别准确率、识别速度、功能参数影响等方面进行对比分析,评价深度学习方法在地铁保护区钻机图像识别中的应用性能,旨在为增强地铁保护区内钻机施工识别的及时性和准确性提供支撑。
图像识别主要是通过对图像特征的提取和分析,实现对信息的处理和识别。由于普通的机器学习模型无法对物体大小、形状、状态等多样性进行有效识别,21 世纪前的图像识别方法仅处于实验室水平。深度学习[16]是基于深度神经网络的机器学习,更适合解码复杂的、高维的、隐秘的特征。2010 年以来,随着深度学习的普及,关于图像识别的研究蓬勃发展,R-CNN(Regionbased Convolution Neural Networks)系 列、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等基于人工神经网络的图像识别算法应运而生。Faster R-CNN[17-18]是R-CNN 系列的最新成果,它是目前准确率最高的图像识别算法之一,但识别速度相对较慢。SSD[19]同时借鉴了YOLO 和Faster R-CNN,既有YOLO 速度快的优点,又有Faster R-CNN 识别准的优点,但调试过程较多依赖经验。YOLO[20]是基于CNN 的深度学习模型在图像识别中的典型应用,通过不断改进和迭代成为YOLOv4 模型,其在网络结构、训练策略等方面都有了较大变化,能够同时保证准确率和检测速率,具有较好的检测效果。各种算法的优劣势比较和适用场景如表1所示。
表1 图像识别算法适用性比较
结合表1 中3 种算法的优劣势和适用场景,考虑到地铁保护区的钻机识别对于速度和时间的要求较高,且钻机本身目标相对较大,YOLOv4算法的成熟度和适用性更高,因此本文选择采用YOLOv4算法构建钻机识别模型。
YOLOv4 算法是在YOLO 目标检测架构的基础上,对数据处理、主干网络、网络训练、激活函数、损失函数等多方面进行了优化。YOLOv4网络主要分为Input,Backbone,Neck 和Head 共4层,其中:Input 层负责输入图片用于训练,即输入层;Backbone层负责特征提取,利用Mish 激活函数提高网络性能;Neck 层负责对提取到的信息进行池化以及特征融合操作;Head层负责输出检测结果。同时,考虑到地铁保护区的钻机具有图像隐蔽、不易识别的特点,在YOLOv4 模型训练过程中应用了马赛克(Mosaic)数据增强和学习率余弦退火算法,以进一步提升模型的性能。
在训练过程中,首先从总数据集中取出一定批量数据,每次从中随机选取4 张图片,进行随机位置的裁剪拼接,合成1张新图片,重复N次,最后得到N个经过马赛克数据增强后的图片数据集,再反馈给神经网络进行训练,如图1所示。
深层神经网络训练难度高主要是因为学习过程容易陷入局部最优,模型无法进一步更新参数。学习率退火算法可在每个批量数据训练后将学习率减小一点,当减小到规定值后马上增大到初始值,然后循环这一过程。余弦退火可以通过余弦函数来降低学习率。在余弦函数中,随着自变量x的增大,余弦值先缓慢减小,然后加速减小,之后再次缓慢减小。学习率与余弦退火的结合,将获得较好的学习效果(如图2所示)。
权重衰减也称L2正则化,其目的是让权重衰减到更小的值,在一定程度上减少模型过拟合的问题。其表达式为在损失函数后面再加上一个正则化项,如式(1)所示。
式(1)中:C为正则化后的损失函数;C0为原始的损失函数;λ为权重衰减系数;w为权值;n为训练集大小。
权重衰减使得权值w更小,根据奥卡姆剃刀原理,一般情况下网络的复杂度越低,模型对数据的拟合越好。
本次地铁保护区钻机实验中共使用1 682 张图片进行测试。在打好标签后,将其中的90%,即1 514 张图片划为训练集参与测试,10%即168张图片划为测试集。在1 514 张训练图片中,选取10%即151 张图片用于验证计算损失,最后基于168张测试图片计算模型的各项评价指标。
钻机识别模型的评价指标包括精确率P(Precision)、召回率R(Recall)、调和平均数F1、平均准确率AP(Average Precision)及帧率FPS(Frame per Second):
(1)精确率P,也称查准率,是针对预测结果而言的,即预测为正的结果占总预测样本的百分比,如式(2)所示:
式(2)中:TP 为预测为正的样本数;FP 为预测为负的样本数。
(2)召回率R,也称查全率,是针对原样本而言的,即在全部为正的样本中被预测为正样本的概率,如式(3)所示:
式(3)中:FN表示实际为正但未被预测出的样本数。
(3)调和平均数F1。由于在某些极端情况下,P和R是矛盾的,需要以牺牲其中一个指标为代价来最大化另一个指标。为使结果更加均衡和客观,取F1为综合评价指标,即精确率和召回率的调和平均数,如式(4)所示:
(4)平均准确率AP。AP是P -R曲线中P对R的积分,本质上是P关于R的加权平均数,它可以更准确地衡量模型的整体精确率,如式(5)所示:
(5)帧率FPS。FPS 是衡量模型速度的一个指标,它表示模型每秒能够处理的图片数量。
3.3.1 YOLOv4模型结果分析
实验结果中,钻机标签的精确率和召回率关于置信度阈值的曲线如图3 所示。其中,横坐标为置信度阈值,高于该阈值判为正例(含有钻机),反之则为负例。
从图3 中可以看到,精确率P随置信度阈值的增大而增大,即判定标准越严格,精确率越高;而召回率R正好相反,随置信度阈值的增大而减小,即判定标准越严格,召回率越低。当阈值取0.5 时,模型的精确率P和召回率R分别为91.43%和92.75%,均处于较高水平。
钻机标签的P-R曲线如图4所示。
调和平均数F1关于置信度阈值的曲线如图5所示。经计算,模型中钻机标签在测试集中的平均准确率为94.03%,并且F1在置信度阈值为0.854 5时达到最大值。
实验中构建的钻机识别模型对钻机图片的识别效果如图6所示。
3.3.2 参数敏感性分析
(1)功能叠加对平均准确率的影响
为了对比不同的技术功能参数对识别结果的影响,通过调节YOLOv4 算法模型,分别叠加Mosaic 数据增强、学习率余弦退火算法两种功能,最终得到的平均准确率如表2所示。
表2 不同算法功能组合对平均准确率的影响
从表2 可以看出,Mosaic 数据增强和学习率余弦退火算法均对提升模型的平均准确率有明显作用,其中单独使用Mosaic 数据增强功能可以将平均准确率提升2.06%,单独使用学习率余弦退火算法可以将平均准确率提升1.22%,二者同时使用时平均准确率最高,为94.03%,提升了3.79%。
(2)权重衰减系数对平均准确率的影响
为得出平均准确率的最优值,在上述效果最好的功能组合的基础上,改变权重衰减系数λ,观察对比不同λ对平均准确率的影响,结果如图7所示。
由图7 可以看出,总体上,当权重衰减系数处于低值区间时,权重衰减系数越高,平均准确率越高;当权重衰减系数处于较高值区间时,权重衰减系数越高,平均准确率反而越低。这是因为合理的权重衰减系数可以减小参数,避免过拟合,提高模型在测试集上的准确率;当权重衰减系数过高时,参数变得过小,训练对参数几乎没有影响,平均准确率就会降低。计算结果显示,当权重衰减系数取0.000 1 时,平均准确率最高,达到98.23%。
3.3.3 不同模型的结果对比
为了验证YOLOv4 模型对于地铁保护区中钻机识别的适应性,另外选取了Faster R-CNN,SSD,YOLOv3 这3 种常见的图像识别算法模型,对4 种模型的精确率、召回率、F1值、平均准确率和识别速度进行对比,结果如图8 所示。从图8 可以看出,YOLOv4 模型在精确率、召回率、F1值、平均准确率以及帧率5 个指标方面均优于Faster R-CNN,SSD 和YOLOv3 模型,说明YOLOv4模型对于钻机识别的适用性较好。
采用基于图像识别技术的智能监测方法,可协助对地铁保护区沿线安全状态的全天候、全方位监测,实现事件信息采集的精确化、信息传递过程的网络化、监督管理过程的实时化,是加强地铁保护区安全管理工作的有效技术手段之一。本文基于深度学习的图像识别技术,结合钻机图像的识别特点,构建了地铁保护区钻机检测方法,并通过实验验证了不同参数设置对模型性能的影响,分析了常见的4 种模型对于钻机识别的精确率、召回率、F1值、平均准确率和帧率的实验结果。实验结果显示,YOLOv4 模型的识别效果较为理想,可作为地铁保护区钻机识别的模型之一。本文主要针对地铁保护区施工常见的钻机识别进行研究和验证,模型的样本量相对较小,适用范围较为单一。未来在实验条件允许的情况下,可增加安全帽、反光背心、头盔等更多地铁保护区施工作业常见的工具进行多模型的识别对比,以扩大模型的适用范围,更好地为地铁保护区监测提供技术支撑。