陈太光,鲍新平,汪 涛,李瑞斌
(1.国家能源集团新疆能源公司,新疆 乌鲁木齐 830000;2.陕西航泰电气股份有限公司,陕西 西安 710199)
随着煤矿智能化水平的提高,煤矿安全管理也越来越精细化,对新技术的要求也更加迫切。针对不断开采延伸的煤矿巷道来说,如何精确地定位每个巷道的人员分布、数量和异常情况对于煤矿安全管理来说至关重要。对于矿井人员的定位计数,传统的方式多采用红外探测、UWB、LoRa 等无线通信技术。但红外探测只能探测通过某个截面的人数,当多人并列行走出现遮挡时,红外探测并不能准确识别出人员的数量[1];对于UWB 超宽带定位技术,需要部署通信基站,工程造价昂贵,并且UWB 定位需要每个下井人员佩戴电子标签,假如电子标签丢失、损坏也会造成定位偏差等情况[2]。
随着深度学习目标检测和跟踪技术的发展以及矿井巷道监控相机的覆盖,使用深度学习图像处理技术对矿井巷道人员进行实时统计分析成为研究热点[3]。相比传统的矿井人员计数技术,利用监控相机可见光进行成像,通过深度学习神经网络技术对所监控的可视区域人员进行实时监控、统计分析、及时预警,不仅可以做到事后溯源,施工成本低,而且计数准确率和实时性相对可靠。
为此,利用深度学习图像识别技术,基于多目标检测和跟踪算法对矿井巷道人员进行实时分析,针对矿井下特殊的成像环境,通过对现有多目标跟踪算法进行改进,实现对矿井巷道人员的进出数量进行准确统计。
使用深度学习多目标跟踪实现的计数方法[4]已在多个场景中得到研究和应用。例如,使用多目标跟踪算法,在智能交通方面进行了监控视频中车流量计数的应用研究[5-6];在养殖产业的自动化方面实现对羊只自动计数的应用研究[7];在人员计数方面,实现行人实时检测与跟踪,对地铁客流量的统计进行了应用研究[8]。可见多目标跟踪[9-10]在目标计数方面已经得到广泛的应用。
基于深度学习的多目标跟踪技术包括2 阶段方法和单阶段方法2 大类。
2 阶段方法是指基于检测的跟踪算法,检测模型用于目标定位,数据关联模型实现跟踪,检测和关联分2 步进行,例如,SORT 或DeepSORT 结合检测算法来实现目标跟踪。其中SORT 算法可结合了卡尔曼滤波器和匈牙利算法,实现了视频帧到帧的预测和关联,结合检测模型可以实现在线和实时跟踪,达到了同时期最先进的目标跟踪性能;Deep-SORT 算法延续了SORT 算法实现简单和实时运行的优点,同时整合了外观特征,对于长时间遮挡的目标,大大减少了跟踪ID 的切换。
单阶段方法是指检测模型和数据关联模型共享特征同时进行,不需要依赖单独的检测算法。其中JDE 算法联合检测和关联,将外观嵌入模型合并到单次激发检测器中,可以同时输出检测信息和相应的外观嵌入信息,降低了计算成本;CenterTrack 算法给出了1 个基于点的联合检测和跟踪框架,通过在1 对图像上执行检测,并结合先前帧的目标检测结果来估计当前帧的目标运动情况,达到实时的跟踪效果;FairMOT 算法认为以往的单阶段跟踪算法偏向于检测任务,对Re-ID 任务不公平,容易导致ID切换,提出了基于无锚框目标检测体系结构Center-Net 的公平跟踪算法,减少了ID 切换。
YOLO 系列目标检测算法已经发展得很成熟,在目标检测领域取得了卓越的效果,YOLO+Deep-SORT 实现目标跟踪的方案已经被广泛应用在各个行业,也是目前最受欢迎的多目标跟踪方案之一。YOLO 算法在煤矿行业同样得到广泛应用,基于YOLOv3 算法已在多个项目中实现了对矿井巡检人员进行持续的检测跟踪,用于判断井下工作人员巡检时是否存在漏检行为,和对矿井下安全帽佩戴进行的检测,但是对于矿井人员计数方面研究较少。
由于环境的特殊性和复杂性,视频成像夹杂大量噪声,直接使用YOLO+DeepSORT 模型用于矿井人数统计还存在一些缺陷。在DeepSORT 中,对于目标不存在遮挡的情况,跟踪效果主要取决于检测模型的检测效果,当存在遮挡时,目标的特征提取也显得很重要。在原本的DeepSORT 结构中,使用了1 个CNN 网络用于提取目标特征,但是原本的CNN 网络结构过于简单,没有提取到更丰富的目标特征。矿井环境下光照不足画面模糊的情况很多,实验表明,对于这种情况跟踪效果不佳,出现ID 切换的情况较多,跟踪不准确的情况如图1。
图1 跟踪不准确的情况Fig.1 Examples of inaccurate tracking
如图1,当发生遮挡之后又重新出现的人,ID 发生了切换,图1(a)中ID 为7 的人被遮挡后重新出现,图1(b)中ID 变成了9;对于大灯照耀或者光照不足的情况下,也容易跟丢,如图1(c)和图1(d)情况。
基于上述原因,针对DeepSORT 进行改进,再结合YOLOv5 检测算法,实现矿井下人员的稳定跟踪计数。
针对DeepSORT 的目标特征提取部分进行改进,使用Re-ID 特征提取模型OSNet 代替原本的CNN 模型。OSNet 是1 个使用深度可分离卷积代替传统卷积的轻量级网络,它通过设计1 种由多个卷积特征流组成的残差块,每个残差块检测一定尺度的特征来实现全尺度特征学习。在矿井里面,工人穿着基本统一,使得不同人之间的差异很小,特别是在画面稍有模糊的情况下更是如此,为了正确匹配同一个人和区分不同的人,局部小区域的特征和整体身体区域的特征是同样重要的,支持全尺度特征学习的OSNet 正符合这样的需求。此外,OSNet 具备轻量的特点,更适合用在矿井安全监控设备等算力有限的环境中。
在OSNet 中,构建块由多个感受野的不同卷积特征流组成,每个特征流所关注的特征尺度由1 个维度因子决定,维度因子跨流线性增加,以确保每个块中捕获不同尺度,然后通过聚合门动态融合得到的多尺度特征图。OSNet 构建块示意图如图2。
图2 OSNet 构建块示意图Fig.2 Building block schematic of OSNet
由图2 可知,聚合门可以根据特定的输入图像,通过为特定的尺度分配主导权重来聚焦于单个尺度,它可以自适应混合,对多尺度特征进行动态聚合,从而产生异构的全尺度特征。
另外,为了减少参数的数量,OSNet 采用了深度可分离卷积,将标准卷积分为点卷积和深度卷积2层,计算量由h*w*k2*c*c′减少到了h*w*(k2+c)*c′,参数个数由k2*c*c′减少到了(k2+c)*c′。其中:
h 为高;w 为宽;k 为卷积核大小;c 为输入通道的深度;c′为输出通道的深度。
算法总体流程如图3。
图3 算法总体流程图Fig.3 Algorithm process
视频每一帧图像通过YOLOv5 模型得到目标检测结果,检测结果中包含了目标检测框的位置坐标、置信度和类别,将检测结果传入OSNet 特征提取网络,从原图中裁剪出检测到的目标,提取所有检测目标的特征。通过卡尔曼滤波器,根据之前的运动状态预测当前帧的运动状态。然后从已存在的轨迹中划分出确认态轨迹和未确认态轨迹,使用OSNet提取到的外观特征对确认的轨迹和当前的检测框进行关联。没有匹配上的跟踪框和未确认的跟踪框一起去跟未匹配的检测框基于IOU 损失做匈牙利匹配。对于匹配的跟踪框,则拿去更新轨迹。
基于ROI 区域的计数方法示意图如图4。
图4 基于ROI 区域的计数方法示意图Fig.4 Example of counting based on ROI area
在视频画面中设置ROI 区域,ROI 区域中设置1 条判断进出的参考线,当1 个人进入ROI 区域时开始进行跟踪,离开时停止跟踪。如果1 个人朝着入口方向移动并穿过进出判断参考线,说明是进入当前巷道,该巷道人数加1,如果是朝出口方向移动并穿过进出判断参考线,说明是离开当前巷道,则该巷道人数减1。
训练策略是YOLOv5 检测模型和OSNet 特征提取模型分开单独训练,为此准备了相应的数据集。
针对YOLOv5 的训练数据集,为了保证数据的质量,提升模型的鲁棒性,采集了矿井下多个场景的图像数据,最后经过筛选选出10 000 张图像作为数据集进行标注用于训练和测试,数据集仅仅包含矿工一类标注目标, 其中8 000 张用于训练,2 000张用于测试。对于数据集的标注,借助makesense 工具采用人工标注。
训练模型时,对训练数据进行了Mosaic 数据增强,Mosaic 数据增强示例如图5。也就是选4 张图片,采用随机缩放、随机裁剪、随机排布的方式进行拼接。这样做丰富数据集的同时增加了许多小目标,可以提高网络的鲁棒性。
图5 Mosaic 数据增强示例Fig.5 Examples of Mosaic data enhancement
针对Re-ID 特征提取模型OSNet 的训练数据,通过人工裁剪从监控视频画面中裁剪出1 张张仅包含1 个人的图片,图片大小为256×128。训练集包含4 000 张图片,100 个人,每个人40 张;测试集包含1 000 张图片,100 个人,每个人10 张。每个人随机选2 张作为query,剩下的作为gallery。
采用2 阶段的跟踪模型,首先单独训练YOLOv5,使用的图片尺寸为640×368,batch-size 为8,epochs 为300。使用预训练的YOLOv5s 进行训练,训练结束时,mAP_0.5:95 为0.52,mAP_0.5 为0.76,precision 为0.79,recall 为0.66。然后,单独训练Re-ID 特征提取模型OSNet,使用在ImageNet 上进行预训练的模型进行训练,使用的图片尺寸为256×128,batch-size 为8,epochs 为200。训练结束时Rank-1为91.4 %,mAP 为80.8%。最后,将2 种模型进行级联测试验证跟踪效果。
通过实验,采集200 段矿井监控设备拍摄到的视频片段测试跟踪计数效果,先将训练好的目标检测网络YOLOv5 和原生的DeepSORT 结合进行跟踪测试,然后使用训练好的目标检测网络YOLOv5 和融合了OSNet 的DeepSORT 结合进行测试。实验结果对比见表1,视频跟踪效果示例如图6。
表1 实验结果对比Table 1 Comparison of experimental results
图6 视频跟踪效果示例Fig.6 Examples of video tracking effects
从实验结果可以看出,使用OSNet 的跟踪效果明显优于原生DeepSORT 的效果。可见提出的基于Re-ID 特征提取模型对矿井下复杂的成像环境更友好,而改进后的模型对于遮挡的目标也实现了稳定跟踪。
使用YOLO v5 作为目标检测器,结合改进的DeepSORT 跟踪算法进行矿井人员跟踪,实现煤矿矿井各个巷道区域的人员计数,在煤矿发生安全事故时可以明确地掌握各个区域的人员情况,为安排营救计划提供支持。分析并通过实验说明了Deep-SORT 存在的缺陷,以及应用在矿井场景下的不足,并针对性地对目标特征提取部分进行改进,使用全尺度特征学习且轻量化的Re-ID 特征提取模型OSNet 替代DeepSORT 中的原本的CNN 特征提取模型;采用了检测器和Re-ID 特征提取模型单独训练的训练策略,并取得了很好的效果;在实现人员稳定跟踪的基础上通过在视频画面中设置ROI 区域来跟踪人员进出方向进行人数统计。改进后的跟踪模型取得了很好的效果。