李记恒, 褚霄杨, 王涛, 刘鹏宇*
(1.北京市南水北调团城湖管理处,北京 100195; 2.北京工业大学 信息学部,北京 100124;3.先进信息网络北京实验室,北京 100124; 4.北京工业大学 计算智能与智能系统北京市重点实验室,北京 100124 )
依托人工智能等先进技术优势建设智能泵站是在产业智能升级背景下的发展趋势。泵站重要区域遍布多种设备装置,要求进入泵站重点区域如高压室、主厂房的人员佩戴安全帽[1]。由于人员安全防范意识参差不齐,未佩戴安全帽的情况时有发生,这是导致安全事故的重大隐患。人工监管方式存在成本高、效率低等问题,因此迫切需要研究适配于泵站场景的安全帽检测技术,实现智能高效的安防监管[2]。
目前,安全帽佩戴检测方法主要包括传统检测方法和基于深度学习的方法。传统方法通常在形态学操作基础上利用颜色、形状特征检测安全帽[3]。刘晓慧等[4]利用人体肤色和安全帽颜色的显著性差异进行安全帽检测,方法简单,但易受光线强度的干扰。Shrestha等[5]利用边缘检测算法判断人脸上方是否存在安全帽的半圆轮廓进行安全帽检测,此类方法使用形状特征,克服了光照不均的影响。Rubaiyat等[6]通过特征描述子结合分类器的方法判定安全帽位置,从而提升安全帽检测精度。传统安全帽检测方法适用的场景比较理想且多为户外施工现场,在复杂环境下的检测精度较低,因此难以适用于泵站场景。深度学习技术的发展为安全帽检测提供了新方向。黄渝文等[7]改进了LeNet_5,提出了一种并行双路卷积神经网络方法来识别人体,再通过颜色特征识别安全帽,但是对远距离小目标检测效果不佳。何慧敏等[8]通过构建多层卷积神经网络对人进行检测,再结合颜色和方向梯度直方图(Histogram of Oriented Gradient,HOG)特征识别安全帽,检测效果有所提升,但是对于人员之间相互遮挡和物体对人遮挡的情况效果不佳。上述方法虽然较传统方法精度有明显提升,但是难以适用于泵站场景下的遮挡和小目标等情况。
为有效应对泵站场景的安全帽检测任务,针对存在的遮挡和远距离目标检测等问题,本文以YOLOv5目标检测模型为基础,提出一种面向泵站场景的安全帽检测方法。首先建立了泵站场景下安全帽的数据集;在特征提取网络算法中融入注意力机制[9],同时增加一个检测层提升多尺度学习能力,并在后处理时使用柔和非极大值抑制(Soft Non-Manimum Suppression,Soft-NMS)和完全交并比(Complete Intersection over Union,CIoU)算法进行改进,以减少遮挡目标漏检的情况[9]。通过对比得出,本文所提算法的效果优于常见的目标检测算法,可有效解决泵站场景的安全帽检测问题。
本文所提出的泵站场景的安全帽检测算法主要包括如下3个步骤:首先获取泵站厂区监控数据,构建泵站场景的安全帽检测数据集;其次构建安全帽检测网络用于模型的训练和推理预测;最终获得安全帽检测的识别结果。
本文所提出的目标检测网络结构如图1所示,主要分为特征提取网络、Neck网络和预测网络3部分。
图1 改进型检测网络结构图
特征提取网络融入SE-Net(Squeeze-and-Excitation Networks)注意力机制模块,提升对小目标的特征提取能力[10]。在Neck网络结构中增加一个检测层使得特征融合时能够结合多级特征,并在预测时使用Soft-NMS改进去冗余框算法以减少遮挡目标的漏检情况。
1.2.1 改进的特征提取网络
输入的原始图像首先经过Focus结构,其主要作用是从高分辨率图像中抽取像素点重构为低分辨率图像,并获得独立的特征层[11],经过通道堆叠后可将宽高信息集中到通道信息,从而达到增强输入图像感受视野、降低模型计算量的作用[11],Focus具体结构如图2所示。
图2 Focus结构示意图
Focus结构处理后的特征图经过卷积进行特征提取,进一步降低图像的尺寸,并采用CSP结构进行安全帽特征的细致化提取[12]。其中CSP结构包含2个分支:第1个分支使用多个卷积层进行特征提取并用残差结构将分支的输入输出相连,减少因网络层过深引起的梯度消失现象:另一个分支由一个卷积层处理保留部分特征信息,最终将2个分支的结果进行通道堆叠获得融合之后的特征图[13],CSP结构如图3所示。
图3 CSP结构示意图
利用深层网络提取特征图,不同通道包含着不同类别的特征信息,学习不同通道间的特征信息对提高安全帽检测准确度具有重要的意义[14],因此本文在CSP结构进行细致化特征提取后增加了一个SE-Net层用于获取具有更强语义的安全帽特征信息[14]。SE-Net具体结构如图4所示。
图4 SE-Net结构示意图
输入一个大小为C′×W′×H′的特征图X,经过卷积映射后变为大小为C×W×H的特征图U,在空间维度上提高模型的感受野[15]。然后将特征图U分成2个分支,其中一个分支进行挤压和激励操作,另一个分支对特征图进行重标定。挤压模块主要利用全局池化层对通道进行压缩来获取全局空间信息,提高对全局目标特征的提取能力;激励模块主要通过全连接层和非线性层获取通道间的关系,将不同通道的安全帽特征信息结合起来。重标定模块将输入特征图中每个通道与注意力向量的元素相乘来提高模型对通道特征的敏感性[16]。相较于传统卷积,池化操作默认不同通道的重要性是相同的,引入注意力机制后能够使模型聚焦于强语义安全帽特征通道的信息,提高整体特征的提取能力。
1.2.2 多检测层的Neck网络
原始YOLO系列目标检测模型Neck部分使用骨干网络提取3个尺度不同的特征层进行特征融合。其中浅层特征图具有弱语义、分辨率高和几何细节表征能力强等特点;而深层特征图具有强语义、分辨率低和集合细节表征能力弱的特点[16],采用特征融合方法能够使模型学习到不同尺度的语义信息[16]。鉴于泵站场景下,人员会随着活动范围不同,在监控画面中出现的尺寸大小也会不一,为使模型能够从不同大小的目标特征中获取更多语义信息,本文在Neck网络增加一次上采样获得大小为160×160的特征层[17],再将所有的特征层与特征提取网络提取的特征相融合使得模型能够结合多级特征[18]。因此本文最终获得4个大小分别为20×20、40×40、80×80和160×160的特征层作为检测头的输入,用于不同尺度大小的预测,改进型Neck网络具体结构如图5所示。
图5 改进型Neck网络结构示意图
模型预测主要是对上述P2~P5四种不同尺度大小的特征图进行后处理,通过1×1卷积操作输出4个不同尺寸分辨率大小的特征图。对输出的特征图进行损失计算,生成一个包括类别概率、边界框得分和置信度得分的特征向量。训练损失包含3个部分:分类、定位和置信度,总损失为3类之和,总和的值越小代表模型检测能力越好。其中置信度和分类损失都是基于二元交叉熵损失函数进行计算的,分别用于计算模型预测矩形框中存在真实标注目标类别的概率和预测矩形框中目标类别属于真实标注类别的概率,而定位损失计算模型预测目标框和真实标注目标框之间的误差目前常采用IoU作为指标,存在回归精度低的问题,因此下面从这方面进行优化。
1.3.1 IoU优化
原始的YOLO系列目标检测模型采用IoU作为判断真实框A和预测框B的重合程度指标,其计算公式为
(1)
对于安全帽检测中的小目标以及遮挡现象等问题,IoU的边框回归精度较低,因此本研究采用CIoU作为预测框的回归损失函数,并引入惩罚项RCIoU,其计算公式为
(2)
(3)
式中:ρ为欧式距离;b、bgt分别为预测框和真实框的中心点;c为包含预测框和真实框的对角线距离;α为权重系统;v为测量长宽比的一致性。
(4)
(5)
式中:wgt、hgt、w、h分别为两框的长和宽。
1.3.2 NMS优化
传统NMS在当前检测框和最高分检测框的CIoU大于阈值时,直接将该检测框的得分置0,这将导致重叠区域的目标被漏检[18]。本文采用Soft-NMS替换原有的NMS算法,使得计算得分时会根据重合面积的大小给出检测框的得分,而不会直接置为0,其计算公式为
(6)
式中:Si为当前检测框的得分;M为得分最高的检测框;bi为当前检测框;Nt为交并比的阈值[19]。
本研究使用的数据集为泵站监控实地拍摄的图片,共1 800幅图片,包含佩戴安全帽和未佩戴安全帽2种目标。为防止网络训练时出现过拟合的情况,通过左右翻转、平移、拉伸、旋转和裁剪等方式对数据样本进行扩充,最终将数据集扩充到7 213张。通过图像标注软件LabelImg进行图像标注,并按照8∶1∶1划分为训练集、验证集和测试集,输入的图像尺寸大小统一为640像素×640像素划分训练。
本研究使用的操作系统为Ubuntu18.02,CPU为Intel-i7-10875,GPU为NVIDIA GeForce RTX 3090,并基于迁移学习策略使用预训练权重进行训练,加速模型的收敛。训练的学习率为0.000 7,Batchsize为16,epoch为100,使用Adam作为优化器。
本研究采用精确率(Precision)、召回率(Recall)、平均准确率(AP)和均值平均精度(mAP)作为评价指标来衡量模型的性能,其具体计算公式为
(7)
(8)
(9)
(10)
式中:TP为模型预测为正例且真实标注为正例;FP为模型预测为正例而真实标注为负例;FN为模型预测为负例而真实标注为正例;n为类别数;i为当前类别序号。AP值是Precision在(0,1)区间内对Recall进行积分获得的值,用来评估某一类目标的预测效果,mAP为多类目标的AP均值。
为证明本文所提方法的有效性,选取原始YOLOv5s作为基准,并在此基础上添加本文所提的不同模块进行验证,具体结果如表1所示。根据结果可以发现原始YOLOv5s在本数据集上的精确率和召回率分别达到了89.21%和84.17%,均值平均精度达到了86.91%。在添加本文提出的模块后mAP均有所提升,所提算法最终mAP达到了93.5%,证明了本文所提方法在泵站场景安全帽检测任务中的可行性。
表1 消融实验对比表
3.3.1 定性分析
为验证本文所提算法的性能,选择与目前常见效果较好的YOLOv5s、YOLOX算法进行对比试验,针对小目标检测、人员遮挡以及被物体遮挡3种情况进行试验。试验采用的数据集为本文所建数据集,训练的epoch均为100,具体效果如图6所示,在远距离、人员遮挡和物体遮挡的情况下,其他算法均有漏检目标的情况出现,因此足以证明本文所提的方法在复杂的泵站场景下安全帽检测效果要优于其他常见的目标检测算法。
图6 不同算法效果对比图
3.3.2 定量分析
为更好地对比本文方法与常见的目标检测算法的性能,选用mAP作为评价指标来衡量安全帽检测的准确率,最终本文所提方法的mAP随epoch的变化情况如图7所示,最终达到了93.5%,损失Loss随epoch的变化情况如图8所示。
图7 训练精度折线图
图8 训练损失折线图
同时,与常见的目标检测算法SSD、Faster R-CNN、YOLOv4s、YOLOv5s和YOLOXSOTA相比,本文方法的mAP均有不同程度的提高,性能对比结果如表2所示,足以证明本文所提方法具有优越性,能够适用于泵站复杂场景的安全帽检测问题。
表2 本文模型与主流目标检测模型性能对比表
为解决泵站复杂场景下安全帽佩戴检测技术因远距离和遮挡等因素带来的准确度不佳问题,本文在特征提取网络中融入了SE-Net注意力机制,使得模型关注于目标区域的通道信息,同时增加了一个目标检测层使得特征融合能够结合不同尺度的特征信息。最后使用CIoU和Soft-NMS改进原有的YOLOv5s算法,降低遮挡情况下的目标漏检问题。试验结果表明,本文所提的方法能够有效解决泵站复杂场景下远距离和遮挡情况的安全帽检测问题,最终mAP达到了93.5%,后续将考虑设计更加轻量化的模型来提升安全帽的检测速度。