摘 要:针对现有基于传感器的入侵检测技术误报率高、存在安全隐患等问题,提出一种改进YOLOv5 的区域入侵检测算法:以YOLOv5 为基础,在Backbone 中引入CBAM 注意力机制,增强网络对特征的提取能力;在Neck 中增加操作层继续对特征图进行上采样处理,并将操作后获取到的特征图与Backbone 中第二层的特征图进行Concat 融合,以此获取更大的特征图进行小目标检测;结合掩膜法与图像像素坐标系划分警戒区域,对进入警戒区域的可疑目标进行检测,以防止非法入侵的发生.实验结果表明:入侵检测算法mAP 值为83.4%,分别较YOLOv5、YOLOX、SSD、Faster-RCNN 提高1.8%、17.3%、28.2%、40.6 %,检测速度达25.4 frame/s,仅次于YOLOv5,能够满足真实安防场景下对入侵目标的检测需求,且具备良好的泛化能力.
关键词:入侵检测;YOLOv5;注意力机制;小目标检测
中图分类号:TB391.41
DOI: 10.19504/j.cnki.issn1671-5365.2024.06.02
区域入侵检测是指通过监控系统对特定区域进行实时监控、及时检测和报警未经授权进入该区域的人员或物品,对于机场、银行、政府机构军事基地等重要场所的安全保障具有十分重要的意义.目前使用最多的区域入侵检测技术有激光对射技术、红外对射技术、振动光纤、电子围栏等. 但是现阶段这些方案由于安装维护成本高、误报率高、用电安全等问题仍无法在私人住宅安防领域大面积推广[1-2].
当前,区域入侵检测技术在诸多领域被广泛应用. 在“智慧油田”领域,田枫等人提出了一种基于视频的油田危险区域入侵检测智能综合识别算法[3],根据油田危险因素对危险区域进行划分,然后分别利用改进YOLOv5 目标检测算法与三侦差分法分别对白天场景与夜间场景的油田危险区域的运动目标进行检测;李婷玉等人基于SOLOv2 分割算法与CenterNet 检测网络研究了一种油田近海区域作业人员入侵检测模型[4],有效解决了油田作业现场危险区域小目标检测效果差、实时性不佳等问题. 在“智慧校园”领域,向翼凌等人提出一种基于时空联合约束的视频区域入侵检测算法[5],对校园中湖边等危险区域、门道等公共场所进行视频区域入侵检测,对校园安全提供了一种有效的实时预警方法. 在“智慧工地”领域,刘欢基于ViBe 和YO⁃LOv5 设计了一种面向智慧工地的入侵检测系统[6],并提出一种基于多级特征掩码融合的前景分割算法(CFMFN)提取入侵目标,实现了系统对鲁棒性和实时性要求. 在“铁路安全”领域,郭磊设计了一种基于深度学习的铁路关键区域入侵检测系统[7],采用deeplab 语义分割模型与改进YOLOv3 相结合的方式实现了铁路关键区域内异物目标的识别和检测,并搭建入侵检测数据上报平台,可以对铁路关键区域的入侵检测数据实时查看与统计分析,为监管人员提供更全面的监控信息.
目前,区域入侵检测算法存在如下难点:(1)当防护面积过大时,视频远景监控导致检测目标较小且画质较模糊;(2)如何界定警戒区域并及时判断入侵行为的发生. 针对上述难点,结合真实应用场景,本文提出一种基于YOLOv5 的区域入侵检测改进算法:根据图像像素坐标,结合掩膜参数Mask 对警戒区域进行划分,对进入警戒区域的目标进行入侵检测,并对重点防护区域的实时、准确检测需求进行验证.
1 基于改进YOLOv5的区域入侵检测算法
1.1 YOLOv5 目标检测算法原理
YOLOv5 是一种单阶段目标检测算法,网络结构主要由Input、Backbone、Neck、Prediction 四部分组成(如图1).以640×640 的图片作为输入,使用主干网络CSPDarknet 提取特征,将原始640×640×3 图像复制4 份,然后在Focus 结构中进行切片操作得到4 个320×320×3 切片,再使用Concat 进行深度连接,输出为320×320×12,通过一个卷积核数为32 的卷积层,生成320×320×32 的输出,最后经过Batch_norm 和Leaky_ReLU 将结果输入到下一个卷积层.这个过程提高了特征图上每个点感受野的大小,减少了原始信息丢失的频率与计算量,进而加快了检测速度. 在Neck 部分,采用双向特征金字塔网络PANet 对特征图进行融合,充分利用特征图的位置信息和语义信息,提升网络对目标物体的检测性能. 检测头部分与YOLOv4 结构基本一致.
1.2 改进YOLOv5 异常目标检测算法
本文结合实际应用场景,对YOLOv5 作如下改进:在主干网络Backbone 中引入CBAM 注意力机制,在Prediction 部分增加一个额外的小目标检测层.
1)CBAM 注意力机制. 本文算法主要应用于室外环境,需要从复杂的背景信息中提取出异常目标的特征信息并过滤无关信息. 另外,在本文自定义数据集中小目标数据较多,因为小目标占据像素较少,极易出现在深层网络中丢失特征信息的情况,导致漏检、错检,影响模型整体的检测精度. 因此,选择在主干网络引入CBAM 注意力机制,通过增大小目标在整张特征图中的权重,促使待检测目标特征信息更容易被网络学习,同时避免待检测目标的特征信息被卷积时冗余的背景信息所掩盖. CBAM 注意力机制主要分为通道注意力模块和空间注意力模块,通道注意力机制着重检测目标的内容,空间注意力机制着重检测目标的位置,两者结合可以使目标的主要特征更加聚焦,有效节约了参数和计算1)CBAM 注意力机制. 本文算法主要应用于室外环境,需要从复杂的背景信息中提取出异常目标的特征信息并过滤无关信息. 另外,在本文自定义数据集中小目标数据较多,因为小目标占据像素较少,极易出现在深层网络中丢失特征信息的情况,导致漏检、错检,影响模型整体的检测精度. 因此,选择在主干网络引入CBAM 注意力机制,通过增大小目标在整张特征图中的权重,促使待检测目标特征信息更容易被网络学习,同时避免待检测目标的特征信息被卷积时冗余的背景信息所掩盖. CBAM 注意力机制主要分为通道注意力模块和空间注意力模块,通道注意力机制着重检测目标的内容,空间注意力机制着重检测目标的位置,两者结合可以使目标的主要特征更加聚焦,有效节约了参数和计算1)CBAM 注意力机制. 本文算法主要应用于室外环境,需要从复杂的背景信息中提取出异常目标的特征信息并过滤无关信息. 另外,在本文自定义数据集中小目标数据较多,因为小目标占据像素较少,极易出现在深层网络中丢失特征信息的情况,导致漏检、错检,影响模型整体的检测精度. 因此,选择在主干网络引入CBAM 注意力机制,通过增大小目标在整张特征图中的权重,促使待检测目标特征信息更容易被网络学习,同时避免待检测目标的特征信息被卷积时冗余的背景信息所掩盖. CBAM 注意力机制主要分为通道注意力模块和空间注意力模块,通道注意力机制着重检测目标的内容,空间注意力机制着重检测目标的位置,两者结合可以使目标的主要特征更加聚焦,有效节约了参数和计算
相应的过程表达式为[10]:
2)小目标检测层. YOLOv5 对小目标检测效果不好的主要原因是其下采样倍数较大,导致小尺寸目标的特征信息难以被较深的特征图学习到. 因此,本文选择增加小目标检测层,将较浅特征图与较深特征图拼接后再进行检测[11]. 原始的YOLOv5 网络模型只有三个检测层,对应三组初始化Anchor值,其中小数值Anchor 检测大的目标,大数值An⁃chor 检测小的目标. 现在已有基础上增加一组An⁃chor([5,6; 8,15; 16,11]),取值约为最小一组Anchor 值的一半;然后在网络第17 层后增加7 个操作层,继续对特征图进行上采样处理,使得特征图继续扩大,同时在改进后网络的第20 层将获取到的特征图与骨干网络中第二层的特征图进行Concat 融合,以此获取更大的特征图进行小目标检测;在网络第31 层后增加一个小目标检测层[12-13],加上原有的三个检测层,总共使用四层进行检测,增强网络对小目标的检测能力. 添加小目标检测层后,网络Neck 与Predic⁃tion 部分结构如图3 所示.
1.3 基于改进YOLOv5 的区域入侵检测方法
与传统入侵检测技术相比[14-16],基于视频监控的区域入侵检测技术难点在于如何在视频监控中划分警戒区域并进行精准地入侵检测. 本文划分警戒区域的方法为:在图像的像素坐标系下,提取待检测区域外接矩形的四点像素坐标,结合掩膜(Mask)形成封闭区域,即警戒区域. 掩膜的应用可以理解为一个由0 和1 组成的二进制图像,当对待检测区域进行掩模处理后,值为1 的区域正常显示,值为0 的区域被屏蔽,在进行目标检测时被忽略,这样即可利用掩膜法形成检测区域,也即警戒区域,其主要过程如图4 所示:图4(b)是由0 和1 组成的二进制图像;图4(c)是本文入侵检测场景中的掩模图,其中红色区域为警戒区域(形状由组成警戒区域四个点的坐标决定,可根据实际情况灵活调整),黑色区域为屏蔽区域;图4(d)是掩模图与背景图像的组合,可以明显看出警戒区域以外的区域全部被屏蔽. 具体来说,本文入侵检测方法的原理可以理解为:在警戒区域内检测到目标,即视为“目标入侵该区域”,如果没有检测到目标,则不进行入侵判断.
2 实验设计
2.1 数据集准备
数据集由表1 所示的三部分构成,共计6 000 张图像,按8︰1︰1 的比例划分为训练集、验证集以及测试集,用于模型的训练以及性能的验证.
2.2 模型训练
使用图像处理工作站进行实验,配置如表2 所示,训练时将基础学习率(learning rate)设置为0.01,训练轮数(epoch)设置为300,一次训练所选取的样本数(batch size)设置为64.
2.3 消融实验
在YOLOv5 中,小目标的特征信息容易被主干网络忽视,CBAM 注意力机制模块与主干网络Back⁃bone 结合可以对这些隐含的特征信息进行注意力重构,将重要特诊信息进行突出[18-19],这也是本文选择在Backbone 中引入CBAM 注意力机制模块的主要原因. 针对采用两种改进策略的有效性以及CBAM 注意力机制融合到主干网络不同位置的效果在相同数据集上设计消融实验进行纵向对比分析,以网络平均精确率均值mAP 的变化来判断改进策略是否有效,将CBAM 与C3 模块结合的模块命名为CBAM_C3,结果如表3 所示. 由表3 可知,在主干网络中将CBAM 模块与C3 模块融合后对模型召回率与检测精度提升较为明显,其中网络整体mAP值提高1.2%,说明引入注意力机制后,小目标的特征信息更容易被网络学习到,网络对小目标的检测能力得以提高. 增加小目标检测层后,网络整体mAP 值提高1.5%. 这表明,增加小目标检测层后,原网络难以学习到小目标物体特征信息的问题得到了改善,网络的整体检测精度得以提升. 最后,在网络结构中融合CBAM 与小目标检测层得到本文算法CS-YOLOv5,其mAP 值为83.4%,比未改进前mAP值高1.8%,表明本文采用的改进策略真实有效,能够提高网络对入侵目标的检测精度.2.4 对比实验
2.4.1 客观对比实验
为了验证本文算法的优越性,在相同配置的条件下使用相同的数据集,与主流one-stage 标检测模型YOLOX、SSD 以及two-stage 目标检测模型Faster RCNN 作对比,采用mAP 指标对各检测算法进行评价,对比实验结果如表4 所示.
表4 对比试验结果显示,在相同的条件下,本文算法的准确率、召回率、平均精确率均值均为最高,说明本文算法在相同的测试集下误检率最低、可以检测到最多的目标,且检测性能最佳. 由此说明,本文提出的CS-YOLOv5 异常目标检测算法能够对进入警戒区域的异常目标进行准确识别,可以满足真实入侵场景下的检测需求.
2.4.2 主观对比实验
为进一步说明本文提出的CS-YOLOv5 异常目标检测算法在真实环境下对入侵目标检测效果的优越性,在测试集中随机挑选3 张图片进行对比分析,各网络检测效果如图5 所示.
从图5 可以看出,SSD 和Faster-RCNN 网络的检测效果最差,SSD 存在严重的漏检现象,Faster-RCNN 检测精度较低,可能由于网络学习能力不足导致;YOLOX 与YOLOv5 的检测性能仅次于本文算法,但是两种算法均未检测出第一张图像中被围栏遮挡的小目标;最后,本文提出的CS-YOLOv5 能够将3 张测试图中的所有的遮挡目标与小目标都检测出来,同时拥有不错的置信度,说明本文算法的检测性能最好,进一步说明本文采用的改进策略真实有效.
2.5 入侵场景测试
应用本文提出的区域入侵检测算法在真实场景下模拟入侵实验,具体效果如图6 所示. 图6(a)目标未进入警戒区域,图6(b)检测到目标入侵警戒区域,图6(c)通过改变坐标调整了警戒区域.。
3 结语
本文针对传统的区域入侵检测技术安装维护成本高、误报率高、安全隐患大等问题,提出了一种基于YOLOv5 的区域入侵检测改进算法. 算法以YO⁃LOv5 网络为基础,在主干网络中引入CBAM 注意力机制,并颈部增加一个额外的小目标检测层,有效提升了网络的特征提取能力、提高了对小目标物体的检测精度. 在检测部分,应用图像像素坐标系与掩膜参数划分警戒区域进行入侵检测. 实验表明,本文算法实时性好、能适应环境变化,进行入侵检测时有较高的准确率.
参考文献:
[1] TAO J, WU H, DENG S, et al. Overview of intelligenthome security and early warning system based on internet ofthings technology[J]. International Core Journal of Engineer⁃ing, 2022, 8(5): 727-732. doi: 10.6919/ICJE. 202205_8(5).0093.
[2] 邢军辉. 基于云平台的入侵检测系统设计[D]. 郑州: 河南工业大学, 2020.
[3] 田枫, 白欣宇, 刘芳, 等. 1 种基于视频的油田危险区域入侵检测智能综合识别技术研究[J]. 中国安全生产科学技术,2022, 18(3): 68-75.
[4] 李婷玉, 姜文文, 邢金台, 等. 油田作业现场近海周界区域入侵检测[J]. 计算机系统应用, 2022, 31(1): 236-241.
[5] 向翼凌, 何伟. 面向校园安全的视频区域入侵检测算法[J].武汉工程大学学报, 2019, 41(1): 93-97.
[6] 刘欢. 面向智慧工地的入侵检测算法研究[D]. 重庆: 重庆理工大学, 2022.
[7] 郭磊. 基于深度学习的铁路关键区域的入侵检测系统[D].北京: 北京交通大学, 2020.
[8] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional blockattention module[C]//Ferrari V, Hebert M, Sminchisescu C, etal. Computer Vision – ECCV 2018. Springer, 2018: 3-19. doi:10.1007/978-3-030-01234-2_1.
[9] 李宇琼, 周永军, 蒋淑霞, 等. 基于注意力机制的交通标志识别[J]. 电子测量技术, 2022, 45(8): 116-120.
[10] 武历展, 王夏黎, 张倩, 等. 基于优化YOLOv5s 的跌倒人物目标检测方法[J]. 图学学报, 2022, 43(5): 791-802.
[11] ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: ImprovedYOLOv5 based on transformer prediction head for objectdetection on drone-captured scenarios[C]//IEEE/CVF Inter⁃national Conference on Computer Vision. Montreal: IEEE,2021: 2778-2788. doi:10.1109/ICCVW54120.2021.00312.
[12] 桂方俊, 李尧. 基于CBA-YOLO 模型的煤矸石检测[J]. 工矿自动化, 2022, 48(6): 128-133.
[13] 黄彤镔, 黄河清, 李震, 等. 基于YOLOv5 改进模型的柑橘果实识别方法[J]. 华中农业大学学报, 2022, 41(4):170-177.
[14] LOHANI D, CRISPIM-JUNIOR C, BARTHÉLEMY Q,et al. Perimeter intrusion detection by video surveillance: Asurvey[J]. Sensors, 2022, 22(9): 3601. doi:10.3390/s22093601.
[15] REN Z, YAO J, HUANG Y, et al. High-performance railwayperimeter security system based on the inline time-divisionmultiplexing fiber Fabry-Perot interferometric sensor array[J].Optik, 2022(249): 168191. doi:10.1016/j.ijleo.2021.168191.
[16] DEJDAR P, ZÁVIŠKA P, VALACH S, et al. Image edge de⁃tection methods in perimeter security systems using distrib⁃uted fiber optical sensing[J]. Sensors, 2022, 22(12): 4573. doi:10.3390/s22124573.
[17] OUYANG W, WANG X. A discriminative deep model forpedestrian detection with occlusion handling[C]//2012 IEEEConference on Computer Vision and Pattern Recognition.Providence: IEEE, 2012: 3258-3265. doi: 10.1109/cvpr.2012.6248062.
[18] 龚惟新,杨珍,李凯等. 基于改进YOLOv5s 的自然环境下猕猴桃花朵检测方法[J]. 农业工程学报,2023,39(06):177-185.
[19] 王鹏飞, 黄汉明, 王梦琪. 改进YOLOv5 的复杂道路目标检测算法[J]. 计算机工程与应用, 2022, 58(17): 81-92.
【编校:王露】
基金项目:四川省科技厅项目(2021YFG0313,2022YFS0518,2022ZHCG0035);人工智能四川省重点实验室项目(2019RYY01);四川轻化工大学人才引进项目(2021RC12);四川轻化工大学研究生创新基金资助项目(Y2022116)