摘要:随着城市化的发展,电动车的使用日益普及,但其在高层住宅电梯内的违规使用带来了严重的安全隐患。针对电梯内电动车入户检测中存在的遮挡问题,文章提出了一种基于改进YOLOv5(YouOnlyLookOnceversion5)算法的检测系统。该系统引入CoordinateAttention(CA)机制优化YOLOv5网络结构,增强对遮挡目标的特征提取能力。同时,构建了包含遮挡情况的电梯场景数据集,并采用数据增强技术提升模型的泛化能力。实验结果表明,与原始YOLOv5算法相比,改进后的算法在保证实时性的前提下,有效提高了电梯内电动车检测的准确率,为电梯安全管理提供了有力的技术支持。
关键词:YOLOv5算法;电动车入户检测;注意力机制;遮挡识别;实时监控
中图分类号:TP183文献标识码:A
文章编号:1009-3044(2024)35-0021-05开放科学(资源服务)标识码(OSID):
0引言
随着社会的发展和人们生活水平的提高,电动车因其便捷性和经济性成为城市居民日常出行的重要工具之一。我国电动自行车保有量已达3.5亿辆,是居民日常代步的重要工具。随着电动车的普及,其在电梯内的使用问题也日益受到关注。然而,电动车在高层建筑电梯内的不当使用问题随之而来[1-4]。电动车在电梯内的不规范行为不仅影响电梯的正常运行,还可能造成严重的安全隐患[5]。2023年,北京市丰台区某小区发生的一起火灾便是一个典型案例,造成两死一伤的悲剧。据国家消防救援局统计,自2021年以来,全国共接报电动自行车及蓄电池故障引发的火灾6.97万起,造成884人死伤,直接财产损失超过7亿元[7]。有关研究表明,电动车在电梯内的不当使用不仅影响电梯正常运行,还可能引发火灾、爆炸、触电等安全事故[1,3-7]。
电动车的安全隐患主要表现在违规停放和充电行为上,例如进楼入户、人车同屋、飞线充电等。这些行为如同“不定时炸弹”,一旦发生火灾,燃烧迅速且难以扑救[1]。此外,电动车的重量和尺寸往往超出电梯设计的承载范围,增加了电梯负荷,从而缩短电梯使用寿命。而电动车在电梯内的误操作也可能导致电梯故障甚至电梯事故。传统检测模式多为人工阻拦,不仅检测效率低,还容易引发住户与管理人员之间的冲突,自动检测方法亟须得到应用与推广。许多住宅小区和公共场所安装了监控系统,为视频检测提供了便利,但由于电梯轿厢空间狭小、人员流动性大,传统监控手段难以有效识别电动车入户行为。近年来,随着人工智能技术的发展,特别是目标检测技术的进步,为解决这一问题提供了新思路[6-7]。
本研究采用YOLOv5(YouOnlyLookOnceversion5)作为主要目标检测算法,旨在提高电梯内电动车行为的检测效率和准确性[8-11]。通过对YOLOv5算法的优化和调整,本文期望实现对电梯内电动车行为的实时监控和自动报警,从而提高居民的安全感。
电梯内场景下电动车目标检测面临诸多挑战:1)遮挡问题:乘客和行李物品容易遮挡电动车,导致漏检。2)小目标问题:监控画面中电动车尺寸相对较小,特征不明显,识别难度较大。3)实时性要求:电梯场景需要实时检测预警,对算法速度要求较高。
目标检测技术是计算机视觉领域的重要研究方向之一,其目的是从图像中识别出感兴趣的目标,并确定其位置和大小[12]。随着深度学习领域的快速发展,目标检测技术取得了飞跃式进步。这一技术主要分为两大类别:双阶段检测器与单阶段检测器,各自以独特方式实现目标的精准识别。以FasterR-CNN为代表的双阶段检测器首先生成候选区域,然后对候选区域进行分类和边界框回归。有研究者通过语言嵌入动态调整不同数据集的分类问题,从而提高多数据集训练的协同性[9]。YOLO和SSD等单阶段检测器则直接在特征图上预测目标的类别和位置,具有更快的检测速度。
其中,YOLO算法作为一种实时目标检测算法,因其快速高效的特点而受到广泛关注。例如,YOLOv5作为YOLO系列的高级版本,进一步优化了算法性能,在保持高精度的同时提升了检测速度,成为实时目标检测领域的热门选择[11]。
尽管YOLOv5算法在目标检测领域的应用已经非常广泛,但其在电梯内电动车检测中的应用仍处于探索阶段[8,9,12]。本文探讨了YOLOv5算法在电梯内电动车检测中的应用,并分析了其在实际应用中的优势和挑战。通过对YOLOv5算法的优化和调整,提出了一种基于改进YOLOv5算法的电梯内电动车入户检测系统。该系统引入CoordinateAttention(CA)机制优化YOLOv5网络结构,增强对遮挡目标的特征提取能力,并构建包含遮挡情况的电梯场景数据集,利用数据增强技术提升模型的泛化能力,最终实现对电梯内电动车的精准、实时检测。
本研究的创新点在于将YOLOv5算法应用于电梯内电动车检测,并针对电梯内环境的特殊性探讨了遮挡识别在电动车检测中的应用。通过引入CA机制对YOLOv5算法进行改进,提高了电梯内电动车检测的准确性,为解决遮挡问题提供了新思路,为电动车入户检测提供了更有效的技术支持。本研究的意义在于提高电梯内电动车检测的准确性和便捷性,为电动车入户检测提出了新的解决方案,为居民人身安全提供了保障。
1相关工作
1.1目标检测算法
目标检测是计算机视觉领域的基础性任务之一,其目的是从图像或视频中识别出特定目标并确定其位置。近年来,深度学习技术的快速发展推动了目标检测领域的巨大进步。其中,YOLO系列算法以其速度快、精度高、易部署等优点,在目标检测领域得到了广泛应用。YOLOv5在网络结构、损失函数、数据增强等方面进行了一系列改进,进一步提升了目标检测的性能。凭借其易用性、稳健的性能和灵活性,YOLOv5被广大业内人员广泛使用。
1.2注意力机制
注意力机制模仿人类视觉系统的工作方式,其核心思想是从众多信息中选择性地关注对当前任务更为重要的信息。在目标检测领域,注意力机制能够帮助模型更加关注目标区域的特征信息,从而提升目标检测的精度。CoordinateAttention(CA)是一种轻量级的注意力机制,它通过将通道注意力分解为两个一维特征编码过程,分别沿水平和垂直方向聚合特征,从而捕捉目标的长距离依赖关系,增强模型对目标空间信息的感知能力。尤其是在处理遮挡目标时,CA机制表现出了较好的性能。
1.3遮挡目标检测
遮挡目标检测是目标检测领域的一个难点问题,其挑战在于如何从被遮挡的目标中提取有效的特征信息。针对这一问题,研究者提出了一些方法:1)基于上下文信息的检测方法:利用目标周围的场景信息来推断被遮挡的目标。2)基于部件模型的检测方法:将目标分解为多个部件分别检测,然后组合成完整的目标。3)基于多视角融合的检测方法:利用多个视角的观测信息来弥补单一视角信息的不足。
2算法设计
2.1YOLOv5算法原理
YOLOv5算法是一种单阶段目标检测算法,其核心思想是在图像的多个尺度上进行特征提取,并在每个尺度上预测目标的类别和位置(如图1)。网络结构主要分为3个部分:Backbone、Neck和Head。
Backbone的主要作用是提取图像中的特征,并逐步缩小特征图尺寸,同时增加通道数。YOLOv5通常采用CSPDarknet53作为Backbone,这是Darknet53的一种改进版本,通过引入跨阶段连接(CrossStagePar⁃tial)来提高信息流动效率和网络性能。在Backbone中,主要组件包括Conv模块、C3模块和SPPF模块:
Conv模块:由Conv2d(卷积层)、BatchNorm2d(批归一化层)和激活函数(如SiLU)组成。Conv2d用于提取特征并整理特征图,BatchNorm2d对每批数据进行归一化,激活函数增加数据的非线性表达能力。
C3模块:由三个Conv模块和一个BottleNeck模块组成。C3模块通过分路处理和Concat操作,实现特征图的降维和升维,并通过BottleNeck模块中的残差连接,避免梯度消失问题。
SPPF模块(SpatialPyramidPooling-Fast):基于空间金字塔池化(SPP)的改进版本,通过多个并行或串行的MaxPool操作,实现多尺度特征融合。
Neck结构位于Backbone和Head之间,主要作用是对Backbone提取的特征进行进一步融合和上采样操作,以提供更高级的语义信息,并适应不同尺度图片的检测需求。YOLOv5的Neck通常采用特征金字塔网络(FPN)或PANet等结构,将浅层图形特征与深层语义特征结合在一起。在Neck中,特征图通过上采样(Upsample)和Concat操作,实现不同层级特征的融合。这样既能保留浅层图形特征,又能结合深层语义特征,从而提高目标检测精度。
Head是YOLOv5的检测头,负责生成预测框和预测类别。YOLOv5的Head结构相对简单,主要由三个1×1卷积层组成,对应三个不同尺度的检测特征层。1×1卷积层的主要作用是升维或降维,以调整特征图的通道数,使其符合检测头的需求。每个检测特征层都会生成一系列预测框,包括位置坐标(x,y,w,h)、置信度和类别信息。YOLOv5使用CIOU_Loss作为损失函数,并结合NMS(非极大值抑制)算法对预测框进行后处理,以去除冗余预测框。
2.2CA机制工作原理
CA模块首先将输入特征图分别进行水平和垂直方向的全局平均池化,得到两个一维特征向量。然后,这两个特征向量分别经过两个不同的卷积层和Sigmoid激活函数,生成两个注意力权重图。最后,将这两个注意力权重图分别与原始特征图相乘,得到最终的输出特征图(如图2)。
2.3YOLOv5算法优化
电梯内空间相对狭小,人物、电动车等检测目标遮挡重叠现象较多,干扰了对目标的正常识别,影响了检测精度。针对电梯内环境的特殊性,本文从网络结构和数据集处理两个方面解决上述关键性问题。
在网络结构方面,本文对YOLOv5算法进行了优化,主要改进内容为增加注意力机制。将原有YO⁃LOv5的C3结构替换为增加了CA机制的C3CA结构(如图3)。对输入特征进行三次不同的卷积操作,这些卷积操作具有不同的卷积核大小、步长或填充方式,以提取不同尺度的特征表示。对每次卷积操作得到的特征表示分别应用CA注意力机制。CA注意力机制首先通过全局平均池化对每个通道的特征进行降维,得到一个全局特征向量;然后使用全连接层对全局特征向量进行映射,得到权重向量;最后,将权重向量与原始特征逐元素相乘,得到加权后的特征表示。将三组加权后的特征表示进行融合,得到最终的特征表示。
当发生遮挡等情况时,电梯内目标的一部分会转化为小目标问题。通过优化,本文期望增加检测目标的权重,提高算法在有遮挡情况下目标检测的准确性。
在Backbone中出现的Conv均采用3×3卷积核,步长为2,通道数根据网络深度和宽度的不同而改变(如图3)。3×3卷积核是常用的尺寸,因为它能够捕获图像中的局部特征。步长为2用于减少特征图的尺寸,同时增加感受野。SPPF是一种多尺度池化方式,用于融合不同尺度的特征信息,分别选取5×5、9×9、13×13三种尺寸的池化核。这些池化核的大小选择是为了捕获不同尺度的上下文信息,提高模型对目标的检测能力。
Neck模块连接Backbone和Head,负责进一步融合和提取特征。在Neck部分中,各模块的相关参数与Backbone中的相同。Head模块负责生成最终检测结果,包括目标类别、位置和置信度等。其中,Conv采用1×1卷积核,用以调整特征图的通道数,避免全连接层的冗余参数和高计算量。
3数据集的构建和预处理
为了训练和测试YOLOv5算法,需要构建一个包含电梯内电动车图像的数据集。本文分别从以下两个途径构建数据集:
1)实地拍摄和网络视频爬取:选取不同时间段、不同光照条件下的大量电梯内场景视频,并从中截取图像帧,共计1600张。
2)公开数据集:PaddlePaddle电动车检测数据集,共计2080张。
公开数据集使用Labelme进行标注,因此对于实地拍摄和网络爬取得到的相关图像帧也使用Labelme进行标注。标注信息包括目标类别和边界框。通过以上方法,构建了一个适用于电梯内环境的数据集,如图4所示。
在数据预处理阶段,本文采用了数据增强技术:1)几何变换:包括随机旋转、缩放、翻转等;2)颜色变换:包括随机调整图像亮度、对比度、饱和度等;3)添加噪声:包括添加高斯噪声、椒盐噪声等;4)Mixup:将两张图像按照一定比例进行混合,并根据混合比例调整标签;5)Cutout:随机遮挡图像局部区域,模拟遮挡情况。以上数据增强技术可以扩充数据集,提高算法的泛化能力。
同时,遮挡是影响目标检测准确性的一个重要因素。在电梯内环境中,电动车与其他物体或乘客之间可能出现遮挡。本文考虑了电梯内环境中可能出现的遮挡问题。为了提高遮挡情况下的检测准确性,除上一节对网络结构进行修改,增加注意力机制以提高识别目标关注权重外,本文还通过以上Mixup、Cutout数据增强技术模拟遮挡情景,从而提高电梯内遮挡情况的识别准确率。
通过添加注意力机制训练模型识别遮挡区域,并对遮挡区域进行特别处理,同时通过扩充模拟遮挡图像来增强算法的鲁棒性,提高检测系统在遮挡情况下的准确性。
4模型训练
本文在以下硬件和软件环境下进行模型训练:Ubuntu24.04、NVIDIAGeForceRTX3080Ti(12GB显存)、16GB内存、Pytorch框架、Python编写。使用预训练方法,冻结特征提取部分权重,利用构建的数据集划分训练集和测试集对网络进行局部训练。具体训练参数设置如下:初始学习率为0.01、循环学习率为0.2、IoU训练阈值为0.2、batch-size为64、epochs为100、优化器为SGD,并沿用YOLOv5的CIOU_Loss损失函数。
损失函数从三个方面进行分析,包括回归损失(RegressionLoss)、置信度损失(ConfidenceLoss)和分类损失(ClassificationLoss),分别表示为box_loss、obj_loss、cls_loss。其中,box_loss随着训练的进行逐渐降低,表明模型在逐步优化其预测边界框的能力;置信度损失obj_loss的高低直接影响模型的检测精度和召回率,较低的置信度损失意味着模型更准确地识别了目标的存在;分类损失cls_loss表示模型对预测框中目标分类的准确性,逐渐降低表明分类准确性逐步提高。
损失函数除训练初期波动较大外,后期训练过程中整体波动下降。在目标的验证过程中,损失函数到后期已无法进一步下降,并出现升高趋势,说明训练已达到完成状态,若继续训练可能存在过拟合风险。此时,准确率与召回率综合处于较为平衡的位置(如图5)。
5算法性能评估
5.1性能分析
为了评估加入CA模块改进后算法在电梯内电动车检测中的性能,本文通过F1范数、混淆矩阵和PR曲线对算法性能进行评估。
F1范数代表准确率和召回率的平衡,如公式(1)所示。
F1score=2×(Precision×Recall/Precision+Recall)(1)
由于实际算法应用过程中,无法同时兼顾准确率和召回率均处于最高水平,因此需要根据实际工程需求,利用F1范数衡量二者的平衡位置,以满足相对适合的水准。如图6所示,由于婴儿车的训练样本较少,其F1范数表现较低。针对上述样本不均衡问题,进一步分析其准确率与召回率。
在样本不均衡的情况下,相关指标评估应更加关注准确率问题。如图7所示,当置信度较高时,准确率同样处于较高水平。而如图8所示,当置信度较高时,婴儿车的预测召回率较低,因此可以得出召回率影响了F1范数的表现。由图9混淆矩阵可知,除准确预测部分外,婴儿车大多被预测为背景。本研究的重点是电动车入户检测,对于婴儿车与电动车的区分处于较高水准,完全符合工程应用需求。
根据曲线示意图分析,除婴儿车预测外,其他分类的F1范数、准确率和召回率均表现良好,证明改进后的算法符合设计初期的需求。
5.2对比实验
加入CA注意力机制改进网络后,同时考虑实时性要求,与原版YOLOv5版本进行比较,各项性能如表1所示。评估指标包括CPU推理速度、典型GPU推理速度、推理参数量和计算量等。改进后的算法虽然在推理速度、推理计算量和参数量方面均高于原版YO⁃LOv5算法,但通过牺牲部分实时性性能,提高了平均准确率。并且改进后的算法实时性依然能够满足工程应用需求,证明算法改进是有效的。
5.3模型使用
将训练好的模型用于实际检测,选取互联网上采集到的2020年某电梯监控视频作为测试数据,检测效果如图10所示。该检测效果表现出色,完全符合工程设计所设定的各项要求与标准。
6结论
本研究开发了一种基于YOLOv5算法的电梯内电动车入户检测系统,通过加入CA注意力机制优化算法,减少了电动车在遮挡情况下的误识别和漏识别问题,在保证符合工程实时性要求的基础上提高了检测准确性。实验结果表明,该系统能够有效识别电梯内的电动车、自行车、轮椅、人员、婴儿车等5种目标,并对电动车目标重点关注。所得结果可与电梯控制系统结合,减少电动车违规入户的情况发生
本研究为电梯内电动车的有效监控提供了一种新的技术手段,有助于减少因电动车违规入户导致的安全事故。此外,研究中对YOLOv5算法的优化和改进,也为其他目标检测任务提供了参考。
为了进一步提高系统的实用性和普及性,未来的研究将在以下几个方面进行探索:1)增加数据集的多样性和代表性,以提高算法的泛化能力;2)探索更高效的网络结构和目标检测算法,以提升系统性能;3)考虑实际应用中的复杂因素,提高系统的适应性和鲁棒性;4)构建用户界面和交互设计,以提升用户体验。
参考文献:
[1]赵文涵.新华视点|违规停放和充电如何治理?:电动自行车安全隐患系列调查之三-新华网[EB/OL].(2024-03-20)[2024-05-16].http://www.news.cn/politics/20240320/673389cdfe104eda9bb8c3ef3dd365ae/c.html.
[2]刘温馨,张珺.记者调查:进楼入户、违规充电,电动自行车治理难题何解?[EB/OL].[2024-05-16].https://www.thepa⁃per.cn/newsDetail_forward_27321883.
[3]高层民用建筑消防安全管理规定[J].中华人民共和国国务院公报,2021(24):27-34.
[4]胡晓光.电动自行车起火原因与火灾事故调查要点分析[J].消防界(电子版),2022,8(7):55-56.
[5]邱景辉.加强电动自行车消防安全风险隐患的溯源治理[EB/OL].[2024-05-16].https://www.spp.gov.cn/spp/llyj/202402/t20240229_645595.shtml.
[6]多措并举,筑牢电动车安全线-新华网[N].光明日报,2024-04-23.
[7]郭琳琅,于杜周.电梯电动车阻车系统检验方法分析[J].特种设备安全技术,2022(1):34-36.
[8]潘晓英,贾凝心,穆元震,等.小目标检测研究综述[J].中国图象图形学报,2023,28(9):2587-2615.
[9]MENGLC,DAIXY,CHENYP,etal.Detectionhub:unifyingobjectdetectiondatasetsviaqueryadaptationonlanguageem⁃bedding[C]//2023IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).June17-24,2023,Vancouver,BC,Canada.IEEE,2023:11402-11411.
[10]谢翔,肖金球,汪俞成,等.基于改进YOLOv5s的DeepPCB缺陷检测算法研究[J].微电子学与计算机,2023,40(7):1-9.
[11]LIX,CAIZH,ZHAOX.Oriented-YOLOv5:areal-timeori⁃enteddetectorbasedonYOLOv5[C]//20227thInternationalConferenceonComputerandCommunicationSystems(ICCCS).April22-25,2022,Wuhan,China.IEEE,2022:216-222.
[12]陈震元,王振东,宫辰.图像级标记弱监督目标检测综述[J].中国图象图形学报,2023,28(9):2644-2660.
【通联编辑:唐一东】