基于YOLOv8的林区行人目标检测研究

2025-01-04 00:00:00李琳琳孙海龙

森林工程 2025年1期

关键词：林区管理；行人检测； YOLOv8；注意力机制；损失函数；改进算法；深度学习；识别

中图分类号：S771 文献标识码：A DOI：10. 7525/j. issn. 1006-8023. 2025. 01. 011

0引言

林业资源保护是林业资源管理的重要内容之一［1］，但人为的过度开发和破坏，导致森林资源流失严重。传统的林区管理模式效率低下，依赖于大量的人力和物力，准确率低时效性差，在对乱砍滥伐及人为造成的森林火灾进行实时监测方面存在不足。智慧林业作为一种先进的管理模式，基于人工智能、大数据、云计算和物联网等技术，为我国森林资源智慧监测和管理提供了科学的助力，所以研究基于人工智能的林区行人检测技术对提高我国智慧林业管理发展水平具有重要意义。

目标检测技术作为实现林区智慧监测的关键技术，主要分为手动提取特征的传统图像处理方法和自动提取特征的深度学习方法。林区植被茂盛，图像采集时容易出现遮挡，行人特征不完整的情况，加上盗伐者通常着装迷彩服，与背景色调相似度高，增加了检测难度［2］，这正是传统图像处理方法难以克服的问题。近些年来，随着人工智能的不断发展，基于深度学习的行人检测技术在应对复杂环境时，其检测精度与速度有了显著的进展。基于深度学习的检测算法主要分为2类：以YOLO［3-5］为代表的单阶段检测算法和以R-CNN［6］为代表的两阶段检测算法。现如今，YOLO系列算法以其稳定性、精准性受到越来越多的关注，有效解决了复杂环境背景下行人检测的技术难题。其中，张忠民等［7］引入了RepVGG网络模块替代原有3×3卷积加强密集场景特征信息的提取，并添加了ECA［8］注意力机制，有效提高了检测效果，检测精度达到了85. 1%，但检测速度明显下降；贵向泉等［9］采用DepthSepConv卷积模块对网络进行轻量化处理，大幅度减少了参数量，但检测精度相对较低，只有82. 3%；汤静雯等［10］重构检测头提升小目标行人检测精度，重建颈部网络BDR-FPN，缓解遮挡行人不敏感问题，获得更有效的特征图信息，检测精度提高了5. 6个百分点，但对于远距离下的小目标检测效果仍不理想。基于深度学习的目标检测技术已经广泛应用在农林领域，但是针对林区行人检测识别的相关研究较少，也缺少用于林区行人检测的图像数据集。综合以上问题，本研究以东北林业大学林场为主要研究区域，采集大量的林区行人图像制作目标检测数据集，提出一种基于改进YOLOv8的林区行人检测算法，有效地降低了林区复杂背景以及小目标特征不敏感等干扰因素的影响，提升了林区行人目标识别的准确率，并保持较快的检测速度，较原模型的计算精度有较大提升，为人工智能在林业实现智慧监测提供算法基础，为林业资源高效科学地管理提供新思路和新方法。

1研究方法

1. 1YOLOv8检测算法

YOLOv8是Ultralytics发布的YOLOv5的改进版本，YOLOv8的网络结构基于YOLOv5，采用了一种轻量级的目标检测网络结构，主要组成部分包括：主干网络（Backbone）、中间特征提取层（Neck）、检测头（Detect），其结构如图1所示。主干网络主要是用来提取图像特征，可以看作是一个深层卷积神经网络，并采用了C2f基础模块，使模型达到轻量化效果的同时有更加丰富的特征信息。中间特征提取层采用了PAN-FPN［11］的思想，采用自顶向下的连接方式，将不同尺度的特征图进行整合，进一步提取图像特征。检测头使用了类似于YOLOv5的结构，通过多层卷积和池化操作分别完成分类和回归任务，有助于提高模型的泛化能力和检测精度。

林区背景的复杂性，往往导致检测效果不佳，如：目标在图像中的特征体积小，表征模糊，极易出现漏检的情况；检测目标易被树木枝叶遮挡或衣着与林区环境相似，出现检测精度不高，导致误检的情况。本研究以YOLOv8n为基线模型，面向林区行人检测场景进行改进，提高检测模型的性能和效率。

1. 2改进算法

1. 2. 1改进算法的结构

针对当前林区行人检测效果不佳的问题，做出改进后的网络结构如图2所示。改进如下。

1）将DWRSeg 与C2f 模块结合，构成新模块C2f_DWRSeg，设计了高效的两步残差特征提取方法，简化并加速了训练过程，提高检测精度。

2）重构检测头，将多分支、多尺度思想与重参数化思想结合，提高单一卷积的特征提取能力，并保持原有的推理成本。

3）在SFFP模块后嵌入CGA注意力机制，加速推理速度。

4）最后在这些改进的基础上，将Focaler-ShapeIoU损失函数代替原有的CIoU损失函数，进一步提高林区行人检测的精度。

1. 2. 2 C2f_DWRSeg模块

针对林区行人检测任务中的检测效果不理想的问题，引入一种多尺度特征提取的机制DWR（DilationWise Residual）［12］，使特征提取过程更高效和有针对性，从而提高林区行人检测模型的精度。其结构如图3所示（C代表卷积；D-3代表膨胀率为3的深度可分离卷积；D-5代表膨胀率为5的深度可分离卷积）。

DWR模块通过两步法提取来自不同尺度的上下文信息。第1步使用区域残差化，采用3×3卷积将特征图转换为包含不同区域大小的简化特征图，作为下一步的输入。第2步为语义残差化，将简化后的特征图通过不同尺度的深度可分离卷积对特征信息进行更细微的处理，即通过不同膨胀率（D-n）的卷积分别对同一输入进行卷积操作（D 为膨胀率（Dilation rates），n 是不同的膨胀率数值）。最后将3种结果通过1×1的卷积拼接，并与原始输入特征图相加，形成残差连接［15］。

本研究将DWR 模块整合到C2f 模块的Bottleneck位置，设计新的模块C2f_DWRSeg。该模块适用于林区这种复杂背景下的行人检测任务，从而实现林区行人检测模型整体性能的提升。其融合前后的对比结构如图4所示。

1.2.3检测头模块

YOLOv8的检测头模块会产生过多的计算量和参数量，本研究引入多分支结构的模块DBB［14］，重构检测头。DBB 是基于ACNet 的改进，具有重参数化的特点，该结构由1×1 卷积、K×K 卷积和平均池化层等组合而成。在训练期间引入复杂的多分支结构，增强特征的融合和提取能力；训练完后将复杂的多分支结构转换合并为单一的卷积层，使模型的计算复杂度不会增加，保持了原有模型的推理效率，该模块的使用满足了林区行人检测任务的实时性的需求。其结构如图5 所示（BN 层（Batch norm）：通道正则化和线性尺放缩，AVG：平均池化层，K×K：卷积核大小为K×K，“K”代表卷积核的边长）。

1. 2. 4CGA［16］注意力机制模块

在林区行人检测场景中，常常出现行人与背景（如乔木和灌木）颜色和纹理相似的情况，使检测难度增加。针对这个问题，引入CGA注意力机制充分聚焦复杂背景与行人之间的差异，提高检测精度，同时也可以解决计算量开销过大的问题，其原理如图6所示（K：键；V：值；Q：查询，是注意力机制的核心。通过线性映射将输入映射到Q、K、V 空间中，来评估输入特征的内在关系和重要性，提取数据中的有用信息）。

2. 4试验结果

2. 4. 1卷积模块对比试验

为验证不同卷积模块对模型性能的影响情况，在YOLOv8n的基础上引入不同的卷积模块进行对比试验，试验结果见表2。

由表2可知，引入的C2f_DWRSeg 模块在各项性能指标上均有较强的表现。其准确率为94%、召回率为82. 5%、mAP50 达到90. 1%、mAP50-95 为65. 2%，这些指标均为表中最高。尽管其参数数量和计算量稍高，但所带来的性能提升使得这种增加是合理的。为进一步探究改进模型的效果，利用Grad-CAM生成可视化热力图，如图8所示，该图能够直观显示区域关注度高低，特征越明显，对应位置热度越高。相较于其他卷积模型的热力图，能明显看出使用C2f_DWRSeg卷积的模型对特征信息更加容易捕捉，在关注点上表现得较为集中，检测精度也有所提高。通过各种数据的对比可以得出，替换的C2f_DWRSeg卷积更有助于进一步提高林区行人目标检测模型的性能。

2.4.2检测头对比试验

为验证不同检测头对模型性能的影响情况，在改进模型的基础上引入不同的检测头进行对比试验，试验结果见表3。

由表3可知，Detect_DBB的mAP50是三者中最高的，表明Detect_DBB 能够提供更准确的检测结果，在应对复杂场景或多样化目标时尤为重要。Detect_DBB 的参数数量和计算复杂度也处于中等水平，在提供较好的检测精确度的同时也没有消耗极大的计算资源。而Detect_FRM 的mAP50是三者中最低的，并且参数数量极高，计算复杂度也较大。为深入探索改进模型的可解释性，通过可视化热力图的对比可以直观地观察到模型关注的特征区域的不同，如图9所示。相较于其他检测头模块，使用Detect_DBB 模块的模型对小目标特征细节关注得更加具体，并减少了漏检问题，能准确识别并定位行人的位置。综上，Detect_DBB在确保较高的检测准确率的同时减少了漏检率，所以Detect_DBB模块比其他模块更适应于林区行人检测任务中。

2. 4. 3注意力机制对比试验

为验证不同注意力机制对模型性能的影响情况，在改进模型的基础上引入不同的注意力机制进行对比试验，试验结果见表4。

由表4可知，DLKAttention和Biformer的参数数量较大，尤其是Biformer的计算量最高，FPS最低，说明该模块需要较大的计算资源，在实时性场景中并不适用。CGA的mAP50、mAP50-9是所有注意力机制中最高的，并且在维持较低的计算复杂度和参数数量的同时，提供了最高的FPS，证实了其在林区行人检测任务中的有效性。再通过可视化热力图，将所有注意力机制进行对比，如图10所示。由图10可以清晰地看出，引入DLKAttention 和Biformer 的模型都出现了漏检的情况，而引入CGA的模型没有出现漏检的情况，这表明模型对行人特征的多尺度感知能力较强，能有效识别到行人的关键特征，对于行人的空间位置有更高精度的预测。综上，改进模型选取的CGA模块在特征提取与识别定位方面有较好的表现，能为林区行人检测提供坚实的技术支持。

2. 4. 4损失函数对比试验

为验证不同损失函数对模型性能的影响情况，在改进模型的基础上引入不同的损失函数进行对比试验，试验结果见表5。

由表5可知，本研究使用的Focaler-ShapeIoU损失函数与其他损失函数相比，其召回率、mAp50及mAp50-95最优，分别为82. 3%、90. 2%、93. 6%。由图11更能直观的对比出Focaler-ShapeIoU损失函数的优势，通过使用该损失函数，明显提高了YOLOv8n的林区行人检测精度，证明了该损失函数对于在林区背景下的行人检测任务的精度方面具有有效性。

2. 4. 5消融试验

为进一步验证本研究改进算法性能的有效性，通过多个模块组合的方式进行消融试验，见表6。表中“√”代表使用此模块在测试集上的试验结果。

由表6 可知，基于YOLOv8n 模型，通过引入C2f_DWRSeg 模块和Detect_DBB 模块，mAP50 和mAP50-95都得到了提升，有效增强了模型在特征提取上的能力，提高了平均检测精度，证明了在增强小目标检测方面的重要性。为了进一步优化性能，引入了CGA注意力机制，提升了mAP50、mAP50-95的同时，FPS 也显著提高，计算复杂度仅有小幅上升，表明该注意力机制可以在不显著增加计算负担的前提下，实现性能的大幅提升。最后，采用改进的损失函数Focaler-ShapeIoU，虽然FPS 略有下降，但模型的检测精度都有所提升，再次强调了损失函数在优化检测性能中的关键作用。综合所有这些改进，与基准模型相比，本研究提出的改进算法在mAP50 和mAP50-95指标上总共提升了2% 和2. 4%，同时检测速度提高了11%。这些数据表明，通过引入创新的网络结构和模块，模型的综合性能得到了显著提升。这些改进不仅优化了精度和效率，还保证了实时性，使得该模型成为一个在多个方面都表现优越的解决方案。

2. 4. 6不同模型对比试验

为了进一步验证本研究改进模型的性能，对当前主流模型在同一个数据集进行对比验，结果见表7。

由表7 可知，表格中列出了不同版本的YOLO模型和改进模型的各项性能指标。YOLOv3 与YOLOv7虽然检测精度表现不错，但需要的参数量太多且计算复杂度太大，需要一定的计算资源，而改进模型更加轻量化，并具有较高的处理速度。并且改进模型的mAP50 优于YOLOv5、YOLOv6 和YOLOv8n，能够较为全面地检测到目标，有较好的检测精度。由图12可以看出，改进模型的收敛速度以及平均精度都是优于基线模型YOLOv8n，说明了改进的有效性。综上，基于YOLOv8n的改进模型在精确度、速度和效率上取得了很好的平衡。其不仅能够提供高准确性的检测结果，同时也支持高速处理，在林区行人检测任务中表现最优。

本研究使用3组场景的图片对YOLOv8n 和改进模型的检测效果进行对比，如图13所示。在第1组图片中行人较少，可以看出，YOLOv8n出现了漏检的情况，但是改进算法模型并未出现漏检的情况并且检测精度明显提高；第2组图片中，有远距离小目标，改进模型的检测效果比YOLOv8更出色，能敏锐捕捉到小目标行人或是被遮挡的行人；第3组图片中，行人较为密集，YOLOv8n出现了误检的情况，与改进模型相比，检测精度也不高。总体来说，改进模型对目标的检测效果普遍优于原始模型，证明本研究模型在林区行人检测方面能够提取更丰富的语义信息，性能更优越。

3结论

依托于现代信息技术的智慧林业管理技术已成为实现森林资源智能化与精细化管理的必然选择。本研究以东北林业大学林场为研究区域，进行图像数据集采集工作，并基于YOLOv8n算法提出一种新的林区行人检测算法，来实现林区行人的检测识别。考虑到林区背景复杂、存在远距离和小目标行人等问题，对原YOLOv8n算法进行改进。具体改进如下。

1）为提高检测模型对林区行人特征的提取能力，提高检测精度，设计了C2f_DWRSeg 模块替换YOLOv8n颈部网络中C2f模块。

2）为在保持原有计算量的同时提升对小目标的检测精度与准确度，引入了具有重参数化思想的DBB模块构建新的检测头网络。

3）为获取更准确的目标检测结果，通过级联的设计，提高特征的多样性，嵌入了CGA注意力机制。

4）为提高模型对目标的定位和识别能力，使用Focaler-ShapeIoU损失函数替换原模型中的CIoU损失函数。

试验结果表明，这种改进方案提高了林区行人检测模型的整体性能。改进模型的检测精度优于基线模型，mAP50达到了90.2%。检测速度明显提升，帧速率比原模型提高了11.11%，满足了实时性需求。下一步将继续优化算法，在提高检测精度和准确度的基础上，减少模型大小和计算复杂度，进而提升模型的泛化能力和水平。为林区的安全管理和科学规划提供有力的技术支持，推动林区管理向数字化、智能化迈进。