深度学习背景下的目标检测技术综述

2024-02-09 00:00:00黄天才陈博张筱晨
科技资讯 2024年24期
关键词:目标检测深度学习

摘要:目标检测技术在计算机视觉领域中占据了重要地位,随着深度学习的兴起,该领域取得了显著进展。从传统手工检测方法到现代目标检测方法,从早期的基于候选区域的"R-CNN"系列到单阶段的YOLO"系列,再到加入Transformer"架构的DETR"系列等,目标检测技术随科技进步而更新,通过对主流算法的介绍,对比了不同算法在精度、速度、资源消耗等方面的优劣,最后探讨了目标检测面临的挑战与未来的发展方向。

关键词:深度学习"目标检测"一阶段检测"两阶段检测

中图分类号:"TP391

A"Review"of"Target"Detection"Technology"Under"the"Background"of"Deep"Learning

HUANG"Tiancai""CHEN"Bo""ZHANG"Xiaochen

School"of"Mechanical"Engineering,"Xihua"University,"Chengdu,"Sichuan"Province,"610039"China

Abstract:"Target"detection"technology"occupies"an"important"position"in"the"field"of"computer"vision,"and"it"has"made"significant"progress"with"the"rise"of"deep"learning."From"traditional"manual"detection"methods"to"modern"target"detection"methods,"from"the"early"R-CNN"series"based"on"candidate"regions"to"the"single-stage"YOLO"series,"and"then"to"the"DETR"series"with"the"addition"of"the"Transformer"architecture,"target"detection"technology"has"been"updated"with"the"advancement"of"science"and"technology."Through"the"introduction"of"mainstream"algorithms,"the"advantages"and"disadvantages"of"different"algorithms"in"terms"of"accuracy,"speed,"resource"consumption"were"compared."Finally,"the"challenges"faced"by"target"detection"and"future"development"directions"are"discussed.

Key"Words:"Deep"learning;"Target"detection;"One-stage"detection;"Two-stage"detection

目标检测是计算机视觉中的一项重要任务,目的是将输入图像中所需要的部分的类别和位置标注出来。传统的目标检测方法依赖手工特征和机器学习技术。然而,随着深度学习技术的引入,卷积神经网络(Convolutional"Neural"Networks,"CNN)和"Transformer"架构也能被应用于目标检测中,目标识别的性能大大增强,目标检测从传统方法过渡到深度学习方法,此后,基于深度学习方法的目标检测网络成为了主流。

1"传统目标检测算法

1.1"传统目标检测方法流程

传统目标检测方法的一般流程为6步,第一,图像预处理负责图像归一化和去噪处理等;第二,候选区域生成即使用滑动窗口等方法得到潜在的目标区域;第三,特征提取是使用手工特征描述子对输入图像进行特征的提取操作;第四,目标分类是使用如支持向量机(Support"Vector"Machine,"SVM)等的传统分类器对待定区域的内容进行分类;第五,边界框优化则是使用优化模型来调整目标的边界框位置,以提高检测的精度;第六,后处理是使用非极大值抑制(Non-Maximum"Suppression,NMS),排查掉多余的检测部分,只留下里面评分最高的边界框。

1.2""两种人工目标检测器

人工目标检测器不依赖于大规模的神经网络,而是通过设计特征提取和分类算法来检测目标。典型的检测器如方向梯度直方图(Histogram"of"Oriented"Gradients,"HOG)、可变形组件模型(Deformable"Part"Model,"DPM)检测器等,它们的成功得益于对图像特征的精心设计和特定问题的精确建模。然而,局限性也很明显,如特征表达能力弱、检测速度慢等。

2"深度学习目标检测算法

深度学习的浪潮掀起,目标检测的精度在CNN的强大特征提取能力加持下得到了极大提升。可以将其分为两阶段检测器和单阶段检测器两大类"[1],这二者的区别是否有候选框生成,后者直接生成边界框和进行类别预测,流程简单,速度更快,但通常精度稍逊于前者。

2.1"两阶段目标检测

2.1.1"CNN系列

R-CNN(Region"with"CNN"Feature)是现代目标检测领域的开创性工作之一,由GIRSHICK"R等人[2]在"2014"年提出,使用选择性搜索算法得到大量的待选框,使用CNN进行特征提取后使用SVM分类,判断其所属的目标类别,准确性提高,但计算效率低、训练复杂。Fast"R-CNN是"R-CNN"的改进版本,由"GIRSHICK"R"[3]于"2015"年提出,主要通过共享卷积特征来加速训练和推理过程,同时引入感兴趣区域池化(Region"of"interest"pooling,"RoI"Pooling)"层,使候选区域的特征提取更有效,但候选框生成方法未变,检测速度慢。Faster"R-CNN是由"Ren"S"Q等人[4]于"2015nbsp;年提出。首先对输入的图像进行关键信息提取处理得到特征图并生成候选区域,通过得分筛选出高质量的候选框,由检测头进行类别预测和位置回归。

2.1.2"DETR系列

DETR[5](Detection"Transformer)首次将Transformer引入目标检测任务,能够自然地建模图像中的全局关系和预测目标所在位置和物体的种类,具有较高的检测精度。但是在小物体检测和训练效率上表现欠优。针对这两方面,Deformable"DETR[6]提出了一种可变形注意力机制,能够在局部区域内进行自注意力计算,避免了全局注意力计算带来的高计算成本,加快了训练过程,且在小物体检测表现良好,成为DETR的重要改进版本。

2.2"一阶段目标检测

2.2.1"其他一阶段算法

SSD算法全称是"Single"Shot"MultiBox"Detector,由"LIU"W等人[7]在2016年提出,通过在多个尺度下直接预测边界框和类别,有效处理多尺度物体的检测任务。与Faster"R-CNN相比,速度快,精度接近。但在小物体检测上仍然存在困难。CenterNet[8]是一种基于关键点检测的目标检测方法,直接检测目标的中心点位置,不依赖"anchor"和"NMS,简化检测流程。速度快,精度高,特别擅长检测小目标和密集目标。EfficientDet[9]是由谷歌提出的一个高效且性能优异的检测网络,通过双向连接、模块化设计等操作提升对不同尺寸特征的提取能力,有效提升检测性能,通过复合缩放策略平衡了精度和效率。

2.2.2"YOLOv1-v7

YOLOv1[10],主要的结构是参考谷歌的模型,使用单一网络直接对目标图像进行边界框架和类别的预测,是一个完整的端到端检测框架,实现了实时目标检测。v2算法将更新骨干网络,具有更强的特征提取能力,整个网络均由卷积层来构造,可以接受任意大小的输入图像,模型参数量减少,提高了检测速度。v3算法使用了DarkNet53网络,允许输入信息直接传输到底层,引入特征金字塔增强在不同尺寸下的预测能力。增加CSP(Cross"Stage"Partial)和PAN(Path"Aggregation"Network)结构,得到新的v4算法,并采用马赛克数据增强,能学习到更丰富的语义信息,提高模型的性能。v5算法由3个部分组成,Backbone用来特征提取,将特征分成两个部分,分别经过不同的路径处理;Neck将不同的特征进行融合;Head可以对获取的特征进行分类和回归处理。v6算法使用了新的骨干网络Efficient"Backbone和解耦检测头,并采用高效的卷积操作以降低模型计算量,引入大量的训练策略,增强网络的泛化能力。v7算法引入了E-ELAN(Extended"Efficient"Layer"Aggregation"Networks)结构,使模型能够更好地学习不同层次的特征,引入梯度流优化等技术,平衡了复杂度和速度,使其成为轻量化目标检测的首选。

2.2.3"YOLOv8-v10

YOLOv8"[11]是由"Ultralytics"于"2023"年发布,集成了更高效的网络结构,主要改进为模型结构优化、自动锚点优化、数据增强和提供更好的部署接口。而v9算法通过引入多尺度特征融合模块(Multi-level"Feature"Fusion"Module,"MFFM),使网络能够更好地捕捉图像中的细节,提升小物体检测能力,优化嵌入式设备的推理速度,减少了多余的计算,同时保持较高的检测精度。v10算法在CNN中融合了Transformer模块,通过自注意力机制增强了网络的全局感知能力,在处理复杂场景时具有更强的捕捉能力。引入了动态推理机制,在不降低精度的前提下提高推理速度。v10算法作为"YOLO"系列的最新进化版本,代表了单阶段目标检测算法的前沿,在精度和速度上达到了新的高度。

3"挑战与展望

虽然DETR、YOLOv9、YOLOv10等最新算法在精度和速度方面取得了显著进展,但目标检测任务仍面临诸多挑战。

3.1"小物体检测

尽管多尺度特征融合技术有利于小型物体的检测,但面对复杂背景、环境,其检测结果仍然不尽如人意,小目标物体的检测需要更加精确,如何实现这种需求我们应该重点考虑。

3.2"复杂场景理解

目标检测算法需要应对更加复杂的现实场景,如严重遮挡、多物体重叠以及极端光照条件。未来的算法可能会更多地结合上下文信息和多模态数据来增强对复杂场景的理解。

3.3"实时检测与低资源设备支持

随着边缘计算的普及,如何在低计算资源的设备上实现高效目标检测是一个重要的研究方向。像YOLOv10引入的动态推理机制就是这一领域的探索,但仍须进一步优化。

3.4"多任务学习

当前的目标检测算法大部分只考虑到一种需求,如检测或分割。随着视觉任务的融合,算法可能会朝着多任务学习的方向发展,支持同时进行目标检测、分割、姿态估计等任务。

4"结语

目标检测技术是视觉任务的关键技术,经历从传统的手工特征方法到深度学习方法的演变。传统方法在特征表达能力和检测速度方面存在局限,深度学习技术,从一开始的R-CNN"系列到后面的YOLO"系列与DETR系列,其检测的速度和精度均得到了显著提升。未来,随着技术的发展和需求的改变,目标检测算法将不断更新迭代,通过持续的研究和创新,其有望在更多实际应用中发挥更大的作用,为智能视觉系统的建设提供有力支持。

参考文献

[1] 黄卫.基于深度学习的目标检测应用研究[D].南京:南京邮电大学,2022.

[2]"GIRSHICK"R"B,"DONAHUE"J,"DARRELL"T,"et"al."Rich"feature"hierarchies"for"accurate"object"detection"and"semantic"segmentation[C]//"IEEE"conference"on"computer"vision"and"pattern"recognition."Piscataway,"NJ:IEEE,"2014:"580-587.

[3] GIRSHICK"R."Fast"R-CNN[C]//"IEEE"International"Conference"on"Computer"Vision(ICCV)."Piscataway,"NJ:IEEE,"2015:"1440-"1448.

[4] REN"S"Q,"HE"K"M,"GIRSHICK"R,"et"al."Faster"r-cnn:"towards"real-time"object"detection"with"region"proposal"networks[J]."IEEE"Transactions"on"Pattern"Analysis"and"Machine"Intelligence,"2016,"39(6):"1137-1149.

[5] CARION"N,"MASSA"F,"SYNNAEVE"G,"et"al."End-to-end"object"detection"with"transformers[C]//European"Conference"on"computer"Vision."Berlin:"Springer,2020:"213-229.

[6] ZHU"X"Z","SU"W"J","LU"L"W",et"al."Deformable"DETR:"Deformable"transformers"for"End-to-End"object"detection[C]//International"Conference"on"Learning"Representations."Washington"DC:"ICLR,2021.

[7] LIU"W,ANGUELOV"D,ERHAN"D,"et"al."SSD:"Single"Shot"Multi"Box"Detector[C]//European"Conference"on"Computer"Vision."Berlin:"Springer,2016:21-37.

[8] ZHOU"X"Y,"WANG"D"Q,"KRÄHENBÜHL"P."Objects"as"points[J]."arXiv"preprint"arXiv:1904.07850,"2019.

[9] TAN"M"X,"PANG"R"M,"LE"Q"V."Efficientdet:"Scalable"and"efficient"object"detection[C]//IEEE/CVF"Conference"on"Computer"Vision"and"Pattern"Recognition."Piscataway,"NJ:IEEE,"2020:"10781-10790.

[10] REDMIN"J,"DIVVALA"S,"GIRSHICK"R,"et"al."You"only"look"once:"unified,"realtime"object"detection[C]//2016"IEEE"Conference"on"Computer"Vision"and"Pattern"Recognition,"Piscataway,"NJ:IEEE,"2016:"779-788.

[11] 马原.基于卷积神经网络的道路目标检测研究[D].南昌:南昌大学,2024.

猜你喜欢
目标检测深度学习
视频中目标检测算法研究
软件(2016年4期)2017-01-20 09:38:03
行为识别中的人体运动目标检测方法
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
现代情报(2016年10期)2016-12-15 11:50:53
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
移动机器人图像目标识别
基于背景建模法的运动目标检测