深度学习典型目标检测算法的改进综述

2022-03-22 03:34王鑫鹏王晓强李雷孝杨艳艳
计算机工程与应用 2022年6期
关键词:损失卷积样本

王鑫鹏,王晓强,林 浩,李雷孝,杨艳艳,孟 闯,高 静

1.内蒙古工业大学 信息工程学院,呼和浩特 010080

2.天津理工大学 计算机科学与工程学院,天津 300384

3.内蒙古工业大学 数据科学与应用学院,呼和浩特 010080

4.内蒙古农业大学 计算机与信息工程学院,呼和浩特 010011

目标检测是计算机视觉领域内的重要研究内容之一,随着深度学习的发展,基于深度学习的目标检测算法取得了巨大进步。基于深度学习的目标检测算法在步骤上可分为单阶段(one-stage)和双阶段(two-stage)两种检测方式。单阶段目标检测是基于回归的检测算法,与双阶段相比,其检测速度快但检测精度较低,以YOLO[1]系列、SSD[2]系列算法为代表;双阶段目标检测是基于候选框的检测算法,与单阶段相反,其检测速度慢但检测精度高,以R-CNN[3]系列、SPPNet[4]、R-FCN[5]等算法为代表。随着一些特征提取网络的出现,基于深度学习的目标检测算法的性能又得到进一步提升。图1为经典算法及主流特征提取网络出现的时间。

图1 经典算法及主流特征提取网络出现的时间Fig.1 Time of appearance of classic algorithms and mainstream feature extraction networks

近几年来,基于深度学习的目标检测在交通、军事、民生等各个领域都起着重要作用,例如车辆违规检测[6]、地铁乘客流量检测[7]、行人和交通标志检测[8-9]、海域舰船[10]和遥感卫星图像[11]检测、养殖个体检测[12]等。但基于深度学习的目标检测算法在应用过程中仍存在检测目标过小、检测精度不够、数据量不足等问题,大量学者在传统的算法中对此进行了改进。一些学者通过归纳这些改进方法进而形成综述,Tong等人[13]就检测目标过小的问题从多尺度特征、数据增强、上下文信息等多个方面对改进方法进行了分析总结,但其忽略了特征提取网络对于小目标检测的性能提升,而且数据增强部分只考虑了通过增加数据集中小目标的数量和类型来提高小目标检测性能,缺乏了多样性;许德刚等人[14]和南晓虎等人[15]针对基于回归和基于候选窗口的检测框架,分别就目标检测的典型算法进行了重点介绍和归纳分析,但因文中并没有对算法的优化方案做出很好的分类,所以不能清晰地理解改进思想何时何步骤地运用在检测算法中。

本文在对基于深度学习的典型目标检测算法的改进总结中,首先提出常用数据集及算法的评价指标。其次,依据目标检测的流程从数据处理、模型构建、预测目标及损失计算3个方面归纳了在算法中提到的改进方法。最后结合当前对改进方法的研究现状提出未来可进行研究的方向。与上述综述[13-15]相比,本文主要有以下突破:

(1)总结出改进深度学习的典型目标检测算法的通用方式。

(2)丰富了相关数据增强技术。

(3)归纳了通过优化网络结构来增加模型检测精度的方法。

(4)将检测算法的步骤进行了划分,把可改进的方法分别归纳到其所属步骤中去,便于理解和操作。

1 常用数据集及评价指标

1.1 常用数据集

在基于深度学习的目标检测中,一个标注信息精确、适用性强的数据集能为网络训练和性能测试带来有效的推动作用,并进一步促进相关领域的进步与发展。

其中,ImageNet数据集在推进计算机视觉和深度学习研究方面发挥着重要作用。2010—2017年举办的ILSVRC(ImageNet large scale visual recognition challenge)大赛中,一些网络模型的出现,如:AlexNet[16]、OverFeat[17]、GoogLeNet[18]、VGG[19]、ResNet[20]、SENet[21]等,更是极大推动了目标检测的发展。ImageNet在计算机视觉中甚至被誉为算法性能评估的标杆[22]。与ImageNet数据集类似,Microsoft COCO因其丰富的图片数量和多样的任务种类,如:目标检测、关键点检测、实例分割、上下文识别等,在机器视觉领域已经成为了重要的性能衡量指标。相关数据集对比如表1[23-31]。

1.2 评价指标

基于深度学习的目标检测算法主要通过3个指标进行评价:交并比(intersection of union,IoU)、检测速度(frames per second,FPS)、平均精确度均值(mean average precision,mAP)。

交并比指两个框的重合程度,常常指预测框和真实框之间的重叠率,用来衡量模型的框回归能力。FPS为一秒钟处理图片的数量,一秒钟处理图片的数量越多,模型的运算能力越强,体现了模型的运算能力。衡量模型的分类和检测能力最直观的就是mAP值,mAP值越大则说明模型性能越好。

求取mAP时会提前设置好IoU的阈值,当IoU值大于阈值时才视为检测正确,所以mAP在很大程度上能够同时体现模型的定位和分类能力。实际应用中多采用FPS和mAP(或者AP值,当检测目标只有一个类别时,mAP值也就变为了AP值)两个值来同时评价一个模型的性能[32-33]。

2 基于深度学习的典型目标检测算法的改进

深度学习的快速发展,增加了各经典目标检测算法从多方面进行改进的可行性。该部分以算法的检测流程为时间线,从数据处理、模型构建、预测目标及损失计算几个方面总结了目前主要流行的改进方法,并论述其特点,使不同算法针对不同问题都能够表达出不错的适应性。算法检测流程所对应的改进方案如图2所示。

图2 算法检测流程所对应的改进方案Fig.2 Corresponding improvement scheme of algorithm detection flow

2.1 数据处理

网络模型是基于数据来运行的,一个实用性强的数据集对于网络的测试和训练都起到了不可忽视的作用,在训练网络之前对数据进行合理操作更是提高了网络模型的精准度和泛化能力。对数据集的处理可分为两方面,一是数据增强,二是先验框的选取。数据增强技术很大程度上减小了网络过拟合问题,提高了模型的泛化性;对真实框进行聚类获得的先验框,因尺寸更加符合检测目标的大小而增强了模型检测精度,多见于单阶段的目标检测算法中。

2.1.1 数据增强

在基于深度学习的目标检测算法中,数据增强技术分为有监督和无监督两种。有监督的数据增强技术可分为三类:几何变化、色彩变换、混合变换;无监督的数据增强技术可分为两类:生成新数据、学习新的增强策略。相关数据增强方法对比如表2所示[34-43]。

表2 相关数据增强方法对比Table 2 Comparison of related data augmentation methods

每种数据增强对于模型性能的提升往往是有限的,为了使网络模型学习到更加丰富的语义特征,对于数据增强方式的运用往往是多种形式地结合[35,44-45],这种结合形式不仅使数据集实现了数量级上的跨越,还可针对性地解决模型应用问题,如利用随机擦除或随机裁剪来增强模型对噪声和遮挡问题的鲁棒性,利用Mosaic增强来提高模型对小目标的识别能力等。混合变换在图片多样性和检测难度上要比几何、色彩变换更加丰富与复杂,训练出的模型往往也更具健壮性,因此正逐渐被相关领域的学者所关注,图片经混合变换后的结果如图3所示。在无监督的数据增强技术中,生成对抗网络(generative adversarial networks,GAN)因其具有强大的学习和生成能力也受到了研究学者的热爱[46-48],但由于网络中生成网络和判别网络之间的交替训练,使得GAN式的数据增强相比于有监督的数据增强方式,如:翻转、随机擦除等,在图像的处理速度上要慢很多,因此对于无监督方式在数据增强上的应用也相应的要比有监督方式少。

图3 混合变换Fig.3 Hybrid transformation

目前对于有监督的数据增强策略的研究已经趋于完善,把多种数据增强技术结合起来共同提高模型性能更是成为了主要需求,但对于无监督数据增强技术的探索仍然略显匮乏。主要原因如下:(1)有监督数据增强方式的广泛使用,使得无监督的数据增强方法在一定程度上不受重视。(2)目标检测算法逐渐向端到端的网络发展,将数据增强方式集成到算法中已然成为了一种需求,但无监督的数据增强方式因其复杂且计算量大的缺点,在集成方面有一定的困难,应用范围受到了限制。(3)无监督数据增强方式所需的生成对抗网络或强化学习相关技术繁杂多样,对于研究人员的探索有了一定阻碍。

2.1.2 先验框选择

在目标检测时,模型会在网络中利用先验框(Anchor)来确定目标大概位置,之后通过预测的偏移量(offsets)和缩放系数来进行先验框的调整,最终形成预测框。先验框设置得合理与否,极大地影响着最终模型检测性能的好坏。

先验框设置的方法可分为人工设置和真实框聚类两种,采用人工设置的算法有SSD、Faster-RCNN等,但人工设置的anchor并不能保证它们能够很好地适应数据集,从而导致模型的检测结果受到影响,而聚类算法的出现解决了手动设置的不足。目前算法对于真实框的聚类多采用K-means算法,如YOLO v2、YOLO v3算法等,对于该聚类算法的不足,即聚类结果对初始聚类中心点的选择具有强依赖性,一些学者也在相关算法中对此做出了改进,使得先验框的聚类效果更好。相关聚类算法及其改进对比如表3所示[49-56]。

表3 先验框聚类方案Table 3 Anchor clustering scheme

2.2 模型构建

合理地构建模型,能够有效增加模型的运算效率,减少梯度消失和梯度爆炸问题,也能让网络提取到更加丰富、全面的语义特征,提高模型的识别和分类能力。构建模型可分为两部分:重建网络结构和更改激活函数。

2.2.1 改进网络结构

通过优化网络模型的特征提取网络来提高模型性能是目前最为常见的一种改进方式。2015年ResNet网络中首次提出了残差模块(Residual block),使卷积网络变得更深的同时不易出现退化现象,COCO数据集标准指标(mAP@[0.5,0.95])下相比VGG16获得6%的提升。作为ResNet网络的改进,DenseNet网络[57]以建立前面所有层与当前层的密集连接来实现特征重用,在参数量和计算成本更少的情况下可以实现比ResNet网络更优的性能。GoogLeNet网络的核心部分为Inception模块,该模块通过不同的卷积核来提取图像的特征信息,利用1×1的卷积核进行降维,使得计算量明显减少。特征金字塔网络[58](feature pyramid networks,FPN)对于识别小目标有着突出贡献。PANet网络[59]作为FPN网络的一种改进,在FPN的基础上增加了一条自底向上的信息传递路径来弥补底层特征利用不充分的问题,结构如图4所示。

图4 PANet模型Fig.4 PANet model

全连接层的存在导致输入图片的大小必须统一,而SPPNet[4]的提出解决了这一问题,使得输入图像的尺寸不受限制。与SPPNet作用一样的还有ROI Pooling[60]。ResNeXt[61]作为ResNet与Inception模块相结合的一种网络,主张通过增加基数(分支数)来提升网络的性能,每个分支都具有相同的结构,Inceptionv4可以看作该网络的一种特殊形式。EfficientNet[62]不在追求某一维度(深度、宽度、图像分辨率)上的增加来提高模型整体的准确率,而是探索这三个维度之间最好的组合。Tan等人[63]在EfficientNet的基础上,提出了一组目标检测框架EfficientDet,针对不同程度的资源限制,都能有不错的高性能。上述网络的对比如表4所示。

通过表4的总结可知,采用不同的网络结构能够有不同的优化方案:

表4 相关网络优缺点对比Table 4 Comparison of advantages and disadvantages of related networks

(1)在模型中引入更深层次的网络(ResNet、DenseNet)可以提取更加丰富的语义信息,提高模型检测效率。

(2)FPN、PANet、BiFPN可以把卷积运算后的多个尺度特征进行融合,使不同层次、尺度的特征都能够充分发挥自己所具有的信息,促进小目标的检测。

(3)GoogLeNet网络中Inception模块通过更小的卷积核来替代较大的卷积核,虽然略微增加了参数量,但大幅减少了计算量。在模型优化中引入1×1卷积核来减少计算量是一个不错的选择。

(4)引入SPP网络可以使模型的输入不再局限于固定尺寸,使图像输入更加灵活;可以提取到丰富的多层次特征。

(5)多维度增强或多结构融合的思想,对于网络的性能提升也是极为重要。

一些学者在相关模型的网络结构改进中为使检测结果更加理想而引入了上述的优化方案,相关文献如表5所示[64-78]。其中GoogLeNet网络的相关文献为Inception模块的典型优化方法,优化过程如图5所示。

表5 相关模型对于网络结构的部分改进内容Table 5 Some improvements of related models for network structure

图5 Inception模块Fig.5 Inception modules

为了更好地提高模型检测精度,现如今的网络结构正逐渐向增加网络模型的深度(残差模块)、宽度(Inception模块)以及上下文特征提取能力[58-59,79-81]等方向发展,但这样所导致的模型复杂化、冗余化,使得改进后的算法更加难以应用在实际生活场景中。优化算法时考虑算法的应用领域,与轻量型框架相结合来减少计算量,增加算法实时性的同时提高算法准确性,不失为改进算法中的一种合理方案。MobleNets系列[82-84]作为现模型算法中采用最多的轻量级框架之一,专门针对移动端、嵌入式设备而提出,极大地减少了参数量和计算量,但轻量化模型的发展仍不够全面,代表性算法还很少。

2.2.2 优化激活函数

非线性的激活函数能提高网络的非线性表达能力,增强对于特征信息的学习,饱和非线性函数还可以限定网络层的输出范围,防止因输出过大而引起的计算错误。常见的非线性激活函数有:Sigmod、Tanh、ReLU、Leaky ReLU、PReLU、Swish。

2019年Howard等人[82]提出H-Swish函数,该函数与Swish函数曲线近似相同,但H-Swish函数减少了计算量,增加了模型运算速度。与此类似,H-Sigmod函数作为Sigmod的改进,在函数曲线上也近似接近Sigmod函数,同时与Sigmod函数相比增加了运算效率。文献[85]对SSD算法做出优化,引入了注意力机制的残差模块,为使其能在嵌入式摄像设备中能够有较快的检测速率,进一步将注意力模块中的Sigmod激活函数替换为了H-Sigmod激活函数,ReLU激活函数替换为H-Swish激活函数,尽可能地减少了参数运算,经实验表明,在略微增加模型检测精度的同时比原SSD算法的检测速率提高了4.8倍。Sigmod函数与H-Sigmod函数、Swish函数与H-Swish函数图像对比如图6所示。

图6 Sigmod VS.H-Sigmod和Swish VS.H-SwishFig.6 Sigmod VS.H-Sigmod and Swish VS.H-Swish

对各激活函数进行对比分析,可以比较直观地发现各函数的优势,并可根据现实的算法需求更好地选择适合的激活函数,使得算法的表现更加优异。表6总结了相关激活函数的优缺点。

表6 相关激活函数优缺点对比Table 6 Comparison of advantages and disadvantages of related activation functions

2.3 预测目标及损失计算

为防止预测目标时同一类别目标上产生多个候选框,可采用非极大值抑制(non-maximum suppression,NMS)来进行预测框的选取,减少候选框之间发生重叠的几率。对于目标检测中的损失值计算,常见的可分为分类损失、边界框回归损失、置信度损失(根据检测算法应用场景不同,也会加入其他方面的损失计算,比如Mask-RCNN算法中加入的mask掩码损失)。

2.3.1 预测框选取

预测框的选取方法可以从两个方面进行改进,一是提高预测框选取的精度,二是提升NMS算法的运算效率。提高预测框选取精度方面,目前主流的改进方法考虑到了NMS算法存在筛选掉必要候选框、候选框包围目标不准确、拥有高分类分数的候选框却有低定位置信度等多种问题,从多方面的改进也促进了NMS算法性能的大幅度提升;运算速率方面,由于NMS算法中IoU的计算方式多为顺序执行,如YOLO V3[75]、YOLO9000[86]、Fater-RCNN[87]等网络中的NMS算法,因此可通过GPU并行加速IoU矩阵运算,提升矩阵的运算效率。表7[88-96]从提升精度和速度两方面总结了对于NMS算法的改进。

表7 NMS改进方案Table 7 NMS improvement plans

虽然上述算法都对NMS做出了一定程度上的优化,但仍存在以下缺点:

(1)虽然Soft NMS减少了候选框数量,但对于端到端的网络,如YOLO、SSD算法,其产生的候选框数量要远小于区域建议网络或滑动窗口,使得Soft NMS对端对端的网络显得不是那么高效。

(2)IoU-Guided NMS是基于IoU指标进行评价的,对于预测框与真实框之间关系的描述不够全面。

(3)DIoU NMS是在DIoU的基础上提出的,所以也会有DIoU存在的问题,如没有考虑到两框之间的长宽比关系、计算较复杂而降低了运算效率。

(4)虽然SE在端到端网络上有效,但相比Soft NMS只对候选框进行抑制的操作,SE抑制和增强的做法显然计算量更大。

(5)Softer-NMS算法使得模型定位能力得到提升,但其是在KL Loss基础上进行的,如果想利用此方法对某算法做改进,则也需要改变算法的框回归损失函数。

(6)AdaptiveNMS算法由于是通过网络预测目标周边的密集和稀疏的程度,需要额外添加密度预测模块,造成计算开销。

(7)Fast NMS允许冗余框去抑制其他框,导致其他框被错误地抑制,精确值要比NMS差。

(8)Cluster NMS因为是迭代Fast NMS的操作,所以运算速率上比Fast NMS略低。

(9)与Fast NMS具有类似的并行化方法,所以也会和Fast NMS一样会对框产生过多抑制。

2.3.2 损失计算

目前在目标检测方向上,损失计算主要针对网络模型的分类损失和边界框回归损失两方面进行改进。

在计算分类损失时,由于通过候选框选出来的候选样本多是容易分类的负样本,且负样本的数量远远超出正样本,这种不平衡性就可能导致网络难以收敛,过多的负样本也会使模型的优化方向受到影响。与CE(cross-entropy)loos未考虑正负样本不平衡和难易样本不平衡不同,Focal损失[97]对于这种正负样本比例失衡问题提供了很好的解决方案,众多文献[98-102]更是直接将算法中的分类损失替换为了Focal loss来解决正负样本不平衡的问题,以此加快网络的训练和收敛速度。不同于在线难例挖掘算法[103](online hard example mining,OHEM),Focal loss并没有忽略容易分类的样本,而是减少了易分类样本的权重比例,使模型在训练时更加专注于难分类的样本。与Focal loss类似,AP loss[104]、DR loss[105]也有效地解决了正负样本不平衡的问题,但与之不同的是,两者不是通过调整样本权重来调节样本平衡性,而是将样本分类问题转化为某种方式的排序问题。AP loss以正样本预测框尽可能在负样本之前为目的对预测框的得分进行排序,以此解决了正负样本失衡的问题,DP loss则考虑将一个正样本和一个负样本作为排序对,以此解决正负样本的不平衡性。经实验表明,对于模型精确值的提升,两者都要优于Focal loss函数。另一方面,Class balanced loss[106]有效解决了因目标类别之间数据量差距较大而导致的分类准确率下降的问题,从新的方向上提高了模型效率。

边界框回归损失方面,除了传统的损失函数外,如:Smooth L1 loss,IoU系列损失(DIoU[90]、CIoU[90]、GIoU[107]损失)大受学者们的欢迎,被广泛应用到算法的改进中。

IoUloss的缺点是:(1)当真实框和预测框不相交时不能反应两者的距离情况,可能会出现loss一直不更新的情形;(2)IoU只能反映两框之间交并比(面积)的关系,不能反映重合程度。2019年Rezatofighi等人[107]提出新的度量指标GIoU,在IoU的基础上考虑了重叠面积,当预测框和真实框未相交时,会通过两框之间的关系来拉近两者之间的距离,同时缓解了IoU损失值为1的尴尬,但:(1)当真实框完全包含预测框时,会使GIoU损失退化为IoU损失,从而无法区分它们的位置关系;(2)预测框和真实框未相交时,GIoU损失会存在扩大预测框来使两者距离拉近的情况,需要更多次的迭代才能收敛。

为了解决GIoU损失收敛慢和退化问题,DIoU与CIoU进一步加强了loss的收敛速度和模型的回归精度。DIoU在原有IoU的基础上考虑了重叠面积和中心点距离,根据两框之间的中心点距离作为惩罚,使DIoU损失的收敛速度远大于GIoU损失;CIoU损失在DIoU损失的基础上添加了长宽比,并用v衡量长宽比的相似性,将重叠面积、中心点距离、长宽比相结合来提高框回归精度,但具有相反的梯度值,导致了CIoU损失不能同时增大或减小预测框的长与宽,进而收敛速度受到一定影响。DIoU损失很好地解决了GIoU损失的退化问题,DIoU与GIoU的退化问题对比如图7所示,其中蓝色框代表真实框,绿色框代表预测框。

图7 DIoU与GIoU的退化问题对比Fig.7 Comparison of degradation problems between DIoU and GIoU

GIoU、DIoU、CIoU除了作为损失函数外,本质上也是对于交并比的一种扩展,所以在算法优化上可将其作为损失函数进行改进,也可将其作为交并比进行改进。GIoU、DIoU、CIoU损失函数经YOLO v3算法在PASCAL VOC 2007上的性能对比如表8所示[90],其中AP=(AP50+AP55+…+AP95)/10,AP75(mAP@0.75),分别采用IoU与GIoU为度量指标。

表8 IoU系列损失函数性能对比Table 8 Performance comparison of IoU series loss function

由对比可知:(1)通过对IoU损失的不断改进,目标的检测精度得到显著提升,其中CIoU损失使得算法的精度提升最高;(2)GIoU为度量指标时,由于框与框之间的判别标准变得更加苛刻,相比IoU为度量指标时,视为检测正确的预测框会有所减少,所以检测精度也会有所下降。

2.4 其他方面

检测流程中除了上述基本的改进方法之外,还有一些比较优秀的方法,即:注意力机制(attention mechanism)和可变形卷积(deformable convolution)。

注意力机制最早在视觉图像领域中被提出,由于其能够忽略低价值信息关注于感兴趣信息而被学者广泛关注。2017年SENet将注意力机制应用到了通道维度,提升了模型对于通道的敏感度,作为轻量级的SE模块能与现有的网络结构相结合,只需增加极少的运算量就能实现模型性能的提升。同一年,Wang等人[108]将注意力机制和残差网络相结合,提出了残差注意力网络来实现图像的分类任务,在增加网络模型深度的基础上,注意力机制可使浅层网络集中于背景信息,深层网络专注于待分类的目标,从而实现网络对于分类能力的提升。Yuan等人[109]在Faster-RCNN的优化上,结合注意力机制提出了一种轻量级网络模型,该模型在Faster-RCNN的骨干网络中引入特征注意力模块(convolutional block attention module,CBAM)[110],从通道和空间两个维度来提取网络感兴趣的特征图,促进网络识别目标的位置特征。

可变形卷积[111]通过学习到的偏移量对卷积核的采样点进行偏移,使卷积核适应检测目标的形状变换而加强网络对于形变物体的检测能力,但这样可能会引入无用的背景区域来干扰特征的提取,使算法的性能有所降低。2019年Zhu等人[112]提出可变形卷积的V2版本,加入了更多可变形卷积层来提高算法对于几何形变的适应能力,并通过模仿R-CNN的特征解决了无关上下文的问题,使得该版本不论对于形变的检测能力还是检测精度上都得到了显著提升,在目标检测和实例分割中产生着重要作用。文献[113]在R-FCN算法改进中,由于交通标志的形状不一的问题,将可变形卷积和可变形位置敏感池化(deformable ROI pooling)与模型相结合,使模型针对不同形状的交通标志都能有不俗的检测结果。Dai等人同时提出了可变形位置敏感池化与可变形卷积,原理都在原有的基础上增加了一个offsets,能为模型提供很好的适应能力。

注意力机制及可变形卷积在目标检测上的应用,极大推动了算法改进思想的浪潮。注意力机制的空间维度、通道维度、空间通道维度,以及注意力机制与残差模块相结合等创新性的构思,加上可变形卷积的提出与优化,使得改进目标检测算法的可行性大大提高。

3 总结与展望

本文系统地阐述了近年来学者对于深度学习的目标检测算法进行改进的方法,并对当下热门公开数据集和算法评价指标进行了总结分析,同时希望通过算法流程性的归纳为相关领域的研究人员提供新的科研思路。对所列举不同改进策略的机制、优势、局限性、适用场景进行提炼分析,对比表如表9所示。

表9 不同改进策略的对比Table 9 Comparison of different improvement strategies

结合上述知识的分析与总结,提出以下未来研究的方向。

(1)视频目标检测。目前深度卷积网络对于静态图像的检测相对于传统方法有了很大的进步,并逐步在视频流的目标检测中发挥重要作用。但视频流检测目标不仅要关注每一帧的消息,还要考虑帧与帧之间的关系,除此之外,相邻帧之间包含的大量冗余特征、帧抖动、帧模糊以及目标之间的拥挤都会造成检测效率的降低。因此对视频目标检测算法做出更多总结[114],并在此基础上提升模型对于视频检测的泛化性,增强高质量语义特征的提取能力,加强相邻帧关系的建立等多方面的特性,都将是未来热门研究方向。

(2)无监督方式的数据增强方法。基于有监督的数据增强由于其简单易操作的特性在目标算法的改进研究中占据主要地位,但其快速的发展间接阻碍了无监督数据增强的进步。经无监督数据增强生成的图片质量高、多样性强等特点是有监督方式难以替代的,未来在保证图片质量的情况下,利用轻量级框架提出一种实现较为简单且易集成的无监督数据增强方式将会极大推动目标检测及图像处理的发展。

(3)结合多维度的网络结构设计。现有网络在深度、宽度、对于高分辨率图像的处理上都已趋于完善,EfficientNet通过寻找三者之间的最优解更是获得检测性能的大幅提升。但影响网络性能的维度不止于这三种,经实验证明,ResNeXt所提到的基数维度,相比提高网络深度与宽度,其对于网络性能的提升往往更加有效。未来利用神经网络搜索出深度、宽度、图像分辨率、基数四个维度之间的最优架构,甚至发现其他重要维度,都将对于网络性能的提升将会有极大促进作用。

4 结束语

目前对于优化基于深度学习的目标检测算法具有很大的研究价值和理论意义,同时也会带来很多困难与挑战,未来希望通过对目标检测算法的不断优化,给各个领域带来不俗的贡献。

猜你喜欢
损失卷积样本
基于3D-Winograd的快速卷积算法设计及FPGA实现
胖胖损失了多少元
用样本估计总体复习点拨
卷积神经网络的分析与设计
从滤波器理解卷积
玉米抽穗前倒伏怎么办?怎么减少损失?
规划·样本
基于傅里叶域卷积表示的目标跟踪算法
随机微分方程的样本Lyapunov二次型估计
菜烧好了应该尽量马上吃