小样本图像目标检测研究综述

2022-04-09 07:01张振伟郝建国潘崇煜
计算机工程与应用 2022年5期
关键词:类别样本图像

张振伟,郝建国,黄 健,潘崇煜

国防科技大学 智能科学学院,长沙 410073

近年来,随着卷积神经网络(convolutional neural networks,CNN)在图像领域的应用和发展以及高性能计算设备的强力推进,图像分类识别技术取得了巨大成功,从2012年获得图像分类冠军的AlexNet[1]到后来的VGG[2]、GoogleNet[3]、ResNet[4],各种网络模型被相继提出并在图像分类领域不断取得新的突破。以深度学习为核心的目标检测技术充分吸收了图像分类领域的研究成果,加之更加广泛的应用场景(如智能监测、自动驾驶、安全领域等),使得目标检测技术成为计算机视觉领域新的研究热点,许多成熟的算法模型已经成功部署到实际应用场景当中。目前基于深度学习的目标检测模型需要大量的标注样本进行训练,但在实际场景当中,往往很难获取到相应规模的高质量标注样本。而小样本学习可以在少量标签样本条件下实现对新类型目标的快速分类识别,降低了对大规模标签数据的依赖。受小样本学习启发,近年来,小样本图像目标检测技术研究逐渐引起广泛关注。相对于常规的监督式目标检测方法需要借助大量的待检测类别标注样本进行训练,小样本图像目标检测在具有充足标注数据的公开数据集基础上,只需要极少量待检测的新类别标注样本,通过精心设计训练方法、模型结构和损失函数,就可以获得具有一定泛化性能的检测模型,极大提高模型开发的效率,也更具实用价值。

小样本图像目标检测是传统目标检测技术与小样本学习技术的融合,旨在通过少量的标注样本学习具有较好泛化性能的检测模型。目前,小样本图像目标检测方法多基于经典的两阶段目标检测算法Faster R-CNN[5],如文献[6-12]均将Faster R-CNN作为主干网络。也有部分研究基于经典的YOLO[13]和SSD[14]一阶段目标检测算法,如文献[15-16]分别以YOLOv2[17]和YOLOv3[18]作为主干网络,文献[19]以SSD作为主干网络。与小样本图像分类相比,小样本图像目标检测更具挑战性,不仅要对目标进行分类,还要确定目标在图像中的精确位置。检测过程中不仅要提取分类任务所关注的高层语义信息,还要获取低层级的像素级信息实现目标的定位。虽然直接使用小样本学习的方法难以完成对目标的检测,但小样本学习的方法为小样本图像目标检测提供了解决思路。

本文结合当前小样本目标检测研究现状,对主流小样本目标检测从不同方面做了详细的阐述,同时,为便于区分,将与之相似的弱监督小样本目标检测和域适应小样本目标检测统称为广义小样本目标检测并对其进行了简要介绍,特别地,本文在当前大量综述研究基础上,总结了目前小样本目标检测存在的问题和挑战,并提出了下一步可能的应对方案,为研究者进一步探索提供更多有益参考。

1 问题定义及已有方法分类

1.1 问题定义

给定集合Db和集合Dn。对于集合Db,其类别称作基类,记为Cb,每个类别均有充足的标注样本。集合Dn,类别称作新类,记为Cn,每个类别只提供少量标注样本(通常少于10个),两个集合类别无交叉,即Cb⋂Cn=∅。对于测试集T={(x,y),x∈X,y∈Y},x为输入图像,y={(ci,bi),i=1,2,…,N}表示图像x中目标的类别和位置信息,其中类别c∈{Cb⋃Cn}。小样本图像目标检测算法研究的目的是利用集合Db和集合Dn对模型进行优化,实现对测试集T中图像目标的检测,与小样本学习中常用的N-wayK-shot在新类上计算平均准确率的指标评估方法不同,小样本目标检测计算每个类对基类和新类所有类别平均精度值。

1.2 方法分类

按照小样本目标检测方法的思想和模型结构,现有的小样本目标检测方法主要分为以下6类:基于度量学习的方法,基于数据增强的方法,基于模型结构的方法,基于微调的方法,基于元学习的方法以及基于集成的方法。表1对这几种方法进行了简要的对比分析。

表1 小样本图像目标检测方法对比分析Table 1 Comparisions of different methods for few-shot object detection

1.2.1 基于度量学习方法

基于度量学习的方法是在获取潜在目标区域特征的前提下,将目标区域特征和支持图像特征转换到相同的嵌入空间,通过计算距离或者相似度对潜在的目标区域进行分类,进而实现对图像中不同目标的检测。Karlinsky等[20]提出了一种表征距离度量学习方法,用具有多个模态的混合模型表示每个类,并将这些模态的中心作为类的表示向量,通过单一的端到端训练过程,同时学习训练类别的嵌入空间、主干网络参数和代表性向量。Zhang等[21]提出一种利用对比网络解决小样本图像目标检测的度量学习方法。模型训练好之后无需对参数进行调整即可对新类目标实现检测。图1表示了基于度量学习方法的典型结构。其中特征提取网络用于提取查询图像和支持图像特征,候选区域网络则用于生成候选区域,最终形成感兴趣区域(region of interest,RoI),编码网络则用于将感兴趣区域特征与支撑图像特征转换到嵌入空间,用于距离和相似度度量。文献[22]在分类模型中引入语义相似性度量作为额外的监督信息,提高了小样本学习的泛化能力,为小样本目标检测提供了有益借鉴。

图1 基于度量学习的小样本图像目标检测方法Fig.1 Metric learning based method for few-shot object detection

基于度量学习的方法另一个研究的重点是损失函数设计。一个有效的损失函数应当能使得同类别具有较高的相似度,而不同类别之间相似度尽可能小。如Hsieh等[23]设计了基于裕度的排名损失(margin-based rank loss),用于隐式学习一种度量来预测区域建议和查询特征的相似性。

与小样本学习中的图像分类类似,小样本目标检测中度量学习主要体现在最后的分类器部分,用于类别相似度度量,因此可以借鉴小样本学习中度量学习的相关研究成果[24]。另外,基于度量学习的方法更容易实现增量式学习,即模型在基类数据集上完成训练后可以直接用于新类别目标检测。但同时由于度量学习重点关注类别相似性,而定位信息则主要依赖于前一阶段区域建议网络,使得模型检测性能还需要进一步验证。

1.2.2 基于数据增强的方法

数据增强是计算机视觉领域提高模型性能常用的手段,特别是在训练数据不够丰富的情况下利用数据增强技术能够有效提高模型的鲁棒性。通过数据增强,对新类别样本进行扩充,在构建相对大量样本基础上,利用已有的图像检测算法进行训练和测试,将小样本图像检测转化为常规的监督式图像检测问题。基于这一思想,Wu等[10]提出了一种多尺度正样本优化方法(MPSR),如图2所示,通过构建目标金字塔(object pyramids),形成多个尺度正样本,而后利用特征金字塔网络(feature pyramid net,FPN)[25]构建特征金字塔(feature pyramids)进一步增强数据多样性,用于对网络进行训练。Riou等[26]还提出了通过复制粘贴来扩充小目标数据的方法。对于小样本目标检测,除了缩放变换和复制粘贴外,还可以采用其他常用的数据增强方式,主要包括两大类,一类是不改变标注框的增强,有色彩变换、高斯噪声、弹性变换;另一类是改变标注框的增强,包括平移变换、剪切变换、旋转变换、镜像变换、裁剪变换及标注框变换(只对标注框内部分进行旋转、镜像等操作)。随着语义嵌入在小样本目标检测中的应用[27-29],还可以通过语义增强[30]的方法进行数据扩充。另外Zhang等[31]通过生成虚拟样本增加样本多样性,在极少样本条件下实现了一定性能提升,在极少样本条件下实现了一定性能提升。

图2 基于数据增强的小样本图像目标检测方法Fig.2 Data augmentation based method for few-shot object detection

基于数据增强的方法比较容易理解,具有较强的可解释性,而且不同的增强手段可以联合使用,实现性能叠加,获得更好的检测性能。但单纯地使用数据增强的方法,对模型性能提升能力有限,难以从根本上解决样本数量不足的问题。

1.2.3 基于模型结构的方法

通过构建新的模型结构实现新类目标检测是解决小样本图像目标检测的一种新思路。图3展示了该类方法的典型结构,在常规检测模型基础上,通过构建新的模型结构提供有效的辅助信息,从而降低对样本数量的依赖,达到小样本条件下检测的目的。

图3 基于模型结构的小样本图像目标检测方法Fig.3 Model based method for few-shot object detection

Yang等[19]发现直接采用迁移学习的方法训练小样本图像目标检测器,在目标定位方面往往表现良好,但在分类方面容易出现混淆,比如将马识别为狗。其主要原因在于目标定位时只需区分定位的目标属于前景或者背景,不需要知道其具体类别,所以目标定位往往表现良好,检测器性能主要取决于分类模块,基于此,提出一种即插即用的上下文转换器(context-transformer)模块,该模块由相似性发现(affinity discovery)和上下文聚合(context aggregation)两个子模块构成,能够发现基类和新类的关联关系,通过上下文关联关系有效解决目标混淆的问题。Fan等[8]认为区域候选网络在没有足够辅助信息支持的情况下,难以过滤掉与目标不相关的前景信息,导致网络产生大量的目标不相关信息,为解决上述问题,提出一种新的注意力网络,通过权值共享充分学习目标间的匹配关系以及同类别的通用知识。Chen等[32]结合元学习和迁移学习的优点,引入了新颖的注意力目标检测器,能够结合自下而上和自上而下的注意力,其中自下而上的注意力提供了显著区域的先验知识,自上而下的注意力从目标标注信息进行学习。同时,在常规目标检测损失函数的基础上设计了目标聚焦损失和背景聚焦损失项,目标聚焦损失有助于将同一物体的特征聚集到一起,而背景聚焦损失有助于解决部分未标注目标被错分为背景的问题,最终通过混合训练策略,模型获得了较好的检测性能。

通过设计新的模型结构实现小样本目标检测的方法获得了很多学者的认可,而且也是最有可能从根本上解决样本不足问题的方法之一,但由于新的模型结构设计需要更多的理论和经验作支撑,往往不容易实现,甚至会导致性能衰退。

1.2.4 基于元学习的方法

与传统的监督学习以样本为基本单位进行迭代训练不同,元学习以任务为单位进行迭代训练,并从中习得一组在不同任务中均表现良好的初始化参数,针对特定的任务只需要进行少量的迭代即可在新任务中获得较好的性能。图4展示了典型的基于元学习的小样本图像目标检测方法,在元训练阶段利用丰富的基类样本训练元模型预测权重,在元测试阶段,利用学习到的元知识结合小样本图像的类相关参数进行参数预测。

图4 基于元学习的小样本图像目标检测方法Fig.4 Meta learning based method for few-shot object detection

Kang等[16]在YOLOv2基础上引入了元特征学习器和轻量级的特征重加权模块,能够使检测器快速适应新的类别,利用具有充足样本的基类数据集训练特征学习器,提取可泛化到新对象类的元特征。重加权模块将来自新类的一些支持示例转换成全局向量,该向量用于指示相应检测对象的元特征的重要性或相关性,将特征学习器学习到的元特征和重加权模块得到的权重向量卷积整合就可以得到目标的分类和回归信息。Wang等[33]将检测器最后一层作为类别相关部分,该部分参数不能在基类和新类之间直接转换,通过引入参数化的权重预测元模型,实现了参数间的转换。Yan等[12]在Mask RCNN[34]的基础上提出了Meta R-CNN,利用支持分支获取类别注意力向量后与兴趣区域特征相融合作为新的预测特征用于检测或分割。Xiao等[35]在Meta R-CNN的基础上对融合网络进一步改进获得了更好的检测性能。Perez-Rua等[36]借鉴CenterNet[37]的结构和思路提出一种中心点预测的元学习方法,该模型能够实现增量式学习,即在添加新类后无需再访问基类数据。

Zhang等[38]认为现有的元学习方法主要局限于区域级预测,性能主要依赖于最初定位良好的区域建议。针对这一问题,在Deformable DETR[39]基础上,将近年来流行的Transformer[40]与元学习相结合,提出了图像级元学习小样本目标检测模型,用编码、解码器替代了原有的非极大值抑制(NMS)、锚框等启发式组件,实现了在图像层级上的目标定位和分类。文献[41]利用参数共享的特征提取网络提取查询图像和支持图像的特征后,通过稠密关系提取模块执行密集的特征匹配以激活输入图像的共存特征,再将其送入RPN网络提取兴趣区域。另外,对于兴趣区域池化部分,先进行不同尺度的层级池化后再进行融合,之后送入检测器头部用于分类和定位。

元学习的方法被普遍认为是一种比较有潜力的方法[9,38],被广泛应用于各类小样本任务中,具有较强的通用性,可以在不依赖模型的前提下,利用少量的支持样本快速更新优化模型参数,具备快速适应新任务的能力。然而在实际应用中发现,元学习器设计并非易事,且在学习迭代过程中容易出现不收敛问题[42]。

1.2.5 基于微调的方法

基于微调的方法是利用大量基类数据对现有的模型结构进行预训练,而后利用少量的新类别样本对部分参数进行微调,进而实现小样本条件下目标检测。文献[9]发现基于微调的方法在小样本图像目标检测中效果超过很多元学习方法。该论文采用带有特征金字塔网络(FPN)的Faster R-CNN检测模型作为基本检测框架,首先,使用大量基类数据对检测网络进行预训练。而后,冻结前端的图像特征提取器及RPN网络参数,并随机初始化检测器头部的分类和回归网络,在此基础上,利用少量的支撑样本对模型进行微调,最终在基类和新类上均达到了较好的泛化性能,图5展示了该模型训练的基本流程。Sun等[43]实验发现仅微调分类和回归网络尽管能获得较高的召回率,但容易出现类别混淆,基于此,提出对特征金字塔(FPN)网络、区域建议网络(RPN)以及分类回归网络联合进行微调,同时在损失函数中增加对比损失项保持类间差异性,减少类别混淆,该方法在公测数据集上获得了较好的性能提升。

图5 基于微调的小样本图像目标检测方法Fig.5 Fine tuning based method for few-shot object detection

通过微调使得模型实现对新类目标的检测是一种简单但相对有效的方法,特别是在一定数量样本条件下能获得相对较好的检测性能。其难点在于如何相对准确地区分类别相关和类别无关参数以及选择合适的超参数。尽管Sun等[43]将骨干网络部分和兴趣区域池化部分作为类别无关组件,其余部分作为类别相关组件,通过微调获得了一定的性能提升,但这种划分仍缺乏足够的理论和实验支撑。

1.2.6 基于集成的方法

不少研究表明,采取单一的小样本目标检测方法已经越来越难获得性能的提升,一些学者试图寻找新的突破口,借鉴不同方法的优点,提出了基于集成的方法。Li等[11]将用于余弦相似度度量的兴趣区域向量和类别注意力向量按通道进行正则化处理,作为新的度量方式,首次提出了元学习和度量学习相集成的方法。Zhu等[29]将视觉信息融入语义关系并在语义空间进行关系推理,再将经过关系推理增强后的语义关系集成到基于微调的方法当中,可以看作是度量学习与基于微调的方法的结合,相比于直接微调的方法,性能获得了一定的提升。Han等[44]提出了一种集成元学习和模型结构的方法,在元学习方法的基础上,构建并行检测模型,分别用于检测基类和新类,对于新类检测通道分别提出了原型匹配区域建议网络和原型匹配分类器两个模块,专门负责新类检测。Fan等[45]在TFA[9]的基础上提出一种并联结构分别用于检测基类和新类,并参照TFA[9]的微调方法对新类检测分支进行微调,在学习新类知识的同时避免了对基类知识的遗忘。

基于集成的方法在小样本目标检测领域是一种相对新颖的解决思路,能够一定程度上汲取不同方法的优点,从不同角度实现模型检测性能的提升,达到联合制胜的效果。但另一方面,集成的方法往往会带来更大的计算量,导致模型检测速度下降,如何在精度和速度之间取得平衡也是一个值得关注的问题。

2 实验设计

2.1 数据集

目前小样本图像目标检测主要利用PASCAL VOC[46]和MSCOCO[47]两个公开数据集作为实验数据集,进行算法验证和分析对比,还有部分文献[8,11]采用了FSOD[8]数据集。表2展示了不同数据集的基本统计信息。其中,PASCAL VOC数据集主要有VOC 2007和VOC 2012两个版本。该数据集可用于图像分类、目标检测、语义分割以及人体部位识别等4类任务。按目标类别划分为交通工具、房屋设施、动物、人4个大类,共20个小类。

表2 PASCAL VOC、MSCOCO及FSOD数据集详情汇总Table 2 Summary of PASCAL VOC,MSCOCO and FSOD datasets

MSCOCO数据集是由微软开发维护的大型图像数据集,目前主要有MSCOCO 2014和MSCOCO 2017两个版本。MSCOCO数据集从数据收集层面将数据集分为标志性对象图像、标志性场景图像和非标志性场景图像三部分,共91个分类。用于检测的目标类别总共有80个,其中涵盖了PASCAL VOC数据集的20个类别。

FSOD数据集由腾讯优图实验室和香港科技大学于2020年公布,是专门构建的小样本图像目标检测的公开数据集,来源于ImageNet和Open Image两个数据集,涵盖1 000个类别,共66 502张图像和182 000个标注框。

2.2 实验设置

文献[16]首次详细介绍了PASCAL VOC和MSCOCO数据集划分设置,在之后的小样本目标检测研究中,基本沿用了文献[16]的数据集设置方式。对于PASCAL VOC数据集,采用3种不同的类别分组,每种分组按照15个类别作为基类,剩余5个类别作为新类进行设置;对于MSCOCO数据集则选择与VOC数据集类别重合的20个类作为新类,剩余80个类别作为基类。对于FSOD数据集则按照文献[8]的实验设置,选择与其他类别相似度较小的200类作为新类,其余800类作为基类。训练过程中,对于基类,均提供全部图片及标注信息,对于新类,则根据1/2/3/5/10-shot(VOC)或者10/30-shot(MSCOCO)等不同的实验设置选取相应的图片及标注信息。

小样本图像目标检测训练过程,通常采用两阶段训练方式,在第一个训练阶段将具有充足标注样本的基类作为输入,采用指定的学习率,对模型进行一定轮次预训练,第二阶段称作微调阶段,利用新类或者相近数量的新类和基类(保持类别平衡)对模型进行微调。

就输入方式而言,目前主要有两种方式,一种是常规目标检测输入方式,即以批处理的方式输入,基于数据增强、微调及模型结构的方法常采用这种方式。另一种是采用任务式输入方式,将输入图像区分为查询集Q={(Iq,Mq)}和支持集S={(Is,Ms)}。其中Iq、Is分别表示查询集和支持集图像,Mq、Ms分别表示相应图像所对应的标注信息,查询集每张图像可能包含多个类别目标,而支持集每张图像只包含一个有效目标,一般由训练集图像按标注框进行裁剪或者掩码处理得到。单次任务可表示为:

在第一个训练阶段,Iq∈Db,Is∈Db,微调阶段(基于元学习的方法中称作元测试阶段),Iq∈{Db⋃Dn},Is={Db⋃Dn},测试阶段(或称推理阶段),Iq∈T,Is∈{Db⋃Dn}。基于度量学习和元学习的方法通常采用这种方式。

2.3 性能评估

小样本图像目标检测性能评估与常规目标检测性能评估类似,均基于准确度-召回率曲线计算平均精度均值(mean average precision,mAP)。

一般来讲,准确率和召回率不能同时达到最优值,单独使用准确率或者召回率并不能很好地反应模型的检测性能,因此,检测模型平均精度值(average precision,AP)表示模型对某一类目标的检测性能优劣。AP值计算可以通过对准确度-召回率曲线(precisionrecall curve)积分实现。以召回率为x轴,准确度为y轴绘制PR曲线(实际计算中需要进行插值操作),曲线下方的面积大小即为AP值。计算公式为:

对于多类别目标检测,使用mAP进行性能评估。计算公式为:

其中,APi表示第i个类别的平均精度值,N表示总类别数。对于MSCOCO数据集,除上述指标外,部分模型[9-10,16,33]还用到了AP、AP50、AP75、Aps、APm、APl、AR1、AR10、AR100、ARs、ARm、ARl等指标。其中AP、AP50是最常用的两个指标。另外Chen等[48]将检测速度FPS(frame per second)也考虑在内,综合进行性能评估。

与常规目标检测算法性能评估不同之处在于,除总体评价指标AP外,小样本图像目标检测算法还区分基类平均精度值(APbase)和新类平均精度值(APnovel)分别进行性评估与对比。

2.4 典型模型对比

为了对比不同方法的性能,本节从每类方法中选取其中比较经典的模型,并利用PASCAL VOC数据集在分组1(将鸟类、公交车、牛、摩托车、沙发作为新类,其余类别作为基类)条件下,使用论文作者公布的代码及参数配置进行了实验验证,表3展示了几种典型的小样本检测模型在VOC数据集上的性能对比,表中加粗部分表示对应设置下的最优结果。为了尽可能降低随机性,所有的实验结果均采用重复运行6次后的均值作为最终的结果。

表3 几种典型的小样本目标检测模型检测性能对比Table 3 Comparison of detection performance of several typical few-shot object detection models%

从验证结果可以看出,首先,FSCE[43]、MPSR[10]、GFSD[45]在不同设置下检测精度相对要优于其他模型,并且FSCE与MPSR检测结果更接近。主要原因可能是由于,一方面,FSCE、MPSR和GFSD均采用FRCN+FPN结构作为基础框架,分层对目标进行预测,更有益于目标检测;另一方面,FSCE及MPSR定位器部分结构相似,分类器部分则通过不同方式进行了改进。其次,大部分模型采用了Faster R-CNN或者带有FPN结构的Faster R-CNN作为基础框架,而且整体性能上要优于基于一段式的SSD算法模型,这是因为相比于一段式的SSD算法,两段式的Faster R-CNN,在常规监督学习的目标检测中就具有更好的检测精度。而且,两段式检测算法中候选区域网络(RPN)能够产生类别无关的候选框,微调阶段可以将更多的注意力用于类别相关部分的参数优化,从而有效减少了微调阶段优化参数数量,更有利于小样本条件下模型优化。另外,结合图6中样本数量与模型性能的关系图曲线可以看出,在一定范围内,随着支持样本数的增加,各种方法的检测性能均有所提升,表明更多的支持样本会引入更多的先验信息,提升小样本目标检测的性能。最后,不同方法在5-way 5-shot条件下准确率均超过42%,相对于随机检测(目标分类部分为10分类问题,仅分类任务上随机正确率为10%)性能有明显提升,表明小样本图像检测在技术上是可行的,但性能还有待提升。

图6支持样本数对模型性能的影响Fig.6 Influence of support images count on model performance

3 潜在应用方向

3.1 军事遥感目标检测

高分辨率的遥感图像作为信息化条件下情报信息的重要来源,将在未来战争中发挥重要作用。信息化条件下战场态势瞬息万变,单纯依靠人力从海量的遥感图像中获取战场信息,已经不能满足实时感知的需要,从海量遥感图像中快速获取目标信息将成为提高战场感知能力的关键。由于军事领域内用于目标检测的标注数据集非常有限,同时人工标注数据难度高、代价大,并且针对新的检测对象,常规的目标检测方法都需要大量的时间在新收集的数据集上对模型重新进行训练,而小样本图像目标检测通过特殊的模型和训练机制设计,在已有大样本数据集上完成预训练后,对新的检测目标,只需要提供少量的样本数据,对模型进行在线微调,无需将原始模型下线,基于海量数据重新训练,数据依赖小,且便于部署,适应瞬息万变的战场环境,将在未来军事遥感领域发挥重要作用。

3.2 图像检索

图像检索是在给定特定实例(特定目标、场景等)的支持图像的情况下,从数据库图像中找到包含相同实例的图像。这一过程与小样本图像目标检测中基于度量学习的1-shot检测方法不谋而合,只需提供1张用于检索的支持图像,就可以实现对查询图像的检测和检索。目前图像检索主要采用基于尺度不变特征变换(scale invariant feature transform,SIFT)及基于CNN的方法,从检索结果来看,存在大量的不相关图像,并且难以实现一图多目标情景的检索。另一方面,从图像检索的流程来看,目标检测与图像检索有许多相似之处,都可以看作是从图像中查询目标。就检索准确度而言,用目标检测的方法可以实现更加精准的检索,但就检测任务而言,常规的目标检测方法只能检测指定类别的目标,显然难以完成多样化的图像检索任务,而小样本图像目标检测技术在预先定义类别基础上,支持用户后期自定义新类别,具备可持续学习和在线学习能力。

3.3 工业生产中残次品检测

残次品检测是工业生产中的一个重要环节,以往只能依靠人工进行检测,这样的检测手段显然难以满足自动化生产的需要,而且在一些不适合人工作的危险环境及人工视觉难以满足的场合,迫切需要实现自动化检测。Wang等[49]针对布匹缺陷提出一种基于深度学习的自动检测模型,Mei等[50]采用SSD检测网络实现了对紧固件缺陷的自动检测。尽管这些方法能够实现对残次品的检测,但需要大量的残次品标注样本对模型进行训练。实际工业生产中往往难以收集大量的缺陷样本,而小样本条件下的目标检测,不仅节约大量的人力成本,也能有效提高生产自动化程度。

4 广义小样本目标检测

除了前文定义的主流的小样本图像目标检测外,还有一些非常类似的检测任务,例如弱监督小样本目标检测和域适应小样本目标检测等。为了便于区分,这里将其统称为广义小样本目标检测。

4.1 弱监督小样本目标检测

对于集合Dn,若其中的任意元素(xi,yi)∈Dn,满足即对于新类,只提供目标的正样本图像及其类别标签信息,而不是常规设置中的整张图像和局部标注框信息,这样的小样本目标检测称作弱监督小样本目标检测。

相比于主流的小样本目标检测,弱监督小样本目标检测,无法直接使用支持样本对网络模型进行微调,条件更为苛刻,更具挑战性,其方法更趋向于弱监督目标检测的方法。Hu等[51]利用图神经网络及空间相似性搜索提出SILCO模型,首次在少量样本条件下实现弱监督目标检测,可以看作弱监督小样本目标检测的初探,但该模型只适用于1-way 5-shot的场景。Karlinsky等[52]针对SILCO的限制提出了一种星网(StarNet)模型,通过查询和支持图像之间的几何匹配进行定位和分类,实现了真正意义上的弱监督小样本目标检测,可以作为该领域的基准模型。Shaban等[53]基于不同类别特征在嵌入空间中形成单个聚类的假设,利用冯·米赛斯-费舍尔分布(von Mises-Fisher(vMF)distribution),设计了方向统计模型,通过归纳偏差来解决小样本学习中的过拟合问题。

就弱监督小样本目标检测目前的研究现状而言,尚处于探索和起步阶段,模型性能与主流的全监督小样本目标检测相比还有一定差距,在缺乏精确的实例监督信息的条件下,模型容易将局部目标作为目标整体,导致目标检测精度下降,这也是弱监督目标检测容易出现的问题[54],未来还需要进一步研究和探索。

4.2 域适应小样本目标检测

如图7(a)所示,对于主流的小样本目标检测,其基类和新类类别标签不同,但属于同一数据域,而域适应小样本目标检测基类和新类类别标签相同,但属于不同的数据域,如可见光图像和线条简笔画、卡通图像等,如图7(b)所示,其数据特征分布相差很大。同时,域适应小样本目标检测通常使用特有的数据集,如Cityscapes[55]、Foggy Cityscapes[56]、SIM10k[57]、KITTI[58]等数据集。

图7 主流的小样本目标检测和域适应小样本目标检测对比Fig.7 Comparision of general few-shot object detection and domain adaption few-shot object detection

自Chen等[59]首次将域适应和目标检测结合以来,不少学者开始关注域适应目标检测研究,如Inoue等[60]结合CycleGan[61]提出一种弱监督域适应目标检测方法,并构建了用于域适应目标检测的Clipart1k、Watercolor2k和Comic2k三个数据集。Saito等[62]通过分层对齐的方式在不同特征层分别进行域适应,实现较好的效果。Learned-Miller等[63]利用CycleGan[61]在源域和目标域之间生成多个中间域图像,实现了数据增强的效果。尽管常规条件下域适应目标检测已经有不少研究成果,但小样本条件下的域适应目标检测仍处于起步阶段,Wang等[64]在Faster R-CNN的基础上通过引入源和目标配对机制以及对源特征正则化的方法实现了首个真正意义上的域适应小样本目标检测。

从研究内容而言,域适应小样本目标检测与主流的小样本目标检测存在一定的互补关系,该领域研究能够进一步拓宽小样本目标检测的研究范围。但就目前研究现状而言,域适应小样本目标检测研究社区还不完善,没有设定统一的数据集以及相关的类别设置和划分,对于算法性能评估仍缺乏相对统一的衡量标准,这些问题在今后相关研究中亟待进一步解决。

5 当前面临的挑战及其应对方案

单纯依靠大规模标注样本的目标检测方法无法适应不断变化的新情况、新任务,小样本目标检测由于对数据依赖小,能够利用少量的标注样本实现在线学习,有较强的灵活性和可扩展性。相比于强监督式目标检测,不仅能够有效降低标注样本收集成本,而且能适用于样本稀缺的场景,更加符合实际应用需求,但就目前研究现状而言,还面临不少挑战,主要体现在模型泛化能力、相关理论研究和模型结构三个方面,这里对其进行分析并探讨相关的应对思路。

5.1 泛化能力有待提高

一个成熟的小样本图像目标检测算法应该具备较好的泛化能力,而从目前研究现状来看,除人脸识别认证领域外,模型泛化能力距实际应用还有较大差距。主要体现在两个方面,一是相比于大样本目标检测,现有的小样本目标检测算法在检测性能上还有不小差距;另一方面,现有的小样本目标检测算法,主要针对同域不同类或者同类不同域问题,对于新类和基类在不同数据集上,比如,基类属于MSCOCO或者PASCAL VOC等自然景物图像数据集,新类来自于电子商务商标或者遥感图像数据集,类似这种不同类不同域问题还缺乏行之有效的方法。针对这些问题,可以从以下两个方面着手解决:一方面将类别信息融入候选区域网络,提出更加有效的候选区域。现有的小样本图像目标检测算法,大多数将分类和定位作为两个子任务。对于分类部分,主要借鉴小样本学习的思路和方法,而对于定位部分,通常采用候选区域与类别无关的思想。但在实际检测过程中,对于同类目标,在不同的检测任务中,产生候选区域时,可能有时作为前景,有时作为背景,在这种情况下,模型泛化能力显然会受到影响。研究将类别信息融入候选区域网络,产生更有针对性的候选区域,将有效提高模型的泛化能力。

另一方面,考虑将主流的小样本目标检测的方法和广义小样本目标检测方法相融合。首先在实际场景中往往图像易得而标注信息难获取,所以在有限标注信息作为监督信息的条件下,可以考虑使用弱监督小样本目标检测的方法从无标注的图像中提取同类目标特征作为弱监督辅助信息,以便检测器能获得更多的先验知识,文献[65]所提出的方法一定程度上体现了这样一种思路。其次考虑将域适应小样本目标检测方法与主流的小样本目标检测方法相融合,研究解决不同域不同类目标在小样本条件下的检测。

5.2 相关理论还有待完善

通常小样本图像分类只需要关注与类别相关的语义信息,而小样本图像目标检测,不仅要关注与类别相关的语义信息,还要关注位置信息,因此,依靠小样本学习的相关理论指导小样本图像目标检测进行算法设计和实验存在一定的局限性,需要针对小样本目标检测的特有问题开展理论研究。比如在样本数据缺乏的情况下如何更有效地提取目标的位置信息,如何在提取高层语义信息的过程中,更多地保留位置信息,学习过程中,如何抑制背景信息,增强关注信息等。科学的理论基础将更有益于小样本图像目标检测技术的发展。

5.3 模型还需进一步整合

现有的小样本图像目标检测算法普遍采用两段式的Faster R-CNN作为基础框架,模型相对复杂,不便于部署,而近年来一段式目标检测算法由于兼顾了精度和速度两个方面的性能指标而得到广泛关注。2016年Joseph等开创性地设计出了YOLO检测模型以来,模型不断升级更新,检测精度、速度不断提升,而参数量不断减小。特别是2020年6月,Ultralytics发布的YOLOv5,最小模型参数量不到30 MB,在保持相对不错的检测精度前提下,能够实现对视频信息的实时检测且便于部署,这对于小样本图像目标检测算法提供了新的机遇,未来小样本图像目标检测算法可以借鉴YOLO算法的成功经验从精度和速度两个方面提升模型的性能。

6 结语

本文从主流的小样本图像目标检测的问题定义出发,介绍了当前主要方法及实验设计并指出了小样本图像目标检测潜在的应用场景,在此基础上,对广义小样本目标检测做了简要阐述,最后基于当前的研究现状分析了小样本图像目标检测技术面临的挑战并探讨了应对方案。虽然目前小样本图像目标检测算法还不够成熟,模型泛化性能尚有待提高,但随着目标检测技术的发展及小样本条件下的目标检测应用需求牵引,未来必然会催生更多更成熟的研究成果。

猜你喜欢
类别样本图像
浅析p-V图像中的两个疑难问题
用样本估计总体复习点拨
巧用图像中的点、线、面解题
一起去图书馆吧
有趣的图像诗
规划·样本
随机微分方程的样本Lyapunov二次型估计
多类别复合资源的空间匹配
“官员写作”的四个样本
趣味数独等4则