孙统风 王康 郝徐
摘 要:为了解决孪生神经网络因使用图像级特征度量,存在对位置、复杂背景及类内差异比较敏感的问题,提出了一种双重度量孪生神經网络(DM-SiameseNet)。具体来说,DM-SiameseNet使用图像级的特征和局部特征(局部描述符)共同表示每幅图像,然后根据两种不同级别的相似度度量学习特征映射,最后使用自适应融合策略,自适应整合两种不同级别特征表示的度量结果。实验结果表明,改进后模型的准确率分别提高了5.04%和9.66%,并且在miniImageNet、TieredImageNet、Stanford Dogs、Stanford Cars和CUB-200数据集上高于只使用图像级的特征表示或者局部描述符表示的度量方法。实验结果证明所提出的模型不仅考虑了图像的全局特征,还可以捕获图像中更多有效的局部特征信息,提高了模型的泛化能力。
关键词:小样本学习; 孪生网络; 双重度量; 特征提取; 局部描述符
中图分类号:TP391 文献标志码:A
文章编号:1001-3695(2023)09-046-2851-05
doi:10.19734/j.issn.1001-3695.2022.11.0807
Dual-metric siamese neural network for few-shot learning
Sun Tongfeng, Wang Kang, Hao Xu
(School of Computer Science & Technology, China University of Mining & Technology, Xuzhou Jiangsu 221116, China)
Abstract:In order to solve the problem that the siamese neural network is sensitive to position, complex background and intra-class differences due to the use of image-level feature metrics, this paper proposed a dual metric siamese neural network(DM-SiameseNet). DM-SiameseNet used image-level features and local features (local descriptors) to jointly represent each image, then learned feature maps based on two different levels of similarity measures, and finally used an adaptive fusion strategy to adaptively integrate two different measurement results represented by the level feature. Experimental results show that the accuracy of the improved model is increased by 5.04% and 9.66% respectively, and is higher than the measurement methods that only uses image-level feature representation or local descriptor representation on miniImageNet, TieredImageNet, Stanford Dogs, Stanford Cars and CUB-200 datasets. The experimental results prove that the proposed model not only considers the global features of the image, but also captures more effective local feature information in the image, which improves the generalization ability of the model.
Key words:few-shot learning; siamese network; double measures; feature extraction; local descriptors
在大数据时代,随着科技的发展,依托强大运算能力,深度学习模型已经在图像、文本、语音等任务中取得了巨大成就,但深度学习模型的成功,离不开大量的训练数据。然而在现实世界的真实场景中,经常会遇到样本过少或者获取成本过高的情况,如何利用少量样本进行学习,是深度学习模型无法绕开的难题。与此相反,人类只需要通过少量数据就能做到快速学习。受到人类学习特点的启发[1],小样本学习[2,3]的概念被提出,旨在让机器学习更加靠近人类思维,拥有像人类一样快速学习的能力。近年来小样本学习在图像分类领域提出了许多优秀学习方法,一般来说,可以大致分为基于元学习[4]的和基于度量学习[5]的小样本学习方法。元学习旨在从大量的先验任务中学习到元知识,利用以往的先验知识来指导模型在新任务(即小样本任务)中更快地学习,在元训练过程包括基础学习器和元学习器的两步优化,当对元学习器优化时,一般还需要微调操作。基于度量学习的小样本学习方法通过学习样本与特征之间的映射关系,将样本映射到特征空间,然后在空间内中使用最近邻和其他依赖距离或相似性函数方法实现分类。由于简单有效的特点,基于度量学习的方法在小样本学习中受到了大量关注,本文提出的模型也属于此类方法。
孪生神经网络(SiameseNet)[6]是被提出用于单样本学习(one-shot learning)的相似性度量模型,在Omniglot数据集上准确度达到了92%,然而经过测试发现,在miniImageNet数据集上5-way 1-shot的准确度只有49.23%。因为相比Omniglot数据集,miniImageNet数据集的目标物体特征更加丰富,背景也更加复杂。因此,使用图像级特征表示的孪生神经网络,在度量时很难得到出色的效果。本文提出了一种新的双重度量孪生神经网络(DM-SiameseNet),使用图像级特征和局部描述符共同表示图像,能充分考虑全局特征和局部特征之间的关系来解决上述问题。本文的主要贡献有三个:a)不同于传统的只基于图像级特征表示或者基于局部描述符表示,本文同时使用图像级特征和丰富的局部描述符来共同表示每幅图像;b)使用了一种自适应融合策略来自适应地整合两种级别图像表示的度量关系;c)整个框架可以端到端的方式进行训练,不使用微调和蒸馏等技巧。
1 相关工作
1.1 基于度量的小样本学习方法
Koch等人在2015年提出了基于度量的小样本学习方法,采用孪生神经网络来学习如何区别不同的图像特征,并迁移到新的类中。Vinyals等人[7]在2016年提出了一种直接将查询图像与支持类进行比较的MatchingNets(匹配网络),同时还提出了在小样本学习中广泛使用的episodic训练策略。Snell等人[8]在2017年提出了ProtoNet(原型网络),把类中所有样本的均值向量作为一个原型来表示一个类,然后使用一个特定的距离度量来执行最终的分类。为了避免选择特定的度量函数,Sung等人[9]在2018年提出了RelationNet(关系网络),试图通过深度卷积神经网络学习度量来衡量图像之间的相似性。叶萌等人[10]在2021年提出一种特征聚合网络,尝试通过该网络将原始特征向更优的特征空间中进行偏移,最终使得同类样本之间的特征向量分布更为紧凑,从而提升特征提取的有效性。在2022年,Wang等人[11]提出了一种简单有效的不可知度量(TSMA)方法,来帮助基于度量的FSL方法取得更好的效果,并可以适用到大多数基于度量的小样本方法中。Gao等人[12]考虑了浅层特征,提出了多距离度量网络(MDM-Net),通过一个多输出嵌入网络将样本映射到不同的特征空间。
上述方法都是基于图像级的特征表示,由于小样本中每个类别的样本数不足,所以每个类别的分布无法在图像级特征的空间中进行可靠的估计。在2019年,Li等人提出了CovaMNet[13]和 DN4[14]模型,实验结果表明,相比图像级的特征,丰富的局部特征(即深度局部描述符)可以更好地表示一幅图像,因为局部特征可以看做是一种自然的数据增强操作。CovaMNet使用提取的深度局部描述符的二阶协方差矩阵来表示每个支持类,并设计一个基于协方差的度量来计算查询图像和支持类之间的相似性。与CovaMNet不同,DN4 认为将局部特征池化为紧凑的图像级表示会丢失大量的判别信息。因此,DN4 建议直接使用原始局部描述符集来表示查询图像和支持类,然后采用余弦相似度来度量图像之间的相似度。2021年Huang等人[15]提出了基于局部描述符的LMPNet(多原型网络),使用局部描述符来表示每幅图像,为了减少原型在样本上平均带来的不确定性,还引入了通道挤压和空间激励(SSE)注意力模块。韦世红等人[16]提出了一种多级度量网络的小样本学习方法,将图像—图像的度量与图像—类的度量进行结合,从多个角度考虑图像的表达分布以有效挖掘图像语义信息。
1.2 孪生神经网络
孪生神经网络实际是使用同一个嵌入网络提取图像的图像级特征,将图像映射成向量,使用两个向量之间绝对差的值,代表了两幅图像的相似程度。在训练时输入的是一对样本而不是单个样本,如果两个输入图像来自同一类,标签为1,不同的类标签为0。然后通过交叉熵函数计算损失。测试时将样本对依次输入到孪生神经网络中,得到每对样本的距离,选取距离最小的测试集标签作为测试样本的类别,从而完成分类。
如图1所示,孪生神经网络的一对输入(x1,x2),经过同一卷积神经网络后,最后一个卷积层中的高维向量被展开为单个向量,接着是一个全连接层。然后根据前一个全连接层的输出 (h1,h2) 计算诱导距离,最后使用sigmoid激活函数进行预测。孪生神经网络计算两幅图像相似度距离度量的公式为
D(x1,x2)=σ(∑jαjhj1-hj2)(1)
其中:σ代表激活函数,这里使用的是sigmoid; αj是模型在训练时学习到的参数,用于加权分量距离的重要性。最后一层,在前一层的学习特征空间上引入一个度量,然后经过激活函数得出(x1,x2)全局特征向量的相似度分数。
受CovaMNet和DN4的启发,本文提出的DM-SiameseNet在SiameseNet上引入局部描述符,使用图像级特征和丰富的深度局部描述符共同來表示图像,解决图像级特征表示的度量存在的问题。
2 问题定义和训练方法
2.1 问题定义
小样本学习问题通常涉及支持集(support set)、查询集(query set)和辅助集(auxiliary set)三个数据集,分别表示为S、Q和A。支持集和查询集共享相同的标签空间。如果支持集S包含N个类,每个类包含K个样本,则这种少样本分类任务称为N-way K-shot任务。然而,在支持集S中,每个类通常只包含几个样本(例如,K=1或5),用这几个样本直接训练深度神经网络很容易出现过拟合。因此,通常通过从辅助集A学习可迁移知识来缓解这个问题。集合A的类较多,每个类包含大量的标注样本,但集合A相对于集合S有一个不相交的类标签空间。
2.2 Episodic训练策略
为了训练一个泛化能力强的分类器,基于度量的小样本学习方法在训练阶段通常采用episodic训练策略[7]。具体来说,在每一个episodic中,从辅助集A中随机构建一个查询集AQ和一个支持集AS,它们分别类似于S和Q。在每次迭代训练时,采用一个episodic任务来训练当前模型。训练时会构建数万个episode来训练分类模型,即episodic training。测试阶段,通过支持集S,学习到的模型可以直接用于对Q中的图像进行分类。
3 双重度量孪生神经网络模型
图2是本文的双重度量孪生神经网络模型结构,模型由特征提取模块、双重度量模块和分类器模块组成。特征提取模块用于提取输入图像的图像级特征和丰富的局部描述符。
双重度量模块定义了查询图像(query image)和支持图像(support image)之间的图像级特征度量和局部描述符度量。对于最后一个模块,通过可学习的权重向量自适应地将局部和全局度量关系融合在一起,然后采用非参数最近邻分类器作为最终分类器。这三个模块直接以端到端的方式训练,没有使用微调、蒸馏和预训练等技巧。具体来说,对于一对样本S和Q,首先经过特征提取网络提取图像特征,然后在双重度量模块分别得到全局特征度量结果和局部特征度量结果,最后经过分类器模块输出S和Q之间的相似度得分。
3.1 特征提取模块
本文的DM-SiameseNet模型使用Conv64F(用Ψ表示)嵌入网络来学习查询图像和支持集的图像级特征表示和局部特征表示。Conv64F包含四个卷积块,每个卷积块由Conv层、BN层、ReLU层和MP层组成,并且最后没有全连接层,给定一个图像X,通过嵌入网络后输出的Ψ(X)是一个h×w×c维的张量(分别代表高、宽和通道数),用于接下来双重度量模块的图像级特征度量和局部特征度量。
3.2 双重度量模块
双重度量模块由图像级特征度量和局部特征度量两个分支组成,两个分支使用特征提取模块输出的h×w×c维的张量分别度量两个不同级别的特征。
3.2.1 图像级特征度量
将嵌入网络输出的Ψ(X)(h×w×c的三维张量)进行flatten操作后,得到图像全局特征,然后用于计算基于图像级特征表示的度量。对于图像Q和S的图像级度量(image-level measure)结果可以表示为
DILM(Q,S)=σ(∑jαjhj1-hj2)(2)
其中:α j是模型在训练时学习到的参数,用于加权分量距离的重要性;σ代表激活函数,最后得出两个全局特征向量的相似度分数。和孪生神经网络的图像级特征度量唯一不同的是,此处使用的是tanh激活函数而不是sigmoid,因为在下面的局部特征度量中,使用的余弦相似度作为度量函数,度量结果的取值是[-1,1],当结果越趋向于1时,表示相似程度越高,当结果越趋向于-1时,表示相似程度越低。两种度量的取值范围要保持一致,所以此处使用tanh激活函数。
3.2.2 局部特征度量
上面的基于图像级特征的度量可以捕获图像之间的图像级关系,但没有考虑到局部关系。根据对Li等人提出的DN4模型的深度分析可知,使用的基于局部描述符的表示比基于图像级特征的表示具有更强的泛化能力。因此,这种基于局部描述符的图像到类(image-to-class)的度量也被引入到模型中,以捕获图像间的局部特征关系。
具体来说,图像Q和S,经过特征提取模块后,得到分别拥有m(m=w×h)个d维局部描述子组合的Ψ(Q)和Ψ(S)。对于Ψ(Q)中的每一个局部描述子xi,在Ψ(S)中找到k个和xi最相似的局部描述子[1,…,k],然后使用余弦相似度分别计算xi和k个i的余弦相似度,累加得到局部描述符xi的相似度。用同样方法分别计算Ψ(Q)中m个局部描述符的相似度,最后将m局部描述符的相似度求和后再除(m×k),作为图像Q和S基于局部描述符度量的相似度。从公式上Q和S的相似度可以表示为
DI2C(Q,S)=∑mi=1∑kj=1cos(xi,ji)m×k,cos(xi,ji)=xTii‖xi‖·‖i‖(4)
其中:cos(·)代表余弦相似度;超参数k在本文中为3,关于k对最终分类结果的影响在4.6节中详细阐述。
3.3 分类器模块
双重度量模块分别得到了图像间的全局特征关系和局部特征关系,因此在分类器模块需要设计融合策略来整合这两部分关系。本文采用和ADM[17]相同的融合策略,使用可学习的二维权重向量W=[w1,w2]来实现融合,图像Q和S之间的最终融合相似度可以定义为
D(Q,S)=w1·DILM(Q,S)+w2·DI2C(Q,S)(5)
在N-way K-shot情景训练中,双重度量模块的图像级特征度量分支(ILM)和局部特征度量分支(I2C)分别输出一个N维相似度向量。接下来,将这两个向量连接在一起,得到一个2N维向量,接着使用一个批归一化层,以平衡两部分相似性的比例,然后使用一个一维卷积,其中kernel大小为 1×1,dilation值为N。这样,就通过学习一个二维权重向量W来获得一个加权的N维相似度向量。最后,执行非参数的最近邻分类器以获得最终的分类结果。例如在5-way 1-shot情景訓练中,ILM分支和I2C分支分别输出一个5维的相似度向量,将两个向量拼接到一起后得到一个10维的相似度向量,接着使用一个kernel大小为 1×1,dilation值为5的一维卷积,这样,就可以通过学习2维权重向量W,得到一个加权的5维相似性向量,最后使用非参数的最近邻分类器进行分类。
4 实验
在本章中使用miniImageNet和tieredImageNet这两个小样本公共数据集,以及Stanford Dogs、Stanford Cars、CUB-200-2010这三个细粒度基准数据集进行了大量的实验,以评估所提出的DM-SiameseNet模型。源代码可以从https://github.com/wangkang1022/DM-SiameseNet上获取。
4.1 数据集
miniImageNet[7]数据集是ImageNet[18]的一个子集,该数据集包含100个类,每个类有600张图像。在100个类中选取64个用于训练、16个用于验证,剩下20个用于测试集;tiered-ImageNet[19]数据集是ImageNet的另一个子集,包含34个超类别,34个超类共包含608个类。将超类别拆分为20、6、8,然后分别产生351、97、160个类作为训练集、验证集和测试集。
本文选取了三个细粒度数据集,即Stanford Dogs、Stanford Cars和CUB-200-2010来进行细粒度的小样本图像分类任务。Stanford Dogs包含120种狗,共20 580张图像,其中70种用做辅助训练,20种用做验证集,最后30种用做测试集;Stanford Cars数据集共有196个类别,共16 185幅图像,其中130个类用做训练集,17个类用做验证集, 49个类用做测试集; CUB-200-2010数据集包含200种鸟类,共6 033张图像,其中130个类用做训练集,20个类用做验证集,50个类用做测试集。
4.2 实现细节
本文使用5-way 1-shot和5-way 5-shot 分类任务来评估方法的性能。在训练和测试阶段的每个episodic(任务)中,每個类使用15个查询图像。采用episodic 训练机制,并以端到端的方式训练网络,没有使用预训练、蒸馏以及微调等技巧。在训练阶段,使用Adam算法对所有模型进行30个epoch 的训练。在每个epoch中,随机构造10 000个episodic(任务)。此外,5-way 1-shot和5-way 5-shot初始学习率都设置为1×10-4,每10个epoch按乘0.5速率衰减。测试时随机构造1 000个episodic来计算准确度,然后重复5次求平均值作为最终实验的结果。以top-1平均准确率作为评价标准,同时还给出了95%置信区间。
4.3 对比方法
本文方法属于基于度量学习的小样本方法,所以主要和基于度量学习的方法进行对比,包括ProtoNet、RelationNet、IMP[20]、CovaMNet、DN4、CAN[21]、LMPNet、Proto-TSMA、SiameseNet。同时还选取了主要的元学习方法,包括MAML[22]、Baseline[23]、Baseline++[23]、TAML[24]、MetaOptNet-R[25]、Versa[26]、R2D2[27]、LEO[28]。同时进一步将基于度量学习方法根据图像表示方式的不同,分为了基于图像级特征表示的度量和基于局部描述符表示的度量,来与本文提出的双重度量进行比较。
4.4 在miniImageNet和tieredImageNet上的分类结果
表1中展示了在miniImageNet和tieredImageNet数据集上各方法的结果,最高和次高结果以粗体显示。第一列指出了方法的名称,第二列指出方法采用的嵌入模块,第三列是方法的类型,第四列显示在5-way 1-shot和5-way 5-shot上具有 95% 置信区间的分类精度。在对SiameseNet进行复现时,本文采用了episodic 训练机制进行训练,这是与Koch等人的原始训练方法不同的地方。其他方法的复现结果和原始论文保持一致。
本文将所提出的方法与其他小样本方法做了公平对比,从表1可以看出,在miniImageNet数据集上,本文方法相比改进前的孪生神经网络(SiameseNet)在5-way 1-shot和5-way 5-shot上的准确度分别提高了5.04%和9.66%。经过分析可知,结果的大幅提高是因为改进后的模型可以捕获图像中更多丰富的局部特征信息,在一定程度上弥补了图像级特征表示在度量时对位置和复杂背景敏感的不足。此外,miniImageNet数据集上,改进后的方法在5-way 1-shot和5-way 5-shot上的准确度均高于其他基于度量和基于元学习的小样本方法。除本文提出的方法外,在1-shot和5-shot上,结果最好的方法是LEO和DN4,分别为52.15%和71.02%,仍然比本文的DM-SiameseNet低了约2.12%和0.57%。在1-shot分类结果上,本文方法的优势是非常明显的。而在tieredImageNet数据集上,本文方法依然可以取得良好的结果,特别是在1-shot情况下。
表2专门给出了不同级别特征表示的度量方法,以及本文提出的双重度量在miniImageNet数据集上置信区间为95%的结果比较,最高和次高结果以粗体显示。结果表明,相比于单一使用图级特征或者局部描述符来表示图像的小样本方法, 本文方法可以取得最好的分类效果。因为DM-SiameseNet综合考虑两种不同级别的特征,采用图像级特征和丰富的局部描述符共同表示每一幅图像,并且使用了自适应融合策略来综合考虑两种不同级别的度量关系,可以学习到更好的分类效果。
4.5 在细粒度数据集上的分类结果
为了证明本文方法在考虑图像全局特征的情况下还能提取丰富的局部特征,本文在Stanford Dogs、Stanford Cars和CUB-200-2010这三个细粒度数据集上进行了大量小样本分类任务的实验。表3显示了不同级别特征表示的度量方法在三个细粒度图像上的分类结果,其中置信区间为95%,最高和次高结果以粗体显示,DM-SiameseNet是本文方法。相比通常的图像分类任务,细粒度图像分类的难点在于其所属类别的粒度更加精细,比如“哈士奇”和“爱斯基摩犬”这两种细粒度类别,只有耳朵形状及毛发等局部特征上有差别,所以大多数方法尝试通过捕获有区别性的局部特征来实现分类。从表3中可以看到,本文方法在三个数据集上均取得了出色的表现,特别是在1-shot情况下,分别比次高方法提高了1.68%、2.22%、2.92%。实验结果证明,相比单一使用基于图像级特征表示的度量方法或者基于局部描述符表示的度量方法,本文双重度量方法应用在细粒度图像上可以取得更好的效果。因为有区别性的局部特征虽然重要,但全局特征在分类时仍然起一定作用。所以能综合考虑图像的全局特征和局部信息的DM-SiameseNet,在细粒度图像分类上具有一定优势。
4.6 超参数k对实验结果的影响
在双重度量模块的局部特征度量分支中,本文需要为查询图像Q的每个局部描述符在支持集S中通过余弦相似度找到k个最相似的局部描述符,那么k的取值会对最终结果造成怎样的影响呢?为此,本文通过改变k(1、3、5、7)的值来测试模型在miniImageNet上5-way 1-shot和5-way 5-shot情况下的分类结果,训练和测试时k值保持一致。分类结果如表4所示。可以看出,k的不同取值在1-shot情况对结果的影响大致在4%以内,在5-shot情况对结果的影响大致在1%以内。对于1-shot情况,当k取2或3的时候结果最优,因为此时支持集中每个类别只有一个样本,当k取1时,每个局部描述符只能在这一个样本中匹配一个和其相似的局部描述符,其度泛化能力弱,无法得到理想结果,而当k>3后,每个局部描述符匹配多个(>3)和其相似的局部描述符,度量时可能对不同局部特征的敏感度下降,无法很好地区别不同的局部特征;对于5-shot情况,因为支持集中每个类别有5个样本,分类时一般不会出现泛化能力弱的问题,所以k的取值对结果影响较小。综合上述原因,本文在实验中超参数k都设置为3。
5 结束语
在本文中,针对孪生神经网络图像级特征表示的度量存在的问题,提出了一种雙重度量孪生神经网络(DM-SiameseNet)模型来解决孪生神经网络中存在图像级特征表示的度量对位置、复杂背景及类内差异比较敏感的问题。实验结果表明,改进后的模型在考虑了图像的全局特征下,还可以捕获图像中更多有效的局部信息,通过自适应融合策略,能充分考虑双重度量(基于图像级特征的度量和基于局部描述符的度量)的关系,从而达到更好的分类效果。通过在Stanford Dogs、Stanford Cars和CUB-200-2010这三个细粒度图像的实例探究表明,双重度量比单一使用图像级特征度量或者局部特征度量更具有优势。实验结果表明在1-shot情况下,本文方法在多个数据集上的结果是非常具有竞争性的。而在k-shot(k>1)情况下,本文方法还需要找到一个更好的特征融合策略来提高分类精度,接下来会更加关注在k-shot(k>1)下的研究。
参考文献:
[1]李新叶, 龙慎鹏, 朱婧. 基于深度神经网络的少样本学习综述[J]. 计算机应用研究, 2020,37(8): 2241-2247. (Li Xinye, Long Shenpeng, Zhu Jing. A survey of few-shot learning based on deep neural networks[J]. Application Research of Computers, 2020, 37(8): 2241-2247.)
[2]Jankowski N, Duch W, Grbczewski K. Meta-learning in computational intelligence[M]. Berlin:Springer, 2011: 97-115.
[3]Lake B M, Salakhutdinov R R, Tenenbaum J. One-shot learning by inverting a compositional causal process[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc., 2013:2526-2534.
[4]Munkhdalai T, Yu Hong . Meta networks[C]//Proc of the 34th International Conference on Machine Learning. New York: ACM Press, 2017: 2554-2563.
[5]Xing E P, Jordan M I, Russell S, et al. Distance metric learning with application to clustering with side-information[C]//Proc of the 15th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2002: 505-512.
[6]Koch G, Zemel R, Salakhutdinov R. Siamese neural networks for one-shot image recognition[C]//Proc of the 32nd International Conference on Machine Learning Deep Learning. New York: ACM Press, 2015: 6-36.
[7]Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2016: 3637-3645.
[8]Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning[C]//Advances in Neural Information Processing Systems. Long Beach, USA: NIPS Press, 2017: 4078-4088.
[9]Sung F, Yang Yongxin, Zhang Li, et al. Learning to compare:relation network for few-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 1199-1208.
[10]叶萌, 杨娟, 汪荣贵, 等. 基于特征聚合网络的小样本学习方法[J]. 计算机工程, 2021, 47(3): 77-82. (Ye Meng, Yang Juan, Wang Ronggui, et al. Few-shot learning method based on feature aggregation network[J]. Computer Engineering, 2021,47(3):77-82.)
[11]Wang Heng, Li Yong. Task-specific method-agnostic metric for few-shot learning[J]. Neural Computing and Applications, 2023,35(4): 3115-3124.
[12]Gao Farong, Cai Lijie, Yang Zhangyi, et al. Multi-distance metric network for few-shot learning[J]. International Journal of Machine Learning and Cybernetics, 2022,13(9): 2495-2506.
[13]Li Wenbin, Xu Jinglin, Huo Jing, et al. Distribution consistency based covariance metric networks for few-shot learning[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto, CA: AAAI Press,2019: 8642-8649.
[14]Li Wenbin, Wang Lei, Xu Jinglin, et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 7253-7260.
[15]Huang Hongwei, Wu Zhangkai, Li Wenbin, et al. Local descriptor-based multi-prototype network for few-shot learning[J]. Pattern Recognition, 2021,116: 107935.
[16]韋世红, 刘红梅, 唐宏, 等. 多级度量网络的小样本学习[J]. 计算机工程与应用, 2023,59(2): 94-101. (Wei Shihong, Liu Hongmei, Tang Hong, et al. Multilevel metric networks for few-shot learning[J]. Computer Engineering and Applications, 2023, 59(2): 94-101.)
[17]Li Wenbin, Wang Lei, Huo Jing, et al. Asymmetric distribution measure for few-shot learning[EB/OL]. (2020-02-01) . https://arxiv.org/abs/2002.00153.
[18]Deng Jia, Dong Wei, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255
[19]Zheng Yan, Wang Ronggui, Yang Juan, et al. Principal characteristic networks for few-shot learning[J]. Journal of Visual Communication and Image Representation, 2019,59: 563-573.
[20]Allen K, Shelhamer E, Shin H, et al. Infinite mixture prototypes for few-shot learning[C]//Proc of International Conference on Machine Learning. New York: ACM Press, 2019: 232-241.
[21]Hou Ruibing, Chang Hong, Ma Bingpeng, et al. Cross attention network for few-shot classification[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2019: 4005-4016.
[22]Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proc of International Conference on Machine Learning. New York: ACM Press, 2017: 1126-1135.
[23]Chen Weiyu, Liu Yencheng, Kira Z, et al. A closer look at few-shot classification[EB/OL]. (2021-03-21) . https://arxiv.org/abs/1904.04232.
[24]Jamal M A, Qi Guojun. Task agnostic meta-learning for few-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ : IEEE Press, 2019: 10657-10665.
[25]Lee K, Maji S, Ravichandran A, et al. Meta-learning with differentiable convex optimization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 10657-10665.
[26]Gordon J, Bronskill J, Bauer M, et al. Versa:versatile and efficient few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 1-9.
[27]Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[EB/OL]. (2019-07-24) . https://arxiv.org/abs/1805.08136.
[28]Rusu A A, Rao D, Sygnowski J, et al. Meta-learning with latent embedding optimization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019.
收稿日期:2022-11-28;修回日期:2023-01-07 基金項目:国家自然科学基金资助项目(61976217)
作者简介:孙统风(1976-),男,江苏徐州人,副教授,硕导,博士,主要研究方向为机器学习、小样本学习、图像视频感知;王康(1994-),男(通信作者),安徽宿州人,硕士研究生,主要研究方向为深度学习、小样本学习(8978932003@qq.com);郝徐(1997-),男,江苏徐州人,硕士研究生,主要研究方向为目标检测.