赵金伟,任文静,周锦绣,黑新宏*
(1.西安理工大学 计算机科学与工程学院,陕西 西安 710048;2.网络计算与安全技术陕西省重点实验室,陕西 西安 710048)
人类显著的一个标志是能够仅通过一个或几个示例就快速建立对新概念的认知能力,可以将先验知识快速推广到仅包含少量具有监督信息样本的学习任务中。例如,儿童只需观察几张有关斑马与犀牛的图片就能轻松通过以前的认知经验识别出“斑马”与“犀牛”。相比之下,大多数机器学习算法需要大量数据。在实际应用中,由于采集得到的数据往往难以标注或标注成本很高,所以只能得到大量未标记数据。这时模型容易陷入过拟合或者欠拟合的困境。由此可见,目前人工智能与人类智能仍存在巨大差距。
受到人类学习观点的启发,小样本学习(few-shot learning)的概念被提出,近几年得到广泛关注,在图像分类任务上已取得重大发展。如Li等人[1]使用贝叶斯学习框架求解单样本学习问题。人们又提出了许多基于元学习的解决方案,其核心思想是将从其它学习任务中得到的元模型迁移到新学习任务中。但是训练得到的元模型的结构往往过于复杂,如网络层数太深或者网络参数过多,模型训练过程十分困难。在这类方法中通常假设目标小样本学习任务的训练样本集的分布特征与辅助训练样本集的分布特征一致。
除了图像分类任务,在其他领域中也存在着小样本问题。在计算机视觉领域,利用小样本学习进行人脸识别[2]、手写字体识别[3]等。在自然语言处理领域,使用小样本方法实现对话系统[4]、口语理解[5]等。在生物与医学领域, 可以应用于疾病诊断[6]、水量分析[7]等。
最近的工作试图利用有限数量的样本来评估样本的真实分布。因为样本特征空间的分布更具有可分性,所以这类方法尝试对小样本特征空间的分布进行校准,将有偏差的小样本分布向真实分布逼近[8]。他们假设特征向量的每个维度服从高斯分布,基于“相似的类别具有相似的分布和相似的属性值域”的思想提出将基类特征分布的统计量迁移到相似的小样本类中以校正其特征分布[9]。基于这种校准分布方法即可得到更精确的小样本特征分布,再通过随机采样即可增广出更多的样本。然而,该类方法直接迁移距离小样本均值中心最近的前k个基类的特征分布,且只考虑最近邻类分布特征在校正中的正作用,未考虑远域类分布特征的负作用,另外计算两类之间的相似度时未考虑样本特征的量纲差异,在分布校正阶段,更多地强调了基类的分布特征,忽略了新类本身的分布特征。这些问题极易引起知识的负迁移现象。
为此,该文提出了动态分布校正方法来解决上述问题,贡献如下:
(1)为了减弱基类特征分布统计量造成的负迁移现象,提出通过主动或自适应地基于阈值来选择近邻基类或远域基类的正向校正或负向校正,并主要研究基于阈值动态选择近邻基类。通过实验证明提出的动态筛选基类的方法比静态筛选方法更有利于实现分布特征的正迁移。
(2)因为嵌入特征量纲不同易导致嵌入特征分布各向异性,从而造成对新类分布特征的负迁移。故该文提出对嵌入特征进行幂变换后,再对其进行标准化处理,以消除嵌入特征量纲之间的差异。并通过实验证明加入标准化操作后的分类精度要优于不加标准化的分类精度。
(3)引入惩罚参数来校正基类对新类嵌入特征分布的影响,并通过实验证明加入惩罚参数有利于实现分布特征的正迁移。
在常规的数据集miniImageNet和CUB上与其它最新方法的对比实验验证了提出的动态分布校正方法可以有效地提升小样本分类任务的性能。
小样本学习是一个具有挑战性的机器学习问题。研究人员提出基于模型微调的方法解决小样本问题。该方法是小样本学习中较为传统的方法,通常在大规模数据集上预训练神经网络模型,在目标小样本数据集上对模型的全连接层或者顶端几层进行参数微调,得到微调后的模型。目前许多工作已经证明,与基线模型相比,加入微调可以有效提高5-way-1-shot任务的准确率。目前基于模型微调方法的研究取得了较好效果。Cai等人[10]通过利用基于一阶MAML的元学习算法将微调集成到训练过程中并在微调期间对支持集进行数据增强。基于模型微调的方法较为简单,适用于目标域与源域数据分布较为类似的情况,但是在现实场景中该条件难以保证,采用模型微调的方法会导致在目标任务上出现欠拟合或过拟合现象。
基于数据增强方法是指借助辅助数据或辅助信息,对原有的小样本数据集进行数据扩充或特征增强。对于数据集数据增强主要是对输入数据的转换,旨在通过对数据进行少量修改来扩展现有数据来实现模型输入的多样性。Zhang等人[11]提出当源类和目标类都只有有限数量的样本时,实现从互联网资源中抓取数据,并自动去除无关噪声,以实现可控的数据扩充。对于特征级数据增强,主要将像素信息映射到高维潜在空间,它比原始像素携带更多有效信息。如Chu等人[12]提出一种基于最大熵图块采样算法的强化学习模型来解决小样本学习问题。Zhang等人[13]提出两种前景背景融合策略,将图像分割成前景与背景,选择原始图像、前景图像和背景图像重新缝合为新的视觉特征。Li等人[14]提出可微分自动数据增强,可大幅度降低成本。Kang等人[15]针对特殊数据缺失、连续长期数据缺失等问题,提出一种图矢量化算法与条件Wasserstein生成对抗网(CWGAN)相结合的方法实现数据增强。Schwartz等人[16]基于一个经过修改的自动编码器,只需通过几个示例,就可以学习为一个看不见的类别合成新样本。然而基于数据增强方法有可能引入许多噪声,对小样本分类的效果造成负面影响。
基于迁移学习的方法是目前较为前沿的方法,是指将旧知识迁移到一个新的领域中。基于迁移学习的方法又可分为基于度量学习、基于元学习的方法。度量学习也称为相似度学习,是指通过给定的距离函数计算两个样本之间的距离,从而度量它们的相似度。将度量学习的框架应用到小样本学习,通过计算待分类样本和已知分类样本之间的距离,找到邻近类别来确定待分类样本的分类结果。Koch等人[17]最先提出使用孪生神经网络进行单样本图像识别。通过有监督的方式训练孪生网络,并将网络所提取的特征进行单样本或小样本学习。Vinyals等人[18]继续就单样本学习问题进行深入探讨,提出了匹配网络,该网络为支持集和查询集构建不同的编码器,最终分类器的输出为支持集样本与查询集之间预测值的加权求和。为进一步深入解决小样本问题,Snell等人[19]提出原型网络,该网络使用深度神经网络将图像映射成向量,对同属一个类别的样本,求得这一类样本向量的均值作为原型,并比较查询集与每个类别原型的欧氏距离。基于度量学习的方法最简单、容易操作,只需通过距离来衡量样本之间的相似度。但是学到的知识较少,并且在样本数量较少的情况下,简单地通过距离衡量相似度的方法准确率会有所降低。基于元学习比基于度量学习的方法学习能力更强,可以学到更多的知识。元学习是目前解决小样本学习的主流方法。元学习也叫做学会学习[20],是机器学习领域一个前沿的研究框架,针对于解决模型如何学习的问题。元学习的目的是让模型获得一种学习能力,这种学习能力可以让模型自动学习到一些元知识。例如,UMTRA[21]、MAML[22]、Meta-SGD[23]、爬行动物[24]和LEO[25]优化了模型,使其能够快速适应新任务。然而,基于元学习解决小样本问题时时空复杂度较高,而且对于目标域与源域数据分布要求较高。
框架主要包括两个阶段。在第一阶段,利用预训练的模型提取样本特征,计算基类的统计信息。在第二阶段,为使特征分布更像高斯分布,使用幂阶变换操作保证目标任务中的支持集和查询集的特征接近于高斯分布,并加入特征向量标准化处理来消除特征量纲影响。为了避免“负迁移”,通过距离阈值动态挑选近邻基类与远域基类,并引入校正参数,校正新类的样本特征分布。最后利用校正后的分布生成特征与小样本任务的原始支持集特征一起用作特定任务分类器的训练数据。
整个过程如图1所示。新类样本分布的校正过程分为两个阶段。第一阶段为计算基类分布的统计量。第二阶段是动态分布校正阶段,计算基类与新类之间的嵌入空间的距离,基于阈值选择近邻基类与远域基类的分布特征,将其迁移到新类中对其分布进行校正,基于校正后的分布采样足够数量的样本来增广新类的训练样本集。
图1 动态分布校正方法
假设基类的特征分布为高斯分布。基类i的特征向量均值为该类所有数据的特征向量在每个维度上的均值。
(1)
(2)
2.3.1 幂变换
为了实现嵌入空间不同类分布特征的正迁移,除了将每个类的样本从原始样本空间映射到嵌入空间,还需将嵌入空间的特征向量进行幂阶变换,将每个类的支持集和查询集样本的嵌入空间分布变换为类高斯分布。该文基于单位方差投影给出类似于Tukey的幂阶变换(Power Transform,PT),其公式如下:
(3)
为了避免除数为零,其中,ε=1e-6。β为指数,通过调整β来减少幂变换结果分布的扁平程度,其中β=1时为线性变换。单位方差投影将特征向量缩放到单位空间,以进一步缩小相似类间的分布差异。
将经过幂变换的特征向量x'的每一维进行数据标准化处理来实现特征向量的各向同性。
(4)
2.3.2 基于分布特征迁移的新类分布校正
(5)
(6)
(7)
(8)
(9)
其中,φ为对新类中心点进行校准的权值参数以表征邻域内基类的正迁移作用强度,a为新类分布中样本嵌入特征分散程度的偏置。
(10)
(11)
其中,b,c∈[-1,1],n,v∈[-1,1]为对新类中心点进行校准的权值参数,b和n为正迁移作用的强度,c和v为负迁移作用强度,e∈[0,1]为新类分布中样本特征分散程度的偏置。
2.3.3 数据增强
为了避免一个特定样本所提供的偏差并获得更多样化和更准确的新类分布特征估计,基于新类支持集中的每个样本的嵌入特征向量都要进行动态分布校正。因此,对于每个新类进行动态分布校正后,会得到一组分布特征,将校正后的分布表示为一组统计数据。对于类别y∈Cn,将新类特征分布的统计数据表示为:
对于类别y的目标任务,利用其校正分布集合中的所有分布组合全部采样,生成一组标签为Dy的特征向量:
Dy={(x,y)|x~N(μ,γ),∀(μ,γ)∈Uy}
其中,将每个类别生成的特征总数设置为超参数。将生成的样本特征与原始支持集特征一起作为任务分类器的训练数据,并通过最小化支持集特征和生成特征上的分类交叉熵损失来训练分类器。
该文使用miniImageNet、CUB两种数据集,并利用查询集的准确率作为评估指标来衡量方法的性能。在5-way-1-shot和5-way-5-shot分类设置上进行评估实验,并且实验结果是10 000个任务的平均分类精度。
本章节使用文献[26]训练的WideResNet作为特征提取器,并分别使用SVM与LR两种分类器来验证所提方法的有效性。其中Logistic Regression/SVM with DC (ours)表示分类器为Logistic Regression或SVM的基于阈值选择近邻基类的方法,利用粒子群算法对动态分布校正算法的超参数进行寻优,两种数据集下最终得到的最优超参数为:miniImageNet:threshold=3.3,β=0.7,φ=0.2,a=0.1,生成样本的个数为850;CUB: threshold=3.3,β=0.8,φ=0.5,a=0.1,生成样本的个数为850。Logistic Regression/SVM with RDC (ours)表示在分类器为Logistic Regression或SVM的基于阈值同时选择近邻基类与远域基类的方法。同样采用粒子群算法获得最优超参数。miniImageNet:threshold=2.5,t=2,β=0.7,b=0.15,c=0.05,n=0.4,v=0.05,e=0.3,生成样本的个数为850;CUB:threshold=2.5,t=2,β=0.8,b=0.6,c=0.0,n=0.65,v=0.05,e=0.3,生成样本的个数为850。3.2节中其他先进技术的具体实验细节设置引用于他们的来源论文。
表1给出了动态分布校正算法与目前最先进的小样本学习技术的分类性能对比。从表中的结果发现,所提方法的分布校准性能远高于最先进的小样本分类方法,这证明所提方法能够更好地处理极低的样本的分类任务。从表1发现,所有分布校正方法在四个任务上的分类精度明显高于其它方法。说明分布校正方法在解决小样本分类问题上性能是很优秀的。表中将提出的两种动态分布校正算法与分布校正算法进行对比。两种数据集下的两种动态分布校正方法相比分布校正方法的分类精度都平均提升2%左右,并且所提方法的分类精度的方差更小。这些结果说明,提出的两种方法能进一步提升分布校正方法的性能,并且相对于分布校正算法,进一步说明所提动态筛选基类的方法比静态筛选方法更有利于实现分布特征的正迁移。
表1 miniImagenet和CUB数据集上的分类准确率 %
将Logistic Regression/SVM with RDC与Logistic Regression/SVM with DC相比较。对于两种数据集的5-way-1-shot分类任务,从表1中可以观测到Logistic Regression/SVM with RDC算法的分类精度比Logistic Regression/SVM with DC算法平均提升了1%左右。在两种数据集的5-way-5-shot分类任务上,Logistic Regression/SVM with RDC算法的分类精度比Logistic Regression/SVM with DC算法平均降低了1%左右。说明当小样本分类任务的原始样本较多,样本分布多样性较强时,远离新类的基类分布特征会带来负迁移。相反,当小样本分类任务的原始样本较少,样本分布多样性较弱时,远离新类的基类分布特征会增强原始样本分布的多样性,从而带来正迁移。
将基于阈值动态选择近邻基类(Logistic Regression/SVM with DC(ours))作为主要的研究方法。在两个数据集的5-way-1-shot分类设置且分类器选为LR的情况下,研究超参数的设置对该方法分类性能的影响。
图2显示了k值固定的情况下阈值threshold的变化对分类准确率的影响。从图2中的结果发现,当k∈{0,1,2,3}时,随着阈值threshold的不断增大,准确率呈不断增大的趋势。且对于两种数据集,在阈值threshold=3.3时准确率都达到最高值。其原因为,随着阈值的不断增大,用于校正新类特征分布的基类个数不断增多,当阈值达到3.3时,由该阈值确定的邻域内的基类统计信息迁移到新类中能较好地校正新类的特征分布。随之阈值的不断增大,邻域内会引入一些对新类分布产生负迁移现象的基类,从而造成测试准确率下降的状态。当k∈{0,1,2,3}时,曲线处于重合状态,说明不考虑k时仅通过threshold选择基类可以获得较好的小样本分类性能。
图2 threshold的取值对实验结果的影响
从图3中的结果观测到,对于miniImagenet数据集(左图)和CUB数据集(右图),随着φ值不断增大,平均分类准确率(Test Accuracy)呈现先稳定再下降的趋势。曲线变化的主要原因在于,随着φ不断增大,新类的特征分布受基类影响程度也不断增大,但当φ取值太大,又会产生负迁移,造成准确率下降。
图3 φ的取值对实验结果的影响
公式(9)中的a确定从校正后的分布中样本嵌入特征分散的程度。图4显示了不同的a取值对测试准确率的影响。随着a的增大,测试精度快速上升达到最大值后几乎保持稳定。其主要原因在于,当a的值等于0.1的时候,校正的新类协方差是逼近它的真实样本嵌入特征分布。a随后继续增大,校正的新类协方差又偏离了真实样本嵌入特征分布,所以预测精度会有所降低。
图4 a的取值对实验结果的影响
为研究提出的动态分布校正方法(Logistic Regression/SVM with DC(ours))中每一计算过程对小样本分类性能的影响,进行了消融实验。表2展示了在训练模型时未基于阈值选择近邻基类、在训练模型时未进行幂变换(Power Transform,TP)与数据标准化(Data Standardization,DS)而是使用Tukey的幂阶变换以及在训练模型时未引入校正参数处理时的分类结果。由表2知,通过TP与DS操作使小样本的分类精度提高接近1%,引入校正参数后的分类精度提高2%左右,基于阈值选择近邻基类对于分类精度提高0.1%。由此可知,三步过程对解决分布校正算法负迁移问题起着积极作用。
表2 在miniImagenet数据集上的分类准确率 %
为了研究幂变换之后的数据标准化处理对小样本分类性能的影响,在miniImageNet数据集上进行了消融实验。实验的结果为10个任务的测试集平均分类精度。由表3中的实验结果发现,在幂变换之后加入数据标准化处理,分类准确率提高接近1%。实验证明数据标准化处理对于分类性能同样能够起着积极作用。
表3 在miniImagenet数据集上的分类准确率 %
基于分布校正方法,提出了一种动态分布校正方法来解决分布校正过程中的负迁移问题。具体来说,首先,通过幂变换使新类的嵌入特征分布近似于高斯分布,再对新类嵌入特征进行数据标准化处理来消除由特征量纲不同造成的负迁移现象;其次,基于阈值提取了近邻基类与远域基类嵌入特征的分布统计量后,迁移到新类中来校正新类的嵌入特征分布;最后,基于校正后分布扩增新类的嵌入特征数据来提高预测模型的分类性能。在CUB和miniImageNet两个数据集上评估了所提方法,实验证明所提方法得到的预测模型分类性能要高于目前最先进的小样本学习方法。在未来的工作中,会探索更高效的小样本学习方法。