基于相对离群因子的标签噪声过滤方法

2024-02-03 10:41侯森寓姜高霞王文剑
自动化学报 2024年1期
关键词:离群标签噪声

侯森寓 姜高霞 王文剑,2

分类是机器学习领域中一项重要的任务,大量研究表明,数据质量决定着训练出的分类模型的泛化性能[1].随着人工智能技术的进步,风险与挑战也随之而来,许多人工智能应用领域(如医学诊断、人脸识别和智能驾驶等)需要更高的数据质量,以保证模型的准确率(Accuracy,Acc)[2-4].然而,由于对数据实施可靠标记通常是昂贵而耗时的,对于实际的机器学习来说,数据普遍包含噪声是一个不容忽视的问题[5].因此,实施噪声清除或降低噪声对模型泛化性能的影响是十分必要的.

监督学习中的数据噪声主要分为特征噪声和标签噪声两种类型[6].特征噪声是指观测到的特征与真实特征存在误差的数据,例如由于物联网设备故障,部分数据采集到错误、缺失或不完整的特征值[7];标签噪声是指观测到的实例标签与真实标签不一致的数据,例如在医疗诊断中,由于专家标记的不一致性,造成病例数据标签错误[8].文献[9]从统计角度考量,提出标签噪声主要有完全随机噪声、随机噪声和非随机噪声三类.它们通过噪声样本与其特征和标签的关联性进行区分,完全随机噪声的产生独立于数据样本的特征值和标签类别;随机噪声和非随机噪声的产生与数据的特征或标签类别之间存在一定的关联性,这种关联可能是由于标签分配过程中的系统性、主观性错误或模糊类别边界等原因造成的.

根据机器学习任务的不同,标签噪声在分类与回归任务中,又分别称为类别型标签噪声和数值型标签噪声[9].在分类任务中,无论是特征噪声还是类别型标签噪声都会影响模型的泛化性能,但研究表明,标签噪声比特征噪声具有更大的危害性.一方面,数据通常具有多个特征,而标签是唯一的;另一方面,每个特征对于分类模型学习的重要性不尽相同,而标签的正确与否对模型学习有着更大的影响.因此,处理分类任务中的标签噪声问题显得至关重要.

解决分类任务中的标签噪声问题可以从算法层和数据层2 个层面考虑.在算法层面的处理依赖于构建对标签噪声具有鲁棒性的模型(如重构损失函数和加权集成等方式),通过提高模型对噪声的容忍,以减少其受标签噪声的影响.但是,鲁棒模型并不能完全鲁棒[10].数据层面的处理是通过标签噪声过滤的方法提高数据质量[11],标签噪声在训练前就已经被识别并处理掉.显然,标签噪声过滤更直接有效.

针对分类任务中的类别型标签噪声问题,本文从离群点与噪声的相关性出发,提出相对离群因子(Relative outlier factor,ROF),以评估数据的噪声概率,并据此构建标签噪声过滤方法.本文主要贡献有以下3 个方面:

1)基于离群点检测算法提出相对离群因子,它可以对数据每个样本点进行噪声概率评估,依据该评估,可以实现噪声检测和初步的过滤;

2)以提高模型泛化能力为目标,根据1)提出的噪声概率评估方法,设计基于相对离群因子的集成过滤方法(Label noise ensemble filtering method based on relative outlier factor,EROF),使得噪声过滤更加稳定精确;

3)在标准数据集的实验结果表明,本文方法与现有的噪声过滤方法相比,能更有效地提升数据质量和模型的泛化性能.

1 相关工作

本节主要介绍已有的标签噪声过滤方法和离群点检测算法,并对这些方法进行简单归纳和总结.

1.1 标签噪声过滤方法

标签噪声过滤方法一般是指检测并过滤训练数据中的噪声样本,通过该方法提升数据质量,以确保训练出的模型性能.

早期过滤算法是利用分类模型对噪声的敏感性来检测标签噪声.常见做法是将分类器对样本的预测标签和样本观测标签的一致性作为识别标签噪声的指标之一[12].这个方法被称为分类过滤,文献[13]提出运用K折交叉验证方法,将测试集上错误分类的样本直接视为噪声删除.然而,分类过滤面临着“先有鸡,还是先有蛋”的悖论[14],该过滤方法必须有精确的分类器,而在含噪数据集上,大概率训练出较差的分类器.

由于集成学习的广泛应用,基于不同集成策略的过滤方法应运而生,代表性方法有多数投票过滤器(Majority vote filter,MVF)[15]、动态集成过滤器[16]和高一致性随机森林(Random forest,RF)过滤器[17].这些过滤方法的主要思想都是通过多个基分类器的预测结果组合后的正确程度,来识别噪声.集成过滤器通常比单一基过滤器具有更好的精度,但其本质上还是基于模型预测的过滤方法,仍存在上述的悖论问题,且计算成本通常更大.

更为常见的是基于近邻模型的过滤方法,通常需要借助K近邻(K-nearest neighbors,KNN)模型实现.如编辑近邻[18]过滤器、全近邻[19]过滤器、互近邻(Mutual nearest neighbor,MNN)[20]过滤器.这些过滤器对近邻参数k的选取过于敏感.近邻感知[21]过滤算法采用迭代搜索思想,解决参数k的自适应问题,但仍存在一定的维度灾难问题.

在准确性和可靠性方面,依赖分类器和近邻模型识别标签噪声的效果均不理想,Xia 等[22-24]提出基于相对密度(Relative density-based,RD)的过滤方法和基于完全随机森林(Complete random forest,CRF)的过滤方法,并扩展应用于多分类数据集的噪声过滤中.RD 利用样本的相对密度来衡量样本的噪声强度,CRF 通过构建完全随机树来衡量样本被异类样本包围的水平,进而确定样本的噪声强度.为解决其中的硬阈值问题,基于自适应投票策略的相对密度过滤器vRD[24]算法和自适应完全随机森林过滤器Adp_mCRF[25]算法被相继提出.但是,这两种方法都使用随机划分测试集的分类精度作为自适应指标,导致在噪声比例(Noise ratio,NR)较高时,过滤效果下降.

基于深度学习的标签噪声过滤方法利用神经网络强大的表示学习能力捕获数据底层结构,从而识别和过滤噪声.例如,Lu 等[26]依据神经网络对样本预测置信度进行噪声识别和过滤;Han 等[27]基于深度神经网络对于噪声数据的记忆时效性,提出“Coteaching”深度学习范式,此方法通过训练两个深度神经网络对标签噪声数据进行遗忘,缓解误差累积,从而在高标签噪声环境下,训练出更具鲁棒性的模型.但基于深度学习的方法通常需要大量的计算资源和数据来训练模型,数据量较少会导致模型过拟合,无法泛化到新的数据.

Xiong 等[28]基于离群点与噪声具有一定相似性的特点,提出利用离群点检测技术,完成噪声过滤的方法,但该方法将离群点视为噪声的思想有失偏颇.Zhang 等[29]提出基于稳健深度自动编码器的离群点检测技术过滤噪声,该方法将检测出的离群点作为候选误标记数据,再经过一种基于重构误差最小化方法,验证最终视为噪声的样本,但其本质仍是将样本是否为离群点作为噪声检测的基础.

1.2 离群点检测算法

离群点检测技术相较于类别型标签噪声过滤技术更为成熟,出于简洁性、有效性、多样性等多方面考量,本节简要介绍6 种主流的离群点检测算法.

1)K近邻[30]离群点检测算法通过评估数据点与其第k近邻数据的距离,来检测离群程度.

2)局部离群因子(Local outlier factor,LOF)[31]检测算法利用局部邻域密度的概念,来检测离群点.

3)基于连通性离群因子[32]检测算法在LOF 算法基础上,根据数据点的链接偏移程度,来评价其离群度.

4)为缓解维度灾难问题,基于角度的离群点检测[33]算法提出运用数据点与其近邻之间角度的加权方差,来检测离群程度.该方法能更精确地给出高维空间中数据点的离群因子.

5)单类支持向量机(Support vector machine,SVM)[34]通过数据点到超平面边界的距离,来计算离群值.

6)基于近邻隔离的离群点算法[35]使用孤立球模型,实现离群因子的度量,其中离群因子更高的数据点被半径更大的超球体所孤立.

2 基于相对离群因子的集成过滤方法

本节主要介绍相对离群因子的计算及应用,并据此提出基于相对离群因子的集成过滤方法.

2.1 相对离群因子

为更形象地展示相对离群因子的相关概念与计算过程,在人工生成的二分类数据集上进行模拟实验,其中包括34 个真实数据点和6 个类别型标签噪声点,选用K近邻分类(K-nearest neighbors clasifier,KNNC)模型作为基分类器(近邻参数k设置为1).图1 两个子图分别为在不含噪声数据集和包含噪声数据集中,训练所得的分类模型决策边界图,显然图1(b)的决策边界相对于图1(a)更复杂混乱,并且图1(b)中部分处于决策边界的正常样本也被错分了,这表明类别型标签噪声对分类模型产生一定负面影响.因此,有效处理类别型标签噪声是提高分类模型泛化能力的关键.

图1 不同含噪情况下的分类模型决策边界Fig.1 Decision boundary of classification model in different cases with noise

定义1.同质样本与异质样本

图2 两个子图分别展示了图1(b)包含噪声数据集中,同质样本和异质样本的选取过程.如图2(a)所示,样本A=(xa,ya) 且有ya=正类,根据定义1,观测标签为正类的样本均为A的同质样本,其中包括两个剩余的假正类样本B和C;同理,如图2(b)所示,A的异质样本为观测标签是负类的全部样本,包括三个假负类样本D、E和F.

图2 样本A 的同质、异质样本Fig.2 Homogeneous and heterogeneous samples of sample A

定义2.绝对离群因子

离群点是数据集中明显异常的数据点.离群点检测的目的是检测出与正常数据差别较大的数据点.基于不同的离群点检测方法,对于数据集中的每个样本,总能给出一个离群程度的度量,定义该度量值为绝对离群因子(Absolute outlier factor,AOF).根据定义1,每个样本点均有相对于其同质、异质样本的一对绝对离群因子.

根据给定的距离度量方式,在D中找出与p最近的k个点,假定其中距p第k近的为样本点qk,样本点p的绝对离群因子基于其到第k近邻样本的距离进行计算:

假定y p=正类,其同质样本集合记为D+,异质样本集合记为D-,则样本点p的同质绝对离群因子定义为:

同理,样本点p的异质绝对离群因子定义为:

基于离群点与噪声点的相似性,标签噪声往往具有更高的同质绝对离群因子值.然而,并不能主观地认为离群因子越高,其为标签噪声的概率就越大,即绝对离群因子与噪声概率并不是强正相关关系[22].例如标签噪声位于出现概率相近的边界区域,则该样本点的离群因子值并不会表现得很高;而离群因子值较高的样本也不一定是标签噪声,它可能是由于样本本身的特征噪声导致的低概率事件.

以图1(b)的人工包含噪声数据集为例,图3 四个子图分别给出了基于KNN 离群点检测算法(近邻参数k设置为5)计算部分样本点两类绝对离群因子的结果.其中,A为假正类样本,是噪声样本;G为真负类样本,是正常样本.

图3 噪声样本A 与真实样本G 的绝对离群因子Fig.3 Homogeneous and heterogeneous absolute outlier factor results of noise sample A and real sample G

如图3(a) 所示,A点的同质绝对离群因子f(A)=0.94,显然该值相较于其他真正类样本更高;而图3(b) 显示其异质绝对离群因子g(A)=0.36,这是由于A被大多数与其相反标签的样本点包围,导致A点在异质样本环境中,具有更低的异质绝对离群因子.因此,可以得出含噪样本的同质绝对离群因子往往高于异质绝对离群因子的结论.

在图3(c)和图3(d)中,真实样本G由于离数据集群较远,故其两类离群因子都偏高,特别是其同质绝对离群因子相较于部分噪声样本,反而更高.这也印证了绝对离群因子与噪声概率间并不是强正相关关系.但是,它的同质绝对离群因子0.86 低于其异质绝对离群因子0.65,该大小关系符合其为正常点的事实.基于以上分析,提出相对离群因子的定义来估计样本的噪声概率.

定义3.相对离群因子

设有二分类数据集D,假定有样本点p=(xp,yp),定义样本p的相对离群因子为:

类似地,若y p=负类,定义样本p的相对离群因子为:

相对离群因子可用于识别类别型标签噪声,ROF值越大的样本,标签噪声的概率也越高.为确定相对离群因子评估噪声概率的有效性,沿用KNN 离群点检测算法(近邻参数k设置为5),计算图1(b)中数据的相对离群因子值,部分计算结果如图4 所示.其中标签噪声点(即含噪正类与含噪负类样本)的相对离群因子分别为2.49、2.27、2.23、1.79、1.71和1.54.这些值都远大于真实数据点的相对离群因子值.由图4 可以看出,靠近分类边界或远离集群的真实样本,其同质绝对离群因子值偏大,导致相对离群因子也偏大,但相对离群因子值并没有超过噪声样本,这说明相对离群因子与样本噪声概率的相关关系更强,在噪声的判别上,相对离群因子比绝对离群因子更可靠.

图4 数据的相对离群因子Fig.4 Relative outlier factors for data

总之,计算样本的相对离群因子能够评估其是噪声的概率,从而有效检测类别型标签噪声.据此提出基于相对离群因子的标签噪声过滤算法,主要步骤如算法1 所示.

算法1.基于相对离群因子的过滤算法

输入.分类数据集D,离群检测模型p,参数为过滤阈值t或过滤比率r.

输出.去噪数据集D′,噪声集N.

初始化.噪声集N=Ø.

1)根据式(3)、式(4),利用离群检测模型p计算全部样本的同质、异质绝对离群因子;

2)根据式(5)、式(6),计算全部样本的相对离群因子;

3)将数据按相对离群因子大小降序排列;

4)将相对离群因子大于过滤阈值t的样本或前n×r个样本加入噪声集N中;

5)得到去噪数据集D′=D-N.

该算法的时间复杂度主要取决于基离群检测模型计算每个类别离群因子的复杂度.以KNN 离群点检测算法作为基检测模型为例,若采用K维树算法加速搜索K近邻[36],算法1 的时间复杂度为O(mnlogn),其中m为类别数,n为样本数.当类别数与样本数均较大时,类别数对算法的时间开销会显著增加.但在实际中,数据集的类别数通常远小于样本数,因此算法1 的时间复杂度可近似为O(nlogn).

2.2 基于相对离群因子的集成过滤方法

对于不同分布的数据,基于单一基离群点检测模型计算的相对离群因子无法始终保持噪声概率评估的精确性.鉴于现有成熟的离群点检测技术,提出基于相对离群因子的集成过滤方法,该方法采取贪心策略确定最优联合检测器,以保证迭代过滤后的数据能训练出最优泛化性能的分类模型,主要步骤如算法2 所示.

算法2.基于相对离群因子的集成过滤算法

输入.分类数据集M,单次迭代过滤比率r′,基离群检测器池P=

输出.去噪数据集M′.

1)计算获得基检测器排名池P′:

a)利用算法1 (输入.分类数据集D=M,离群检测模型p=pk,过滤比率r=r′),获得m个不同的去噪数据集;

b)通过交叉验证,获得分类模型在不同去噪数据集上的准确率Acc;

c)将检测器按对应的准确率降序排列,得到基检测器排名池P′.

初始化.迭代轮数k=1,缓冲噪声池N*=Ø,缓冲去噪池M*=M,最大准确率M Acc=0.

2)利用算法1 (输入.分类数据集D=M,离群检测模型p=pk,过滤比率r=r′),得到噪声集Nk;

3) 同时更新缓冲噪声池N*=N*+Nk和缓冲去噪池M*=M-N*;

4)通过交叉验证,获得分类模型在缓冲去噪数据集D*的准确率;

5) 若A cc>MAcc,则同时更新M Acc=Acc和去噪数据集M′=M*;否则,回溯两个缓冲池N*=N*-Nk,M*=M+N*;

6)若k<m,令k=k+1,并重复执行步骤2)~6);否则,停止循环,获得最终的去噪数据集M′.

算法2 的主要流程如图5 所示,其中黄色区域表示需要重复计算的步骤,灰色区域表示缓存的步骤.算法2 利用多种互补的基离群点检测算法,寻求联合检测模型的最优解,算法主要分为基检测模型排名阶段(步骤1))和迭代联合过滤阶段(步骤2)~6))两个阶段.基检测模型排名阶段检测出的噪声为联合过滤阶段提供多样的去噪组合,因此在实际运行中,无需反复调用基检测器进行噪声识别.

图5 EROF 算法流程示意图Fig.5 Flowchart diagram of the EROF Algorithm

该算法的时间复杂度仍主要取决于基离群点检测算法的复杂度,以第1.2 节的6 种基检测器为例,其中LOF 算法拥有最高的时间复杂度为 O (n2),在此情况下,该算法的时间复杂度 T (EROF)=O(n2).如果基检测器池加入其他模型,则该算法的时间复杂度与基检测器池中独立检测器的最高时间复杂度相同.

3 UCI 数据集实验

本节介绍基于相对离群因子的集成过滤方法在UCI 标准数据集上的实验框架、基检测器对比、参数确定、实验结果与相关分析.

3.1 实验框架

实验采用来自UCI 的20 个标准数据集,详细信息见表1.这些数据集主要来自真实世界数据,例如,第14 号Isolet 数据集包含美国英语字母的语音样本,由不同发音者朗读录制;第20 号Letter 数据集基于20 种不同字体的黑白矩形像素,显示26 个大写英文字母,特征包括长/宽比、最大水平和垂直笔画数、笔画密度等.为验证各过滤算法的有效性,实验将每个数据集按7:3 的比例,随机划分为训练集和测试集,并在训练集上完全随机制造一定比例的人工标签噪声.首先,用本文过滤方法与其他主流过滤算法过滤训练集后,进行各项指标的对比;然后,用去噪后的训练集训练分类模型;最后,在测试集上,对比其泛化性能.由于实验中的人工噪声为完全随机添加,为降低实验结果的偶然性,实验结果采用不同随机加噪10 次的平均值.

表1 数据集信息Table 1 Information of data sets

为验证算法的有效性,实验采用准确率、噪声过滤准确率(Noise filter accuracy,NfAcc)、查准率(Precision,Pre)、召回率(Recall,Re)、特异度(Specificity,Spec)和F1 值六种噪声识别评价指标,分别定义如下:

式中,真实结果是正常且预测结果也是正常的样本,为真正常(True positive,TP);真实结果是噪声且预测结果是正常的样本,为假正常(False positive,FP);真实结果是正常且预测结果是噪声的样本,为假噪声(False negative,FN);真实结果和预测结果均是噪声的样本,为真噪声(True negative,TN).在评价指标中,Acc、NfAcc、Pre、Re和F1 越高,表明算法的噪声识别性能越好;S pec越高,表明噪声过滤程度越高,但过高的Spec意味着算法可能存在过度清洗问题.

实验设置10%、20%、30%、40%四种不同的噪声比例,选用的六种对比过滤算法及参数设置分别为互近邻过滤器(近邻参数k设置为3)、多数投票过滤器(基分类器为1NN、C4.5 和朴素贝叶斯)、相对密度过滤器(近邻参数k设置为5,过滤阈值rd设置为1)、完全随机森林过滤器(随机树棵数Ntree设置为50,过滤阈值NI-threshold设置为5)、基于自适应投票策略的相对密度过滤器(近邻参数k设置为5)和自适应完全随机森林过滤器(随机树棵数Ntree设置为50).所有过滤算法还与不进行任何过滤(No filtering,NoF)的情况进行对比.

最后,在分类性能对比实验中,测试所用的分类模型包括KNNC 模型、支持向量机分类模型、Adaboost 分类模型和随机森林,分类模型的泛化性能用测试集上的分类准确率来度量.

3.2 基检测器对比

本节实验在Wine 数据集上,验证基检测器的多样性,采用基于KNN 和LOF 的两种ROF 过滤算法,分别使用ROF_KNN 和ROF_LOF 表示算法名称.噪声比例NR和过滤比率r均设置为20%.通过随机邻域嵌入降维技术,对数据集进行加噪和去噪的可视化结果如图6 所示.其中,黑色边框标记的样本为未能正确识别出的噪声样本.ROF_KNN和ROF_LOF 都实现了良好的噪声过滤效果.但两个算法在噪声检测上并不完全相同.ROF_KNN未能过滤的部分噪声样本被ROF_LOF 成功过滤;反之,亦然.这表明,多种基检测器间存在互补效应,结合多种基检测器进行噪声检测和过滤可提高噪声过滤的准确性和可靠性.因此,在后续实验中,本文使用第1.2 节介绍的6 种基检测器的组合,作为EROF 算法的默认基离群检测器池.

图6 Wine 数据集上,基检测器噪声过滤对比Fig.6 Comparison of base detector noise filtering on Wine

3.3 参数确定

本节实验主要验证过滤比率r对EROF 算法迭代过滤效果的影响.一般情况下,算法2 逐步迭代过滤的过程会使实际过滤噪声的比率超过r,因此令r在[0,0.3]区间内,间隔0.01,连续取值,图7为在部分数据集上,加入4 种不同比例的人工噪声并用EROF 过滤后,准确率随过滤比率r的变化图,其中灰色带宽为最优r值的集中区域.可以看出,当r值集中在[0.04,0.16]时,展现的过滤能力较为优秀;当r值过低时,过滤样本数量较少,导致大部分噪声仍未去除,准确率基本无变化;当r值超过0.15 后,由于迭代集成缘故,在过滤噪声的过程中,可能去除过多的真实样本,导致不同噪声比例情况下的准确率都呈现下降趋势.因此,在后续实验中,本文使用r=0.1 作为EROF 算法的默认参数.

图7 过滤比率 r 对过滤效果的影响Fig.7 Influence of filtering ratio r on filtering effect

3.4 UCI 实验结果与分析

3.4.1 噪声识别性能

图8 给出了各算法在4 种噪声比率下,各项指标的比较结果,该实验结果取自各算法在20 个数据集上的平均值.

图8 各算法噪声识别性能指标比较Fig.8 Comparison for noise recognition performance indicators of each algorithm

由准确率和噪声过滤准确率可以看出,当噪声比例在10%~30%时,EROF 的噪声识别能力较其他算法有显著优势;当噪声比例增大至40%后,由于默认设置的r值达不到40%噪声比例的最优r值,该优势虽有所减弱,但最终结果仍优于其他算法.可以看出,基于分类预测的MVF 算法在高噪比例下,很难保持良好的过滤效果,这是分类模型本身的预测准确性无法保证导致的.

从特异度的角度分析,MNN 和Adp_mCRF算法更倾向于尽可能地将噪声去除干净,因此Spec表现较为良好.受聚类效果和迭代停止指标的不确定性影响,vRD 算法的Spec表现最差.EROF 是以提升分类模型泛化性能为最终目的,并不总将全部噪声剔除,而是保留部分对模型影响较小的噪声,该特性使其Spec表现相对偏低.

从查准率和召回率看,EROF 的召回率要远高于其他算法,这是由于其尽可能地保留了真实样本,也代表其误删真实样本的情况很少发生.但EROF查准率的优势不够稳定,MNN 和Adp_mCRF 算法在查准率上更占优势.因此,由Pre和Re两项指标的调和平均F1 值来对比,更能体现算法的综合性能.在10%~30% 的噪声比例实验中,EROF的F1 值稳定保持在0.9 左右,而其余算法的F1 值均接近或低于0.8.只有在40%噪声比例下,EROF的F1 值才跌破0.8,这也是由于其在高噪情况下的保守过滤引起的.总之,EROF 的F1 值在不同噪声比例的实验中,都保持着稳定的优势.

图9 对比了不同噪声比例下,7 种算法在20 个数据集中,各项指标最优次数的占比比例.在20%和30%噪声比例实验中,在除查准率和特异度外的其他评价指标上,EROF 都保持着巨大优势.Adp_mCRF和MVF 算法的噪声过滤准确率相较于其他算法更高,但仍无法超越EROF 在不同噪声比例下的最优占比.

图9 各算法噪声识别性能指标的最优次数的占比比例Fig.9 Optimal frequency ratio for noise recognition performance indicators of each algorithm

3.4.2 分类模型泛化性能

表2 列出了不同噪声比例下,用K近邻分类模型(近邻参数k设置为1)在各种算法过滤后的数据集上训练,然后在无噪测试集上预测的分类准确率结果.当噪声比例为10%时,EROF 在第2、3、11 号数据集上的分类准确率表现欠佳,在其余数据集上均为最优,由于噪声比例偏低,各算法的分类准确率差距并不明显.当噪声比例为20%~30%时,EROF 在第1~10 号和第16~20 号数据集上的分类准确率均为最优.当噪声比例达到40%后,EROF 的优势略显不足.总之,在所有数据集上,EROF 算法相比于次优算法的分类准确率平均提升了6.76%,最大提升了18.71%;相比于不过滤的分类准确率平均提升了12.36%,最大提升了55.88%,说明EROF 算法对K近邻分类模型有着较好的增强效果.

表2 UCI 上,不同噪声比例下的分类准确率Table 2 Classification accuracy with different noise ratios on UCI

图10 给出了各分类模型分类准确率的临界差异图.临界差异图能够显示算法排名差异的显著性,算法排名越小表示算法的分类准确率越高;算法排名之间的距离不超过临界差异值的用横线连接,代表算法间的差异不显著.其中算法的平均排名是基于20 个数据集和4 种噪声比例的分类准确率计算得出的.由图10 可知,EROF 算法在4 种分类模型上都取得最优的分类准确率排名.其中,在SVM和RF 模型上,EROF 与Adp_mCRF 算法无显著性差异;在其他模型上,EROF 算法相较其他算法,都有显著性优势.所有过滤算法均优于不进行任何过滤的效果,这印证了过滤算法能够提升分类模型的泛化性能,而EROF 算法的提升效果最高.

3.4.3 算法效率

由于部分小规模数据集无法体现算法时间开销差异,本文选取Isolet、Mushrooms 和Letter 三个代表性数据集进行实验,各算法在这三个数据集上的时间开销对比如图11 所示.Adp_mCRF 在构建随机树时,需要随机划分特征进行数据孤立,导致其在高维数据上效率最低.EROF 算法在多分类任务中,需要根据类别重复划分同质或异质样本,并计算相对离群因子,因此在有26 个类别的Isolet和Letter 数据集上,时间开销较其他算法更高.与昂贵的模型学习算法和超参数优化算法相比,优秀的噪声过滤能显著提升模型精度.EROF 算法在保证过滤效果的同时,相对合理地控制了时间开销,因此,其时间开销是可以接受的.

图11 时间开销对比Fig.11 Running time comparison

4 MNIST 数据集实验

为进一步验证本文算法对非随机标签噪声识别和过滤的有效性,本节在MNIST 标准数据集上进行噪声过滤实验与相关分析.

4.1 实验框架

MNIST 是一个被广泛使用的手写数字图像数据集,由60 000 个用于训练和10 000 个用于测试的28×28像素的灰度图像组成.这些图像表示从0到9 的手写数字,每个数字大约有6 000 个图像样本.在MNIST 数据集中,某些数字之间的相似性很高,它们在书写模糊的情况下,很难区分,可能会出现标签噪声的概率也更高.因此,本节实验除了在训练集上加入比例为10%的完全随机噪声外,还采用成对翻转的噪声转移矩阵加入非随机标签噪声[27],其中非常相似类的翻转概率设置为30%.

实验采用Adam 优化器,以0.001 的学习率迭代训练神经网络200 次,其中神经网络具有2 个隐藏层,分别包含500 和300 个神经元,可用于处理784 维输入,并进行10 个分类任务[37].通过10次随机实验,对不同算法的噪声过滤效果进行对比,记录6 种噪声识别性能评估指标和测试集上的分类精度.

4.2 MNIST 实验结果与分析

表3 列出了在MNIST 数据集上,7 种算法对非随机噪声的识别性能.其中,在Acc、NfAcc、Re和F1 值上,EROF 算法均表现出稳定优势.尽管EROF 算法的S pec值偏低,但其优秀的NfAcc值表明它能精确地过滤掉数据中的噪声样本.此外,0.851 的Re值说明,EROF 算法在过滤时优先保留正确样本,而不是进行无差别的过滤.这种噪声过滤模式有助于神经网络更好地学习数据的内在规律,从而提高模型的泛化性能.

表3 MNIST 上的噪声识别性能Table 3 Noise recognition performance on MNIST

图12 展示了经过不同算法过滤后,神经网络模型在测试集上的分类准确率,其中阴影带状区域代表对应算法在10 次随机实验中的波动范围.可以看出,除MVF 算法外,其他过滤算法在测试集上的分类准确率均显著优于不进行任何过滤的效果.其中EROF、Adp_mCRF 和vRD 算法的准确率波动较小,说明高质量的训练数据加速了神经网络拟合新数据的过程.

图12 不同算法过滤后的准确率Fig.12 Accuracy after filtering by different algorithms

图13 给出不同过滤算法在最后10 次迭代的平均测试精度.在迭代末期,EROF 算法的平均测试精度达到了0.925,为所有算法中的最高值且随机实验对其导致的偏差幅度在所有算法中最小,表明EROF 算法具有优秀的精确性和稳定性.

图13 MNIST 上,最后10 次迭代的平均测试精度Fig.13 Average accuracy over the last 10 epochs on MNIST

5 结束语

本文提出基于相对离群因子的集成过滤方法,利用基离群点检测算法,为样本提供标签噪声的概率评估,再依据此评估实现迭代集成过滤.与现有算法相比,该算法以提升分类准确率为最终目的,在保证数据信息尽量不丢失的同时,能更精确地过滤掉对分类模型影响较大的噪声样本;并且该算法通过集成多种互补的离群点检测算法,保证了其优秀的鲁棒性.在不同噪声比例和类型下,该算法均表现出良好的过滤效果和对分类模型的提升能力.为解决分类任务中的类别型标签噪声过滤问题,提供一种新的思路.

由于过滤比率r和基离群点检测模型对本文算法的过滤效果有一定影响,因此如何自适应设置过滤比率r和选择用于集成的基离群点检测模型,还有待进一步研究.此外,离群点检测算法针对数值型标签噪声问题同样有效,基于离群点检测算法的相关噪声学习方法在数值型标签噪声过滤和回归模型优化问题上的应用,值得持续关注与探索.

猜你喜欢
离群标签噪声
噪声可退化且依赖于状态和分布的平均场博弈
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
控制噪声有妙法
标签化伤害了谁
离群数据挖掘在发现房产销售潜在客户中的应用
基于多进制查询树的多标签识别方法
离群的小鸡
一种基于白噪声响应的随机载荷谱识别方法
应用相似度测量的图离群点检测方法