结合样本局部密度的非平衡数据集成分类算法*

2020-02-20 03:42陈红梅
计算机与生活 2020年2期
关键词:分类器类别局部

杨 浩,陈红梅,2+

1.西南交通大学 信息科学与技术学院,成都 611756

2.云计算与智能技术高校重点实验室(西南交通大学),成都 611756

1 引言

近年来,数据集的类别非平衡问题为影响各种机器学习算法性能的主要因素之一,得到了研究者的广泛关注。类别非平衡是指数据集中某一类样本的数量远远大于另一类样本的数量,从而导致不同类别样本之间分布的不均衡。类别的非平衡问题广泛存在于各领域中,如医学诊断[1]、网络异常检测[2]、信息检索[3]、欺诈电话检测[4]等。非平衡率(imbalance ratio,IR),即多数类和少数类样本之间的比例,是衡量非平衡数据特性的指标之一。在实际生活中,非平衡率常常高达1∶100,而在高能物理的分类问题中[5],甚至达到了1∶100 000。在上述应用中,人们通常更加关心少数类样本的分类正确性。然而传统的分类算法,例如支持向量机(support vector machine,SVM)、C4.5、K近邻(K-nearest neighbors,KNN)和朴素贝叶斯(naive Bayes,NB),所训练的分类器通常只关注整体样本的分类准确性,从而忽视了少数类样本分类的正确与否[6]。因此,人们针对非平衡数据集分类问题提出了一系列的解决方法。

目前,针对非平衡数据分类的解决方法主要集中在数据层面和算法层面[7]。基于数据层面的方法是在模型学习阶段之前改变数据集的类别分布使类别达到平衡。而基于算法层面的方法则是在学习过程中调整少数类与多数类之间的权重,最终使学习性能达到最优。本文将从基于数据层面来研究非平衡数据的二分类问题。基于数据层面的方法可以分为欠采样和过采样两种类型。这两种方法的研究对象分别为多数类样本和少数类样本。随机欠采样和随机过采样是处理非平衡数据最为简单的两种方法。但是,由于随机欠采样仅盲目地减少多数类样本,从而导致数据集会丢失部分有价值的样本。随机过采样随机地复制少数类样本加入到数据集中,但不能给数据集带来新的有价值的样本,容易导致模型过拟合现象。因此,为了克服随机采样方法的局限性,Chawla等提出了一种合成少数类样本的过采样方法(synthetic minority oversampling technique,SMOTE)[8]。该方法通过在相邻的两个少数类样本之间进行线性插值,从而合成新的少数类样本。相对于随机过采样方法,SMOTE能够较好地改善少数类样本的分布问题,提高了分类器的分类效果。Li等提出了一种欠采样和SMOTE结合的方法,并将其融合到多目标粒子群算法中,通过优化迭代最终得到一个最优的平衡数据集,较好地解决了SMOTE中采样倍率和近邻数难以选取的问题[9]。然而,基于SMOTE的方法在选择近邻和生成样本时具有随机性,当数据集出现类别重叠[10]或小析取项[7]时,容易生成错误的样本,从而导致分类器的性能降低。

因此,为了提高合成样本的质量,学者们基于SMOTE提出了一系列的改进算法。赵清华等针对SMOTE算法存在样本边缘化问题提出了TSMOTE(triangle SMOTE)算法,将合成样本限制在安全区域内[11]。然而该方法只解决了类别重叠问题,当出现小析取项问题时,仍然会合成错误的样本。Barua等提出一种基于样本权重的采样方法(majority weighted minority oversampling technique,MWMOTE),着重对类别边界的少数类样本进行采样,同时使用聚类技术将少数类分成若干个簇,然后只在簇内进行采样,克服了小析取项问题,提高了合成样本的质量[10]。MWMOTE着重对类别边界进行采样,因此当数据集出现类别重叠时,往往也会合成错误的样本,其次算法的效果也受聚类效果的影响。Lin等提出了一种基于聚类的欠采样方法,该方法通过设置类簇中心数等于少数类样本的数量,对多数类进行聚类,然后选取聚类中心作为筛选后的多数类样本,克服了类别重叠和小析取项问题,但是欠采样容易导致数据集丢失有价值的多数类样本,降低多数类的分类精确度[7]。胡峰等结合三支决策理论提出了TWD-IDOS(three-way decision model imbalanced data oversampling)算法,将少数类样本集划分为不同的区域,对不同区域的样本进行不同的过采样处理,较好地解决了小析取项和类别重叠问题[12]。但是TWD-IDOS在合成样本时只选取了一个近邻,因此容易丢失其他质量高的合成样本。

综上所述,目前大多数的过采样算法都无法很好地同时解决类别重叠和小析取项问题,采样的效果也同时受其他因素影响。因此,本文针对上述问题进行了深入的研究,为了克服小析取项和类别重叠问题给采样技术带来的限制以及后续负面影响,提出了一种结合样本局部密度的过采样算法(minority oversampling under local area density,MOLAD)。其次,本文为了最大限度地保证具有潜在有价值的合成样本不会被丢失,在上述基础上,将集成学习与MOLAD结合,提出了针对非平衡数据集的集成分类算法(combined the local area density and bagging for minority oversampling technique,LADBMOTE)。该算法不仅能够克服非平衡数据集出现类别重叠和小析取项时所带来的问题,而且结合了集成学习的优点,极大地提高了分类器的分类性能和泛化能力。

2 相关背景

本章将主要分析基于SMOTE的采样算法在非平衡数据集中所面临的三种问题。

2.1 类别非平衡问题

在非平衡数据集中,类别分布的不平衡往往还会伴随着其他问题。这些问题大致可以分为三类:小样本、类别重叠和小析取项。这三类问题在模型训练阶段会带来不同程度的负面影响。

(1)小样本:在非平衡数据集中最为突出的问题是多数类样本的数量远远多于少数类样本。而在实际应用中,为非平衡数据集收集少数类样本具有非常大的挑战。因此,解决小样本最常用的办法就是通过采样技术来增加数据集中少数类样本的数量。

(2)类别重叠:在非平衡数据集中,不同类别的样本区域会发生交叠现象(如图1(a)所示,图中实心圆代表多数类样本,五角星代表少数类样本)。在交叠区域,不同类别的样本之间没有明显的界限,因此在构建分类器时会带来负面影响。由于多数类与少数类之间样本数量的差异,分类器可能会将处于交叠区域的少数类样本错分为多数类。

(3)小析取项:在非平衡数据集中,少数类样本呈现出多个类簇,分布在特征空间的不同区域中(如图1(b)所示)。

Fig.1 Class-overlapping and small-disjuncts problems in imbalanced data sets图1 非平衡数据集中类别重叠和小析取项问题

2.2 传统过采样技术所面临的问题

过采样技术主要是通过增加少数类样本的数量从而达到类别平衡,相比于简单的随机过采样,SMOTE、BDSMOTE(borderline SMOTE)[13]、核SMOTE(kernel SMOTE,KSMOTE)[14]等合成样本技术虽然解决了小样本问题,但是却忽视了合成样本的质量。在SMOTE算法中,首先需要针对所选定的样本(采样点),求出其K个近邻,然后随机选取其中一个近邻并在此之间进行插值。最终生成的样本会落在近邻与采样点之间。假定当前选择的采样点为xi,随机选择的一个近邻为xj,λ为介于0到1之间的随机数。因此生成的样本可以表示为:

在非平衡数据集中,当数据分布存在类别重叠和小析取项问题时,合成样本技术往往会合成错误的样本。而这些错误的样本会反过来加剧这两种问题,导致最终的分类效果不佳。图2分别刻画了当数据集存在小析取项和类别重叠问题时,SMOTE及其改进算法的缺陷。

在图2(a)中,当选定样本A作为采样点时,{B,C,D,E,F}为使用欧氏距离计算得到A的5个近邻(假定K=5)。因此根据式(1)可知,SMOTE会在AB AC和AD之间生成样本G H I(红色方块)。根据G H和I的位置很明显可以判断出I的质量要高于G和H的质量。选取C D作为近邻生成的样本落到了多数类样本区域中,这些低质量的样本不仅会使得训练分类器变得困难,还会导致原始类别分布出现类别重叠问题。

在图2(b)中,当以A点为采样点,{B,C,D,E,F}为使用欧氏距离计算得到A的5个近邻(K=5)。因此选择近邻B C D生成的样本分别是G H I(图中虚线箭头所指向的点)。从图中可以观察到样本A与近邻B D之间的区域中存在许多多数类样本,导致生成的样本点G和H距离多数类样本点非常近,甚至与多数类样本点重合。这些错误的合成样本会在模型训练阶段造成负面影响,导致分类效果不理想。

Fig.2 Limitations of sample synthetic technique in imbalanced data sets图2 合成样本技术在非平衡数据集中的局限

经上述研究分析可知,基于SMOTE的合成样本方法忽视了数据集的类别分布,盲目地采样容易合成错误的样本,最终导致整体的分类效果并不理想。因此本文提出了一种兼顾了欧氏距离和候选点与采样点之间的类别分布的过采样算法MOLAD。该算法能够根据选定的采样点和候选近邻区域之间的样本局部密度来计算合适的近邻来合成样本,使得合成的样本落入安全的区域。同时该算法对于样本分布较为简单(没有类别重叠和小析取项现象)的非平衡数据集同样有效。

3 LADBMOTE:结合MOLAD的集成分类算法

为有效地构建样本,提高分类精度,充分考虑样本的分布特点,本文提出了MOLAD过采样算法,同时生成多个样本集,利用集成学习构建分类器。

3.1 MOLAD过采样

与传统的SMOTE算法以及改进算法不同的是MOLAD定义了一种新的K近邻计算策略。该计算策略不仅考虑了少数类样本之间的欧氏距离,同时也考虑了候选近邻与采样点之间的局部密度。局部密度反映了候选近邻与采样点之间的样本分布对合成样本质量造成的影响。这种影响在数据集出现类别重叠或小析取项现象时尤为敏感。

针对二分类问题,设数据集为D,少数类C1的样本集合为D1={x1,x2,…,xm},m为少数类样本的数量。多数类C2的样本集合为D2={x1,x2,…,xn}n为多数类样本的数量。假定当前的采样点为xi,Si为根据MOLAD中定义的K近邻计算策略所得到的xi的K个少数类样本近邻集合。MOLAD计算采样点xi的K个近邻的具体步骤为:

步骤1针对采样点xi∈D1,计算所有的少数类样本{xj|xj≠xi}与xi之间的欧式距离dij。

步骤2求得xi与xj的中点xˆij,计算以xˆij为圆心,以dij为直径的圆内多数类样本点的个数σij。计算公式如式(2):

步骤3根据步骤1求得的距离选取K个距离采样点xi最近的少数类样本点{xi1,xi2,…,xiK}。然后根据步骤2计算得到{σi1,σi2,…,σiK},将其中σ=0所对应的样本点加入到Si中。如果均为0,则将{xi1,xi2,…,xiK}中所有的样本点加入到近邻集合Si中。统计加入到Si中的样本个数k1,如果k1=K,结束近邻计算策略。

步骤4求得所有候选近邻{xj|xj∈D1,σij≠0}的局部密度ρij。局部密度的计算方式如式(4):

其中,area(xˆij,dij)是以xˆij为圆心,dij为直径的圆的面积。

步骤5对所有σij≠0所对应样本点的局部密度进行升序排序,选择K-k1个局部密度ρ最小的少数类样本点,加入到Si中,结束近邻计算策略。

由上述近邻计算策略可知,针对采样点xi计算其K个少数类近邻时,不仅考虑了欧氏距离,还需要计算候选点与采样点之间的局部密度。当候选点处于绝对安全区域时,其局部密度为0,此时只需要根据欧氏距离来选择近邻。而当数据集出现类别重叠或小析取项现象时,候选点与采样点之间的区域存在多数类样本,从而导致局部密度不为0。局部密度越大,表明候选点与采样点之间的局部区域越危险,选择该候选近邻容易合成错误的样本或质量低的样本。局部密度越低,表明候选点与采样点之间的局部区域较为安全,选择该候选近邻合成的样本往往会落入一个安全的区域中,更加有利于训练分类器。因此MOLAD先将距离xi最近且局部密度为0的少数类样本加入到近邻集合Si中,然后再选择局部密度较小的样本加入到采样点xi的近邻集合Si中。

由式(4)可知,当σij越大时,其局部密度越大,代表采样点xi与候选点xj之间的局部区域内多数类样本点较多。反之,如果σij越小,局部密度越小,则代表采样点xi与候选点xj之间的局部区域内多数类样本点越少。然而,当采样点xi与安全候选点xp之间的距离dip较远时,此时以xˆip为圆心,以dip为直径的圆由于直径较大,导致圆的边缘部分可能会覆盖更多的多数类样本点。当采样点xi与危险候选点xq之间的距离diq较近时,以diq为直径的圆会由于直径较小导致该区域范围内的多数类样本相比于安全候选点xp区域内的多数类样本少。因此,为了消除这种影响,本文将σij除以圆的面积作为其局部密度。当数据集的类别分布不存在类别重叠和小析取项现象时,各个样本点之间的局部密度均为0,MOLAD会直接选取距离最近的K个样本点作为近邻。因此,MOLAD针对类别分布较为简单的数据集同样有效。图3和图4直观地体现了传统的SMOTE以及改进算法的K近邻计算方法与本文提出的MOLAD的K近邻计算方法在数据集出现小析取项和类别重叠现象时选择近邻的差异。

在图3(a)中,类别分布出现小析取项现象。针对采样点A,传统过采样方法根据欧氏距离所计算的K近邻为{B,C,D,E,F}。选择D或E生成的样本为G H从图中可以看出,合成样本G H落入到多数类区域中。而在图3(b)中,利用MOLAD的近邻计算策略,样本F和J的局部密度相比于E D更小,因此计算得到的K近邻为{B,C,F,I,J}。由此生成的样本H G更加靠近少数类,远离多数类区域,相比图3(a)中生成的样本质量要更好。

Fig.3 Comparison of two nearest neighbor selection methods in case of small disjuncts图3 在小析取项问题下两种选取近邻方法的比较

在图4(a)中,类别分布出现类别重叠现象。针对采样点A,传统过采样方法根据欧氏距离所计算的K近邻为{B,C,D,E,F}。选择B或D生成的样本为G H从图中可以看出,合成样本G H几乎与多数类样本点重合。而在图4(b)中,利用MOLAD的近邻计算策略,样本I和J的局部密度小于B和D最终计算得到的K近邻为{C,E,F,I,J}。由此生成的样本G H会远离类别重叠区域。因此利用MOLAD近邻计算策略计算的近邻会更加有利于高质量样本的生成。

Fig.4 Comparison of two nearest neighbor selection methods in case of class overlapping图4 在类别重叠问题下两种选取近邻方法的比较

3.2 基于MOLAD的集成分类方法

由于大多数基于SMOTE的过采样方法在计算K近邻后随机选择其中一个近邻进行线性插值,因此合成样本的质量与近邻的选择有很密切的关系。在选择其中一个近邻时可能会丢失由未选择的K-1个近邻所合成的高质量样本。因此,为了最大程度地保留具有价值的合成样本,从而进一步提高分类器的分类性能,本文将基于Bagging的集成学习方法与MOLAD结合,在采样阶段,移除了SMOTE算法中随机选择近邻这一步骤,针对每个少数类样本,根据MOLAD的K近邻计算策略求得并选取所有的K个近邻进行合成样本。因此最终会生成K个平衡的样本集。最后用Kittler等提出的5种集成规则[15]将K个平衡样本集训练得到的分类器集成。Kittler的5种集成规则如表1。

其中,函数定义为式(5):

假定有K个二分类分类器,类别为C1和C2。对于第i个分类器(1 ≤i≤K),一个新样本xi属于类别C1的概率为Pi1,属于类别C2的概率为Pi2。R1和R2为K个分类器下利用集成规则得到的集成结果。如果R1>R2,则新样本被分为类别C1,否则被分为C2。算法伪代码如下,整体框架如图5所示。

算法1LADBMOTE算法

输入:少数类样本集合D+,候选近邻个数K

输出:K个合成的样本集合S={S1,S2,…,SK},最终的集成分类器C

Fig.5 Flow chart of LADBMOTE algorithm图5 LADBMOTE算法流程图

3.3 算法复杂度分析

定义n m分别为原始少数类样本和多数类样本的数量。在MOLAD采样算法中,时间开销主要在于求每个采样点的候选K个近邻。由步骤1、步骤2和步骤4可知,求少数类样本xi到所有候选近邻的局部密度的时间开销为O(nm)。步骤3中对采样点xi到所有少数类样本的距离进行排序的时间开销为O(nlbn)。步骤5中对所有候选样本的局部密度进行升序排序的时间开销为O(nlbn)。在非平衡数据问题中,通常m≫n,mn>nlbn。因此求n个少数类样本的候选近邻复杂度为O(mn2)。假定合成样本的时间开销为O(π),因此MOLAD的时间复杂度为O(πmn2)。MOLAD空间复杂度取决于存储每个样本之间的距离和局部密度所需的空间,因此MOLAD的空间复杂度为O((m+n)2)=O(m2)。

传统的过采样方法采用欧式距离选择K个近邻,因此只需要计算采样点到少数类样本之间的距离并对其排序,其时间复杂度为O(πn2lbn),空间复杂度为O(n2)。

基于上述分析可知,MOLAD相比于采用欧式距离的传统过采样方法需要额外计算采样点与候选近邻之间多数类的局部密度并对其排序。因此MOLAD相对于传统过采样的时间复杂度和空间复杂度较高,其差距取决于数据集的非平衡率。

4 实验结果及分析

实验环境基于Eclipse Oxygen版本以及Weka3.8机器学习平台。实验数据集采用了KEEL公开的20个非平衡数据集[16]。数据集的具体信息如表2所示。数据集的非平衡率(IR)在1.80~41.00之间,样本数在214~1 484之间。为了保证算法的稳定性以及避免随机性,本文采用了五折交叉验证方法,将每个数据集分为5份,同时保持每份子集中样本的非平衡率与总体样本集相同。算法在每个数据集上运行20次,将最后得到的分类结果取平均值。分类算法采用了C4.5、NB、KNN、多层感知机(multi-layer perception,MLP)以及SMO(sequential minimal optimization)作为基分类器和分类性能测试算法,所有的分类器参数均采用Weka的默认设置,分类性能的评价指标为AUC值。为了验证文本提出的算法有效性,将TWD-IDOS、随机过采样(random oversampling,ROS)、随机欠采样(random undersampling,RUS)、BDSMOTE、SMOTE、SBAG4(SMOTEBagging4)[17]以及CBS(clustering-based sampling)[7]7个算法作为比较算法。

Table 2 Information of data sets表2 数据集的信息

4.1 实验参数对算法性能的影响

LADBMOTE结合了MOLAD与基于Bagging的集成学习方法,从而训练出K个分类器,然后利用Kittler提出的5种集成规则将K个分类器的分类结果集成。因此,为了研究Kittler提出的5种集成规则对本文算法的影响,实验将分别采用5种不同的集成规则,在20个数据集上进行分类性能测试。实验中K设置为5,在5种不同分类器上的平均分类结果如表3所示。由表3的实验结果可以看出,当以C4.5、SMO和NB作为集成学习的基分类器时,采用Sum集成规则时的平均分类性能均比其他集成规则下的分类性能要好。当MLP作为基分类器时,采用Max和Product集成规则的平均分类性能要优于其他集成规则下的平均分类性能,而Sum集成规则下的分类效果和Max集成规则下的分类效果非常接近。

Table 3 AUC value of LADBMOTE for different ensemble rules表3 在不同集成规则下LADBMOTE的AUC值

K值作为LADBMOTE算法中采样点的近邻个数,不仅决定了每个采样点需要计算的近邻数,还决定了集成学习中基分类器的个数。当K值太小时,有价值的近邻未被选择,因此可能会丢失高质量的合成样本,从而影响了集成分类器的效果。当K值比较大时,距离采样点较远,质量较低的样本或噪音样本被加入到近邻集合中,导致生成的样本质量较差。例如,当K=1时,算法只会选择距离采样点最近的样本,由此生成的样本会非常靠近采样点,这种合成样本的价值不高。而当K值非常大时,选择的近邻很可能位于另外一个类簇中,使得生成的样本落入了处于中间的多数类样本区域中,成为了噪音样本。因此,为了研究K值对算法的影响,本文设置K值的范围为[3,10],分类算法采用C4.5、NB、SMO、KNN和MLP,集成规则设置为Sum,AUC作为分类效果的评价指标。在20个数据集上的平均分类效果如表4所示。由表4实验结果可知,在以C4.5、NB、SMO和MLP作为分类器时,K设置为6时能够得到最优的AUC值。而以KNN作为分类器时,AUC随着K值增大而增大。当K≥8时AUC趋于稳定。在LADBMOTE算法中,K值应小于少数类样本的数量。然而,在非平衡率非常高的数据集中,少数类样本的数量非常少,较大的K值会导致算法无法运行。因此,综合分类效果与算法的可行性因素,K设置为6可以取得最优的分类效果。

Table 4 AUC value of LADBMOTE for different K value表4 不同K值时LADBMOTE的AUC值

4.2 算法性能比较及分析

为了验证LADBMOTE算法的有效性,实验将与经过TWD-IDOS、ROS、RUS、SMOTE、BDSMOTE、SBAG4和CBS处理的20个数据集上,采用五折交叉验证法在同一分类器下的平均分类效果进行对比。根据4.1节的实验结果,本文将LADBMOTE中的集成规则设置为Sum,K值设置为6,实验结果如表5所示。

由表5的实验结果可知,LADBMOTE在C4.5、SMO和KNN分类器上的分类效果相比于对比算法的优势较大,而采用NB和MLP分类器时,LADBMOTE的优势较小。当采用MLP分类器时,TWD-IDOS的平均分类效果要优于LADBMOTE。由于篇幅限制,表6列出了各个算法在20个数据集上的具体分类效果,分类算法采用C4.5,K设置为6,集成规则为Sum,评价指标为AUC值。根据表6实验结果可知,本文提出的LADBMOTE在绝大部分数据集上的分类效果都要优于对比算法。而TWDIDOS在ecoli1、glass6、ecoli3、yeast1v7、glass4和yeast2v8数据集上的分类效果比LADBMOTE好。

为了验证本文提出的LADBMOTE的鲁棒性,实验选取了6个不同非平衡度的数据集,分别为pima(IR=1.87)、ecoli2(IR=5.46)、glass016v2(IR=10.29)、ecoli4(IR=15.80)、yeast2v8(IR=23.80)和yeast6(IR=41.40),画出了以C4.5为分类器下的ROC曲线图,如图6所示。图6中横坐标为FPR(false positive rate),纵坐标为TPR(true positive rate)。

不同方法在不同分类器下的平均序值如表7所示。当显著度为0.05时,在20个数据集,8种算法上的临界值域CD=2.34图7给出了在显著度为0.05下的Friedman检验图。在图7中,纵轴为平均序值,横轴显示为本文所采用的各个算法,“*”所对应的纵坐标为对应算法的平均序值,以“*”为中心的竖直线段表示临界值域CD的长度。如果两个算法所对应的线段没有交叠部分,则表明这两个算法有显著差别,并且平均序值小的算法显著优于平均序值大的算法。若两个算法所对应的线段有交叠,则表明没有显著差别。由图7所示,当使用C4.5分类算法时,LADBMOTE都显著优于其他7个对比算法。当使用SMO分类算法时,LADBMOTE要显著优于TWD-IDOS、CBS、SMOTE、RUS、ROS和BDSMOTE。当使用KNN分类算法时,LADBMOTE要显著优于SMOTE、ROS、RUS、TWD-IDOS和BDSMOTE。当使用NB分类算法时,LADBMOTE要显著优于SMOTE和BDSMOTE。当使用MLP分类算法时,LADBMOTE要显著优于RUS、BDSMOTE和ROS。

Table 5 AUC value of different methods under different classifiers表5 不同方法在不同分类器下的AUC值

Table 6 AUC value of different methods under classifier C4.5表6 以C4.5为分类器时不同方法的AUC值

Fig.6 ROC curves of different IR data sets图6 在不同非平衡率数据集下的ROC曲线

Table 7 Average ranking of different methods under different classifiers表7 不同方法在不同分类器下的平均序值

Fig.7 Friedman test of different methods at significance level of 0.05图7 不同算法下显著度为0.05的Friedman检验图

5 结束语

针对传统的SMOTE过采样方法所存在的问题,本文提出了一种基于样本局部密度的过采样算法MOLAD。该算法提高了合成样本的质量,有效地解决了当数据集存在类别重叠以及小析取项现象时合成错误样本的问题。同时,为了最大程度地保留有价值的合成样本,提高分类器的分类精度,本文进而将基于Bagging的集成学习方法与MOLAD结合,提出了针对非平衡数据的集成分类算法LADBMOTE。实验结果表明本文提出的LADBMOTE算法在多种分类器上的分类效果相比于当前技术水平下的7种非平衡数据集处理算法的分类效果明显提高。在面对不同非平衡度的数据集进行分类时,LADBMOTE的鲁棒性更好。由于LADBMOTE只解决了非平衡数据的二分类问题,且算法复杂度较高,采用传统的多分类框架可能无法均衡多个少数类之间的采样效果,且算法运行时间较长,因此提出一种高效的多分类框架将是今后的研究重点。

猜你喜欢
分类器类别局部
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
日常的神性:局部(随笔)
学贯中西(6):阐述ML分类器的工作流程
《瑞雪》(局部)
基于朴素Bayes组合的简易集成分类器①
一起去图书馆吧
凡·高《夜晚露天咖啡座》局部[荷兰]
简析基于概率预测的网络数学模型建构
基于AdaBoost算法的在线连续极限学习机集成算法
丁学军作品