不平衡信息处理技术与研究现状

2018-03-27 04:42:34杨忠诚
数字通信世界 2018年9期
关键词:决策树示例类别

杨忠诚

(重庆财经职业学院,重庆 402160)

1 引言

近期科学技术的发展使原始数据的增长和可用性以爆炸性的速度发生。这为知识发现和数据工程研究创造了巨大的机会,在从日常平民生活到国家安全,从企业信息处理到政府决策支持系统,从微观数据分析到宏观规模等各种应用中发挥重要作用知识发现。近年来,不平衡的学习问题引起了学术界、工业界和政府资助机构的极大兴趣。不平衡学习问题的根本问题是不平衡数据的能力严重影响大多数标准学习算法的性能。大多数标准算法假定或期望均衡的类别分布或相等的错误分类成本。因此,当出现复杂的不平衡数据集时,这些算法无法正确表示数据的分布特征,从而导致数据类别之间的不准确精度。当翻译成现实世界的领域时,不平衡的学习问题代表了一个重要问题,具有广泛的影响,值得不断探索。

2 不平衡学习问题

从技术上讲,任何在其类别之间呈现不均等分布的数据集都可能被认为是不平衡的。学术圈的共识是,不平衡数据对应的数据集表现出显著的,有时甚至是极端的不平衡。具体来说,这种失衡形式被称为一种“类间失衡”,两类数据的比例为100:1、1000:1甚至10000:1的失衡情况并不少见,在每种情况下,一类数据量严重超出另一类。虽然这种描述似乎暗示所有阶级间的不平衡本质上是二元的(或两类的),但我们注意到存在多类数据,其中各类之间存在不平衡。在本文中,我们只简要介绍多类不平衡学习问题,重点讨论两类不均衡学习问题。

如果不平衡是数据空间性质的直接结果,则称这种形式的不平衡内在的。但是,不平衡的数据并不完全限于固有品种,时间和存储等可变因素也会产生不平衡的数据集。这种不平衡被认为是外在的,即不平衡不直接与数据空间的性质有关。外在的不平衡与内在的不平衡同样有趣,因为很可能出现外部不平衡数据集所达到的数据空间可能完全不平衡的情况。

3 不平衡学习问题研究现状

当将标准学习算法应用于不平衡数据时,描述少数群体概念的归纳规则通常比大多数概念的归纳规则更少且更弱,因为少数群体类别往往数量多或者数量少。为了提供对不平衡学习问题对标准学习算法的直接影响的具体理解,我们观察了流行决策树学习算法的案例研究。

不平衡数据集利用了决策树每个节点处分裂标准的不足之处。决策树使用递归的,自上而下的贪婪搜索算法,该算法使用特征选择方案来选择最佳特征作为树的每个节点处的分割准则;然后为与分割特征对应的每个可能值创建后继(叶)。结果,训练集被连续分割成更小的子集,最终用于形成与类概念有关的不相交规则。这些规则最终结合起来,以便最终假设最小化每个类别的总错误率。在存在不平衡数据的情况下,这个过程的问题是双重的。首先,数据空间的连续分区导致少数类例子的观察次数越来越少,导致描述少数概念的叶子越来越少,并且可信度估计值也越来越弱。其次,依赖于不同特征空间连词的概念可能没有通过分区引入的稀疏性来解决。第一个问题与相对和绝对不平衡问题相关,而第二个问题与类间不平衡和高维问题相关。在这两种情况下,不平衡数据对决策树分类性能的影响都是有害的。下面我们将评估所提出的解决不平衡数据影响的解决方案。

3.1 非平衡学习的采样方法

通常,在不平衡学习应用中使用抽样方法包括通过一些机制修改不平衡数据集以提供均衡分布。研究表明,对于多个基本分类器,与不平衡数据集相比,平衡数据集提供了改进的整体分类性能。这些结果证明采用不平衡学习的抽样方法是合理的。但是,它们并不意味着分类器不能从不平衡的数据集中学习;相反,研究还表明,由某些不平衡数据集引发的分类器与由采样技术平衡的相同数据集引起的分类器相当。然而,对于大多数不平衡的数据集,抽样技术的应用的确有助于提高分类器的准确性。

3.2 代价敏感的方法

虽然抽样方法试图通过考虑分配中类别示例的代表性比例来平衡分配,但成本敏感的学习方法会考虑与错误分类示例相关的成本。通过使用不同的成本矩阵来描述对任何特定数据示例进行错误分类的成本,而不是通过不同的抽样策略来创建均衡的数据分布,而成本敏感的学习则针对不平衡的学习问题。最近的研究表明,成本敏感型学习与从不平衡数据中学习有密切联系。成本敏感方法的理论基础和算法可以自然地应用于不平衡的学习问题。此外,各种实证研究表明,在某些应用领域,包括某些特定的不平衡学习领域,成本敏感学习优于抽样方法。因此,成本敏感技术为不平衡学习领域的抽样方法提供了可行的替代方案。

3.3 基于核方法的主动学习方法

虽然抽样方法和成本敏感的学习方法似乎主导了当前在不平衡学习方面的研究工作,但社区也采取了许多其他方法。由于基于内核的学习方法为当今的许多数据工程应用提供了最先进的技术,因此使用基于内核的方法来理解不平衡学习最近自然引起了越来越多的关注。

4 结束语

在本文中,我们讨论了知识发现和数据工程领域中一个具有挑战性和关键性的问题,即不平衡学习问题。我们讨论了不平衡学习问题的基本性质,解决这个问题的最先进的解决方案,以及用于评估这个问题的几种主要评估技术,为知识发现和数据工程研究人员和从业人员提供参考。

猜你喜欢
决策树示例类别
大还是小
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
山东冶金(2019年5期)2019-11-16 09:09:22
一种针对不均衡数据集的SVM决策树算法
“全等三角形”错解示例
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于决策树的出租车乘客出行目的识别
服务类别
新校长(2016年8期)2016-01-10 06:43:59
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用