数据流概念漂移分类和挖掘研究综述

2014-08-26 02:38赵峰

科技创新与应用 2014年26期

赵峰

摘要：基于数据流概念漂移技术在机器学习和数据挖掘领域的重要性，文章首先阐述了数据流漂移概念的概念，接着综述了近年来数据流概念漂移处理方法的发展趋势，最后概括了数据流概念漂移挖掘和分类研究的现状。

关键词：概念漂移；数据流；数据挖掘

引言

数据流概念漂移的研究在机器学习和数据挖掘领域的重要性与日俱增，并在处理途径方面取得了一定的成果，从2000年开始，数据流概念漂移分类研究进入了快速发展期，研究人员开始考虑更加接近实际状况的数据流概念漂移。从近年机器学习与数据挖掘领域的一些国际权威期刊和国际顶级会议上发表的论文来看，数据流概念漂移挖掘和分类研究正日益成为学术界关注的焦点，对数据流概念漂移的研究已经开始与转移学习、进化计算、特征选择、聚类、时间复杂度分析、社会计算等结合起来。因此，从趋势上来讲，已有各种模式分类的理论和算法都可与概念漂移相结合而引出更多新的研究问题。

1 数据流概念漂移的概念及处理方式

某些文本的类别特征往往对它内部所包含的一些“隐性内容”具有很大的依赖性，这种现象通常被称为概念漂移。随着时间的向前推移，其中的这些隐性特征不断发生着细小隐蔽的变化，这些变化事先不易预知，事后也不易觉察，但是，当积累到一定程度时，却会导致整个目标概念发生变化。Schlimmer（1986）对概念漂移做出定义，认为其是环境的隐藏性变化而导致目标概念发生变化的过程。许多真实学习任务的数据都是从某一特定的扩展时间段之内收集的，随着时间的推移，背景环境发生变化不仅会导致目标概念本身发生变化，还会引起数据集的分布发生变化。Lidmer（1993）把环境的隐藏性变化导致目标概念发生变化的过程称为真实概念漂移，把环境变化导致数据集分布发生变化的过程称为虚拟概念漂移，这两者可以同时发生，也可以只有虚拟概念漂移发生。

数据流中的概念流可以通过以下三种方式进行处理：基于窗口的方法、基于重量的方法以及集成分类。基于窗口的方法是通过选择一个固定的或动态的滑动窗口构建一个分类模型，在分类精度的基础上调整窗口的大小（Lee，2009）。在以重量为基础的方法上，每个训练实例被分配一个权重。最流行的演变技术来处理概念漂移的数据流是使用集成分类（分类器的组合），几个输出分类器的组合是用来确定最终的分类，这通常被称为融合规则。另外，在每个时间点的个体输出分类器上分配权重，权重通常为一个历史表现函数，通过使用交叉验证过去或估计的函数。

2 数据流概念漂移挖掘研究现状

为了从大量来自真实世界的复杂数据中提取最有用的信息和知识，在过去十年，各种数据挖掘算法已经被提出和发展。Masud等（2011）建议在真正的标记新类型的实例之前应使用分类器来检测新的类别。为了确定每个个体是否属于某一新类型，其分类模型有时需要收集更多的测试实例来发现数据之间的异同。Polikar（2011）也推出了可以渐进式学习流的分类器集合体，并命名为学习+NSE方法，通过当前和过去的环境动态加权多数表决技术结合这些分类可以调整各个分类时间的准确率。Song（2010）提出了一种基于关联规则的关联分类算法的数据流，其工作宗旨是发现各项集之间的关系，并从输入的数据集中提取一套完整的频繁模式。

Surace（2008）应用了人体免疫系统拓宽的一般特性集和时间序列异常检测，其中系统或结构的正常状态可能会改变。Tsai（2007）提出了一个新的挖掘树规则概念流，被称为CDR-树的规则挖掘数据流的概念。CDR-树能有效地提取决策中的每个数据块的分类模型。Haggett（2005）提出了包括神经探测器与动态预测编码为特定应用程序的属性提取系统，它在各种情况下都胜过专家的方法。Maloof（2003）针对使用动态加权多数性能变化问题，提出了一个为创建动态流概念和删除加权的集成方法，其通过培训网上学习者的综合能力以及基于所述集合的全局性能添加或移除的能力。

3 数据流概念漂移分类研究现状

在数据挖掘和机器学习领域中的数据流分析和挖掘是一项具有挑战性的研究，它最近受到许多计算智能研究人员的关注（Holmes，2012）。数据流分类是提取知识和连续数据点信息的方法（Read，2010）。在数据流中的数据是随着时间的推移所产生的，并且不能由任何预先定义的顺序来控制。一个数据流与传统的静态数据或数据库相比有非常多元化的特点，包括：动态、无限、高维、有序、不重复、高速和时变（Zliobaite，2009年）。大多数现有的数据挖掘技术不能检测及在数据流环境中进行分类（Qin，2007），因而现有的挖掘模型会将这些分类新实例与类标签弄错（Biswas，2004）。因此，这样的数据流分类需要不断更新和再培训通过在线数据流中标记新来的数据。

新类型检测数据流概念漂移是必需的，因为目标类的统计特性在不可预见的方式随时间而改变，并且必须是任何实际的数据流分类技术的一个组成部分。目前，主要有两种数据流的分类方法：单一型号的增量分类和基于分类的集成模型。单一模式分类技术逐步更新为新数据的单一分类器，以应付数据流的演变；同时，一种综合的方法是使用组合或一组分类器，相比升级一个单独的模型，构建整体模型会更有效。比起单一模式分类技术其也有较高的分类正确率，这拓展了以前在数据流概念漂移中的新类型检测的处理方法（Farid，2012）。

4 结束语

数据流概念漂移是数据分类过程中最棘手的问题，当前不少学者对该问题提出了许多算法和集成分类器方法，尤其是近年来的相关研究，使其成为当前数据挖掘领域研究的热点和前沿问题，文章对该问题的研究现状进行了综述和评价。

参考文献

[1]张杰，孙曰瑶.基于AdaBoost组合算法的衍生金融工具风险预测[J].统计与决策，2012，7（7）：42-44.

[2]张杰，张娅萍.高校青年自组织文化认同研究[J].知识经济，2012，1（1）：165.endprint