浅谈知识发现与数据挖掘

2010-08-15 00:52赵琳

科技传播 2010年6期

赵琳

中国海洋大学，山东青岛 266033

0 引言

随着数据库技术的成熟和数据应用的普及，人类积累的数据量正在以指数速度迅速增长。当数据量极度增长时，如果没有有效的方法来提取有用信息和知识，人们也会感到面对信息海洋像大海捞针一样束手无策。面临浩渺无际的数据，人们渴望从数据汪洋中来一个去粗存精、去伪存真的技术。从数据库中发现知识及其核心技术—数据采掘（DM）便应运而生了。

1 知识发现过程

知识发现（KDD）是从数据中发现有用知识的整个过程；数据开采（DM）是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式（patterns）。1996年，Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为：从数据中鉴别出有效模式的非平凡过程，该模式是新的、可能有用的和最终可理解的。KDD过程是多个步骤相互连接、反复进行人机交互的过程。具体包括：1）学习某个应用领域：包括应用中的预先知识和目标；2）建立目标数据集：选择一个数据集或在多数据集的子集上聚焦；3）数据预处理：去除噪声或无关数据，去除空白数据域，考虑时间顺序和数据变化等；4）数据转换：找到数据的特征表示，用维变换或转换方法减少有效变量的数目或找到数据的不变式；5）选定数据挖掘功能：决定数据挖掘的目的；6）选定数据挖掘算法：用KDD过程中的准则，选择某个特定数据挖掘算法（如汇总、分类、回归、聚类等）用于搜索数据中的模式；7）数据挖掘：搜索或产生一个特定的感兴趣的模式或一个特定的数据集；8）解释：解释某个发现的模式，去掉多余的不切题意的模式，转换某个有用的模式，以使用户明白；9）发现知识：把这些知识结合到运行系统中，获得这些知识的作用或证明这些知识。用预先、可信的知识检查和解决知识中可能的矛盾。

2 知识发现的核心―数据挖掘

所谓数据挖掘，就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD最核心的部分。数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法，运用模式匹配和其它算法决定数据之间的重要联系。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前，大多数的研究都集中在数据挖掘算法和应用上。有的学者认为，数据开采和知识发现含义相同，表示成KDD/DM，它是一个反复的过程，通常包含多个相互联系的步骤：预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识，最后是应用。在实际，人们往往不严格区分数据挖掘和数据库中的知识发现，把两者混淆使用。一般在科研领域中称为KDD，而在工程领域则称为数据挖掘。

3 数据挖掘中常用技术

目前，数据挖掘应用方面有着种类繁多的商品工具和软件，大致可以归纳为下列主要类型：传统主观导向系统，这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析。采用的方法从简单的走向分析直到基于高深数学基础的分析理论和谱分析。这种技术需要有经验模型为前提。属于这类商品有美国的Metastak，SuperCharts，CandlestickForecaster和WallStreetMoney等传统统计分析，这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设，再由系统利用数据进行验证。缺点是需经培训后才能使用，同时在数据探索过程中，用户需要重复进行一系列操作。由于近年来更先进的DM方法的出现和使用，这些厂商在原有系统中综合一些DM部件，以获得更完善的功能。以上两种技术主要基于传统的数理统计等数学的基础上，一般早已开始用于数据分析方面。神经元网络技术：神经元网络技术是属于软计算领域内一种重要方法，它是多年来科研人员进行人脑神经学习机能模拟的成果，已成功地应用于各工业部门。在DM（KDD）的应用方面，当需要复杂或不精确数据中导出概念和确定走向比较困难时，利用神经网络技术特别有效。经过训练后的NN可以想像具有某种专门知识的“专家”，因此可以像人一样从经验中学习。NN有多种结构，但最常用的是多层BP模型。它已广泛地应用于各种 DM（KDD）工具和软件中。有些是以NN为主导技术。NN技术已广泛地做为一种方法嵌入各种DM成套软件中。缺点是用它来分析复杂的系统诸如金融市场，NN就需要复杂的结构为数众多神经元以及连接数，从而使现有的事例数无法满足训练的需要；另外，由受训后的NN所代表的预测模型的非透明性也是缺点。尽管如此，它还是广泛而成功地为各种金融应用分析系统所采用。决策树：在知识工程领域，决策树是一种简单的知识表示方法，它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的，因而比较易于理解。这种方法一般限于分类任务。在系统中采用这种方法的有美国的IDIS，法国的SIPINA.英国的 Clementinc和澳大利亚的C5.0.进化式程序设计，这种方法的独特思路是：系统自动生成有关目标变量对其他多种变量依赖关系的务种假设，并形成以内部编程语言表示的程序。内部程序（假设）的产生过程是进化式的，类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时，就对这程序进行各种不同的微小修正，生成子程序组，再在其中选择能更好地改进预测精度的子程序，如此依次进行，最后获得达到所需精度的最好程序时，由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式。这种方法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。因此，它用于金融到医疗方面的各种应用中将能获得很好的结果。

[1]马丽娜,刘弘,张希林.数据挖掘.OLAP在决策支持系统中的应用[J].计算机应用研究,2007(11):10-12.

[2]胡彦.基于数据仓库的决策支持工具的比较研究[J].计算机应用,2006,20(6):20-24.

[3]喻钢,周定康.联机分析处理（OLAP）技术的研究[J].计算机应用,2007,21(11):80-84.