赖 娟
摘要:数据挖掘是一门新兴的数据处理技术,是当前一个热门的研究领域。数据挖掘中应用的技术包括经典的统计、聚类,也包括最新发展起来的决策树、神经网络和关联规则等一些较新的方法。简要介绍了数据挖掘的概念和过程·论述了数据挖掘的主要方法,最后对数据挖掘的应用作了简要介绍。
关键词:数据挖掘;过程;应用
中图分类号:TP3文献标识码:A文章编号:1672-3198(2009)14-0283-02
1数据挖掘概念
数据挖掘(Data Mining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
2数据挖掘技术
2.1关联规则方法
关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。
2.2分类和聚类方法
分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
2.3数据统计方法
使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。
2.4神经网络方法
神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。
2.5决策树方法
决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。
2.6粗糙集
粗糙集(Rough Set)能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据备个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
3数据挖掘过程
按工作流程包括以下几个步骤:
(1)数据准备:一般存储在数据库系统中的是长期积累的大量的数据,往往不适合利用这些进行处理,需要做数据准备工作,一般包括数据的选择、净化、推测、转换、数据缩减,通过这些工作生成数据仓库。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。
(2)数据挖掘:在前面步骤所获得的数据集上进行数据挖掘,可以单独利用也可以综合利用各种数据挖掘方法对数据进行分析,根据数据挖掘的目的。选定数据挖掘算法,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式。
(3)结果的分析和同化;上面得到的模式模型,有可能是没有实际意义或没有使用价值的。因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。对数据挖掘出的结果进行解释和评价,转换成为能够最终被用户理解的知识。其具体的挖掘过程如图1:
4数据挖掘的应用
4.1在金融领域中的应用
多数银行和金融机构都提供丰富多样的储蓄、信用、投资、保险等服务。他们产生的金融数据通常比较完整、可靠,但是数据量是非常巨大的,数据挖掘技术可以将这些庞杂的信息充分利用:如采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;使用数据可视化、分类、聚类分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为;对于预防信用卡欺诈行为。可以利用数据挖掘对客户信誉进行分析。
4.2在零售业中的应用
在零售业中,数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使用,特别是条码技术的使用。零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录等等。零售数据挖掘有助于划分顾客群体,使用分类技术和聚类技术。可以更精确地挑选出潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;同时可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是大有帮助
4.3在科学研究中应用
计算科学是现代科学发展的一个重要标志。计算科学工作者主要和数据打交道,每天要分析大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫量、遥感器、DNA分子技术等,数据量更是庞大,因此必须摒弃传统的数据分析工具,采用有强大的智能型自动数据分析工具。