数据挖掘过程模型及创新应用

2018-03-22 01:31余奇
电子技术与软件工程 2018年1期
关键词:数据挖掘数据库算法

余奇

随着数据库技术的成熟和数据应用的普及,人类积累的数据量的速度迅速增长。进入21世纪以后,随着互联网的出现和发展,企业内部网和企业外部网以及虚拟私有网慢慢的推广并应用了,此后,人们就可以跨越时空地在网上交换数据信息和协同工作,完成一些之前无法想象的事情。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是大量的数据,信息的海洋。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,只简简单单地用人脑去面对海量数据时,只能感到束手无策,所以,从数据库中发现知识及其核心技术——数据挖掘便应运而生了。

【关键词】数据 数据挖掘过程模型

近年来,数据挖掘在信息产业界和整个社会都获得了极大关注。因为数据挖掘技术可以广泛使用大量数据,并且快速将这些数据转换成有用的信息和知识。获取了這些信息知识后在各种应用中都可以广泛运用。例如进行一定的市场分析、产品控制、顾客保有统计和科学探索等等。通俗的说,就像挖掘机从土山中挖掘土壤一样,数据挖掘就是从大量数据中提取或“挖掘”特定的知识,并带有一些智能的检索、整理功能,也是一种知识发现过程的基本步骤。所以,在人们需要大量数据、大量知识或是从大量数据与知识中获取对其有用的项目时,往往会运用数据挖掘技术。

1 数据挖掘的过程模型

倘若把数据挖掘技术“挖掘”知识比喻成挖掘机在挖掘土壤,那么数据挖掘的过程模型就是挖掘机的工作流程,可以有效指导数据挖掘技术进行提取、整理数据和知识。数据挖掘的流程往往分为下面五个部分:数据库模块、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块。现今,很多研究人员也提出了各种各样的数据挖掘过程模型,其可以针对不同的挖掘对象发挥不同的作用。

1.1 9步模型(Nine-stepsModel)

如图1所示,9步模型将数据挖掘过程分为了9步,从确定数据挖掘目标为起点,以实现知识的发现为结束。

(1)定义、理解数据挖掘目标。首先,展开数据挖掘的人需确定数据挖掘的目标才能进行数据挖掘工作的开展。

(2)选择、创建数据集。在定义目标之后,就需要找出可用的数据、获取额外的辅助数据。

(3)数据准备、清洗。在这一步骤中,对数据进一步筛选,增强其正确性与可靠性。

(4)数据转换。这个步骤中,可以将已获得的数据转换成挖掘所需的格式,只有格式正确才能方便数据的使用。

(5)选择合适的数据挖掘方法。要根据不同的数据挖掘的目标来制定不同的数据挖掘方法。

(6)选择数据挖掘算法。算法是数据挖掘中必不可少的一项技术,要结合数据本身的特点与其用途创建并优化算法,才能更加精准的获得想要的数据。

(7)执行数据挖掘算法。这一步开始启用数据挖掘算法,并且可能调整参数执行多次,直到得到满意的结果。

(8)结果评价。这一步是在数据挖掘完成之后,对模型进行重新分析。重点要关注模型的有用性和可理解性。然后进行归纳与总结。

(9)使用发现的知识。这一步便是数据挖掘的最终目的。挖掘数据从而利用数据,使用数据。当然,知识数据一定要使用恰当,否则数据挖掘再精妙,也是徒劳。

以上步骤只是指导性意见,负责人员应根据实际情况进行统筹规划。

1.2 CRISP-DM模型

如图2所示,CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象层次构成的任务集合:阶段、一般任务、具体任务和过程实例。在模型的顶层,数据挖掘过程由很多阶段构成。第二层则是一般任务层,应将一般任务进行细分归类和顶层进行很好的逻辑联系,才能确保其完整性与稳定性。第三层为具体任务层,可以展示一般的任务如何在特定环境下执行。第四层是过程实例,是有关一次实际数据挖掘项目的活动、决策和结果的记录。它表示一个特定项目中发生的实际情况,而不是一般情况。

图3为CRISP-DM模型的过程描述。该模型将工程分为6个不同的,但顺序并非完全不变的阶段。上图的循环往复表示着数据挖掘工作的无限性,简单来说,挖掘得到的知识还可以进一步挖掘,往往在深度挖掘后,知识会更精准合理。而图中的箭头指出了每个阶段之间最重要和频繁的关联依赖。

2 数据挖掘的创新应用

2.1 数据挖掘在银行与金融业的创新应用

数据挖掘在银行与金融业有着广泛的应用。如在银行业中,可以通过数据挖掘技术进行欺诈检测、潜在客户的风险评估、趋势分析等。在金融领域,用高水平的近似来预测股价和物价意味着大量的利润。数据挖掘中的一种算法——神经网络算法,被广泛用于预测、股票预购和债券买卖、证券管理和合并与兼并等领域。

2.2 在客户关系管理方面

数据挖掘可以通过大量数据,分析出适合客户的产品使用模式或协助了解客户行为,从而可以改进通道管理。举个例子,很多时候,我们会发现当消费者需要一件产品的时候,这件产品便会促销打折,很多人会认为这是巧合,实际上是依靠数据挖掘技术基于顾客生活周期模型来实施的。

2.3 在零售业和市场营销方面

零售业和市场营销是数据挖掘技术应用最早也是最重要的领域,例如超市中的货架摆放顺序、促销活动时间以及商场活动等,都是数据挖掘技术广泛应用后的成果。并且,数据挖掘技术还可以进行客户统计与分析,能提升销售和广告业务的准确性与有效性。

3 结语

本文简单阐释了数据挖掘模型的概念,与创新其实际应用距离。在今天这个互联网时代,随着数据库的扩大、数据统计系统的完善,为了得到有用信息,对决策进行指导。数据挖掘,这一高效的技术应用范围也越来越广。它也已经成为统计学、机器学习等诸多领域的研究者和开发者的热点课题之一,而各个学科交叉融合更会会进一步促进数据挖掘技术的发展与繁荣。

参考文献

[1]陈文伟等.数据挖掘技术[M].北京:北京工业大学出版社,2002.

[2]高洪深.决策支持系统[M].北京:清华大学出版社,2000.

[3]孟晓明.浅谈数据挖掘技术[J].计算机应用与软件,2004(08).

作者单位

韩山师范学院数学与统计学院 广东省潮州市 521000

猜你喜欢
数据挖掘数据库算法
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于并行计算的大数据挖掘在电网中的应用
一种改进的整周模糊度去相关算法
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究