数据挖掘技术及其应用探索

2015-03-18 03:51
产业与科技论坛 2015年12期
关键词:挖掘出数据挖掘关联

□ 井 力

随着互联网的普及,人们逐渐进入了信息化时代,人们每天都会接触到各种各样大量的信息。与此同时,企业、科研机构、政府部门等都有了更多的机会接触到大量的信息,将这些信息存储在数据库中,使得数据库的规模、广度和深度都在不断扩大,从而形成了海量的,不同形式的数据资料。那么问题来了,如何从这些海量数据中提取出有价值的信息从而避免“数据丰富但信息贫乏”的现象?数据挖掘技术就是解决这一问题而迅速发展起来的数据处理技术。而且这一技术已经应用于许多领域,给这些领域产生了重大影响。

一、数据挖掘的概念

数据挖掘这一概念源于著名的“尿布和啤酒”现象:沃尔玛通过大量的数据发现了一个现象,下班的男人去超市给孩子买尿布的时候喜欢顺手买几瓶啤酒,于是沃尔玛就把尿布和啤酒摆在一起捆绑销售,结果大大提高了销量。这个实例中沃尔玛基于大量的数据分析,发现了关于销售的有价值的信息,结果大大提高了销售量,这就是著名的数据挖掘的实例。

数据挖掘(Date Mining,DM)就是从庞大的数据库中挖掘出人们感兴趣的知识和信息。这些知识和信息有:概念、规则、规律和模式等,并且这些知识和信息是隐含的、事先未知的潜在有用信息。数据挖掘所做的事情就是从庞大的数据库中挖掘出有价值的隐藏的信息,将这些信息加以评估和总结,然后将评估和总结的结果提供给有关部门在决策时进行参考。

二、数据挖掘技术

数据挖掘不是对数据库中的数据进行简单的检索和查询,而是面对海量的信息进行统计、分类以及进一步分析从而得出有价值的信息。数据挖掘领域是一门综合性的领域,它综合了数据库、人工智能以及应用了统计学的相关方法。

(一)数据挖掘的过程。

1.数据输入。数据挖掘系统首先要进行数据输入,一方面挖掘系统可以利用数据库中的查询语言(SQL语言)从数据库中抽取数据。另一方面信息分析员可以完成数据的输入,信息分析员可以更加细致地输入数据的结构、层次以及相应的规则,而这种方式则更为有效具体。

2.数据选择。此过程根据相应的指导规则从输入的数据中更精确地选择模式识别和关系识别算法所需要的数据结构、数据类型。

3.模式识别和关系识别。挖掘系统选择相应的模式识别和关系识别算法,加上系统已经选择的数据,从而发现这些元数据间的模式和关系,从而抽取有价值的信息。

4.发现描述。此过程将模式识别和关系识别过程中识别的元数据之间的模式和关系进行分析以及可视化描述,然后将关注性的发现结果保存以备使用,最后将发现结果转换成可行性的建议以供决策层参考。

(二)数据挖掘的技术。数据挖掘的关键技术就是选择相应的算法进行模式识别和关系识别。

1.决策树方法。决策树方法是利用树来逼近离散的目标函数的方法。树由根节点和叶子节点组成,每一个叶子节点是实例的一个属性的测试,而它的后继节点对应该属性的一个可能的值。分类一个实例的时候从根节点开始对这个实例进行指定节点的属性测试,然后将测试出来的值和后继节点进行对比进而选择后继节点,这样不断地一层一层地精确分类。这种方法主要针对数据的分类,常用的算法有:Classification and Regression Trees(CART),AC2,CN2 和 ID3。

2.神经网络。神经网络方法是模拟人的大脑的神经网络的结构以及部分工作机制所建立起来的一种非线性的预测模型。这种方法模拟人的大脑功能,使其具有分布存储、联想记忆、大规模并行处理、自我学习、自我组织和自我适应的功能,因此其可以通过自己学习来识别相对应的模式。与传统的分析方法相比,这种方法的好处是分析的时候不用进行模式设定,它可以自动识别模式,但缺点是这一分析的过程是无法展示出来的,每个阶段所做的操作也无法明显地展示出来。因此,资料具有高度非线性化,变量有相当程度交互效应特点的资料一般会用这种方法处理。

3.遗传算法。遗传算法模拟生物进化的过程,它的基本观点是生物进化论的观点“适者生存”。遗传算法的基本操作有三个,分别是选择,交叉重组和突变。选择是从旧的种群中选择生命力很强的个体,淘汰生命力差的个体从而形成新的种群的过程;交叉重组是将两种不同个体的染色体上的基因部分进行交换从而形成新的物种的过程;变异是某些个体的基因发生突变从而产生新的物种的过程。而数据挖掘的过程就是模仿生物进化的过程反复进行选择,交叉重组和突变这三种操作最后找到最优解。

4.关联发现。数据关联是指数据中的两个或多个变量的取值之间存在着某种规律性的特征,关联发现所做的就是发现这种规律性的特征,挖掘出数据之间有趣的关联或者相关关系。最经典的关联发现的算法是Apriori,该算法的过程如下:首先该算法挖掘出所有的频繁项集,然后从频繁项集中产生关联规则。利用这种算法挖掘出的关联规则量往往非常巨大,只有经过有效的评价和筛选,才能真正找到有意义的关联规则。

5.聚类分析。聚类方法探讨的是样本间的内部关系,它根据所选的样本间的关联标准将其划分为几个组,使得同组内的样本具有很高的相似度,不同组的样本则相异。常用的聚类分析算法有K均值和DBSCAN算法。

6.统计方法。在数据挖掘中许多判别和回归分析方法都是以数据统计为基础的,传统的统计分析可用于分类挖掘和聚类挖掘,如今最具影响力的统计软件有 SAS,SPSS和BMDP。回归分析用来找到关于输入变量和输出变量关系的一个最佳模型,回归分析有线性回归,对数回归,方差分析,这些都是数据挖掘应用中有力的工具。

三、数据挖掘的具体应用

(一)数据挖掘在金融领域的应用。金融业务需要收集、存储、处理大量的数据,这些数据很难通过人工进行处理,而且与其他行业相比,金融行业的数据较为完整,数据的质量较高,因此数据挖掘已经较为成熟地应用于金融领域。在客户关系管理、风险识别与管理、市场趋势预测、识别金融欺诈等经济犯罪方面,数据挖掘起了非常重要的作用,并且取得了很好的社会效益和经济效益。

(二)数据挖掘在电子商务领域的应用。电子商务是指商家的业务活动是以数字化的电子方式进行商务数据的交换和开展的。电子商务产生的海量数据具有不确定性、无结构或者半结构性、动态性等特点,利用人工分析这些数据是远远不够的。数据挖掘技术应用于这一领域,更好地挖掘出这些数据背后隐藏的模式、趋势和规律性的知识,企业可以根据挖掘出来的这些信息优化决策,更好地识别客户需求和市场趋势,获得更大的竞争优势。

(三)数据挖掘在电子政务领域的应用。电子政务就是政府部门利用现代网络技术,在Internet上优化重组政府的组织结构和工作流程。近年来随着电子政务相关技术的成熟,电子政务也产生了十分庞大的信息量,利用数据挖掘技术,高效准确地提取了数据,提高了决策的科学性和规范性,进一步提高了政府的办公效率。

四、结语

数据挖掘虽然出现的时间不长,但其广阔的研究前景已经吸引了众多的研究人员,成为国际研究的一个热点。如今数据挖掘技术很好地应用于金融、电子商务、电子政务等领域,但是还远远没有普及。并且数据挖掘技术也存在一些问题,例如挖掘算法的可行性和有效性还值得我们进一步研究和探讨。但是随着挖掘技术应用的经验积累,硬件的发展,数据挖掘技术将更进一步发展,也会更好地应用于更多的领域,促进社会的发展。

[1]王桂芹,黄道.数据挖掘技术综述[J].电脑应用技术,2007,69

[2]贺清碧,胡久永.数据挖掘技术综述[J].西南民族大学学报(自然科学版),2003,1

[3]杨玉珠.数据挖掘技术综述与应用[J].河南科技,2014,10

猜你喜欢
挖掘出数据挖掘关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
从唱片里面挖掘出更多的细节 Thorens多能士| TD 905黑胶唱盘
三次实地采访,挖掘出暖新闻背后的超暖细节
奇趣搭配
感悟生活,拓展思维空间
基于并行计算的大数据挖掘在电网中的应用
智趣
一种基于Hadoop的大数据挖掘云服务及应用