吴丹
摘要:为了解决现实生产中大量数据无法得到有效分析,且数据挖掘结果难以展示的问题,采用Excel2007结合SQL Server的SSAS组件对大量数据进行挖掘分析,对挖掘结果进行有效展示,弥补了传统分析方法的不足。实际应用结果表明,该方案可以有效提高数据挖掘效率,提高数据分析的可信度。
关键词:Excel2007;数据挖掘;数据分析
中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2013)08-1736-03
随着数据库技术的发展和广泛应用,人们积累的业务和生产数据越来越多,激增的数据背后隐藏着许多重要的信息,简单的报表查询和统计已经无法满足商业和生产的实际需求,迫切需要一种手段去挖掘大量数据背后隐藏的知识。用数据库管理系统来存储数据,用机器学习的方法来分析数据,从而挖掘大量数据背后的知识。这两者的结合促成了数据库中知识发现(KDD:Knowledge Discovery Databases)的产生[1]。
数据挖掘(Data Mining)是知识发现(KDD)最核心的部分[1]。早在1998年举行的第四届知识发现与数据挖掘国际学术会议上不仅进行了学术讨论,同时也有30多家软件公司展示了他们的数据挖掘软件,不少软件已经在欧洲、北美等地区得到了实际应用。经历了十几年的快速发展,数据挖掘已经逐渐成为一个自成体系的应用学科。
Excel2007数据挖掘客户端是一个日常工作中经常使用的功能强大的工具。它提供一个快速直观的界面,可用于创建、测试和管理数据挖掘结构和模型,同时不会降低 SQL Server Analysis Services 中的数据挖掘所提供的强大的自定义功能。
除了提供数据建模算法外,Excel 数据挖掘客户端还提供一个集测试、预测和绘图于一体的桌面数据挖掘解决方案。因此,Excel2007数据挖掘功能的有效利用将大幅提高数据挖掘的效率,使数据挖掘这种数据分析方法得到推广和应用。
1 数据挖掘简单介绍
2 Excel2007数据挖掘插件介绍
3 Excel2007数据挖掘模块的实际应用
本文以针对油气生产主题的数据挖掘为例,在生产调度数据仓库的基础之上,运用SQL Server2005的Business Intelligence Development Studio的集成环境创建和使用数据挖掘模型,运用该环境下的数据挖掘算法和工具生成油气生产主题的数据挖掘解决方案。然后,借助Excel2007的数据挖掘功能对数据进行挖掘分析,对挖掘结果进行直观展现。
油气生产数据挖掘除了使用Excel2007进行数据挖掘和前端展示外,还使用了SQL Server 2005的商业智能环境下的SSAS及其相关工具。
4 Excel2007数据挖掘结果展示
数据挖掘的模型所实现的功能都是通过特定的挖掘算法来实现的,每一个功能都和挖掘的核心算法紧密相连[4]。Excel2007作为一种先进的数据挖掘工具提供多种数据挖掘算法。这是因为一种算法不可能完成所有不同类型的数据挖掘任务,对于某一种问题,数据本身的特性会影响用户所选用的工具。所以用户可能会需要用到多种不同的工具、技术、算法,从数据中找到最佳的模式。当前数据挖掘各领域常用的算法,基本上都是发展比较成熟的算法。这些算法主要有:决策树、神经网络、关联规则、遗传算法、聚类分析等,如图3所示。
本文结合具体的实际应用以关联规则算法为例。关联规则算法的挖掘结果主要包括规则、项集和依赖关系网络。针对油气生产主题的原油生产维度表,关联规则算法挖掘出来的部分规则如图4所示。
关联规则算法的依赖关系网络显示的是不同规则的关联强弱,可以通过更改其强弱程度来查看所选结点都是由哪些结点来预测的。油气生产数据涉及多个油田单位和不同的时间段,原油的日产数据和日注水量数据分布在不同的数据段,所以形成多个依赖网络集,如图5所示。
5 结论
Excel2007结合SQL Server的Business Intelligence Development Studio集成环境,在多种算法的支持下,具有很强的数据挖掘功能,同时能将挖掘结果很好的展示给用户,在实际的生产或研究中对海量数据的分析具有重要意义,能基本满足实际的数据分析需求。对于实际应用中不同类型的数据,以及具体的分析需求需要选择不同的算法去实现的问题,还需要进一步的研究。
参考文献:
[1] 张俊泽. 数据挖掘在石油行业资金管理中的应用[D]. 天津: 天津大学, 2008: 2.
[2] 董永刚. 数据挖掘在生产调度指挥系统中的应用研究[D]. 西安: 西安石油大学, 2011.
[3] 朱德利. SQL SERVER 2005数据挖掘与商业智能完全解决方案[M]. 北京: 电子工业出版社, 2007.
[4] 张大可. 数据挖掘技术在火灾事故分析中的应用研究[D]. 北京: 首都经济贸易大学, 2010.