数据仓库在企业管理中的应用探讨

2014-04-29 00:44袁国民
现代企业教育·下半月 2014年4期
关键词:数据仓库数据挖掘工具

袁国民

摘要:本文讨论了数据仓库技术在企业管理工作中的应用及其潜在价值,并提出了在企业中构建数据仓库及其应用的方法和建议,认为数据仓库技术必将在企业管理工作中起到积极有效的作用。

关键词:数据仓库管理信息化资源整合

中图分类号:TP3-4

一、引言

随着信息技术的发展,互联网已成为人们进行信息共享的最有效的工具之一。伴随着数字化建设的深入,相继建设了众多的资源管理系统和企业管理平台,对网络的依赖日趋增加,越来越多的管理信息通过数字化进入网络环境,以文件、数据库等多种形式出现在网络上,并像滚雪球般在迅速堆积。信息的增长在给人们带来方便的同时也给我们提出了一个重要的课题:能否从纷繁复杂的信息堆中及时挖掘出有价值的内容,为人们提供有效的服务,从而充分发挥网络化系统的卓绝优势。

数据仓库正是解决上述问题的最好工具,它是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,可以用于不同粒度的多维数据分析,通过数据挖掘提取有用的信息,其建立在公正的、全面而完善的历史信息基础之上的分析结果,可以为企业高层决策提供足够有效的依据,最大限度地发挥信息技术的特点。

二、数据仓库的实现方式

建立数据仓库并不是要取代关系数据库,与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。数据仓库建立在一个历史“信息基”上的应用,用于支持决策分析,而事务处理数据库承担的是日常基础业务的处理。数据仓库是数据库技术的一种应用,大部分依赖于关系数据库管理系统来管理其中的数据。因而在技术上将建立数据仓库的过程分为:数据的抽取、存储和管理、数据的表现。系统架构主要由数据源、数据仓库的后台工具、数据仓库服务器、0LAP(联机分析处理)服务器和前台分析查询工具等几部分组成。

本系统采用了Microsoft数据仓库解决方案,使用SQLServer 2003进行数据仓库的创建。Microsoft将OLAP(联机分析处理)的功能集成到SOL Server中,提供可扩充的基于COM的OLAP接口,Microsoft Office 2003套件中的Excel可以作为数据展现工具,SQL Server本身也支持第三方数据展现工具。本数据仓库的设计规范化,采用总线结构,建立统一的事实表和维度表,使用雪花型的数据结构。

把企业员工信息系统、员工绩效信息系统、企业财务信息系统等中的相关数据利用SOLServer 2003中的DTS(数据转换工具),经过抽取、转换、清洗和装载等过程,导入数据仓库中,其系统组成如图1所示:

必须注意到的是在将各种异构的数据源导入时要进行整合处理。数据准备好之后,就可以利用SOL Server 2003中安装的分析服务器和其他工具软件进行数据分析、数据挖掘和管理决策。

三、数据仓库在企業管理中的应用

对企业管理来说,建立数据仓库的数据可能来自本企业各级职能部门和企业外部等,所有这些数据从结构上看,是相对独立的,按通常的经验来说,企业管理者是没有办法进行全面分析和利用的。根据数据仓库建立的要求,就必须把分散的、无法统一访问的数据从各种信息系统中分离,经过抽取、净化、转换、迁移为统一、随时可用的数据,通过进一步的加工把信息转换成不同大小、各式各样的数据集市以利于企业管理部门作为专题性分析和辅助决策之用。同时还要考虑采集、入库以及刷新的自动处理,并为今后的扩展预留外部接口。总之,数据仓库就是要把分散的、难以访问的日常营运数据转化为集中统一、随时可用的信息。

通常要先分析原有业务数据库,确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里我们选取员工销售业绩分析为例。首先我们要搜集所有和员工销售业绩有关的数据,这可能来自于多个部门的多个数据库,为了保证数据的准确一致以及数据格式的统一,我们需要对原始数据进行数据预处理,一般经过数据清理、数据集成和数据变换三个步骤。例如,有的员工业绩采用百分制,有的采用等级制,那我们要统一转换成百分制来保证一致性。

经过数据预处理之后,便可确定数据仓库的模型。在员工绩效分析系统中,我们选取“员工销售业绩表”为基本事实表,选取“员工信息表”、“产品信息表”、“销售区域信息表”、“客户信息表”和“客户投诉表”五个维度表。我们建立“雪花”模型,即该数据仓库以员工销售业绩事实表为核心,员工信息表、产品信息表、销售区域信息表、客户信息表以及客户投诉表五个表从逻辑上围绕在核心表的周围,构成雪花结构。

有了事实数据与维度数据,也设计了数据的雪花结构,就可以利用数据挖掘技术,实现对企业信息数据的查询和应用,从中找出对企业生存和发展的有用信息,提供决策依据。数据挖掘支持知识发现,可以找出隐藏的模式和关联,构造分析模型,进行分类和预测。

OLAP是数据汇总/聚焦工具,用于简化数据分析过程。OLAP系统可以提供数据的一般描述,通过上卷、下钻、旋转、切片、切块和其他操作实现数据汇总和比较。可以建立以关系型联机分析处理(ROLAP)方式存储的销售业绩分析多维数据集(以时间维、员工维、产品维、客户维为维度,业绩为度量值)、平均销售业绩分析多维数据集(以时间维、员工维、客户维为维度,平均业绩为度量值)等等许多个不同的多维数据立方体。从多种角度来分析销售业绩数据中蕴藏的规律。

四、结语

随着产品类型的逐年增加以及客户对产品质量期望值的一再提高,我们不能因循守旧的把企业的信息化建设简单地理解为将企业的信息数字化,而是要充分利用海量历史数据辅助我们的企业管理以及相关决策。这样就必须建立数据仓库并去发掘其隐藏的规律或模式,为企业管理提供有效的支持。虽然数据仓库只是一种工具,它不能替代企事业管理者,但是它可以为企业管理者的决策提供科学的依据,为企业发展提供有力的支持。

参考文献:

[1]李雄飞、李军,《数据挖掘与知识发现》高等教育出版社,2003.

[2]Imnon,W. H.,Building the Data Warehouse [M].John Wiley and Sons,1996.

[3]刘翔.数据仓库与数据挖掘技术[M].上海:上海交通大学出版社,2005.

[4]马国俊.基于OLAP的企业数据仓库规划与建设.制造业自动化,2011(12).

猜你喜欢
数据仓库数据挖掘工具
探讨人工智能与数据挖掘发展趋势
波比的工具
波比的工具
基于数据仓库的住房城乡建设信息系统整合研究
“巧用”工具
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践