数据仓库技术及其在电信行业中的应用研究

2010-04-16 09:15郝园揭金良苗春利
电脑与电信 2010年5期
关键词:星型数据仓库雪花

郝园揭金良苗春利

(成都理工大学信息工程学院,四川成都610059)

1.数据仓库概述

进入21世纪,人们对在任何时间、任何地点都能得到信息的需求是永无止境的。而传统数据库只保留了当前的业务处理的信息,缺乏决策分析所需要的大量历史信息。要从信息源中有效获取信息,采掘数据和发现知识,以满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境。因此,数据仓库(DW,Data Warehouse)应运而生。

1.1 数据仓库的定义

数据仓库是在企业管理和决策中用以更好地支持企业或组织的决策分析处理、面向问题的、集成的、不可更新的、随时间不断变化的数据集合。与其它数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。

1.2 数据仓库的体系结构

完整的数据仓库结构一般由6个基本层次组成,如图1:

各层次的基本功能如下:

(1)数据源:为数据仓库提供数据来源。

(2)数据后端处理:是将数据源的数据进行提取、清洗、转换,最终构建成数据仓库所需的数据。

(3)数据仓库及其管理:包括数据仓库、数据仓库管理和元数据管理。数据仓库负责存储分析、决策数据;而数据仓库管理则负责管理数据仓库;元数据管理负责对元数据进行管理。

(4)数据集市:是面向特定应用的决策数据集合。

(5)基于数据仓库的应用:包括分析、决策应用,如OLAP、数据挖掘等。

(6)数据展示:将应用结果,特别是分析、决策结果以多种媒体形式表示。

2.OLAP技术分析

联机分析处理(OLAP)的概念最早是由E.F.Codd于1993年提出的。当时,他认为联机事务处理OLTP已经不能满足终端用户对数据库查询分析的需要,SQL对大数据库的简单查询也不能满足用户分析的需求,用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询出来的结果已经不能满足决策者提出的需求。因此,他提出了多维数据库和多维分析的概念,即OLAP。OLAP与OLTP的比较见表1。

表1 OLAP与OLTP的对比

2.1 OLAP的概念及其特点

OLAP委员会对于OLAP的定义:是一种分析处理技术,是针对特定问题的联机数据访问与分析,通过对大量信息的多种可能的观察形式进行快速、稳定一致和交互的存取,是决策人员对数据进行深入观察。

数据库之父E.F.Codd对于OLAP的定义:OLAP是一个赋予动态的、企业分析的名词,这些分析是注释的、熟悉的、公式化数据分析模型的生成、操作、激活和信息合成。能够在变量间分辨新的或不相关的关系,能够区分对处理大量数据必要的参数,而生成一个不限数量的维和指明维的条件表达式。

OLAP的特点可以概括为以下几种:

快速性:用户对OLAP的快速反映能力有很高的要求。

可分析性:能处理与应用有关的逻辑分析和统计分析。

共享性:系统在保证安全的基础上提供多用户共享数据与信息机制。

多维性:是OLAP的关键属性,系统提供对数据分析的多维视图和分析,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。

信息性:系统能及时获取信息,并能管理大容量的信息。

假定性:需要初始的假设来给出导航数据分析的方向,最终用分析的结果来验证初始的假设。

2.2 OLAP常用分析方法及评价准则

目前OLAP常用分析方法有:数据切片和数据切块、钻取和数据旋转;OLAP的评价准则有:多维概念视图、透明性、存取能力、稳定的报表性能、客户/服务器体系结构、维的等同性、动态稀疏矩阵处理、多用户支持能力、非受限的跨维操作、直观的数据处理、灵活的报表生成、非受限的维与维的层次。

3.基于数据仓库的OLAP核心技术

在一个OLAP数据模型中,信息被抽象为一个立方体,它包括维和度量。多维结构是决策支持的支柱,也是核心。OLAP展现在用户面前的是一幅幅多维视图。维是相同类数据的集合,也可以理解为变量。维有自己固有的属性,如层次结构、排序和计算逻辑,这些属性对进行决策支持是非常有用的度量是一个定量值。

3.1 OLAP分类

目前对OLAP的主要分类有以下三种:

(1)关系OLAP结构:使用关系或扩充关系DBMS存放并管理数据仓库,采用基于稀疏矩阵表示方法的星形结构或雪花结构存储多维数据。

(2)多维OLAP结构:核心是其数据存储采用矩阵方式,数据检索高效。

(3)混合OLAP结构:结合ROLAP和MOLAP技术,在MOLAP立方体中存储高级别的聚集,在ROLAP中存储低级别的聚集。

3.2 ROLAP的多维表示方法

ROLAP分为星型模式和雪花型模式。星型模式可能是最简单的数据仓库模式。因为它的实体关系图是从一个中心表向外辐射连接各维表,看起来像是一个星星;雪花模式是一种比星型模式更繁杂的数据仓库模式,实际上它也是星型模式的一种。因为从它的实体关系图上看像雪花状,所以它就被称为雪花模式。

3.3 星型模式在关系数据库中的表示

星型模式的优点:在星型模式中进行的复杂查询,可以直接通过各维的层次比较、上卷、下钻等操作完成,大大减少用户的查询响应时间;星型模式既可以被用在简单的数据集市上也可以被应用在巨型数据仓库上。星型模式的结构示意图见图2。

3.4 雪花模式在关系数据库中的表示

雪花模式通过对维表的规范化来消除冗余的数据。它通过最大限度地减少数据存储量以及把较小的规范化表(不是大的非规范化表)联合在一起来改善查询性能。雪花模式增加了应用程序的灵活性。但雪花模式也增加了用户必须处理的表的数量,增加了某些查询的复杂性。

雪花模式与星型模式的不同在于,雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。这样,系统的性能可能会受到影响。因此,在数据仓库设计中,雪花模式不如星型模式流行。雪花模式结构示意图见图3。

3.5 OLAP的多维分析

多维分是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作,以剖析数据,使最终用户能从多角度、多侧面地观察数据库中的数据,从而深入了解包含在数据中的信息、内涵。多维分析方式迎合了人的思维模式,因此减少了混淆并且降低了出现错误解释的可能性。

4.数据仓库在电信领域中的应用

数据仓库在电信领域中能产生很多的应用,本文从应用的角度,阐述数据仓库在电信行业中的应用过程。该电信系统包括两方面内容,一方面是数据的整理过程,主要是数据仓库的建设问题;另一方面是数据分析技术,包括多维分析(OLAP)、数据挖掘等方面的内容。

4.1 数据仓库的构建

首先,在构建数据仓库的过程中,一个重要的问题是确定数据仓库的主题,数据仓库的主题决定了数据的存取方式,也决定了分析的能力。如要定义客户的概念、选择有关主题、主题实体和属性等内容。其次,在进行多维分析时,也要选择相关的维和指标。“维”代表了分析的角度,指标代表了在维下的数量情况。根据这些维度和指标的定义,可以进行多维分析,从多个角度对数据进行分析,得出有关结论。由于电信行业的数据仓库比较庞大,该系统基本要采用多层粒度级,对数据进行一定程度的综合,这样能保证实际使用的效率。

4.2 电信系统中的数据分析(OLAP)技术

在现有数据仓库系统基础上,引入数据分析技术对用户当前及历史数据进行分析以辅助领导决策。同时,还需要通过对该系统业务数据进行挖掘,发现该企业运作的规律,可以优化企业本身的运作或进行有效的客户关系管理,以便揭示隐藏其中的规律性,完成一些深层次的数据分析进而将其模型化。这样就能方便为决策管理者用图形化展示的效果来进行趋势分析,从而取代从浩瀚如烟的海量数据中分析数据这一传统方法来解决问题。

5.结束语

随着数据处理技术在企业的成功应用,企业积累了大量的生产、科研和业务数据,企业各级人员都希望能快速、交互、方便和有效地从杂乱无章的数据中提取有意义的信息,决策者希望能够利用这些信息分析企业运行状况,指导企业决策。本文介绍数据仓库及OLAP技术的概念和其关键技术。给出OLAP的两种数据模式,同时,以数据仓库在电信行业中的应用把多维分析技术运用于数据仓库,以获取决策所需要的信息。数据仓库能够实现许多原来无法发现的规律,为企业在市场竞争过程中提供更好的服务。

[1]王珊等编著.数据仓库技术与联机分析处理[M].北京:科学出版社,1998.

[2]柳莺样等.数据仓库技术研究和应用探讨[J].计算机应用,2001,(2):46-47.

[3]刘义,常戈群编著.基于关系数据库和OLAP的研究[J].计算机工程与应用,2001,(2):36-38.

[4]李慧,闻豪.基于数据仓库的OLAP技术的研究[J].电脑知识与技术,2005,(1):77-81.

[5]段云峰,吴唯宁等.数据仓库及其在电信领域中的应用[M].电子工业出版社,2003.

猜你喜欢
星型数据仓库雪花
增加断电连锁 减少绞伤风险
金银点缀
基于数据仓库的住房城乡建设信息系统整合研究
如果我是一片雪花
雪花
淘气的小雪花
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
D-π-A星型分子的合成及非线性光学性质
基于数据仓库的数据分析探索与实践