数据仓库在水质监测(LIMS)系统中的应用

2015-12-17 12:47刘华敏
电脑知识与技术 2015年28期
关键词:数据仓库

摘要:数据仓库较传统数据库对数据进行简单的处理有了明显的改善,为水质监测(LIMS)系统的分析者提供了直观易懂的数据结构图,为决策层做出决策提供有价值的信息。因此,将数据仓库和OLAP技术应用到水质监测(LIMS)系统的设计中是一个必然的发展趋势。

关键词:数据仓库;数据结构图;OLAP

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)27-0003-02

Abstract: Compared to the traditional database, the Data Warehouse has been greatly improved as for the simple data processing. It can offer the LIMS analysts visual data structure diagram which is easy to be understood, and thus bring valuable information to the decision-makers. Therefore, there will be an irreversible trend for the Data Warehouse and OLAP technology to be applied into the LIMS design.

Key words: Data Warehouse; data structure diagram; OLAP

1 引言

因水质监测(LIMS)系统收集的数据极其复杂,很多人进入“数据丰富,知识贫乏”的尴尬境地[5]。如何能快速地从浩瀚的数据海洋中获取信息,已经成为人们研究的热点话题。为了迎合当前数据分析的需要,现今都是使用数据仓库技术建立相应平台的数据库,为进一步分析数据提供基础。

2.数据仓库

数据仓库是一个输送信息的渠道,它能处理来自水质监测系统不同部门的数据库中的数据不一致性问题,将数据进行清洗、整理等,将“脏”数据转化为能够为决策者提供有价值的信息,为决策者提供了一种简单、易懂的直观图的数据分析环境。

2.1 数据仓库的特征

数据仓库专家Ralph Kimball说“我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了[1]”,这句话概括性的说明了数据库与数据仓库两者之间内在的联系。数据仓库从当初的设想到现在的发展,已很好地实现了对多个异构的外部数据源进行数据提取、清理、变换、装入和刷新,其中数据清理和变换提高了数据的准确性和一致性,从而为后面的分析和决策访问数据提供了便捷、易操作等特点[2]。

数据仓库的结构是分层式的,而且其中的数据大部分与时间元素有关[4],但又不是时刻更新的,而是经历一段时间后,数据仓库中的数据进行转换、综合和分析后印上时间的烙印,随着时间的流逝,经过分析、加工后的数据会逐渐的以时间阶梯的形式存储在数据仓库中。

2.2 OLTP与OLAP的区别

目前数据处理分为联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP主要应用在传统的关系型数据库中,主要是对基本的、日常的事务进行处理,例如银行交易。OLAP主要应用在数据仓库体系中,主要是对复杂的事务进行分析操作,重点是决策支持与分析,提供直观易读的查询结果。

3 体系结构的类型

3.1 水质监测系统的OLAP体系结构

从逻辑上讲,OLAP服务器为水质监测系统提供数据仓库的多维数据,不必关心数据怎么存放和存放在什么地方。然而,OLAP服务器的物理结构和实现必须考虑数据存放问题。该系统主要是用特殊的SQL服务器实现关系数据库中日益增长的OLAP处理的需要。关系存储图如图1所示:

3.2水质监测系统的数据仓库体系结构

传统数据库系统可以高效率地完成数据的录入、查询、统计等功能,但由于水质监测的覆盖范围很广,将会上报大量的数据,以及数据库系统中分析方法的严重不足,使得它无法发现数据中隐藏的相互联系,也无法根据当前的数据去预测未来的发展趋势,形成了严重的资源浪费。

从语义上而言,数据仓库是具有一致性的一种数据存储方式。它是围绕某些重要主题建立的;能将多个异构的数据源集成在一起;物理上能分别存放数据,根据需要进行装入和访问。通常情况下,数据仓库被看做是一种体系结构[5],能支持查询、分析和决策。与传统数据库相比,提高了工作效率及具备良好的扩展性。显然,按实现某个具体任务的需要,对数据仓库中的数据有针对性的进行抽取、进行重新组织和存储,建立了数据集市,从而解决了从不同监测点提取数据的难题。数据集市中的数据来自数据仓库,而不是新的数据。为此,建立一个水质监测(LIMS)系统数据仓库体系结构是很有必要的。

数据仓库并不是一个新鲜事物,它仍是采用计算机存储数据,这些数据都是来源于分散的传统的数据库系统。数据仓库的建立是为了决策者能尽可能地按分析所需处理数据,提高工作效率。数据仓库与传统数据库相比,具备集成性、主体性、固定性及时序性等特征。

4 数据仓库在水质监测(LIMS)系统中的应用

4.1水质监测(LIMS)系统的数据仓库的设计流程图

因数据仓库的整个设计过程离不开用户的支持,需要不断地与用户进行沟通,实时的获取用户的需求,因此在实现的过程中先不考虑系统的需求分析的具体化。借鉴CLDS方法设计该系统的数据流程图图2。

本文在水质监测(LIMS)系统原有数据的基础上构建数据仓库的,所以在最初设计阶段不需要考虑系统模块独立的需求分析,而是将其始终渗透到整个设计的过程中。

4.2 水质监测(LIMS)系统的数据仓库设计

因系统在架构时是需要考虑日后的维护与功能拓展的必要性,在构建时要重点考虑怎么架构才是合理的,不能因为需要拓展而重新设计;在经济上也要考虑可行性,扩展功能时不需要花很多钱。随着技术的发展和时间的推移,从水质监测(LIMS)系统功能会不断完善的实际情况出发进行考虑,采用数据仓库“自顶向下”的方法,设计数据仓库模型[3] 。

1)数据库的星型结构模型

数据库是面向用户和面向主题的,用星型结构和雪花结构进行建模使用户容易读懂和理解。大部分模型都是建立在星型结构上,充分展示它的多维性;雪花模型表数量多,降低了直观性。水质监测(LIMS)系统数据源的复杂性,选择星型结构建立数据库。

2)逻辑模型设计

星型模型是通过事实表和维表的公共属性构建而成的一种多维结构,能够清晰的体现出观察者是从哪个角度对数据进行分析的,因此该系统采用星型模型结构来完成事实表的设计。

事实表设计:本系统中创建的水质监测事实表主要包括监测点区域(zone)、年份(year)、月份(month)、季度(quarter)、录入人员(guest)、区域管理员(admin)、区域审核员(check)和河流(stream)等字段。time是一个集合的名字,该集合由监测不同的时间组成,包含的元素是监测区域不同时间段数据值,所有水质监测的数据按区域按时间分门别类的存储在数据仓库中,便于对数据仓库中的数据进行分析操作。

5 结束语

本文阐述了数据仓库的特征,对水质监测(LIMS)系统采用数据仓库的体系结构进行了分析,同时采用星型结构模型构建数据库,采用OLAP技术对数据进行分析,提高工作效率。

参考文献:

[1]Ralph Kimball Laura Reeves,Margy Ross Warren Thornthw aite (肖明,王永红,等译).设计、开发和部署数据仓库的专家方法[M].北京:电子工业出版社,2004.

[2]W.H.Inman,Bu lding the Data Warehouse[M]. New York John Wiley&Sons,1996.

[3]卢发. 数据挖掘在中职学生纪律管理中的应用[D.大连:大连理工大学,2009.

[4]刘华敏.数据挖掘在高职院校学生成绩分析中的应用[D].合肥:安徽大学,2011.

[5]JweiHan,Micheline Kamber,Jian Pei(范明,孟小峰,译).数据挖掘概念与技术(第3版)[M].北京:机械工业出版社,2012.

猜你喜欢
数据仓库
基于数据仓库的数据倾斜解决方案研究
地理信息数据仓库的技术研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
基于数据仓库的数据分析探索与实践
数据复用在存储数据仓库中的运用
论销售数据仓库的需求分析和概念模型设计