张雪
数据仓库是处理大量数据的一种有效模式。本文使用了SQL Server 2008数据仓库方案,并在模式表处理、连接池设置和大文本数据操作等方面做出了优化说明。
【关键词】数据仓库 OLAP SQL Server 2008
伴随着高校信息化建设和数字化校园建设水平的不断提高,各方面应用已积累了大量的数据。如何将海量的数据转化为有用的信息使之更好地为学校日常的教学、管理服务;进而成为学校正确决策、有效调控的信息支撑平台,这已成为目前各高校日益重视的课题。而利用数据仓库技术则能很好地解决这一问题,建设数据仓库来面对海量的数据存储问题已成为学校信息化建设一种必然趋势。
1 数据仓库的数据组织
数据仓库中的数据组织结构是分层次的。为了满足不同分析的需要和提高决策的效率,我们先从存储有数据事务数据的数据库中获取原始数据,然后按照决策的要求进行抽取、集成和存储,从而生成科研数据仓库。数据仓库是由当前细节数据、历史细节数据、轻度综合数据、高度综合数据等四个级别的数据构成。
2 数据仓库解决方案
目前,世界上很多公司都提供了各种各样的数据仓库方案,考虑到经济性、扩展性、易用性等各方面因素,我们选择了Microsoft公司的SQL Server 2008数据仓库方案。理由如下:
(1)更优越的性价比。SQL Server 2008数据仓库在各种数据仓库方案中属于低价位。而且由于数据在源数据库与数据仓库之间传送时,是在同一个数据库管理系统内进行的,不存在数据的兼容性问题。
(2)易于部署。SQL Server 2008的数据仓库技术能更好地满足数据仓库的建立需求,同时,SQL Server 2008的操作简单易行,有利于项目的迅速实施。
(3)更强有力的技术支持。SQL Server 2008是一套完全的数据仓库和数据分析解决方案,使用户可以快速创建下一代的可扩展电子商务和数据解决方案。
2.1 OLAP的体系结构
在Microsoft SQL Server 2008中集成了OLAP,并提供了扩充的基于COM的OLAP接口。通过一系列的服务程序支持数据仓库的应用,如DTS提供数据输入/输出和自动调度功能,在数据传输过程中完成数据的验证、清洗和转换操作;SQL Server2008支持在线分析处理,PivotTable Services提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,另外SQL Serve:还支持第三方数据展现工具。它们一起构成了一个基于微软产品的完整数据仓库工具集。因此,在对高校科研数据仓库的开发过程中,对于后台的数据库系统我们采用了微软公司的SQL Server 2008。
2.2 微软数据仓库框架
在SQL Server 2008中提出了一种全新的性能优越的、经济的数据仓库解决方案——基于SQL Server 2008的数据仓库框架。该框架是一组实现SQL Server 2008数据仓库功能的组件和API。该框架集成了数据仓库的许多组件,如:业务系统数据源、设计/开发工具、数据析取和转换工具、数据库管理系统(DBMS)、数据存取和分析工具、系统管理工具。
数据仓库框架从底层向上设计,为微软产品用户和第三方企业提供行业标准技术,就能很容易扩展的开放式体系结构。这就使组织机构能选择同类中最好的组件并仍能确保集成。
3 信息管理系统的实现与优化
3.1 数据更新及转存
高校每年数据更新多,数据量大,在数据获取过程中,我们使用存储过程来实现此操作。在数据析取过程中,我们设计了很多存储过程。
3.2 系统内部实现
在数据设计基础上,我们使用ORACLE 10g自带的工具BIEE实现客户端展示。BIEE功能强大,单靠简单的设置与IDE开发就可实现我们所需要的功能,为我们代码的编写提供了方便。
3.2.1 模式表的处理
在进行OLAP操作前,我们将数据库中信息读取到临时多维数据库中。其中起关键作用的就是Mondrian的模式表(scheme) Mondrian引擎根据模式表中关于关系数据库中数据信息的描述来构建多维数据库,并从关系数据库中取得数据来填充多维数据库。
3.2.2 连接池的设置
系统运行在Weblogic服务器上,进行数据库连接池的设计。在设置时要对工厂类(Factory)"org.apache.commons.dbcp.BasicDataSourceFacroty”的最大连接数(max Active),最大等待时间(max Wait),最大空闲链接数(max Idle),数据库名称等进行设定。
3.2.3 大文本数据操作实现
连接池设置完成后,OLAP等前台展现工具通过查询、插入、删除、修改等操作与后台数据库进行交互。一般在数据库中定义字段采用的是Varchar2类型,最多可以保存4000字节。但在本系统中有些字段超出了这个范围,于是引进了CLOB大对象类型,最多可以保存4G字节,完全可以满足需要。然而CLOB在数据库中是以对象类型存储的,与基本类型不同,所以应特别处理。通常情况下,一般在CLOB列插入一个空对象 EMP_ CLOB,而后对其进行插入和更新等操作。
4 结语
高校信息数据仓库的设计与优化是一个实践性很强的工作,除了要掌握数据仓库的理论知识外,更重要的是在实际工作中慢慢摸索、积累,只有这样才能充分发挥数据仓库的功效,为各种应用提供更多的帮助和支持。
参考文献
[1]施伯乐,朱扬勇编著.数据库与智能数据分析—技术、实践与应用[M].上海:复旦大学出版社,2003.
[2](美)Eric Sperley著,陈武,袁国忠译.企业数仓库规划建立与实现[M].北京:人民邮电出版社,2008.
[3]周怡,周卫平,李燕茹.用SQLServer2008构建数据仓库的尝试[J].中国医药卫生信息,2002.
[4]WH.Inmon,Ken Budin,Christopher K.Buss,Ryan Sousa.Data Warehouse Performance.Publishing House of Electronics Industry,2008.
作者单位
同济大学 上海市 200092endprint