牛雪飞
(连云港师专,江苏 连云港 222006)
高校档案数据仓库设计
牛雪飞
(连云港师专,江苏 连云港 222006)
摘要:随着信息化的进一步发展,高校信息历史数据达到相当规模,为更方便管理数据,提供决策支持,提出了数据仓库管理方案,介绍了开发过程中的开源工具,重点分析了数据仓库中管理平台的设计。
关键词:信息管理;数据仓库;ETL
在信息技术高速发展的今天,许多高校都建设了规模不等的信息管理系统,随着数据的不断增加,历史数据累积越来越多,这就需要一种工具来整合各业务领域的应用数据,以充分发挥历史数据的最大功能。数据仓库能够处理大量的数据资源,通过它的集成管理器能够将发展过程中离散的数据有效集中[1],为解决上述问题提供了技术上的保证。
2.1系统架构
结合高校信息管理的特点,设计了系统方案如下:
(1)数据库平台:数据库平台选择SQL SERVER数据库,WINDOWS为操作平台,用于存储系统所有的数据,包括业务数据与元数据。
(2)管理平台:管理平台应用程序部署在WINDOWS操作平台之上,以JBOSS为应用平台,JAVA为开发工具。
(3)开发平台:平台采用MONDIRAN提供OLAP分析服务,JPIVOT提供OLAP展示服务,WEKA提供数据挖掘服务。数据展示以开源的BI工具为主,通过 BIRT来实现丰富的报表展示。ETL以开源的ETL工具KETTLE为主,并配置适应于SQL SERVER数据库的SQL 脚本做为数据抽取、清洗、转换与加载的工具。
2.2管理平台设计
数据仓库管理平台是数据仓库的外围程序的集合,其中包括元数据管理、数据质量管理、数据采集管理、ETL调度管理、数据仓库监控、数据安全管理与操作帮助七大子系统。
(1)元数据管理模块。该模块是存储数据封装、数据敏感度和相关人员隐私信息等相关元数据内容的部分,主要功能是扩充元数据对外服务接口内容,向外部模块或子系统提供元数据内容和元数据分析服务,为数据封装和安全管理等数据仓库管理模块提供支撑。
元数据获取层位于整个体系架构的最底层,元数据获取层抽象概括了元数据获取的各种途径。存储层定义了元数据存储所遵循的元模型,规范从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和管理元数据。功能层为前端元数据应用提供了基本的功能支撑,主要包括元数据基本功能、元数据分析功能、元数据质量管理、元数据服务接口和元数据权限管理五个部分。在元数据管理模块功能层的支持下,元数据应用层通过调用功能层的功能,对元数据管理的实际问题提供应用解决方案。
(2)数据质量管理模块。是数据仓库管理平台的技术支撑平台,主要对数据源接口、数据实体、处理过程、数据应用和业务指标等相关内容的管控机制和处理流程,也包括对数据质量管控和处理的信息总结和知识应用等辅助内容。数据质量管理子系统功能按层次划分为获取层、存储层、功能层和应用层。
获取层主要实现的是数据质量数据的采集功能,是数据质量功能和应用的基础。采集的数据范围有:源系统关键数据、源系统接口信息、数据处理过程信息和业务指标数据等。存储层中存储的数据质量信息主要包括三个部分:数据质量规则库、数据质量信息库和数据质量知识库。功能层包含了数据质量管理模块的基础功能,它为数据质量管理的前端应用提供了基本的功能支撑。应用层为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括源系统变更协同管理、源系统数据质量稽核、数据质量监控知识应用和问题处理知识应用等。
(3)数据采集管理。数据采集管理为数据仓库数据来源的总入口,包括元数据采集与业务数据采集,其中元数据采集又包括手工数据采集与工具或SQL脚本的数据自动采集,业务数据采集包括业务系统的数据采集与手工报表的录入与导入。数据采集模块为数据管理平台与数据开发平台提供数据支持。数据采集模块分为存储层、功能层和应用层。
数据采集的存储层主要包括元数据存储、业务数据存储,其中业务数据存储就是开发平台中数据接口。按操作方式分可以分为手工数据获取与系统数据获取。从系统工具中获取元数据,包括ETL工具与BI工具,主要是获取ETL工具中的数据抽取业务逻辑与BI工具中的权限与应用元数据。应用层主要包括的数据采集的设置管理功能、数据填报功能、数据导入功能、数据基本规范检查功能与数据采集功能提醒功能。
(4)ETL调度管理模块。该模块为数据的ETL流程提供管理基础,同时为数据仓库的监控提供服务接口。主要进行调度设置,设置各脚本执行的先后顺序、执行时间、执行周期,以及各脚本之间的依赖关系。记录脚本执行情况(开始、结束),脚本的出错记录等。该模块分为获取层、存储层、功能层和应用层。
(5)数据仓库监控模块。该模块为数据仓库的运行状态监控程序,对当前数据仓库的数据量、数据增量、磁盘容量、磁盘占用量、CPU与内存的使用率、ETL过程的执行时间与执行效率等做实时监控,也包括对监控的信息处理与总结,以及监控信息的知识形成及应用等功能。
(6)数据安全管理模块。该模块为数据仓库的权限控制中心,其包括数据安全与用户安全两类,数据安全即对存储在数据集市中的数据定义行级与列级权限,用户安全即用户对数据集市与用户的访问权限,数据安全管理是将数据权限与用户权限结合集中管理的模块,使数据仓库的安全管理与BI平台无关。
(7)操作帮助管理模块。该模块为数据仓库平台的知识管理模块,其包括应用操作帮助、业务知识学习、数据来源追踪等,操作帮助管理模块需求元数据的接口支持。
2.3集成访问门户设计
主要包括WEB、认证、安全、门户四方面的服务,提供HTTP Web服务、门户的用户登录、用户认证、门户Web应用、并提交用户层请求到中间展示层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。
随着高校信息系统信息资源的不断丰富,数据仓库技术在信息管理中的作用会越来越大,它将使高校管理信息系统的信息服务能力、决策支持能力得到进一步增强[3],为高校的信息化管理做出更大的贡献。
参考文献:
[1]钱毅.数据仓库在档案信息管理中的应用[J].北京档案,2006(04).
[2]李洁,杨金会.滕振芳数据仓库及数据挖掘技术在超市中的应用[J].煤炭技术,2012(02).
[3]顾瑞,卢加元.数据仓库技术在档案资源整合中的应用[J].兰台世界,2012(02).