基于元数据管理的可扩展数据仓库系统设计

2017-03-23 20:47周丽平周芳薛晓亚刘园园
科技创新与应用 2017年6期
关键词:接口元数据体系结构

周丽平+++周芳+++薛晓亚+++刘园园

摘 要:数据仓库系统在创建、维护过程中,随着数据的飞速膨胀与用户需求的不断变化,应根据应用的实际情况增减新的组件以提高数据仓库的综合性能。结合新形势下的多应用组件需求,文章提出了基于元数据管理的设计方案实现可扩展的数据仓库系统,通过元数据管理与接口设计对数据仓库进行规范和组织,解决了数据仓库系统各层数据的交互问题,同时增强了数据仓库系统的扩展性,提高其应用的多样性和适应性。

关键词:数据仓库;元数据;体系结构;接口

1 概述

数据仓库所要管理的数据量要远远多于传统系统所管理的数据量,随着时间的推移数据仓库平台必须支持更多的数据和用户、更多的和复杂的查询处理,随着系统功能的增加,在应用接入的同时需要保持原有能力,并能够加载新应用,结合各类需求使得数据仓库系统需要支持可扩展。

在传统数据仓库设计的体系结构下,系统内部结构耦合程度高,OLAP与数据挖掘功能组件结合紧密。当前,增加数据仓库系统体系结构的可扩展性主要有两种模式:一种主要研究系统部件模块化和分层策略提高数据仓库的可扩展性。如基于Web的数据挖掘算法与数据仓库的接口设计[1],将算法库模块化并解决了算法与数据仓库的接口问题;基于Agent的三层数据仓库系统体系结构的研究,将软件Agent引入数据仓库系统,增强了系统的伸缩性,拓广了数据仓库的应用领域[2]。另一种是采用高性能软硬件、并行计算机系统结构,用可扩展的软件并行和硬件并行相结合的方法进行数据仓库的性能扩展。如采用高速缓存相关的非一致性内存访同结构,并且较好地利用I/O并行性,解决大量异构数据涌入可扩展数据倉库中时系统性能问题;采用并行技术实现基于可扩展的数据集市的数据仓库系统结构[3]等。

在数据仓库系统的设计过程中,如果采用多层扩展或分层内部模块化方式实现扩展,系统中单一层模块不断增加,层内部件耦合度不断提高,降低了系统的可维护性。而采用高性能软硬件、并行解决方案,除考虑费用问题外,还需建立高性能平台。如果其中某个组件性能较弱,将会影响整个数据仓库系统,增加了数据仓库系统开发与维护的难度。

为更有效地适应数据的飞速膨胀与用户需求的不断变化,管理分布的、异构的集成环境,保持数据仓库系统层次的独立性和自主性,减轻开发与维护的负担,作者提出了基于元数据管理的可扩展数据仓库系统体系结构与接口设计方案,通过层次与模块自定义扩展提高数据仓库的可扩展性,增强系统的可扩展性和可维护性。

2 基于元数据管理的数据仓库系统

体系结构:基于元数据管理的可扩展数据仓库系统模型体系结构如图1所示,包括元数据管理层、数据存储层、数据处理层、前端应用层。随工作负载的增加,数据仓库系统需要进行功能扩展时,元数据层通过对接口文件的管理,将完成层次的增删。完成数据仓库逻辑层次与物理层次的实际扩展,保证了数据仓库系统体系结构的清晰性与可扩展性。

(1)元数据管理层

元数据管理层包括元数据获取、元数据存储、元数据服务接口、元数据管理和元数据应用等组件,在系统执行过程中完成任务接受、任务分解、系统管理、请求判断、日志记录等功能。存储的元数据包括技术元数据(Technical Metadata)和业务元数据(Business Metadata)。为实现可扩展的数据仓库系统,将元数据分为基础元数据、运行元数据和映射元数据三类,系统应用以组件形式加载,通过接口实现各层关联。

(2)数据存储层

数据存储层主要由原始数据和结果数据构成。原始数据为数据仓库中所存储的各类应用多源数据;结果数据由各类数据分析和挖掘服务计算产生。

(3)数据处理层

数据处理层中集成各类数据集成工具、多维分析工具、数据挖掘工具等,完成原始数据处理形成结果数据,为用户提供决策支持。

(4)前端应用层

前端应用层完成对用户输入参数的获取,以数据流的形式提供给诸如元数据层进行分析。本模块通过使用系统web页面获取所需数据,参数获取的方式是调用可视化系统中关于应用请求的API接口。

3 接口设计

为实现各功能组件能够访问数据仓库与增强数据仓库系统的可扩展性,需要对数据仓库各层之间的接口进行设计(图2所示)。通过接口设计对各层进行必要的规范和组织,数据仓库中每层都按照该规范和定义建立相应的模型构造,各层独立并通过接口进行交互,各层内部实现封装。系统数据传输过程从接口文件开始,需要对接口进行规范化描述,以保证接口文件的质量和数据抽取流程的正确。

(1)元数据层服务控制中心

系统以元数据层组件构成服务控制中心,实现数据仓库的可扩展性;建立模型管理库,为上层协同服务集成提供各种应用接口;构建可扩展的数据挖掘平台示范应用。元数据层的对外接口模块有数据存储层模块、数据处理处理模块和前端应用层接收模块,完成接口文件处理、权限验证、完整性判断、接口文件管理、异常处理、消息传递等功能。

(2)数据获取接口

数据获取接口模块通过各数据层组件实现对数据的抽取,为上层服务提供数据基础。完成对数据源组件、数据映射组件、模型组件、关系组件等的操作与控制,提供数据结果。对外接口为元数据处理模块和数据处理层接收模块两部分,传递与元数据处理的交互参数和对数据处理层传输的数据信息相关的参数。

(3)数据处理库接口

数据处理库接口完成对数据处理层各算法和工具组件的调用与控制,其对外接口模块包含元数据处理模块、应用层模块和数据层模块。与元数据为交互参数的传递;与应用层模块传递的为复合类型;与数据层交互规范为接收数据层传输的复合类型数据。

(4)应用库接口

应用库接口完成对前端应用层功能模块的操作,提供各类前端BI展示方式。其对外接口模块包含元数据模块和数据处理模块两部分,完成与元数据模块进行查询、反馈参数的交互;与数据处理层数据的交互。

4 应用实例

基于前面介绍的技术和方法,作者以赤潮为例设计并实现了数据仓库系统各层以及接口的实现。完成了各层间接口及各层内的算法、工具组件输入输出数据参数的定义和预处理功能。(图3所示)

从用户提交输入参数中获取请求数据,调用获取模块得到用户的输入信息,并按照要求进行格式转换。从客户端获取符合规范的请求传输至服务端,对接收的请求进行请求判断,如系统资源是否支持、请求是否超出权限等。多线程执行请求任务,完成多维分析与数据挖掘,实现对已有数据直接操作、对原始数据进行查询操作、原始数据查询结果与已有数据进行集成操作等功能。元数据管理综合各种数据和信息,对数据仓库系统的执行过程进行控制。完成记录操作信息、对比分析用户操作等。通过展示工具集将目标数据反馈给用户,实现交互式的旋转、钻取和切片等分析操作。

5 结束语

上述基于元数据管理的数据仓库系统体系结构与接口方案,主要采用对接口文件管理的策略,实现系统各层间及部件内部的交互规范,层次与模块自定义扩展。本文提出了一种新的切实可行的数据仓库体系结构,有效避免了系统部件的耦合,实现了对功能的分割和保护,增加了数据仓库系统部件的独立性,解决了系统数据交互的规范问题。通过应用这种数据仓库体系结构与接口方案,提高了数据仓库系统的开发效率,可以降低系统维护的复杂性,增强系统的可扩展性和可维护性。通过接口技术完成数据仓库的多维分析与数据挖掘发现有用知识,提高了决策的智能性,同时保证了系统的扩展性。

参考文献

[1]刘新颖,王丽亚.基于Web的数据挖掘算法与数据仓库的接口设计[J].上海:计算机工程,2006,32(21):88-90.

[2]徐忠健,袁捷,杨倩.基于Agent的三层数据仓库系统体系结构的研究[J].上海:计算机工程,29(3):58-60.

[3]程平,黄仁,陈艳.高性能数据仓库平台构建的研究[J].北京:计算机工程与设计,2006,27(12):2189-2191.

猜你喜欢
接口元数据体系结构
基于思维导图的化学知识体系结构构建
软件通信体系结构(SCA)理念下的无线通信系统探究
基于来源的组织机构元数据构建研究
某电站工程设计管理与施工、质量控制接口关系研究
元数据与社会化标签在微视频搜索中的应用
认知无线网络中的重点技术和研究
高等院校智慧校园建设规划与实现
西门子SPPA—T3000在委内瑞拉燃机电厂中的应用与接口
中俄网络语言编码接口问题的研究