Data Vault 2.0在企业数字档案室建设中的应用浅析

2018-11-29 06:01海洋石油工程股份有限公司张寅
办公室业务 2018年22期
关键词:数据仓库档案馆架构

文/海洋石油工程股份有限公司 张寅

一、对企业数字档案馆的理解

随着企业信息化水平的不断提高,在企业内、外部围绕各业务逐步建立了许多信息系统,并形成了大量有价值的数字资源。为了更好地管理、保护这些企业的无形资产,发挥其巨大信息与经济价值,企业数字档案馆建设概念应运而生。

国家档案局在《企业数字档案馆(室)建设指南》中明确提出企业数字档案馆(室)是指“企业运用现代信息技术固化档案工作业务流程,对本企业或与其具有资产隶属关系企业的电子档案或其他数字资源进行收集、整理、保存,并通过网络提供档案信息服务和共享利用的集成管理系统平台”。从定义中不难看出,企业数字档案馆管理的对象主要是“数字资源”,包含了企业内、外部在业务活动中形成的结构化数据(例如关系型数据库)与非结构化数据(例如word、图片、音视频等)。企业数字档案馆的最终目标是希望通过标准化、集中统一的管理手段,确保企业的数字资源能够在长期保存过程中始终提供准确、完整、可用、安全的信息服务。

二、Data Vault 2.0

(一)数据仓库与Data Vault 2.0。数据仓库是企业信息处理的一个基础,它被定义为面向主题的、集成的、随时间变化的、一个支持决策管理的数据集合。数据仓库技术的相关理念与企业档案工作有许许多多的共性,两者都要求在企业级层面对信息进行管理,笔者认为如果把企业数字档案馆理解为一个概念框架,那数据仓库则是实现该框架的重要技术手段之一。Data Vault 2.0(以下简称DV2)是一个商业智能系统,所谓Data Vault其真实的名称应为“公共基础性仓库架构”,该系统包含了与数据仓库设计、实施和管理的相关业务。在Data Vault 1.0时期其高度关注数据建模的部分,2.0版本在原有架构基础上进行了广泛扩展,增加了许多在数据仓库和商业智能方面成功的必要组件,具体包括:1.DV2建模:对模型性能和可扩展性的更改。2.DV2方法:遵循Scrum和敏捷最佳实践。3.DV2架构:包括NoSQL系统和大数据系统。4.DV2实现:基于模式、自动化生成CMMI级别5。这些组件在企业数据仓库项目的总体中起着关键作用,本文主要针对DV2架构与建模进行介绍。

(二)Data Vault 2.0架构。DV2架构基于三层数据仓库架构,三个层次一般理解为暂存区(或集结区)、数据仓库和信息市场(或数据集市),“图1”展示了DV2总体架构的概览。其主要特点包括以下几点:1.暂存区中不存储历史信息,同时不支持数据修改,但当数据仓库可以支持近实时处理时,对暂存区的需求和依赖度会下降,实时数据可直接传输至数据仓库层;2.数据仓库层遵循Data Vault建模技术。3.架构支持一个或多个依赖数据仓库的信息集市,而元市场(Meta Mart)是一个非常重要的组成,负责收集整个数据仓库的元数据信息。4.架构分离了软硬业务规则,使企业数据仓库成为一个面向原始事实的记录系统(Raw Data Vault),并随时间推移不断装载原始事实。5.包含一个可选的“指标库”(Metrics Vault),即用于捕获和记录运行的相关信息。6.包含一个可选的“业务库”(Business Vault),即按照业务规则或需求将原始数据变换为业务所需或理解的数据。7.包含一个可选的“操作库”(Operational Vault),即某些业务系统可直接将数据存储到数据仓库中,例如主数据管理、元数据管理、实时采集等。8.自助BI(Business Intelligent),允许业务人员在不涉及信息技术的情况下,可自由执行自定义的数据分析任务,并允许将它们回写至数据仓库层。9.架构可与大数据处理hadoop或Nosql无缝对接,主要用于海量数据存储与执行数据挖掘。

图1 Data Vault 2.0架构总览

(三)Data Vault 2.0模型。DV2模型是一个面向细节的、可追溯的并且唯一链接的规范化表集。从建模风格上看,它采用了一种由第三范式与维度建模方法混合而成的方式,以二者的独特组合来满足需求。DV2在建模过程中采用了中心辐射型图形模式,这意味着除了由基础设施造成的限制之外,其可以表示的数据规模不存在已知的固有限制。在DV2模型中有三个基本实体,各个实体均已散列码为主键(PK):1.中心表(Hub):唯一业务键列表,存储各业务对象的业务键及相关元数据,标准的结构包括散列键、业务键、加载日期、记录来源等属性。2.链接表(Link):记录中心表键与键之间唯一关系的列表,表示业务对象间的关系或联系,标准的结构包括散列键、加载日期、记录来源等属性。3.卫星表(SateLite):历史的描述性数据,存储业务对象、关联性等具体属性信息,并通过主键外联中心表或链接表,标准的结构包括散列键、加载日期、记录来源、父散列键、失效时间、散列校验值及业务属性等。

三、应用前景分析

(一)在资源整合方面的应用。企业数字资源大多由前端业务系统产生,这些系统在设计、建设时往往只考虑自身纵向的业务逻辑与功能需求,缺少了在企业层面统一的数据规划与语义标准,例如不同的系统描述同一个员工的唯一标识(ID)可能不同,异构的数据源给数字档案馆在数字资源整合带来很大困难。在DV2中,由于使用散列键作为中心表的主键,使用“same-as”卫星表可很方便地整合对同一业务对象的不同标识,而不需再为改变源系统中的业务键而发愁。同时面对整合过程中出现数据类型与粒度的不匹配情况,中心表可以按照数据来源与变更的频率,通过散列键外联多个卫星表,从而确保异构数据源能够迅速整合及数据原始性。此外,散列主键还可以无缝对接Hadoop或Nosql,从而进一步实现文档、图片、视频等非结构化数字资源的整合与海量存储。

(二)在资源真实性鉴定方面的应用。企业数字档案馆其中一个重要目标是要做到维护历史数据的真实性,这种真实性体现在两个方面:一是技术真实性,即数字资源在长期保存过程中没有被误改或篡改。二是来源真实性,即数字资源记录了真实的业务活动。如何确保数字资源的真实性与可追溯性也是在集成管理和长期保存中亟待解决的难题。在DV2架构中要求建立一个面向原始事实的记录系统(Raw Data Vault),存储在数据仓库层的数据可以拥有不同的版本与失效时间,但不可修改。在中心表、链接表、卫星表均记录了数据的来源与加载时间,卫星表中还通过保存各属性的散列运算值提供校验。可以说DV2架构可追随、可审计性为数字资源的真实性鉴定提供了有力保障。

(三)在数字资源利用分析方面的应用。现阶段企业档案管理部门针对数字档案馆建设主要围绕着馆藏档案数字化和档案全文数据建设以及服务利用信息化、网络化。这种服务比较原始、单一,更多的被动等待式的利用。数据时代背景下没有经过分析、挖掘,难以体现数字资源自身及集中管理的价值。而在DV2架构中由中心表、链接表和卫星表组成的中心辐射型模型可以非常简便地转化为维度模型,并在灵活的软规则变换中(即不影响原始数据的前提下)迅速地构建多种信息市场(或数据集市),实现数字资源的复用和分析挖掘,同时因架构良好的扩展性,大大降低了因企业内部需求变化或多部门观察角度不同,导致信息市场重建的风险。

猜你喜欢
数据仓库档案馆架构
基于FPGA的RNN硬件加速架构
云南省档案馆馆藏《东巴经》
功能架构在电子电气架构开发中的应用和实践
基于数据仓库的数据倾斜解决方案研究
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
基于云服务的图书馆IT架构
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
VoLTE时代智能网架构演进研究
when与while档案馆