杨 帆 ,岳兆新 ,艾 萍
(1. 广东省防汛抢险技术保障中心,广东 广州 510635;2. 河海大学,江苏 南京 210098)
遥感遥测、传感网(物联网)等现代信息采集技术的发展与应用,全面拓展了水利信息的时空尺度和要素类型,水利数据的种类和数量急剧膨胀,极大地丰富了水利行业的数据资源[1-2]。数据资源得到极大增长的同时,也存在着一些问题。以广东省为例,广东省水利数据主要存在以下问题:1)各部门(单位)数据库所存数据存在交叉重复;2)数据库条块分割导致信息不能充分共享;3)不同部门的水利系统信息维护协作机制未完全建立,数据的交换渠道不畅、更新不及时;4)地区发展不平衡,省辖各地市,由于经济基础差异很大,发展情况不一[3-4]。
水利数据中心建设的目的在于全面整合分散的各类水利信息资源,实现资源共享,并进行深度挖掘,以满足水利业务/事务发展的需要[5-6]。因此,必须对基于水利数据中心的数据资源进行统一标准化的整理、迁移、重构等操作,形成水利数据中心数据资源及维护与应用体系。
数据资源化包括原始数据梳理、数据分类与资源构建、水利基础数据核查、数据资源建设、水利普查数据整合、数据交换和管理等主要环节。
基于数据中心的数据资源化,第 1 步是对原始的数据资源编目,构建资源目录体系。
水利数据资源目录体系是整个水利信息资源共享和开发利用的基础,技术内涵是,按照统一的标准规范,对分散在各级部门及各领域、地区的数据资源进行调查与梳理,形成统一完整的数据资源目录,为数据中心数据资源化提供数据整合集成和数字化的依据,也为数据使用者提供统一的数据资源发现和定位服务。
水利数据资源目录的构造一般可分为以下 3 个阶段:
1)调查梳理编制所辖水利系统各单位《业务目录》、《资源目录》和《共享需求目录》,构建《水利数据资源总目录》。
2)基于数据中心应用服务平台,开发“水利数据资源目录管理系统”软件,用于数据资源目录录入、存储、导出和管理,实现水利数据资源目录各项内容的定制和维护,以及水利数据资源目录与数据中心数据服务的集成,为资源共享交换建设奠定基础。
3)研究制定《水利数据资源共享管理办法》,建立更新维护长效机制,以保障水利数据资源的共享、更新与管理。广东省水利数据中心数据资源目录构建操作阶段示意图如图 1 所示。
图1 广东省数据资源目录构造操作阶段示意图
实际操作中,为了适应数据资源的调查与梳理需要,可将水利数据资源目录分为以下 3 类:
1)业务目录。业务目录按照各单位(部门)划分,依照各单位的业务事项、业务子项、办理过程中的主要流程节点逐级展开,是业务流程调查分析的结果。
2)资源目录。资源目录同样按照各单位(部门)划分,以各单位的业务事项、一级子项对水利数据进行归并,通过类别的属性或特征对数据进行分类编目,用于支撑水利数据资源采集、整理、查询和组织应用。
3)共享需求目录。共享需求目录是各单位结合本部门实际业务工作,需要其他部门、本系统其他单位提供的数据资源的清单。
水利数据资源调研内容以数据资源调研表的形式表示,每项内容都是数据资源目录必备的信息项。通过核心业务和数据资源的调研、收集、梳理、分类、填报、汇总、审核等工作,全面反映各单位数据资源内容,以便最终整合形成水利数据资源目录。
在水利数据资源目录框架下,结合水利行业特点与数据资源应用需求,充实与细化数据资源目录和详细内容,最终完成目录分类和数据资源编码的定义,整理形成《水利数据资源目录》。
各个地方的具体水利业务略有不同,但基本的业务流程和数据资源梳理方法和操作流程相同。
根据信息分类的原则和方法,可把水利行业数据分成基础和专业数据(也称为业务专用数据)2 大类。基础数据是支撑水利业务的基本资料,专业数据通常是某个或某类特定业务应用专用的数据。
基础和专业数据又可根据结构属性分为结构化和非结构化数据,并可按所载信息依附的具体对象、实体和信息本身的属性作进一步划分。水利数据中心数据的一般分类如表1 所示。
在数据分类的基础上,按照数据中心的基本存贮结构和数据流程,实施基于水利数据中心的数据资源化组织。图 2 是广东省水利数据中心结构化数据的资源化操作流程,包括数据和存贮的新建、重构和迁移等数据组织操作。非结构化数据的资源化操作与结构化数据基本相同。其他省区的数据中心因数据资源现状不同,操作方式和流程与此相同,但操作对象会有所差异。
表1 水利数据中心数据分类表
图2 广东省水利数据中心结构化数据资源化操作示意图
数据核查是保障数据中心数据资源质量的重要技术行为。广东省水利数据中心建设涉及的数据资源种类繁多,来源不一,实施难度很大。数据资源建设除需要协调省厅各处室、直管(直属)单位,以及各地市、县区水利管理部门,按数据类型分门别类收集资料、进行加工整编和汇总统计外,必要情况下还要现场采集“第一手”资料和对部分已有数据进行核实。针对广东省的实际,重点在全省范围统一开展水闸(主要是小型水闸)、堤围、防洪物料仓库及机电排灌站等水利基础设施数据的现场核查,尤其是空间定位信息。
水利基础数据核查操作除需要各地市、县区水利管理部门积极协助外,还需要采取合理高效的组织方式和工作模式。通常需要组织专家及工程技术人员,应用先进的仪器设备对指定范围内的各类水利基础设施的基础资料、运行管理现状等情况,进行调查、收集、测量,并将所采集的资料进行整理、校核、汇总、录入和上报。
对收集的各类原始资料进行考证、复核、整编、调整、编目及数据提取后,存入广东省水利数据中心的 25 类基本数据库中,并按“一数一源”的原则,与三防、农水、农电、移民、建管、水保、防汛抢险技术保障、水文及水利普查等已建业务系统的数据资源进行整合,形成全省统一的水利数据资源,实现行业内数据的冗余消除,一点更新,多处使用。
水利普查数据是给定时间节点水利管理对象的基本状态信息,也是水利数据中心最重要的基本数据资源之一。为了实现数据的综合利用,采用以下2 种方式进行资源化:1)将水利普查的全部数据整合到数据中心 ODS 区,为其提供存储与管理环境。2)将水利普查数据重新进行组织。基本方案如下,属性数据能抽取并入数据中心 CDS 区中相应数据库的,直接存入相应的数据库中;不能并入的属性和统计(成果)数据,按主要应用需要归纳、整理后,建立数据中心水利普查数据库,作为辅助类数据管理与应用。
数据中心的数据交换,通过数据中心统一的交换平台实现。数据库间的数据交换(如既有业务系统的数据库与数据中心间),采用面向服务的数据集成体系结构,构建数据迁移、交换等数据集成流程。跨域的业务系统应用、流程之间及非结构化数据的交换,提供基于 HTTP,SOAP 和接口访问方式的便捷的功能服务和系统管理控制。交换平台以元数据为支撑,利用基于 CWM,XMI,XML Schema规范的统一的元模型定义规范描述访问元数据定义,屏蔽数据源中数据的异构性,从而实现对关系数据库、文件、文档、应用程序中的结构化和半结构化及非结构化数据的元数据抽取支持与应用。
数据资源的管理,按照水利数据中心采取数据集中统一管理的基本原则,凡是纳入水利数据中心的数据管理范围的数据均由数据中心集中统一管理,包括遵循统一规划的数据分布策略,执行统一制订的数据中心技术标准体系,接受统一开发部署的数据管理与维护软件平台,服从针对数据资源的统一调配,协同统一数据中心重大数据操作等。
一方面信息采集与传输技术的发展,极大地丰富了水利行业数字化的数据资源,但是,分散建设的业务应用和数据库导致了信息资源开发利用程度不高、形式与结构的异构现象严重、发展极不平衡等问题,不利于信息资源共享,业务协同也难以实现;另一方面,水利工作长期积累了一大批价值极高但非数字化的历史信息,这些信息需要核查、整编与数字化。在广东省水利数据中心建设的过程中,以广东省水利数据中心数据资源化建设与实践,针对 6 个主要环节研究的广东省水利数据中心数据资源化实施方案,在保障完成数据资源化方面,起到了十分重要的作用,为全国各级水利数据中心实现“一数一源”的数据资源化和共享应用提供了切实可行的参考。
[1]成建国,钱峰,艾萍. 国家水利数据中心建设方案研究[J]. 中国水利,2008 (19): 32-34.
[2]艾萍,吴礼福,陈子丹. 水利信息化顶层设计的基本思路与核心内容分析[J]. 水利信息化,2010 (2): 9-12.
[3]莫渭浓. 水利数据中心建设初探[J]. 中国水利,2002 (8):57-58.
[4]北京金水信息技术发展有限公司. 广东省水利数据中心工程项目初步设计报告[R]. 北京:北京金水信息技术发展有限公司,2010.
[5]莫荣强,艾萍,吴礼福,等. 一种支持大数据的水利数据中心基础框架[J]. 水利信息化,2013 (3): 16-20.
[6]艾萍,赵敏,岳兆新. 基于虚拟化的水利数据共享平台设计与实现[J]. 信息技术,2013 (6): 75-79.