冯 钧,唐志贤,朱跃龙,韦 冕,卞一路,史涯晴2,
((1.河海大学,江苏 南京 210098;2.解放军理工大学,江苏 南京 210007)
水利信息资源是指由水利部门或者为水利部门采集、加工、处理的信息资源[1]。这些海量的水利信息资源分散地存储在全国各级水利机构与涉水科研院所等单位,存在着存储分散、格式与标准不统一等问题。信息资源目录服务体系能够实现资源的“发布-发现-访问”,被普遍认为是实现分布式信息资源统一管理和高效共享的基础。通过建设水利信息资源目录体系能够提高信息资源的利用率,为水利科学研究和政府的水利管理提供支持。
水利信息资源涵盖了水文、水资源、水环境、水旱灾害、节水灌溉、水土保持、水利工程等各分支学科的科学数据[2],水利信息资源目录服务体系要对上述各种科学数据进行统一管理,需要定义一套能够对分布式存储、格式不统一的水利信息资源进行统一描述的水利信息资源目录服务元数据,为目录服务体系的构建提供基础。目前,国内外对涉及水利信息资源的元数据定义已进行大量的研究。国际标准 ISO-19115:2005《地理信息 元数据》[3]、国家标准 GB/T l9710-2005《地理信息 元数据》[4]、科技部发布的 SDS/T2112-2004《科学共享元数据内容》[5]、水利部发布的 SL420-2007《水利地理空间信息元数据标准》[6]、SL473-2010《水利信息核心元数据》[7]等一系列涉及水利信息资源的技术标准相继发布。目前这些技术标准主要针对特定数据格式(矢量、遥感)的水利信息资源。
本文对水利信息资源目录服务元数据的定义展开研究,在充分考虑水利信息资源特点基础上,着眼于定义1套适合水利信息资源共享的元数据,为水利信息资源目录服务体系的构建打下坚实基础。
ISO19115:2003是由国际标准化组织发布的关于地理信息的元数据,描述数字地理数据(矢量、栅格与遥感等)的标识、覆盖范围、质量、空间和时间模式、空间参照系和分发等信息。国家标准 GB/T l9710-2005是结合我国国情修改采用国际标准 ISO 19115:2003制定的元数据标准。上述2套标准内容基本一致,主要针对具有空间地理信息数据,抽象层次高,虽然支持对非地理数据的描述,但是在描述水利信息资源的获取途径、分类体系和编码等方面显得不足,而且不能很好地描述水文数据这类以关系数据库存储的数据,特别是未定义关系数据库的结构、服务信息等元数据项。
SDS/T2112-2004是科技部的《科学数据共享工程》的建设成果,旨在提高科学数据的建库质量,规范数据加工的标准化,促进科学数据的共享与交换,该标准适用于科学数据集元数据的管理,但是抽象层次较 GB/T l9710-2005和 ISO19115:2003更高,与水利行业耦合度不够。
SL420-2007旨在为各行业及社会各界提供访问水利地理空间信息所需的高效、统一的描述性信息[6],主要针对数字水利地理信息数据,是 GB/T l9710-2005和ISO19115:2003在水利领域的细化,但存在对属性数据类型水利信息资源描述能力不足的问题。SL473-2010规定了水利信息核心元数据内容,包括数据的标识、内容、质量、状况及其他有关特征,适用于对水利信息数据集的描述、编目及信息交换服务,该标准也未对属性数据类型的水利数据资源的结构信息进行描述。
水利信息资源目录服务元数据应当能够对属性数据、遥感影像和矢量图层及其他非典型信息资源全面描述,应紧密结合水利信息资源的分类体系,描述资源的服务配置信息,以支持通过目录服务体系对水利信息资源的描述、发布、发现和访问。
水利信息资源目录服务元数据的定义是系统工程,应遵循如下原则:
1)全面性。元数据标准应能详细地描述水利信息资源的典型数据类型(关系数据库、关系数据表、矢量图层和遥感影像),并支持非典型数据类型元数据的描述。
2)模块化。为了在满足全面性的基础上尽可能的定义简洁的元数据,必须对水利信息资源目录服务元数据进行模块化,元数据的模块允许元数据模式的设计者在已建立的元数据模式的基础上,生成新的汇编或组合,因而不必再重建新的元素,可以直接引用已有的元数据模式。水利信息资源目录服务元数据将联系、覆盖范围、参考系等信息进行模块化定义,以供元数据的其他模块引用。
3)可扩展性。元数据系统必须允许扩展,以适应某一给定应用的需要。一些普遍的元数据元素可以在大多数元数据模式中找到(例如,一个信息资源的标识符)。而在特殊的应用或领域中,其它特殊的元数据元素应该是特别指定的。构建元数据时,必须有易于适应添加元素的基本模式的概念,即将某一给定应用剪裁得适合局部的需要或特定领域的需要,而不必过分地兼顾基本模式所提供的可互操作性。
4)多粒度性。元数据根据其应用领域需求的差异,对其所希望的详细程度也有所不同。所谓多粒度性就是指元数据标准的设计应该允许模式设计者选择特定的级别以适合于给定的应用。
5)兼容性。元数据的定义应当遵循已有的国际、国家和行业标准,结合水利信息资源目录服务体系的实际情况进行定义;对于现有标准中已有的项,定义时应当遵循。本元数据定义的核心可查询目录服务模式与核心可返回目录服务模式遵循标准 SL 473-2010。
水利信息资源元数据定义了相应的元数据项以描述水利信息资源的分析类体系和资源编码,定义了结构信息用于详细描述属性数据类型的资源,定义遥感信息和矢量信息元数据项用于描述遥感信息与矢量信息。水利信息资源元数据包含了对水利信息资源描述的全集,核心元数据是标识水利信息所需要的最小元数据元素和元数据实体,为元数据元素集的子集。依据《水利信息核心元数据标准》,水利信息核心元数据由1个元数据实体集和12个元数据子集构成,具体结构如图1所示。其中,标识信息为必选子集,内容、数据质量、覆盖范围、限制、参照系、维护、分发、服务、应用、结构和关联信息等信息为可选子集。
图1 水利信息资源目录服务元数据结构
具体信息内容如下:
1)标识信息,包含唯一标识数据的信息,包括有关资源的引用、摘要、目的、可信度、状况和联系方等信息,标识信息针对遥感和矢量数据进行进一步细化,并考虑水利信息资源分类体系;
2)内容信息,包含提供数据内容特征的描述信息,内容信息的“资源域”属性应用于表明数据集所在的资源范围;
3)数据质量信息,包含对数据资源质量的总体评价,包括与数据生产有关的数据志信息的一般说明;
4)覆盖范围信息,提供数据资源所涉及空间、时间覆盖范围信息,是空间和时间覆盖范围的聚集,空间覆盖范围又分为地理和垂向2种覆盖范围;
5)限制信息,包含访问和使用资源的限制信息;
6)参照系信息,包含对数据集使用的空间和时间参照系的说明;
7)维护信息,包含有关资源的更新频率及范围的信息;8)分发信息,包含资源如何分发和获取信息;9)关联信息,包含与该资源具有关联关系的资源信息;
10)结构信息,包含有关资源(属性数据类型)的存储结构信息;
11)服务信息,包含资源管理单位通过网络向外提供的资源服务技术参数;
12)应用信息,包含有关资源应用的描述信息。
考虑到水利信息资源目录体系管理的水利信息资源,将元数据的描述对象在数据格式上抽象为:关系数据库和数据表、矢量图层和遥感影像等典型的4类,并支持其它非典型数据格式。同时参照国家科学数据共享工程核心元数据设置规范,对核心元数据进行必填、选填分级,以满足元数据抽取的便利性和信息使用的不同要求[1]。
按照兼容性原则,水利信息资源目录服务元数据的定义遵循了相关国际、国家和行业标准。其中参照系、数据质量和维护等信息的定义遵循 ISO19115:2003和 GB/T l9710-2005,分发和限制信息的定义遵循 SL 473-2010,覆盖范围信息的定义遵循 ISO19115:2003、GB/T l9710-2005和 SL 420-2007。水利信息资源元数据定义在遵循相关标准的基础上结合水利信息资源目录服务体系进行扩展,主要体现在以下几点:
1)标识信息。标识信息定义基本标识信息,用于标识水利信息资源的通用信息(标题、摘要和关键字等),基本信息的定义遵循 SL 473-2010。按照全面性的原则,标识信息部分还定义了遥感影像和矢量图层标识信息,用于描述遥感数据和矢量数据。定义了与水利信息资源分类体系和资源编码结合的元数据项,用于支持水利信息资源分类体系和资源编码的应用。
2)关联信息。关联信息的定义,用于描述水利信息资源间的关联关系,并进一步支持目录服务体系发现服务对信息资源的联想查询。
3)结构信息。针对水利信息资源中采用关系数据库存储的属性数据,定义数据存储的结构元数据(数据类型、记录计量单位、精度及非空记录数等),从更细的粒度描述水利信息资源,以满足科研这一层次用户对水利信息资源的查询服务。
4)服务信息。服务信息是水利信息资源管理单位通过网络向外提供资源服务的技术参数,包括安全认证和服务器配置信息等。服务信息的定义能支持目录服务系统程序化地抽取部分元数据,并为水利信息资源的访问服务提供参数。
水利信息资源元数据根据国家水利数据中心水利信息资源目录服务系统对水利信息资源管理的基本要求制定,为水利信息资源目录服务系统总体框架,目录服务系统框架如图2所示。资源层是指各类信息资源,包括水利资源数据分中心信息资源涉及的水文、水质、水资源、水利设施(空间)、土壤侵蚀、灌溉、水能资源调查、农村水电8个专题信息库,涵盖了属性、矢量和遥感影像数据等类型的水利信息资源。目录层包括资源目录库,是根据目录服务应用需要建立的总目录库,包括核心元数据库、水利信息目录总体框架指导下建立的水利资源信息分类体系、资源编码表等。服务层主要包括目录体系向应用层或其它应用系统提供各类应用的服务接口,以方便应用的调用、目录体系与交换体系的互通,目录体系之间的信息交换和访问。应用层是目录服务向用户的展示层。用户使用应用层提供的各类工具进行信息资源的注册与发布,也可进行信息资源的发现和访问,以及对目录库进行管理。
图2 水利信息资源目录服务系统总体框架
目前,水利信息资源元数据已经成功应用于水利信息资源目录服务系统,实现了对属性数据、矢量图层和遥感影像等类型的水利信息资源的统一管理。在资源目录管理方面支持水利信息资源的分类体系和编码;在资源注册方面支持对水利信息资源元数据的程序化抽取(利用服务信息)、属性数据的结构信息描述;在资源发现方面,支持资源的联想查询(利用关联信息、分类体系),支持属性数据类型水利信息资源的字段级描述(利用结构信息);在资源访问方面,支持资源(限管理方提供访问服务的资源)的访问(利用服务信息)。水利信息资源元数据在水利信息资源目录服务系统的应用表明,水利信息资源元数据能够很好描述水利信息资源,并为目录服务体系提供基础。
本文在分析了当前涉及水利信息资源元数据标准的基础上,研究了水利信息资源元数据的定义,并将定义的元数据标准应用到水利资源数据分中心水利信息资源目录服务系统中,应用结果表明,本文定义的元数据标准能够很好的描述水利信息资源,能为目录服务体系实现水利信息资源的统一目录访问和共享提供一定的基础。水利信息资源目录服务体系需要一系列的标准来支持,进一步应定义水利信息资源目录服务规范、水利信息资源服务注册规范等标准。
[1] 朱跃龙,许峰,冯钧,等.水利信息资源目录体系构建研究[J].水利信息化,2010(4): 4-8.
[2] 朱星明,白婧怡,蔡佳男.水利科学数据共享体系建设初探[J].中国水利,2006(5): 47-48,60.
[3] ISO-19115:2003,Geographic Information-Metadata[S].
[4] GB/T l9710-2005,地理信息 元数据[S].
[5] SDS/T2112-2004,科学数据共享元数据内容[S].
[6] SL 420-2007,水利地理空间信息元数据标准[S].
[7] SL 473-2010,水利信息核心元数据[S].