王甫棣,祝 婷
(国家气象信息中心,北京 100081)
随着各种气象探测手段的丰富以及预报预测业务的发展,国内气象通信系统内参与实时传输和交换的气象数据种类和数据量不断增加[1]。然而由于缺乏对这些流通在通信系统各环节的气象资料提供必要的描述,通信系统的各个节点只能够“被动地”接收或推送数据,无法获知整个通信系统实际能够提供的数据全集。这样的状况制约了实时气象资料对各类气象服务支持能力的发挥。
元数据是对信息资源的规范化描述,它是按照一定标准(即元数据标准),从信息资源中抽取出相应的特征,组成的一个特征元素集合。这种规范化描述必须准确和完备地说明信息资源的各项特征。通过元数据,可以实现对数据的发现、访问和检索(DAR)。参考国际所公认的空间信息元数据标准引入气象元数据,使用元数据来描述气象数据是解决气象数据共享的理想办法[2-3]。
WIS是WMO新一代的数据交换和共享系统,是综合、通用的信息传输和服务平台。WIS应用元数据来描述气象数据,并通过元数据组织和管理数据,能够提供数据发现和访问服务。WIS通过遵循统一的元数据标准和数据交换规范,能够综合高效地为WMO及其他国际组织有关计划的信息交换和共享提供支撑,并且可以为WMO各成员国水文气象部门以外的政府部门和科研机构等直接用户提供服务[4-7]。
2012年1月31日,WIS正式进入业务运行。WIS的成功实施为国内气象通信系统的发展和建设提供了重要的借鉴。引入实时资料元数据服务,建立基于元数据组织和管理数据、提供数据发现和访问服务的气象通信综合传输系统,是未来国内气象通信系统的发展方向[8]。实时资料元数据服务的建立,可以帮助用户及时、有效地了解通信系统中种类众多、数量庞大的传输数据资源和各种传输服务,也可以为实时资料的加工处理、存储管理和数据应用提供必要的元数据支撑。
作为WMO全球电信系统(GTS)亚洲区域气象通信枢纽(RTH),国家气象信息中心承担着全球实时气象资料收集、交换、产品分发和实时气象资料共享等任务,依照WMO核心气象元数据标准,根据对气象元数据的设计要求和北京全球信息系统中心(GISC)对元数据的应用需求,国家气象信息中心WMO信息系统(WIS)团队设计了应用于北京GISC的气象元数据模板,制作并发布气象元数据以实现数据的发现、访问和检索功能(DAR)[9]。WIS在元数据的设计、生成、同步,以及基于DAR元数据(简称发现元数据)的数据发现等功能值得推广应用。
气象元数据已广泛应用于国内气象数据管理及业务系统建设中。基于元数据系统建成的中国气象科学数据共享服务网由1个主节点和8个分节点组成,实现了基于统一元数据标准的信息发布和用户一点登录全网数据透明访问,用户可以通过访问本系统获取分布在不同节点的、基于Web的数据检索与下载服务[10]。
元数据不仅可以作为数据发现、访问和检索的支撑,还可以通过扩展元数据的描述使得元数据可以在数据管理和应用服务方面发挥作用。在全国综合气象信息共享平台(CIMISS)中,除了描述型元数据外,扩展的管理型元数据和应用型元数据使得对数据的描述内容更加丰富:管理型元数据主要描述气象数据的存储信息、用户管理及权限控制信息等,而应用型元数据帮助用户实现不同的共享服务方式。不论是描述型元数据,还是管理型或应用型元数据,它们都被用于服务外部用户。
由于气象资料的收集与分发是例行的任务,气象通信业务系统往往根据气象资料的时间频次规则定义节目表来实现传输控制逻辑:原有9210业务应用系统、同城用户服务系统使用节目表作为收发内容的参考依据,在文件到达时判断文件的有效性,进而提供数据的时效监视[1]。CMACast的数据组织也是依照广播节目表来编排。
在新一代国内气象通信系统和国务院气象信息系统[11]中,为了降低传输控制逻辑与监视的耦合度,避免因监视应用的故障导致收发处理应用的阻塞,节目表不再作为收集的唯一依据而只是用于业务监视和时效统计。数据收集与分发流程通过配置文件来组织。
不论是使用哪种方式定义传输控制逻辑,在进行业务流程调整时都需要在业务流程各个环节完成节目表或者配置文件的制作。这种手工修改容易导致不同系统间处理逻辑不一致,比如在国家级和省级通信系统之间,或是在收集系统和广播分发系统之间等。因此,迫切需要统一的业务控制逻辑描述,使通信业务的描述、变更实现统一的驱动。设计一种可以描述业务系统交换控制逻辑的元数据,除了向用户展示数据外,还可以支持系统自身的交换控制。
WMO核心元数据标准是面向应用的,立足于描述数据内容特征及数据传输和服务特征。北京GISC系统的气象元数据模板遵循WMO核心元数据标准,内容覆盖了WMO核心元数据要素,包括分类目录信息、标题、摘要、主题关键字、地理关键字、时间关键字和地理范围信息,支持查询方式定位到元数据[12]。相对于WIS,国内气象通信系统传输的数据种类更多、数据量更大、数据属性也更加复杂,要在国内气象通信系统中推广使用WIS的发现元数据需要扩展元数据的描述能力。
WIS中发现元数据采用了扁平化的设计,元数据之间没有层级关系,每条元数据对应不同的实体数据的一个时间序列,它描述了某类数据源不断生产出来的数据。比如WIS中的全球交换数据的发现元数据由WMO Vol.C1(全球交换数据的数据目录)转换而来,通过文件标识中简式报头项(T1T2A1A2iiCCCC)可以匹配到一个时间序列的某类WMO全球交换数据[13]。
但是,仅通过扩展WIS中的发现元数据对传输交换逻辑的描述还不能完全解决通信系统的交换控制,原因包括:
(1)由于缺少了元数据的层级关系,发现元数据使得系统通信需要建立独立的元数据管理功能来组织元数据集合。为解决该问题,各国GISC采用了不同的办法,比如增加元数据目录导航或者自定义元数据集的访问功能。在没有统一标准的情况下,GISC间无法实现元数据集合的互操作。
(2)通信系统交换控制的主要目标是实际业务数据的传输,而发现元数据无法实时描述各个数据实体,元数据管理游离在通信业务管理之外。
综上所述,除了扩展现有发现元数据对传输交换逻辑的描述能力外,还需要建立元数据的层级关系并引入动态元数据的概念。
概括描述一组元数据所描述的数据的元数据,称为集合元数据,它的业务含义是某种数据资料类型组成的一个数据集合的描述[14]。集合元数据也是元数据。集合元数据可以包含集合元数据,也可以包含非集合元数据。数据集的细分程度决定了元数据的粒度。集合元数据也可以有对应的数据实例,比如自动站观测数据的集合元数据的业务含义可能是描述单站数据的合并打包文件。
为了使数据集的描述更加符合用户对资料的认识,提高数据发现的可用性,根据资料的不同特点采用不同的数据集划分原则,同时元数据的层级一般不超过3层。
(1)离散型的观测资料,比如常规观测数据或雷达数据等。将观测内容相同的数据定义为一个数据集进行描述,按照类型划分第一层级,按照区域范围划分第二层级,最小粒度元数据到具体站点。
例如,将地面自动站观测数据组织如表1。
表1 地面自动站观测数据的集合元数据
其中,地面自动站观测数据分为地面自动站观测资料集、自动站日数据集以及自动站日照数据集。各资料集再划分为省级的数据子集。
(2)连续型的数据产品,比如数值分析预报产品和卫星资料。将数据产品数据源和生成方式相同的数据定义为一个数据集进行描述。通过数据产品元数据描述一类产品的共性信息,便于发现数据;对个性信息可通过补充详细信息元数据的方式提供,便于用户进行数据请求。最小粒度描述到文件级数据。
例如,将T639模式的数值预报产品组织如表2。
表2 T639模式数值预报产品的集合元数据
其中,按资料类型划分为T639高时效和高分辨率两个数据集,各个数据集再按资料起报时次划分数据子集。
元数据包括静态元数据和动态元数据两部分,两者共同描述了数据属性。一种数据,由数据源产生,每种数据的静态元数据描述了数据源的信息,静态元数据的生命周期伴随数据源的诞生到消亡,不以业务系统的变化而改变。为了支持互操作,静态元数据一般采用XML(可扩展标记语言)提供规范的描述。
动态元数据则描述了数据的个体信息,动态元数据的生命周期反映某个实例数据在特定业务系统的流转的过程[15]。由于动态元数据只与特定业务系统相关,因此动态元数据的描述可以采用文本或者关系型数据库等任何结构化表示方法。
时间序列中的每个数据,都能够用静态元数据和动态元数据进行描述,分别反映了数据的不同方面。静态元数据描述时间序列相对固定的共同属性,这些属性不随时间变化;动态元数据描述时间序列中数据的特有属性,这些属性随时间变化。
例如,某观测仪器S输出的观测结果,符合固定不变的规范,因此正常情况下其输出的结果总是可以用静态元数据进行描述;而S每次观测出来的结果,都有规范以外的属性,如观测时间,则需要用动态元数据进行描述。
遵循WMO核心元数据标准,基于交换控制的元数据需要在原有发现元数据的基础上增加交换控制信息。
发现元数据描述信息主要包括:
(1)对元数据实例的描述:包括元数据标识、语言、字符集、制作时间、标准名和版本、责任方、文件名等;
(2)对数据属性的描述:包括名称、数据标识、摘要、观测平台、观测要素、产品列表、资料分类、关键词、更新频率、覆盖范围、站点信息、数据相关时间信息等;
(3)对数据服务的描述:包括在线资源、格式、分发方式、分发协议等;
(4)按照不同的分类方式,如资料类型、区域等建立元数据分类目录,每条元数据可以对应不同的目录ID,为用户通过目录导航发现数据提供支撑。
交换控制元数据所描述的信息为数据收集、分发、监视等流程提供控制策略。
(1)对数据收集相关配置的描述:资料来源、收集文件名模板等;
(2)对数据分发相关配置的描述:包括分发地址、用户类型、分发协议等;
(3)数据传输监控信息的描述:收集时次、频次、收集及时时间、逾限时间、分发及时时间等。
交换控制元数据中描述了数据的传输交换逻辑,而这些传输交换逻辑和系统内的收发、监视策略存在直接或间接的映射关系,如图1所示。
图1 交换控制元数据和通信业务逻辑的映射关系
将交换控制元数据的信息进行提取并生成相应的节目表或者配置文件便实现了从元数据到系统交换控制的转换。
如图2所示,通过建立交换控制元数据的UML(统一建模语言)模型,更清晰地说明如何在原有发现元数据的基础上扩展交换控制描述、建立分层描述、引入动态元数据。
静态交换控制元数据与发现元数据是组合(composition)关系,即每个发现元数据都包含有1个或多个交换控制元数据。这种关系的业务含义是某类气象数据在不同的通信业务系统中具备不同的交换控制逻辑。
发现元数据之间的层次关系则是聚集(aggregation)关系,即某个静态元数据可能存在若干父级元数据或子级元数据。这种关系的业务含义是某类气象数据可以归类或者继续细分。
动态交换控制元数据则随着静态元数据所描述的数据实体产生而出现,因此它与静态元数据的关系是实现(realization)关系,即某个静态元数据的时间序列由动态元数据具体描述。
遵循这样一个交换控制元数据的模型,首先制作出的每一条元数据可以确定其生成传输交换所需的通信交换控制策略和监视节目表。当元数据在国、省级系统之间,通信业务上下游系统之间实现同步[16-17]后,任何的调整都会保证一致的数据处理逻辑。第二,元数据统一的层次关系确保各级系统不再依赖独立的数据管理应用来组织数据,所有的数据组织都遵循元数据自身的层次关系。第三,由于动态元数据的描述,使业务系统的数据处理应用和元数据管理不再相互独立,通过建立流转在系统中的数据和元数据的关系,为数据服务以及监视功能提供支撑。
根据军队防灾减灾、抢险救灾及军事活动气象保障需求,中国气象局在各级气象服务工作中为国防安全和军队各兵种提供各类实时探测数据和气象服务产品的气象保障任务。目前提供军事部门气象服务的同城用户服务系统的主要问题包括部队用户对于数据的发现能力弱以及系统缺少快捷的配置管理手段,业务调整需要大量的人为操作。以现有的通信业务系统及WIS技术成果为基础,建立军事气象保障服务系统以解决这些不足。
该系统的核心是建立军事气象元数据服务,运用交换控制元数据模型设计适合描述军事气象服务数据的元数据模版,实现元数据的生成和管理功能,保证元数据为核心的统一管理。系统中涉及数据的业务逻辑由元数据来控制,主要体现在:
图2 交换控制元数据UML模型
(1)元数据的描述兼顾文件封装方式、数据使用习惯、监视粒度最小化;同时描述粒度细化至站级、二维要素场等。通过基于元数据的数据发现功能完成精确定位和下载气象资料,存储路径和在线资源由元数据的ID描述和层次关系决定。ECMWF集合预报产品是按照预报时效1个时次产生63文件,需要对应63条元数据。为了便于管理和检索,在系统中通过建立它们的父级元数据来描述,使用户可以直接订阅父级元数据。
(2)每条进入系统的数据都需要进行元数据的匹配校验[18],完成数据收集的正确性、合法性检查,同时生成动态元数据存储在关系型数据库中,作为系统应用的参考依据。
(3)数据订阅功能通过用户订阅[19]元数据来实现,在校验元数据的同时判断该条元数据是否被用户所订阅,然后根据交换控制元数据确定数据的分发流程。
(4)数据收发的监视通过动态元数据的监控信息作为依据来进行。数据收发的节目表由交换控制元数据生成,实际数据收发的监控通过匹配对应的动态元数据的状态便可以实现。
元数据是用户用于了解、获取和使用气象数据和产品的参考信息,也可以是系统用于组织和管理数据资源、提供数据发现和检索服务的基础信息。从外部用户角度来说,除了关注数据本身的属性,同时关注数据的访问和获取方式等数据应用和服务的相关内容;从内部系统角度来说,系统除了通过元数据展示数据外,还可以基于元数据支持系统应用的实现和控制。
设计一套气象传输交换控制元数据,改变现有发现元数据对气象传输交换控制的不足:
(1)扩展交换控制元数据,使得数据收发和监视策略可以在交换控制元数据中一处定义、多处共享,当元数据发生更新时,各个策略相应自动同步更新,即一处更新、多处同步,进而实现各个策略的统一配置、同步生效和自动加载。
(2)建立元数据的层次关系,实现统一的元数据组织关系,使得系统不再依赖独立的数据组织应用来管理数据。
(3)引入动态元数据,将数据的操作和管理演变为元数据的管理,提取系统中流转数据的动态元数据作为系统控制和监视的依据。
该设计模型应用在军事气象保障服务系统中达到了预期的效果。后续还将继续不断改进和完善该元数据模型,使其更好地应用于未来的国内气象通信系统之中。