王秀琴,梁中军
(新疆气象档案馆,新疆 830000)
大数据时代的到来,引发了全球范围的技术变革,数据已成为国家基础性战略资源,掌握丰富的高价值数据资源日益成为抢占未来发展主动权的前提和保障。面对种类繁杂的数据信息,元数据在各类信息管理中得到广泛应用。
元数据(Metadate)又称中介数据,是用来描述数据的数据。主要是指描述数据属性的信息,用来支持指示存储位置、历史数据、文件的生成时间和数据源等。
元数据自身的特性,使其具有提高信息查询效率,提升信息完整性,为用户使用信息提供判断依据,实现信息高效利用等功能。目前,元数据在各学科、各行业中也得到了广泛应用:元数据在信息系统中,通过说明数据内容、质量和其他有关特征,实现数据的检索、维护,使元数据成为了电子文件的“身份证”[1];元数据是政府数据注册管理和开放的重要基础,通过建立多层级、易扩展的元数据结构体系,可提高不同政府部门与机构间、政府部门与非政府机构或组织间的互操作性,满足不同的特定需求[2];在图书馆资源管理中,元数据格式包括信息资源集合、网络信息资源、数字图像及文献等,元数据对资源、数据的全方位描述,成为信息资源、数据的搜索目录,也是信息组织管理及保存的一种先进技术[3];在地理国情普查数据成果的管理中,可利用元数据实现普查数据的选择、识别、组织、管理、开发、利用和评价,以确保数据的真实性、完整性和安全性[4]。
气象档案数据是为开展气象业务布设的各类气象台站(含气象卫星)观测并积累的,以及利用各种途径收集、存档的各种载体形式的气象资料及其整编、分析成果等。气象档案数据具有显著的时间性、空间差异性和地域差异性,是中国历史年代最长、保存最完整、最系统的地球信息资源[5]。而随着气象观测技术的不断发展,特别是高时空分辨力数据观测技术的发展,气象档案数据多源头、多种类、多格式和多处理环节等特点也日益凸显,总体表现为以下几个方面:
1)数据来源复杂:由于数据是在不同历史时期由不同系统采集获得,而传统系统采用“烟筒”式建设,容易导致数据重复采集、不一致、不完整和准确性不高的问题,以及不同环节的数据管理缺失;
2)数据质量没有保障:气象数据种类多、源头多,目前只对个别种类个别站点数据进行了有效的质量控制,其他数据处于弱管理状态,数据可靠性无法得到保证;
3)数据不能有效应用:科研人员在实际工作中对数据的需求很大程度上得不到满足,主要表现为数据匮乏,而这种匮乏,原因不在于缺少数据,而是数据很难被发现、获取和认识,可用性得不到保障。
元数据是解决以上数据问题的有效途径。元数据的本质与目标就是建立数据的联系信息,对数据进行描述,实现快速检索,提升数据质量的同时,为服务对象发现匹配资源。
文章拟从元数据在档案数据存储和应用中的作用出发,研究气象档案数据收集、管理和服务中元数据编制方法,提出元数据库及元数据知识图谱建设的应用思路,为气象档案数据管理提供参考。
基于气象档案数据应用的元数据设计遵循WMO(世界气象组织)核心元数据标准,主要参考QX/T 514-2019《气象档案元数据》及QX/T 544-2020《气象数据发现元数据》设计细则。
元数据作为管理信息,是数据及用户之间的交流媒介,形成的元数据信息需具备可检索查阅和可调用功能。元数据对数据准确、详细地描述,将有效支撑数据检索,也更加有利于用户理解[6,7]。中国气象局于2009年发布了气象行业标准《气象资料分类与编码》,对气象观、探测资料的分类方法、类别及其编码,以及根据分类进行气象数据文件命名的方法进行了描述,目前已应用于气象数据加工、交换、服务和存储过程中。基于气象资料分类编码框架,参考气象数据文件规则、规范,提取数据中包含的元数据信息,还原为直白描述,记录为可扩展的置标语言(XML格式)的文件结构体,同时形成元数据信息库,与业务系统通过接口实现连接访问(图1)。
图1 元数据框架
以气象应用为基础的元数据,包括管理型和描述型两部分内容。充分考虑气象档案数据的地域性、时间性等特点,以四级编码中的一级和二级编码为依据,建立管理型元数据清单,包括类别、内容、结构和命名方式等,用于了解整体数据。对管理型元数据进一步扩展分级,将各类别信息进行细化,四级编码扩展到第三、四级,分别对每一种数据进行详细信息描述,包括四级编码、资料名称、收集时间、内容说明、生产或加工中心、编码格式、简式报头、文件名规则、频次、时次、发布时间、资料覆盖范围、数据量、资料来源、入库情况、服务方式、资料用户、广播通道和目录等。
以原始格式气象多普勒雷达基数据为例,对其元数据进行整理,步骤如下:根据四级编码规则,气象雷达在气象资料大类中的简码是J,原始格式多普勒雷达基数据2级码为J.0010,根据正则表达式匹配原则,对数据库中的原始格式多普勒雷达基数据进行解析统计,可形成该类文件的管理元数据信息,即四级编码、资料名称、观测站点、频次、起止时间、资料覆盖范围和数据量等内容。
元数据详细信息的整理步骤为:根据数据文件编码格式和命名规范等相关说明文件,整理原始格式多普勒雷达基数据的内容说明、生产或加工中心、编码格式、简式报头、文件名规则、资料来源、频次、服务方式、资料用户、广播通道和目录等。
将以上2类信息进行整合,即可得到原始格式多普勒雷达基数据元数据信息。
随着信息社会对气象业务需求的不断增长,气象档案数据信息化建设已成为气象事业可持续发展的重中之重。元数据是气象信息化建设的基础,是气象档案数据管理过程中用于资源组织及数据服务的基本工具。根据元数据的特征及其在气象档案数据管理中的必要性及可操作性,提出应用参考。
建立气象档案数据元数据库是为更好地进行数据管理,数据元数据库、数据存储管理及数据服务3者之间的关系如图2所示。
图2 元数据信息关系
其中,数据元数据库即是各类气象数据的描述信息,并将元数据提交到元数据管理系统中。同时,数据管理人员及时更新元数据,使用户能够进行各类气象数据的查询;用户根据查询结果向数据管理人员提出数据申请。数据存储管理系统根据用户需求,检索元数据信息,根据正则匹配原则,向用户提供数据存储系统中的相关数据。
知识图谱技术属于人工智能技术的一个分支[8]。2012年,谷歌首先提出知识图谱的概念,知识图谱作为一个知识库,旨在提高其搜索引擎的能力。知识图谱本质上是一种语义网,旨在描述真实世界中存在的各种实体或者概念,以及他们之间的关系[9]。
知识图谱以图为基本结构,各实体或者概念是图谱的各节点结构,而实体或概念的属性及其之间的相互关系构成各节点的边结构。对于元数据知识图谱而言,不同类型的数据就是一个实体,这些实体构成实体结点,数据的属性构成语义节点,属性值构成各节点的边结构。将各节点关联到一起,就会形成一个三元组的组合,如:雷达观测数据—基数据—J.001.*。一个实体可以有多种属性,相对应有多个属性值,如地面气象观测日数据,可以有多种属性,如频次、资料来源、资料覆盖范围和服务方式等(图3)。
图3 地面气象观测日数据元数据知识图谱
知识图谱是元数据信息的图形化展示,利用知识图谱检索技术,可提高元数据的查询效率。用户根据数据本身可查询到数据的多种属性,图3中,用户点击地面气象观测日数据,即可同时获取其多种属性展示,根据需要,可查看相关内容。而不同数据也可能存在相同的属性值,图3中,通过悬浮的知识图谱属性值“文件分发”,就可查询到通过文件分发方式获取的气象数据。通过元数据知识图谱获取相关数据信息,可提高气象数据智能应用效率,极大地促进了气象数据应用人员在实际工作中及时发现、认识数据。
文章针对信息时代,气象档案数据海量增加,传统档案数据管理方式已无法满足信息处理和利用的需求问题,得出通过建立元数据信息库及知识图谱,实现档案数据的有序存储及查询建议,为气象档案数据管理提供了参考。