大规模卫星遥感数据资源目录技术研究∗

2024-01-23 13:37王志宝刘坤峄
计算机与数字工程 2023年10期
关键词:数据模型数据源检索

王志宝 赵 亮 马 轩 刘坤峄

(东北石油大学计算机与信息技术学院 大庆 163318)

1 引言

随着遥感航天技术的高速发展,影像数据因其本身携带的空间及时间属性信息特点,成为了解决可持续发展、全球变化和减灾防灾的重要数据资源[1~2]。目前爆炸增长的遥感影像数量级已达PB级[3]。且流行的遥感影像共享分发平台所支持的数据检索较复杂,不够简约,并且很难达到用户的期望[4-5]。数据湖作为近几年来主流的大数据管理技术,是存储处理各种数据和极大程度的关联数据创新相关的领域。包括文本、图片、语音、视频和文档等非结构化的多源异构数据资源。目的是为在大数据存储和共享时提供一个稳定的数据底座。实现基于“读时模式”的数据引接、存储和处理等过程,更有效实现数据的共享和数据模型定义的灵活性,提升原本资源的利用价值和效率[6]。遥感数据资源目录系统是构建遥感数据湖的基础,为不同领域的遥感数据用户提供快速、准确、方便的数据检索、浏览下载和推送。

遥感数据资源目录系统依据NASA 的统一元数据模型UMM 的数据映射标准,按照分类方法进行排序、组织与整理后编辑成目录。用于遥感数据资源的外部形式与内部特征的详细描述,便于遥感数据资源的组织、检索与共享获取[7]。本文从多源异构的遥感元数据接入处理、存储检索、可视化和共享等实际需求出发,提出了一套大规模遥感数据资源目录系统的技术框架,从元数据集成模型、元数据获取和遥感数据混合检索进行完整的描述与分析。确定遥感数据资源目录的定位与架构,其次依据遥感元数据标准构建具有较强扩展性的遥感元数据模型。并最终通过用例建模与服务建模验证遥感数据资源目录的可行性。

2 系统框架

大规模遥感数据资源目录系统框架是面向全球范围内的遥感数据源网站进行科学的管理与数据共享应用所形成的一系列数据模型、数据规范、方法和策略等。为系统内部不同数据库进行分类,组合与更新。为系统外部的资源提供分类的标准,统一的规范。实现不同需求方对数据资源目录的动态组织。在数据共享领域实现对数据资源的按需发布,提供标准化目录服务访问接口。

2.1 数据目录管理流程

系统在集成服务的基础上统一开放的服务器接口,在数据获取过程中不仅限于对数据源进行拉取,并允许第三方应用程序调用目录数据服务进行数据推送服务。将多源遥感元数据进行校验、过滤和更新等操作。集成流程如图1所示。

图1 系统管理流程示意图

首先数据提供方发布遥感数据资源成果,确定资源目录集成方式。包括主动推送数据或是对外提供统一数据接口的被动拉取方式。数据在共享区进行筛选过滤,对比数据存储中的文件目录进行数据质量检查,检查通过会统一多源异构的元数据模型,否则反馈给数据提供方对其推送的数据进行自检。根据不同定义的处理规则增量抓取待处理的数据。最后对资源数据目录进行更新、可视化发布展示遥感数据反演产品的元数据信息在管理平台上。同时,面向数据需求方,提供数据目录资源信息的检索,一体化的查询检索入口,资源获取申请和成果资源推荐等工作。检索平台包括遥感数据集、遥感元数据、遥感数据源和遥感产品等。

2.2 系统技术框架

大规模遥感数据资源目录构建技术框架面向全球范围的商业数据源、公开数据源和第三方数据提供者。各层级数据源所产生的各类遥感数据资源进行科学管理与共享应用所形成的一系列模型、规范、方法、策略和系统等[7],可促进遥感数据资源的有效管理、发现与共享服务。

平台采用面向服务的SOA架构技术,技术框架由数据层、采集层、存储层、服务层和应用层五部分组成,如图2 所示。平台在设计和实现的过程中始终贯穿统一的标准规范,以下自底向上对各层进行说明。

图2 大规模遥感数据资源目录系统技术框架

1)数据层,由不同的数据源提供方组成,包括国内外的免费公开遥感数据源,国内外的商业付费遥感数据源以及第三方接入的志愿遥感数据源等共同构成。不仅提供主动方式去拉取数据,还可以被动接收第三方数据源以推送的方式向平台提交遥感元数据。

2)采集层,基于平台的遥感元数据标准将其进行解析、适配、集成、存储、发布,最终确保平台中数据资源的一致性。构造分布式集群爬行器,对遥感元数据进行拉取或被动接收。通过统一的元数据模型,对其提取及格式转换、快视图提取等。为上层提供预处理后的遥感影像像元数据、波段数据和元数据。

3)存储层,基于统一元数据标准,将遥感元数据以标准元数据格式进行统一的模型转换与适配,包括原始数据库、遥感产品数据库、目录数据库和索引数据库等。最终将其批量导入与管理。数据管理员定期对存储层所存储的信息进行检查与数据备份。

4)服务层,服务层管理着多维数据资源目录,包括遥感产品目录、遥感数据集目录、遥感元数据目录、遥感数据源目录和遥感数据主题目录。并对外提供数据接口服务,可为不同用户提供数据服务、数据更新与数据维护。

5)应用层,应用层主要为大规模遥感数据管理平台提供遥感元数据的检索服务,需要实现影像数据全文检索、数据目录发布、数据目录维护、元数据统计并且平台提供影像资源数据的综合统计与资源推荐等。

3 关键技术

对多个数据源中存储的遥感数据进行元数据的获取、存储、检索和发布等,包括统一多源异构元数据集成模型、元数据拉取与推送、遥感数据混合检索与分析三部分。

3.1 遥感元数据集成模型

为实现数据目录的聚合,首先开放数据的元数据标准及目录清单的描述规范[8]。目前国内外的常用元数据制定标准尚未统一,这些不同来源的遥感元数据对于实现目录聚合造成了极大的困难。因此本文目的是设计一个广泛接受的元数据统一集成模型[9],提升元数据集成的可用性,可保证在目录集成时采用最低程度的工作程度,并确保数据目录信息的可用性和安全性[10]。

NASA 所设计的UMM[11]提供了较权威的映射标准。UMM 是一个可扩展的元数据模型,将遥感元数据分为六类,分别是颗粒元数据、服务元数据、集合元数据、可视化元数据、未来元数据概念、可变元数据,为CMR(Common Metadata Repository)支持的元数据标准之间的映射提供了交叉的途径,无需创建每个CMR 支持的元数据标准之间的映射,而是将每个标准集中地映射到UMM。本研究基于UMM 中的颗粒元数据UMM-G(Granule Metadata)统一元数据模型的理念与ISO 19115-2:2009 地理元数据标准,针对遥感元数据的特点,建立一个统一的遥感元数据标准格式,从需求方使用的角度出发,包括数据主题、数据集、遥感卫星、传感器和数据文件等。具体遥感元数据集成模型类图如图3所示。

图3 元数据集成模型类图

3.2 遥感元数据获取

遥感数据资源目录管理平台在进行主动拉取或被动接收数据时会周期性地启动守护采集进程。并且能够运用不同的网络协议适应不同的数据来源网站。遥感元数据获取的架构包括了主节点和多个工作节点。资源管理平台与主节点进行交互,主节点与其他模块进行通信。主节点和工作节点通过gRPC(一种RPC框架)进行通信。任务通过主节点上的任务调度器进行调度分发,并被工作节点上的任务处理模块接收,分配到任务执行器中。任务执行器实际上是执行元数据获取程序的进程,通过gRPC 从不同数据源获取元数据到主节点上。

元数据获取主动方式是主节点内的定时器会主动启动对数据源网站就行采集。被动方式是各数据源在中心完成注册,包括权限信息、元数据的正则约定等。在“推拉”的过程会进行预校验,通过预设的文件类型集合对新增元数据进行类型检查和完整性检查,失败的数据文件会重新进入队列等待重试,最后根据全局数据模型和面向异构遥感元数据的转换规则进行数据摄取。此外,在保证数据集成增量的同时防止对己经归档的数据重复摄取,工作节点需要通过与主节点确认是否己经归档,若未归档则将遥感元数据归档进容器中。并由Elasticsearch 对海量的遥感元数据进行实时的分布式存储、搜索和分析。完成元数据的分布式检索,达到数据服务的高质量和高效率的目的。遥感元数据获取架构如图4所示。

图4 遥感元数据获取架构

3.3 遥感数据混合检索

随着对遥感影像数据的不断获取,数据中心将存储海量的遥感元数据资源。如中国遥感卫星地面站贮存的数据总量超400 万条[12],地球观测系统EOS 日采集的数据量以4TB 的增速增长[13]。中科院地理空间数据云存储了超过300TB 的数据[14]。面对如此庞大的数据量对多源异构的遥感元数据进行统一存储势必会带来检索、管理、处理和分析上的难题。目前传统的遥感影像元数据使用的管理数据库为关系型或非关系型进行存储和查询。

使用较广泛的搜索引擎中间件和关系型数据库主要以空间索引Geohash[15]和PostgreSQL 使用的R 树[16]空间索引。传统的单服务器具有无法满足海量影像数据的存储和高效的使用混合索引等缺陷。随着非关系型数据库技术的高速发展,基于其的分布式存储与检索是解决海量数据存储分析较好的一种方式。Elasticsearch分布式搜索引擎作为其中的佼佼者,目前业界通常都会使用其处理数据的检索、存储和展示[17]。

3.3.1 实验内容

本文为验证不同空间检索平台的查询效率,同时解决单机并发处理能力有限、容错率低、计算能力低等缺点。搭建基于Citus 的PostgreSQL 集群和Elasticsearch 集群[18~19],使用包括Landsat、Modis 和Sentinel 等遥感元数据作为实验数据。将城市级100 万条数据、区域级600 万条数据、全球级1000万条的数据进行数据抽取、清洗、空间数据转换最终添加到混合索引库中,进行intersects 空间操作,查询数据是否与特定索引形状相交。

3.3.2 实验环境

1)Elasticsearch 集群:4 台配置相同的操作系统:Centos7.6;CPU:3.20GHz;内存:4GB。

2)PostgreSQL 集群:4 台配置相同的操作系统:Centos7.6;CPU:3.20GHz;内存:4GB。

3)运行环境:Node:v16.10.0。

3.3.3 实验结果

本文在选取实验数据后,提取影像元数据并选择了不同空间尺度参数,以此为变量设计了多组实验,进行不同条件下的检索效率实验,并对实验结果进行对比分析。效率对比如图5、6、7。

图5 城市级查询效率对比图

图6 区域级查询效率对比图

综合三组实验结果显示Elasticsearch集群检索速度在不同文本-空间维度的数量级的扩大带来的影响不大,检索效率均优于传统遥感领域常用的PostgreSQL 数据库集群,其本质在于Elasticsearch的倒排索引检索效率远高于B树[20]索引。

4 系统实现效果

大规模遥感数据资源目录技术已经实际应用到项目遥感数据采集与管理平台。平台的主界面包括目录服务、目录发布、专题目录和数据统计。遥感数据源包括(美国国家航空航天局大气数据中心、欧洲航天局哨兵站点、美国地质勘探局等来自许多国家不同组织机构),数据主题包括灾害、大气、生态、水体、气象等24个主题。如图8所示。可使用数据集、空间范围、时间范围和定位服务等分类对检索的数据进一步的排序或过滤。

图8 数据资源目录检索页面

5 结语

本文提出了一套大规模遥感数据资源目录系统的研究方法,充分考虑如何对国内外公开免费的遥感数据源、合作数据源等多源异构遥感数据源所提供的元数据进行共享方法研究。首先为元数据提供获取方法和工具,进而将多源元数据建立统一模型并汇总到平台。借助分布式搜索引擎框架ELK优势,提高元数据检索的效率。最后利用成熟的WEBGIS 技术对获取到的遥感元数据进行发布和应用。兼顾实用性和扩展性,其效果已在实际系统中得到验证与改进。未来将在遥感影像数据检索技术优化的研究基础上,通过引入自然语言处理方法,考虑基于语义的数据检索方法,在面对遥感影像数据的存储、管理、检索和发布等问题时能够满足遥感影像数据的快速检索和更加人性化的WEB服务。

猜你喜欢
数据模型数据源检索
2019年第4-6期便捷检索目录
面板数据模型截面相关检验方法综述
Web 大数据系统数据源选择*
加热炉炉内跟踪数据模型优化
基于不同网络数据源的期刊评价研究
专利检索中“语义”的表现
基于真值发现的冲突数据源质量评价算法
分布式异构数据源标准化查询设计与实现
面向集成管理的出版原图数据模型
一种顾及级联时空变化描述的土地利用变更数据模型