基于计算机技术的遥感大数据分布式管理与训练云平台设计

2022-04-29 13:49刘天贻
计算机应用文摘 2022年20期
关键词:微服务

刘天贻

关键词:遥感数据;深度学习云平台;分布式存储;分布式检索;微服务

本文使用以并行计算为基础的云计算技术解决遥感影像数据存储管理过程中由于数据量大、更新频繁而带来的数据存储和数据检索的问题。以分布式计算和分布式存储为基础,结合遥感数据目标识别与变化检测应用的需求,本平台通过自研在线样本采集和定制的深度学习算法,实现遥感影像的自动解译。同时,本平台还提供对模型预测结果人工修正的人口,将人工反馈结果作为反馈数据集交给模型训练模块进行迭代训练,形成模型自迭代学习的机制。相较于传统离线影像数据处理方法,本平台基于分布式存算模型的遥感数据管理与训练框架降低了生产过程中数据管理分发难度,简化了遥感深度学习模型训练流程,提高了遥感深度学习模型训练效率和遥感影像利用效率,为海量卫星遥感数据管理与应用平台的研发提供一种新的思路。

1系统框架

一站式遥感大数据分布式管理与训练云平台由基础设施层、分布式计算层、分布式混合存储层、微服务层、应用层和运维系统组成。

(l)基础设施层为其他各层提供通用的技术能力,包括为服务层提供持久化机制,为应用层传递消息等。虚拟化层在原始硬件级通过VMware虚拟CPU、内存和I/O设备以多个并行用户来改进硬件资源的利用率[3].基于Docker容器的操作系统级虚拟化方案保证了物理机器和虚拟机实例数可以弹性伸缩,以很小的资源開销实现文件系统、网络、进程和资源的隔离。

(2)分布式存储计算模块负责多元异构影像数据及影像相关数据的存储与检索,为服务层提供数据读写与检索接口[4]。存储层针对遥感影像数据、影像标签数据、矢量数据以及瓦片数据和系统业务数据分别设计基于HDFS,Ceph,HBase,Accumulo和PostgreSQL数据库的存储与操作接口,实现遥感数据的混合存储与管理。ElasticSearch和Geomesa的引入优化了数据检索的效率。

(3)微服务层以弹性分布式计算为基础,以低耦合高内聚为原则将系统中不同场景的业务和功能拆分成一组微服务分别提供服务。所有的微服务共同构建起整个系统的微服务层。微服务架构降低了单体应用部署、配置、维护的复杂性。

(4)应用层在整合底层模块的基础上为用户提供数据管理与服务操作接口。通过遥感影像入库系统、遥感影像分布式管理系统、样本工程系统、样本管理系统、模型训练系统和应用系统六个子系统的数据流通与协同运转为用户提供遥感数据“入库-管理-训练,预测”的一站式服务。

2关键技术

2.1分布式混合存储模型

本平台根据不同数据类型的结构设计了不同的存储模型。主要涉及影像数据模型、矢量信息、标签数据和业务数据的存储。

影像数据模型包含影像元数据、影像像元数据和影像瓦片数据。经过归一化处理之后的遥感元数据数据量较小,适合存储在关系型数据库PostgreSQL中。最终选用分布式键值NoSQL数据库Accumulo存储影像瓦片数据。

矢量空间要素之间存在复杂的拓扑关系,同时在模型迭代过程中需要高效处理批量矢量图斑数据的更新问题。本平台选用面向列存储的HBase数据库存储矢量要素。HBase在矢量空间数据存储和管理过程中的优势主要体现在列存储的高效性和高扩展性。

标签数据由存储地物分类信息的空间矢量数据通过矢量转栅格的算法处理得到,本文选用分布式对象存储系统Ceph存储和管理标签数据。Ceph对象存储采用RADOS(Reliable Autonomic Distributed ObjectStore),保障标签数据的读写效率,采用CRUSH数据放置采取算法,保障了标签数据负载能够得到有效均衡。

2.2时空大数据索引

为了保证存储于HBase中的时空矢量数据的快速存敢,本文使用Ceomesa构建了矢量数据构索引。利用G eomesa提供的X23时空索引,将包含经度、纬度和时间三个维度的数据按照基于Z-Order填充曲线(见图1)的CeoHash时空编码技术进行降维,得到一维数据作为Key,方便在HBase数据库中进行查询。这种时空索引技术能高效地达到降维效果,同时可以保持数据的locality特性,提高基于经纬度和时间的检索效率。

2.3微服务架构

为了满足系统稳定性和可扩展性方面的要求,本平台选用基于服务网格的微服务架构。相对于Dubbo框架和Spring Cloud框架,该模式降低了服务治理与服务之间的耦合度。同时,服务网格框架强调了各个代理之间形成的有机网络。以通用组件的形式管控系统中所有服务通信流量,同时下沉了微服务开发的技术栈,可以做到跨语言的服务调用、功能可扩展。

通过对平台业务进行合理拆分,降低不同服务之间的关联影响,本文设计了具备高可用性、高扩展性、可伸缩性和运维智能化的遥感大数据管理与训练微服务架构。

3系统实现

3.1业务流程

一站式遥感大数据管理与训练云平台包括以下6个子系统,并且它们相互依赖。

(1)遥感影像入库系统:负责对多源异构的遥感影像数据进行数据预处理、清洗、入库等ETL工作,并将其存储到平台中。

(2)遥感影像管理系统:对混合存储模型中的多源异构遥感数据进行数据管理,并提供数据的多维度统计指标实现数据监控。

(3)样本工程系统:负责样本勾画任务的创建和分配以及样本勾画过程跟踪等。以样本分类体系为基础,体系化管理和维护采集中使用的地物解译类别以及外业采集的实地图片,为样本管理系统提供数据支撑。

(4)样本管理系统:通过对检索结果中的影像数据和矢量数据进行整理和重构生成训练样本集。训练样本集中包括影像切片数据和标签数据,是模型训练系统的数据来源。

(5)模型训练系统:根据用户选择的模型训练算法对训练样本集进行样本类别转换、训练集划分、验证集划分等操作。模型训练完成之后,可参照系统提供模型精度评价调整模型参数进一步优化模型。

(6)应用系统:应用系统基于模型训练系统提供的模型对影像数据进行地物提取或者变化监测。基于预测的结果进行人工解译可进一步生成反馈数据集。

3.2系统配置

本文基于上述技术设计搭建了服务于遥感影像处理和解译模型训练的一站式遥感大数据管理与训练云平台。该平台的软硬件配置如表1所列。

3.3性能测试

本文选取影像金字塔切分过程的耗时作为观测指标来验证分布式遥感云平台的性能。在CPU频率与内存容量等硬件水平相当的环境下对分布式遥感云平台和Arc CIS Server处理系统影像金字塔切分耗时进行对比测试实验。实验分别选取数据量大小在0.5GB.1CB,2CB,3GB左右的影像。从图2可以看出,在硬件配置和影像大小相同的情况下,分布式遥感云平台的金字塔分层切分耗时小于Arc CIS Server系统,其相对加速比大于2。上述实验数据证明了分布式遥感云平台在遥感影像金字塔建模处理的效率上具有明显优势。

4结束语

本文设计了一种基于计算机技术的一站式遥感大数据分布式管理与模型训练云平台。平台构建了以异构的遥感数据为基础的混合存储模型,以Spark为载体的分布式计算模型,以服务注册与发现、服务交互为基础的微服务架构。结合深度学习在遥感影像数据处理的应用完成了一站式遥感大数据分布式管理与模型训练云平台的整体建设,为构建高可用、易扩展的遥感数据存储共享与处理平台提供了一种解决方案。

猜你喜欢
微服务
数字文化馆建设中的“微服务”
基于微服务架构的日志系统
微服务架构及相应云平台解析
基于供给侧改革理论的图书馆社交网络微服务研究
微信公众平台在医院图书馆的应用现状调查
基于微信企业号的校园移动服务
微服务视角下高职图书馆数字资源使用分析
从单一模式系统架构往微服务架构迁移转化技术研究
基于微信公众平台的高校图书馆微服务现状及对策
微媒体时代高校图书馆阅读推广微服务探析