智慧园区时空大数据融合治理平台设计与应用

2022-05-05 13:35:30合肥市测绘设计研究院安徽合肥230061
安徽建筑 2022年4期
关键词:任务调度结构化时空

孙 丽 (合肥市测绘设计研究院,安徽 合肥 230061)

1 引言

智慧城市时空大数据建设已经在智慧城市建设和城市运行管理中得到了广泛深入应用,极大地提高了城市管理能力和水平。智慧园区时空大数据库作为智慧园区建设的重要组成部分,实现园区各业务部门业务数据库中多源异构数据的汇聚和融合是智慧园区建设的首要任务,然而现有各业务系统的数据库分布广泛、结构不同,需要建设数据融合治理平台来接入、融合各业务系统数据源(包括结构化数据与非结构化数据),完成各种数据的接入、融合、治理并装载到时空大数据库,进而推动各行业委办局联动和智慧示范应用落地,为园区新型智慧城市建设奠定基础。

2 设计思路

本文结合智慧园区时空大数据库的科学管理、业务应用建设需求出发,开展时空大数据库存储设计、数据融合治理模式探索,构建了智慧园区时空大数据融合治理平台。时空大数据库基于关系型数据与非关系型数据库方式进行大数据管理与数据存储,结合Spark分布式架构设计,实现对基础地理数据、专题数据以及实时动态数据统一编目管理,完成对数据的抽取、融合、治理。

3 时空大数据存储、融合治理模式设计

3.1 时空大数据数据库存储设计

平台建立了多技术类型、多业务类型的数据仓储,满足多源数据的持久化需求。时空大数据融合治理平台中数据仓储主要是由关系型数据库和非关系型数据库构成。不同类型的数据,采用不同的数据存储技术。其中,按照数据存储方式分为结构化非空间数据存储、结构化空间数据存储和非结构化空间数据存储。按照数据库类型分为时空数据仓库和元数据库。在数据存储内容方面,各类数据根据数据内容的不同采取不同的存储方案。

①静态时空数据:既有结构化数据也有非结构化数据。结构化数据包括矢量数据、影像数据、格网数据、建(构)筑物数据、地名地址类数据(地理编码)以及业务表格等,主要以“ArcSDE+关系型数据库(Oracle)”存储;非结构化数据包括切片数据、影像数据、三维模型等,主要以FTP进行储存。

②动态时空数据:既有结构化数据,如转换解析后的动态运行数据、传感数据、媒体数据,该类数据与传统地理空间数据完全不同,为实时变化的传感器数据、文本数据、图片、视频等数据,这些数据可采用HDFS、MongoDB进行存储。

各子库的数据录入时都要录入元数据信息,以提高查询检索效率,元数据统一存储在关系型数据库中。存储设计如图1所示。

图1 数据存储设计

3.2 时空大数据融合汇聚方式设计

时空信息融合汇聚是所有数据进入时空大数据库的入口,也是各类数据更新的入口,提供在线接入和离线拷贝两种方式。其中,在线接入主要针对的是实时动态信息和各类行业专题数据,对于静态地理信息数据、历史地理信息数据、远景规划数据等数据采用定期离线拷贝的方式进行汇入,经整理后转换为可提供的时空信息成果数据或服务。数据融合治理区提供灵活可配的数据清洗转换能力,实现跨业务系统,跨异构数据源的数据汇集及转换,对离线拷贝、在线接入的各类数据经过抽取、清洗后形成中间成果数据,根据时空大数据模型进行分层处理、空间化处理,然后经过数据处理治理、数据质检、数据入库,进入最后的时空大数据库中。

4 时空大数据融合治理平台功能设计

以解决实际的业务问题为平台建设的出发点和归宿,旨在从园区各业务部门提取分布广泛、结构不同的业务数据并装载到时空大数据库。本文基于ETL数据抽取融合技术和Quartz分布式自动化任务调度框架构建了时空大数据融合治理平台,基于流程的可视化任务定制并行计算框架技术实现图形化数据汇聚流程定制功能,通过作业设计器,规划作业步骤,定制步骤间的依赖关系,保证了时空大数据的自动、高效、可持续的融合汇聚。平台主要由数据融合治理工具、数据融合任务调度工具、数据融合执行工具、数据融合监控管理中心等功能模块组成。其功能架构如图2所示。

图2 系统总体功能架构图

数据融合治理工具作为平台的功能主体,具有转换流程设计器、作业设计器,用于定义数据清洗及转换,作业的执行流程配置,针对多源异构数据自定义数据融合流程,以拖拽的方式进行数据融合治理设计,并将设计好的方案保存在计算模型集中,提供数据处理插件,供数据融合服务使用。其主要负责将分散的、异构数据源中的数据按照统一的规则集,完成数据从数据源向目标数据仓库转化的过程,为数据分析处理、挖掘提供基础。

图3 自定义数据融合治理流程

图4 数据融合管理中心

数据融合管理中心作为数据处理任务的调度监控管理中心,主要负责执行设计工具形成的转换作业进行服务化调度和执行,并监控任务执行时的硬件资源、任务运行状态,以及异常情况的跟踪、记录与警告处理。

任务调度执行模块可以执行持续的分布式作业任务,并为任务调度及任务执行状态展示提供支撑。任务调度工具以任务调度为主体,对数据融合治理工具完成的转换作业进行服务化调度和执行。任务执行工具主要在节点上运行方案,完成数据汇聚融合工作。

5 平台应用研究

智慧园区时空大数据融合治理平台在辅助智慧园区示范应用建设中,初步构建了“以数据为基础、以融合为核心、以应用为导向”的应用管理模式,对于汇入的错误、冗余的多源异构数据进行冗余清除,按照空间位置属性或时间属性对数据进行聚类抽取计算,对不同类型的时空数据根据灵活配置规则,进行合法性判定,利用平台提供的多类数据融合治理工具,实现了多源异构时空数据的处理和融合,规范了时空数据管理和处理流程,并在智慧规划、智慧环保等示范应用中取得实际应用,如融合治理规划用地数据、水质实时动态监测数据等,推动了各业务部门数据的共享协同和智慧示范应用落地,有效地提升了园区智慧城市建设应用管理的水平。

6 结束语

为了持续、实时、高效地进行园区各业务专题数据的抽取和汇聚融合,本文基于ETL数据抽取融合技术及分布式自动化任务调度框架构建了融合计算平台,接入了园区环保、城市管理、建设发展、测绘、自然资源和规划等多个业务部门的专题数据,其业务数据具有多源性、异构性和实时性等特点。通过可视化业务建模,构建了集融合治理任务设计、任务调度、计算执行于一体的作业组件与实时计算,提高了数据融合效率、错误处理效率和数据融合准确度,实现了众源数据的自动融合,并在园区示范应用建设中取得了一定的应用效果,为后续融合更广范围的专题数据、实时动态数据提供技术依据和基础。

图5 规划用地数据融合治理展示

图6 水质实时动态监测数据融合治理

猜你喜欢
任务调度结构化时空
跨越时空的相遇
促进知识结构化的主题式复习初探
镜中的时空穿梭
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
基于改进NSGA-Ⅱ算法的协同制造任务调度研究
基于时间负载均衡蚁群算法的云任务调度优化
测控技术(2018年7期)2018-12-09 08:58:00
玩一次时空大“穿越”
时空之门
云计算环境中任务调度策略
云计算中基于进化算法的任务调度策略