黄盖
(新疆国源测绘规划设计院有限公司,新疆 库尔勒市 841000)
业务信息化的推进以数据为基础,与传统静态的、已知的数据相比,大数据是动态和未知的,时空数据是一种特殊类型的大数据[1]。时空大数据云平台把各种分散的时空数据汇聚在平台上,通过数据的多维融合、关联分析和数据挖掘等过程,找出数据隐含的规律,帮助决策者做出快捷、全面、精准和有效的预判,正如中国工程院院士王家耀所说“数据隐含价值,计算发现价值,应用实现价值”,时空大数据正日益成为治理体系和治理能力现代化的核心驱动力。近年来,可视化分析、并行数据处理、Hadoop 计算框架等技术不断应用到时空大数据业务中[2]。现阶段迫切需要利用云端运算,对结构复杂、数量庞大的数据进行融合分析,转化为有价值的信息。市级自然资源时空大数据云平台立足于一网一库一平台N 应用的信息化总体规划,在政务网(一网)环境下构建一体化数据库(一库),支撑自然资源政务管理与服务平台(一平台)、调查监测及政务服务等应用(N 应用)。
时空大数据来源广泛,数据的丰富性和飞速发展的云计算技术为GIS 提供了新的应用模式,在这种形势下,云平台建设之路,经历了基础设施的梳理到整合,从数据聚合到按业务梳理,不断地探索时空大数据云平台技术实现之路。为适应当前信息化要求,仍有以下任务:
一是做好总体框架设计,满足未来发展需求。二是构建高效基础支撑层,满足计算、存储、I/O 吞吐量、系统稳定性等综合要求。三是提升时空大数据挖掘分析能力,支撑更大范围数据的快速分析和数据深入挖掘能力。四是以应用为导向盘活时空大数据,探索更深入的应用。
时空大数据应用云平台四层结构,从下至上分别为基础层、大数据资源中心、政务管理与服务、应用层,云安全体系全方位保障,总体框架体系如图1 所示。
图1 总体框架
(1)基础层。基于虚拟化技术,对下层硬件资源进行封装、隔离,抽象为逻辑资源池,向上层操作系统提供多样化的执行环境。利用对象存储、分布式存储技术将时空数据和非时空数据进行存储管理,用大数据计算方法进行抽取、清洗,提供给上层大数据资源中心使用。
(2)大数据资源中心层。通过数据总线向上层政务管理与服务层提供丰富的数据服务,同时接收来自应用系统层产生的应用数据,不断地丰富时空大数据资源。
(3)政务管理与服务层。基于面向服务的GIS 架构和服务总线,提供专题服务、业务规则库和对数字政府通用服务的支撑。
(4)应用层。通过服务调用和应用开发提供各种自然资源业务应用,按业务层面主要分为业务监管与服务应用、调查监测评价应用和政务服务综合应用三大类。
(5)云安全体系。应用安全方面,通过统一身份认证系统实行严格身份认证,应用防火墙针对不同应用设置精细策略。数据安全包括容灾备份和传输加密。主机安全方面部署亚信虚拟化防护系统进行深度安全防护。网络安全包括设置安全域、应用防火墙技术对DDoS 等攻击进行有效防护。云平台安全通过多租户隔离实现不同应用的安全隔离。运维安全方面使用堡垒机登录云平台、云服务器和物理设备,实施操作的可追溯审计。
市级时空大数据云平台在原来虚拟化技术的基础之上,按照统一标准构建时空大数据云技术架构,实现裸金属服务器、虚拟机、容器环境、华为基础设施等多套技术体系的融合,最终达到统一化管理。通过隔离驱动层一方面直接支撑时空大数据业务,另一方面通过接口为与“数字政府”之间对接打下基础。超融合基础支撑环境如图2 所示。
图2 超融合基础支撑环境
市级时空大数据中心为前中后三层结构,前端负责数据应用,中间负责数据处理,后端负责数据收集及存储。时空大数据中心体系框架如图3 所示。
图3 时空大数据中心体系框架
5.1.1 后端数据存储
包含空间数据和其他数据,空间数据描述现实世界的目标,用点、线、面以及实体等基本空间数据结构来表示空间实体的位置、形状、大小及其分布特征;其它数据包括属性、文本、图像等多种空间实体的辅助表示信息数据。数据分涉密版、政务版和公众版,涉密版数据留在涉密存储区,作为其他项目的原始数据集,政务版和公众版数据通过安全隔离网闸摆渡到电子政务外网区或互联网区成为业务应用数据。
5.1.2 中间数据处理
首先按业务需求对数据源中的表或视图进行抽取,转换成ETL 工具可以识别的格式;然后按规则对抽取的数据进行清洗处理,以纠正数据文件中可识别的错误,使数据具有一致性;最后对数据进行挖掘分析、可视化展现。
5.1.3 前端数据应用
基础数据服务提供要素、地图、目录、地名地址、资源共享、资源订阅等服务;数据处理服务提供在线编辑、应用定制、矢量切片、专题制图等服务;数据分析服务提供通用化空间分析引擎、空间数据变化监测分析等。
机构改革之后,市级自然资源管理部门在原有一体化时空大数据组织结构,即公共基础类、专业基础类、业务管理类、公共政务类四大类进行数据组织的基础上,重点收集补充整合海洋、空间规划、地质环境类数据,不断丰富时空大数据资源。
采用Hadoop 主/从集群架构体系,把GIS 应用程序(称为“作业”即“job”)分割成许多个小工作单元(称为“任务”即“task”),放到集群的任意节点上执行;分布式文件系统(HDFS)主要负责集群节点的数据存储,并实现高吞吐率的数据读写;分布式并行计算模型MapReduce[4]用于搜索领域,解决海量时空大数据的计算问题。Hadoop 分布式计算框架如图4 所示。
图4 Hadoop分布式计算框架
由管理节点和多个计算节点组成,较于分布式此方式的数据集中存放。管理节点将任务按数据拆分成多个子任务,并将子任务及数据推送给计算节点,计算节点运算完成后通知管理节点执行完成或失败,以便开始接受下一个任务。
一是实时计算场景使用高性能计算。主要针对用地审批、矿业权登记等业务的支撑,将单个项目地块与全市的现状地类图斑、规划地类图斑等百万级要素图层同时叠加分析,可以有效支撑全市各县区的并发访问。二是批处理的计算场景使用分布式计算。主要用于全域范围的分析评价与监督评估,如国土空间规划实施监督的指标计算,用百万级要素的全市范围的现状图斑和规划图层同时叠加分析。
在面向服务GIS 架构基础上探索云化实现,从云化模板出发,结合容器技术实现业务微服务,达到云化业务程序的目的,业务云化框架如图5 所示。
图5 业务云化框架
在微服务架构下应用docker 容器技术,通过模板制作、应用类型注册、投递方案配置、投递参数配置、投递订单解析、投递流程实现等环节,初步构建了一套从开发、测试、部署、发布到持续交付的业务云化机制。
一是已实现包括三大阳光工程(阳光用地、阳光用矿、阳光用水)、国土空间规划、城市地质和决策参阅等重点应用支撑。二是政务信息共享方面,拟通过数据交换、服务对接等方式和政务大数据中心等实现联通对接,依照部门职能按需共享,为其他政府部门共享自然资源专题数据,延伸数据服务范围。三是丰富自然资源时空大数据资源。计划利用政务大数据中心的人口、法人、社会信用等各类数据和服务,丰富数据内容。
市级时空大数据云平台通过应用超融合架构节省了硬件投资,通过云化业务技术简化了应用部署,通过分布式高性能计算框架提升了业务的对外服务能力,依托云平台建成的自然资源时空大数据中心,实现了数据资源的统一管理,随着数字中国的发展,时空大数据云平台将发挥更多作用。