广西地理信息时空大数据分布式平台设计与应用

2022-03-17 10:04马骁驰
南方自然资源 2022年2期
关键词:空间规划国土时空

◎马骁驰

广西自然资源信息中心,广西 南宁 530029

2019 年5 月9 日,中共中央国务院发文《关于建立国土空间规划体系并监督实施的若干意见》指出,建立国土空间规划体系并监督实施要实现“多规合一”,即将主体功能区规划、土地利用规划、城乡规划等空间规划融合为统一的国土空间规划,解决现有各类规划的体系不全、类型过多、内容冲突与衔接差异等问题。在此背景下,具有多维动态、实时海量、多源异构、信息丰富等特点的国土空间规划数据的处理显得尤为重要。

广西“双评价”工作中涉及到的国土空间规划数据种类多、数量大且分析步骤复杂,数据和分析流程需要频繁变更,这就需要设计出一套能解决当前时空大数据分析与处理问题的方案[1]。笔者以开展广西的“双评价”工作为例,通过采用Hadoop HDFS 空间大数据存储资源池,结合ArcGIS GeoAnalytics Server 空间大数据分析平台的模式,对各类相关国土空间规划数据源进行汇总整合,包括现状数据、基础地理数据、规划数据、管控数据、管理数据等[2];再通过分布式平台进行数据运算,例如叠加分析、缓冲区分析、图斑边界融合、字段计算、统计汇总等,解决了广西在“双评价”工作中数据分析处理效率低和数据叠加精度低的问题,对广西各类空间数据分析工作具有重要意义。

1 数据分析方法

广西“双评价”工作的主要目的是实现土地资源、水资源、气象等要素的单项评价及农业、城镇、生态集成评价等功能[3],依据国土空间规划大数据的需要,对大数据进行量级权衡后选择合适的数据分析方法。对于考量为轻量级别的数据,可通过构建生态、农业、城镇集成评价体系来分析;对于考量为千万级别的图斑等数据,可采取地理信息时空大数据分布式平台进行模型运算分析。相比于其他耗时、耗力的分析方法,分布式平台具有高速、高效的运算且可以不断调整算法的优势。不同场景采用不同方法具有很强的可选择性和灵活性,评价体系与分布式平台的结合可以提供最佳评价与高效率的运算模型。评价体系与分布式平台之间的联系如图1 所示。

图1 数据分析方法联系图

2 构建评价体系

2021 年1 月19 日,自然资源部办公厅印发《资源环境承载能力和国土空间开发适宜性评价技术指南(试行)》(以下简称“双评价技术指南”),为国土空间规划的“双评价”工作指明了方向。依据指南,“双评价”工具所需数据包含基础地理类、土地资源类、水资源类、环境类、生态类和灾害类等6 种类型,共计19 项数据[3]。基础数据涉及多部门、多行业、多标准,在“双评价技术指南”中,土地资源评价分为农业生产功能指向的土地资源评价和城镇建设功能指向的土地资源评价。农业生产功能中的农业耕作条件是指土地资源用于农业生产的适宜开发利用程度,需满足一定的坡度、土壤质地等条件;城镇建设功能指向的土地资源评价主要考虑城镇建设条件,城镇建设条件是指城镇建设的土地资源适宜建设程度,需满足一定的坡度、高程条件。根据“双评价技术指南”,再结合广西的地形地貌特征,笔者在考虑诸多因素后构建了生态评价体系、农业评价体系及城镇评价体系。

2.1 生态评价体系

按照评价体系的构建要求,基于广西生态环境演变的特点,笔者在生态评价体系指标中选取能够反映广西生态环境问题的变量指标。包括2 个一级指标,即生态系统服务功能重要性和生态敏感性,其中生态系统服务功能重要性从生物、水源、土壤、风沙4 个方面考虑;选取了生物多样性维护、水源涵养、水土保持、防风固沙为具有代表性的二级指标;生态敏感性选取水土流失和石漠化2 个方面并将其作为二级指标(见表1)。

表1 生态评价指标体系构建表

2.2 农业评价体系

构建广西的农业评价体系,在保证采用的指标能够全面、客观、科学地反映区域农业发展水平和特点的基础上,遵循农业内在的发展规律[4]。按“双评价”工作要求选取承载能力与适宜性2 个评价方面作为农业评价体系的一级指标,选取土地资源、水资源、环境条件、灾害风险及农业生产5 个方面作为二级指标,这些指标数据来源于坡度、降水量、光热量、风速、集中连片度等(见表2)。

表2 农业评价指标体系构建表

2.3 城镇评价体系

根据广西的实际情况,按照“双评价”工作的要求,城镇评价体系的一级指标分为资源环境承载能力评价与国土空间开发适宜性评价,其中承载能力评价包括了地形坡度、地质条件、水资源可利用量、大气环境容量、水环境容量、地震灾害危险性及地质灾害危险性,国土空间开发适宜性评价包括了集中连片度、距中心城区的距离、距主要交通干道的距离及距交通枢纽的距离(见表3)。

表3 城镇评价指标体系构建表

3 分布式平台设计

3.1 总体架构

广西地理信息时空大数据分布式平台采用Hadoop HDFS 空间大数据存储资源池,结合ArcGIS GeoAnalytics Server 空间大数据分析平台的模式来部署环境,具有5 台搭载了16核CPU 的内存255 G 物理机,运行稳定高效的同时还可以虚拟出15 台虚拟机,在逻辑上可划分为基础服务层与数据层两部分结构。广西地理信息时空大数据分布式平台以HDFS 分布式存储系统、关系型ArcGIS DataStore 及时空型ArcGIS DataStore 作为数据层。基础服务层包括基础ArcGIS Enterprise 与ArcGIS GeoAnalytics Server(GA Server),采用的版本号为10.7.1。

3.2 基础服务层

在基础服务层中,基础ArcGIS Enterprise 有Portal for ArcGIS、ArcGIS Web Adaptor、ArcGIS Data Store、ArcGIS Server 等组件。其中Portal for ArcGIS 是Web GIS 平台的门户中枢,用户可通过Portal for ArcGIS 集中管理托管的在线资源,实现跨组织、跨部门的资源分享。ArcGIS Web Adaptor 用于ArcGIS GIS Server 与企业级Web 服务器的整合。ArcGIS Data Store 是新一代Web GIS 系统的数据存储部分,支持关系型、切片缓存和时空大数据3 种类型的数据库存储。GA Server 提供了基础GIS 服务资源及数据汇总、邻近分析、数据管理、位置查找、模式分析等20 多种时空大数据分析工具,还有地图服务、要素服务和地理处理服务,用于空间大数据的分析。GA Server 的执行分析源支持多种输入数据类型,如HDFS、文件共享、云存储、Hive 数据仓库、托管要素服务等,输出数据类型支持时空大数据库、关系型数据库等,数据格式为CSV、Shapfile、Parquet、ORC 等。GA Server 不仅提高了空间大数据的计算速度,还可以与传统地理处理工具结合搭建复杂的业务模型进行工作流的自动化处理。ArcGIS Data Store 及ArcGIS GeoAnalytics Server 采用时空大数据存储集群部署模式,配置3 个计算节点,每个节点的虚拟机拥有16 核CPU、128 G 内存及500 G 硬盘,在GA Server 计算节点数量配置及节点虚拟机性能配置的规划上,综合了数据规模、执行运算的复杂程度和使用频率等因素,其他组件采用单机部署模式。

3.3 数据层

广西地理信息时空大数据分布式平台部署的Hadoop 版本号为2.9.2,采用集群部署模式,总共5 个节点,每个节点都是操作系统为Debian GNU/Linux7(64 位)的虚拟机,每个虚拟机的配置为2 核CPU、4G 内存及400 G 磁盘空间。

HDFS 是Hadoop 项目的核心子项目,它所具有的高容错性、高可靠性、高可扩展性、高可获得性、高吞吐率等特征,为海量数据提供了可靠的存储保障,且对于空间数据有很好的兼容性,为超大空间数据集的应用处理提供了便利。HDFS 主要用于国土空间大数据的分布式存储和管理,采用了Master/Slave 的主从结构,每个HDFS 集群由一个名称节点和许多数据节点组成,通常一个节点就是一台服务器。

ArcGIS Data Store 是从ArcGIS 10.3 版本开始推出的一种新的数据存储容器,一般与Portal for ArcGIS 配合使用。它提供了一种简单轻量的安装部署和使用体验,使得ArcGIS用户无需配置复杂的大型商业数据库环境,在分布式计算平台中主要用于存储大数据的分析结果、快速创建托管的要素服务、场景服务和时空大数据存储服务。其中,关系型ArcGIS Data Store 采用单机部署模式,时空型ArcGIS Data Store 采用集群部署模式,共计3 个节点,并且分布式计算平台中的服务器组件计算节点的个数可以根据处理的数据量和时效性要求进行动态横向扩展。

4 体系平台应用

4.1 数据入池

结合广西国土空间规划“双评价”工作的具体要求,按照分布式平台大数据入池的技术规范,完成各类业务数据的预处理及数据迁移入池工作。目前已入池的数据包括广西2009 年度第二次土地调查成果数据、2010—2018 年度土地变更调查成果数据、第三次全国国土调查(以下简称“三调”)统一时点更新成果、历年耕地数据、耕地质量等别、永久划定基本农田保护图斑、坡度、自然保护区数据、湿地数据、生态保护红线、土壤侵蚀数据、石漠化数据等。再建立统一的数据目录,并对数据源进行数据质量的检查、坐标转换、数据格式转换等数据清洗工作。

4.2 数据存储

遵循统一的技术要求,按照数据分阶段、分区域汇集的管理模式,将国土空间规划相关的业务数据分别切块,各要素类分割成多个Shapefile 格式的矢量数据,将切块好的数据分别上传到Hadoop HDFS 中,进行数据的注册、接入、汇集、建库后,形成分布式存储的全区覆盖、内容完整、准确权威、动态鲜活的国土空间规划信息数据资源池,将数据从传统的数据库存储、文件系统存储迁移到分布式文件存储系统中,并建立元数据描述,用于大数据分析挖掘的输入源。

4.3 数据运算

通过搭建地理信息分布式计算平台,运用ArcPython API 编写与设计分布式运算模型,针对“双评价”的业务指标,结合数据源数据结构,对空间大数据进行分析处理。针对大部分已经存在的矢量数据,如果转为栅格数据处理,会导致一定程度的数据丢失和边界丢失,因此,笔者在有条件的情况下,采用了矢量数据叠加方式处理各类评价相关数据。下面以生态适宜性评价为例。

(1)模型选取与数据情况。从生态系统服务功能重要性和生态敏感性2 个方面开展生态保护重要性评价。考虑到广西的实际情况,生态系统服务功能重要性指标选取生物多样性维护重要性、水源涵养重要性和水土保持重要性;生态敏感性选取水土流失敏感性和石漠化敏感性(见表4)。

表4 模型使用数据情况表

(2)生物多样性评价过程。第一步,收集林地变更调查成果,根据林业变更调查成果中“优势树种”字段,对照国家“双评价技术指南”中优先保护生态系统目录,提取优先保护的重要树种范围,并套合“三调”成果对其现状进行核实,将现状为林地的部分划为生物多样性保护极重要等级;第二步,参考森林覆盖率计算方法,将“三调”中乔木林地和竹林范围,与林地变更调查数据中“郁闭度”属性叠加,将郁闭度0.2 以上的乔木林地和竹林作为森林系统范围,极重要区以外的森林划为生物多样性保护重要等级;第三步,将其他区域划为一般重要等级;第四步,编写模型代码。

(3)生物多样性评价结果。全区生物多样性维护重要性评价结果为极重要区域面积为44 674.06 km2,占全区国土总面积的18.80%;重要区域面积为63 066.47 km2,占全区国土总面积的26.54%;一般重要区域面积为129 887.47 km2,占全区国土总面积的54.66%。

4.4 服务发布

把分析结果制作成各种专题信息产品,以可视化地图图层服务的形式对外发布。

5 应用成效

开展广西国土空间规划“双评价”工作,涉及了全区89 个县和14 个地市的数据处理。采用分布式地理空间处理平台可以快速完成包括水源涵养量、生物多样性、水土保持、生态系统服务功能重要性、水土流失、石漠化、生态敏感化、生态重要保护评价、农业生成适宜性评价、城镇建设适宜性评价等多个指标的分析评价。分布式计算平台极大提升了“双评价”分析处理的效率,例如,用传统的桌面ArcGIS 进行分析,广西第三次国土调查地类图斑与2018 年土地变更调查地类图斑相叠需要约18 h,而分布式计算平台只需要约100 min;再如广西第三次国土调查数据的面积计算,桌面ArcGIS 需要约42 h,而分布式计算平台只需要约30 min。同时,在计算的稳定性方面,分布式平台要优于桌面版ArcGIS,特别是针对千万级以上的数据,即使单节点失效或计算失败,分布式平台多节点部署的模式也能确保分析顺利进行。

6 结语

广西地理信息时空大数据分布式平台实现了广西全区国土空间规划“双评价”各单项指标和综合指标的快速分析处理,对于千万、亿万级别数据量的空间分析,原来需要几天、几周,甚至数月才能处理完成,而现在分钟级即可实现,大大提升了庞大空间数据分析处理的效率。同时,平台支持计算节点的横向扩充,当用户需要进一步提高空间分析效率的时候,可以在不改变原有部署环境的前提下进行虚拟计算节点的CPU 和内存资源的扩充及节点个数的增加,这契合了云计算“按需使用、弹性调整”的思路。

广西地理信息时空大数据分布式平台为时空大数据分析提供了较好的解决方案,基于分布式计算平台,不仅促进了国土空间规划“双评价”工作的开展,同时提供了较强的计算能力,用于核实生态红线、“三调”各地类情况、坡度情况、流量情况等,可以应用于不同的场景中,可以广泛应用于大范围的地类流量分析、国土空间规划、自然资源调查监测评价、智慧城市构建等领域。

猜你喜欢
空间规划国土时空
跨越时空的相遇
国土空间规划背景下的乡村振兴实施路径
国土空间规划的法理和机理
新时期国土空间规划编制的思考
镜中的时空穿梭
鲜花盛开的国土
守望国土的藏族姐妹花
守望国土的藏族姐妹花
银河空间规划委员会
玩一次时空大“穿越”