张 晨,武宇娟,段 琛,张锌蕾
(1.自然资源陕西省卫星应用技术中心,陕西 西安 710002;2.陕西省地质大数据中心)
随着大数据时代的到来,科学研究进入了以大数据为基础、以数据密集型计算为手段的第四范式。大数据技术可助力地质调查工作进入数字化、智能化的地质调查时代,促使地质数据共享与开放,突破各种主客观因素的限制推动数字经济发展。
本文在分析、总结陕西省公益性地质数据资源特征的基础上,探讨了大数据架构思想指导下地质数据分级共享服务的设计思路和实现情况,形成了可行的平台建设方案,为数字中国提供了陕西省公益性地质调查领域的典型案例及经验。
地质学属于数据密集型科学,地质大数据具有大量性、特殊性、涉密性、多样性和价值性[1],也具有潜在价值大的标志性特征[2]。陕西省公益性地质调查工作在矿产地质、农业地质、城市地质、地质灾害综合防治、国土空间规划、地质遗迹、自然资源卫星遥感技术应用等领域,积累了多维、多元、多源的静态数据和动态数据,具有数据格式丰富、数据维护碎片化、静态数据价值高、动态数据体量大的典型特征。
综合分析现有公益性地质数据管理和利用现状,以“多级文件夹+文件”的数据存储模式以及地质资料汇交流程下的数据管理方式已经无法支撑地质数据在汇存管用各个环节的高效流转和数字资产管理,与数字地质工作新格局的要求尚存在较大距离,不利于地质数据的深度挖掘和价值再造。充分考虑地质数据的混合性、抽样性、稀缺性、多源性、多元性、多态性、时空性、变化性、因果性、关联性、方向性、分带性、代表性、惟一性等等[4],兼顾数据更新方式、频率,陕西省公益性地质大数据服务平台自下而上划分为基础设施层、数据层、服务层、应用层(图1)。引入分级共享审核流程,来保障数据资产管理、智能分析以及服务调用等方面的需求。
图1 系统总体架构
采用私有云方式建立一个集中式基础环境,通过使用服务器端虚拟化技术对资源进行集中管理,实现资源粒度的划分和封装,提供虚拟BIOS、虚拟处理器、虚拟内存、虚拟设备与I/O 能力,保护关键业务系统和数据。
准确、全面是大数据的基础[3]。在实现数据随用随调、细粒度服务、全面可见的同时兼顾管理的可操作性是数据层设计的难点,也是本平台设计的核心。利用Hbase 和HDFS 将多源异构原始数据进行分布式存储,采用关系型+文件系统的存储管理方式实现多源、异构数据的管理,通过索引关系进行统一的查询、浏览、管理和维护。结构化数据、元数据等采用关系型模型进行存储和管理;矢量数据,例如基础地理数据、地质图件数据等,采用扩展关系型模型(Geodatabase)来进行存储和管理;非结构化的图片、电子文档、音视频等数据,则以元数据+编目+文件方式统一存储在文件服务器上;多源、多分辨率,多时相的遥感影像数据区分为冷数据和热数据,采用元数据+编目+影像文件方式,冷数据存储在磁盘阵列上,热数据存储在缓存中。
使用专业的数据处理工具和人工交互方式,对原始数据进行提取、转换、重构、空间投影转换和质检后入库。以符合地质调查行业习惯的数据分类为主,利用标签系统扩展数据特征维度,建立数据库分类目录。在不改变空间数据原始格式的情况下,使用商用Web 空间数据服务平台将其发布成符合OGC 标准的服务,以便提供即时服务能力。
基于基础设施层和数据层提供的工具和接口,以商用GIS 平台为基础,搭建面向应用层的体系化服务能力。提供数据、功能、接口和管理四类服务(图2)。
图2 平台层服务能力图
应用层围绕公益性地质业务,集成已有系统或搭建新系统。以统一入口、标准化API接口、数据即时同步和界面风格统一的基本原则,实现了陕西省地源热泵监控平台、陕西省地质灾害监测预警信息系统、秦岭北麓国土资源卫星遥感监测服务平台、陕西省农村生活垃圾治理遥感监测核查与整治等业务系统集成。使用平台层提供的微服务组件,快速构建业务流。由通用数据服务、矢量数据服务、栅格数据服务提供业务数据,开发了霞客游陕西、项目管理中心、地质调查随身行等业务或管理应用。
在私有云环境下,安装Windows 10 操作系统,配置Hadoop、Hbase、Zookeeper、Kafka、Redis、Tomcat、ArcGIS等环境。以关系型数据库(PostgreSQL)、NoSQL数据库(MongoDB、MinIO)和空间数据库(PostGIS、FileGDB)进行数据库存储和管理。间数据库整合多尺度、多源数据类型(包括矢量数据、栅格数据、遥感影像数据等)的空间数据。属性数据库主要用于存储与管理具有比较精确的空间特性的地理位置属性数据(区市地理、空间位置、相对动态等),通过空间属性与基础地理数据建立链接。时间是每个专业维度属性的一个复合数据项[5],采取时间标签+非结构化数据库存储技术解决地质数据的生命周期版本管理、细粒度拆分引起的数据体量几何式增长带来的分析和定位问题。在此基础上,构建统一的标签体系,尝试建立了数据血缘关系分析和热词云功能(图3)。
图3 热词云
地质大数据的高维度、时空性和涉密性对平台的构建具有很高要求。需根据数据特征进行分类存储和管理,需以地质调查业务流程和实际应用需求设计数据调用。陕西省公益性地质大数据平台为地质调查数据的汇、存、管、用提供了一套可行的实践方案。未来对于地质数据的时空耦合、多源异构数据融合与挖掘、多维数据的可视化表达等前沿技术问题仍需进一步研究。