彭仲秋,向诗强,陈建明,黄显义,李永华,张鹏
(1.新疆维吾尔自治区地质矿产勘查开发局地球物理地球化学探矿大队,昌吉 831100;2.新疆维吾尔自治区地质矿产勘查开发局信息中心,乌鲁木齐 830000)
地质矿产科学信息是矿产资源预测评价、地质勘查、开发利用的重要信息保证,起到积极指导作用,随着大数据、云计算、地理信息技术的飞速发展和广泛应用,为地质矿产科学信息共享平台建设提供了新思路。李婧等对地质大数据存储技术进行了探讨[1],陈建平等论述了中国地质大数据的研究现状[2],潘婷婷等提出了多源异构的地质数据集成方法[3],朱月琴等提出了一套面向地质大数据的语义检索和聚类分析方法[4]。
本文重点从地质矿产科学信息的集成、存储、检索、展示和共享5 方面出发,探讨构建分布式、集群化的地质矿产科学信息共享平台所需解决的关键技术问题,为“新疆地质矿产科学信息共享平台”建设提供指导,为新疆地质矿产信息的共享和融合奠定基础。
地质矿产科学信息涉及地质行业各专业的结构化、半结构化和非结构化数据,种类繁多、形式多样、内容丰富、格式众多,具有多元异构性[5],严重影响了数据的集成、共享、分析与挖掘[3],解决这一问题的关键是要从现有各类数据特性出发,建立数据标准体系,规范数据模型,并采用多种类型数据库组合,建立形式上统一的数据集成及数据访问接口体系——多元异构数据集成技术架构(图1)。
图1 多元异构数据集成技术架构Fig.1 Integration technology framework of multivariate heterogeneous data
多元异构数据集成技术架构主要包括标准规范制定、数据资源池建设、数据处理以及统一访问接口研发等内容。首先以中国地质调查局编制的《地质信息产品发布技术要求(试行)》和全国地质资料馆《地质资料核心元数据内容结构和填写说明》为基础,从数据内容、数据分级、空间坐标系、数据模型、工作流程、质量监控、数据存储等方面着手,编制《新疆地质矿产科学信息共享平台技术要求》,再按照技术要求规定,利用关系型数据库(PostgreSQL)、空间数据库(PostGIS)、文档型数据库(MongoDB)、分布式文件系统(Handoop)、全文检索数据库(Elastic-Search)、地图服务(IGServer、GeoServer)等建立地质矿产科学信息数据资源池,按照数据模型要求对数据进行整理、清洗、提取、整合、入库等标准化处理,最后在数据资源池基础上,开发统一的数据集成及数据访问接口体系。
地质矿产科学涵盖各种野外调查数据、勘探数据、遥感数据、文献数据等,体量巨大,且随着时间的推移和数据采集技术的发展,将继续呈现爆发式海量增长[3],如何实现海量数据的存储管理是平台建设中需要解决的关键技术问题。
平台建设中可综合利用关系型数据库、空间数据库、文档数据库、分布式文件系统等解决海量数据存储问题。对于结构化数据,可存储于关系型数据库PostgreSQL 中,通过集群、读写分离、分表分库等方式解决大数据存储问题;对于文档、图片、音视频等非结构化数据,首先根据技术要求提取元数据,并将元数据存储于关系型数据库中,而数据本身则存储于分布式文件系统Hadoop中(分布式文件系统能够充分利用集群的威力高速运算和存储,具有高可靠、高扩展可伸缩、高效读写、高容错能力、低成本等特点),并通过建立元数据与数据之间的映射关系来进行关联;对于地质图件、遥感影像等非结构化的空间数据,可采用GIS切片和编码技术进行处理,数据可存储于空间数据库或分布式文件系统中。对于字段不稳定的半结构化或非结构化数据,则可采用NoSQL类型的文档数据库MongoDB进行存储。
数据检索是地质矿产科学信息平台的典型应用场景之一,可综合运用各种索引技术、缓存技术来获得高效的检索效率。
研发关键词检索、全文检索、空间检索等组合检索技术实现数据的快速匹配。
关键词检索将元数据及数据内容中能表征主题内容的、具有实质意义的词语作为关键字,建立关键词索引,平台根据用户输入的关键字进行模糊匹配并返回满足条件的数据集。
全文检索对元数据及数据内容建立Elastic-Search 全文数据库,将一个完整信息源的全部内容转化为计算机可识别、处理的信息单元,平台根据用户输入条件匹配并返回满足条件的数据集。
空间检索因地质数据具备的空间特性,需对元数据中的空间字段建立空间索引,平台根据用户输入的位置信息(如:经纬度坐标、任意区域范围等)进行匹配并返回满足条件的数据集。
综合使用数据库缓存、地图缓存等技术来提升程序运行性能和响应速度。
数据库缓存采用Redis 作为数据库缓存,实现高频访问数据的高速缓存,提高平台的响应速度,极大缓解后端数据库的压力。
地图缓存对地图数据进行预处理,在设计的比例级别下将地图切割成瓦片(Tile),并将其存储在服务器中,当平台接收到数据请求时可将已有瓦片进行拼接并返回,无需动态实时生成图片,可在很大程度上减少GIS 服务器和数据库服务器的压力,有效提高WebGIS服务体验。
可视化是利用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上展示,再进行交互处理的理论、方法和技术,是研究数据表示、数据处理、决策分析等一系列问题的综合技术。在地质矿产科学信息可视化中离不开空间数据可视化技术,平台建设中基于WebGIS技术构建地质科学信息可视化子系统,可视化子系统从层次结构上可划分为数据层、地图服务层、表示层,技术架构(图2)。
图2 地质矿产科学信息可视化技术架构Fig.2 Visualization technology framework of geology and mineral information
该架构中数据层向地图服务层提供栅格数据、矢量数据以及结构化的空间数据等。地图服务层部署IGServer、GeoServer 服务,提供网络地图服务(WMS)、Web 地图瓦片服务(WMTS)、网络要素服务(WFS)、网络覆盖服务(WCS)等标准的OGC 服务。表示层采用OpenLayers 创建交互式地图,采用Echarts实现图表数据可视化。
地质科学信息平台建设的最终目的就是实现数据共享和协作,提高地质成果的社会化服务水平。因此,建立一套科学可行的数据共享机制必不可少,数据共享不仅能够在平台内共享,也要实现跨平台共享。
平台内共享是指用户可在平台提供的信息服务中快速检索到有哪些地质矿产科学信息资源、保存在什么地方、数据质量如何、通过什么方式可以获取等。
跨平台共享是要解决不同系统访问共享平台数据的问题。首先要研发统一身份认证子系统,解决平台用户、各类应用用户的身份识别、授权管理、访问控制等问题,然后构建标准的数据服务接口,提供OGC、XML 等国际标准数据接口的支持,如:支持WMS、WMTS、WFS、WCS等服务接口、XML数据交换接口等,通过统一身份认证子系统的权限配置,可为用户提供API 接口调用服务,实现地质矿产科学信息跨平台共享和应用。