浅谈地质矿产数据库存储设计分类与大数据入库模式

2022-02-02 01:48王凯李研研
吉林地质 2022年3期
关键词:入库结构化数据库

王凯,李研研

吉林省地矿信息中心, 吉林 长春 130061

0 引言

地质工作是服务经济和社会发展的先行工作,是国家高度重视的基础行业。作为地质工作成果的主要载体,地质矿产数据具有较大的潜在经济价值和可重复开发利用价值[1]。

相较于其他数据,地质矿产数据类型较为复杂,涉及到政治经济基础、法律法规、地理概况、考察报告、矿业开发、物探、化探、遥感等内容[2]。按地质矿产数据库数据格式划分,地质矿产数据可分为矢量数据、数据表、栅格数据和文本数据。

伴随着大数据时代的到来,这些数据呈现出了丰富多样、涵盖面广而又具备差异性的特点。在现存海量数据的状况下,如何对地质矿产大数据进行有效分类、建立地质矿产数据库并收纳具有价值的数据则是行业内的热门话题之一。

1 地质矿产数据库存储设计分类

地质矿产数据库存储设计主要是结合业务场景将用到的所有地质矿产相关数据进行抽取分类存储管理,按照结构化数据存储、非结构化数据存储和空间数据存储三种方式进行混合存储设计(图1)。

图1 地质矿产数据库混合存储设计

1.1 结构化数据存储设计

结构化数据采用关系型数据库进行管理,包括Oracle、MySql、PostgreSql、Sqlserver等RDBMS关系型数据库。存储数据主要为矢量图形表和业务属性表等二维关系结构数据。

1.2 非结构化数据存储设计

将非结构化数据本身存储在内存存储介质上,非结构化数据元数据(如文件路径、文件名、文件格式、文件大小等)存储到数据库表中并与对应空间数据对象建立关联关系,降低数据库资源消耗的同时也减轻了数据维护的压力。

(1)非关系型数据库存储(NoSQL)。非关系型数据库主要采用Redis、MongoDB、ElasticSearch、ActiveMQ(消息队列)、等NoSQL非关系型数据库。存储数据可包括切片数据缓存、日志缓存数据。

(2)分布式文件系统(HDFS)。分布式文件系统FastDFS存储数据可包括办公文档、地质报告、文本、图片、图像、音频、视频信息等格式数据。

1.3 空间数据存储设计

(1)矢量数据存储。主要采用GIS空间数据库+关系型数据库来对空间数据进行物理存储设计。矢量空间数据采用关系型数据库RDBMS+空间数据库引擎SDE等方式进行存储。存储数据包括工作区以往的1∶5万、1∶20万等区域地质图、构造地质图、基岩地质图,细查阅调查区已有的遥感影像、地球物理、地球化学和矿区大比例尺填图等提供全局总貌和揭示隐伏信息的各种矢量资料。

(2)栅格数据存储。对于遥感影像等栅格类数据由于数据量巨大,直接存储到数据库中不仅增加了数据库运行压力,同时栅格数据本身的读取速度也会大大降低。采用镶嵌数据集(Mosaic Dataset)形式进行管理,将体量巨大的栅格数据本身保留在数据库外部(如ArcGIS地图服务器分布式文件系统)而仅在数据库中保存数据的引用。不仅便于栅格数据的管理和查询,同时能够提供高级栅格查询功能以及实施函数处理,还可用作提供影像服务的数据源。

2 地质矿产大数据入库

在充分调研、整合存量地质矿产大数据基础上,对存量纸质资料进行扫描和标准化处理,将所有数据进行分类,依据设计的数据库入库基本流程进行分类存储,对地质矿产大数据进行统一集成调度,确保有序、高效的管理与应用地质矿产数据库(图2)。

图2 地质矿产大数据入库流程图

2.1 地质矿产资料整理入库模式

2.1.1 建设模式

按照地质矿产数据库标准规范要求对原始数据进行规范化处理,将数据质检后入库,对已入库后的数据再次进行数据量、数据质量的再次检查、验证,形成最终整合后的成果。质检流程与内容如图3所示。

图3 数据质检流程

2.1.2 前提条件

源数据存储管理方式、数据格式等与要求不一致,例如原始数据是以MapGIS、Access等文件格式存储的;数据完备性、标准化较差,不符合相关数据库标准,例如要素分类、图层命名、属性结构与数据库标准不一致,属性表达、实体对象内部及之间的关系不符合数据库标准要求及空间拓扑关系。

2.1.3 数据整合特点

按照数据整理与加工技术要求进行数据整理,统一数据格式、坐标系、数据结构;根据应用需求,采集元数据、建立索引等;经过整理后的数据由地质矿产数据库集中管理,按照谁生产谁更新的原则进行数据更新;该整合方式复杂、工作量大。

2.2 服务集成入库模式

2.2.1 建设模式

在条件具备前提下,保持原有数据库及数据结构不动,采用加载国际标准化组织开放地理信息联盟OGC的标准Web地图服务(如OGC-W*S,包括Web 地图服务WMS、Web 要素服务WFS、Web 覆盖服务WCS等)的方式纳入地质信息系统,实现统一管理和服务。

2.2.2 前提条件

已按照国家、部、省数据库标准建库,地图服务空间参考与地质矿产数据库要求保持一致;统一集成、访问、调用并更新维护数据。

2.2.3 数据整合特点

通过采集数据服务的元数据,统一注册数据服务到地图服务目录中,数据服务集中管理,统一设置及分配对外服务权限,谁生产谁更新,数据整合集成相对简单且工作量最小。

2.3 ETL抽取入库模式

2.3.1 建设模式

保持原有数据库不动,采用数据提取、转换和加载(Extract--Transform--Load, ETL)方式,按照统一数据转换规则集,实现业务系统数据库向地质数据库的结构转换。数据提取、转换和加载(ETL)模式可采用数据主动推送和数据被动提取两种方式。无论是市局统一建设、县(区)局负责应用的业务应用系统,还是市局自建自用的业务应用系统的数据皆可通过该方式进行数据整合。

2.3.2 前提条件

数据库已按照部、省数据库标准或者依据业务系统需求进行建库,数据的现势性、完备性、标准化良好;数据库平台、格式、坐标系等可能不统一;要素分类、命名、结构等数据与标准存在差异;重新建库相对复杂且会影响日常业务。

2.3.3 数据整合特点

该模式较为复杂,需要建立业务管理数据之间的关联关系,工作量适中,不影响业务办理和审批,可通过数据提取、转换和加载(ETL)自动完成。

3 地质矿产数据库维护

地质矿产数据库试运行合格后,数据库开发工作就基本完成,即可投入正式运行。但是,由于应用环境在不断变化,数据库运行过程中物理存储也会不断变化,对数据库设计进行评价、调整、修改等维护工作是一个长期的任务,也是设计工作的继续和提高[3]。地质矿产数据库维护工作的内容主要包括恢复、备份、安全性、完整性、日志监督等方面。

3.1 数据库转储与恢复

作为系统正式运行后最重要的维护工作之一,数据库的转储和恢复通过制定差异化的转储计划,确保在故障发生时以最快的速度使地质矿产数据库恢复到某种一致的状态,并尽可能减少对数据库的破坏。

3.2 数据库安全性与完整性

当数据库的应用环境发生变化时,其对于安全性的要求也会随之改变。例如某些原本是机密的数据可能转变为允许公开查询,而新加入的数据定义为机密数据;同时,也会对系统用户的密级进行修订;数据库的完整性约束条件也会有所改变。可通过修改当前的安全性控制实现对实际情况的动态调整,确保数据库的安全性和完整性。

3.3 数据库性能监督与分析

数据库运行过程中,可通过DBMS(数据库管理系统)产品提供的监测系统性能参数的工具对系统的运行状态进行实时监测,对获取到的一系列性能参数的值进行分析。

4 结语

本文首先对地质矿产数据库存储的设计分类进行了归纳,继而从建设模式、前提条件和数据整合特点三个方面论述了三种不同的地质矿产大数据入库模式,简述了地质矿产数据库维护的相关工作。在此基础上,未来可以紧密结合边缘计算、数据挖掘、数字地质等先进技术对地质矿产大数据的开发与利用、地质矿产数据库的构建与完善进行深入研究。

猜你喜欢
入库结构化数据库
重磅!广东省“三旧”改造标图入库标准正式发布!
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
中国食品品牌库入库企业信息公示②
中国食品品牌库入库企业信息公示①
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
数据库
数据库
数据库