王 斌,韩 健,岳 鹏,张立海,王胜海
(1.中国地质大学(北京)地球科学与资源学院,北京 100083;2.国土资源实物地质资料中心,河北 三河 065201;3.张家口弘基矿业有限责任公司,河北 张家口 075000)
随着网络化、虚拟化存储、云计算等技术的发展与应用,大数据时代序幕已全面开启。2008 年《Nature》和2011年《Science》先后出版“Big Data”和“Dealing with Data”专刊,从多个方面阐述大数据时代对人类产生的影响、数据处理带来的问题、面临的挑战以及机遇等[1]。目前,大数据的发展与应用已成为国内外政府机构、科研结构和相关产业界共同关注的研究内容,并逐步从概念模型转换为信息技术领域重要研究方向。2012 年美国政府发布“大数据研究与发展倡议”,部署开展“大数据技术研究计划”。2012年美国地质调查局公布《美国地质调查局科学战略(2013~2023年)》,作为未来 10 年科学发展方向。英国地质调查局构建基于数据发现、交换、挖掘的地学知识框架[1-2]。2013年日本印发《创建最高级IT国家宣言》,明确以大数据技术为核心IT国家战略。与国外发达国家相比,我国起步相对较晚,2015年国务院发布《促进大数据发展行动纲要》,2016年国家发展和改革委员会发布《关于组织实施促进大数据发展重大工程的通知》,以此促进我国大数据技术研究与应用。
地质大数据是大数据的重要组成部分。地质大数据除具备大数据的“4V”特点外,还具有空间性、时间性、因果性、多尺度、多时态的特性。新中国成立以来,我国积累形成海量地质资料和数据。地质数据是地下地质情况的真实记录和信息载体,是开展地质找矿、矿产资源评价、地质科学研究、环境保护、透明城市建设等所需的重要数据,具有重要应用价值,特别是地质钻孔数据信息。但由于各方面原因,我国地质钻孔资料分散保管在各个单位,造成地质钻孔资料信息共享利用程度较低。2013年国土资源部组织建设全国地质钻孔数据库,目前已汇聚钻孔数量达百万级,地质元素信息达千亿级,数据量已达TB级,累计达PB级,主要是图表等非结构化数据。如何应用大数据技术实现多源异构地质钻孔数据管理和便捷服务,构建地质钻孔大数据平台意义重大。本文根据地质钻孔数据的结构和特点,阐述基于大数据技术全国地质钻孔信息服务系统建设总体框架以及系统设计、集群机制、服务利用等,以此为下一步系统建设工作提供一些技术思路。
地质钻孔数据是地质工作形成的最原始、最重要的地质资料之一。目前,已汇聚形成涉及区调、矿产、水工环、城市及科学研究等不同类别的海量地质钻孔数据,主要包括钻孔柱状图、工程布置图或实际材料图、勘探线剖面图、地质属性和空间数据等不同阶段形成的数据,其中,钻孔柱状图中包含进尺、分层、岩性、地质描述、岩矿石成分、结构、构造、年代、接触关系、矿化、蚀变、测试分析数据、简易水文地质观测和地球物理测井成果等数据,勘探线剖面图中包含钻探布置、地质岩层、构造、蚀变、矿体分布等数据。
地质钻孔数据类型包括结构化、半结构化和非结构化数据,具有多元、多源、异构、异质、时空性、相关性、随机性等特征。非结构化数据主要是矢量图、栅格图、表格、文档、影像等文件,呈碎片化状态堆积,目前采用MS Access数据库和文件目录形式存储,未进行结构化、半结构化和非结构化数据一体化存储和管理,这对于地质钻孔数据的共享利用和挖掘分析具有一定难度。利用大数据技术,解决海量非结构化地质数据信息的有序化存储、处理和挖掘分析,加工处理应用于成矿规律、成矿系列、成矿体系、矿产预测等研究,指导未来地质找矿工作,这将是下一步全国地质钻孔信息服务系统建设的一项重要工作内容。
2.1.1 地质大数据处理工具
1) 云计算是大数据处理技术平台,2006年由Google公司最早提出。Google公司的云计算主要是以可扩展的分布式文件系统GFS、非关系型的分布式数据库Big Table、支持并行计算的批处理技术MapReduce为核心内容的大数据处理技术[1]。该平台是一款商业化平台。
2) Hadoop是面向块的开源数据处理平台,主要由分布式文件系统HDFS和MapReduce编程框架实现。HDFS负责海量数据存储,MapReduce负责海量数据并行计算[3]。该平台适合地质大数据处理、计算和分析。
3) HPCC是面向记录的分布式数据处理平台,主要由分布式文件系统Thor、查询工具Roxie、系列中间件ECL和查询接口平台ESP组成[3]。该平台适合以数据为中心的密集型数据处理。该平台企业版收费。
4) Hadapt是开源数据处理分析平台,其结合了关系型数据库和Hadoop技术优点,可方便自动划分查询执行任务,但由于采用扩充性连接件方法将两个系统进行连接,使系统在处理数据时带来一定时间延迟,使用起来相对孤立,适用范围相对有限[3]。
针对地质大数据的特点,通过对以上数据处理平台的比较分析,本文认为Hadoop平台比较适合地质大数据处理框架构建。
2.1.2 地质大数据处理技术论述
1) 分布式文件系统。为解决海量数据存储问题,Google公司开发了GFS分布式文件系统,实现海量大数据文件的快速储存。为解决海量小文件存储,后期开发Colosuss分布式文件系统。基于GFS设计理念,分布式文件系统越来越多如Hadoop的HDFS、Cosmos、CloudStore、TFS等[4-5]。
2) 分布式数据库系统。对于海量非结构化数据存储,采用传统关系型数据库已不能满足大数据存储和分析挖掘的要求。为解决数据量巨大、数据类型多样等问题,NoSQL非关系型数据库应用而生。NoSQL数据库可有效解决地质大数据的半结构化和非结构化数据存储问题。对于NoSQL数据库目前没有准确的定义,但普遍存在以下特征:无需预定义数据模式和表结构;没有共享架构;扩展性强;拥有简单API接口;数据分区,支持海量数据存储。目前,典型NoSQL非关系数据库主要分为四类:一是键值存储数据库如Redis;二是列存储数据库如Cassandra、HBase;三是文档型存储数据库如CouchDB、MongoDB;四是图存储数据库如Neo4j、Pregel。对于地质钻孔数据中图表等非结构化数据较多问题,本文认为采用列存储数据库HBase较好。
3) 地质大数据处理技术。地质大数据应用类型很多,主要处理模式是流处理和批处理,但在实际应用中会将二者结合。地质大数据中对于需要流处理的数据相对较少,主要是地质灾害类等数据,代表性的系统如Storm、S4等[5-6]。地质大数据中大部分数据采用批处理模式即可,最经典的数据处理技术就是Google公司开发的MapReduce批处理模式。
MapReduce数据处理是通过“Map”和“Reduce”两个过程来实现:一是将所需要处理的数据集分为若干块,每一块都包含一个键值对;二是采用并行计算方式,将每一块交给不同的Map任务区进行处理并产生系列中间结果键值对,并写入本地硬盘;三是中间过程Shuffle将所有相同的Key值组成一个集合传递给Reduce;四是Reduce接收中间结果Key值,将具有相同Key值的组织在一起并合并,形成最终value值。此数据处理方式采用分而治之思路,简化数据计算过程,提高数据处理效率。此方法已在数据挖掘分析、商业智能、机器学习、推荐系统等诸多方面进行应用。
4) 地质大数据挖掘技术。目前,大数据挖掘技术应用较多的主要有WEKA、RapidMiner、PMML、Mahout、Pregel等,其中Mahout技术是Hadoop分布式数据挖掘工具,具有平台独立性,扩展性高,能够实现基于内容和用户的大数据推荐算法,缺点是部分算法效率不高。对于数理统计、扩展集合论、数学地质理论、定量技术、定性分析等传统技术方法也可应用于大数据信息挖掘。
5) 地质大数据分析技术。挖掘大数据价值需要建立在对大数据内容的分析与计算基础之上,数据索引和查询技术是实现大数据高效分析的基础。但目前尚没有一种有效的索引方案能够直接应用到地质大数据。目前,一是采用并行查询和建立分布式索引等方式优化多值查询,二是采用一些大数据查询分析技术来加快处理效率如Hive、R、Dremel等[4,7]。对于人工智能、深度学习、知识计算、聚类分析、因子分析、相关分析、回归分析等传统分析方法在大数据时代依然可用。
6) 地质大数据可视化技术。可视化技术是地质大数据最有效的展示方式。地质大数据可视化技术是在应用计算机技术、图像学技术、数学地质等理论和方法,将杂乱无章的抽象数据转换为具有规律、可见的表格、图像、图形等,实现地质数据的直观表达。地质三维可视化是一种较好的表达方式,主要涉及三维地质体模型、三维矿体模型、三维可视化储量计算模型、隐伏矿三维立体预测成果表达模型等,从不确定性、多源异构地质数据中抽取有效特征和知识发现,挖掘地质大数据中潜在的地质规律、模式、相关性、趋势性、异常等知识,提出新思路、新观点、新认识、新知识,指导地质找矿。随着互联网技术的发展,网络三维可视化展示将成为发展趋势。对于标签云、历史流图、空间信息流等可视化技术,也可应用于地质大数据成果展示,揭示地质年代规律、时代演化、蚀变、矿化等区域性地质特征。
当前经济社会发展对地质数据信息需求越来越高,如何高效便捷地向政府、企事业、社会大众提供地质数据服务尤为迫切。通过对大数据处理技术比较与研究,结合地质钻孔数据特点,经探讨,利用大数据技术搭建全国地质钻孔信息服务系统,可有效解决海量地质钻孔数据的管理与服务问题。服务系统建设应采用网络信息技术、虚拟化存储、GIS、云计算等技术进行总体设计,拟采用分布式文件系统HDFS、NOSQL数据库Hbase、数据序列化格式与传输工具Avro、数据存储工具Sqoop、分析工具Hive/Pig、检索引擎Lucene、数据挖掘Mahout、机器学习Spark、流式计算Storm、日志处理Chukwa∥Scribe、图数据库Neo4j、文档数据库MongoDB、关系型数据库PostgresSQL、分布式缓存技术Redis等大数据处理技术开发[8],以此实现地质数据信息的智慧管理与服务利用。系统处理框架主要包括数据资源汇聚层、数据存储层、数据挖掘分析层、数据应用层4层,总体框架设计如图1所示。
1) 数据汇聚层为服务系统建设提供数据支持。目前,采用离线方式已完成历史回溯性重要地质钻孔数据的集中采集建库,后续工作重点是采集查缺补漏、不同行业部门以及新形成的地质钻孔数据。笔者认为,后续需要重点考虑采用在线方式,通过服务系统实时汇聚采集地质钻孔数据等重要信息,达到数据实时更新。数据汇聚的内容主要包括地质钻孔属性、图表、影像以及业务、流量、日志等数据。
图1 全国地质钻孔信息服务系统大数据处理总体架构设计
2) 数据存储层为服务系统建设提供数据存储、调用、转换支撑。地质钻孔数据从数据采集到分析处理应用,涉及大量空间数据、图表、文档、影像等海量文件存储,应利用大数据技术将其存放在分布式文件系统HDFS中,实现海量文件快速、准确的并行提取和储存。该层需要重点考虑地质文件数据的组织管理问题,可利用分布式数据库Hbase、图数据库Neo4j、文档数据库MongoDB等结合方式,实现文件数据的快速发现和获取。
3) 数据分析层是服务系统建设核心,负责海量地质数据的过滤、挖掘和分析。首先需要建立地质钻孔属性数据、文档、图件的索引,然后根据实际需要,利用Pig、Hive、Mahout、机器学习、Spark MLlib算法、统计建模工具等大数据分析技术,挖掘所需的地质数据并可视化展示。
4) 数据应用层是服务系统建设的最终目的,负责向用户提供地质数据信息和产品。例如对于某区域成矿规律的研究问题,可利用大数据处理技术从区域地质背景、成矿年代、矿床成因、构造等角度对其进行智能化分析处理,利用数据挖掘、趋势性分析、相关性分析等技术手段,挖掘有用地质信息及规律,通过成矿理论系统分析,揭示内在规律,利用三维可视化、图、表等方式进行可视化表达,指导地质找矿工作[11]。
基于Hadoop平台的地质钻孔信息服务系统大数据处理框架,可实现地质结构化和非结构化数据的高效存储,方便从海量、随机、模糊的数据中快速提取出所需要的数据信息,并进行数据挖掘与并行处理,发现隐含的具有潜在利用价值的知识并对结果可视化表达,从而指导地质找矿、环境保护、灾害防治等工作。
全国地质钻孔信息服务系统建设应按照“标准统一、节点部署、集中管理、共享服务”的原则,依托Hadoop平台,采用大数据虚拟化存储、并行计算、数据自动对等、跨域节点集群等技术,搭建广泛参与、广域覆盖、互联互通的等权网状结构的云计算平台,建成以国土资源部为主节点,国家级地质资料馆、省级地质资料馆、委托保管单位为骨干节点,地勘单位和矿山企业为基础节点的分布式系统[13],实现多源(元)异构数据的统一化描述和分布式存储、管理、发布、计算和服务,向政府、企事业单位、社会大众提供不同粒度的地质知识服务。服务系统应实现的主要功能包括各节点数据有序化组织管理、数据发布、数据浏览、关键字和高级检索、地图空间检索、导航检索、数据处理、数据集成、空间拓扑分析、统计分析、图表制作、专题产品开发及展示、地下三维地质模型创建及可视化展示、决策分析、数据接口、日志管理、用户管理、安全分析等模块。
1) 数据存储。对文档、图表等地质数据进行预处理,转化为统一定义的数据结构,保存到分布式文件系统HDFS中。对于地质钻孔结构化数据管理,开源关系型数据库PostgreSQL是个不错选择,具有以下优点:①具有分片扩展功能,支持横向扩展、索引建立、半结构化数据存储等功能;②支持点、线、面数据类型,适合地质工作中点线面的表达;③支持JSON数据类型,可建立基于键值对的快速检索;④具有分布式数据库系统功能,可实现数据的分布式并行处理;⑤拥有开源PostGIS空间数据库引擎,可实现简单空间运算和处理功能[12]。在Hadoop与PostgreSQL中数据之间的相关转换和调用,可采用数据存储工具Sqoop快速实现。
2) 数据集成。利用数据序列化工具Avro对地质数据进行数据格式转化,转为便于存储和传输的数据格式,然后发布到分布式列存储数据库Hbase进行重新组织。为解决海量数据的高速存储、高并发读写、低延时、实时访问处理需要,可采用大数据分布式缓存技术Redis创建数据索引并储存在Redis中,采用文本提取工具对保存在HDFS中的文档、图表、GIS文件中的数据提取出来,建立全文索引,实现地质数据信息汇聚,方便后续数据挖掘与分析[8]。对于图表文件管理,可采用图数据库Neo4j进行存储。对于日志文件的收集与处理,可采用Chukwa工具展示、监控和分析收集到的数据。
3) 数据分析。首先需要利用全文检索引擎Lucene对Hbase数据库中地质数据建立索引并对地质文档文件建立全文索引,然后可利用MapReduce、Pig和Hive等分析方法对地质大数据进行处理、统计与分析。若是对地质数据信息进行离线分析采用Hive分析工具较为方便,对地质流式数据分析采用Pig工具效率较高,对索引数据访问可直接访问Hbase。对文本数据的分析,目前主要采用信息提取、主题模型、文本摘要、文本分类、文本聚类等方法,最后在Mahout框架中实现地质数据信息挖掘[7-8]。对于系统运行过程中形成的实时数据、网站流量实时统计分析等流式数据,可采用Storm系统进行处理分析。同时,也可利用大数据处理并行计算引擎Spark开展地质数据的交互式查询、数据挖掘、机器学习以及需要迭代工作的数据处理工作等。Spark MLlib算法组件库基本涵盖了机器学习的常用算法,如线性回归、逻辑回归、贝叶斯分类、决策树、关联规则、协同过滤推荐、神经网络等算法。对于聚类分析、相关分析、回归分析、因子分析、遗传算法、神经网络等传统数据分析方法也可继续应用,但效率相对较低。
分布式全国地质钻孔信息服务系统应利用等权网状架构运行框架模型,实现各地质资料馆藏机构之间多元信息的协同共享,由主、子节点共同构成,见图2。主节点部署于国土资源部(或中国地质调查局),汇聚集成各子节点地质钻孔数据资源,是服务系统唯一对外服务窗口。国家地质资料馆分节点汇聚集成各省级地质资料馆、委托保管单位的地质钻孔数据资源;省级地质资料馆负责汇聚集成本辖区地勘单位、矿山企业地质钻孔数据资源[2]。主节点负责各子节点地质钻孔元数据信息的自动对等、提取和汇聚,将地质钻孔元数据信息自动提取汇总到全国地质钻孔数据库中形成镜像副本数据并建立索引,不提取地质钻孔实体数据,实体数据仍保存在各分节点。地质钻孔数据的发布按照“谁保管、谁发布、谁维护”原则,各子节点负责地质钻孔数据整理、管理、更新、授权、发布并提供服务利用。主节点主要从数据共享与服务方面优化数据管理,建立数据管理和服务共享机制,向社会提供元数据信息服务,地质钻孔实体数据的提取与调用均由各子节点负责提供[2]。
图2 全国地质钻孔信息服务系统建设等权网状结构模型
通过集中开展地质钻孔数据库建设,已汇聚集成企事业单位保管的历史形成的重要地质钻孔数据,但对于后续开展地质勘探工作新形成的以及历史遗漏的重要地质钻孔数据不会再集中开展,需要建立地质钻孔数据汇聚管理和服务共享规章制度,以及地质大数据信息分类、编码、采集、整理、清洗、存储、集成、发布、交换、语义共享、服务等方面的技术标准规范[14],建立地质钻孔数据更新维护共享服务利用与激励机制,开发地质钻孔数据信息采集和转换工具,在不显著增加地质数据拥有者工作量的情况下,方便快捷地将分散保管的、零星的地质数据资源按照统一标准整合汇聚集成到全国地质钻孔信息服务系统,完成数据发布,保障地质钻孔数据现势性。
建成地质钻孔信息服务系统,将实现由到馆服务向网络化服务模式变革,将实现以“服务”为核心的一站式检索、查询、下载利用、交互式服务和挖掘分析,实现高效服务。但由于地质数据的特殊性,一般分为公开类、保护类和涉密类数据。根据有关规定和要求,服务系统公开发布的数据仅能是公开类、保护类和经过脱密技术处理后的非涉密地质钻孔数据信息,因此服务方式应分为线上服务和线下服务。对于线上服务也应通过设置用户权限方式加以控制,不同用户不同权限。首先需要地质数据利用人提出申请,然后审核认证。审核通过后申请人获得登录用户名和密码,并授予相应权限。申请人凭用户名和密码登陆平台检索查询利用相应权限内的地质数据信息。如果申请人需要使用涉密类地质钻孔数据信息,则应到相应地质资料馆藏机构进行借阅。为促进地质钻孔数据信息共享机制的建立,对于矿山企业或地勘单位提供地质数据服务可收取费用[13]。
构建全国地质钻孔信息服务系统,目的是向社会提供地质数据的网络化检索查询,更重要的作用是提供地质大数据的挖掘、分析与应用,如何应用海量地质数据信息是地质大数据重点研究的问题。一是可利用大数据挖掘分析技术,从地质大数据中挖掘有用地质信息及其规律,通过成矿理论的系统分析[11],发现相关性、趋势性和异常性等,提出新知识,支撑区域成矿规律、成矿系列、成矿体系以及矿产资源评价等研究,更好地指导地质找矿工作。二是创新地质数据信息服务模式,加强主动服务意识,由“专业服务”向“专业与大众科普服务”转变,由“提供资料服务”向“提供知识服务”转变,由“被动服务”向“主动服务”转变,延伸地质信息服务深度和广度,围绕我国能源资源安全保障、生态环境保护、防灾减灾,以及三深一土、城市建设、地下空间开发利用等多元需求,积极开展地质数据信息的挖掘提取、分析利用、综合编研等,建立地下三维地质空间格架模型,开发权威、便捷地服务产品,提供专题服务。
在新形势下,地质大数据安全面临许多问题,目前采用的保障措施较多,如在Hadoop平台上利用Kerberos进行节点验证、文件加密、密钥和证书等技术;在数据采集、存储、发布、挖掘、分析等各环节,采用身份认证、权限控制、数据加密、隐私保护、安全审计等技术,以及大数据认证技术等[15],但所有的安全技术和方法都是相对安全,为确保地质钻孔数据的安全,在应用以上方法和技术的基础上,更要提高数据安全保密意识,按照国家保密方面的法律法规要求,严格做到涉密数据不上网、上网数据不涉密,有效保护地质数据信息,使其合理开发利用。
大数据技术的飞速发展,改变了人们的思维和工作习惯。地质大数据是大数据的重要组成部分,全国地质钻孔数据库汇聚形成海量地质数据,囊括全国各区域的地质年代、地层、构造、结构、岩性、矿化、蚀变、元素化验分析等各类地质数据。在大数据时代,如何利用云架构构建地质数据信息服务系统,如何利用大数据技术从海量地质信息中挖掘所需的看似毫不相干的地质数据信息及价值,利用相关性、区域性、相异性以及地质成矿等理论模型[11],发现规律,开展区域成矿规律、成矿体系、矿床成因、矿产资源预测等研究,形成新认识和新知识,指导地质找矿工作,是需要重点研究的内容。目前,大数据技术应用于地质大数据领域相对较少,笔者在分析了大数据处理技术和地质钻孔数据特点的基础上,对基于大数据技术全国地质钻孔信息服务系统建设进行探讨,搭建起服务系统大数据总体框架,论述了地质大数据处理流程以及可应用的大数据关键技术及其在地质大数据存储、分析方面的具体应用,并对系统建设、节点集群建设、服务应用等进行研究,可为下一步系统建设的技术路线和技术方法提供一定参考。全国地质钻孔信息服务系统构建形成,对于后续地质数据的智能挖掘、智慧分析意义重大,可实现“地质数据服务”向“地质知识服务”变革。
参考文献
[1] 刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):957-973.
[2] 郑啸,李景朝,王翔,等.大数据背景下的国家地质信息服务系
统建设[J].地质通报,2015,34(7):1316-1323.
[3] 百度百科.Hadoop[EB/OL].https:∥baike.baidu.com/item/Hadoop/3526507?fr=aladdin.
[4] 涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,31(6):1612-1618.
[5] 程学旗,靳小龙,王元卓.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.
[6] 李婧,陈建平,王翔.地质大数据存储技术[J].地质通报,2015,34(8):1589-1595.
[7] 张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-230.
[8] 李丰丹,李超岭,吴亮,等.大数据环境下数字填图数据集成服务技术[J].地质通报,2015,34(7):1300-1308.
[9] 李超岭,李健强,张宏春,等.智能地质调查大数据应用体系架构与关键技术[J].地质通报,2015,34(7):1288-1299.
[10] 吕霞,李健强,龚爱华,等.基于云架构的中国地质调查信息网格平台关键技术研究与实现[J].地质通报,2015,34(7):1323-1332.
[11] 王登红,刘新星,刘丽君.地质大数据的特点及其在成矿规律、成矿系列研究中的应用[J].矿床地质,2015,34(6):1143-1154.
[12] 伍锦程,韩媛,张涛.浅谈Hadoop和PostgreSQL在地质资料集群化中的适用性[J].图书情报导刊,2016(4):131-134.
[13] 王斌,陈杰,张立海,等.关于地质钻孔基本信息数据库服务利用的思考[J].中国矿业,2013,22(10):134-136.
[14] 黄少芳,刘晓鸿.基于地质大数据的地质资料信息化与标准化[J].中国煤炭地质,2016,28(7):74-78.
[15] 杨曦,罗平.云时代下的大数据安全技术[J].中兴通讯技术,2017,22(1):14-18.
[16] 谭永杰.地质大数据体系建设的总体框架研究[J].中国地质调查,2016(3):1-6.