黄家凯, 樊旭东, 秦丽娟
(湖北省地质调查院,湖北 武汉 430034)
近十年来,数据资源已成为国家基础性战略资源,大数据正对全球经济运行机制、社会生活方式和国家治理能力产生着重要影响[1]。美国、欧盟、英国、澳大利亚、法国、韩国等发达资本主义国家相继启动国家大数据战略,在国家安全与公共服务领域已取得显著成效。中国自2015年国务院发布《促进大数据发展行动纲要》以来,工信部、发改委、科技部、财政部等国家部委及各省级政府先后出台了系列配套政策,力图利用大数据技术解决政府数据开放共享不足、缺乏顶层设计和统筹规划、创新应用领域不广等问题,实现信息资源互联共享,提高政府治理效率。
地质数据具有海量、类型多和应用广等特征,符合大数据的“5V”(Volume、Variety、Value、Velocity、Veracity)要求,是典型的大数据[2]。2015—2017年,中国地质调查局通过组织实施“地质数据更新与应用服务”计划的“地质大数据与信息服务工程”,建成了中国“地质云1.0”,实现了地质数据的稳定汇聚和共享服务,建立了系列标准规范与技术体系。与此同时,省级地质大数据建设工作也陆续开展,并形成了阶段性成果:湖北省通过开展地质大数据平台建设研究,提出了湖北省地质大数据平台建设总体实施方案;山东省提出以基础平台和数据中心建设为支撑,通过管理业务集成与协同,建成山东“数字地矿”;四川省通过与行业领先的云平台供应商合作,计划建成四川“智慧地矿”;贵州通过建设地质科技产业园区,集成整合了一批科研创新平台与科研机构,开发了“大众矿评”、“土元素”应用软件;安徽、河南、云南等省也先后提出了本省的地质大数据建设方案。
因数据资源与应用需求的客观差异,当前国内省级地质大数据建设过程中,各省对于省级地质大数据内涵和外延的理解不尽相同。为了实现与中国地质调查局“地质云”的纵向对接,有必要在研究中国地质调查局“地质云”数据产品标准体系、数据交换共享技术要求的基础上,提出一个标准对接、弹性可扩充的省级地质大数据总体框架,供省级地质大数据建设参考使用。
与中国地质调查局对比,省级地勘队伍拥有的地质数据资源有较大差异。通过对“地质云”1.0系统发布数据资源统计,中国地调局拥有的地质资料以比例尺≤1∶5万的基础性地质调查资料、国家投资开展的矿产勘查资料以及多种多样的地质科研资料为主,可归类于战略性、基础性、公益性地质资料。
笔者2017年对湖北省地质局属21家地勘单位的地质数据资源现状开展了较充分的调查。调研通过湖北省地质局质量监督处发放的《地质数据资源统计表》开展,分别调查了地学数据库的建设情况与地质资料的存档情况。调研表样式见表1、表2。
通过对调查结果汇总分析,湖北省地质局共形成了52个结构化、半结构化地学数据库(表3)。数据库涵盖了从1∶50万至中大比例尺的各类尺度,数据格式包含MapGIS、ArcGIS、Access、Excel、DBF等多种类型,数据形成年代主要集中在近十几年。
表1 已建成数据库现状调查表Table 1 Questionnaire on the status of completed databases
表2 地质资料现状调查表Table 2 Questionnaire of geological data
与中国地质调查局“地质云”已入云的数据库资源相比,省级地质数据库与其有一部分交集,如图幅性的区调、矿调、水工环调查数据库。这主要是源于此类调查工作的实施单位一般是省级地勘队伍。此外,表3中有30个数据库属于省级地质队伍在中大比例尺地质找矿、管理业务等工作中形成,这一部分数据资源属省级独有。
省级地质队伍成果地质资料丰富。以湖北省地质局为例,2012年以前湖北省地质局资料馆代管湖北省全省地质成果资料计6 329档。局属地勘单位存档保管成果地质资料计30 732档。数据以纸质档案、扫描电子档案数据、office电子文档、矢量电子数据及少量其它电子数据多种类型保管,数据量超过4.68TB(不含未形成电子档案的部分)。电子数据的存储介质多为光盘与普通硬盘(普通台式机电脑硬盘或移动硬盘),仅湖北省地质调查院与湖北省地质科学研究院采用资料存储服务器存储。
湖北省成果地质资料按照密级划分,非涉密成果地质资料(30 416档)、未定密成果地质资料(2 615档)占比达90%,由此可见,省级地质队伍成果地质资料提供给社会公开利用潜力巨大。
省级地质队伍原始地质资料数量巨大。以湖北省地质局为例,全局共存档保管原始地质资料13 498档。以纸质档案为主,仅省第二地质大队、省第六地质大队、省水文队、省地科院、省地调院的部分原始地质资料为电子档案。因2016年以前资料管理未强制要求汇交原始地质资料,原始地质资料属省级地质队伍独有的宝贵资源。
湖北省地质局原始地质资料中,非涉密类为10 450档,占77.42%;涉密类为1 263档,占9.36%;未定密类为1 785档,占13.22%。可提供公开利用的潜力巨大。
近年来省级地质队伍逐渐批量正规保管实物地质资料。湖北省地质局下属有4家单位保管有钻孔岩芯计84 414.85 m,有6家单位保管有化探副样144 104件。其中省第一地质大队、省第二地质大队、省第六地质大队、省第八地质大队作为湖北省国土资源资料馆实物地质资料共建单位,开始正规保管实物岩芯、化探副样等实物地质资料,但尚未形成较大规模。
近年国内以中国地质调查局发展研究中心、西安地质调查研究中心等为代表的科研院所,开展了国家地质云的架构研究与实践[3]。国家地质云1.0建成了物理分布式的1+6+12的国家地质大数据中心,主中心节点与各分中心基于Web Service发现、汇聚、利用、分发各类服务,这是一种典型的面向服务的架构(SOA)体系[4]。国家地质云上线运行4个月内,访问量突破了87万次,日均访问超过7 000次,数据产品下载1万多次,下载数据量超过3 817 GB,这充分说明SOA架构是契合地质云建设的技术需要的[5],因此省级地质大数据建设的总体框架也必须基于SOA架构设计。与“地质云”的总体架构相比,省级地质大数据的整体架构设计虽然层级结构和松耦合的总体思想一致,但在各层次的具体建设内容和实现方式有较大不同。
遵循面向服务(SOA)的先进架构技术,省级地质大数据建设的总体框架设计图如图1。
表3 湖北省地学数据库建设情况总体一览表Table 3 General list of the construction of geological database in Hubei Province
图1 省级地质大数据建设总体框架图Fig.1 General framework map of provincial geological big data construction
该架构设计以地理信息技术、云计算技术、大数据技术、互联网技术、数据库技术为支撑,采用基于云环境的T-C-V(Terminal-Cloud-Virtual)软件系统架构,从下到上依次分为3层:虚拟设备层(V层),包括物理设施、虚拟资源;云计算层(C层),包括地质大数据中心和地质云服务中心;终端应用层(T层),包含基于地质大数据平台的智能管理支撑子系统、基于地质大数据平台的地质应用服务子系统。遵照云计算的四层架构模式分别构建地质云计算基础设施服务层(IaaS)、地质大数据服务层(DaaS)、地质云平台服务层(PaaS)、地质云大数据应用服务层(SaaS),面向各类管理用户、专业技术用户及社会公众用户提供所需的地质云服务。
省级地质云计算基础设施建设有两种方案:一是租用公有云资源,二是自建私有云环境。
租用商用云基础设施(如阿里云、楚天云)是一种中小型企业搭建云基础设施环境的常用方案。以湖北省“楚天云”为例,它是集云计算、大数据于一体的湖北省统一云基础设施综合服务平台和数据交换枢纽平台。“楚天云”整体部署架构主要分为下层基础设施以及上层云平台配置管理部分,采用基于OpenStack架构的云平台和自主可控的基础设施。向省直政府单位提供计算、存储、网络、安全等服务。租赁方案的优点是轻维护、高安全、高可用性;缺点是费用较高、部署较复杂。如果项目建设长期投入规划偏少、数据涉及较敏感的商业秘密,要慎选租用方案及服务产品。
自建私有云环境包含机房环境建设(机房选址、分区规划、装修、温度湿度控制设备、消防设施)、网络接入设施(专线光纤)、安全防护设施(防火墙、堡垒机、VPN设备、行为审计设备等)、网络设施(核心交换机、云计算交换机)、计算单元(X86标准服务器)、虚拟化管理平台软件(服务器虚拟化、存储虚拟化、网络虚拟化)等多项内容。自建私有云环境时需根据项目当期投入预算规模、大数据平台系统等级保护规划等内容综合确定建设规模。在预算投入充分的情况下,可以参考国家地质云的物理分布式模式建设;若预算投入不足,可以建成集中式的省级统一私有云基础环境。
省级地质大数据服务层以建成省级地质大数据中心为目标。其以物理设备资源池、虚拟资源池为依托,以信息化数据规范体系和安全保障体系为保障,进行数据资源体系的统一规划设计。数据拥有者将地质数据抽取、转换、清洗、加工后,注入到地质大数据管理平台进行虚拟化和云化处理,实现多源、异构地质数据的统一管理,建立基于地质大数据管理平台的地质数据集成应用、专业数据管理工具和数据更新交换体系,最终以标准数据服务形式提供给用户使用。
省级地质大数据中心可先从具有较好数据基础的成果地质资料、地质专业数据库入手,最终目标是形成以信息与管理为一体、多级互联互通、资源有效共享的大型地质数据资源池。为了实现与国家地质云的互联互通,省级地质大数据中心建设时要考虑在数据编码规范、信息产品核心元数据标准两方面与地质云的有关标准保持一致。地质大数据中心体系结构如图2所示。
以湖北省地质大数据中心建设为例,其参考继承了国家地质云的数据分类编码规范、核心元数据标准、数据整理与服务发布规范,参考成果地质资料汇交制度对成果地质资料元数据信息做了扩展,对地质图件、地质图空间数据库扩展了图层信息、属性内容信息的元数据内容。在数据中心用户视图模式上,湖北省实现了地质大数据中心物理上集中统一管理、逻辑上按数据产权归属独立划分的结构模式,在建设规模和数据保护上实现了平衡。
图2 湖北省地质大数据技术体系结构图Fig.2 Architecture map of geological big data technology in Hubei province
省级地质大数据云平台服务层利用底层提供的物理资源、虚拟资源、数据资源,基于本身提供的数据仓库和功能仓库,形成快速构建应用的基础环境,方便用户进行各类应用系统、工具和接口的快速搭建定制工作,极大的提高应用开发效率。云平台服务层通常以商用GIS平台为基础,结合省级地质大数据建设的功能需求开发。
2.4.1 数据服务
数据服务用于提供目录数据服务、矢量数据服务、栅格数据服务等基础数据服务功能。目录服务提供大数据中心中数据目录查询服务;矢量数据服务对矢量数据进行矢量分析,如缓冲区分析、叠加分析,并提供多核、多节点不同粒度并行策略;栅格数据服务完成包括矢量、影像、矢量影像叠加、数字地形图、2.5维仿真地图等多种类栅格数据服务。
2.4.2 功能服务
功能服务包括空间分析服务、遥感分析服务、数据挖掘服务等。空间分析服务含栅格分析与矢量分析,提供GIS数据分析与处理;遥感分析服务功能提供通用影像分析处理工具;数据挖掘服务根据结构化和非结构化数据信息,进行清理—分析—提取操作,挖掘特征数据信息。
2.4.3 应用接口服务
为了方便地质大数据使用者快速搭建Web应用,云平台服务层应基于RIA技术、搭建式开发机制等技术,提供灵活的开发接口,在服务端提供Java、.NET开发库,客户端提供插件、脚本等开发接口,并要求保证较好的兼容性。
2.4.4 云平台管理服务
云平台管理服务用于地质大数据平台的云服务管理、服务发布、资源监控、权限管理、日志管理、云服务节点管理等工作,保障地质大数据平台综合数据资源的持续、稳定、安全服务,为各相关应用系统提供可靠的数据支撑,保障各业务工作规范、科学执行。
省级地质大数据建设的目标是为政府提供宏观决策数据支撑,为专业领域的科学研究提供数据服务,为社会公众提供地质数据资源检索服务,经过调研,服务的功能主要集中在地质“一张图”、数字地质资料馆、数据交换共享几个方面。云应用服务层是各类用户利用、挖掘地质大数据价值的直接工具。以湖北省地质局地质大数据平台建设研究为例,提出近期建设基于地质大数据的智能管理支撑子系统与地质应用服务子系统;由于SOA架构弹性可扩充的特点,运行维护期可根据需要扩充在地质旅游、地质科普等专业方向的扩展,最终覆盖地质大数据服务全体系。
2.5.1 地质大数据智能管理支撑子系统
地质大数据智能管理支撑子系统是当前省级地质工作中急需建成的部分。其基本构想是提供各类用户一个专业的工作台环境,在地质大数据中心提供的各类数据服务的基础上,灵活方便地获取、组合、分析、保存各类数据,辅助完成用户的管理业务和技术业务。该子系统主要包含地质“一张图”模块、项目管理模块和辅助决策模块。
2.5.2 地质大数据应用服务子系统
地质大数据应用服务子系统是地质技术人员的数字地质资料馆,是搭建在省级地质大数据平台上的个人工作台,聚焦于服务地质工作中的资料智能检索推送、数字地质资料存档与服务、数据交换共享与数据综合分析等主要功能。主要包含资料查询与智能推送模块、数字地质资料馆服务模块、数据交换共享模块、数据综合分析模块、专题地质产品定制模块。
2.5.3 远期规划建设的功能
基于SOA架构的特点,省级地质大数据平台应用服务层远期可实现多专业标准图集、三维模拟决策环境、大屏幕演示、辅助决策指挥、数据挖掘、大众地质科普、专题地质产品定制、地质知识交流分享等多种功能。
为了测试SOA架构在省级地质大数据应用中的适用性,结合湖北省地质局地质大数据平台建设研究项目的需求,笔者及其项目组成功搭建并运行了一个湖北省地质局地质“一张图”实验系统。
服务器:3台,分别用于搭建地图服务器、数据库服务器、Web服务器。
操作系统:Windows Server 2003 Professional。
数据库:Microsoft SQL Server 2000。
GIS平台:MapGIS 10 I2GSS 免费开发版。
客户端:标准Web浏览器。
3.2.1 数据服务发布
项目组选取了湖北省第三轮矿产资源规划数据库部分专题数据、工作程度数据库作为数据服务发布的对象。首先,项目组利用MapGIS 10桌面客户端完成了数据整理与数据脱密,制作了地图瓦片,然后利用MapGIS 10 I2GSS发布了地图服务。实验过程中共发布MapGIS格式矢量和瓦片地图服务16个,符合OGC标准的WMS服务16个。
3.2.2 多源数据叠加
基于MapGIS 10 I2GSS提供的客户端开发JavaScript脚本库,项目组开发了一个地质“一张图”客户端系统。实现了天地图(矢量、影像、地形)与项目中发布的地图服务的自由组合叠加显示。实现了MapGIS地图服务中图层任意图元的属性信息浏览查看功能。
3.2.3 项目管理应用
项目组收集整理了湖北省地质局在建项目的基本信息表,以Microsoft SQL Server存储管理这些数据。在客户端,通过与地质“一张图”结合,实现了项目信息的上图、检索、统计等功能。此外,项目组还实现了项目信息的标准检索接口。
基于湖北省地质局地质大数据平台建设研究项目的研究成果,通过对目前国内地质大数据与云计算前沿技术的充分研究,分析对比省级地质数据资源特征,吸收借鉴中国地质调查局“地质云”建设的成果,对接省级地质工作及地质信息服务的需求,在实验分析的基础上,面向服务架构(SOA)是一种适合省级地质大数据建设的总体框架。按照云计算的模型,省级地质大数据建设可以选择构建集中式的地质云计算基础设施服务层;按照扩展的“地质云”元数据标准采集生产地质元数据产品与数据实体产品,入云构建地质大数据服务层;通过部署商用时空GIS平台及其扩展大数据模块构建地质云平台服务层;选择目标用户最急需的应用需求搭建地质大数据云应用服务层。
上述技术思路与方法,目前正应用于指导湖北省地质大数据平台建设的实践,也可供其它省份在研究论证本省地质大数据平台建设、地质云省级节点建设时作为技术参考。从目前的实践来看,也存在一些不足,主要体现在对大数据的安全防护考虑较少,对实时动态类数据(如监测类数据)的分析欠缺,留待今后在应用过程中进一步升级完善。