谭永杰,刘荣梅,朱月琴,文敏
1. 自然资源部地质信息工程技术创新中心,北京 100055;
2. 中国地质科学院地质力学研究所,北京 100081;
3. 中国地质调查局自然资源综合调查指挥中心,北京 100055;
4. 国家自然灾害防治研究院,北京 100085
21 世纪以来,以互联网、大数据、人工智能为代表的新一代信息技术快速发展成为当代科技革命的主要引擎,改变和颠覆了我们传统的思维模式、生活模式、生产模式等,人类社会进入了信息化的时代(维克托·迈尔-舍恩伯格和肯尼思·库克耶,2013;《大数据领导干部读本》编写组,2015)。支撑信息化的核心是大数据,大数据是信息化发展的新阶段,以数据容量大、类型多、存取速度快、应用价值高为主要特征(邬贺铨,2013)。大数据发展已成为国家战略,国务院2015 年印发的《促进大数据发展行动纲要》(国发〔2015〕50 号),系统提出了我国大数据发展的方针策略、主要任务和措施。近年来,大数据在我国得到了迅猛发展,大数据技术日趋成熟、体系越发完善,大数据产业蓬勃发展,显现出了来源广泛、样式繁多、应用普遍的社会属性。地质工作是经济社会发展重要的先行性、基础性工作,服务于经济社会的各个方面(温家宝,2003),地质数据是地质工作的真实记录和成果的最终表达载体,地质工作的对象是地球,地质数据描述的是地球物质资源和人类生活所处地质环境的相关信息,是自然资源数据的重要组成部分。伴随着信息技术飞速发展、社会经济发展对地质数据的需要,地质信息化近年来得到了大发展,但是对地质大数据的认识还不够系统和深刻,这制约和影响着地质信息化的发展。本文依据大数据的理念及其发展变化,结合地质工作实际和地质信息化建设的实践体会(谭永杰,2016a,2016b;谭永杰等,2007,2011,2017,2018,2019,2023;谭永杰和文敏,2023),系统分析地质数据的大数据特性—— 从地质数据的来源梳理其构成和天然属性,从地质数据客观存在和应用角度归纳分析其所具备大数据的特点,给出地质大数据概念的内涵,并结合近年来地质信息化建设实践,分析地质大数据研究存在的问题,进而提出地质大数据研究与应用的发展方向。
地质科学的根本任务在于认识地球,并利用这种认识去保证人类生存发展所需要的自然资源,保护和改善人类的居住环境(江泽民,2003)。地质工作的对象是地球,尤其是岩石圈的表层地壳。地质工作者通过野外调查、观测监测、工程揭露、地球物理勘探、地球化学勘探、遥感地质调查、分析测试等工作手段和综合研究,揭示地球尤其是地壳表层的物质组成、结构及其演化,获取人类社会发展所需要的化石能源和矿物资源的赋存信息,获取人类生活相关的地球空间环境信息,为社会经济的高质量发展提供基础支撑(李守义和叶松青,2003;舒良树,2010)。
从数据角度,地质工作是一个数据采集、处理、归纳综合和提交的过程;地质工作原始采集的是数据,处理的是数据,最终的成果也以数据形式表达,因此,地质工作是一个完整的数据生成、处理和提交应用的过程。
1)野外调查采集的数据
野外调查是地质人员到野外现场实地观察地质现象,形成直接的感性认识,包括点观察、路线观察、剖面测制、获取样品,形成各种观察记录、素描图,编制剖面图、平面图等(地质部地质辞典办公室,1982;刘志逊等,2015)。这是地质工作最基本的数据采集方式,也是日常所说的最重要的第一手地质资料。传统地质工作“三大件”(地质锤、罗盘、放大镜)是辅助地质人员在野外进行观察的,其结果一般记录在野外记录本上,多是描述性的文本。近年来,借助信息技术发展逐步形成了野外数据采集仪、数字地质调查系统、智能地质调查系统等,基本上实现了野外数据采集的数字化、结构化,现在正在走向智能化、智慧化(谭永杰等,2007,2011;李超岭,2012;施俊法,2022)。
2)观测监测获取的数据
观测监测是利用专门设备仪器或人工方式对特定位置的地质现象和属性定期进行观测监测,获取实时数据,据此分析特定地域地质体或地质现象的特征。主要包括用各种传感器探测地下水的水位、流速、温度,地质灾害相关的地应力、位移、地面沉降量及速率等,采用视频记录地质作用的过程等。近年来观测监测多采用电子传感仪器,用物联网控制采集,通过互联网传输,所获得的基本上为实时数据。
3)工程揭露采集的数据
工程揭露是利用钻机、人工挖掘等方式,包括钻探、坑探、槽探、洞探等,对地球及表层受覆盖的区域进行一定程度的揭露,便于地质人员获取覆盖物下的地质信息和其他探测手段的实施,通常形成钻进记录、岩心记录、剖面记录,编制相应的钻孔柱状图、槽探坑探壁剖面图等(地质部地质辞典办公室,1982;刘志逊等,2015)。近年来的技术发展,实现了各种柱状图、剖面图数据结构化采集和绘制;各种钻进施工参数,包括转速、温度、泥浆密度、孔斜等,也可通过传感器、物联网、互联网等,自动感知、传输和结构化记录。
4)地球物理勘探采集的数据
地球物理勘探是利用地球及表层组成物质的物性差异,针对性地采用物理方法进行探测,主要有电法、磁法、地震勘探、重力勘探、放射性勘探、地球物理测井等(地质部地质辞典办公室,1981,1982;刘志逊等,2015)。地球物理探测可在太空(卫星)、空中(航空)、地面、地下和井中(测井)等不同空间平台实施。地球物理探测形成相应的施工参数记录、探测结果记录等,数据经处理分析形成地质解释成果。在地质勘查技术中,地球物理技术发展最快,探测效率较高,现已全部实现了由模拟模式向数字模式的换代,但是由于方法多样、平台层次多、生产厂家多,仪器数字记录格式差别较大。
5)地球化学勘探采集的数据
地球化学勘探是利用地球及表层物质的化学性质差异,采用地球化学采样、分析样品中化学元素含量的方式,形成相应的采样施工记录、测试结果记录和地质分析成果(地质部地质辞典办公室,1981)。随着技术的进步,常规的地球化学勘探可分析探测的元素由40 多种增加到了70 多种,根据需要还可以更多,探测精度在不断提升,现在也可以探测微量元素的含量。
6)遥感地质调查采集的数据
遥感地质调查是利用地球及表层物质光谱性质的差异,制作不同种类的传感器,在不和观察物直接接触的情况下,获取地球表层覆盖物的光谱反射信息,分析地球和表层物质组成及结构(地质部地质辞典办公室,1982;刘志逊等,2015)。目前主要有多光谱遥感、红外遥感、高光谱遥感、合成孔径雷达及侧视雷达等,按照空间平台可分为卫星遥感、航空遥感、地面遥感等,形成遥感飞行参数、遥感图像数据和分析处理结果等记录和地质解译成果。随着技术发展,遥感技术的空间分辨率、光谱分辨率不断提高,传感器光谱记录全部实现了由模拟模式向数字模式的转型。
7)分析测试获取的数据
分析测试是对野外观察或钻探、槽探中采取的地物样品进行物理和化学分析,获取地球表层物质的物理性质、化学性质,分析地球和表层物质组成及结构(刘志逊等,2015),形成样品记录、物理与化学分析测试结果和处理分析记录。近年来,分析测试仪器有比较大的发展,获取的物性、化学性质和灵敏度等都提高较快,数据的解释水平有大幅度提高,尤其是同位素测年技术也日趋成熟。
8)综合分析获得的数据
综合分析是对各种地质工作手段采集到的原始数据和地质分析专题成果进行综合研究,形成地质勘查成果和结论(刘志逊等,2015)。综合分析一般形成成果报告、表格、图件和专题报告。成果报告多为非结构化的文档文件,附表、附图多为结构化的数据文件,图件现多数已经实现了矢量化数据表达。
9)地质资料数字化的数据
我国以往地质工作形成的业务成果记录(统称为地质资料),基本上都是纸质的模拟记录,2000年以后,才基本上形成数字化记录,因此,大多数地质单位都组织对已有地质资料进行数字化(谭永杰等,2011)。地质资料数字化分两种方式:一种是对已有资料进行扫描,形成和纸质资料完全一样的数字版资料,这种记录多是格栅化的图像文件;另一种是对扫描的图像数据进行识别和编辑,形成文档文件、表格文件、矢量化图件,也有采用人工方式对已有资料进行规范化录入形成结构化的数据库。
大数据具有数据量大、类型多、变化速度快、应用价值高等典型特征。对汇聚形成的地质数据进行系统梳理,从数据存在的客观性和应用角度进行归纳分析,发现地质数据具有广泛应用性,不仅具有量大、类型多、汇聚快、价值高等大数据公认的特征,还具有地质行业显著的特色(表1)。
表1 地质数据的大数据特点归纳表Tab.1 Big data characteristics of geological data
1)地质数据具有极高的广泛应用价值
地质数据是地质勘查单位和地质工作者宝贵的财富,具有广泛的应用价值。地质工作是经济社会发展重要的先行性、基础性工作,地质工作既是经济建设的先行,又贯穿于长期建设的全过程,渗透在经济、社会发展的方方面面(温家宝,2003)。地质工作成果数据广泛服务于保障国家能源资源安全、促进生态文明建设、防灾减灾,服务于海洋强国、新型城镇化、工业化、农业现代化和重大工程建设,服务于军事和国防建设。地质数据有极高的广泛应用价值。
2)地质数据具有特殊的再利用价值
地球演化有40 多亿年的历史,地球表层的物质组成和结构演化相对于人类生活来说是非常缓慢的。除突发性的构造活动、火山喷发和地质灾害外,多数地质现象的演变是以万年、百万年为单位表述的,而我国有记录的地质工作才100 多年的历史。因此,不同时期的地质工作相对于其研究对象来说,其时间因素可以忽略不计,都是对地质体从不同角度的客观认识。地质工作者在一个地区开展勘查时,特别注重对已有地质资料数据的收集和研究,因而,相对于其他行业领域而言,地质工作特别重视已有地质资料数据的再利用。
地球是庞大复杂的有机整体,由于揭露手段和揭露的程度有限,人们对于覆盖物掩埋下的地球表层的物质组成、结构及其演化规律的认识极其有限,就像盲人摸象,容易得出局部的或片面的阶段性结论。人类对于地球的认识处于长期探索、不断深化的过程中,也是总体循环、螺旋式上升的认识模式,因此,地质工作者对于同一块区域,依据已有的地质工作成果资料数据,可能要开展一轮又一轮的地质工作,不断深化认识,取得新的成果。
在所有地质数据中,野外或现场采集的第一手地质数据最有再利用价值,它是对地质现象的客观描述。经过加工处理的数据,包括工作过程中衍生的数据、阶段性成果和最终成果数据都带有一定的地质工作者个人主观因素,在后续的实际工作中一般作为参考。
3)地质数据具有较高的相关性
对于一个工作区域,地质工作会根据目标任务和工作区实际地质情况,采用不同组合的工作手段进行勘查。地质工作的对象(地质体)本质是客观存在的,不同工作方法获得的探测数据是从不同角度对该地质体某一方面特性的客观认识。因此,同一工作区各种工作手段获取的数据具有必然的联系和客观的相关性。
4)地质数据具有较大的局限性、多解性和模糊性
地球地域宽广,地质工作者能够跑到的野外观察点、能够实施的勘查工程和采样非常有限,因此,根据观察数据、样品数据或钻孔数据获得的地质认识具有相当大的片面性、局限性,也常常会形成“一孔之见”。地球物理探测、遥感等方法,都是根据物性、光性对勘查对象进行反演推测的,一般也要经过实际标定和验证,这种验证都是十分有限的,因此,根据地球物理数据、遥感数据获得的地质认识有多解性。地球是一个有机整体,地质工作强调用地球系统科学观分析研究地质对象,由于野外采集数据的局限性和其他间接手段获得数据解释的多解性,地质工作综合研究获得的最终结果,也就是成果数据的含义,在一定程度上有比较明显的模糊性。因此,在地质成果中常见“推测”“可能”“估算”等模糊性表述。
5)地质数据具有多模态、异构复杂性
正如上述,地质工作手段包括了野外调查、观测监测、揭露工程、地球物理勘探、地球化学勘探、遥感地质调查、分析测试等,工作平台包括太空、空中、地面和地下等,在每一种手段中又有多种方法和仪器,每一种仪器有不同的生产厂家,尤其是地球物理探测手段多种方法技术、多仪器厂商,具体实施数据采集的单位和人员有不同的习惯。因此,采集的地质数据具有多模态、多格式;采集的地质数据有结构化的记录,也有大量的描述性记录、地质现象的照片记录及视频记录等。地质数据具有非结构化、半结构化、结构化等异构的特点,各种结构复杂。
6)地质数据具有高度时空性
地质数据描述的对象是地质体,地质体具有一定的空间位置。因此,任何地质数据不管是描述地质形态的,还是描述地质属性的,都是指一定空间位置的形态或属性,地质数据带有具体的空间坐标,地质工作者特别重视地质现象的具体位置,缺失具体位置的地质现象的观测记录和数据没有科学意义;任何地质数据都具有采集时间,描述的地质体也具有地质演化的特点,具有地质年代属性。地理信息数据具有高时空性(王家耀等,2017),地质数据和其他地学数据一样,具有高度时空性。
7)地质数据具有量大、汇聚快的特点
我国地质勘查工作有100 多年的历史,产生了海量地质数据。近年来,每年投入1000 多亿元进行地质工作,其中,中央财政投入的地质调查工作基本上维持在100 亿元左右,这些地质工作产生的地质资料数据通过项目关系汇聚到中央管理部门;同时,我国从20 世纪50 年代开始,实行地质资料汇交管理制度,在我国境内实施的地质工作必须向省级地质资料馆藏机构或全国地质资料馆汇交地质资料(全国地质资料馆,2012)。通过这两条渠道形成了比较系统、全面的地质数据集合,这些数据具有量大、面广的特点。近年来,随着新技术的发展,地震地质勘探、遥感地质调查、地质灾害监测等手段的广泛实施,尤其是探测精度和分辨率的快速提高,地质数据呈现出快速爆发式增长的局面。
汇聚集合的地质数据既有大数据的典型特征,量大、类型多、价值高、汇聚快,又具有行业显著的特点;地质工作的对象是自然资源的重要组成部分,地质大数据属于自然资源大数据的一部分,也是国家大数据的重要组成。
在近年的工作中,地质大数据遇到的主要问题仍然是开放共享难、应用效果不显著、难以形成规模化应用等,问题由多方面原因造成。一是缺少通用的数据描述模型,造成数据多源异构、格式多样,数据组织管理困难,难以形成高效的存储管理和检索查询;二是地质数据的汇聚工作机制还不够完善,数据生产者共享的积极性不高;三是数据挖掘分析难度大,不能有效提取有用信息和知识;四是数据汇聚效率比较低,没有形成有效系统;五是地质大数据社会认知层次较低,关注度不高。针对上述问题,建议加强以下工作,推进地质大数据高质量发展。
(1)加强地质数据模型研制,规范地质数据采集。
采集数据的不规范已经成为制约地质数据快速采集、处理和应用的主要问题,应尽快在国家地质工作中推动研发出认可度比较高的地质数据描述模型,包括通用数据模型、各专业数据模型,在此基础上制定地质数据描述标准和采集规范,并以行业指导型标准形式发布,规范各仪器厂家地质勘查设备、软件系统的数据表达格式,规范和引导全社会地质勘查单位数据的规范采集与综合研究成果的表达。
(2)加强地质大数据存储管理技术研究,提升数据管理与共享水平。
重新审定完善地质元数据标准,开发有效实用的地质元数据采集工具;规范地质大数据的元数据制作,必要时对已经采集的元数据进行修改完善和再采集。研究多种类型地质数据的存储管理模式,对文本数据、结构化数据、扫描数据、地震勘探数据及遥感地质调查数据等,根据数据格式特点和数据量等,研究形成混合架构的数据库,以及在线、离线等不同策略的数据存储管理模式,对地质大数据实现有效管理。在数据有效组织管理基础上,结合地质数据用户的应用习惯和地质数据的特点,设计具有特色的地质数据检索查询模型,提高地质数据检索查询的质量和效率;总结地质大数据组织管理模式,分析研究地质数据存储管理效率,分析评估建设结构化数据库或直接进行数据文件堆仓管理的技术途径。
(3)加强地质大数据结构化转化研究,提高地质大数据的处理效率。
已有的纸质地质资料大多数已经数字化,但是多为非结构化的语言描述或图件扫描,再处理利用的效率低。可对已经扫描的地质报告进行文字识别,转化成文本文件,包括表格文件;对文档文件,采用自然语言智能识别的方式,根据地质数据描述模型等,对文本文件进行识别和信息提取,形成结构化的表达数据;对扫描的图件数据进行地质点、线、面和属性的识别,形成矢量化的图形文件,这方面的研究成果趋于成熟,可进行批量转化处理。
(4)加强地质大数据产品分级管理研究,规范地质数据的共享服务。
探索对地质大数据产品根据工作程度进行分级:0 级产品为原始采集的数据;Ⅰ级产品为经过坐标投影统一、数据按照规范进行整理等基本处理的数据,Ⅱ级产品为经过坐标投影矫正和初步处理的数据;Ⅲ级产品为经过专门处理的专题成果数据等。研究制定地质大数据产品分级标准,对已有的地质数据进行清理和规范化整理,形成标准化的分级数据产品。加快制定地质大数据产品体系和制作标准,积极引导、支持社会有关机构和公众参与地质大数据服务产品的制作,形成多元化的地质数据服务产品制作新局面。
(5)加强地质大数据融合分析研究,提升地质大数据的分析挖掘水平。
按照大数据的理念和一般方法,探索推进地质数据的融合分析,让数据进行碰撞,形成数据“火花”或新的亮点。数据碰撞的前提是统一数据的坐标和时间基准,统一数据的描述粒度或可对应性(谭永杰和van Genderen,1998),要加大对地质大数据这方面的研究和数据整理工作;加强对成矿模型、找矿模型(施俊法等,2010;毛景文等,2012a,2012b)和地质演化模型的分析归纳,形成相应的业务模型、数据模型及算法,并采用机器学习的原理和方法,推进地质大数据的深度挖掘和分析应用。
(6)完善地质大数据体系建设,提升地质大数据的整体合力。
在已有的地质大数据体系(图1)建设基础上(谭永杰,2016b),从系统的角度继续完善地质大数据体系建设。
图1 地质大数据体系总体框架Fig.1 General framework of big geological data system
完善地质数据采集处理体系,使用标准的数据模型,升级各专业数据采集系统,推进地质数据快速规范采集和快速处理工作。完善地质数据汇聚体系,优化地质项目汇聚和地质资料汇交工作机制,实现地质数据快速有效汇聚,强力推进地质项目的在线记录和实时汇聚。完善地质数据与信息服务产品体系,以需求为引导,开发具有现实应用价值的品牌产品,实现服务产品的分类分级标准化管理,丰富地质数据与信息社会化服务产品。完善地质数据与信息产品体系,提升国家馆藏机构服务节点能力,指导规范地质单位服务管理,形成比较完善的地质数据信息服务体系,推进地质数据与信息协同服务。完善地质大数据支撑平台(又称“地质云”),提高“地质云”的数据存储、处理和服务能力,推进地质工作现代化水平,提升地质数据与信息服务的水平。同时,建设完善地质大数据制度机制体系、技术标准体系、安全防护体系,为地质大数据体系的持续建设与稳定运行提供支撑。
(7)纳入全球可持续发展空间地学信息框架,推进我国地质大数据国际化高水平发展。
联合国统计司主导建立了联合国全球地理空间信息管理专家委员会(the United Nation Committee of Experts on Global Geospatial Information Management,UN-GGIM),协助联合国统筹协调全球空间地学信息方面的工作,以支持全球可持续发展战略的实施。该委员会制定有全球可持续发展空间地学信息框架,地质大数据是地学空间信息的重要组成部分,应该纳入该框架,促进地质大数据更加规范的管理、更加广泛的应用和更高水平的发展。2019年在纽约联合国总部召开的UN-GGIM 第9 次会议上,中方代表团提出了相关建议,得到认可并被写入大会的最后决议中,今后应继续推进此项工作,争取早日纳入全球可持续发展空间地学信息框架。
我国已经积累的地质数据是重要的自然资源大数据和国家大数据。地质工作是社会和经济发展基础性工作,地质数据具有高度时空性和大数据的基本特性,又具有行业显明的特点,具有广泛应用性。应加强地质大数据采集处理的标准化建设,研究地质大数据的高效管理模式,推进地质大数据的结构化转化处理,建立地质大数据服务产品分级管理制度;加强地质大数据融合处理和业务分析模型建立,建设完善地质大数据体系,提高我国地质大数据的社会认知层次和国际化水平,全力推进地质大数据的共享和信息服务,提升地质工作为社会经济高质量发展服务的能力。