赵静仪
地质数据是地质工作记录及其成果体现的关键,文章基于地质数据的来源,对获取地质数据的途径进行了分析,并对地质大数据的特点进行了阐述,同时提出了地质大数据建设的发展方向,以供相关人士参考。
近些年,全国的大数据研发与实践得到了显著提升,大数据技术日渐成熟,相关配套设施逐步完善。而同时期,大数据产业展现出蓬勃活力,具有来源多元、形式丰富、应用面广的特点。地理学作为国民经济发展的基石之一,其服务深度和广度并不仅限于表面,而地质数据正是地学研究者进行分析和评估的关键工具。虽然现在的地质信息化已经有了相当程度的进展,但对于地质大数据的理解与研究仍显不足,这就限制了地质信息化的进一步发展。因此,文章将立足于现今的大数据概念及其发展趋势,深入讨论地质数据结构和来源进行的识别,以及从客观存在和实际使用角度挖掘出大数据特点。希望透过这些工作,能为将来的地质大数据定义提供更深入和系統的解读,并基于此剖析当前地学信息化建设的困难,提出地质大数据未来发展思路。
地质数据的获取途径
野外调查采集。野外勘测是地质学者亲历现场,直接深入地理解地质地理环境,观察地质活动实况,包括定点观测、巡回检查、制作剖面和采集样本,同时进行相应的记录、描绘图表以及平面图等工作。对于地质研究而言,这种方式是至关重要的基础工作,能够提供最真实准确的地质信息。在原始的考察办法中,地质锤、指南针、放大镜是必不可少的户外观察工具,而记录内容则主要以描述性文字为主,将所有现场文献保存在野外笔记簿中。随着信息技术的不断发展,新的野外信息采集仪器,如野外数据采集仪相继问世,与数字化地质调查系统和智能化地质调查系统相互融合,从而完成从初阶到高阶的电子化、组织规范化转变,向着更高效、精确的方向继续前进。
观测监测获取。精密的观测与监测技术,通过专业仪器或手工操作对特定区域的地质属性进行定期评估并实时捕捉数据,从而准确掌握地质环境状态。其涵盖范围包括运用传感器检测地下水位、流速、温度及地应力、位移、地面沉降等多种地质灾变参数,并由影像记录地质活动过程等领域。目前已普遍利用电子传感设备结合网络技术实现数据采集与传输,并设立专用的实时数据库系统。
工程揭露采集。工程揭露技术主要采用钻探机械与徒手挖掘方式,涵盖了钻探、坑探、槽探、洞探等多种手段,以揭示地表下厚重覆盖层中的地质结构及其他探索需要。同时,该过程伴随着详细的钻进进度、岩心分布、剖面特征记录,以柱状图、剖面图等形式进行展示。然而,随着科技发展的日新月异,现今人们已经能够轻松地利用数字采集和绘画技术来生成各类柱状图、剖面图,此外,大量的钻井施工数据例如转速、温度、泥浆密度、孔斜等也都能实现自动化监测、传输和保存,这都得益于借助传感器、物联网、互联网等现代科技工具。
分析测试获取。通过对野外地貌样本或钻孔探查中的矿物标本进行全面物理与化学分析测试,能够获取地表物质的特性、成分以及构造,最终形成样本记录、分析结果以及处理日志。近几年内,随着相关分析设备的快速发展,获取的物理、化学性质以及敏感度均得到显著提升,特别值得指出的是,同位素测年技术已日益走向完善。
地球化学勘探采集。地球化学勘探基于地壳及表层物质中化学特征的独特性进行采样与量化成分分析,成功制定施工规划、测试结果以及地质剖析报告。在科技进步的推动下,如今地球化学勘探可揭示的物质特性已由原先的40余种扩展到超过70种,并有潜力覆盖更广泛的元素领域。在此过程中,检测精度逐步提升,微量元素的测量也愈发精准。
地质大数据的特点
地质数据具备深远的应用价值。作为地质勘查单位与地质学家的珍贵财富,地质数据的应用范围十分广阔。地质工作在经济、社会发展中起到举足轻重的先导和基础作用,是决定经济建设走向及长期建设全程的关键因素。其成果不仅满足了我国能源资源安全的需求,助力生态文明建设,预防灾害,还在服务于海洋强国,新型城市化,工业、农业现代化以及重大工程等多个领域以及军事国防建设等方面发挥着积极作用。因此有理由认为,地质数据具有无法估量的广泛应用价值。
地质数据具有独特的再利用价值。根据地史记载,地球存在约46亿年,而地质现象的变化相对人类的生活则显得极为缓慢。除了偶发的构造变动、火山爆发以及地质灾害之外,大多数地质现象的演变均以万年乃至百万年为计量单位。然而,我国大规模的有据可考的地质调查工作至今仅进行了不足百年。相较于地质体的研究,这些年代因素可以被忽视。地质学家们在某地进行勘察时,特别关注已有地质资料的收集与研究,这使得地质学比其他领域更注重数据的再利用。由于人类对地质认知能力的限制及探测手段的局限,人们对地下物质组成、结构和演化规律的了解极少,甚至只能推测和猜测,犹如盲人摸象。因此,地质工作往往需要反复进行同一区域的调查研究,以便更好地了解并深入认识。其中,原始的野外或现场采集的地质数据最为珍贵,它们只是客观详细地描绘了地质现象。而经过处理过的数据,如工作进程中的衍生数据,虽然也具有一定意义,但因其包含了部分个人主观推断,通常只用于参考。
地质数据独具时空特性。所有地质数据都以特定地点的地质特征或性质为主,都附有明确的空间坐标,而唯有将具体位置予以详细记录的地质数据才有其科学价值。在这其中,地质体的地质演进过程及其相应的地质年代皆为地质数据中的重要组成部分。地理信息数据同样具有丰富的时空特性,与地质数据以及其他各类型地学数据共享同一性。
地质数据具有较大的局限性、多解性和模糊性。鉴于地球辽阔,地质人员得以实地考察、施工和取样的地点极其有限,因此他们所得出的地下状况理解存在很大偏颇且具局限性,频繁出现的现象则为“一孔之见”。诸如地球物理探测与遥感在内的各种探测技术,都依赖于物性和光性的反演推断,但其可信度和精度往往受到事实认证的限制,因此这些方法实测得到的地质认知同样具有多解性。此外,地球被视为一个有机整体,地质研究必须结合地球体系科学观点来深入理解,然而由于野外获取数据的不足以及各类间接手段解读数据时的多解性,使得基于综合研究得出的最终结果(即成果数据)具有较明显的模糊性。这也是为何人们在地质报告中经常看到使用“推测”“可能”“估算”等模糊措辞的原因。
地质大数据的发展方向
多年来,地质大数据所面临的挑战包括:开放共享困难、应用效益低且缺乏大规模应用,这主要源于多个源头的数据。首先,这种数据与特定的数据描述模型间的间隔,导致了数据的多样性和复杂性,限制了在存储与检索上的效率。其次,数据生产者对共享的积极性较低,也限制了数据汇聚的程度。再次,挖掘和分析这些数据的难度高,使得获取有价值的信息增加了难度。此外,数据的汇聚效率较低,尚未实现有效的系统化方法。最后,地质大数据的大众认知水平有限,尽管具有潜在的应用价值,但关注率并不高。为此,应加强以下几个方面的工作,以推动地质大数据的高质量发展。
加强地质数据模型研发,规范化地质数据采编。要解决现有地质数据采集的随意性问题,提高数据规整和应用效率,国家应大力推动开发具有高度可信度的地质数据模型,覆盖全领域通用和专业数据类型。此外,需要制定和发布地质数据采编规程作为行业指导性标准(如图1),统一规范行业厂商地质勘探设备和相应软件系统的数据表示方法,协助全社会地质勘查机构实现标准化的数据采集及成果展示。
深化大数据存储管理研发,提升数据管理与分享能力。同时改进并完善地质元数据标准体系,设计有效且易用的元数据收集工具。规范地质多元数据的编制流程,搜集并妥善修改已有元数据,进一步加强数据的巩固工作。综合考虑各类地质数据的特性和格式、数量等因素,创新性地构建混合式数据库架构(如图2),并实行在线和离线的双重数据管理策略,以期有效地管理地质大数据。
深化地质大数据结构化转化探索,提升处理高效性。当前,多数纸质地质文献已實现数字化,但仍以非结构化语言描述或图像形式存在,处理效率较低。针对已扫描的地质报告,通过精密的文字识别技术将其转换为文本格式,并创建相应的表格文件。对于类似文档,应用自然语言智能识别技术,依据地质数据描述模型对文本进行识别与信息抽取,最终生成结构化的表述数据。同时,对扫描后的图像数据进行地质属性的精准识别,建立矢量图形文件。以上相关研究技术已然成型,可有效支持大规模的批量化处理工作。
深化地质大数据整合分析,提高其利用率和效益。遵循大数据理论与方法,致力于推进地质数据的深度融合,创造出具有爆发力的数据“火花”,或者碰撞出新的观点。而在进行数据碰撞之前,务必保证数据间坐标和时间基准的一致性,数据描述的精细度或可比性的高相符度,在此基础上加强地质大数据的研究及资料整理。同时,深入解析成矿模型、找矿模型以及地质演化模型等,最终构建相应的业务模式、数据模型及算法。此外,运用先进的机器学习技术,进一步提高地质大数据的深层挖掘和分析应用。
综上,我国已累计形成独具价值的地质数据,堪称重要的自然与国家大数据宝库。地质工作作为构建社会活动及经济稳健发展的基石,其所提供的地质数据兼备时空特性以及大数据的关键特征,且呈现出明显的行业特色,具备广泛的应用潜能。同时,建立健全地质大数据服务产品分级管理体制,提升地质大数据的融合处理效率,加大业务分析模型建设力度,构建完整的地质大数据体系,以增强我国地质大数据在国际社会中的影响力。
[作者单位:河北省区域地质调查院(河北省地学旅游研究中心)]