大数据驱动下的数字古地理重建:现状与展望

2020-01-06 05:03钟瀚霆陈安清赵应权黄可可李凤杰曹海洋祝圣贤穆财能侯明才JAMESOgg
高校地质学报 2020年1期
关键词:数据库

张 蕾,钟瀚霆 ,2*,陈安清 ,2,赵应权,2,黄可可,2,李凤杰,2,黄 虎 ,2,刘 宇,2,曹海洋 ,2,祝圣贤,穆财能 ,侯明才,2,JAMES G.Ogg,3

1.成都理工大学沉积地质研究院,成都610059;2.油气藏地质及开发工程国家重点实验室(成都理工大学),成都610059;3.普渡大学大气与行星科学学院,西拉斐特47907

数据已渗透到社会生产和生活的各个领域(翟明国等,2018),成为重要的生产要素和战略资源(怀进鹏,2013)。人们对海量数据的挖掘(Che et al.,2013)和利用,带来了产业结构的变革及科学研究范式的创新(Hey et al.,2009;Kitchin,2014;张旗和周永章,2017)。地球科学作为典型的数据密集型学科,同样面临着前所未有的挑战与机遇。通过与大数据思维相结合,地球科学不仅可以极大拓展认知空间,提升获取新信息新知识的能力,同时还可为能源矿产调查、环境资源利用以及防灾减灾等社会生产和公共服务提供创新活力。随着地学大数据不断爆发式增长,如何将大数据与地球科学更深入更全面地结合,让不断产生的海量地学数据更好地为地球科学服务,成为业内必需面对的问题。

在这样的时代背景下,由中国科学家发起和主导,并由国际最大的地学学术组织——国际地质科学联合会(IUGS)批准的第一个国际大科学计划——“深时数字地球”(Deep-time Digital Earth,DDE),应运而生。DDE计划以整合地球演化的全球数据、共享全球地学知识为使命,力求推动地球科学研究范式的变革。该计划将以固体地球为对象,运用大数据研究的科学范式,聚焦于数十亿年地球演化、生命起源、矿产成矿与油气富集机制等核心基础科学问题,重建精确的地球演化历史,构建全球地质构造与工程地质条件,精准识别全球资源与能源矿产的宏观分布规律,更加准确地预测全球气候变化与人类的未来,实现地球系统科学的重大突破(Wang et al.,2019)。

古地理学作为地质学的重要分支,着眼于研究地质历史时期地球表面的地理、生物、气候面貌及其演化规律,范围涉及大地构造学、古地磁学、岩石学、沉积学、古海洋学、古生物学、古气候学等多学科,对还原构造沉积历史、识别矿产能源分布、预测生物气候演变具有重要指导意义(陈洪德等,2017;Hou et al.,2018)。在大数据时代,随着海量数据的不断积累与新技术的相继诞生,古地理学又该如何把握机遇,实现新的突破?

为回答这一问题,本文通过系统介绍、剖析国内外已有的部分古地理相关数据库及研究团队,提出在大数据驱动下进行标准化、智能化数字古地理重建的思路与面临的挑战,为未来DDE计划整合全球海量古地理数据、建设相关数据平台提供经验。

1 国内外与古地理相关的数据库及团队

国际上以欧美科学家为主导已经实施了若干项与地球科学相关的重大科学计划。国际科联(ISC)、国际地科联(IUGS)均已将“数字技术革命”纳入战略目标。美国国家科学基金会(NSF)在2017年正式建立专项基金,用于投资“影响美国未来领导力的十大思想”,第三项即为“抓住数据革命时机”。NSF计算机信息科学工程学部和地球科学学部联合发起地球科学领域的EarthCube计划,其使命为构建地球科学数据的先进平台,提高地球科学家获取、共享、分析地球科学数据及相关资源的能力,进而理解并预测复杂演化的地球系统。此外,各类学会和组织发起的地球科学大数据平台建设也如火如荼,如GEOROC、EarthChem、Auscope、Macrostrat、One geology等。

近年来,各类与古地理相关的数据库及平台也相继建立,如个人或团队开发的PALEOMAP、CEED、EarthByte、TSCreator、Deep Time Maps等;各类商业公司数据库如IHSMarkit、Neftex、Frogtech、CGG等;以及各国政府或官方学术组织建立的包含大量古地理信息的各类综合数据库。现介绍部分具有代表性的古地理相关数据库。

1.1 PALEOMAP Project

PALEOMAP Project (http://www.scotese.com)由现兼职于美国西北大学的Christopher R.Scotese教授领衔,相关古地理重建工作始于20世纪70年代,其网站被美国科学教师联合会和科学美国人等评为全球最有影响力的科学网站之一。

PALEOMAP Project的核心目标是阐明洋盆和大陆的板块构造演化,以及过去11亿年来陆地和海洋的分布变化(Chatterjee et al.,2013)。其基本方法包括两部分:(1)利用古地磁数据、线性磁异常数据、古生物地理学、古气候学、区域地质构造史重建板块构造模型;(2)综合多种古地理古气候记录,确定关键造山带、海岸线等地貌地理单元,根据地貌的基本原理和规律,作合理的近似推断,进而重建山脉、平原、浅海和洋盆的分布与变迁(图1)。

PALEOMAP Project是最早利用计算机技术开展古地理重建的项目之一,开发了基于地理信息系统(GIS)的古地理重建软件ESH-GIS1.0(ArcView)(第一个地球历史地理信息系统),以及面向公众的手机APP软件ESH-GIS 2.0(ArcView)(具有46个时间断面,带有免费的、重建的空间资料开放格式)。此外,PALEOMAP Project和Earth in Motion Technologies共同开发了可在ArcView 3.0下运行的Paleo-GIS程序,能够演示全球范围从前寒武纪(750 Ma)到现代的板块构造重建。通过近40年的积累,PALEOMAP Project面向公众的具体产品是非常多元化的,主要包括:

图1 板块构造重建的十项证据(据Scotese,2017修改)Fig.1 The ten lines of evidence that are used to make plate tectonic reconstructions(revised after Scotese,2017)

(1)地球历史(Earth History)和气候历史(Climate History)图集

地球历史图集是一系列显示古山脉、古海岸线、活动板块边界以及古气候带范围的全彩色古地理图。可依据选择的时间段呈现不同时期地球的面貌;

气候历史图集讨论了地球气候为什么以及如何随时间变化。可依据选择的时间段呈现不同时期的全球气候分布图;或通过气候动画展示地球的气候带是如何随着时间而变化的。

(2)ipad及iphone应用——古代地球:盘古大陆的裂解(Ancient Earth:Breakup of Pangea)

用户可通过访问网站www.ancient-earth.com或从App Store搜索古代地球(Ancient earth),体验一个可扩展、可旋转、完全交互式的古地球动画系统,用以探索板块构造和地球历史。

(3)三维可移动古地球仪(3D movable Paleoglobes)

用户可选择不同地球历史时期,以多角度旋转并查看交互式3D虚拟地球。目前可供选择的时间段包括:现代、20 Ma、65 Ma、80 Ma、120 Ma、140 Ma、200 Ma和280 Ma。

(4)三维古地理动画(3D Paleogeographic Animations)

提供了白垩纪末期、白垩纪、早二叠世和中泥盆世的三维地形和水深模型可视化样本。

(5)未来地图集(Future Maps)

可依据选择的时间段呈现对未来大陆分布的预测,包括“终极盘古大陆”(推测形成于250 Ma以后)的形成(图2)。

1.2 CEED

CEED(The Centre for Earth Evolution and Dynamics, https://www.mn.uio.no/ceed/english/) 地球演化及动力学中心是由挪威奥斯陆大学数学与自然科学学院创建的一个跨学科研究中心,其核心组成包括Trond H.Torsvik领衔的Earth Dynamics团队,汇集了板块构造、地幔动力学、古地理重建、古地磁和行星科学等多学科背景的科学家。

CEED的愿景是通过研究板块动力学、大规模火山活动的起源、气候演变以及生物大灭绝等事件,生成一个全新的地球模型,该模型将解释地幔活动如何与板块构造相互作用,并在整个地球历史时期引发大规模的火山作用以及相关的环境和气候变化。

图2 250Ma后的“似盘古大陆”(据PlatetectonicmapsandContinentaldriftanimationsbyC.R.Scotese,PALEOMAPProject.www.scotese.com改)Fig.2 +250Millionyearsinthefuture—“PangeaProxima”(revisedafterPlatetectonicmapsandContinentaldriftanimationsbyC.R.Scotese,PALEOMAPProject.www.scotese.com)

CEED的研究主要集中于六个主题,具体包括:

(1)深部地球:物质、构造、动力学

地球动力学过程影响了地球的演变(图3)。CEED将探索地表的火山活动及其变形,以及地幔与地核之间的联系机制。

该主题的目的是在地幔系统中探索板块运动模型(Torsvik et al.,2008),该模型考虑了550 Ma以来地幔中俯冲物质的积累,以及在超级地幔柱(LLSVP)边缘形成的羽状流模型,从而进一步探讨地幔和地核的演化、结构和动力学,以及它们在整个地幔边界上的相互作用。

(2)动态地球:板块运动和地球历史

固体地球的上层是不断运动的岩石圈,深地幔的活动可改变岩石圈,还可影响地球上的气候和生命。地表的历史可以通过研究威尔逊旋回来揭示。CEED力求检验的主要假设是地球上构造板块的运动与地幔动力学密切相关,而地幔—岩石圈活动驱动着地球生命的重大变化。此外,CEED还将探索火山事件、陆地和海洋的分布及地球的自转,以找出它们随着时间影响气候的规律(图4)。

(3)地球危机:大火成岩省、生物大灭绝、环境变化

在整个地质历史中,地球曾多次面临大气中温室气体浓度过高的时期,这些时期与大火成岩省的发育时期一致。CEED探索火山作用对全球气候快速变化和生物大规模灭绝的影响。

图3 深部地球模型(据Reidar,2010修改)Fig.3 Deep Earth model(revised after Reidar,2010)

图4 二叠纪—三叠纪界线时期(约2.5亿年前)陆地、陆架、浅水和深海盆地的全球分布(据https://www.mn.uio.no/ceed/english/)Fig.4 Global distribution of land masses,shelf area,shallow water and deep oceanic basins at the Permian-Triassic boundary time(ca.250 million years ago)(revised after https://www.mn.uio.no/ceed/english/)

CEED旨在开展研究,以弥合地质过程、数据指标和过去环境危机后果之间的鸿沟。CEED重点关注诸如岩浆环境、岩浆通量、LIP的年龄和持续时间以及相关边界事件等参数,也研究LIP和环境变化之间的联系,且会探索为什么有些LIP显然与边界事件不相关的原因。CEED致力于研究的问题包括:大火成岩省、全球变暖、灭绝机制、地球化学旋回和古环境。

(4)地球与其他:比较行星学

大陆碰撞、火山活动和大型海洋盆地的形成等是地球进化史中的典型事件。CEED具有地形观测、行星磁场、重力及陨石相关的知识。CEED想要了解地球和其他类地行星之间的异同点。CEED需要检验的主要假设是,可以在相同的框架内,使用不同的参数来理解地球和行星的动力学过程。一个基本的问题是,为什么地球似乎是唯一具有板块构造的类地行星。CEED从大量的陨石坑数据,统计并完善行星演化的时间范围,通过修改地球模型来探索与内部过程相关的行星表面演化。

(5)地球建模:地球动力学的数值模型

数值模拟是研究地球演化和动力学的主要工具。CEED研究人员利用代码、程序和数据库,执行从简单的二维轴对称研究到大规模并行的四维全球模拟的数值模型,其首要任务是将构造板块重建整合到全球四维地球动力学和气候模型中。CEED旨在开发经济高效的建模和可视化平台,用以重建地球。

(6)地球实验室:古地磁及岩石磁学

古地磁学是地球物理学的一门学科,通过测量岩石中保存的剩余磁性来研究地球磁场的历史。古地磁在很大程度上依赖于岩石磁学的发展,岩石磁学研究了岩石的磁特性和剩磁的过程。随着地磁的变化,古地磁数据使研究人员能够估计在地核液体中产生的主磁场的方向、强度和磁极,因为它随地质时间的变化而变化。该记录主要用于约束远古地质时期的古地理、板块运动和极地漂移。CEED旨在利用古地磁学作为研究工具,以整合古地理构造并建立板块运动的参考框架。

1.3 EarthByte

EarthByte (https://www.earthbyte.org/) 于 2002年在悉尼大学地球科学学院成立,是一个由多所澳大利亚大学、国际卓越中心和企业合作形成的国际领先的数字地球科学联盟,由悉尼大学的R.Dietmar Mülle教授领衔,包括软件开发小组、动力地形小组、古气候小组、板块重建小组和深部过程小组。其基本目标是综合地质时空数据,将不同的地质与地球物理数据融合为包括构造、地球动力和地表过程在内的四维地球模型。

EarthByte的主要内容包括板块运动学、全球和区域地球动力学、构造地质学、太古代地球动力学、古气候模拟、盆地演化和地表过程与构造的联系、地球空间信息科学。开发了目前应用最为广泛的古地理重建开源软件Gplates(Müller et al.,2018)。该软件是一款交互式的可视化桌面软件,结合了板块构造重建(Scotese et al.,1988)、地理信息系统(GIS)功能和光栅数据可视化。Gplates可以在Windows、Linux和MacOS X上运行。通过Gplates门户可下载软件、教程、兼容的数据文件和光栅文件,用户免费使用只需注明引用。数据文件包括:旋转模型、海岸线、大陆形态、洋-陆边界、流径线、热点、岩浆岩和火山岩分布、古地磁数据、洋脊扩张等;光栅文件包括:全球地貌、重力异常、垂直重力梯度、磁性异常、地质图、地壳厚度等。

自2008年以来,地质数据通过开源和跨平台的GPlates软件(图5)构建起灵活开放的板块构造和古地理重建系统,新的数字地球模型覆盖了10多亿年来的地球历史。重要的是,利用CitcomS等工具将古地理重建与地幔流动的数值模型联系起来,这提高了板块重建场景的可测试性。这些时间演化的4D地球模型也为板块—地幔系统在超大陆周期中的演化提供了启示。基于GPlates软件的古地理重建还可以探讨全球变化问题,如洋中脊生成和大洋板块俯冲进入地幔的再循环过程如何驱动全球尺度地表地形和海平面变化等。

EarthByte的数字模型资源中与古地理相关的数据集包括:

(1) The Intracontinental basin(ICONS) 地图集(Heine et al.,2008)。ICONS图集是240多个陆内沉积盆地的数据集合,显示了地壳结构数据,计算的延伸因子和构造沉降网格及其衍生物以及给定盆地的动态地形演化;

(2)中新世古地貌和古地理测量数据集(Herold et al.,2008)。该数据集包括有模型调整和无模型调整部分;

(3)全球古生物学数据库和显生宙板块运动模型(Wright et al.,2013);

(4) Paleoshoreline 数 据 集 (Heine et al.,2015)。地图表示地质历史时期陆地和海洋的分布,为评估非构造垂直地壳运动(如地幔对流驱动的动态地形)对大陆平台洪水历史的贡献提供了极好的解释。到目前为止,这些数据尚未面向全球提供;

(5) Paleo Atlas for GPlates (Scotese et al.,2016)。用于GPlates的Paleo Atlas由91张古地理地图组成,这些地图在时间尺度上跨越晚新元古代至显生宙;

(6) 古地理数据集 (Cao et al.,2017)。以shapefile、GPML和GeoTiff格式提供,这些文件格式可以在GPlates中可视化;

(7)古数字高程模型(PaleoDEM)资源数据集(Scotese and Wright,2018)。PaleoDEM是古地理和古生态测量的数字表示,其已被“重建”回时间上,可被用来制作详细的古地理图。

此外,EarthByte还有动态地形、全球和区域板块运动模型(Müller et al.,2019)、板块构造和古地磁等方面的数据资源可供用户下载。Earth-Byte团队是当前古地理重建的创新模范,提倡数据共享、软件开源和数字地球可视化等先进理念,在卓越的学术研究、广泛的合作精神和软件基础设施开发方面获得了广泛认同。

图5 板块运动模型(据Müller et al.,2019修改)Fig.5 Plate motion model(revised after Müller et al.,2019)

1.4 TSCreator

TSCreator(Time Scale Creator, https://timescalecreator.org/index/index.php)是由美国普渡大学James George Ogg教授开发的一个基于JAVA可视化软件包的地球时间标尺数据库和可视化图表系统。它能够从地球历史时期的全球或区域事件中探索和创建任意地质时间尺度的图表。除了具有交互式弹出窗口的屏幕显示外,TSCreator还可以导出PDF、SVG、PNG或JPEG格式的图表。TSCreator已开发出可视化接口和数据端口,在与学术界和工业界的地层学家、古生物学家以及国际地层学委员会的多次地质调查合作中不断得到完善。

TSCreator的内部数据库主要涵盖显生宙以来5.5亿年的地球历史时期,其数据库包括超过300个地层柱和50000多个关于海平面、稳定同位素、生物、地磁和地球历史及其他方面(包括月球和火星)的事件或数据点。除了这些内部数据集之外,用户还可以下载与合并24个专业数据包中的任何一个(例如,由澳大利亚地球科学编纂的所有澳大利亚盆地的生物地层和地质历史,或一套中国的综合地层柱)。在支持的数据库中,事件的地质年龄和地球历史图通过它们间的相互关系和标准化的地质时间标尺模型来校准(目前为GTS2016,计划在2020年推出GTS2020)。

TSCreator的主要功能包括:(1)屏幕显示(图6)。用户可选择时间跨度和地质时间尺度信息(古生物、古地磁、海平面、地球化学、其他行星等),可以更改选中的列的垂直比例、列宽、字体、颜色、标题、排序、范围等图表选项和许多其他功能。鼠标激活的弹出窗口提供有关列和事件的其他信息。(2)保存。将最终图形保存为SVG(可缩放矢量图形)或PDF文件,以便直接导入Adobe Illustrator或其他常用绘图软件。还可以保存“设置”以在屏幕上重新创建图表。(3)上传额外的数据包、区域地质和样带、高分辨率同位素,古代文化事件等;另外,还能创建并上传自己的数据集。在上传此类数据包之后,Pro版本允许保存关联的图形文件,并重新保存合并的数据集。

1.5 IHS Markit公司“Energy&Natural Resource”部门

IHS Markit(https://ihsmarkit.com/index.html)于2014年1月16日注册成立,总部位于英国伦敦,包括5000多名分析师、数据科学家、财务专家和行业专家,是全球具有领先地位的关键信息、产品、解决方案和服务供应商,客户遍布全球100多个国家和地区。IHS数据访问工具和系统为用户的IHS数据订阅提供基于web和桌面的访问,帮助用户推进关键工作流程,选择、检索、整合和可视化相关数据,及时做出业务决策。IHS Markit的Energy&Natural Resource部门提供电力/天然气/煤炭/可再生能源数据服务和解决方案,特别是提供石油和天然气数据库和软件、能源供需预测以及全球和区域市场交易的全面数据(https://ihsmarkit.com/industry/energy.html)。它具有当前最大的盆地和油井商业数据库,是全球数字古地理重建潜在的基础数据合作伙伴。

图6 TSCreator的默认地层信息列表(包括年代地层、磁性地层、生物地层的国际标准划分)及全球重建Fig.6 Default set of stratigraphic information(including international divisions on chronostratigraphy,magnetostratigraphy and biostratigraphy) and global paleogeographic reconstructions

IHS Markit的油藏和盆地服务提供世界上最有效的油藏和盆地的商业潜力直接分析。盆地数据模块是一个囊括全球5080多个地质省和527个盆地的地质数据库,获取盆地研究和相关地质数据,用于全球石油系统和油气远景分析,帮助用户在油藏尺度开展风险分析,具体包括分析现有储量、确定未来的探索潜力、了解每个盆地的地层、岩相和演化特征等。IHS Markit美国油井数据库是美国最大、最全面的油井数据库,几乎涵盖了1859年以来的每口钻井和生产井。美国油井数据来源于监管机构,有时直接来源于运营商。IHS Markit的国际油井数据库是一个国际化的勘探与生产数据库模块,包括73.9万多口国际油井,油井数据可以追溯到19世纪初,对于所有目前活跃的油井都会及时定期更新。

1.6 Neftex

Neftex (https://www.landmark.solutions/Neftex-Insights)成立于2001年,是英国的一家石油研究顾问公司。2014年6月,Halliburton业务部门Landmark Software and Services收购了Neftex。Neftex通过提供地球科学产品、咨询服务和数据管理,协助领先的石油、天然气公司进行勘探工作。Neftex的产品提供了全球地球构造地层历史和相关资源潜力的视图,以及一些关于构造地层分析和盆地筛选等方面的解决方案,这些解决方案提供了对地球上每个潜在盆地的区域地质和石油系统的详细数据,为新风险勘探提供了关键工具。

Neftex是全球搜索领域的专家,以发现和解释地球科学信息为主。集成的Neftex全球产品组合可提供数据、知识和建议,以帮助客户降低其勘探和投资活动中的地质风险。自成立以来,Landmark已成为集成勘探与生产软件和服务的领先供应商;建立了第一个交互式3D地震解释工作站。

在Neftex中,按学科浏览可分为地球科学、地质力学、岩石物理学等,也能查看深水、非常规天然气等资料和区域地球模型等内容。Neftex还提供了有关层序地层学、分析与决策方面的信息,具体包括:

(1)层序地层学

Neftex的工作流程和解决方案以专有的全球层序地层模型为基础,通过识别与海平面升降变化相关的特定表面(一种替代更模糊的岩石地层单位的方法),可以在全球范围内对地层进行关联,并获得新的时间分辨率。

(2)更完整的分析

Neftex通过使用全球一致的模型,集成已发布的地球科学信息,可以将多个不同的数据集放在一个公共的参考框架中,并提供精确的时间上下限。数据集之间的交接意味着分析可以包含更完整的可用数据视图,有助于增加可信度、减少不确定性,并提高对地下风险的理解程度。

(3)集成决策空间

Neftex集成决策空间(Decision Space)模块,将如今行业领先的内容以Decision Space Geosciences的格式提供。Neftex在3D环境中分析、解释大量的地图、钻井和剖面,并快速集成专有数据,从而在一个平台上有效地管理数据和交换知识。

Neftex被Landmark收购为子公司,利用板块建模的力量深入了解石油系统的生态,利用全面的、行业领先的地球动力学模型,重建地质数据集。重建了前寒武纪到显生宙 (595 Ma至今)每隔100万年的古地理,及52个关键时段的沉积环境和数字古高程图,可以在QuickPlates、Paleo GIS或Gplates应用。

1.7 各国官方地质数据库的古地理部分

除了学术团体、个人和商业组织建立的各类型专业数据库外,各国地质调查机构在开展地质调查工作的过程中也积攒汇集了大量与古地理重建密切相关的大地构造、古地磁、岩石、沉积、古海洋、古生物、古气候等信息,并且致力于为公众提供公开共享服务。作者调研了世界GDP排名前30的国家及地区的官方(地调局或类似机构)地质数据库,并对其中部分与古地理相关的数据库作简要介绍:

(1)NGMD

由美国内政部和国家合作地质测绘计划支持的美国联邦地质图数据库NGMD(The National GeologicMapDatabase,https://ngmdb.usgs.gov/Geolex/search)旨在开发标准化地质科学信息档案,具有来自600多个出版商的90000多个数据和地质图、地形图等地质资料。

(2)中国岩石地层名称基础数据的共享服务系统

中国岩石地层名称基础数据共享服务系统(http://geodata.geoscience.cn/ysdc/ysdc.action) 包 括岩石地层单位(群、组等)的定义、层型剖面、划分沿革、顶底界线、内部划分及同物异名、异物同名等内容,共收集超过13000条数据。

(3)GSJ

日本地质调查局GSJ(GeologicalSurveyofJapan,https://www.gsj.jp/en/database/index.html)的数据库中主要可以检索按地质图编码排列的全日本地层名称,可通过直接点击具有详细说明的日本地图查看或进入地层单元查看。

(4)BGS

英国地质调查局BGS(British Geological Survey,http://www.bgs.ac.uk/lexicon/home.cfm)作为公共部门组织,负责向英国政府提供有关地球科学各个方面的建议,并为学术界和公众等提供地质建议,在该数据库中可免费获取超过100万个钻孔记录,也可查看英格兰和威尔士境内超过130000份井、钻孔等的分类记录。

(5)NRC

加拿大自然资源NRC(Natrural Resources Canada, https://weblex.nrcan.gc.ca/weblexnet4/weblex_e.aspx)数据库提供了有关加拿大超过16000个已发布的、多源的地质名称信息,分为岩性单元和年代单元两部分,前者按名称、作者、年代、区域检索;后者按名称、年代检索。

(6)GDI

印度尼西亚地质数据库GDI(Geology Database of Indonisia, https://psg.geologi.esdm.go.id/search/go)主要分为印尼地质数据库和印尼地层词典两部分,其词典的主要来源是地质调查中心(formerly Geological Reseach and Development Center/GRDC)制作的239张系统地质图,覆盖了Jawa和Madura,科学信息部分包括地质遗产、地层词典、沉积盆地和地质图四大模块。

总体而言,近年来各类古地理相关数据库及平台在数据收集、整理、分析以及成果展示等方面均做出了大量开拓性的尝试,取得了长足进步,然而仍存在很多不足。如个人或团队建立的数据库往往围绕较为明确的科学问题,专业性较强,特点鲜明,却通常因为机构组织等原因,缺乏持续性与足够的体量,生命力不强,难以满足大数据时代对数据量爆发式增长的需求;商业数据库虽然能动性较高,客户整体体验优良,但数据类型相对局限,且大量核心信息往往需要付费获得,并不能实现数据的完全开放、共享;各国政府与官方学术组织的综合数据库一般具有相对较大的数据量,然而往往在界面语言、检索方式、产品呈现等人机交互方面做得不够理想,且因为数据来源较多,类型不一,缺乏标准性与统一性,导致数据移植性较差,利用效率不高。另外,相比生命科学、材料科学、计算机科学等领域,古地理学乃至整个地球科学领域的数据库智能化程度也整体较低。

2 走向标准化与智能化的数字古地理重建

古地理(Paleogeography或Palinspastic)的概念最早来自Sterry(Hunt,1873),被定义为利用古植物学和古动物学系统研究地质历史时期的地理学科。随后,又被定义为古生物地理学(Paleobiogeography)(Willis,1910)。早期的古地理概念着重强调古环境,直到Wegener(1912)提出著名的大陆漂移学说后,古地理才具有了真正的活动含义。长期以来,国际古地理重建工作主要是在板块构造理论指导下,重建地史时期的大陆位置、板块边界、海陆分布;而国内则主要侧重于以矿产资源勘探服务为导向的不同尺度的盆内岩相古地理研究及编图(冯增昭,2003;陈洪德等,2017;Hou et al.,2018)。随着数据获取与分析技术的提高,大量多元化地质数据迅速积累,将释放出更多信息。另一方面,可视化技术的迅猛发展及人工智能技术在固体地球科学建模中的广泛应用,也将共同促使古地理重建走向标准化与智能化 (Zhao et al.,2019;Ogg et al.,2019;Zahirovic et al.,2019)。

2.1 古地理大数据平台建设思路及要点

本文认为,构建全球性的开放互动的古地理综合数据平台,全面搜集、整合、利用数据,最终实现基于数据平台的任意时间地区的古地理重现及未来地理预测,并为能源勘探(何登发等,2015)、地灾预测、生命演化、气候变化等提供理论、技术及数据支撑,或许将是古地理重建新的历史使命。其核心过程将包括:(1)建立包括岩相古地理、生物古地理、气候古地理在内的标准化的古地理学知识体系,作为学者与学者、学者与数据库、数据库与数据库沟通的纽带;(2)建立开放互动的古地理数据库,充分与现有各数据库合作共享,并利用机器阅读技术等拓展数据来源;(3)由古地理学家和数据工程师共同建立古地理学数据质量控制体系;(4)以大量现有地质数据为训练蓝本,利用机器学习(Elshawi et al.,2018;Norman,2019;罗建民等,2019)技术建立各类型古地理重建模型(Gil and Song,2016),深度挖掘数据(Bergen et al.,2019;周永章等,2018);(5)以可实时更新的智能数字地图集或多维动画形式输出多元化成果。在整个过程中,重点需要注意以下几方面。

2.1.1 古地理学知识体系建设

知识体系(Liu et al.,2016)是学科研究的骨架,由学科的各种重要概念、方法、标准组成,以知识图谱(James,1992)的形式展示(Auer et al.,2018;王昊奋等,2019)。古地理学知识体系建设需要最大限度细分研究对象(如各类沉积相、亚相、微相),最大限度罗列研究指标及其填写方法(如矿物、岩性、沉积构造、古生物等判别指标),从而才能够最大范围覆盖数据来源,即各类前人研究成果。古地理学知识体系的整理过程也是对学科内容的统一化过程。对于学科重要概念的解释、重要分类的参考标准等,必须采用国际主流标准。一个完善的古地理学知识体系可以避免对古地理数据解释的混乱,同时也是未来标准化、智能化古地理数据库与其他已有的各类专业数据库对接的重要基础,可用于指导数据平台内核和大数据(郭安林等,2004)分析逻辑的开发,将成为学科专家间、数据库间以及学科专家与数据库间相互交流的重要纽带。

2.1.2 数据收集与管理

古地理大数据平台的基础数据具有多来源、多形式及多用途的特征,因此如何对古地理数据进行有效的收集与管理是该平台的一项重要内容。古地理大数据的主要获取来源包括各国地质调查局和国际学术组织的官方数据库、个人或学术团队的专业数据库、商业组织的盈利式数据库、各大型出版商以及其他各类可借助机器阅读智能获取的公开数据。从学科来讲,主要包括大地构造、古地磁、岩石、沉积、古海洋、古生物、古气候等。这些基础资料在时间、空间及所属上都极为分散,需要古地理数据平台与各组织开展广泛深入的合作,实现资源共享与共建,同时也需要开发特有的数据管理模块对信息进行聚合。从数据的形式来看,大部分基础数据为定性的描述内容,少部分为半定量或定量的测试数据。从原始数据的存储方式来看,主要包括Excel、Access、SQL Server及Oracle等类型,甚至不同类型的数据体还可构架成数据仓库。在构建大数据平台之前,这些数据都需要整合成一致的操作接口。此外,数据的交互性、使用权限及安全保障,也是古地理大数据平台数据管理中的一个核心问题。

2.1.3 数据挖掘

数据挖掘(Ruppert,2004)是古地理大数据平台最为关键的数据分析功能模块之一。大数据分析的特点是将所有样本数据纳入数据计算分析过程,最大限度避免零散信息的源头遗失,从而尽可能的从这些低价值密度的数据中提取出关键地质信息(Reidar,2010)。数据挖掘的功能模块主要由分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类 (Clustering)、复杂数据类型挖掘(Text、Web、图像、音频、视频等)构成(Davies et al.,2006;周永章等,2018),这些数据分析模块并非单一的存在,在实际使用过程中往往需要多个模块有机组合在一起。智能识别中,人工智能与简单的线性判别孰优孰劣还需要结合具体的实例具体分析(Norman,2019)。对于一些未知的规律,或许还要从频谱或者其他数学方法入手,需要开发出更多更新的数据挖掘方法来对高维的地质信息进行深入挖掘。

2.1.4 可视化

古地理大数据平台中的可视化主要包括两部分:一部分是人机操作界面,良好的用户体验是任何一个软件或平台生存及发展壮大的基础。古地理大数据平台需要持续发展,必然要从良好的人机交互界面入手,对于不同类型的图形、文字等要严格参照相应的国际标准制定;另一部分是平台成果的可视化。传统的古地理图通常是静态、断代的,是按年或版发行的,大数据驱动下的古地理重建以实时数据库为依托,从愿景来讲,随着信息的不断录入与反馈,是可以实时更新的,可智能生成时代连续的古地理图集或动画。此外,古地理大数据平台还需持续探索更加多元、直观、美化的成果展示形式。

2.2 古地理大数据平台建设面临的难点

目前国际上已有多个团队在数字古地理重建方面开展了卓有成效的创新工作。然而,古地理学是一门综合性非常强的学科,数字古地理重建需要综合多学科知识体系,收集和分析多种来源、多种类型的不同数据;另一方面,数据收集、挖掘、可视化等也在很大程度上依赖于计算机技术的发展。因此,在古地理大数据平台建设中必不可少的会面临一些难点。

2.2.1 沉积相逆向判定

地质历史时期沉积的各套地层,其沉积物质与沉积环境是对应的,因而现今地质分析中沉积相类型的判识结果应该具有唯一性。但因不同时期收集到的原始地质资料有限,分析过程中又忽略掉了部分信息,加之不同研究人员采用的原理及方法可能不同,使得不同学者对相同地层的沉积相认识往往存在一定的差异,这种差异直接导致了沉积相类型判定的不确定性。同样,不同沉积环境下的沉积地层在岩性、沉积构造、古生物、古地磁、地球化学等属性方面都可能存在相同,这在逆向判定沉积相的过程中往往带来相同的判别结果;此外,判别指标的多少、判别方法的不同及计算容差线的细微差异都可能引起计算结果的跳变,从而最终导致沉积相判定结果的不稳定。

针对该难点,一直以来的解决思路都是由古地理学家在“地质证据—沉积相”这一因果模型中对各项地质证据的判别权重进行优化调整;随着海量多维度数据的不断积累和深度学习技术的发展,利用“强相关性”取代“因果性”,将已确定“沉积相—地质证据”关系的大量已有资料作为训练蓝本,让AI进行深度学习,最终获得由AI生成的智能判别模型,或许将是未来的研究方向。

2.2.2 描述信息定量化

古地理大数据平台的数据挖掘模块通常以定量数据(Cai and Zhu,2015)为处理对象,而作为入口参数端的古地理基础数据很多来源于定性或半定量资料,因而在数据分析之前需要对这些定性或半定量数据进行定量化表征(Jianping et al.,2016;罗建民等,2019)。由于表征方式不同,数据挖掘计算的维度、计算量的大小及计算过程的稳定性也将存在较大差异,并且会制约成果解释的实时性与可靠性。如沉积学中对碎屑岩粒度的描述包括“好、中、差”等,到底是简单的用数字如“1、2、3”与之一一对应,还是结合地质背景,将其定量成高维的数字向量更为合适?科学全面的解决这类定量化表征问题将需要古地理学科专家与计算机工程师深度协作,建立多背景下的信息定量化模型体系,并根据表征结果反复优化定量化模型(图7)。

2.2.3 有效数据筛选

图7 古地理描述信息定量表征流程图(据Zhao et al.,2019修改)Fig.7 Flowchart of quantitatively characterizing descriptive information in Paleogeography(revised after Zhao et al.,2019)

古地理大数据分析是对涉及目标区块、目标地层的所有地质资料进行综合处理。为了尽可能挖掘出更多信息,大数据分析时需将所有有关数据都引入计算过程。这些不同来源的地质数据并不一定都对最后的古地理判识起有益作用,加之同一来源的原始地质信息也可能本身就存在错误,这些有误的地质数据很容易造成计算结果的失真,从而引发判断结果的错误。因而在数据分析前需要从多源数据中筛选出有效的地质基础数据。鉴于地质数据的海量、多源、多维、异构等特点(赵鹏大,2019),目前很难建立起统一的数据筛选准则,这将是古地理大数据平台建设需要长期跟进的难点之一。未来古地理大数据平台可考虑加强与4D(Deep-Time Data-Driven Discovery)团队等具有较强数据处理能力的学术团队和平台合作,制定多情景下标准化的数据筛选、挖掘流程。

2.2.4 资料缺失区填充

地球的演化并非均一的,受各种特殊地理环境限制,可被搜集的古地理基础数据在不同时代不同空间也是分布不均的,不可避免的会出现诸多古地理分析的资料缺失区。在将今论古的大前提下,以现代沉积为参考,利用瓦尔特沉积相律进行沉积相判定是传统古地理研究中的常用手段,可在很大程度上解决资料留白区的沉积相类型的界定问题。在基于大数据的标准化、智能化古地理重建过程中,设定何种准则指导监督古地理大数据平台进行资料缺失区重建,是值得深入探究的问题,需要古地理学家与计算机科学家的协作努力。

3 结语

大数据正在深刻改变着人类认识和研究世界的思维方式。地球科学与信息科学的融合发展,处于一个非常重要的时间、空间窗口期,中国的地质学家需要抓住这稍纵即逝的窗口期,改变传统的思维模式,改进传统的研究方法,直面挑战,拥抱大数据时代的到来。

建议古地理学者与信息专家共同协作,充分总结现今已有的各类古地理相关数据库及平台的先进经验与不足,在深时数字地球(DDE)计划搭建的开放、共享、统一的数据平台上,围绕古地理学重大科学问题,完善古地理数据收集、整合、挖掘、可视化等流程,实现标准化、智能化数字古地理重建。

猜你喜欢
数据库
数据库
数据库
数据库
数据库