国际地学信息委员会地学数据标准分析与案例实践

2021-03-05 06:07刘荣梅张明华王永志余海龙
高校地质学报 2021年1期
关键词:要素标准

刘荣梅,张明华,王永志,余海龙,任 伟

1. 中国地质调查局 发展研究中心,北京 100037;2. 吉林大学 地球探测科学与技术学院,长春 130061

随着云计算、大数据、人工智能等技术在地学领域的应用(何文娜等,2013;2019),地质云为各类用户提供了大量的多专业地学数据与信息产品(王永志等,2018;何文娜等,2019)。决策者、研究人员、数据科学家和开发人员等使用的大量地学空间数据广泛存在跨部门、跨行业、跨区域的需求(谭永杰,2017),对地学数据的集成与共享提出了挑战。国际组织、各国地质调查机构开展了一系列基于开放地理空间联盟OGC(Open Geospatial Consortium)标准的地学数据集成与共享工作,以破解全球化进程中地学数据应用遇到的壁垒,来源不同、格式多样的地学数据在统一标准下进行数据交换,以完成跨地域、跨语言、跨专业的在线交互。国际地质科学联合会IUGS(International Union of Geological Sciences)的地学信息管理与应用委员会(简称“国际地学信息委员会”)CGI(Commission for the Management and Application of Geoscience Information)开发的地球科学标记语 言GeoSciML(Geoscience Markup Language)已在国际地学数据交换应用中初见成效(Laxton et al., 2010; Lombardo, et al., 2018)。国际地质科学联合会发起的“地质一张图(OneGeology)”使用GeoSciML作为数据标准(Simons et al.,2012),实现了包括中国在内的全球120多个国家的一张地质图的数据共享(Komac M,2015);支持欧洲空间信息基础设施建设计划INSPIRE(Infrastructure for Spatial Information in Europe)实现欧盟成员国之间的地学信息交换(https://inspire.ec.europa.eu),美国地球科学信息网络USGN(US Geoscience Information Network) 提供政府、教育和私人机构之间的地质数据共享(http://usgin.org/page/how-usgin-works); 加 拿大地下水信息网CGIN(Canadian Groundwater Information Network)正在使用GroundwaterML整合多个区域的水井信息,澳大利亚地球科学信息网AGIN(Australian Geoscience Information Network)等项目采用GeoSciML从澳大利亚州及相关机构为社会提供钻孔数据服务(http://portal.geoscience.gov.au);非—欧地学资源观测系 统AEGOS(African-European Georesources Observation System)项目也在促进将GeoSciML作为整个非洲地球科学数据交换的标准(http://www.aegos-project.org/index.php)。中 国 地 质调查局一直积极探索国际地学数据共享标准的应用,研究了基于GeoSciML、地球资源标记语 言EarthResourceML(Earth Resource Markup Language)等相关国际地学数据交换标准,翻译的GeoSciML 4.1中文版被OGC采纳并提供在线服 务( http://www.geosciml.org/doc/geosciml/4.1/documentation/ogc_spec_translations/16-008_OGC_Geoscience_Markup_Language_GSML4.1-CN2018.08.18.docx. 2020-06-17.)。CGI制 定的EarthResourceML等标准及地学专业术语Geoscience Terminology已在全球范围内得到广泛使用(http://earthresourceml.org)。

1 国际地学信息委员会数据标准体系

CGI是IUGS下设的6个分会之一,负责牵头开展国际地学信息领域的协作与培训,研究地学信息相关标准的编制及全球推广应用,以促进地球科学数据的互操作和信息交换。CGI倡导的数据互操作涉及异构数据的交换和理解、与其他领域的空间数据集成、语义一致性理解与应用三个主要层次。

截止2020年6月,CGI已有来自全球78个国家的注册会员500多名。CGI的业务工作由其委员会牵头开展,11位委员会成员来自法国、中国、澳大利亚、美国、加拿大、纳米比亚等10个国家。CGI下设地球科学标记语言、地球资源标记语言、地球科学术语和地学领域(Geoscience Domain)四个技术工作组和一个区域工作组(Regional Groups)(图1):(1)地球科学标记语言技术工作组负责地学数据交换标准的研究与推广使用;(2)地球资源标记语言技术工作组负责矿产资源数据交换标准的研究与推广应用;(3)地球科学术语技术工作组负责地球科学领域专用术语库(多语种)的建设与应用;(4)地学领域合作工作组由CGI与OGC共同组建,主要开展地学领域与城市、交通、工农业等以及三维空间应用的相关地学数据互操作标准研建与应用,地下水及水文地质领域数据交换标准GroundwaterML(Groundwater Markup Language)为重要内容之一,不同行业钻井数据之间互操作试验标准BoreHole-IE(BoreHole Interoperability Experiment)的研建与示范(https://www.ogc.org/projects/initiatives/boreholeie);(5)区域工作组负责亚洲、非洲、欧洲、北美、南美、大洋洲等不同区域的协调与合作。

图1 CGI组织结构Fig. 1 Organization structure of CGI

2 地学数据交换标准GeoSciML

2.1 GeoSciML研发历程

地球科学标记语言GeoSciML是一个基于可扩展标记语言XML(eXtensible Markup Language)、地理标记语 言GML(Geography Markup Language)的数字地质科学信息交换的数据标准(http://geosciml.org;http://www.opengis.net/doc/geosciml/4.1. 2020-07-08),其开发主要受到前期北美地质图数据模型NADM(North American Data Model)、勘探与挖掘标记语言XMML(eXploration and Mining Markup Language)及私营公司在英国地质调查工作等一系列项目影响。

2003年英国地质调查局和澳大利亚地质调查局提出建设GeoSciML倡议,其目的是建立地学领域通用的数据交换标准,通过开发不依赖软件平台、具有通用数据结构和数据内容的地学数据概念模型,将模型映射到通用的交换数据格式后,用户可采用WFS、WMS、WCS等格式的数据服务实现地学数据有机集成。

标准研制主要包括研发数据模型与应用模式、开发测试模式(验证交换格式)、术语库建设等任务。2006年,CGI发布了GeoSciML 1.0。2009年CGI发布的GeoSciML 2.1被全球一张地质图门户采纳,用于组织多国发布数据构成全球地质一张图(http://www.onegeology.org)。该地质数据交换标准2012年被澳大利亚和新西兰地质调查机构采纳使用。2010年更新版本成为INSPIRE和USGIN的数据交换标准,另有19个国家地质调查局发布了基于GeoSciML的WFS服务。2012~2015年根据用户需求不断完善调整,分别发布了GeoSciML 3.0、3.2、4.0等系列版本。2016年发布了GeoSciML 4.1版本,该版本经OGC领域国际专家无记名投票表决,于2017年3月正式成为OGC标准。

在成为OGC标准之前,GeoSciML研究与完善经历了十几年发展。最初主要由CGI技术工作组负责,2011年以后的GeoSciML更新由OGC和CGI-IUGS共同开展。不同版本的GeoSciML在地质模型内容、表达模式等方面变化较大。随着相关国际地理信息标准的更新和新用户的需求变化,GeoSciML将吸收其他标准与模型的优点不断升级。

2.2 GeoSciML建模方法及数据结构

GeoSciML采用统一建模语言UML(Unified Markup Language)表达,UML的面向对象特性可灵活表达GeoSciML模型中的继承、多态等特征,以及包、类、基数、类关系。

图2采用GeoSciML的高层模型体现了通过继承可方便实现扩展,抽象地质要素(GeologicFeature)可衍生出抽象的地质构造(GeologicStructure)、地质单元(GeologicUnit)、其他地质要素,地质构造还可进一步衍生出扩展 的 地 质 构 造(Extended Geologic Structure)。GeoSciML数据结构采用XML模式表达,包括基本数据类型、实体(类)、简单要素、复杂要素、枚举等数据结构,可实现各种空间数据、属性数据等复杂的数据结构。

图3展示了UML格式的数据结构,它体现了地质单元视图类(GeologicUnitView)与绘图要素(MappedFeature)、岩性单元(Lithologic Unit)、地质单元之间的使用关系,即在创建地质单元视图对象时,其某个属性可能是绘图要素、岩性单元或地质单元类型。图4给出了基础地质要素发布成WFS格式服务后返回的XML格式数据,从中可清晰地看出符合GeoSciML标准的属性值(目的、地质事件、地质单元类型、值域等)、外部链接资源(xlink)等。

图2 GeoSciML高层模型(引自OGC Geoscience Markup Language 4.1)Fig. 2 High-level model of GeoSciML

图3 GeoSciML数据结构表达(UML)Fig. 3 UML representation example of GeoSciML data structure

图4 数据结构实现(XML片断)Fig. 4 Partial XML format data of GeoSciML data structure

2.3 GeoSciML模型谱系图

GeoSciML主要目标是构建描述和表达地质图、数据库等关键元素的语义、模式和编码的语法,使信息系统能与这些数据进行互操作,为实现地学数据互操作而专门开发的地学数据模型和数据转换标准。GeoSciML充分发挥面向对象的继承特性,采用XML模式定义XSD(XML Schema Definition)确定数据模型、数据关联、数据约束、类型变换等,实现其利用已有数据、发现信息资源、自动生成和发布服务的目的,以满足从基础图件数据到复杂的关系型地质数据库的管理。GeoSciML覆盖地球物质组成、地层学、地质单元、地质年代、地质构造、地貌学和地球化学等领域,以及地质调查野外采样涉及的钻孔和地质样品等内容。GeoSciML 4.1主要包括基础包、扩展包、地质年代包、钻孔包、实验分析与样品包和轻量包等6个包(如图5):(1)基础包(GeoSciML Basic):涵盖核心地质要素集,与INSPIRE的地质数据规范一致;(2)扩展包(GeoSciML Extension):根据不同的业务需求,在基础包上增加新的特性和关联,继承扩展成基础要素的详细描述;(3)地质年代包(GeoSciML Time):使用国际地层学术委员会认可的地质年代表达模型;(4)钻孔包(Borehole):包括地质测井、钻探详情和其他工程信息的钻孔模型;(5)实验分析与样品包(LaboratoryAnalysis-Specimen):体现实验室分析的元数据、地质采样、样品以及同位素测年观察结果的模型;(6)轻量包(GeoSciML Lite):地质图表达的简化实现模型。

每个应用包对应目标实现(逻辑模型、编码和数据实例)至少包括一个要求类(符合模块化的规范)的主题,更多目标实现可发布成独立的文档。基础包提供了一个类集合,用于表示基础地质、地貌特征(单位、构造和事件)、地球物质、地质时代和它们之间关系。它限制描述属性的数量,以保证与重要用例相匹配。图6显示了GeoSciML基础包与其他包的依赖关系,基础包在运行时需要导入常用要素实例(General Feature Instance)、SWE通用数据模型2.0(SWE Common Data Model 2.0、采 样 要 素(samplingFeature)、空间模式(Spatial Schema)和概念模式语言(Conceptual schema language)等多个包。

图5 GeoSciML 4.1 包(OGC Geoscience Markup Language 4.1)Fig. 5 Package diagram of GeoSciML 4.1

图6 GeoSciML基础包的依赖关系(OGC Geoscience Markup Language 4.1)Fig. 6 Dependency relationship diagram of GeoSciML Basic package

2.4 地质基础包

GeoSciML将地质图描述成一个地质数据集,一个地质数据集包括多个地质要素,空间可视化的地质要素可使用编图要素。编图要素能表示包括地质要素在内的任何要素,它使用其“规范”关系来标识要表达的内容。地质要素可进一步细分成地质单元、地质构造、地貌要素和地质事件。地质基础重点定义基础地质图要素类、要素类之间的关系扩展包则扩展基础包中的抽象描述,引入新的地质构造要素和多个类,加强对基础类的描述。

2.4.1 地质单元

GeoSciML的地质单元是一个地球物质包(通常是岩石),同时它亦指地球上某个范围的地质体或用于表征地球上某些物质,它包括标准地层单位、非标准地层单位和未命名的地质单元(如图7)。

图7 地质单元语境图(OGC Geoscience Markup Language 4.1)Fig. 7 Context diagram of GeologicUnit

2.4.2 地质构造

GeoSciML中的地质构造(GeologicStructure)是一个描述现实世界地质构造的类包,用以描述地球物质的不均匀性、模式或断裂等性质。地质构造的尺度规模可从微观到宏观,其不均匀性包括断裂、矿物颗粒边界和具有不同颗粒几何(纹理)或成分的岩石边界。地质构造体现岩石的不同部分或岩体间挤圧关系,但独立于物质和物质结构。固体物质中比非固体物质更易发现地质构造,且地质构造更持久。图8展示了地质构造类之间的关系,地质构造是一个继承自地质要素的抽象类,通过对其继承可产生褶皱(Fold)、褶皱体系(FoldSystem)、接触关系(Contact)、剪切位移构造(ShearDisplacementStructure)等更具体的要素类。

2.4.3 地貌要素

地形可由天然地球过程(河道、海岸、冰碛或山峦等)形成,亦可通过人类(人为的)活动创建(挖掘通道、改造土地、矿山尾矿库等)。GeoSciML地貌学子包描述了构成地球地表的性质和形状(如地形)要素,其中的地貌要素是一种描述地球的地表形状和性质的地质要素,它被建模成一个与组成地质单元相关的要素(如图9)。从图中可显见,地貌要素继承自地质要素、依赖于地质单元,且可扩展形成自然地形要素、人工地形要素,此外还包括地形单元抽象描述、天然/人工要素类型术语等。

2.4.4 地质事件(GeologicEvent)

地质事件(GeologicEvent)是一个包括多个事件类的包(如图10),用于描述与改变地质实体有关的一或多个地质过程活动中的事件。地质历史是地质事件对象的有序集合,每一个地质事件对象均有相关的地质年代、地质环境和一或多个地质过程(EventProcessTerms)、地质事件描述(GeologicEventDescription)等。年龄是特定地质事件或要素的属性,用绝对年龄、区间年龄(NumericAgeRange)和地质年代表中的年代名称(GeochronologicEraTerms)表达。

2.5 其他数据包

(1)GeoSciML地质年代包:使用国际地层学术委员会认可的地质年代表达模型。包括IUGS的国际地层委员会定义的全球年代地层单位界线层型剖面和点位GSSP(Global Stratotype Section and Point)、ISO19108时态模式的扩展内容和地质年代表。

(2)GeoSciML钻孔包:包括地质钻孔、钻孔详细描述和其他工程信息的钻孔模型,它将钻孔描述成对地下地质单元进行采样的方法模型。

图8 地质构造概要图(OGC Geoscience Markup Language 4.1)Fig. 8 Summary diagram of geologic structures

图9 地貌要素概要图(OGC Geoscience Markup Language 4.1)Fig. 9 Geomorphologic feature summary diagram

(3)GeoSciML实验与分析包:包括描述实验室用仪器完成的、与地质样本分析相关的过程和结果的类,涵盖采样信息、观测结果质量、观测参数、分析仪器、分析任务、分析过程、分析方法以及形成的图片等信息。

3 EarthResourceML

地球资源标记语言EarthResourceML(Earth Resource Markup Language,简 称ERML)是CGI主持研制的以矿产资源为主的涵盖全矿业领域的数据交换标准。主要应用于矿点、矿山和采矿活动。标准内容包括矿产资源的地质特征、赋存环境、矿产品及其矿产资源和储量、矿山和采矿活动、精矿、精炼产品和废料生产等。其与矿床有关的地质特征参照GeoSciML标准执行。

图10 地质事件概要图(OGC Geoscience Markup Language 4.1)Fig. 10 Summary diagram of Geologic Events

ERML最早由澳大利亚政府地球科学信息委员会于2004~2008年研究建设,CGI互操作工作组于2009年发布EarthResourceML 1.1版本。为了适应INSPIRE的需求不断完善,当前版本为2013年10月发布的EarthResourceML 2.0,其标准编制的建模方法、数据结构与GeoSciML一脉相承。ERML通过导入GeoSciML核心包、模式语言包(Schema Language)、空间模式包(Spatial Schema)、时空模式包(Temporal Schema)、元数据包(Metadata)、GML包、地球物理包等构建(如图11)。

3.1 矿床数据包

矿床数据包由采矿活动有关的数据组成,即将矿产原材料加工成矿业产品的过程。矿业产品与矿点相关,即矿产经济资源的地质描述。由矿床基本信息、开矿活动、成矿物质组分、矿业废物、矿产品等要素信息(图12)。图12显示了采掘要素(MiningFeature)派生出采矿活动(MiningActivity)、采矿废料(MiningWaste)、矿山(Mine)等,以及 采 矿 废 料 测 量(MiningWasteMeasure)、矿山状态值(MineStatusValue)、原材料角色值(RawMaterialRoleValue)等相关支持类。

3.2 矿点数据包

矿点数据包涵盖了矿产资源数据库中的要素属性,部分与采矿活动有关。侧重于描述独立于相关人类活动(如采矿)的矿产资源、矿床类型、成矿模型、成矿过程及表生地质作用过程(如图13)。矿点从地质资源类派生而成,它拥有探测活动(ExplorationActivity)、地球资源物 质(EarthResourceMaterial)、采 掘 活 动、矿床模 型(MineralDepositModel)、矿 物 质系 统(MineralSystem)等类型的属性。

4 地学专业术语标准

为地球科学领域构建多语种语义的地学术语库也是CGI技术标准工作之一,已确定的100多个地球科学词汇表为GeoSciML和EarthResourceML等数据交换标准提供全面支撑,其中50多个词汇表被广泛编译和采用。2019年又被IUGS深时数字地球大科学计划DDE(Deep-time Digital Earth)用作知识体系术语的主要来源库。

图11 EarthResourceML数据包依赖关系图(引自EarthResourceML 2.0)Fig. 11 Package dependencies diagram of EarthResourceML

图12 矿床数据类关系图(EarthResourceML 2.0,2013)Fig. 12 Class diagram of Mine package

CGI制定地学专业术语的名称、下属词等内容,为每个术语和下属词给出了详细的定义、参考来源、类型、狭义或广义的意义、上属词以及每个词条的变更过程,提供htmljson df ext tlxml等多种格式的服务,既可满足用户在线查询,亦可直接用于机器理解。所有下属词通过URI方式与发布的地学数据属性关联,实现了数据与标准的深度融合。表1按字母顺序列出了GeoSciML术语类型,表2按字母顺序列出了EarthResourceML术语类型。

图13 矿点类图(EarthResourceML 2.0,2013)Fig. 13 Class diagram of MineralOccurence package

5 样例

5.1 地质体模型

桌面版地质图的图层一般均已建好,属性列难以通过关联方式随意构建(特别是MapGIS图件),很难与多个数据库中的若干个图层形成新表、新图层、新事件等。但实际工作中,以某个图层为主、与一个或多个结构化表关联生成新图层的需求很常见,基于GeoSciML数据标准可以满足上述要求。

地质体是地质图中最重要的组成内容,它一般保存在空间数据库中,也可存于单个Shapefile文件中。与其关联的数据可存于相同数据库中,或其他数据库中(PostgreSQL/MySQL/SQL Server/Oracle等)。在地质图发布前,地质单元图层可包括所有属性或部分重要属性(如几何类型、要素编号等),而其他属性可以保存在关系表中(如地质体名称、标志、类型、地质年代、岩石类型等)。发布前要准备好模式及映射文件。在发布OGC服务(WFS、WMS等)时,通过映射及关联发布成多个具有不同属性的组合要素,其中地质单元描述、接触关系等既可以用字符串,亦可使用链接。发布成WFS、WMS服务后,基于WebGIS的各类应用可访问地质体的空间要素。地质体属性可通过统一资源标识符URI(Uniform Resource Identifier)链接至CGI地学术语库(Bibliotheca, 2017;http://geosciml.org/resource),可同时使用多国语言的术语,亦可通过查找方法在地质单元属性中搜索匹配的地质术语。

图14示意性展示了基于GeoSciML的北京市地质界线,以及吉林省空间分布的地质体要素的发布及应用。吉林省地质体(Jilin_Geobody)面要素类继承自地质要素类,它增加了要素编号(Feature_ID)、地质体名称(Geobody_Name)等属性,通过要素编号与保存在关系型数据库中的地质体属性类(GeobodyProperty)一对一关联。基于GeoSciML标准,通过地质要素类属性、新增属性、地质体属性类中的字段配置,可生成并发布成WFS格式的新要素。地质体属性类还可与地质时代(Geobody_Era)、地质体资源(Geobody_URI)等关联。发布的吉林省地质体面要素(Jilin_Geobody_R)、北京市地质界线(Beijing_Geoline_L)可显示在WebGIS应用中显示或参与计算。

表1 GeoSciML术语分类列表(按字母顺序排列)Table1 GeoSciML Vocabularies(In alphabetical order)

表2 EarthResourceML术语分类列表(按字母顺序排列)Table 2 EarthResourceML Vocabularies(In alphabetical order)

5.2 采矿权模型

采矿权是矿业权(探矿权、采矿权)的一个最重要的组成部分。它可进行地上、地下、地上/地下开采,与采矿活动非常密切,覆盖从矿山设计、矿石采掘到运输、矿业产品生产等全过程。在地学空间数据管理中,具有很多空间数据、属性数据,甚至其他结构化和非常结构化数据。在数据共享与应用中,主要有采矿权空间范围(采矿权要素)、属性数据等。属性数据一般保存在其他关系型属性表内(如矿床状态、采矿活动、储量等),而通用的矿种、开采方法等数据以字典形式保存。图15用UML图展示了采矿权的动态映射模型。采矿权要素(MiningRightsFeature)继承自EarthResourceML的采掘要素(MiningFeature),它与采矿权属性(MiningRightsProperty)一对一关联,采矿权属性与项目类型(ProjectType)、矿种(Mineral)、开采方法(MiningRightsMethod)等具有一对多的关联关系。通过模式匹配和设置后,可在地图服务器上发布WFS格式的采矿权要素数据服务(MiningRightsFeatureWFS)。

图14 基于GeoSciML的地质体应用模式图Fig.14 Application diagram for geobody based on GeoSciML

图15 采矿权映射图Fig. 15 Generalization diagram for MiningRights

6 结论与建议

6.1 结论

CGI-IUGS在国际地学信息领域开展了重要和权威的数据标准研建与推广工作,取得了显著的应用成效。CGI国际标准GeoSciML、EarthResourceML等采用了面向对象的灵活可扩展表达方式,所有类均可纵向、横向的无限制自由扩展,以满足不同领域、不同层次、不同角度的需求。目前已在OneGeology、INSPIRE、USGIN、AuScope计划等重大国际地学数据共享中得到广泛应用,重点解决了不同国家多元异构数据的共享与语义融合问题。原始数据基于GeoSciML、EarthResourceML等发布成WFS、WMS地图服务,以满足同一语义框架下的地图可视化、数据集成与共享。

CGI标准能实现简单要素、复杂要素的各类地学数据,以及复杂关系的对象集合应用;基于GeoSciML按需进行数据交换模型的灵活扩展,设计并映射成开放的信息模型,有利于后续诸多地学信息领域的重用。

6.2 建议

我国地学相关领域当前及未来的地质大数据资源建设(如地质云、DDE等)(Zhang et al., 2017;http://ddeworld.org),尤其涉及国际化及多行业部门之间数据交换的应用,可重点借鉴或参考CGI标准 (Zhang et al.,2019);对已有数据尽量采用该国际标准进行转换应用,以达到统一标准和国际化应用目的。

GeoSciML的扩展特性确实为灵活设计数据模型带来了好处,但生成的大量XML格式数据对网络传输与用户体验造成一定影响,建议尽量采用GeoJSON格式数据。同时,在应用国际地学标准时,要深入把握需求及标准的适用性。

猜你喜欢
要素标准
2022 年3 月实施的工程建设标准
掌握这6点要素,让肥水更高效
忠诚的标准
美还是丑?
观赏植物的色彩要素在家居设计中的应用
论美术中“七大要素”的辩证关系
一家之言:新标准将解决快递业“成长中的烦恼”
也谈做人的要素