生态系统要素长期观测(EcoLTO)数据产品规范研制

2022-04-02 09:36郭学兵唐新斋苏文何洪林
中国科学数据(中英文网络版) 2022年1期

郭学兵,唐新斋,苏文,何洪林

1.中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室,北京 100101

引 言

生态系统长期观测(Long Term Observation for Ecosystem,简称EcoLTO)是指按统一规范对主要农田、森林、草地、荒漠、沼泽、湖泊和海湾生态系统的主要环境因子和生物群落及其基本生态过程进行长期监测,定期提供主要类型生态系统的动态信息[1]。EcoLTO数据具有复杂多样性、专业性、长期性、网络化、多方协作、公益性开放共享等特点,EcoLTO数据涉及数据获取、质控、存储管理、发布、共享服务等全生命周期各环节,建立面向数据全生命周期的标准规范对于EcoLTO数据管理与共享至关重要。

EcoLTO“统一监测”及“统一数据管理”方面的系列标准对获取可比性强、统一存储、规范化程度高的野外观测数据库起到了关键作用。国家生态科学数据中心(National Ecosystem Science Data Center,简称NESDC)在数据库管理与数据共享服务过程中认为,仅仅使用数据库难以充分满足EcoLTO数据长期性、多样性、灵活性以及公益性服务的特点,因此提出了数据产品这个数据形态[2]。以不同应用需求为导向开展数据产品化工作,将格式相对固定的数据库数据进行灵活生产加工、深度分析挖掘,可形成丰富多样的EcoLTO数据产品。由于数据产品具有唯一标识、能很好保护知识产权,以数据产品为载体可为研究人员提供更高质量、更具价值的开放共享服务,这是目前NESDC的重要任务。

在数据产品化过程中,需要构建EcoLTO数据产品规范,以便对“统一数据产品”的生产、质量控制、存储管理、开放共享发挥指导作用。产品规范涉及数据全生命周期各环节[3]的规范化描述,包括数据生产(数据获取、质量控制)、管理(数据组织与存储、发布),并支撑开放共享(数据发现与检索)。以产品为抓手,以规范为指引,对于形成“EcoLTO统一数据产品”规范化管理与共享具有重要意义。数据产品规范可有力促进“管好数据”与“用好数据”的良性互动的形成,全面支撑数据可发现、可访问、可互操作、可重用(Findable、Accessible、Interoperable、Reusable,即FAIR)。

本文介绍了EcoLTO数据产品规范(EcoLTO Data Product Specification,,以下简称EcoLTO-DPS或本规范)的研制过程、参考的相关标准、组成内容,并就本规范在实践中的使用方法进行了介绍,给出了在NESDC数据共享服务平台中的应用案例。本文有助于数据产品的生产者、管理者及使用者加深对本规范的理解,对促进本规范的推广和应用发挥重要作用。

1 EcoLTO-DPS研制过程

遵照《GB/T 30522-2014科技平台元数据标准化基本原则与方法》[4],EcoLTO-DPS建模过程包括4个主要阶段,即分析EcoLTO数据产品需求、调研相关标准及文献、确定规范内容并编制规范文件草案稿、征求专业人员意见并不断完善草案稿,征求意见的对象主要包括与生态监测领域相关的野外站、专业学科中心的专业人员。编制规范的总体过程如图1所示。

图1 EcoLTO-DPS编制总体过程Figure 1 Overall procedures of developing EcoLTO-DPS

1.1 EcoLTO-DPS需求分析

EcoLTO数据产品概念为:“针对生态系统长期观测所获取的原始数据,开展规范化加工处理和质量控制过程后所衍生的不同级别的实体数据,且包含与数据产品规范相一致的详细描述信息的数据集或数据集系列。”

构建科技资源描述模型的结构框架时,需要重点满足快速精准找到需要的科技资源、支持科技资源的快速集成、支持科技资源的有效共享等3个方面[5]的需求。同时,因为EcoLTO数据是生态科学数据的一个专类,需求分析过程重点参考了《GB/T 20533-2006生态科学数据元数据》[6],并围绕产品以下特征加以考虑:

1)数据产品具有唯一标识,特别是面向最终出版与共享服务的数据产品均有全球唯一标识(DOI、CSTR等),包含数据产权、引用等信息,可支撑生态科学数据确权,实现数据资源互联、引用追踪与计量,有效支撑知识产权保护。

2)数据产品具有明确的数据处理、质量控制规程,保证高质量数据的生产。数据产品必须建立规范化的详细描述文档,文档能够体现用户关切的产品质量信息、生产方法信息等,以支撑使用者对数据的理解。

3)既要充分分析EcoLTO数据产品的特点,又要充分满足EcoLTO数据产品的管理、发现、定位、获取数据的需要[4]。结合数据检索与推荐等信息管理新技术的要求,研究数据标准化及分类方法,以支撑应用系统的数据发现功能的智能化。

1.2 相关标准调研

笔者主要调研了《GB/T 19710-2005地理信息元数据》[7]、《GB/T 25528-2010地理信息数据产品规范》[8]、《GB/T 30523-2014科技平台资源核心元数据》[9]、《GB/T 20533-2006生态科学数据元数据》、美国国家生态系统观测网络(National Ecological Observatory Network,NEON)数据产品规范等相关标准。

地理信息领域是国内最早开展元数据研究的领域,也是国内较早提出地理信息数据产品概念的领域,因此笔者调研了GB/T 19710-2005(ISO 19115:2003的修改版)和GB/T 25528-2010(等同于ISO 19131:2007)。笔者详细分析了地理信息产品规范的架构、组成和内容,借鉴了从地理信息元数据提升到地理信息数据产品的思想。

GB/T 30523-2014是描述科技平台资源最基本信息的元数据最小集合。EcoLTO数据是科技平台数据资源的专类,故本规范应符合GB/T 30523-2014的相关规定,须包含科技资源核心元数据的所有元素。

支撑美国区域及大陆尺度的复杂生态过程的科学研究计划而建立的观测网络NEON,针对美国20个生态区81个野外站的应用自动观测系统、野外采样系统、空中遥感观测调查涉及的一套生物物理化学等生态特征指标,设计了从获取数据到发布数据产品的管道(Pipeline)。相关的各项规程、数据采集和数据处理文档均可访问(http://data.neonscience.org/home)获取,针对NEON的调研对于建立EcoLTO数据产品规范颇有启发。

《GB/T 20533-2006生态科学数据元数据》提供了一个可扩展的、用于描述和归档管理生态科学数据的概念数据模型,包括标识信息、数据质量信息、方法信息、场地信息、项目信息、分发信息、元数据参考信息、实体信息、空间参照系信息和空间表示信息等10个模块。GB/T 20533-2006的论域为生态科学数据,生态科学观测数据(包含遥感对地观测数据、地面观测数据两类)是生态科学数据的一个专类,而地面观测数据中的长期生态要素观测数据即为EcoLTO数据,是目前国际国内开展生态观测活动而产生的重要数据类别,是支撑长期生态学研究的重要数据,因此,GB/T 20533-2006是研制本标准的重要依据。

1.3 EcoLTO-DPS研制方法

本规范研制思路是:基于GB/T 20533-2006,首先将论域限定在EcoLTO数据范围内,删减不必要的内容(如与EcoLTO数据无关的空间参照系等模块);其次增加了与数据产品的典型特征(如具有全球唯一标识)相关的元素;第三是将落后于当今技术进步的内容进行了删减(如分发信息模块的介质传送内容);第四是遵循简单实用、不宜繁杂的原则。通过对GB/T 20533-2006的包结构和元数据元素进行修订(新增、修改、删减、拆分、合并、扩展等),最终确定了本规范的内容。

参考NEON数据产品分级思想[10],EcoLTO数据产品也进行分类分级,针对各级数据产品获取和生产加工环节,本规范将“方法(Methodology)”包分解为“采集方法信息”(用来描述L0级原始数据的野外监测数据采集与质量控制方法)和“数据处理与数据质量控制方法信息”(用来描述生成L1-L3级数据的数据处理与数据质量控制方法)两个包;其次调整了包的元素(包括增加、修订、合并、删除),修订之处无法一一赘述,只将部分关键修订之处列入表1。

表1 本规范对GB/T 20533-2006的关键修订之处Table1 Key revision points comparing EcoLTO-DPS to GB/T 20533-2006

2 EcoLTO-DPS的表达与组成

UML(Unified Modeling Language)是一种统一建模语言[11],相对自然语言描述方式而言,它能更严谨清晰地表达EcoLTO-DPS的组成内容,且易于计算机处理、易扩展。EcoLTO-DPS组成需能完整地反映数据产品各组成部分的内容。

2.1 EcoLTO-DPS的表达

本规范使用UML建立EcoLTO-DPS的子集、实体和元素之间关系的概念模型。UML中的包、类、属性分别用来表示EcoLTO-DPS的子集、实体、元素。

本规范同时给出了描述实体及元素的数据字典,数据字典用中文名称、英文名称、英文缩写、定义、类型、值域、约束/条件、最大出现次数来表示实体元素的含义、可选性、重复次数等。例如,基本描述信息包的UML图及数据字典片段示例如图2、图3所示。

图2 基本描述信息的UML图Figure 2 An example of UML diagram of basic description package

图3 基本描述信息的数据字典片段示例Figure 3 An example of fragment of basic description package's data dictionary

2.2 EcoLTO-DPS的组成

本规范依据GB/T 1.1-2020标准化工作导则[12]起草,规范文件包括范围、术语,并规定了概述信息包、基本描述信息包、实体文件结构与内容描述信息包、场地信息包、采集方法信息包、数据处理与数据质量控制方法信息包、质量信息包、分发信息包等8个包的概念模式。各包的内容简述如下:

(1)规范概述信息包

包括产品规范编制的信息,具体包含:产品中文名称、产品英文名称、产品全球唯一标识、学科类目、产品概要描述、语种、产品规范版本号、产品规范编制日期、产品规范编制方、产品缩略图。

(2)基本描述信息包

包含基本标识、基本说明、开放共享3个子部分,是用户发现、了解、访问、获取、使用数据产品的最必要知晓的核心关键信息,通常以高度结构化形式表达,支持计算机化信息系统的可理解、可处理、可检索与互操作。

基本标识信息包括:内部管理标识、全球唯一标识(如DOI标识、PID标识、CSTR标识)、中文名称、英文名称、摘要、关键词、主题类目。

基本说明信息包括:时间范围、空间覆盖范围、时间分辨率、空间分辨率、存储量大小、记录数、存储类型、存储格式、语种。

开放共享信息包括:生产方联系人信息、开放共享方式、知识产权声明(包括但不限于数据使用者使用数据产品发表成果时的引用方式的说明)。

(3)实体文件结构与内容描述信息包

主要描述数据产品包含的数据实体文件及每个数据实体文件所包含的观测数据项的说明信息(数据项的含义、数据类型、量纲单位、数据值域等,以及质量控制产生的异常或缺失数据等特殊数据的说明信息等)。

(4)场地信息包

描述和观测数据相关的野外采样、观测、调查活动的发生地的有关信息,包括场地基本信息、场地自然地理背景、场地历史、场地其他信息、场地变更信息。

例如场地基本信息包括场地名称、场地代码、生态系统类型、场地地理位置(地理位置经纬度范围、海拔、行政区域描述(省市县乡村))、场地的生态系统长期观测代表性、场地建立年份、场地面积及形状、场地自然地理背景信息(包括气候、植被、土壤、水文、地形地貌等)。

(5)采集方法信息包

包括数据采集方法、采集质量控制方法信息。数据采集方法信息有助于了解数据获取的方法信息。采集方法信息分为野外采样、室内检测分析、自动观测、人工观测调查等不同采集方式的说明信息。

(6)数据处理与数据质量控制方法信息包

包括数据处理与数据质量控制方法信息。在生产L1-L3级数据产品的过程中,对数据质控和数据处理过程或活动进行记录并形成数据志,并对质量控制元素进行说明。

(7)数据质量信息包

包含对数据产品的质量说明信息,由数据生产者自身或第三方,对数据产品质量进行定性评价或定量评价,给出质量评价报告。质量评价报告包括评价日期、评价者、评价方法说明、评价结果等方面信息。数据质量信息有助于数据使用者了解数据产品质量情况。

(8)分发信息包

分发信息包含数据产品如何分发和获取的信息。它包括数据产品的各信息包的内容的分发格式、分发订购程序、数据传送选项和分发联系方等信息。

3 EcoLTO-DPS的应用

3.1 EcoLTO-DPS应用方法

EcoLTO-DPS给出了数据产品描述的全集元素的概念模型。在应用过程中,针对具体应用场景,对EcoLTO-DPS不同元素予以区别对待,有些元素需要进一步细化、规范化处理,有些元素则需要泛化综合处理。可从以下方面考虑:

1)基本描述信息包是面向数据使用者的基础核心信息,用于支撑信息共享技术平台实现数据发现和检索,因此在使用这些元素的过程中需要考虑信息共享技术平台的发现功能需要哪些元素,并针对性地进行细化和规范化。例如NESDC信息共享平台提供了分类标签筛选功能,因此对主题分类进行了细化,定义了主题类目代码表。采用结构化与半结构化数据存储技术相结合的方式,支持数据分类筛选、智能推荐和关联发现。

2)实体文件结构与内容描述信息包描述数据产品包含的数据实体文件及每个数据实体文件所包含的观测数据项的说明信息(例如属性名称、属性含义、数据量纲单位等),通常以自然语言方式进行描述,帮助用户对数据实体文件内容进行准确理解,特别是实体文件中的所有代码值都需要释义描述。

3)场地信息包、采集方法信息包通常融合在一起,并采用自然语言描述,常用包含图示等富文本格式的文档来描述场地和数据采集方法信息。

4)数据处理与数据质量控制方法信息包需要对当前数据产品的生产加工过程中的关键步骤进行描述。

EcoLTO数据产品生产过程是基于L0级数据源进行分级整理的。因此应首先对L0级数据源情况进行概述分析,然后对L0级数据进行质量控制,通常包含对样地代码、物种名称等公共项进行一致化处理,对观测指标项数据(如胸径、树高)用统计检验方法核验异常离群值、用阈值检验方法核验超界异常值、用图示方法直观展示数据变化趋势等,结合多重手段来核查错误数据,并进行剔除、修正、标记异常值的质控标识,生成质控预处理数据-L1级;对L1级数据进行插补缺漏数据(如气温)或计算派生观测指标(如利用胸径、树高采用标准木法回归方程计算得到乔木的分器官生物量)数据,则形成L2级数据;按照更长时间或更大空间尺度对数据进行统计上推计算(如从小时到日尺度,从样方到样地尺度等),得到统计数据-L3级。

在生产某个级别的数据产品时,需要将上述涉及到的每一步数据质控过程、数据处理过程的关键步骤记录在数据志文件中,包括算法、引用文献、所用软件工具,以使用户了解数据的可互操作性和可再利用性。

5)质量信息是EcoLTO数据产品的关键信息,质量信息通常以质量评价报告来描述。本规范参考以下流程和思想指导质量信息的编写。第一步,参照《GB/T 21337-2008地理信息质量原则》确定数据质量要求和质量评价方法,评价方法包括数据质量非量化元素、量化元素两种。参照GB/T 21337-2008确定非量化元素内容和描述方式,参照《GB/T 21336-2008地理信息质量评价过程》确定量化元素内容和描述方式;第二步,按照确定的质量评价方法进行非量化元素和量化元素质量评价,得出评价结果;第三步,按照EcoLTO-DPS规定的方式编写质量评价报告。

3.2 EcoLTO-DPS应用示例

以“太湖站水质监测数据产品”为例,其基本描述信息如表2所示,实体文件结构与内容描述、场地等其他信息均按照EcoLTO-DPS要求整编,该产品详情可参见NESDC数据共享服务平台(网址:http://www.nesdc.org.cn)。

表2 “太湖站水质监测数据产品”基本描述信息Table 2 Data product’s basic description(Take TaiHu lake's water quality data product as an example)

主题分类 生态系统类型::湖泊;生态要素类型::水分关键词 江苏太湖站,水质,水体物理,水体化学,水物理,水化学摘要描述本数据产品是在《中国生态系统定位观测与研究数据集》丛书的《湖泊湿地海湾生态系统卷》之江苏太湖站1册的基础上进行数字化加工,通过完善元数据并与实体数据相关联,生产了本数据产品。本数据产品包含江苏太湖站按照CERN长期监测指标体系和规范开展的太湖00-08观测点的长期水质监测数据,含水体物理和水体化学逐月数据,以及水质分析方法。数据范围自1991年至2006年。本数据产品同时包含太湖观测点介绍及观测指标获取方法与过程的关联文档。生产者信息生产者 江苏太湖站贡献者 秦伯强;胡春华联系电话 (010)64889273联系电子信箱 nesdc@igsnrr.ac.cn共享服务信息共享方式 公开共享保护期(月) 0个月引用文献 秦伯强,胡春华.中国生态系统定位观测与研究数据集-湖泊湿地海湾生态系统卷-江苏太湖站(1991-2006)[M].北京:中国农业出版社,2010.链接地址 http://www.nesdc.org.cn/sdo/detail?id=5fa52a81042ebb70d0c8338d

4 结语

开展标准化是推进科技资源管理共享的前提和重要手段,为此科技部基础条件平台已经提出了面向科技资源管理的科技平台标准体系框架[13],并按照标准体系框架设计,研制了科技资源管理、开放共享环节的标准体系[14-15]。标准层级可以包括国家标准、行业标准、地方标准和团体标准。

作为国家科技资源共享服务平台之一的NESDC制定EcoLTO数据专类标准规范既符合国家科技资源管理标准体系的要求,也是EcoLTO数据管理共享本身的需求。本文介绍的“生态系统长期观测(EcoLTO)数据产品规范”的研制过程、规范的主要内容、应用方法和应用案例可为EcoLTO数据产品相关方开展规范化的数据产品生产、管理与服务以及数据使用者合理合规使用数据产品提供指导。下一步将加大EcoLTO-DPS使用推广力度,同时围绕数据产品的可发现、数据产品智能推荐和关联发现等更高需求,完善EcoLTO数据产品标准规范,为使EcoLTO数据成为长期可持续发展的数字资产作出贡献。

致 谢

本文获得如下基金资助:国家重点研发计划《科学数据安全技术及基础技术标准研究》(2019YFF0216200),及国家重点研发计划政府间国际科技创新合作/港澳台科技创新合作重点专项《中国及中亚“一带一路”区域典型陆地生态系统综合监测与应用》(2019YFE0126500)的资助。

作者分工职责

郭学兵(1967—),女,中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室高级工程师,研究方向:数据库系统设计与开发。主要承担工作:生态系统要素长期观测(EcoLTO)数据产品规范研制负责人,以及本文的撰写者。

唐新斋(1976—),男,中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室工程师,研究方向:遥感信息处理。主要承担工作:生态系统要素长期观测(EcoLTO)数据产品规范研制参与人及应用系统开发人。

苏文(1968—),女,中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室高级工程师,研究方向:数据库系统设计与开发。主要承担工作:生态系统要素长期观测(EcoLTO)数据产品规范研制参与人。

何洪林(1971—),男,中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室研究员,研究方向:生态信息学、环境信息学。主要承担工作:生态系统要素长期观测(EcoLTO)数据产品规范研制任务策划人。