郭学兵 苏 文 唐新斋 张 黎 何洪林
(中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室,北京 100101)
生态系统长期观测(Long term observation for ecosystem,EcoLTO)是指按统一规范对主要农田、森林、草地、荒漠、沼泽、湖泊和海湾生态系统的主要环境因子和生物群落及其基本生态过程进行长期监测,定期提供主要类型生态系统的动态信息[1]。EcoLTO是中国生态系统研究网络(Chinese Ecosystem Research Network, CERN)数据中心、国家生态科学数据中心(National Ecosystem Science Data Center,NESDC)管理的非常重要的科学数据专类。它的建设和运行是一项基础性系统工程。
EcoLTO数据具有多样性、复杂性、专业性、长期性、继承性、公益性以及责任主体分离性等特点。具体表现是:EcoLTO包括水分、土壤、大气、生物等方面多样化、数百个观测指标,这些指标获取处理方法相异复杂,且需具备专业的技能和知识来保证获取高质量数据,如果缺乏规范化管理会降低EcoLTO数据质量;EcoLTO观测数据经常历经若干代监测及管理人员的更迭,且数据以公益性方式支撑第三方科研人员使用,如果缺乏标准规范指导,EcoLTO数据价值将会贬损;EcoLTO数据涉及数据获取、质控、存储、发布、管理、共享服务等全生命周期各环节,其相关责任主体(产生者、管理者、使用者)机构分离、地域分离、视角分离,各方主体基于规范建立合理的数据合作治理关系对于数据有序管理与共享至关重要。
因此,本文主要概述了国际国内数据产品化发展情况,在CERN经过“EcoLTO统一监测”“EcoLTO统一数据管理”两个阶段后,进一步提出“EcoLTO统一数据产品管理”理念,以及产品化对于EcoLTO数据管理与共享的重要意义,并概要介绍了数据产品标准规范的组成内容及其对“统一产品管理”的指导作用,以及数据产品标准规范在国家生态科学数据中心(NESDC)建设“生态网络云”系统中的应用实践,以期对我国长期生态监测数据管理与共享带来启发。
在地理信息领域,国际标准化组织ISO早在2003年提出Geographic Information-Metadata,ISO 19115:2003(地理信息元数据),2007年又提出地理信息产品规范ISO 19131:2007[2]。国际海道测量组织(International Hydrographic Organization,IHO)发布了与此相关的不同版本的电子海图、水深表面等产品规范[3-4]。
在生态领域,美国于2006年提出NEON(National Ecosystem Observation Network)项 目启动计划,2011年获得美国NSF经费资助,2019年NEON项目完成建设任务,并进入操作运行阶段。NEON项目始终把提供标准化、质量保证的数据产品作为NEON的必要使命,整个设计与建设过程始终秉持了产品分级、产品生产、产品开放共享的理念。
NEON产品分级明确了NEON为社会提供的产品谱系。谱系包括从原始获取的0级数据到经过质量控制和转换后形成的具有科学意义的1级数据,再到融合了基础指标数据和科学理论获取的4级数据(例如从地表水水位及水位—流量观测曲线计算径流量,从高频风和气体浓度指标衍生出的地表和大气层之间的二氧化碳交换量数据)。
目前,NEON建成了81个野外台站,通过应用自动观测系统、野外采样系统、空中遥感观测调查获取一套生物物理化学等生态特征指标,获取数据汇聚到NEON总部进行生产,发布数据产品供用户使用。为此,NEON编制了数据产品体系及数据产品生产加工的各项规程、文档,其产品目录、支撑元数据、科学设计、数据采集和数据处理文档均可通过共享门户(http://data.neonscience.org/home)被公众访问,这些开放数据有力支撑了美国区域及大陆尺度的复杂生态过程的科学研究。
自2016年以来,国际数据出版风潮凸现,期刊、出版社、数据管理机构等以数据出版形式发表数据集。例如,地球观测数据共享网(DataONE)整合了全球44家知名机构进行分布式数据产品发布(http://www.dataone.org)。
在地理信息领域,全国地理信息标准化技术委员会(SAC/TC 230)2010年提出了GB/T 25528—2010地理信息产品规范,规范等同于ISO 19131:2007,规范化了地理信息数据产品的获取及衍生数据产品等的描述方法[5]等,引领了不同领域的地理信息产品规范的编制和应用。国内机构纷纷解读国际电子海图、水深表面等产品规范内容,并应用于国际数据交换和服务航海等应用[2-3]。
在遥感观测领域,中国科学院遥感与数字地球研究所于2017年发表论文,公布了以遥感观测数据产品为导向发展多源协同遥感观测与分析处理方法,推动遥感从观测数据到数据产品的处理方法向标准化、结构化转变[6]。国家卫星气象中心自1978 年开始接收、处理各类卫星数据以来,自主研发和处理生成的大气和地球表面环境监测多源气象卫星图像产品、定量产品和分析产品(包含大气、陆表、海表等多种产品)已达数十种,多种卫星数据产品在气象、海洋、农业、林业、水利、航空、航海、环境保护等诸多方面得到综合运用,取得了良好的社会和经济效益[7]。
在生态与环境观测领域,江苏省常州环境监测中心分析了新时期环境监测数据产品内涵,分析了数据产品在信息化程度、深度开发、数据质量和信息公开等方面存在的问题[8]。CERN早在1988年就开展生态系统长期观测[1,9],历经“统一监测管理”“统一数据管理”阶段,目前正向“统一数据产品管理”迈进。产品化可使数据管理精细化、流程化、固定化,而产品标准规范是产品化的重要支撑,通过产品标准规范的研制和实施,可以发挥长期监测数据的更大价值,更好地服务于生态学研究和国家社会经济建设。
(1)EcoLTO“统一监测管理”
中国科学院开展生态系统监测工作较早,特别 是1988年CERN成 立 以来,1996年、2006年、2012年先后3次编制了3套不同生态系统的长期观测规范[10-14],制定了统一监测指标体系和监测规范,建立了包括《中国生态系统研究网络考核与评估办法(暂行)》在内的综合评估与考核体系,长期生态系统观测成为CERN的使命之一,来自40多个野外生态站已经开展了近30年的连续观测。CERN成为与美国LTER、英国ECN齐名的三大国家生态系统研究网络,实现了统一观测指标体系、统一观测规范、统一技术体系的“统一监测管理”。
(2)EcoLTO“统一数据管理”
2002年,CERN发布了《CERN数据共享与管理条例》,明确和强化了CERN生态站—分中心—综合中心“三级”数据管理与共享服务体系,推动CERN数据共享和管理工作。
根据EcoLTO数据的观测规范,制定了统一的数据报表格式和数据报送规范等,建立了生态站—分中心—综合中心三级协同管理模式,建成了最具特色、系统化、规范化的数据库[15],CERN综合中心积累了20年大约2 000万条数据记录,实现了统一数据管理。
CERN制定了包括GB/T 20533-2006《生态科学数据元数据》在内的一系列标准,并应用于生态网络云平台[16-17]建设过程中,实现了基于生态科学元数据的统一数据管理与共享。
迄今为止,CERN为大量用户提供数据共享服务,支撑了用户开展遥感产品地面验证、生态模型数据驱动、典型生态系统趋势变化分析、大数据分析等应用,这部分应用案例众多,为国家科技创新发挥了重要的支撑作用。
(3)从数据到产品的转变
2011年,国家生态系统观测研究网络(CNERN)暨中国生态系统研究网络率先以数据专著形式出版了《中国生态系统定位观测与研究数据集》丛书(共4卷51册),相应的数据产品在生态网络云平台上予以发布。2017年以来,CERN数次与《中国科学》合作推出“中国生态系统研究网络(CERN)专题”等数据论文专辑,数据开发人员不断挖掘数据产品并予以发表[18-21]等。
数据产品的加工整理及出版,促进了数据质量提高、促进了数据产权的清晰化,改善了数据用户的使用体验等。在实践中,提出EcoLTO数据产品化,加强数据产品标准规范。通过产品标准规范化建设,促使CERN“统一数据管理”向“统一数据产品管理”的转变,实现从数据库服务向数据产品服务的转变,以规范化的产品体系作为观测管理、数据管理的最终成果。
早期的“统一监测管理”保证了数据获取方法的可比性和一致性。“统一数据管理”则基于生态科学元数据标准,以关系型数据库管理技术为手段,通过采用Java数据库连接(JDBC)方式动态提取库表数据为用户提供数据共享服务,实现了基于生态科学元数据的统一数据管理与共享。
由于一个库表存储了众多生态站获取的持续动态更新的、不同级别的观测数据(例如,乔木生物量数据集把每木调查数据、生物量等不同计算层级的数据混合存储),这种管理模式导致库表的数据产权分割不清、数据质量参差不齐。对数据生产者、管理者、使用者而言,体现出产权不清、质量难控、使用不便的缺点,从而影响了数据共享的质量和效率,也影响了数据的可持续生产。
近年来,以知识产权保护为最终目标的数字对象标识技术,如国际上,数字对象唯一标识符(Digital Object Identifier,DOI)技术已发展成熟,国内也成立了中文DOI注册中心来开展DOI命名、申请、注册、变更、解析等服务,实现了国内数据的标识唯一性、存储永久性、动态更新性等,有力支撑了数据的确权和标识。同时,国际通行的知识共享许可协议,即CC协议(A Creative Commons License)可作为数据产品的共享协议。这些技术的发展为数据产品化及建立数据产品开放共享的有序机制提供了良好的外部基础环境。
EcoLTO数据是CERN的重要数据资源,可被视为数据资产,通过从不同维度、不同层级对EcoLTO数据库中的数据进行质量提升、集成整合,开展不同层级的数据挖掘(初级计算、简单计算、融合复杂知识和复杂模型的计算),形成高质量的产品谱系,并按照产品规范要求包装数据,使得数据达到可发现、可访问、可理解、可重用(即FAIR)的产品级标准。以原始或基础层级的数据产品为基础,逐步凝聚越来越多的数据开发人员或科学家着力开发更高层级的、融合专业理论或知识的数据产品,并持续加入到EcoLTO产品库中。围绕EcoLTO数据,将形成数量不断增长、价值不断提升的数据产品群,从而将EcoLTO数据资产价值最大化,实现从结构固定不变的数据库到内容丰富、灵活多样、动态扩展的产品库的转变。
面向出版与共享服务的EcoLTO数据产品均有全球唯一标识(如DOI等),可支撑形成数据互联,且有助于数据生产者、使用者规范各自的行为,体现对知识产权的尊重,支撑安全有序的数据共享秩序的建立,为形成更好的共享环境和文化提供技术支撑手段。
通过进一步研究整合生态学领域的专业知识体系,利用数据标签、知识图谱等技术进行基于内容的产品库管理,可提供数据关联发现等智慧服务,实现数据服务向知识服务的提升,为宏系统生态学发展提供数据支撑。
在GB/T 25528—2010地理信息数据产品规范中,给出了数据产品的定义为“与数据产品规范一致的数据集或数据集系列,是具有规范的组织管理形式,可被他人理解和使用的数据集或数据集系列”;数据产品规范是“对数据集或数据集系列及其他信息的详细描述,适用于数据集或数据集系列的生产、提供和其他方使用”。
在研究确定EcoLTO数据产品的概念时,NESDC综合考虑了EcoLTO数据获取和加工生产的特点,并参考GB/T 25528—2010地理信息数据产品规范,同时借鉴了NEON数据产品分级思想、生态科学元数据等相关标准,最终将EcoLTO数据产品概念定义为:“针对生态系统长期观测所获取的原始数据,开展规范化加工处理,以及规范化质量控制过程后而衍生的不同级别的实体数据,且包含与数据产品规范相一致的详细描述信息的数据集或数据集系列。
数据产品具有以下特征:一是数据产品有明确的分类分级体系,产品的知识产权明晰、生产主体责任方明确,可形成层级清晰、生产主体明确的产品谱系;二是针对产品谱系的产品,具有明确的数据处理、质量控制方法规程,保证严格的数据质量控制、高质量的数据生产;三是数据产品必须建立规范化的详细描述文档,方便生产者、管理者、使用者共同遵守或知晓,实现可发现、可访问、可理解、可再利用;四是数据产品具有唯一标识,特别是面向最终出版与共享服务的数据产品均有全球唯一标识(DOI、CSTR等)。
数据产品是数据服务的基础。围绕数据产品,可以制定不同的共享服务模式,用来规定获取到数据产品的用户,在其成果中反映提供共享数据产品的相关方的知识产权利益。如国际通用的CC 4.0规定了数据共享许可协议的模式框架,如果模式涉及商业情形,则需要进一步规定有偿共享、按比例分成等商业模式。NESDC发布共享的EcoLTO数据产品则使用CC BY 4.0协议(即署名许可协议),均为无偿共享方式,目前不涉及有偿共享。无论是最基本的署名许可协议,还是其他模式的共享许可协议,都离不开产权清晰、标识唯一的数据产品这一核心对象做技术支撑。
数据产品标准规范是基于数据产品进行研制的。数据产品标准规范是建立高质量、规范化、数据产权明晰的数据产品的抓手,可作为开展产品整体筹划、产品规范化生产的指导思想和工作基础。
EcoLTO数据产品标准规范包括以下3个规范:一是“生态系统长期观测数据产品分类分级”(规范1)。它主要从生态系统过程与功能的长期观测指标出发,对数据产品进行3级分类;进一步结合长期观测指标的全生命周期的各级数据产品的生产加工过程进行分级。依据该规范可提出EcoLTO产品谱系,为制定产品生产计划提供指导,同时为生态长期观测数据产品生产、管理与服务中的分类分级奠定基础。例如,产品谱系中的一大类“水环境要素观测数据产品”包括水文要素观测数据产品(土壤水分含量、地表径流量、穿透降水量等)、水物理要素观测数据产品(水深、水温等)、水化学要素观测数据产品(雨水水质、静止地表水水质等)。二是“生态系统要素长期观测数据产品规范”(规范2)。它规定了EcoLTO产品的描述规范,定义了生态系统长期观测数据产品的概述信息、基本描述信息、实体数据文件结构和内容信息、场地信息、采集方法信息、数据处理与质量控制方法信息、质量信息、分发信息等方面的一套概念模式。它是数据产品生产者、管理者开展规范化的数据产品生产、管理与服务以及数据使用者合理合规使用数据产品的共同约定,是实现数据产品的可发现、可访问、可理解、可再利用,保证数据产品管理规范科学、数据开放共享安全高效高质的指导性文件。三是“生态系统长期观测数据产品生产与质量控制”(规范3)。它规定了生态系统长期观测数据处理和质量控制的一般要求、流程、内容和方法。针对各项关键指标,从野外站观测数据的检查、审核、质量标识到加工形成数据产品的一系列过程,侧重于对数据本身的质量检查、处理和评估,不涉及野外观测、调查和实验室分析过程的质量管理和控制。同时开展质量评价,提高数据质量。
这3个规范之间的内在关系如图1所示,各个规范的详细内容不在本文详述。
图1 数据产品标准规范关系图
上述产品标准规范已经在“国家生态网络云(EcoCloud 2.0)”系统的建设过程中得到应用,EcoCloud 2.0系 统(http://www.nesdc.org.cn)界面如图2所示。
图2 生态网络云平台EcoCloud 2.0主界面
依据规范2,建立了国家生态系统野外科学观测研究站(含36个CERN生态站)2008年之前的生态系统长期观测数据产品,覆盖了农田、森林、草地、荒漠、湖泊、海湾等生态系统类型,50个野外站点在水分、土壤、大气、生物等学科方面的人工观测调查数据、自动观测系统数据、采样检测分析数据,共计305个数据产品。
按照规范2,建立了各数据产品的基本描述信息元数据库,提出了学科类目、主题类目、关键词等多层级多角度分类方法,支撑了EcoCloud 2.0系统的推荐检索、关联检索等功能的实现,实现数据的可发现、可访问。
按照规范2要求编制的规范化文档详细描述了EcoLTO产品信息,使得用户可以全面了解数据产品并合理合规使用数据,实现数据的可理解、可重用,建立了满足FAIR要求的EcoLTO数据存储库。
规范2要求建立产品确权标识(DOI、CSTR等),并与国内DOI、CSTR等注册机构进行互联互通,实现了数据产品注册和解析服务,支持了数据使用者在发表成果中对数据产品的DOI、CSTR等的规范化引用,为培育良好的共享环境奠定基础。
在规范1的指导下,逐步建立起完整的EcoLTO产品谱系,2009年之后的EcoLTO数据产品正在开发过程中,将逐步发布共享。
规范3制定了谱系中各产品的生产和质量控制规范,规范了数据产品的详细生产过程,特别是加强数据质量控制、规范化数据产品加工的处理步骤。今后,规范3可作为建立数据产品加工处理和挖掘分析平台的重要基础规范,进一步提升数据产品生产自动化过程和生产效率。
通过借鉴其他相关领域(如地理信息、遥感卫星)及生态领域(如NEON)以数据产品形式提供多样化数据产品服务的活动,并结合多年来CERN EcoLTO数据管理与共享的实践经验,笔者及NESDC团队人员发现进一步强化数据到数据产品转化的重要性。本文明确了EcoLTO数据产品化发展思想,系统性地提出了EcoLTO数据产品的基本概念及其标准规范。在充分调研国内外相关数据产品标准的基础上,研制了“生态系统长期观测数据产品分类分级”“生态系统长期观测数据产品规范”“生态系统长期观测数据产品生产与质量控制”等3项标准规范,为加强数据产品开发,实现数据库服务向数据产品服务的转变奠定基础。研制的标准规范在国家生态网络云EcoCloud 2.0系统建设过程中顺利应用,验证了其适用性和有效性。标准规范已经向中国信息协会科学数据专业委员会提出立项申请。3项标准规范是实现EcoLTO数据管理从“统一监测管理”“统一数据管理”到“统一数据产品管理”跨越提升的重要基础性工作。
生态文明建设是重大国家需求,而生态环境监测是生态文明建设的重要支撑,国家已发布了《生态环境监测规划纲要(2020—2035)》,生态环境部、国家气象局、国土资源管理部、国家林业和草原局、农业农村部等均在推进生态环境监测体系与监测能力建设工作。本文的标准规范可为我国相关行业、机构开展长期观测数据产品体系建设和数据产品开发提供依据和参考,为全面提升长期观测数据的管控与应用能力、发挥数据资产价值、促进生态观测数据管理与共享创新发展提供有益借鉴。