孙苗,王子珂,童心,符昱,王漪,康林冲,姜晓轶
1. 国家海洋信息中心,天津 300171;2. 国家海洋科学数据中心,天津 300171;3. 自然资源部海洋信息技术创新中心,天津 300171
海洋观测数据及产品在支撑科技创新、跨学科融合发展和应对气候变化等方面具有重要作用,观测数据产品质量、时空覆盖范围和开放共享程度是影响数据及产品应用范围、了解海洋环境系统性变化、刷新海洋认知的关键性因素。作为评估气候变化相关科学的权威国际机构,联合国政府间气候变化专门委员会(IPCC)于2014年发布的第五次评估报告(IPCC AR5)中用于评估海洋变化的海洋环境观测数据产品均来自国外[1],我国则贡献很少,这反映出我国海洋观测数据产品在应用层面存在局限性的问题。因此,充分掌握海洋科技强国研制发布的海洋环境观测数据产品的应用情况,深层挖掘其数据特点、关键技术和开放共享模式,从而为扩大我国海洋观测数据产品的应用提供参考和借鉴具有科学和现实意义。
目前全球变化研究需要长时序、大尺度海洋环境数据产品或数值模拟产品,其中数值模拟产品也依赖于大量的环境观测数据和先进的同化技术,如全球简单海洋资料同化分析(simple ocean data assimilation,SODA)系统在同化分析过程使用的温盐数据大部分来自世界海洋数据库(world ocean database,WOD)、全球海洋观测网(array for real-time geostrophic oceanography,Argo)的观测数据、综合海洋-大气数据集(comprehensire ocean-atmosphere data set,COADS)以及卫星高度计的SLA(sea level anomaly)观测数据等资料。欧洲中期天气预报中心(ECMWF)的全球海洋再分析数据(ECMWF re-analysis,ERA)的同化方案中融合了WOD数据、全球温盐剖面计划(global temperature and salinity profile plan,GTSPP)数据、Argo观测资料、法国卫星海洋存储、验证、解译(archiving, validation, and interpretation of satellite oceanographic,AVISO)等[2]。这些发展比较成熟、应用比较广泛的海洋环境观测数据产品普遍具有积累时间长、质控技术先进、更新频率稳定以及开放共享程度高等特点,且均由国外少数几个海洋科技强国研制提供。我国在海洋环境观测数据产品研制及应用方面总体处于赶跑阶段。
本文选取上述具有代表性的海洋环境观测数据集,通过深入研究其数据特点、质量控制流程、管理应用和开放共享现状,总结其广泛应用的成功经验,同时分析国内海洋科学数据产品现状及存在的问题,并提出发展建议,为我国海洋环境观测数据产品未来的发展提供参考。
作为经过科学质量控制的海洋剖面和海洋生物观测数据集,WOD由国际海洋数据和信息交换委员会(IODE)资助。该数据集主要来源于近350个全球或区域海洋观测资料收集计划,主要数据包括全球海洋学数据抢救计划、全球海洋数据库计划、全球Argo浮标观测计划、世界海洋数据库计划、全球温盐剖面计划、世界海洋环流实验、全球海洋通量联合研究、海洋边界实验等项目观测数据,包含由大面观测站、温盐深剖面仪(conductivity temperature depth,CTD)、机械式温深仪(mechanical bathythermograph,MBT)、投弃式温深仪(expendable bathythermograph,XBT)等11种海洋观测仪器获取的温盐、氧气、pH值、二氧化碳等20多种参数数据。
在数据更新方面,WOD数据集具有稳定的更新频率,按季度在线发布更新收集的新数据,每4年发布经详细排重和质量控制的数据光盘。2018年9月发布了WOD18数据集,目前该数据集包括超过1 570万个测量站点,以及35.6亿条剖面测量数据。WOD18版数据计算了137个标准深度上的数据,比WOD13多了97个标准深度。经梳理对比,截至2021年9月2日,各版本数据量见表1。通过对比可以发现,WOD数据集在不断完善提升观测仪器的数量和数据总量。在质量控制方面,WOD数据集具有严格的质量控制流程,WOD18数据集中每一个数值和每一个观测断面都有相应的质量控制标识与之对应,用于标识数据是否存在问题、是否可用或具有代表性等信息。WOD对于不同海洋要素的质量控制级别不同,用于计算气候态平均的要素(如温度、盐度等)的质量控制级别最高,仅自动化质量控制检测阶段就包括针对31个海洋区域102个标准级别的监测[3]。
表1 WOD18数据量与其他版本对比
在数据开放共享和应用技术方面,WOD由美国国家环境信息中心(NCEI)公开发布,并提供ASCII、netCDF等多种格式。为了进一步方便用户使用,WOD研发了数据格式转换和世界海洋数据库检索系统(WODselect)等工具集,通过用户指定搜索条件查询检索,对数据资源进行抽取,并在NCEI的网站上提供文件传输协议(file transfer protocol,FTP)供用户下载使用,并实现ASCII到多种数据格式的转化。此外,WOD采用数字对象标识符(digital object identifier,DOI)对数据集中的每个站点的仪器、研究人员、研究机构、项目和数据管理员等内容进行详细标识,在保障了数据版权的同时方便数据引用。
WOD数据集具有时空覆盖度高、数据质量控制过程可靠、开放共享应用技术成熟等特点,其发布机构NCEI通过建立完整的业务化海洋环境观测数据更新机制和统一的海洋数据资源开放共享的国家级平台,保障了数据的稳定性和权威性,为研究人员节省了大量数据收集、整合处理的时间。WOD数据集多年来被广泛应用于海洋温盐、生物、化学、海气相互作用等领域的研究。
ICOADS是现存非常完整、综合的海表面气候观测资料,数据最早可追溯至1662年。1981年,作为ICOADS的前身,COADS项目由美国国家海洋和大气管理局(NOAA)和美国国家科学基金委的国家大气研究中心(NCAR)共同合作执行,并于2002年更名为ICOADS。ICOADS的数据分为两类:一类是观测数据,包括船、浮标和其他观测平台的数据,数据要素种类齐全;另一类是2°(1800年至今)和1°(1960年至今)分辨率的月统计格网化数据,也是目前使用比较广泛的数据。ICOADS 3.0版(R3.0)涵盖了1662—2014年的数据,并更新了2014年至今的月度数据和产品,包括气温、云类型、湿度、盐度、海平面压力、海面温度、海表面风、风浪等数据,总数据量为202.75 GB。
随着数百年来测量技术和观测仪器设备的不断更新,ICOADS汇集了不同观测系统的观测结果,并经过严格的质量控制,发布了多个版本数据集,满足不同用户对数据时空范围、分辨率的要求。每个版本的发布都伴随着详细的数据分析报告,报告包含质量控制评估、数据去重情况、各版本数据对比、每个数据要素采样和处理情况、唯一数据标识情况等信息,为用户深入了解该版本数据提供了深入的技术支撑。此外,ICOADS还做了大量的数据修复工作,通过航行记录的数字化,不断发掘原始数据中的新信息,更新提高数据集的时空覆盖度和数据产品质量。
该数据集由NOAA管理,并通过NCEI等多个机构进行免费发布共享,ICOADS核心团队建立了国际合作交流机制,为数据产品制作提供科学建议。2019年该数据集支撑了海洋学和海洋气象学联合技术委员会(JCOMM)第五届海洋气候学讲习班、原位海洋风讲习班,并被广泛应用于海洋环境研究及论文发表,截至2018年3月26日,ICOADS支撑多达1 000余篇学术论文的发表,在再分析和格网化数据产品研制方面被引用40 000余次,涉及十几个研究领域,为科学传播提供了有力服务。
ICOADS通过广泛的合作、严谨的数据管理发布技术流程和遵照原始资料修复数据集的方法,保证了其资料的科学性和完整性。通过多渠道、多平台的开放共享和宣传推广,为数据集在多学科领域应用提供了有效手段。
GTSPP由政府间海洋学委员会(IOC)的IODE和政府间海洋学委员会-世界气象组织(IOC-WMO)的综合全球海洋服务系统(IGOSS)技术委员会共同发起,项目于1989年正式启动,目的是研发一个端对端的海洋温盐数据管理系统,建立一个海洋数据管理系统的典型范式[4]。
在组织机构管理方面,为了进一步提高数据的科学性和可用性,GTSPP当时的数据管理机构——美国国家海洋数据中心(NODC)与斯克里普斯(Scripps)海洋研究所通力合作,建立了“联合环境数据分析(JEDA)”中心项目。该项目的实施,一方面提高了NODC所持有数据的质量,确保分发给其他数据中心或区域数据中心后的数据可使用性;另一方面,帮助NODC产出了一大批有用的数据产品。GTSPP正是沿用了这种科学家团队与数据中心合作的模式——研究机构在数据采集和专业上提供技术支持,数据中心则负责业务化处理、保存和分发数据,才使得GTSPP的数据产品具有高质量数据和完整的文档记录。
在质量控制方法方面,首先是质量控制标签。GTSPP采用两种质量控制标签:第一种针对每一个剖面赋予一个编码,用于说明数据经过了哪些测试检验;第二种用于说明数据的质量,通常用置信度表示。质量控制标签的使用解决了来自不同数据管理机构的版本不统一、质量控制程序不一致的问题。其次是质量控制检验,主要包括格式和逻辑检查过程、数据冗余检验、科学评估等阶段。GTSPP数据冗余检验的标准采用的是热带海洋全球气候(tropical ocean-global atmosphere,TOGA)次表面数据中心的相关研究经验,如每15 min或5 km范围内只采样一个站。科学评估阶段需要有观测数据采集过程和要素特点的先验知识,大致分为5个阶段:剖面的采样ID、位置和时间一致性检验;剖面数据内部的一致性检验,如逆温现象;气候态检验;剖面一致性检验;目视检查等相关内容[5]。
在数据管理方面,GTSPP拥有持续更新管理的数据库(continuously managed database,CMD),面向用户提供及时更新的数据和方便使用的数据格式,CMD中还存储了完备的质量控制标签、元数据信息,让用户免除数据管理的复杂过程,提高数据的复用性。加强对数据处理流程的监控,GTSPP分别通过WMO的全球通信系统(global telecommunication system,GTS)和IODE的数据管理系统实时、延时接收温盐数据并进行处理,同时增加了数据流程管理功能,定期公开数据更新情况,确保世界范围内各数据中心的数据集能最大限度地跟进更新进度[6]。重视用户关于数据的报错,及时向仪器操作人员反馈问题,GTSPP建立了完善的数据反馈机制,有利于及时发现和调整由仪器故障或人为操作导致的数据错误。
Argo是首个全球大洋次表层观测阵列计划,由美、法等国家的海洋学家于1998年发起,通过布放自潜式Argo剖面浮标,组成一个实时和高分辨率的全球海洋观测网,并借助卫星定位和通信系统,实时(24 h)、准确、大范围地获取全球海洋内部的海水温度、盐度剖面资料[7]。Argo计划由34个国家共同参与,各国负责自己国家的经费设置与仪器布放、数据处理及分发工作,每年总费用约4 000万美元,每天收集400条观测资料,每月大概收集12 000条数据资料。
在团队建设方面,NOAA积极倡导鼓励欧洲、南美洲、亚洲国家和澳大利亚参与到Argo国际合作中,在1999年3月召开了国际Argo科学团队(现改名为Argo指导小组)第一次会议,并筹划Argo的具体实施方案,决定将Argo数据无限制地向全球免费公开共享。这一政策的制定决定了Argo后续在国际范围内的广泛应用和专业肯定[8]。
在仪器设备研制技术方面,不断更新迭代,通过提高传感器的稳定性,由最初0~2 000 m深度的海洋测量温度、盐度浮标,不断扩展至测量6 000 m深度温盐属性的浮标,再到目前的测量海洋生物地球化学属性信息的浮标,Argo不断走向深海大洋,测量参数也从单一的温盐属性要素向温度、盐度、压力、氧气、pH、硝酸盐、叶绿素、辐照度等多要素扩展。在浮标使用寿命和恶劣环境耐受程度上,Argo团队也不断改善技术,提高数据质量和覆盖范围。通过改进电池性能,浮标的设计寿命由20世纪初的3~5年延长到2019年的接近7年;采用铱星通信,缩短了通信时间,节省了能量,提高了Argo数据的垂向采集精度;通过改进浮标的冰感知测量算法,降低了在极地无冰期海水测量中的浮标死亡率[9]。
在数据管理处理和开放共享方面,90%以上的剖面数据可以通过GTS和互联网在24 h内更新获得,美国数据汇集中心(Data Assembly Center,DAC)处理了全球Argo一半以上的数据[10],主导制定了数据处理指南和实时质量控制程序,并对国际合作参与成员进行培训。Wong A P S等人[11]建立了供科学研究的延时Argo数据处理系统,Johnson G C等人[12]改进了大部分Argo浮标上部署的美国海鸟科技公司(Sea-Bird Scientific)CTD传感器的响应算法,定量化计算了传感器响应的校正值,这些工作为提高Argo数据质量做出了重要贡献。目前,作为Argo资料的共享发布机构之一,NCEI于2018年6月重新上线了全球Argo数据仓库(GADR),采用专题实时环境分布式数据服务(thematic real-time environmental distributed data services,THREDDS)技术支撑Argo数据、信息和服务的查询和共享,研发了可视化工具以推动科学研究的新发现。
在数据应用方面,作为非常丰富的全球海洋内部资料来源,Argo数据对人们了解海洋生物/化学性质,掌握全球气候变化影响下的海洋季节、年际和年代际尺度变化发挥了重要作用。目前全球大多数海洋预报中心将Argo数据作为全球和区域背景场的海洋次表层参数,且Argo数据具有较高的时效性,被广泛应用于短期、长期的海洋与气候的模式预报与再分析工作,推动了数值模式和模式检验的发展。仅2021年1—8月,将Argo数据应用于科学研究而发表的学术论文就有300余篇。经调研对比,自1998年以来,将Argo数据应用于科学研究的论文数量约为4 900篇,如图1所示。
图1 使用Argo数据的论文发表数量对比
1999年至今,30多个国家布放超过1.6万个浮标,美国位列第一,占比近50%,中国位列第八,占比仅接近3%。通过以上分析可以得出,美国在Argo规则制订、浮标技术、数据管理和质量控制,以及主导Argo国际合作方面均处于绝对优势地位。
AVISO项目采用HY-2A、SARAL/AltiKa、CryoSat-2、OSTM/Jason-2、Jason-1、Topex/Poseidon、Envisat、GFO、ERS-1&2和Geosat等卫星的数据,研制发布卫星高度计数据产品。数据包括海表面高度、风场、浪、示踪物等参数,按照时效性可分为近实时数据和延时数据,近实时数据和延时数据又分为沿轨数据和格网化数据,其中格网化数据又分为两星融合(two-sat merged)数据和多星融合(all-sat merged)数据。2019年增加了Sentinel-3B单任务校正海表面异常数据集(L2P),2020年增加了HY-2C、Jason-CS/Sentinel-6B等任务数据。通过不断融合多源卫星数据产品、保障数据稳定更新,AVISO为深入了解海洋表层、次表层多尺度现象提供了宝贵的大面积长时序高度计资料。
经过30多年的技术更迭和资料积累,AVISO的高度计产品已经演变成一种具有生产力的技术,形成了成熟稳健的数据共享服务应用范式(如图2所示)。法国国家空间研究中心(CNES)研制的星载多普勒雷达和无线电定位组合系统(doppler orbitography and radio-positioning integrated by satellite,DORIS)可以将卫星在轨道上的精确位置控制在厘米范围内。此外,研发的多任务地面部分(SSALTO)和多任务地面部分高度计数据处理系统(SSALTO/Duacs)分别用于处理单卫星和多卫星数据。Duacs技术的主要特点是能够处理多卫星来源的异质数据、近实时的响应效率和全天候的高效运作。
图2 AVISO数据共享服务应用技术框架
从传统的地质、大洋环流应用到固体地球和沿岸、海洋变化、冰地形和水文等应用,AVISO已为全球1 000多个实践团队提供了高品质的数据产品。按照学科领域划分,数据支撑地球物理、海洋、冰川、气候、大气、水文、海岸和生物等领域研究。以海洋应用为例,数据产品可以服务于多尺度的海洋环流、潮汐、海平面上升、温室气体效应、应用海洋学等专题研究。
2001年,我国启动“科学数据共享工程”,首批在地球系统科学、海洋、气象等9个领域开展数据共享试点。近年来,我国印发了《国家科技资源共享服务平台管理办法》(国科 发基〔2018〕48号)、《科学数据管理办法》(国办发〔2018〕17号)、《科技计划项目科学数据汇交工作方案(试行)》(国科办基〔2019〕104号)等一系列政策文件,逐步完善和规范科学数据共享服务体制机制,明确管理职责及运行服务要求,推动科学数据资源开放共享。2019年,科学技术部、财政部在原有科学数据国家平台的基础上调整形成20个国家科学数据中心,并将其作为国家科技创新基地的重要组成部分。
我国初步形成以政府科技部门为主导、主管科技部门分制、责任部门承担、科学数据中心实施的总体管理架构,但从国家体制机制到各级地方科技计划管理部门和各行业领域的相关政策机制的制定与建立健全仍需一定的时间。相比于海洋科技强国早在20世纪90年代就着力构建数据开放共享的体制机制而言[13],我国数据开放共享起步较晚,尚未建立与数据共享相关的法律法规,海洋领域缺少专门的组织机构协调、监督海洋数据资源的开放共享。考虑到海洋数据敏感性问题,如何在保障数据安全的前提下,形成针对海洋数据开放共享的可操作文件仍是一项重要议题。
国家海洋信息中心建设运行的国家海洋科学数据中心搭建了国家海洋科学数据共享服务平台,提供多元化海洋数据的开放共享服务;另外,建设运行了全球海洋和海洋气候资料中心中国中心(CMOC/China)、西太平洋海洋数据共享服务系统(ODINWestPac)、中国大洋资料中心,面向全球和海上丝绸之路沿线国家免费提供海洋环境数据的共享服务和专题服务。中国极地研究中心建设运行的国家极地科学数据中心面向极地科学领域,开展各类海洋数据的汇集管理与按需共享。此外,中国科学院建设运行的国家地球系统科学数据中心、中国科学院数据云、海洋科学大数据中心、南海海洋数据中心等,面向不同海域的观测要素,不定期更新、共享海洋环境观测数据。沿海省市涉海科技部门也汇集了一些观测资料,不定期公开发布[14]。
我国海洋环境观测数据开放共享平台众多、数据散乱分布、数据形式多样,没有形成统一的行业标准,数据跨平台共享存在壁垒,共享形式单一。相较于欧洲海洋观测与数据网(EMODNET)、美国NCEI、英国海洋数据中心(BODC)、澳大利亚海洋数据网络(AODN)等海洋数据平台,我国海洋数据的共享服务总体上没有形成合力,在为国家重大工程建设、科学研究和技术创新等提供支撑方面,尚未完全释放数据红利。
在自主化海洋环境数据产品研制方面,中国科学院大气物理研究所研发了海洋数据处理和质量控制系统,研制形成国内首套长时间序列全球海洋环境变化系列数据产品,该数据产品在《气候变化中的海洋和冰冻圈特别报告》《气候状态报告》等具有国际影响力的综合报告中被使用,具有较好的数据产品质量和国际影响力。国家海洋科学数据中心研制发布了潮汐潮流预报数据产品和温盐统计分析数据集,近年来产品在时空覆盖和数据产品检验方面均有较大提升,但数据应用范围、国际影响力有待扩大。
目前应用较广泛的海洋科学数据产品均具有长时序、严质控、持续更新且更新频率高等特点,我国过去形成的科技计划项目成果多存在于科学家手中,数据散落在各涉海单位、企业和高校,导致海洋数据产品共享应用不足、发布分散,难以更新迭代,没有形成产品谱系。各类环境要素来源广泛,质量控制标准不统一,关键技术在业务化工作中尚未得到充分应用,质量控制多处于格式检验、一致性检验、异常值剔除等基本步骤且缺乏与国际同类产品质量控制过程的对比。自主化数据产品较少,难以支撑原创性成果应用发表,影响重大科技创新成果产出。
通过分析国外典型海洋环境数据在体制机制、质量控制与更新服务、基础设施能力建设、新技术应用、产品研发和开放共享等方面的成功模式和经验,结合我国目前阻碍海洋环境观测数据产品“走出去”“用起来”在统筹协调布局、统一应用服务出口、自主化关键技术研发等方面存在的问题,提出以下发展建议。
面向国内,建立健全海洋科学数据开放共享相关政策体系,明确不同等级数据的开放共享边界,同时吸纳美国等国家在跨部门协调中建立高层协调机制[15]等相关经验,建立统筹协调机制,加强政策落实的监督管理力度,协调推进海洋科学数据共享体系发展,为数据广泛应用提供政策环境。面向国际,以牵头组织国际合作项目为契机,多方联合海洋科技强国,建立项目工作组,规范工作组管理,建立年会、报告机制,推动制定国际标准和技术规范,逐步增强我国海洋数据共享的国际话语权。
建立国家级海洋资源共享应用平台,面向国家战略、科学研究、社会公众等不同应用需求,全面汇集各涉海部门、企业、个人的海洋数据资源,充分利用云计算、大数据、人工智能、区块链等新一代信息技术,提供一站式搜索、数据溯源、数据下载上传、处理分析、数据认证等功能,借助跨平台共享和可视化技术,简化数据申请流程、提高数据获取传输安全性,提供多元化应用服务。
采用“研究机构/科学家团队+数据中心/涉海单位”的“技术攻关+业务化应用”模式,研究机构/科学家团队负责数据采集、质量控制和关键产品研制的关键技术攻关,数据中心/涉海单位负责业务化处理、保存和分发数据产品,合力构建自主化产品研制关键核心技术体系,加大针对数据业务化更新迭代的运行维护资金投入,加强宣传推广和验证对比应用,打造国际品牌产品体系。
海洋科学数据资源作为重要的战略储备力量,数据内容、质量及所覆盖的时空范围是决定数据应用纵深发展的关键因素,而海洋环境观测数据作为数据获取的第一手资料,在整个科学数据生命周期中具有重要作用。本文深入分析了国外典型成熟的海洋环境观测数据产品,通过研究其数据内容、更新情况、质量控制、管理应用和开放共享等现状,挖掘分析其特点、模式和经验,对比分析我国研究现状及存在的问题,并针对问题从数据共享机制、平台搭建、数据研制等方面提出提升我国海洋科学数据产品的应用服务能力的建议。
随着各国越来越重视海洋科学数据作为生产要素在支撑国家海洋安全、权益维护、经济发展等方面发挥的重要作用,数据存储管理、挖掘分析与开放共享服务将向着国际化、自主化、精准化方向发展,瞄准全球海洋科技发展前沿,打造一流的海洋科学数据产品谱系。