宋丽丽,曹盛文,符昱,姜晓轶
(1.自然资源部海洋信息技术创新中心,天津 300171;2.国家海洋信息中心,天津 300171)
海洋科学自兴起以来,不断在基础理论和研究方法等方面取得发展和突破,特别是遥感、网络通信、云计算、大数据、物联网等技术的快速发展,进一步推动了各分支学科的相互渗透和深度融合。全方位、立体化、实时化的观测探测使海洋数据总量达到EB 级别,日增量甚至达到TB级[1],海洋进入了大数据时代。海洋数据不仅具有大数据的海量(Volume)、快速(Velocity)、多样(Variety)的“3V”典型特征,同时具有多源、多维、多尺度、异构和异质等特点。海洋数据作为国家重要的战略资源,蕴含着丰富的信息,在全球变化、海上安全保障、海洋资源开发利用与保护等方面具有重要作用。美国、英国、日本等海洋发达国家高度重视海洋数据共享,持续推动海洋数据的共享应用服务,释放海洋数据的经济和社会价值。近年来,我国海洋事业蓬勃发展,海洋信息基础设施不断完善,海洋数据资料体系已初具规模,数据资料的整合、处理与共享服务能力明显提升,为支撑海洋强国建设打下了坚实基础。
本文首先介绍了海洋数据的组成,详细梳理了国内外海洋数据共享领域政策法规、数据中心及共享平台等方面的发展现状,并针对我国正在构建的海洋数据共享服务平台建设实践与应用成效进行了重点论述,最后提出了海洋数据共享面临的问题和解决思路。
一般地讲,狭义的海洋数据主要指海洋自然属性数据,即海洋水文、气象等海洋环境数据。随着海洋科学的不断深化融合,海洋数据已从传统的海洋自然属性数据扩展到人类在海洋和海岛海岸带上开展的活动数据、管理数据的总和,要素类型越来越多,内容越来越广泛,其分类和组成也比较复杂。本文认为,海洋数据主要由海洋环境数据和海洋活动数据两大类构成,在此基础上分别按照学科和业务类型的不同进一步划分。
海洋环境数据按学科可划分为海洋水文、海洋气象、海洋生物、海洋化学、海洋声学、海洋光学、海洋地质、海洋地球物理、海洋地形地貌九大学科数据。海洋水文数据主要包括海洋的温度、盐度、密度、海流、波浪等基本环境信息,以及涡旋、内波、锋面、跃层等现象或特征信息。海洋气象数据主要包括海表气温、气压、湿度、风场、降水、能见度、太阳辐射等信息。海洋生物数据主要包括海洋微生物、动物数据、叶绿素、初级生产力等相关信息。海洋化学数据主要包括海洋水体、大气、沉积环境中等所涉及的化学数据。海洋声学数据主要包括声能传播、环境噪声、声速剖面和底质声学特性数据等。海洋光学数据主要包括固有光学、大气光学和表观光学数据等。海洋地质数据主要包括沉积物、矿物、工程物理和工程力学数据等。海洋地球物理数据主要包括海洋重力、磁力和海底地震数据等。海洋地形地貌数据包括多波束测深、单波束测深和侧扫声呐数据等。
海洋活动数据按业务类型可以划分为海域管理、海岛管理、海洋经济、海洋防灾减灾、海洋权益、海洋环保等几大类。海域管理数据主要包括用海现状、海上构筑物、海域界线、功能区划等数据。海岛管理数据主要包括海岛地名、基础地理、基础环境、岸线以及开放利用等数据。海洋经济数据包括涉海企业名录、经济调查和统计核算等数据。海洋防灾减灾数据包括海平面变化预测与评估、海平面影响调查和评价、基准和警戒潮位核定、潮汐潮流预报等数据。海洋权益数据主要包括领海基点、基线、外界线、周边国家主张等基础地理数据以及海上执法、权益维护事件等数据。海洋环保数据主要包括生态红线、入海污染物、红树林、海草床等数据。
目前,我国建立了统一汇集、集中管理的海洋数据资源管理机制,海洋数据资源时间范围最早可追溯到1662 年,空间范围覆盖全球海域,数据获取渠道主要包括业务化观监测、专项调查、国际交换与合作、大洋科考、极地考察等,基本建立了较为完善的海洋数据资源分类分层、分级分区管理体系[2]。
发达国家的数据共享起步较早,经过多年的发展,已在政策法规、管理机制、数据汇集、产品研制、支撑平台和保障措施等方面形成了较为完备的体系。数据管理和开放共享逐渐成为一种学术要求和学术态势,成为国家政府部门、国际组织和科研机构等关注的热点问题。数据的管理与应用服务水平已成为衡量国家科技水平和综合国力的重要标志。
欧美等发达国家针对科学数据管理和共享出台了系列政策、法规和指南,旨在通过科学数据推动本国或本地区的科技进步[3]。美国国家层面的数据政策从早期的《信息自由法》《全球变化研究数据管理政策》到2002 年的《电子政务法》、2007 年的《近岸和海洋综合观测系统法案》、2009 年的《开放政府指令》、2016 年的《联邦大数据研发战略计划》,再到2019 年的《联邦数据战略与2020年行动计划》,形成了完整的法律和政策框架体系,为科学数据管理确定了宏观框架和方向。此外,美国国家科学基金会(National Science Foundation,NSF)、国家海洋与大气管理局(National Oceanic and Atmospheric Administration, NOAA)等科研机构在上述框架下制定了涉海相关的科学数据管理和共享政策。欧盟方面,2010 年制定“海洋知识2020”战略,目标是促进欧洲海洋数据开放共享[4];2011 年发布《开放数据战略》,科学数据开放是其重要内容之一;2016 年制定的《2020 计划框架下的FAIR 数据管理指南》提出了科学数据管理的FAIR 原则,即可查找、可获取、互操作和可重用;2020 年《欧洲数据战略》发布,提出了数据利用等领域的立法框架。英国对开放科学以及科学数据管理较为重视,2012 年发布的《科学是开放的事业》中建议,科学家应开放科研数据,支持建立有利于数据开放的管理和评价机制,同年发布的《开放数据白皮书》以及2020 年发布的《国家数据战略》成为国家层面指导性文件;2011 年英国研究理事会(Research Councils United Kingdom,RCUK)发布《数据政策通用原则》、2016 年推出《开放科研数据协议》,为科研数据政策制定提供了框架[5];其中,2004 年的《环境信息法规》明确提出了在海洋信息共享方面的要求。法国、德国、日本、韩国等国家就数据和信息开放也出台了相应的政策法规。
美国、英国、日本等国家大多成立了专门机构,负责组织协调海洋数据汇集处理、整合集成和开放共享工作。几乎所有的数据中心和数据组织均通过建立共享平台,按类型、要素、手段和区域开展各类数据资源的访问下载,提高数据共享服务水平。NOAA 将国家气候数据中心(National Climate Data Center,NCDC)、国家地球物理数据中心(National Geophysical Data Center,NGDC) 和 国 家 海 洋 数 据 中 心 (National Oceanographic Data Center,NODC)合并为国家环境信息中心(National Centers for Environmental Information,NCEI),负责托管和提供全面的海洋、大气和地球物理数据,其中每月从130 多个观测平台存档超过229 TB 的数据,通过门户网站实现约37 PB 的存档和备份数据以及超过26 000个数据集和产品的管理和共享。英国海洋数据中心(British Oceanographic Data Centre,BODC)作为英国国家海洋学中心(National Oceanography Centre,NOC)的一部分,负责管理和分发超过130 000 个与海洋环境相关的数据集,通过其门户网站可检索上述数据信息,同时也提供元数据模板鼓励数据提交。日本海岸警卫队水文部门设立日本海洋数据中心(Japan Oceanographic Data Center,JODC),负责收集和管理日本各政府组织、大学和其他海洋研究机构观测到的海洋数据,通过海洋数据在线服务系统J-DOSS将其管理的包括观测数据和统计产品在内的国内外各海洋研究所获得的海洋数据及相关信息在互联网上开放共享。此外,国外的重大海洋项目也大多构建了专门的平台推动数据共享服务,如加拿大海洋数据共享服务平台负责其海底观测网络的数据共享服务,欧盟的MyOcean 计划通过建设的6 个专题数据中心,提供海表温度、海面高、水色、海冰、风场等观测资料的收集、处理和分发共享。这些数据共享平台均已进入业务化运行阶段,能够提供长期、稳定、持续的数据共享服务。
国际海洋组织也纷纷成立相关计划促进全球范围内海洋数据和信息的发现、交换和获取。联合国教科文组织“政府间海洋学委员会”(Intergovernmental Oceanographic Commission,IOC)成立国际海洋学数据和信息交换委员会(International Oceanographic Data and Information Exchange,IODE),将成员国的研究机构、国家海洋数据中心、世界数据中心-海洋中心等收集的百万次海洋观测资料进行存档管理并在成员国范围内共享。WMO/IOC 海洋学和海洋气象联合技术委员会(The Joint WMO/IOC Technical Commission for Oceanography and Marine Meteorology,JCOMM)于2012 年实施了全球海洋与海洋气候资料中心(Center for Marine-meteorological and Oceanographic Climate Data,CMOC)建设计划,整合集成全球海洋和气象资料及信息产品,并在合作框架下实现数据处理、管理和交换。
进入21 世纪以来,我国从国家和行业层面相继出台了一系列与科学数据共享相关的法规和管理办法(表1)。2015 年国务院发布《促进大数据发展行动纲要》明确要求“积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据逐步开放共享”,以实现对国家重要科技数据的权威汇集、长期保存、集成管理和全面共享。随后,十八届五中全会提出“实施国家大数据战略”。2018 年国务院办公厅发布的《科学数据管理办法》是我国首个在国家层面出台的关于科学数据的管理办法。十九届四中全会上,数据作为生产要素之一被正式纳入国家所定义的要素市场化配置中,按照贡献参与分配。2020 年,科技部发文《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》中指出,要注重科学数据等标志性成果的质量、贡献和影响。2021 年9 月,《数据安全法》正式实施,与已实施的《网络安全法》《密码法》及同时实施的《个人信息法》共同构成了中国数据安全的法律保障体系。海洋领域层面,《海洋资料使用申请审批管理暂行办法》《海洋资料汇交管理暂行办法》《海洋观测资料管理办法》相继发布实施,详细规定了海洋观测资料的汇交、管理及共享。自此,我国海洋领域已初步形成国家统筹与行业联动的数据政策体系。
近几年,随着我国综合国力的不断提高,社会各方对海洋数据的共享需求愈发强烈,海洋主管部门、科技主管部门、涉海科研院所和高校,正逐步加大海洋数据共享范围,呈现“多点开花”的局面。在科技部的支持下,2019 年国家海洋信息中心牵头组织建设了国家海洋科学数据中心,截至2022 年底已研制发布海洋实测数据、分析预报数据和专题信息产品等共695 个数据集、302 万条元数据,总量达10 亿站次,年均提供在线数据服务1 000 余万次。中国科学院海洋研究所海洋大数据中心上线发布了400 余套数据集和10 余项海洋大数据与人工智能应用产品,面向海洋领域用户提供数据资源管理与共享、交互式数据分析、辅助决策等服务。自然资源部第二海洋研究所和浙江大学共建的海洋遥感在线分析平台SatCO2 已面向多学科科研人员免费分发与海洋生态及碳循环相关的近20 年中国邻近海域、西太-印度洋区域及全球的卫星及模式数据集产品,促进海洋遥感数据的共享和多学科应用。中国科学院南海海洋研究所研发了南海海洋科学数据共享服务平台,整合共享了1985 年以来南海及邻近海区的水文、气象、生态、地质等数据,已为粤港澳大湾区等国家重大战略和多项重大项目提供数据支撑[6]。国家卫星海洋应用中心研制的中国海洋卫星数据服务系统主要提供高分和海洋系列卫星获取的数据及产品的分发共享,面向海洋、环保、减灾、交通、农业、气象等多个行业用户分发数据67万多景。
海洋数据资料种类繁多,数据量大,但是由于尚未建立海洋数据分类分级标准,很大一部分数据尚未实现开放共享[2],使得涉海单位、科研院所和企业很难在实际科研和业务中充分利用现有数据。对于非公开数据,如何在数据不被下载的情况下供用户使用,成为海洋数据共享服务需要解决的关键问题之一。
作为国家海洋科学数据中心面向专网用户提供共享服务的平台,海洋数据共享服务平台在充分整合现有海洋数据资源的基础上,构建海洋数据管理体系(图1),利用云计算、虚拟化等技术,实现数据集中汇集管理,建成集数据查询检索、可视化展示、实时分发、在线使用、自由下载、接口服务于一体的数据共享服务系统和数据管理、信息审批、用户管理、统计报表于一体的后台管理系统,以及供用户在线使用数据的云桌面管理系统。旨在以“数据商城+虚拟终端”模式通过海洋信息通信专网为国家部委、沿海省市、科研院所、高校等各类用户提供按需定制、实时分发、协同共享的海洋数据共享服务,为推动海洋数据在线共享提供切实可行的解决方案,提高海洋数据利用率和服务效能。
图1 平台总体框架图
海洋数据共享服务平台主要包括专项调查、业务化观测监测、国际合作与交换等海洋环境数据,以及基础地理与遥感数据产品、分析预报产品、图集报告和服务资源接口等。采用数据库和文件实体相结合的混合存储方式,针对不同类型数据的特点,主要采用三种不同的方式对数据进行存储管理:一是对如国内专项和国际合作与交换数据,采用航次-站位方式;二是对如业务化观测数据,采用手段(海洋站、浮标、雷达、GNSS等)-清单方式;三是对如业务化监测以及分析预报、基础地理与遥感、图集报告等产品级数据,采用纯清单的方式。三种方式决定了数据下载使用的不同,同时按照数据粒度定义公开、内部安全指标,用于控制数据的访问级别(表2)。
表2 不同类型的数据存储方式
如图2 所示,平台提供数据检索、数据收藏、订单提交、在线使用、数据下载等一站式数据服务,数据申请的流程类似于“网上购物”,平台中所有的数据均作为“商品”进行展示,用户可以将感兴趣的数据加入“购物车”(即收藏夹),当确定需要某些数据时,在“购物车”里进行下单“购买”(在线使用或下载)。当然,数据订单的提交会涉及相应申请审批表的填写,便于审批管理系统审核,替代了以往相关数据使用申请证明的邮寄方式,减少了中间过程,大大节省了审批时间。
图2 一站式数据服务示意图
在线数据共享服务系统使用虚拟云桌面终端作为桥梁为用户搭建数据使用平台。云桌面与普通的PC 机类似,但不支持用户将数据拷贝到本地,从而防止数据非法外传,从而达到保密的目的。用户在使用云桌面的过程中,会涉及数据的导入导出,即用户生成的成果如何导出到本地以及用户个人的资料如何上传到云桌面。包括数据使用申请、成果导出功能等所有用户申请操作都在门户服务系统中进行。
4.2.1 数据检索
在保证数据可靠性和安全性的前提下,依据每一类海洋数据的特点,提供与之对应的数据查询检索条件(区域、学科、专业、要素、行业、应用领域、管理主题),实现数据和产品的查询检索功能。用户能查询到数据结果与给其分配的权限有关。查询方式包括任意条件查询、模糊匹配查询以及空间查询。
4.2.2 数据订单
数据订单功能为用户提供对内部数据、成果数据在线使用和对公开数据进行下载的申请审批服务,实现对申请审批订单的管理。用户对收藏夹里的数据进行提交,对感兴趣的数据申请在线使用或下载,从而转到数据订单模块。数据订单模块可以查看用户当前所提交订单的状态以及订单的详情,包括查看每个订单下的各种数据的详细信息,订单是否处理,数据是否通过,以及数据使用的截止时间等,也可以取消已提交且尚未处理的订单。
4.2.3 云桌面
云桌面是在线数据使用的虚拟终端,采用虚拟化安全策略,为用户提供虚拟工作环境访问入口,防止非法用户连接访问;禁止本地与虚拟工作环境之间的数据交互,防止了数据的非法外传。每个用户最多只能有一个可用的云桌面。用户可以申请对云桌面的使用,包括提出对云桌面的软硬件需求。如果用户存在未处理的申请,则不允许再次申请;如果用户存在通过且未回收,并且还未撤销的记录,也不允许再次申请。
用户可以查看当前云桌面的状态,包括申请时间、审批状态等。如果当前云桌面的硬件无法满足需求或者不再使用云桌面,用户可以撤销当前可用的云桌面。只有当前可用的云桌面才允许用户撤销,如果该云桌面撤销后,管理员暂未回收,则显示“已撤销”。用户撤销后的云桌面由审批管理系统回收处理。
4.2.4 成果导出
该模块是用于将用户在云桌面中的成果导出到本地。用户在云桌面中产生的成果,需要通过传输客户端上传到中间机中,审批通过后,可以在Web 系统中查看当前的成果导出申请,如果申请通过,则可以点击链接进行下载。“上传”和“下载”是需要用户触发的动作。
当前用户可以对所申请的成果进行查询,查看当前成果的审批状态。如果当前的申请审批通过,则会出现数据的“下载链接”,点击即可下载(图3)。
图3 成果导出数据流示意图
4.2.5 共享服务
依据数据的特点和密级程度,分别提供在线下载、在线计算使用、点对点共享、接口调用以及可视化展示等服务方式。
(1)在线下载
对于公开类的数据,用户提交订单后无须审批即可直接下载到本地。对于非公开数据,用户需要填写数据使用申请并提交订单,待审核通过后即可下载到本地。
(2)在线计算使用
对于非公开且不允许下载到本地的数据,用户提交的数据订单审批通过后即可在所申请的云桌面账号中使用,产生的产品等成果可申请导出到本地。云桌面为用户提供在线计算环境,且限制了用户本地与虚拟工作环境之间的数据交互,在一定程度上缓解了数据共享与数据保密的矛盾。
如图4 所示,虚拟登录后的界面与普通的PC机操作系统无异,通过访问云桌面系统将用户申请在线使用的数据下载到云桌面中使用;用户在云桌面中产生的成果上传,再通过Web 系统中的“成果导出”功能下载到用户本地;“用户文件导入”是将用户通过Web 系统中的“资料上传”功能上传的个人文件资料下载到云桌面中。
图4 云桌面登录(左)和云桌面系统界面(右)
(3)点对点共享
针对特定数据,为有特殊需求的用户提供直接点对点数据和信息产品的分发共享服务,比如定期资料分发等业务化工作,用户不需要查询、收藏和提交订单等系列流程,管理员会定期分发资料,用户即可看到所需的数据,提升数据共享效率。
(4)接口调用
对于基础地理、遥感影像、实时观测等数据,采用Web Service、SOAP、REST 等接口服务技术,将数据服务进行分类封装,实现应用业务信息的实时共享。研发空间信息可视化、数据库、文件、业务信息、专题图层等服务调用接口,通过调用上述服务接口,快速构建满足各类用户需求的综合展示应用服务。
(5)可视化展示
通过虚拟现实、可视分析等技术,对海洋环境要素和典型海洋现象进行可视化表达分析,基于地图服务实现各类数据的“一张图”表达,直观展示海洋数据的特征,方便用户了解数据情况,从而进一步挖掘海洋物理过程规律,为用户科学研究、海洋工程等提供技术支撑(图5)。
图5 某个航次的站位(左)和某实况分析数据地转流要素可视化(右)
海洋数据共享服务平台面向海洋信息通信网的400 余个节点用户,提供一站式海洋数据在线共享服务,已面向沿海11 个省(自治区、直辖市)业务化实时分发共享全国海洋观测数据,每分钟推送1 次,按季度向三个海区提供经过质量反馈后的海洋环境观测数据以及海岸带遥感资料,满足海洋预警监测和应急服务保障等需求(图6)。整个数据服务简化了以往纸质提交数据使用申请的流程,方便了用户使用。在此基础上逐步扩展应用到海洋信息通信专网以外的涉海部委、科研院所、高校及军方用户。
图6 海洋数据共享服务平台界面
本文系统梳理了国内外海洋领域数据共享现状、关键技术和实践进展,立足于海洋数据资源的应用服务需求,实现了一站式海洋数据在线共享服务,提出“海洋数据商城”模式,通过类似网上购物的方式提供数据在线使用和下载功能,采用虚拟终端的方式为用户搭建数据共享使用平台,初步解决了数据保密与数据共享之间的矛盾。
但是与欧美等国外发达国家相比,我国的海洋数据共享水平整体偏低,仍存在以下几方面不足:一是缺少翔实完整的海洋数据分类分级标准,导致难以界定何种数据在何种范围内可共享;二是数据共享的约束和激励机制不完善,数据管理单位或项目单位不愿意共享数据,认为数据共享是项目负担,不产生效益,高水平技术人员也不愿承担数据共享工作,认为没有技术含量,难以体现价值;三是数据共享技术研发不够深入,建设的平台或系统基本上以下载数据、展示数据为主,服务手段有限,只能浏览数据清单或元数据,真正使用数据还需要额外申请,走线下审批,难以留住用户;四是数据产品不丰富、规范性不强、应用价值不高,难以满足科学研究和工程应用等需求。
随着物联网、卫星遥感、人工智能等技术的发展,海洋领域观监测体系逐渐趋于完善,积累的大量数据对开放共享提出了迫切需求。为持续推动海洋数据开放共享,本文提出以下几点思考和建议:
(1)落实由国家主管部门负责的海洋数据管理体系与职责。在《数据安全法》《网络安全法》等法律基础上制定出台细化可行的管理制度或办法,覆盖海洋领域各类数据的全生命周期,用于指导数据管理和共享工作。尽快出台海洋数据分类分级制度,以“共享为常态,不共享为例外”为原则,加大互联网开放共享力度。加强各级主管部门对数据共享的重视程度,通过一定的激励机制鼓励数据汇交共享,提高数据共享意识。
(2)加强新技术新方法在数据管理与共享领域的应用。发展大数据、云计算、人工智能、区块链等新一代技术,集成多来源、多类型数据集和跨领域数据,开展海洋数据挖掘分析,研制长时序、全要素、多维度、多学科交叉的海洋融合分析产品,研发统一的、通用的、具有自主知识产权的工具/软件/平台,从以单一的数据集为主的服务模式向提供定制化产品和在线计算分析工具方向转变,最终实现“数据即服务”。
(3)传播和推广数据共享理念。数据共享的模式包括数据汇交、数据出版、数据联盟、服务激励等[7],海洋数据在传统共享方式的基础上,应在加强科技计划项目汇交主动性和规范性、探索数据有偿服务模式、提高数据提供者的积极性等方面进一步创新。明确数据资源的权属、利益分配、伦理等问题,推动保护数据知识产权、突破传统数据共享的法律和技术壁垒[8-9],推动数据标识、出版与评价,从而提高海洋数据整体共享效率和水平。
(4)强化数据安全治理。《网络安全法》《数据安全法》的颁布将数据安全治理提升至法律高度。数据安全治理是以“让数据使用更安全”为目的,易于落地的数据安全建设的体系化方法论[10]。目前海洋领域中对数据类型划分和限制共享数据识别的规定过于宽泛,缺乏分级分类评估标准和监管机构;数据管理多以信息系统为中心,没有上升到数据安全治理层面,缺乏针对数据生命周期各场景的安全保护,不能很好地满足科学数据管理与共享服务的需要。因此需要加大海洋数据安全治理力度,梳理数据业务属性,制定数据安全策略,以数据的分级分类为核心,从人员组织、策略规范、技术支撑三方面建立以数据为中心的安全架构体系[11],从而提升海洋数据的安全水平。