钱程程 陈 戈
1 国家海洋局北海预报中心 青岛 266061 2 中国海洋大学 信息科学与工程学院 青岛 266000 3 青岛海洋科学与技术国家实验室 区域海洋动力学与数值模拟功能实验室 青岛 266000
现代海洋科学的发展古往今来经历了 3 个阶段:①理论牵引阶段。该阶段的许多重大理论圆满地解释了海洋中的物理现象,长足推进了人们对海洋的认识。虽然该阶段缺少观测资料,但是发展的理论基本都具有里程碑的意义。② 观测牵引阶段。该阶段各类观测手段逐渐发展起来,主要包括海洋调查船、浮标、潜水器、遥感以及 Argo 监测网等。③数据牵引阶段。随着观测技术手段的不断丰富,也带来了数据量的不断攀升,海洋科学迎来了第三阶段。从 2008 年开始,Nature、Science、Economist 等杂志及 Computing Community Consortium(计算社区联盟)等组织将“大数据”引入到各个领域[1-6]。“大数据”被定义为数据量增长速度快,用常规的数据工具无法在一定时间内进行采集、处理、存储和计算的数据集合,拥有数据量大(volume)、类型繁多(variety)、价值密度低(value)、速度快时效高(velocity)和在线式(online)五大特征[7,8]。由于海洋数据的数据来源广泛、种类繁多,数据量已增至 PB 量级,时间分辨率跨越不同尺度,同时需要及时处理分析用于各类决策支撑,因此海洋数据已然成为“大数据”的典范。
但是海洋大数据的独特性质,使得传统的理论基础、技术手段已逐渐暴露其弊端。海洋大数据有两个区别于其他数据的典型特征——时空耦合和地理关联。
(1)时空耦合。海洋大数据为同时拥有时间与空间属性的数据,即多维度数据。尤其随着观测技术的进一步发展,数据维度的采集分辨率与频率都越来越高。因此,数据分析过程需要同时从时间轴和空间轴两个维度进行分析,而在时间轴和空间轴上分析的因素又是多样的、高维的,这给大数据的分析带来了更大的挑战[9]①Spatiotemporal database. [2018-07-20]. http://en.wikipedia.org/wiki/Spatiaotemporal_data base.。
(2)地理关联。海洋大数据不同于其他大数据的随机性与偶然性,由于其地理属性有着近邻效应,相邻区域空间位置关系存在线性或非线性的关联,从而组成了不同时空尺度的模态特征。
因此,在海洋大数据科学的发展过程中存在着诸多挑战。本文将从海洋大数据上、中、下游全链条论述海洋大数据科学的发展现状,并在此基础上提出未来 5—10年海洋大数据科学发展的主要方向和关键技术。
海洋大数据的获取手段主要得益于海洋观测技术的发展。目前海洋观测呈现出多元化、立体化、实时化的特征。从早期利用海洋调查船到浮标、潜水器、遥感的使用,再到海洋观测网 Argo 等的实现,无一不展现了人类不断探索海洋的决心与智慧。
(1)海洋调查船。这是一类专门从事海洋科学调查研究的船只,是搭载海洋仪器设备直接观测海洋、采集样品和研究海洋的工具。海洋调查船按其调查任务可分为综合调查船、专业调查船以及特种调查船[10]。从世界上第一艘海洋调查船——“挑战者”号开始,已有 100 多年的历史。中国第一艘海洋调查船——“金星”号始于 1956 年,目前中国已有共近 50 艘海洋调查船。目前,全球超过 40 个国家拥有海洋科考船,总数量超过 500 艘。
(2)海洋浮标。这是一类用于承载各类探测海洋和大气传感器的海上平台,是海洋立体监测系统的重要组成部分[10]。根据浮标在海上所处位置不同,可分为锚定浮标、潜标、漂流浮标等。海洋锚定浮标最早出现于二战期间;20 世纪 70 年代后期,随着计算机技术和卫星通信技术在浮标应用中的出现,使得浮标技术发展进入了飞跃期。海洋浮标在中国的开发研制始于 20 世纪 60 年代中期,90 年代开始正式投入使用。目前,中国已经进入了海洋浮标监测的大国俱乐部[11]。
(3)潜水器。又称为深潜器,是一种自带推动力的海洋考察设备——既能在水面行驶,又能在水下独立开展工作[10]。1554 年意大利人塔尔奇利亚发明的木质球形潜水器,对后来潜水器的研制产生了巨大影响。1717 年英国人哈雷设计了第一个有实用价值的潜水器,此后直到 20 世纪 60 年代②AUV. [2018-07-20]. https://en.wikipedia.org/wiki/Autonomous_underwater_vehicle.,人类对潜水器的研制主要致力于下潜深度的突破。“蛟龙”号是中国自行设计、自主集成研制的深海载人潜水器,目前以下潜深度 7 062 m,成为世界上下潜能力最深的作业型载人潜水器③国家深海基地管理中心. [2018-07-20]. http://www.ndsc.org.cn/.。
(4)海洋遥感。该方法是利用传感器对海洋进行远距离非接触观测,以获取海洋景观和海洋要素的图像或数据资料;其发展历程大致可分为起步期(1939—1969 年)、试验期(1970—1977 年)、研究期(1978—1991 年)、应用期(1992 年至今)[12]。20 世纪 90 年代,遥感卫星开始大量发射;截至 2012 年底,在轨卫星数量为 115 颗,涉及超过 30 个空间机构[13,14]。预测到 2030 年还会再有 156 颗卫星发射,届时总数将达到 271 颗。
(5)海洋观测网络。美国的 Seaweb 是世界上最早部署和应用的海洋观测网络;Argo 计划则是由美国海洋科学家于 1998 年倡导发起的一个监测全球海洋的大型网络,全世界几十个国家参与其中。截至 2018 年 7 月,布放在全球海洋中仍处于工作状态的 Argo 剖面浮标已达 3 762 个④Argo. [2018-07-20]. http://www.argo.ucsd.edu/.。未来,Argo 剖面浮标将增加到近 4 000 个;在维持现有 Argo 观测内容的基础上,新的 Argo 浮标观测范围将扩大到海面 2 000 m 以下甚至海底,同时携带安装生物、地球、化学等新型传感器。
在海洋大数据的获取方面,虽然已实现了基于空基-天基-地基-海基的多元立体实时化发展,但是亟待突破深海、极端环境和高分辨率的大数据获取技术及平台的发展脉络,同时如何基于空间数据的时空耦合与地理关联特性,面向空间研究对象合理布设、高效利用观测手段成为数据获取阶段的挑战。
海洋大数据从上游获取后,在中游主要涉及存储管理、挖掘及表达可视化等分析技术。
(1)海洋大数据存储管理。世界各主要海洋国家均有负责数据处理和管理的海洋数据中心。美国国家航空航天局(NASA)的地球观测中心建立了地球观测系统数据和信息系统,存储和管理全部数据,采用的是分布式开放的系统架构[15];欧洲航天局(ESA)也建立了采取基于任务的分布式存储的数据中心[16]。中国目前海洋卫星遥感数据的存储采用由千兆交换机连接构成的 NAS (网络接入存储)三级存储体系,主要采用磁盘阵列加光盘存储的方式[17]。国外的海洋大数据存储采用了逻辑上集中,物理上分散的分布式服务器集群存储架构;而国内的海洋大数据还属于地域上的集中式服务器存储——随着数据量的增长,在线存储资源有限,难以实现在线存储资源的动态扩展和灵活配置,离线数据获取耗时,无法在线直接访问任意数据。
(2)海洋大数据挖掘分析。目前已有 MapReduce、Storm、StreamBase、Pregel 等先进的并行计算框架[18-20]⑤Twitter Storm. [2018-07-20]. http://www.oschina.net/p/twitter-storm.,且在各领域中得到广泛应用。海洋大数据在信息挖掘过程中也从传统的经验模态正交法(EOF)发展到了具有时空解耦特性的四维谐波提取法(4D-HEM)[21-24]。但是由于海洋大数据的时空耦合及地理关联特性,导致传统的数据挖掘算法无法有效地进行时空解耦与地理分解,使得挖掘算法成为海洋大数据科学全链条运转环节中亟待改进与调整的重要屏障[25]。
(3)海洋大数据表达可视化。利用科学可视化技术展示海洋数据以及更进一步地利用可视化分析技术挖掘时空数据规律,是建立从感知到认知的关键技术桥梁。海洋矢量场可视化算法主要有图表法、几何法[26,27]、纹理法[28]、拓扑法[29]等。标量场可视化算法在大规模体绘制[30-32]、实时光照[33,34]、多变量提特征提取[32,35]、二维时空可视化等方面都取得了重要成果[36-39]。但是随着海洋数据体量的继续增大,对可视化表达方式、处理效能等方面都提出了非常高的要求,需要一方面尽可能真实地反映数据的特性,另一方面充分提供系统的承载能力和处理能力,提高数据的更新和绘制能力。
纵观国内外海洋大数据的分析技术研究,中国在数据存储管理及挖掘方面仍处于跟跑阶段,但在可视化分析方面已实现并跑。
海洋大数据的应用主要为社会经济发展及气候预测等提供决策支撑。目前,世界各国都在积极投入“数字海洋”的建设,并为进一步建设“智慧海洋”平台奠定基础,如美国和加拿大制定的“海王星”计划、日本的“ARANA”计划、非洲沿海 25 国的“非洲近海资源数据和网络信息平台”以及中国的“iOcean”平台等⑥。海洋大数据在气候预警报决策支撑方面,主要是建立在高性能集群基础上的完备数值预报体系[40]。例如:美国大气海洋局(NOAA)计划在 2023 年推出 WoF(Warn-on-Forecast)系统。该系统可为美国及其临近海域提供精细化天气预报和灾害预警——美国本土计算网格大小精细至 3—10 km,全球区域内网格精细至 15 km;该系统的计算需求高达 1 万亿亿次。中国系列海洋卫星产品在赤潮/绿潮监测、海冰监测、渔业生产和水质调查等方面也得到了全面的业务化应用。其中,HY-2 产品应用于中国与欧盟的数值模式预报及多源融合产品中,而高分辨率海面温度产品在马航失联客机海上搜救保障、极地大洋航线中提供了重要的支撑保障[17]。
目前,海洋相关行业都在积极推动海洋大数据在行业中的应用,关注海洋科学领域的新发现和新发明,并推动产业化落地。然而,行业应用在大数据转型中毕竟是个新形态、新过程,可以借鉴和参考的经验不多,海洋大数据应用的行业落地过程还有不少问题需要解决。随着大数据相关技术的研究不断取得突破,传统行业如何重新审视自己的发展战略,积极拓展行业内部(上、下游)之间、行业之间的数据更好地融合与利用是海洋大数据应用中的一项挑战。
围绕国家海洋发展战略,明确未来 5—10 年海洋大数据科学发展的方向,确定海洋科学领域应用大数据的关键技术瓶颈,提出推进海洋数据科学发展的关键步骤和重点支持领域,实现海洋数据从“数据大”困境到“大数据”时代的战略性转变。
(1)研究海洋科学与数据科学融合发展的主要方向与理论。分析海洋大数据的特点,结合海洋科学各领域的发展现状和趋势,探索海洋科学与数据科学融合发展的核心问题,明确未来 5—10 年海洋数据科学的重点发展方向;以海洋科研需求推动数据科研体系发展,建立有效推动海洋科研的数据驱动方法。
(2)探索支撑海洋大数据发展的重点观测和探测计划。根据海洋科学发展的历史和现状、结合海洋科学发展趋势与国家海洋战略发展需求,分析研究支撑未来 5—10 年海洋大数据发展的重点观测和探测区域,从海、陆、空、天、时 5 个维度深入探索形成海洋大数据的关键基础和能力。
(3)研究适应大数据特点的海洋科学和信息科学发展趋势。针对海洋科学的综合与交叉学科特性,分析海洋大数据在物理、化学、生物、地质等主要海洋学科发展过程中的作用和影响,探索海洋大数据与各学科交叉融合过程中的关键技术瓶颈,以及云存储、物联网、人工智能、泛在计算、交互可视、混合现实等前沿信息技术在海洋中的应用前景,为构建面向现代海洋科学的大数据分析学理论与大数据海洋学知识发现体系提供指导。
(4)研究海洋大数据的共享机制和协同创新平台建设需求。根据“海洋强国”“一带一路”“海陆统筹”和“军民融合”等国家战略,以及经济社会发展对海洋科学各领域的具体需求,分析海洋大数据的共享机制,研究建设海洋大数据协同创新平台的关键技术和建设规划,形成产、学、研、用的有机融合。
(5)探索应用海洋大数据的新兴产业发展趋势与科技需求。以大数据感知、计算、信息产品三大类数据服务为基础,围绕海洋科学、海洋健康与生物多样性、全球气候变化、海洋水产品食物安全、海洋污染与人类健康、海洋灾难与海事安全、蓝色经济等各个领域的需求,分析应用海洋大数据的新兴产业发展趋势,推进海洋科技与蓝色经济的深度融合。
海洋大数据时代的到来,机遇与挑战并存。国际社会已经认识到海洋大数据科学对于人类社会发展的重要性,世界各国也意识到海洋大数据科学对国家核心竞争力的提升具有重要标志性意义。海洋大数据科学应从上、中、下游逐步攻坚克难,真正将其发展成为保障“海洋强国”“一带一路”“海陆统筹”和“军民融合”等国家战略实施的重要支撑,以及维护中国国家与人民利益的重要保障。