侯雪燕,洪阳,张建民,邹亚荣,石晓勇,任力波,程晓,张彪,于华明,郭振华,崔要奎
(1.清华大学水利水电工程系,北京100084;2.国家卫星海洋应用中心,北京100081;3.国家海洋局海洋减灾中心,北京100194;4.国观智库/清华国观海洋研究中心,北京100081;5.北京师范大学极地与海洋研究中心/全球变化与地球系统科学研究院,北京100875;6.南京信息工程大学海洋科学学院,江苏南京210044;7.中国海洋大学海洋与大气学院,山东青岛266100;8.清华大学深圳研究生院,广东深圳518055;9.清华大学数据科学研究院遥感大数据研究中心,北京100084)
海洋大数据:内涵、应用及平台建设
侯雪燕1,9,洪阳1,9,张建民1,邹亚荣2,石晓勇3,任力波4,程晓5,张彪6,于华明7,郭振华8,崔要奎1,9
(1.清华大学水利水电工程系,北京100084;2.国家卫星海洋应用中心,北京100081;3.国家海洋局海洋减灾中心,北京100194;4.国观智库/清华国观海洋研究中心,北京100081;5.北京师范大学极地与海洋研究中心/全球变化与地球系统科学研究院,北京100875;6.南京信息工程大学海洋科学学院,江苏南京210044;7.中国海洋大学海洋与大气学院,山东青岛266100;8.清华大学深圳研究生院,广东深圳518055;9.清华大学数据科学研究院遥感大数据研究中心,北京100084)
信息技术的快速发展,带动海洋数据快速积累,海洋已经进入大数据时代。海洋大数据即是在当前大数据时代背景下,大数据技术在海洋领域的科学实践,具有大体量(Volume)、多样性(Variety)、快速流转(Velocity)和高价值(Value)的“4V”特征,是在大数据的理论指导和技术支撑下的价值实现,也是实施海洋强国战略、开发海洋资源、拉动海洋经济、维护国家海洋权益的重要基础。本文讨论了海洋大数据的内涵和外延,从数据特征、数据种类的角度对海洋大数据进行了全面的定义;并详细介绍了海洋大数据的应用领域;进一步阐述了海洋大数据平台建设的关键技术问题及其在海洋大数据服务平台实例中的应用;从数据共享、数据管理和数据安全的角度,探讨了海洋大数据面临的挑战和机遇;最后对未来海洋大数据的发展趋势和方向进行了展望。
海洋大数据;海洋应用;平台建设;大数据技术
随着互联网、物联网等信息技术的快速发展,文字、图片、音频、视频等各类半结构化、非结构化的数据大量涌现,数据种类、规模、存储量飞速增长,全球已迎来“大数据”时代(郭华东等,2014)。据2014年4月国际数据公司(International Data Corporation,IDC)发布的第7份数字宇宙研究报告,数据量将以超每两年翻一番的速度增长,到2020年将增长到44 ZB(Turner,2014)。IDC在2011年的报告中将大数据技术描述为一个技术和体系的新时代,通过快速捕获、发现和分析技术,从大规模、多样化的数据中经济有效地提取数据价值(Gantz et al,2011)。因此,大数据并不仅仅是指海量数据,更是指半结构化、非结构化的、数据量之大以至无法在一定时间内用传统方法进行获取、管理和处理的数据集合。Andrea等(2016)通过整合大数据重要特征,将大数据定义为具有大体量(Volume)、多样性(Variety)、快速流转(Velocity)等特征、需运用特定技术和分析方法将其转化为价值(Value)的一种信息资产,该定义囊括了大数据的“4V”特征。
对于约占地表总面积的70%的海洋来说,已进入大数据时代。目前已具有近海测绘、海岛监视、水下探测、海洋渔业作业、海洋浮标监测、海洋科考、油气平台环境监测、卫星遥感监测等多种海洋观测和调查手段,形成非常庞大的海洋观测监测体系,积累了海量的海洋自然科学数据,包括现场观测监测资料、海洋遥感数据、数值模式数据等。近年来,海洋观测设备正经历革命性变化,以卫星遥感数据为代表的海洋数据规模呈爆炸式增长,海洋数据量增长速度快于其他行业数据增长(黄冬梅等,2016)。网络信息化的高速发展,也促进了海洋经济、海洋管理、海洋文化、海洋战略等海洋社会科学类数据的快速积累。海洋大数据作为科学大数据的重要组成部分,也正在从单一的自然科学向自然与社会科学的充分融合方向过渡(郭华东等,2014)。因此可以定义,海洋大数据是大数据技术在海洋领域的科学实践,具有海量(Volume)、多样(Variety)、快速流转(Velocity)和高价值(Value)的“4V”特征,是在大数据的理论指导和技术支撑下的价值实现。
我国是海洋大国,社会经济的发展越来越依赖于海洋,海洋权益也需要不断加以拓展和维护。在大数据时代的背景下,如何对海洋大数据进行高效管理和充分的价值挖掘,为海洋环境预报、海洋防灾减灾、海洋作业生产、经济政策制定等提供优质的信息服务和决策支持,是未来海洋领域发展的一个主要方向。在未来海洋管理、海洋资源开发、海洋环境预报、海洋经济发展、海洋权益维护等诸多方面,海洋大数据将扮演越来越重要的角色。
依数据类型划分,可将海洋大数据分为两大类:海洋自然科学类大数据和海洋社会科学类大数据。
海洋自然科学类数据主要是指对海洋自然环境进行观测或模拟而得到的数据,包含了海洋的水质和生态环境信息(如叶绿素浓度、悬浮泥沙含量、有色可溶有机物等)、海洋动力环境信息(海水温度、海面风场、海面高度、海浪、海流、海洋重力场等)、以及海洋生物、海洋化学、海底地质、沉积物、水下地形、海冰、海水污染等其他海洋环境信息。海洋自然科学数据的获取手段主要包括实际观测、海洋遥感观测和海洋数值模拟。因此,可将海洋自然科学类大数据分为海洋实测数据、海洋遥感数据和海洋模式数据。
2.1.1 海洋实测数据
海洋实测调查包括船基观测、定点观测和移动观测等。
船基观测的数据采集主要包括海洋气象(风场、温度、湿度、气压、太阳辐射)、物理海洋(温度、盐度、海流、水位)、海洋物理(声、光、电)、海洋化学(海水营养盐、溶解氧、二氧化碳)、海洋生物(叶绿素、生物量)、海底地貌、地质和地球物理等,为海洋资源开发利用、海洋工程技术、海洋环境保护和海上作战、训练、装备研制等提供海洋参数。
海洋环境观测定点平台包括岸基雷达站、岸基海洋观测站(点)、河口水文站、海洋气象站、验潮站等,以及离岸的锚系浮标、潜标、海床基和海底观测网等。雷达观测仪器包括高频地波雷达、X波段测波雷达、C波段或S波段多普勒测波雷达,主要观测海浪和海表面流场等参数。海洋站是建设在海滨或岛礁固定的海洋环境观测设施,提供沿海的波浪、潮汐、水温、盐度、风速、风向、气温、相对湿度、气压和降水等水文气象观测数据。海洋浮标是以锚定在海上的观测浮标为主体组成的海洋水文气象自动观测站,其水上部分为气象要素传感器(风速、风向、气压、气温、空气湿度等),水下部分为水文要素传感器(水温、盐度、波浪、海流、潮位等)。海洋潜标系统的主浮体位于水面以下,主要用于海流和温度、盐度等参数的定点、长时序、剖面测量,还可配置生物捕集器等开展海洋生态环境观测。海床基是一种坐落在海底对水下环境进行定点、长期、连续观测的海洋技术,可以测到整个水层里没有接触到的信息。
海洋移动观测能够覆盖更大的区域,具有更高的灵活性和很强的自主航行能力,包括水面上或水下的移动观测平台,如自治式水下潜器、无人遥控潜器、无人水面艇、拖曳式观测平台和载人潜水器。典型的有Argo(Array for Real-time Geostrophic Oceanography,地转海洋学实时观测阵)浮标,可在海洋中自由漂移,提供海面到水下2000 m水深之间的海水温度、盐度和深度资料,跟踪其漂移轨迹,可获取海水的移动速度和方向(罗续业,2015)。
2.1.2 海洋遥感数据
目前,海洋遥感数据包括卫星遥感数据和航空遥感数据,其中航空遥感又可分为有人机航空遥感和无人机航空遥感(徐京萍等,2016)。卫星遥感可针对大范围海域进行高频次动态监测,是及时、连续获取海洋水色、海面温度、海面高度、海面风场、海浪、海流、盐度、海上目标、海岛、海岸带等要素信息的最有效观测手段。航空遥感具有速度快、机动灵活、空间分辨率高的特点,适用于重点区域的高精度监测,如近海海洋调查、海岸带制图、资源勘测、海洋动态监管、海洋突发情况应急响应、海洋资源环境监测等。
按照观测的海洋要素和搭载的遥感载荷的不同,海洋卫星主要分为海洋水色卫星、海洋动力环境卫星和海洋监视监测卫星3类(林明森等,2015)。海洋水色卫星主要搭载光学遥感载荷,如海洋水色扫描仪、海岸带成像仪、中分辨率光谱仪等,用于观测海洋水色、水温、透明度、海冰、绿潮、赤潮、海岛海岸带等要素信息。海洋动力环境卫星主要用于全天时、全天候获取海面高度、有效波高、海面风场、海洋锋面、中尺度涡、海面温度、盐度等海洋动力环境信息,遥感载荷主要包括微波散射计、雷达高度计、微波辐射计、盐度计等。海洋监视监测卫星用于全天时、全天候监视海上目标、溢油、海冰、海岛、海岸带等海洋要素,并获取海洋浪场、风暴潮漫滩、内波等信息,遥感载荷主要为多极化多模式合成孔径雷达。
日益增长的海洋研究水平和海洋应用能力对海洋遥感观测的精度提出了更高的要求,随着海洋遥感平台、载荷技术、地面设备以及数据处理技术不断进步,海洋遥感数据正在向更高精度与时空分辨率的方向发展。此外,海洋遥感数据定量化应用的不断深入和个性化服务的不断完善,也是未来海洋数据发展的重要方向。
2.1.3 海洋模式数据
海洋数值模拟是以现实海洋为基本物理背景,以高性能计算机为载体,按照物理规律,建立数学模型,从而对海洋状态(包括海温、盐度、海流、海浪、潮汐等要素)进行模拟,参数化、定量化地描述海洋的具体状况。随着计算机计算能力的飞速提升,海洋数值模拟近年来得到了极大的发展,逐渐成为海洋大数据的重要来源。首先,海洋数值模拟生成了大量的海洋数据,在海洋总数据量中所占比例最大,且生成速度最快(Overpecketal,2011),成为海洋大数据的基础来源之一。其次,海洋数值模拟将真实的连续的海洋进行了网格化与数字化,数据具有结构性,便于后处理、可视化以及各种海洋现象分析。再者,与现场观测、卫星遥感得到的海洋数据相比,海洋数值模拟数据具有空间上三维、时间上连续等优势,可以做到“足不出户便知天下事”,同时还可以进行海洋状况的预报。
尽管海洋数值模拟结果目前在趋势上逼近真实海洋,但其准确性仍然需要不断的提高。充分利用卫星遥感、现场观测等数据与海洋数值模拟技术相结合,对海洋数据同化模型,进行有效的模型参数校准与模型结果验证,生成再分析数据产品,这是海洋数值模拟发展的重要方向,也是进一步提高模型计算结果可靠性的必要途径。由于不同海洋机构所采用的海洋数值模拟技术具有多样性,往往在同一区域会得到多种不同的数值模拟结果。因此需要根据卫星遥感与现场观测数据,对不同的数值模拟结果进行识别与判断,优选出最贴近真实海洋的数值模拟数据。目前国内外比较常用的数值模拟产品有POM(Princeton Ocean Model)、FVCOM(An Unstructured Grid,Finite-Volume Coastal Ocean Model)、HAMSOM(Hamburg Shelf Ocean Model)、HYCOM(HYbrid Coordinate Ocean Mode)、ROMS(Regional Ocean Model System)、SODA(Simple O-cean Data Assimilation)等(郑沛楠等,2008)。
2.1.4 海洋再分析产品数据
再分析是利用资料同化技术,将各种来源、各种类型的观测资料与数值预报产品进行融合和最优集成,可以重建长期历史数据,同时解决了观测资料时空分布不均的问题。再分析资料是现代气候变化研究中十分重要的数据源,目前已在大气—海洋—陆地相互作用、气候监测和季节预报、气候变率和变化、全球水循环和能量平衡等诸多研究领域得到了广泛应用。然而,海洋再分析数据包含了观测系统变更、数值模式和同化方案等所带来的误差,如何减少和消除这些误差、提高再分析数据质量,是目前再分析数据制作和应用所面临的主要问题之一(赵天保等,2010)。
常用于海洋模式驱动场的海洋再分析数据包括海洋大气综合数据集ICOADS(International Comprehensive Ocean-Atmosphere Data Set)资料、美国国家环境预报中心/美国国家大气研究中心(NECP/ NCAR)资料、欧洲中期天气预报中心ECMWF(The European Centre for Medium-Range Weather Forecasts)资料,经同化方法计算得到的海洋模式再分析数据包括SODA海洋再分析数据集、OFES(Dataset of Ocean General Circulation Model for the Earth Simulator)资料(李晓婷等,2010)。
海洋社会科学类大数据是相对于海洋自然科学类大数据而言,目前在学术界、政府内并没有明确的范畴定义。依据现有海洋研究进展、海洋事业发展、海洋强国战略所涉内容,以及高层海洋决策所涉因素而言,大致可以分为海洋战略数据、海洋经济数据、海洋文化数据三大类。
海洋战略数据通常包含海洋政策信息、海洋法律信息、海洋战略舆情信息。基于海洋问题的全球属性,这类信息的搜集与管理都应该具备全球视野,尤其是在海洋战略舆情信息方面,更应该注重监测和分析全球重点智库、重点媒体、重点政府涉海部门的相关涉华涉海舆情,以便于对我海洋决策形成全面、综合的信息参考。
海洋经济数据主要指海洋渔业、海盐业、海洋交通运输业、海洋船舶工业、海洋油气业、滨海旅游业、海洋服务业等海洋产业相关信息,包含从产业研究、产业政策、产业规划、产业运行、产业投资、产业金融的全链条数据信息,以及重点产业园区、重点产业技术方面的数据信息。
海洋文化数据主要指海洋历史图文资料、海洋文化教育(海洋意识培育)等方面的数据信息。就数据管理而言,前者相对成熟,后者在大数据时代中的意义逐渐体现,即国家海洋文化和个体海洋意识的培育,对于未来中国海洋强国战略的实施至为重要,在数据统计和数据分析领域也同样面临新的课题。
中国是海洋灾害最严重的国家之一,近年来,受全球气候变化及海平面上升的影响,沿海地区灾害频发,灾害程度升高,海洋防灾减灾面临巨大的压力和挑战。我国面临的海洋灾害种类繁多,包括风暴潮(台风风暴潮和温带风暴潮)、海浪、海冰、海啸、海平面上升、赤潮、绿潮等自然灾害,以及海上溢油、危化品泄漏等海洋环境突发污染事件。我国沿海不同地域的海洋灾害呈现不同的态势。
在当前全球气候变化的背景下,在沿海经济社会发展的新形势下,海洋灾害的形成机理、发生规律、时空特征、灾害损失呈现出新的特点,使我国依然面临着较大的海洋灾害风险。据2015年中国海洋灾害公报,2006-2015年间,全国各类海洋灾害造成的年均直接经济损失达133亿元,年均死亡(含失踪)136人,其中,风暴潮(包括台风风暴潮和温带风暴潮)造成的直接经济损失最大,约占90%。
海洋大数据在海洋减灾体系中发挥着巨大作用。基于海洋大数据的数据处理系统是海洋防灾减灾的基础,统计分析监测系统通过大数据处理系统提取数据,并提供分析工具集,统计人员可进行横向跨专业、纵向跨时间的综合分析和关联分析。可建立业务监测等不同的分析主题应用,并根据统计业务热点的变化进行扩展。通过海洋大数据系统的分析、处理和挖掘,形成多层面的业务产品,为海洋减灾工作提供支持。
海洋目标检测是海洋权益维护、海洋资源管理等的重要部分,目前主要利用卫星数据开展海洋目标检测。星载合成孔径雷达能够全天时、全天候、高空间分辨率对海观测,已经广泛应用于检测海洋目标,如舰船、岛礁、石油平台、溢油、绿潮、海冰等。全极化合成孔径雷达可以测量目标散射矩阵信息,因而在目标检测和分类方面具有独特的优势。然而,其缺点在于成像刈幅窄,不适合星载平台业务化目标检测的需求。目前,印度RISAT-1和日本ALOS-2卫星上搭载的C波段和L波段合成孔径雷达已有简缩极化成像模式,获取的数据已初步应用于大范围海洋溢油检测。多时相简缩极化合成孔径雷达检测海面目标动态过程具有独特的潜力。
近年来,主被动星载微波传感器成为监测海上台风的主要工具。利用多极化合成孔径雷达观测可以获取较为准确的高空间分辨率台风海面风场,并且可以得到台风的空间分布特征,以及台风的强度(最大风速)和结构(最大风速半径)要素等。利用微波辐射计多时相台风观测可以提供台风海面风速以及台风的移动路径等信息,揭示台风的增强和衰减过程,为大气和海洋数值模式研究台风的动力机制和上层海洋对台风的响应提供准确的观测依据。将合成孔径雷达和微波辐射计协同观测数据有效结合,可进一步提高星载遥感器台风监测的能力,减小台风对我国沿海地区居民的生命和财产安全的损害。
研究基于海洋大数据的海洋目标提取方法,建立海洋目标识别基础库,可在海洋目标检测方面大大提高精度,对于海洋目标的监视和管理具有重要意义。
应用遥感技术能有效提取海洋的叶绿素、黄色物质、悬浮泥沙等信息,对于海洋水质的监测具有重要意义。基于遥感和现场监测数据,建立海洋水质遥感监测模型,揭示海洋水质要素的空间分布,为开展海洋环境遥感监测与评价提供有力的基础数据和技术保障。随着海洋水质数据的快速增加,仅依靠数据分析与信息挖掘等技术,难以满足对快速增长的海洋水质数据分析需求,基于海洋大数据,能快速有效对获取的海量海洋水质数据进行整合与分析,对于海洋水质安全具有重要价值。
海洋生态对于海洋资源的开发、利用、保护具有重大意义。海洋生态调查内容丰富,应用遥感的方法可进行部分海洋环境要素和海洋生态要素的调查,但基于遥感技术的海洋生态调查,尤其是对近岸水体的调查,存在一定的困难。海洋大数据的应用,可提供海洋生态调查的基础数据,可一定程度上提高近岸水体调查精度。通过大数据的整理综合分析,可进一步分析海洋生态的变化原因,并提出整治治理的方案,服务于海洋生态调查。
渔情预报是对未来一定时期、一定水域内水产资源状况各要素,如渔期、渔场、鱼群数量和质量以及可能达到的捕获量等所作的预报。海洋遥感技术的发展,为快速获取与海洋渔场密切相关的大范围海况信息(如海表温度、叶绿素浓度、海洋表面盐度、海洋表面高度等)提供了广阔的空间和前景(Santos,2000)。
海洋水温是影响鱼类活动最重要的因子之一,是分析海洋渔场位置和渔情变动情况的最常用的环境要素;海洋遥感反演海表温度(Sea surface temperature,SST)的技术已经比较成熟,根据SST数据可以获得诸如温度锋面、水团、ENSO(El Nino,Southern Oscillation)现象等表征渔场分布情况的海洋信息。卫星遥感获得的海洋叶绿素浓度等海洋水色信息,是浮游生物量的重要指示因子,结合光照条件等可反演该海域海洋初级生产力,进而为海洋生物存量分布及其变化提供预报参考。卫星遥感反演得到的海面高度数据能够反映海洋锋面、水团等中尺度海洋动力特征,也是渔场分析的重要环境因子。
目前国内由于技术条件的限制,渔情预报只能采用近实时的海洋环境数据,严重制约了渔情模型预报精度(陈新军等,2013)。未来海洋渔场预报系统,亟需构建面向渔业应用的海洋大数据基础数据库,在此基础上构建海洋环境实时预报系统,为渔情预报系统提供高分辨率的海洋环境数据支持。
海洋大数据对于远海航行保障具有重要意义。近年来,越来越多的船只开始进入远离人类大陆、环境恶劣的远海航行,如极地海域。这些进入远海航行的船只,如果仅依靠船长的经验,是非常危险的。海洋大数据的出现,使得人类进入远海航行的安全系数得以提升。近年来,以卫星遥感和船舶自动识别系统(Automatic Identification System,AIS)为主的数据在指导船舶航行和船舶遇险救援方面发挥了巨大作用。2014年1月中国雪龙号极地考察船(简称“雪龙”号)在南极冰海救援被困的俄罗斯“绍卡利斯基院士”号时,由于气象条件突变导致海冰快速聚集使得其自身被困。在国内业务部门和有关科研单位等多部门的协同努力下,通过综合快速地分析卫星遥感数据、气象海洋数据等,最终指导“雪龙”号成功脱困,成为海洋大数据指导极地航行船只脱困的典型案例。又如,随着海冰减少,越来越多的船只将选择北冰洋航道从东亚去欧洲或北美,而这条黄金水道同时也是危机重重,对于海洋大数据应用提出了越来越高的要求。实时遥感监测数据、基于大数据的海洋和海冰环境模拟等,是北极航道安全航行的坚实保障。未来全球将建立全球无死角的通讯、导航和遥感监测网络,保障全球海洋安全航行。
海洋大数据对于海气相互作用和气候变化研究具有十分重要的价值。发生于热带太平洋的ENSO事件,通过海气相互作用影响着海洋要素之间时空分布及其相互作用;海气相互作用对区域性极端气候事件发生的频次、强度和空间分布都有重要影响。世界气候大会制定的“全球气候观测系统(GCOS)计划”指出,观测资料应有足够长的时间序列、覆盖足够大的地理区域、有足够高的精度。对于广阔的海洋来说,卫星遥感具有速度快、成本低、监测范围广、便于长期动态监测等优势,成为监测全球变化背景下海气相互作用和海洋环境变化的重要手段。
目前,基于常规海洋调查观测,结合海洋模式模拟,综合利用对地观测技术,形成长期、连续、立体、宏观的海洋大数据。在全球变化背景下,基于以上海洋大数据,开展全球变化背景下海洋各要素的时空变化及其关联分析研究,探索海洋-大气相互作用、海洋物理-生态耦合变异过程、以及对气候变化的响应规律,已经成为研究热点(Hou et al,2016;Huang et al,2013;Kahru et al,2010;Mahajan et al,2009;Messié et al,2013)。从海洋大数据中挖掘隐含的与气候变化相关的价值信息,也可以为我国更好地应对气候变化带来的极端气候事件提供参考,同时为我国在国际气候谈判中的话语权提供强有力支撑。
随着人类数据搜索、数据管理能力的不断加强,数据分析、数据应用的价值也会不断得以体现,最重要、最直接的价值就是体现在政府决策过程中。未来的政府决策,将是一个更依赖于大数据的综合决策系统,数据在决策流程中的位置会更靠前,数据在决策体系中承担的角色会更重要。前提是,数据要尽量的全面、客观、准确,即大数据所要求的大容量、多层次、跨领域。
就海洋决策而言,其依赖的数据源也应是海洋自然科学类数据和海洋社会科学类数据的集成,任何只依靠一类数据源的决策,都不是全面、客观、战略性的决策。仅就海洋社会科学类数据而言,对海洋决策的意义非同寻常。海洋战略数据可以帮助政府更清楚的把握合作伙伴和竞争对手的政策演进趋势,更准确的明晰竞争对手的法律底线和漏洞,更全面的了解我国海洋战略推进在全球范围内的阻力和突破口。海洋经济数据可以帮助政府了解海洋产业的发展趋势,通过制定合理的产业政策和规划,推动产业有序运行,同时进行有效监管和调控。海洋文化数据可以帮助政府在对外交涉和对内教育中组织系统的历史材料,又能通过历史唤起公民的海洋共鸣,用海洋意识推动海洋战略。
当今,信息技术和网络技术发展迅猛,云计算、人工智能、数据挖掘、虚拟现实等技术不断推动着“智慧地球”物联网快速发展,“数字地球”、“数字海洋”等概念相继涌现,然而,物联网时代下海洋大数据的综合应用和信息服务能力还相对滞后(李四海等,2012)。通过构建海洋大数据平台,组建海洋领域的物联网,统筹海洋观测、网络、信息等,可以推动海洋信息化建设,实现海洋管理、信息服务、分析决策的智能化。
4.1.1 海洋大数据存储和计算
随着信息技术和监测设备的快速发展,卫星和数以千万计的传感器开始在海洋环境检测中发挥重要作用,导致海洋数据量急剧增长。而海洋数据获取手段多样化,导致海洋数据格式呈现多源、异构等特点,对数据存储空间、传输系统、计算系统、存储安全等提出了更高的要求(王辉等,2015)。
大数据处理的核心技术包括分布式文件存储以及云计算。分布式文件存储即分布式文件系统+ NoSQL数据库,典型的代表为Hadoop的HDFS+ HBase文件存储方案、谷歌的GFS+BigTable。分布式计算从Hadoop的MapReduce,发展到Spark内存计算以及Storm流式计算或SparkStreaming流式计算等。云计算作为一种网络应用模式,为海洋大数据存储和管理提供了有效的解决方案。针对海洋大数据特征,需要进行专有云平台建设,为海洋大数据提供存储、访问和计算服务,构建云计算环境下的海洋环境监测大数据布局策略及处理平台(董贵山等,2015;杜艳玲,2014;黄冬梅等,2015;解鹏飞等,2015)。
4.1.2 海洋大数据分析与挖掘
对海洋大数据进行分析与挖掘,从中提取数据的潜在价值,是海洋大数据平台建设的核心,也是将海洋大数据应用于海洋防灾减灾、海洋环境监测、海洋渔情预报等领域的基础。海洋大数据的分析与挖掘技术包括时间序列分析、分类、时空聚类、时空异常检测、关联规则分析、遗传算法、神经网络、预测模型、模式识别、回归分析、机器学习等。
其中机器学习是数据挖掘的重要方法之一,其基本思想是利用大量的训练数据求解出分类或回归问题的决策函数,使机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测(何清等,2014;李运,2015;余凯等,2013)。深度学习可对输入数据逐级提取从底层到高层的特征,构建具有很多隐层的机器学习模型和海量的训练数据,学习更有用的特征,最终提高分类或预测的准确性(余凯等,2013)。
4.1.3 海洋大数据可视化
海洋大数据可视化即将海洋科学信息科学相结合,对海洋数据的进行视觉表现,获取蕴含在海洋环境中的海洋物理、生物和化学特性、规律及关联关系(苏奋振等,2014)。随着社会对海洋领域关注度的提高,海洋大数据的展示手段必须更加直观化、大众化。
由于海洋大数据拥有数据量大、高维性强、要素众多、与地理信息数据紧密关联等特点,数据管理与信息挖掘具有复杂性,故无法直接通过传统方法进行展示。如今,随着海洋大数据的时代到来与“互联网+”行动计划的不断推进,依托地理信息系统和海洋时空数据模型,结合信息领域可视化挖掘方法,如3D仿真、虚拟现实等技术,建立面向知识发现的海洋大数据可视化环境,挖掘多维要素之间的相互关系,是今后发展的主要方向(刘健等,2014)。
4.2.1 清华大学海洋大数据平台
清华大学海洋大数据平台依托清华大学遥感大数据研究中心、清华大学海洋技术中心、清华海峡研究院、以及清华大学物联网遥感大数据研究中心,与国际、国内的海洋相关机构在数据共享、技术研发、设备和人才等方面合作,对包含海洋自然科学类数据和海洋社会科学类数据在内的各类数据库进行有序整合,构建海洋自然科学和社会科学数据库网络,建设海洋大数据共享与综合应用服务平台。该平台建设主要包括5个层面:数据获取平台、数据存储与计算平台、数据分析与应用平台、海洋信息可视化平台、海洋决策与发布平台(洪阳等,2016)。
4.2.2 海洋战略舆情环境信息检索数据库
国观智库暨“清华—国观海洋研究中心”从2014年中开始筹建“海洋战略舆情环境信息检索数据库”,将日常的检索工作智能化。在一期建设工程中,挑选了200多家重点智库、重点媒体、重点政府涉海网站作为监测对象(只限于提供公开信息的网站),针对近100个关键词实施全天候、全网站检索。在实际工作中,又补充检索60家智库。每天检索的信息被分类筛选、整理入库,依据国观智库的分析方法和相应信息分类维度,进行有序管理。
目前,国观智库正在对这个数据库进行二期改造工程,改造任务集中在3个方面:一是在原有基础上增加监测对象约200个,重点加强智库监测;二是增加监测内容,重点补充海洋经济信息、海洋政策信息、海洋法律法规信息,强化数据库的全领域特性;三是植入简易分析模块,实现部分自分析功能。此外,该数据库系统还在技术上尝试扩充小语种监测对象,尤其在东北亚、东盟两大方向。
数据的共享是海洋大数据的核心,数据不共享就不可能称其为大数据。但由于我国海洋观测平台的条块管理模式,海洋自然科学类大数据分散在海洋局、各大高校、中科院等研究机构,以及“三桶油”、国资委、海洋局等央企和决策部门,数据共享和聚合仍存在很大的瓶颈和障碍。需要引入大数据理念,建立数据共享机制,采用大数据的分布式存储+云计算平台的模式,对多源、异构的数据进行整合和重新部署(宋坤,2015),使得数据在所有者手里,但仍可以根据使用者或开发者的要求进行数据调用和处理。如“宝船网”(www.myships. com)提供了数据开发访问的API给用户,可充分发掘海量数据的应用潜力。
随着大数据时代到来和中国制造2025规划的推进,各个领域尤其是工业领域内大数据搜集、管理、分析、应用越来越受到重视。相对而言,海洋领域内的数据搜集和管理相对滞后,更重要的是,受体制的影响,海洋自然科学类数据在体系内严重分散、海洋自然科学类数据和社会科学类数据严重分割,海洋强国战略的实施迫切要求海洋大数据的归集和整合。海洋大数据综合平台的开发和建设,在完善海洋决策的数据基础、促进海洋决策科学化方面将会有历史性的贡献。同时,就技术变革推动机制变革角度而言,海洋大数据综合平台还会有利于海洋部门职能的整合,推动海洋管理体制机制的重组完善。
对于海洋大数据平台,海洋数据采集、传输、存储、数据挖掘与分析、信息服务等过程形成一个完整的链条,在链条的各个环节都存在数据丢失、数据篡改、数据越权访问等风险(董贵山等,2015)。在当前网络与信息安全的严峻形势下,海洋大数据作为一种重要的战略资源,其数据安全(机密性、完整性、认证性、可控性和不可抵赖性)已经上升到国家安全的层面(黄冬梅等,2016),也是未来海洋大数据面临的一大挑战。海洋大数据在采集与传输阶段,需要考虑多源数据、传输介质和传输频率带来安全的差异性;在数据存储与处理阶段,需要在数据访问、计算、共享、监管等方面保障数据的安全性;在数据发布与推送阶段,需要在实现智能化服务的基础上,保证数据的实时性和真实性。
未来,海洋经济作为陆地经济的延伸和补充,在经济层面还会凸显更丰富的意义。目前海洋大数据搜集和管理更多偏重于海洋自然科学类数据,海洋社会科学类数据的整合尚未引起足够重视;两类数据的严重分散,使得目前的海洋决策体系呈现出较为明显的跛脚状态,在海洋强国战略实施和国际关系实践领域中屡遭尴尬。需要遵循海洋自然科学数据与社会科学数据有机结合,统筹服务海洋事业的发展。
人类历史和国际关系的发展,已经证明海洋在国家发展中的重要性,发展海洋大数据可以为建设海洋强国提供重要支撑。需加强顶层设计,进行各界统筹、资源整合,推进海洋大数据平台建设。未来海洋事业的发展会贯穿多个决策系统、影响多个战略环境、连接多个产业系统,它对中国政治、经济、文化、社会的影响必将是全方位、深层次的。从这个意义上说,海洋大数据以及相应的海洋大数据平台建设也将对中国产生广泛而深远的影响。
参考文献
John Gantz,Reinsel David,2011.Extracting value from chaos.IDC iview. 1142:1-12.
Jonathan T Overpeck,Meehl Gerald A,Bony Sandrine,et al,2011. Climate Data Challenges in the 21st Century.Science.331(6018): 700-702.
M Kahru,Gille S T,Murtugudde R,et al,2010.Global correlations between winds and ocean chlorophyll.Journal of Geophysical Research.115(C12):C12040.
Monique Messié,Chavez Francisco P,2013.Physical-biological synchrony in the global ocean associated with recent variability in the central and western equatorial Pacific.Journal of Geophysical Research:Oceans.118(8):3782-3794.
Ping Huang,Xie Shang-Ping,Hu Kaiming,et al,2013.Patterns of the seasonal response of tropical rainfall to global warming.Nature Geoscience.
Salil Mahajan,Saravanan R,Chang Ping,2009.The role of the windevaporation-sea surface temperature(WES)feedback in air-sea coupled tropical variability.Atmospheric Research.94(1):19-36.
Santos A,Miguel P,2000.Fisheries oceanography using satellite and airborne remote sensing methods:a review.Fisheries Research.49 (1):1-20.
Vernon Turner,2014.The digital universe of opportunities:rich data and the increasing value of the internet of things.Framingham:IDC Analyze the Future.
Xueyan Hou,Dong Qing,Xue Cunjin,et al,2016.Seasonal and interannual variability of chlorophyll-a and associated physical synchronous variability in the western tropical Pacific.Journal of Marine Systems.158:59-71.
陈新军,高峰,官文江,等,2013.渔情预报技术及模型研究进展.水产学报,37(8):1270-1280.
董贵山,王正,刘振钧,2015.基于大数据的数字海洋系统及安全需求分析.通信技术,48(5):573-578.
杜艳玲,2014.混合云存储环境下海洋大数据的布局及迁移算法研究.上海海洋大学.
郭华东,王力哲,陈方,等,2014.科学大数据与数字地球.科学通报,59(12):1047-1054.
何清,李宁,罗文娟,等,2014.大数据下的机器学习算法综述.模式识别与人工智能,27(4):327-336.
洪阳,侯雪燕,2016.海洋大数据平台建设及应用.卫星应用,6:26-30.
黄冬梅,随宏运,贺琪,等,2015.云计算环境下基于数据关联度的海洋监测大数据布局策略.计算机工程与科学,37(11):1989-1996.
黄冬梅,邹国良,等,2016.海洋大数据.上海科学技术出版社.
解鹏飞,隋伟娜,朱容娟,等,2015.云环境下海洋环境监测大数据处理平台的研究.海洋信息,01:25-29.
李四海,张峰,2012.物联网技术综述及海洋信息化发展对策.海洋通报,31(3):354-359.
李晓婷,郑沛楠,王建丰,等,2010.常用海洋数据资料简介.海洋预报,27(5):81-89.
李运,2015.机器学习算法在数据挖掘中的应用.北京邮电大学.
林明森,张有广,袁欣哲,2015.海洋遥感卫星发展历程与趋势展望.海洋学报,37(1):1-10.
刘健,姜晓轶,范湘涛,2014.海洋环境信息可视化研究进展.海洋通报,33(2):235-240.
罗续业,2015.海洋技术进展2014.海洋出版社,295.
宋坤,2015.大数据理念在海洋环境观测数据共享中的应用研究.海洋开发与管理,6:43-45.
苏奋振,吴文周,平博,等,2014.海洋地理信息系统研究进展.海洋通报,33(4):25-27.
王辉,刘娜,逄仁波,等,2015.全球海洋预报与科学大数据.科学通报,60(5-6):479-484.
徐京萍,赵建华,2016.遥感技术在海域使用动态监测中的应用.卫星应用,6:35-39.
余凯,贾磊,陈雨强,等,2013.深度学习的昨天、今天和明天.计算机研究与发展,50(9):1799-1804.
赵天保,符淙斌,柯宗建,等,2010.全球大气再分析资料的研究现状与进展.地球科学进展,25(3):242-254.
郑沛楠,宋军,张芳苒,等,2008.常用海洋数值模式简介.海洋预报,25(4):108-120.
(本文编辑:袁泽轶)
Marine big data:concept,applications and platform construction
HOU Xue-yan1,9,HONG Yang1,9,ZHANG Jian-min1,ZOU Ya-rong2,SHI Xiao-yong3,REN Li-bo4, CHENG Xiao5,ZHANG Biao6,YU Hua-ming7,GUO Zhen-hua8,CUI Yao-kui1,9
(1.Department of Hydraulic Engineering,Tsinghua University,Beijing 100084,China;2.National Satellite Ocean ApplicationService, Beijing100081,China;3.National Marine Hazard Mitigation Service,Beijing 100194,China;4.GRANDVIEW Think-Tank,Beijing 100081,China;5.College of Global ChangeandEarth System Science,BeijingNormal University,Beijing 100875,China;6.School of Marine Sciences,Nanjing University of Information Science and Technology,Nanjing,210044,China;7.College of Oceanic and Atmospheric Sciences,Ocean University of China,Qingdao 266000,China;8.College of Continuing EducationGraduate School at ShenZhen Tsinghua University,Shenzhen 518055,China;9.Remote Sensing Data Science Center,Tsinghua University,Beijing 100084,China)
With the rapid development of information technology and the resulted rapid accumulation of marine data,the era of marine big data has arrived.Marine big data is the practice and application of big data technology in the field of marine science,with the general characteristics of"4V"for big data,i.e.volume,variety,velocity and value.The value of marine big data could be achieved with the support of big data theory and techniques.It forms the basis for building maritime power strategy,developing marine resources and stimulating marine economy,as well as for safeguarding the national maritime rights and interests.In this article,we firstly discussed the concept of marine big data in view of data characteristics andtypes.Then we introduced the applications of marine big data in detail.We further elaborated the key technological issues for platform construction of marine big data as well as its practical use in service platform.Moreover,the challenges and opportunities of marine big data were discussed from the perspective of data sharing,management and security.Finally,we prospected the future and development trend of marine big data.
marine big data;maritime application;platform construction;big data technology
TP399
A
1001-6932(2017)04-0361-09
10.11840/j.issn.1001-6392.2017.04.001
2016-06-16;
2016-07-29
国家自然科学基金重点项目(91437214);国家自然科学基金国际合作项目(NSFC-CGIAR;71461010701)。
侯雪燕(1988-),博士,博士后,助理研究员,主要从事多源海洋遥感数据关联分析、数据挖掘及应用研究。电子邮箱:houxueyan@tsinghua.edu.cn。
洪阳,博士,教授。电子邮箱:hongyang@tsinghua.edu.cn。