大数据技术下海洋测绘数据的存储与挖掘

2020-07-31 07:44苗炳迪吴二立
江西测绘 2020年2期
关键词:海量数据挖掘测绘

孙 伟 苗炳迪 吴二立

(1.宁波海洋研究院 浙江宁波315042;2.浙江大京生态环境科技有限公司 浙江宁波315042;3.宁波市天一测绘设计研究有限公司 浙江宁波315100)

1 引言

在计算机信息技术快速发展的背景下,社会已经进入了信息化时代,大量的数据产生于社会中的各个领域,同时大数据技术在数据信息的处理上也得到了普遍的应用。在对海洋资源进行开发的过程中,对海洋环境的变化进行有效的测绘,就需要实现采集、存储和处理相应的海洋测绘数据,这时对于海量海洋测绘数据的处理和应用也成为了越来越多学者关注的问题。随着大数据技术的出现,在海洋测绘数据的采集、存储和处理方面,大数据技术都发挥着越来越重要的作用。

1 大数据技术概述

随着计算机信息技术以及物联网技术的快速发展,大数据技术在社会众多领域中都得到了较为普遍的应用,而在当前环境下,应用较为广泛的大数据技术包括Hadoop、Hbase、Hive 等技术。其中Hadoop作为一种分布式计算平台,其结构中主要包含HDFS文件系统以及Map Re duce 计算框架,其中HDFS文件系统是一个并行的文件系统,具有高扩展性和高容错性的功能,能够保证分布式系统的正常稳定运行和对大量的海洋测绘数据进行存储和管理[1]。大数据技术概述图如图1 所示。

图1 大数据技术概述图

HDFS 作为一个分布式文件系统,其具有较好的扩展性,在对大量的海洋测绘数据进行存储的时候,不再需要一个额外的服务器集中存放海洋测绘数据,而是可以进行分散存储于系统的不同节点。HDFS 文件系统的应用目的主要就是对海量的海洋测绘数据进行存储,所以对于大量的海洋测绘数据,HDFS 文件系统能够很好满足其使用的需求[2]。而Hadoop 分布式计算平台的Map Re duce 计算框架作为Hadoop 的核心组件,其作为一种并行的计算模型能够利用大量计算机的运算处理能力,从而解决一些比较复杂的技术问题。

Hbase 作为一个分布式NoSQL 数据库,和传统的关系型数据库具有一定的差异,其主要的目的就是处理大量的数据,同时其具有非常高的数据处理能力,通常Hbase 会与HDFS 文件系统有效结合在一起,对海量的数据进行相应的处理。Hbase 中的映射表是稀疏的并且具有多维度的,数据库中的行索引包括了行关键字、列关键字以及时间戳,数据库中的所有数据的类型都是字符串类型。基于HDFS 文件系统的Hive 是一种数据仓库框架,在其组成中包括ETL 工具,其能够实现数据的存储管理以及查询大型的数据集,其中对于数据集的查询是通过相应的HiveQL 来实现的。

2 海洋测绘数据分析

我国具有辽阔的海洋面积以及丰富的海洋资源,在对海洋资源进行相应的测绘时会得到海水的温度、盐度以及海洋的深度等各种信息,不同类型的数据具有不同的特点,在对这些海量测绘数据进行存储和处理的时候,就需要对不同类型数据的处理需求以及存储的格式进行充分的考虑[3]。

2.1 海洋测绘的基本特征

在陆地上进行测绘的过程中,对点三维坐标的测量需要采用不同装置以及利用不同的方法进行分别测量。而在海洋测量中对船体下深度即垂直坐标进行测量时,需要与船体平面的位置进行一起测量。在海洋测绘中一般不容易建立相应的控制点,这个时候就需要尽可能的选择相应的海岛作为监测点,或者在海底建立相应的控制点,具有较大的间隔距离。所以海洋测绘要比陆地测绘具有较长的测量作用距离,普通陆地的测量作用距离最长不会超过50km,而普通海洋的测量作用距离一般在50km~500km,有的甚至会超过1000km 的测量作用距离。

海洋的测绘与陆地的测绘进行比较,海洋测绘会处于一种动态变化的过程,需要相关测量人员进行不间断的观测,需要随时将观测的结果装换成点位,与陆地观测相比具有较低的精确性。由于海洋测绘一般具有较长的测量作用距离,所以与陆地测量相比较,在测量期间选择的传播信号会表现出一定的差异性。一般在海洋测绘过程中会使用到低频电磁波信号,但是其传播速度不能够简单的做匀速运动,所以只海水中需要选择声波作为信号源。

2.2 海洋测绘数据的特点分析

通过对大量的海洋测绘数据进行相应的分析,可以发现海洋测绘数据具有以下的一些特点:

(1)数量巨大。对海洋进行测绘的时候需要布置大量的监测点,而不同的监测点所采集到的海洋数据具有较为复杂的结构,并且是处于一种动态变化的过程,这就导致在进行测绘的过程中会出现大量的数据,而面对这些海量的海洋测绘数据,仅仅使用本地存储已经很难满足大量数据的存储要求。

(2)海洋测绘数据的结构和格式存在一定的差异。在进行海洋测绘的时候会使用到大量的监测点,而对于不同的测绘数据,其记录格式也是不同的,同时其存储结构也会发生相应的变化,这就造成了大量的海洋测绘数据并没有一个统一规范的数据结构标准来进行相应的存储。

在采集到的大量的海洋测绘数据中,一般都包含地址以及水文等多个方面的数据信息,所以在对采集到的数据进行相应的积累、存储时就需要进行特别的考虑,要充分考虑海洋测绘数据的不同特点,通过利用相应的技术来提高数据存储以及处理的效率,同时也要保证数据的安全性,以及确保海洋测绘数据的稳定性。不同于以往的单一的海洋测绘,现如今的海洋测绘会采集到种类繁多的测绘数据,在这些数据中一般包括海底的地形数据、海岸带的遥感数据以及海岸线的测量数据等。对于不同种类的数据一般都具有不同的数据特点,在对这些数据进行处理的时候就需要充分考虑到数据之间存在的差异性。

3 大数据技术下海洋测绘数据的存储与挖掘

3.1 数据的存储分析

对于采集到的海洋测绘数据,一般都会先保存在本地系统之中,然后在大数据技术的支持下,借助Hadoop 所提供的API 将采集到的有关数据上传到HDFS 文件系统中。对于测绘过程中所布置不同的测绘点而言,在大数据技术下能够以一个统一的身份将采集到的海洋测绘数据传送到HDFS 文件系统中,并且能够成功上传到HDFS 文件系统的数据一般都是以一种透明的组织形式存在的,即HDFS 文件系统会与本地存储系统拥有一个对应的位置,而采集到的海洋测绘数据会不间断地传送到这个位置上,同时会按照固定的时间间隔传送到HDFS 文件系统中[4]。数据传送到HDFS 文件系统的过程如图2所示。

图2 数据传送到HDFS 文件系统的过程图

3.2 数据挖掘分析

经过一系列的过程将采集到的海洋测绘数据上传到HDFS 文件系统中后,就要面对存储的大量的海洋测绘数据进行相应的数据挖掘分析,从而找到有价值并满足相关需求的数据信息,而在这个过程中就会用到相应的数据挖掘工具。

数据挖掘工具的管理层主要作用是用于海洋测绘数据和用户之间进行信息交互的交互界面,相关用户通过借助数据挖掘工具的管理层,就可以实现对采集到的海洋测绘数据进行上传、下载或者浏览等操作,从而对数据进行有效的处理。数据挖掘工具的计算层通常会给用户提供常用的数据挖掘分析算法,用户通过使用相应的和数据挖掘分析算法,就可以对大量的海洋测绘数据进行相应的计算,从而得到自己需要的数据信息。而用户通过数据挖掘工具的存储层,可以借助HDFS 文件系统对海洋测绘数据相关的文件进行很好的保存,并且在存储大量的海洋测绘数据的同时,也能够实现数据的冗余备份。

通常在进行数据挖掘的时候,Hadoop 分布式计算平台中的HDFS 分布式文件系统内,并没有与之相关的文件,这个时候就需要将海洋测绘数据上传到HDFS 文件系统中。在对大量的海洋测绘数据进行相应的数据挖掘后,就会得到相应的中间文件和结果文件,这两种文件也都是保存在HDFS 文件系统中,如果用户想要在本地对这些文件进行访问来获取相应的信息,就需要再将这些文件下载到本地的文件系统中,然后进行相应的查询[5]。

4 结束语

由于我国的海洋面积辽阔,在进行海洋测绘的过程中就会出现种类繁多并且复杂的数据,海量的海洋测绘数据在存储方面也是值得重点关注的问题,而在当今计算机信息技术和物联网技术快速发展的背景下,大数据技术已经普遍的应用于社会中的多个领域,在数据的处理方面表现出强大的能力。

在本文中介绍了在海洋测绘过程中所应用到的大数据技术,对目前情况下常常用到的大数据技术做了相应的介绍,其中应用最广泛的是大数据技术是Hadoop 技术。用户可以很好地对采集到的海洋测绘数据进行存储、处理等操作,在海洋测绘数据的处理上表现出了很大的优势。本研究结论针对海量的海洋测绘数据所存在的复杂性、异构性,采用具有并行存储、分布数计算等特点的大数据技术,能够帮助用户有效地解决海洋测绘数据所存在的问题,从而为海洋资源的开发和利用提供相应的保障。

猜你喜欢
海量数据挖掘测绘
一种傅里叶域海量数据高速谱聚类方法
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
浙江省第一测绘院
海量快递垃圾正在“围城”——“绿色快递”势在必行
工程测绘中GNSS测绘技术的应用
04 无人机测绘应用创新受青睐
无人机在地形测绘中的应用
一个图形所蕴含的“海量”巧题
一种基于Hadoop的大数据挖掘云服务及应用