叶仁道+黄靓莹
【摘 要】 为获取船舶停泊行为规律,以大连港、天津港、青岛港、德国罗斯托克港、巴西桑托斯港和荷兰格罗宁根港等全球六大港口水域为例,基于Hive数据仓库和R语言平台,利用网格化DBSCAN算法,提取船舶在各港口水域停泊点位置、面积等信息,进而基于停泊点可视化结果,验证这六大港口实时可视化结果与基于历史数据挖掘结果相符。研究成果有助于保障港口水域船舶安全通航,亦为船舶交通管理系统智能化奠定基础,从而推动港口行业持续、健康发展。
【关键词】 船舶自動识别系统(AIS);数据挖掘技术;Hive数据仓库;网格化;空间密度聚类(DBSCAN)
0 引 言
港口作为海上交通枢纽及实现对外贸易往来的窗口,在促进地区经济发展方面起着重要作用。在世界经济全球化的今天,国际贸易量增长促进了港口行业的快速发展。在此背景下,加快港口水域船舶通航安全建设迫在眉睫,挖掘停泊点信息对于提高船舶安全通航至关重要。
借助数据挖掘技术和船舶自动识别系统(AIS),可对港口水域AIS数据进行深入数据挖掘,以获取船舶停泊行为规律。在船舶通航安全研究方面,现有研究较多考虑船舶交通流特征来分析船舶通航规律[1-2],未考虑停泊点作为港口水域运输枢纽在安全通航管理中的重要性。鉴于此,本文基于Hive数据仓库和R语言平台,结合港口水域船舶交通特征和网格化具有噪声的空间密度聚类(DBSCAN)法,对大连港、天津港、青岛港、德国罗斯托克港、巴西桑托斯港和荷兰格罗宁根港等全球六大港口水域的停泊点位置、面积等信息进行数据挖掘,进而基于动态船舶地图上的停泊点可视化,从停泊点面积、经纬度偏差两个方面,对比这六大港口实时可视化停泊点位置与历史数据挖掘结果比对,验证本文研究方法的有效性、合理性。
1 六大港水域船舶交通情况
船舶停泊点包括港口和锚地,其中:港口是船舶安全往来的运输枢纽,在国际贸易和运输系统中发挥着重要作用;锚地是船舶停靠泊位前的候泊场所,其大小在一定程度上影响船舶通航安全。[3] 因此,本文以全球具代表性的大连港、天津港、青岛港、德国罗斯托克港、巴西桑托斯港和荷兰格罗宁根港等六大港为例,利用AIS数据,对港口水域船舶停泊点进行数据挖掘。六大港口水域经纬度范围见表1,经纬度选取均在为提高数据利用率和算法运行效率,对六大港口水域AIS动态数据进行以下预处理:首先,从Hive数据仓库中导出2015年1月1日―5月31日数据,利用R语言平台进行数据清理,包括去除重复及异常数据;其次,基于船舶在停泊点附近具有船速趋于零的特征,筛选出船速等于零的AIS观测数据。各港口水域船舶观测量见表2,其中:天津港船舶观测量最多,累计达26 661 494艘次;桑托斯港船舶观测量最少,累计达1 952 459艘次。
2 船舶停泊点数据挖掘算法及步骤
基于网格化的划分构造了一个全新的独立数据空间,将大量原始数据点放进具有经纬度范围属性的网格单元中,从而减少聚类对象以及降低噪声。DBSCAN算法可以过滤低密度区域,发现稠密度样本区域,因此将网格划分法与DBSCAN算法相结合,提出船舶停泊点数据挖掘的思路和方法。
利用Hive数据仓库和R语言平台,建立基于网格化的DBSCAN算法,从船舶停泊行为角度数据挖掘分析船舶交通行为,分析海上船舶停泊点,具体步骤如下:
步骤1:针对清理后的AIS数据,将经纬度进行网格化操作。选定港口水域经纬度范围均为00*100个网格。
步骤2:统计每个网格内的船舶数、航行速度、船舶停泊时间等信息,其中,若一艘船舶在同一个网格内出现的天数为n,则记船舶数为n。
步骤3:设定网格单元船舶数阈值,对网格进行筛选。当网格内船舶数低于150艘时,不予保存。
步骤4:针对筛选后的网格,利用DBSCAN算法进行聚类,得到若干分类簇作为停泊点,密度聚类半径参数设定为0.02,最小目标数为3。
步骤5:基于DBSCAN结果,统计各分类的位置信息和船舶信息,并将数据挖掘结果与动态船舶地图上的停泊点参照位置(Marine Traffic网站港口标识位置)进行比对,验证研究方法的正确性和有效性。
3 实证分析
3.1 国内三大港口停泊点数据挖掘结果
基于网格化DBSCAN算法,挖掘大连港、天津港、青岛港国内三大港口水域的停泊点数据,分别挖掘出停泊点4个、5个和4个,详情见表3。
验证结果如下:
(1)大连港水域1~4号停泊点的面积分别为3.23 km2、56.70 km2、27.00 km2和54.40 km2,停泊点的船舶艘数分别为、、和,其中2号停泊点的面积和船舶艘数均为最大,1号停泊点的面积和船舶艘数均最小。通过比较停泊点的面积和停泊点的船舶艘数,认为运用DBSCAN算法所得的大连港停泊点面积大小与实际情况相符,进而将数据挖掘所得停泊点中心位置坐标与参照位置坐标进行对比,经度和纬度误差均在1 km内,这证明大连港停泊点数据挖掘结果是合理的。
(2)天津港水域1~5号停泊点的面积分别为5.10 km2、208.00 km2、21.00 km2、36.00 km2和6.00 km2,停泊点的船舶艘数分别为、、、和562;青岛港水域1~4号停泊点的面积分别为4.90 km2、117.00 km2、23.56 km2和11.20 km2,停泊点的船舶艘数分别为、、和。比较停泊点的面积和停泊点的船舶艘数,运用DBSCAN算法所得的天津港和青岛港停泊点面积大小与实际情况同样相符,进而比较中心位置坐标与参照位置坐标,经纬度误差均在可接受范围内,这证明天津港和青岛港的停泊点数据挖掘结果同样合理。
以动态船舶地图将停泊点数据挖掘结果进行可视化,进一步验证网格化DBSCAN结果的合理性。大连、天津、青岛这三大港口停泊点可视化结果见图1,从左至右分别为大连港、天津港、青岛港,其中:红色大矩形圈定本文研究水域范围内的实时动态船舶地图;红色数字代表挖掘所得停泊点的中心位置;黄色标志代表港口所在位置;标志代表处于在航状态的船舶,不同颜色对应不同类型船舶;菱形标志代表处于停泊状态的船舶。endprint
基于历史AIS数据挖掘所得停泊点(数字标识区域)基本上覆盖大连、天津、青岛这三大港口水域范围的实际停泊点(菱形标志密集区域)。天津港停泊点可视化结果表明,2号停泊点的停靠船舶数最多且覆盖面积最大,1号停泊点的停靠船舶数最少且覆盖面积最小,这与表3分析结果完全一致;同理,大连港和青岛港的停泊点可视化结果与表3分析结果同样一致,这说明大连、天津、青岛等国内三大港口水域停泊点的实时可视化结果与基于历史AIS数据挖掘结果相符。
3.2 国外港口停泊点数据挖掘结果
选择对德国罗斯托克港、巴西桑托斯港、荷兰格罗宁根港等3个国外港水域进行停泊点数据挖掘分析,得出3个国外港口水域的停泊點分别是2个、1个和6个,详情见表4。
验证结果如下:
(1)罗斯托克港水域1号和2号停泊点的面积分别为52.38 km2和7.80 km2,停泊点的船舶艘数分别为和475,其中1号停泊点的面积和船舶艘数均大于2号。通过比较停泊点的面积和停泊点的船舶数,运用DBSCAN算法所得的罗斯托克港停泊点面积大小与实际情况相符,将数据挖掘所得的停泊点中心位置坐标与参照坐标进行对比,结果表明:1号停泊点的2个坐标非常接近,而2号停泊点的中心位置坐标与参照坐标之间存在偏差。出现偏差的原因一方面与网页停泊点参考坐标信息的实时性相关,另一方面与该水域AIS船舶数据样本量少且不完整有关。总体而言,罗斯托克港数据挖掘结果较为合理。
(2)桑托斯港水域数据挖掘得出1个停泊点,面积为69.70 km2,船舶数为艘;格罗宁根港水域1~6号停泊点面积分别为3.15 km2、23.20 km2、1.80 km2、2.09 km2、8.74 km2和24.00 km2,船舶艘数分别为、、668、、和。对比停泊点面积和船舶艘数,运用DBSCAN算法所得的格罗宁根港停泊点面积大小与实际情况相符,将数据挖掘所得停泊点中心位置坐标与参照坐标进行对比,结果表明经纬度误差均在1 km内――桑托斯港和格罗宁根港停泊点数据挖掘结果同样合理。
对停泊点数据挖掘结果进行可视化,这3个港口停泊点可视化结果见图2(从左至右分别为罗斯托克港、桑托港、格罗宁根港)。类比国内港口停泊点可视化分析过程,得到如下结论:这3个国外港口水域停泊点的实时可视化结果与基于历史AIS数据挖掘的结果一致。
参考文献:
[1] 潘家财,邵哲平,姜青山.数据挖掘在海上交通特征分析中的应用研究[J].中国航海,2010(2):60-62.
[2] 朱飞祥,张英俊,高宗江.基于数据挖掘的船舶行为研究[J].中国航海,2012,(2):50-54.
[3] 郭晓清,黄建设.厦门港与我国主要港口竞争力的比较分析[J].中国航海,2015(4):121-124.endprint