一种基于AIS数据的航迹预测半监督学习方法研究

2023-05-30 06:27李昂欣崔良中
电脑知识与技术 2023年1期
关键词:聚类算法

李昂欣 崔良中

摘要:在对AIS数据结构进行分析基础上,开展AIS数据预处理。对比传统航迹预测方法,提出一种基于聚类和SVR的半监督学习法方法,该方法首先基于SVR对单一航迹回归模型得出目标航迹的回归预测结果,然后将回归预测结果带入聚类模型中,根據聚类的分类结果,用每一个航迹类区概率来矫正预测结果。通过长航期、短航期和近海区三类航迹数据发现,该方法具有更好的预测精度。

关键词: AIS数据;聚类算法;SVR;半监督学习;航迹预测

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2023)01-0013-03

1 概述

航迹预测对船舶、飞行器未来某个时间所处位置的预测。传统的航迹预测主要采用船舶当前目标航向、航速外推的方法,然而航迹数据往往规模巨大,且受大气海洋环境、周边运动目标等诸多因素影响,不能达到很好的预测精度。

为有效利用历史舰船自动识别系统 (Automatic Identification System,AIS)相关数据,提高航迹预测精度,提出一种先聚类,后回归的半监督学习方法,采用K-Means聚类算法对历史航迹数据进行有效分类,再采用支持向量回归模型(Support Vector Regression,SVR) 对当前航迹按照聚类结果进行分类,从而有效提升航迹预测精度,对监控海上目标行动意图,维护我国海洋权益具有重要意义。

2 AIS数据预处理

AIS系统是一种助航系统,由岸基设施和船载设备共同组成,是一种新型的集网络技术、现代通信技术、计算机技术、电子信息显示技术为一体的数字助航系统和设备,对海上通信和事故定位有很大帮助[1]。

AIS原始数据由甚高频通过网络以数字编码的方式进行广播,是一种离散而不容易被人们理解的数据,对舰船轨迹进行挖掘和分析研究的基础与前提是将这些原始数据进行分析并转换成一种结构化的数据[2,3]。所有首先要对其各个组成部分进行解码处理,才能解析所需要的水上移动通信业务标识码(Maritime Mobile Service Identify,MMSI) 、时刻(time) 、航速(sog) 、经度(lng) 、纬度(lat) 和航向(cog) 等各类信息,如表1所示。

经解析后的AIS数据由于其来源多样和操作人员有意或无意的错误,存在着数据格式不统一、数据质量差异大等问题,具体如下:

1) 重复。即连续两条数据完全一致,此类问题比较常见,处理方法比较简单,删除两条重复数据中的后一条即可。

2) 缺失。如某一行数据中某个属性数据为空等,对于缺失某些动态信息的数据,常用处理方法是利用三次样条插值进行填充。

3) 错误或异常。某些数据明显与客观事实不符,如航向超出0-3599、航速超出0-1022、相邻两条记录经度和纬度变化较大等(AIS航迹数据中航向、航速数值均为实际的10倍),此类数据都应该去除,否则会对实验结果产生不可忽视的影响。

针对上述AIS数据原始问题,需要进行针对性的预处理,整个预处理过程如图1所示。

3 航迹预测典型方法

国内外许多研究者都对航迹预测问题进行过研究,其方法大致分为两种:基于传统统计理论的预测方法和基于深度学习的航迹预测方法。

基于传统统计理论的航迹预测方法主要包括归分析预测方法、马尔科夫预测模型(Markov Model,HMM) 、卡尔曼滤波模型(Kalman Filter,KF) 和时间序列模型。林毅[4]提出了一种基于SVR回归的预测模型,回归预测是通过对历史数据进行研究,找出自变量与因变量两者间存在的关联性,然后建立数学模型用于预测;吴志建[5]等人根据马尔可夫线性估计理论,构建误差协方差估计矩阵,建立了航迹质量预测模型,航迹序列是随机性、离散性的时间序列,符合马尔科夫链特征;乔少杰[6]等人利用卡尔曼滤波模型(Kalman Filter,KF) 对轨迹进行预测,卡尔曼滤波模型是使用线性随机系统状态方程,将观测数据输入到系统中,然后通过最小均方误差估计准则对系统状态进行递推计算得到最佳估计。它不但可以对信号进行滤波和估计,还可以估计模型参数,因此卡尔曼滤波在航迹预测也得到了广泛的应用;时间序列模型的主要特点是它可以根据预测对象历史的动态变化趋势来揭示时间序列内部的本质规律,用于预测未来的发展,通常用于处理动态随机的序列数据。

基于深度学习的预测方法最直接的就是使用多层前反馈神经网络,也被叫作多层感知机(Multi-Layer Perceptron,MLP) 。BP(Back Propagation) 。具体的神经网络模型有基于BP神经网络的预测方法、基于船舶位置差值的预测、K-means聚类和BP神经网络的航迹预测模型。使用遗传优化算法与BP神经网络相结合的混合模型进行航迹预测,凭借遗传优化算法的全局搜索能力解决传统神经网络易陷入局部最优点的问题。李永等人[7]根据船舶航向的复杂特性以及船舶轨迹预测的精度和实时性的需求,从神经网络入手,提出了基于神经网络的船舶航迹预测方法,充分探索船舶时间序列数据背后的运动规律,进而实现航迹预测。

4 航迹预测的半监督学习方法

基于聚类-SVR的航迹预测半监督学习模型是以K-Means聚类算法和SVR回归算法为基础,首先基于SVR对单一航迹回归模型得出目标航迹的回归预测结果,然后将回归预测结果带入聚类模型中,根据聚类的分类结果,用每一个航迹类区概率来矫正预测结果,得到被预测舰船目标未来时间的位置信息。

基于聚类-SVR的航迹预测模型,航迹预测模型的建立可分为航迹聚类、航迹预测和综合预测模型三个步骤。

4.1 基于K-Means的航迹聚类算法

基于K-Means算法的航迹聚类方法,不同于传统的点距离计算,需要明确兩条航线的距离计算方法,在此基础上,进行聚类分类[8]。

1) 航线距离计算

2) 航迹聚类方法

4.2 基于SVR的航迹预测方法

4.3 聚类-SVR的航迹综合预测

5 预测精度分析与模型评估

对于回归问题通常使用均方差作为评价指标,对于分类问题可使用精度、查准率(P) ,查全率(R) ,F1指标等作为评价指标。对于航迹预测,采用基于聚类-SVR的半监督学习,应当采用均方差作为评价指标。选取中国南海某海区的AIS数据集,使用训练-测试数据集划分,对比传统的线性回归模型、SVR模型和本文使用的聚类-SVR模型,在长航期、短航期和近海区三种不同航行条件下,应用三种学习方法得到误差率。

可以发现:1) 聚类-SVR学习方法在三种航行条件下具有平均最好的预测精度;2) 聚类-SVR学习方法在近海区的预测精度最低,主要可能与近海区海洋环境复杂,船舶航迹规律性偏低有关;3) 聚类-SVR学习方法在长航期下与SVR模型精度相当偏弱,由于长航期线性规律比较强,而本模型考虑聚类分类偏离,导致精度有一定降低。

6 结束语

为有效利用航迹历史数据,提高海区船舶航迹预测精度,研究设计了一种基于AIS数据的聚类-SVR半监督学习方法,该方法在运用历史AIS数据进行聚类基础上,形成航行方向分类,再根据某单条航迹数据,进行SVR预测,并将预测结果按照聚类分类情况进行概率偏离优化,从而得到航迹预测点。该方法有效利用了海区历史AIS数据和当前单船舶历史航迹AIS数据,在长航期、短航期和近海区三种情况具有更好的预测精度。

参考文献:

[1] 李宾郎,段建丽,柴昱含.基于AIS的船舶航迹数据应用研究[J].长江信息通信,2021,34(12):30-33.

[2] 韩佳彤,李鹏宇.AIS数据的深入挖掘及拓展应用[J].珠江水运,2021(18):39-40.

[3] 陆思辰,陈卓然.利用AIS数据挖掘生成船舶航迹点方法研究[J].舰船科学技术,2021,43(8):46-48.

[4] 林毅.一种基于SVR回归的机场航迹预测方法[J].信息通信,2019,32(7):58-59.

[5] 吴志建,方胜良,吴付祥.雷达对目标探测航迹质量建模与仿真[J].系统仿真学报,2014,26(1):186-190.

[6] 乔少杰,韩楠,朱新文,等.基于卡尔曼滤波的动态轨迹预测算法[J].电子学报,2018,46(2):418-423.

[7] 李永,成梦雅.LSTM船舶航迹预测模型[J].计算机技术与发展,2021,31(9):149-154.

[8] 肖潇,邵哲平,潘家财,等.基于AIS信息的船舶轨迹聚类模型及应用[J].中国航海,2015,38(2):82-86.

[9] 王英林,葛文,何文峰,等.基于向量夹角余弦及IOWGA算子的组合预测方法及应用[J].勘察科学技术,2017(5):55-59.

【通联编辑:唐一东】

猜你喜欢
聚类算法
一种基于词嵌入与密度峰值策略的大数据文本聚类算法
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于弹性分布数据集的海量空间数据密度聚类