基于宽度学习系统的内河航道船舶轨迹分类算法

2021-10-08 04:57王颢程左毅李铁山王震宇
上海海事大学学报 2021年3期

王颢程 左毅 李铁山 王震宇

摘要:为解决内河航道中具有不同运动模式的船舶轨迹识别问题,提出一种基于宽度学习系统(broad learning system, BLS)的船舶轨迹分类算法。对通航区域进行划分并制定轨迹筛选规则以构建标签矩阵。利用分段三次Hermite插值法分别从轨迹点记录时间上等时距和轨迹点空间分布上等间距两个角度,从原轨迹数据中进行特征点坐标的提取以构建轨迹特征矩阵。将标签矩阵和轨迹特征矩阵代入BLS以实现分类算法的训练与测试。以京杭运河淮安段交叉航道AIS数据为实例,进行轨迹分类实验。结果表明,基于BLS的船舶轨迹分类算法在分类精度和训练耗时上均优于基于反向传播神经网络和支持向量机的轨迹分类算法。

关键词:  内河运输; 船舶轨迹; 轨迹分类; 宽度学习系统

中图分类号:  U675.79

文献标志码:  A

收稿日期: 2020-09-25

修回日期: 2020-12-07

基金项目:

国家自然科学基金(51939001,61976033,U1813203,61803064,61751202);中央高校基本科研业务费专项资金(3132019345);辽宁省自然科学基金(2019-ZD-0151,2020-HYLH-26);辽宁省兴辽英才计划(XLYC1807046,XLYC1908018);大连市科技創新基金(2018J11CY022)

作者简介:

王颢程(1995—),男,辽宁辽阳人,硕士研究生,研究方向为交通信息工程及控制,(E-mail)buttonwxc@sina.com;

左毅(1981—),男,辽宁沈阳人,副教授,博导,博士,研究方向为计算机应用技术,(E-mail)zuo@dlmu.edu.cn;

李铁山(1968—),男,辽宁锦州人,教授,博导,博士,研究方向为智能船舶控制理论与技术、非线性系统智能控制理论与应用研究,(E-mail)tieshanli@126.com

Classification algorithm of ship trajectory in inland

waterways based on broad learning system

WANG Haochenga,b, ZUO Yia,b, LI Tieshana,b, WANG Zhenyua,b

a. Navigation College; b. Maritime Big Data & Artificial Intelligent Application Centre, Dalian Maritime

University, Dalian 116026, Liaoning, China)

Abstract: In order to solve the problem of identifying ship trajectories with different motion patterns in inland waterways, a ship trajectory classification algorithm based on the broad learning system (BLS) is proposed. The navigation area is divided and the trajectory selection rules are formulated to construct the label matrix. The piecewise cubic Hermite interpolation algorithm is used to extract the characteristic point coordinates from the original trajectory data from the perspectives of the equal time interval in the recording time and the equal space interval in the spatial distribution to construct the trajectory characteristic matrices. In order to train and test the classification algorithm, the label matrix and trajectory characteristic matrices are put into the BLS.The AIS trajectory data of the Huaian section of the Beijing-Hangzhou Canal are selected for the trajectory classification experiment. The result shows that the ship trajectory classification algorithm based on the BLS is superior to those based on the back propagation neural network and the support vector machine in classification accuracy and training time.

Key words: inland waterway transport; ship trajectory; trajectory classification; broad learning system

0 引 言

加快内河水运发展已经成为我国国家战略,建成畅通、高效、平安、绿色的现代化内河水运体系势在必行。而随着内河水运的不断发展,船舶交通量越来越大,通航饱和度逐渐升高,使得内河通航水域海事安全监管面临更大挑战[1]。船舶自动识别系统(automatic identification system,AIS)的普及使得航运安全监管的研究拥有了原始数据的支持[2],使得对于船舶异常行为识别、通航量预测、船舶轨迹追踪等方面的航迹数据分析成为可能[3],而对航迹数据进行分析的重要环节之一即是对船舶轨迹信息的分类。

船舶轨迹分类方法主要包括机器学习算法中无监督学习的聚类算法和有监督学习的分类算法。在无监督学习的聚类算法方面:MA等[4]通过利用轨迹单向距离构建轨迹间相似度矩阵[5],提出一种基于谱聚类的船舶运动模式识别算法。魏照坤[6]利用最小描述长度准则将原始轨迹划分为若干个子轨迹,通过简化的Hausdorff距离计算法度量了不同子轨迹段间的相似性,最后利用具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise, DBSCAN)[7]完成了对具有不同运动模式的船舶轨迹的区分。SHENG等[8]在上述方法的基础上,提出一种利用综合距离函数计算轨迹结构相似性的DBSCAN,同样实现了对具有不同运动特征的船舶轨迹的分类。然而,上述基于密度的聚类方法需要设置的阈值较多,且尚不能分析单条完整轨迹的运动特点。在有监督学习的分类算法方面:刘磊等[9]提出一种轨迹间综合距离计算方法,并结合K近邻(K-nearest neighbor, KNN)算法完成了船舶轨迹的分类。综合距离的计算需综合考虑轨迹点坐标、航向、航速等多种因素,还需要人为设定各因素的权值,且对原始数据的完整性及准确度要求较高。CHEN等[10]将轨迹的原始数据用最小二乘三次样条曲线近似(least-squares cubic spline curves approximation, LCSCA)表示后构建稀疏表示分类法(sparse representation classification, SRC)的字典矩阵,根据残差最小化原则完成了轨迹类别的判断。LCSCA算法解决了分类算法的轨迹点特征矩阵维度统一问题,但各轨迹近似表示后的取点数量会受到算法限制,且在构建SRC的字典矩阵时每类轨迹的数量均需相同。

上述方法在实际操作中往往需要对原始数据进行多方面的信息统计,需要人为设置的阈值较多,对原始数据的完整性要求較高。针对以上问题,本文提出一种基于宽度学习系统(broad learning system,BLS)的内河航道船舶轨迹分类算法。首先,对研究区域进行子区域划分,从AIS数据库中筛选出可用的轨迹数据并作标记,以构造标签矩阵。然后,对轨迹数据进行特征提取。考虑到研究区域的地形、通航规则以及AIS数据上传频率对原始轨迹数据的影响,利用分段三次Hermite插值法分别从轨迹点记录时间上等时距和轨迹点空间分布上等间距这两个角度对原始轨迹数据进行特征点坐标提取并构建轨迹特征矩阵,供分类模型选择。为完善轨迹特征矩阵的构建,利用特征点坐标值之差定义并计算各特征点以圆周法表示的航迹向值。最后,切分轨迹特征矩阵及标签矩阵以构成多组训练集和测试集样本并代入BLS网络进行交叉验证,完成分类模型的训练与测试,从而实现对AIS轨迹数据的自动分类。以京杭运河淮安段交叉航道的AIS轨迹数据为例对所提分类算法进行验证。

1 基于BLS的船舶轨迹分类算法

1.1 轨迹特征矩阵的构建

AIS数据库中各轨迹的数据长度可能不同,因此不能直接利用原始数据构造轨迹特征矩阵进行分类。考虑到轨迹曲线无法用一条曲线直接表示,利用一种分段多项式插值法从各轨迹上提取相同数量的特征点以统一各轨迹特征向量的维度。常用的分段多项式插值法包括分段线性插值、三次样条插值和分段三次Hermite插值[11]。分段线性插值简单易行,但曲线不光滑且精度不高,故不适用于针对船舶轨迹数据的插值。三次样条插值获得的曲线光滑度较高,但求解代价较大,精确度受端点导数条件影响,且有时会出现插值越界现象。而分段三次Hermite插值通过构造适当的插值节点导数计算方法可以有效地解决上述问题[12],因此本文采用该插值法。为增加分类模型对于原始轨迹数据的鲁棒性,分别从轨迹点记录时间上等时距和轨迹点空间分布上等间距这两个角度对轨迹数据进行特征点提取,以构建轨迹特征矩阵。

1.1.1 等时距提取轨迹特征点

等时距提取轨迹特征点时,分段三次Hermite插值法以轨迹点的记录时间(协调世界时,UTC)为自变量,分别求解轨迹点经度和纬度在各时间段内的插值函数[13]。最后,将该轨迹记录时间段均分后取得的时间数列分别代入经度和纬度在对应时间段内的插值函数,即可求解该轨迹等时距提取特征点后的各点坐标值。下面以经度的插值为例,介绍分段三次Hermite插值法的具体实现过程。

设某条轨迹的轨迹点坐标向量为

R

=((x1,y1),(x2,y2),…,(xn,yn)),轨迹点记录时间向量为

T=(t1,t2,…,tn)。其中,xi和yi分别为第i个轨迹点的经度和纬度,ti为第i个轨迹点的记录时间。记该轨迹上某两个相邻轨迹点的记录时间段为[tj,tj+1],则tj、tj+1、xj、xj+1均为已知量,j=1,2,…,n-1。此外,记tj和tj+1时刻轨迹点的经度对记录时间的一阶导数分别为vxj和vxj+1。根据分段三次Hermite插值,该时间段上的三次插值函数可设为

Xj(t)=ajt3+bjt2+cjt+dj

式中:aj、bj、cj、dj均为未知量。由于该三次多项式一阶可导,则有

vXj(t)=dXj(t)dt=3ajt2+2bjt+cj

通过求解线性方程组:

xj=ajt3j+bjt2j+cjtj+dj

xj+1=ajt3j+1+bjt2j+1+cjtj+1+djvxj=3ajt2j+2bjtj+cjvxj+1=3ajt2j+1+2bjtj+1+cj

即可得到待定系数aj、bj、cj、dj的值。然而,由于从原始轨迹数据中无法获得轨迹点经度对时间的导数vxj、vxj+1,这里使用一种利用经度数据在前后相邻的轨迹点记录时间段的一阶差商进行加权的方式对导数进行近似计算[12]。

如图1所示,对于三次插值函数的所有中间节点(xk,tk),k=2,3,…,n-1,记其在前后相邻两个轨迹点记录时间段的一阶差商分别为δk、δk+1,则有

δk=xk-xk-1tk-tk-1

δk+1=xk+1-xktk+1-tk

记该节点前后相邻两个时间段的权值分别为ωk、ωk+1,则有

ωk=131+tk-tk-1tk+1-tk-1

ωk+1=131+tk+1-tktk+1-tk-1

该节点处的一阶导数vxk可近似计算为

vxk=

δkδk+1ωkδk+ωk+1δk+1,δkδk+1>0

0,δkδk+1≤0

由于端点处只能获得一侧时间段的一阶差商,上述加权求解的方式不再适用,故特别令端点处的一阶导数与其相邻时间段的一阶差商相等,即

vx1=δ2

vxn=δn

经上述计算,该轨迹的经度值在各记录时间段的插值函数可表示为

X(t)=X1(t),t∈[t1,t2]

X2(t),t∈[t2,t3]

Xn-1(t),t∈[tn-1,tn]

同理可得纬度值在各记录时间段的插值函数:

Y(t)=Y1(t),t∈[t1,t2]

Y2(t),t∈[t2,t3]

Yn-1(t),t∈[tn-1,tn]

设该轨迹按等时距划分的分段数为p,则提取的各特征点的时间值可表示为

t′m=t1+(m-1)(tn-t1)/p

式中:m=1,2,…,p+1。该轨迹按等时距提取的特征点坐标向量可表示为:Rt=((X(t′1),Y(t′1)),(X(t′2), Y(t′2)),…,(X(t′p+1),Y(t′p+1)))。图2为某轨迹数据分段数p分别取10和20时的等时距提取特征点效果图。从图2可知,等时距提取该轨迹特征点时,分段三次Hermite插值法能够较好地描绘出该轨迹的特征。

a)原始轨迹数据

b)p=10

c)p=20

将从所有轨迹数据中提取出的特征点坐标向量按行排列,即可完成轨迹特征矩阵的构建。设共有

M

条轨迹,则等时距构造的轨迹特征矩阵

Xt=

Rt,1

Rt,2

Rt,M=

X(t′1,1)Y(t′1,1)…X(t′p+1,1)Y(t′p+1,1)

X(t′1,2)Y(t′1,2)…X(t′p+1,2)Y(t′p+1,2)

X(t′1,M)Y(t′1,M)…X(t′p+1,M)Y(t′p+1,M)

1.1.2 等间距提取轨迹特征点

与上述分别求解经度和纬度对于时间的插值函数的思路不同,对轨迹等间距提取特征点时,分段三次Hermite插值法以轨迹点的经度为自变量,求解纬度在各轨迹点经度区间内的插值函数。最后,根据曲线长度公式对插值曲线等长分段,各段的端点即该轨迹等间距提取的特征点。具体实现过程如下。

同样记某轨迹的轨迹点坐标向量为:

R=((x1,y1),(x2,y2),…,(xn,yn))。记该轨迹某两个相邻的轨迹点Pj(xj,yj)、Pj+1(xj+1,yj+1)的经度区间为[xj,xj+1],j=1,2,…,n-1。若xj≠xj+1,则记此两点处纬度对经度的导数为vyj和vyj+1。根据分段三次Hermite插值,该经度区间上的三次插值函数及其导数分别为

Fj(x)=ejx3+fjx2+gjx+hj

vFj(x)=dFj(x)dx=3ejx2+2fjx+gj

通过求解线性方程组:

yj=ejx3j+fjx2j+gjxj+hjyj+1=ejx3j+1+fjx2j+1+gjxj+1+hjvyj=3ejx2j+2fjxj+gjvyj+1=3ejx2j+1+2fjxj+1+gj

可得到待定系數ej、fj、gj、hj。若xj=xj+1,插值函数表达式为

x=xj (yj≤y≤yj+1)

经上述计算,各轨迹点间的插值函数可表示为

Fj(x), xj≠xj+1x=xj, xj=xj+1

获得各轨迹点间的插值函数表达式后,即可根据曲线长度公式计算各段插值函数的曲线长度。如图3所示,记轨迹点Pj(xj,yj)与Pj+1(xj+1,yj+1)间的插值函数曲线长度为Sj,函数Fj(x)的导函数为F′j(x),则有

Sj=

∫xj+1xj(1+F′2j(x))1/2dx,xj≠xj+1

yj+1-yj,xj=xj+1

设该轨迹按等间距划分的分段数为p,等间距分段的长度阈值为S′m,则S′m可表示为

S′m=1p(m-1)n-1j=1Sj

式中:m=1,2,…,p+1。从轨迹点P1(x1,y1)开始,沿插值函数曲线计算累计曲线长度l。当l≥S′m时,记录此处的坐标值(x′m,y′m)作为第m个特征点的坐标,则该轨迹等间距提取的特征点坐标向量可表示为

Rs=((x′1,y′1),(x′2,y′2),…,(x′p+1,y′p+1))。图4为把第1.1.1节示例轨迹分成段数p(分别取10和20)的等间距提取特征点效果图。由图4可知,利用分段三次Hermite插值法能够在空间分布上等间隔地提取出该轨迹的特征点。

将从所有轨迹数据中提取出的特征点坐标向量按行排列,即可完成轨迹特征矩阵的构建。设共有M条轨迹,则等间距构造的轨迹特征矩阵

Xs=

Rs,1

Rs,2

Rs,M=x′1,1y′1,1…x′p+1,1y′p+1,1x′1,2y′1,2…x′p+1,2y′p+1,2

x′1,My′1,M…x′p+1,My′p+1,M

1.1.3 包含航迹向信息的轨迹特征矩阵构建

为充分利用提取的特征点信息,用特征点坐标值计算各特征点以圆周法表示的航迹向值以完善轨迹特征矩阵的构建。如图5所示,以等间距提取轨迹特征点为例,当轨迹分段数为p时,记提取的前p个特征点为P′m(x′m,y′m),m=1,2,…,p。定义P′m真北方向与它与下一个特征点P′m+1连线的顺时针夹角作为特征点P′m的航迹向dm,其取值范围为 [0°,360°)。特别地,定义轨迹末端的特征点P′p+1的航迹向与点P′p的航迹向相同,即dp+1=dp。

记包含航迹向信息的特征点坐标向量为

Rsd,则该向量可表示为

Rsd=((x′1,y′1,d1),(x′2,y′2,d2),

…,(x′p+1,y′p+1,dp+1))。设共有M条轨迹,则包含航迹向信息的等间距轨迹特征矩阵

Xsd=

Rsd,1Rsd,2

Rsd,M=

x′1,1y′1,1d1,1…x′p+1,1y′p+1,1dp+1,1x′1,2y′1,2d1,2…x′p+1,2y′p+1,2dp+1,2

x′1,My′1,Md1,M…x′p+1,My′p+1,Mdp+1,M

包含航迹向信息的等时距轨迹特征矩阵

Xtd可同理获得,

Xtd可表示为

Xtd=

Rtd,1

Rtd,2

Rtd,M=X(t′1,1)Y(t′1,1)d1,1…X(t′p+1,1)Y(t′p+1,1)dp+1,1X(t′1,2)Y(t′1,2)d1,2…X(t′p+1,2)Y(t′p+1,2)dp+1,2

X(t′1,M)Y(t′1,M)d1,M…X(t′p+1,M)Y(t′p+1,M)dp+1,M

1.2 BLS分类算法

BLS是由CHEN等[14]提出的一种基于随机向量函数链接神经网络(random vector functional - link neural network, RVFLNN)的增量式学习算法。由于BLS的训练过程无须反复迭代样本数据且通过岭回归求解伪逆的方式计算网络输出层权重矩阵,故与传统的反向传播神经网络和深度神经网络相比,BLS具有结构简单且建模准确的优势,并克服了训练时间长、易陷入局部最优及受参数初始化区域限制等一系列缺陷[15],十分適合训练数据量大且实时性要求较高的应用场景,如轨迹数据分类。BLS网络结构如图6所示,主要包括输入样本层、特征映射层、增强节点层和输出层,每层算法流程阐述如下。

1.2.1 特征映射层

设输入的训练数据矩阵为

X∈

RM×N,训练数据的标签矩阵为

Y∈

RM×C。通过n个特征映射函数i()将X映射为n组特征映射节点,设每组由k个节点组成,第i组特征映射节点

Zi可表示为

Zi=i(

XWei+

βei)

式中:

Wei∈

RN×k为随机生成并通过稀疏自编码器确定的最优特征映射权重矩阵,βei为其对应的偏置矩阵。在实际应用时,映射函数i()往往直接选择为线性映射函数。

1.2.2 增强节点层

将特征映射层获得的n组特征映射节点

Zi表示为

Zin=(

Z1,

Z2,…,

Zn),

Zin∈

RM×nk,并将

Zin与增强节点层相连,通过非线性函数

ξj()将

Zin映射为m组增强节点,设每组由q个节点组成,则第j组增强节点

Hj可表示为

Hj=

ξj(

Zin

Whj+

βhj)

式中:

Whj∈

Rnk×q为随机生成的增强节点权重矩阵,

βhj为其对应的偏置矩阵。增强节点的激活函数

ξj()可以选择为不同的非线性激活函数,如tansig函数、sigmoid函数、tanh函数等,从而达到充分提取输入数据特征信息的目的。不失一般性,第i个随机映射函数i()和第j个随机映射函数ξj()的下标在下文中予以省略。

1.2.3 输出层权重矩阵W的求解

将增强节点层的m组增强节点

Hj表示为

Hjm=(

H1,

H2,…,

Hm),

Hjm∈

RM×mq,并将特征映射节点组

Zin与增强节点组

Hjm合并表示为

A=(

Zin|

Hjm)

则BLS的输出结果可表示为

Y=

Z1,…,

Zn|ξ(

Zin

Wh1+

βh1),…,ξ(

Zin

Whm+

βhm))

W=(

Z1,…,

Zn|

H1,…,

Hm)

W=

Zin|

Hjm)

W=

AW

其中,

W为输出层的连接权值矩阵,则有

W=

A+

Y

其中,

A+为矩阵

A的伪逆矩阵。BLS通过求解

A+的岭回归近似解来对

A+进行计算,从而求得连接权值矩阵

W,完成模型训练,即

A+=limλ→0(λ

I+

AT

A)-1

AT

设输入的测试数据矩阵为

X′∈

RM′×N,经特征映射层和增强节点层处理后的输入矩阵记为

A′,训练后的BLS可根据式

Y′=

A′

W直接求出输出矩阵

Y′∈

RM′×C。

1.3 BLS轨迹分类模型的构造

利用BLS进行轨迹分类的重点在于轨迹

特征矩阵的构建。设每条轨迹的分段数为p,经等间距或等时距提取特征点后所构建的轨迹特征矩阵记为

X∈

RM×N(

X=

Xt,

Xs,

Xtd,

Xsd),轨迹特征矩阵的标签矩阵记为

Y∈

RM×C。其中,M为所有轨迹数据的条数,C为轨迹类别个数。

对轨迹特征矩阵及其标签矩阵进行划分,记训练集输入矩阵为

Xtrain∈

RM1×N,标签矩阵为

Ytrain∈

RM1×C;记测试集输入矩阵为

Xtest∈

RM2×N,标签矩阵为

Ytest∈

RM2×C,M=M1+M2。记BLS训练后的输出层权重矩阵为

W,测试集经特征映射层和增强节点层处理后的输入矩阵设为

Aout,则根据

Yout=

Aout

W可直接求得网络的输出矩阵

Yout∈

RM2×C。输出矩阵

Yout每行的C个输出值即为BLS求出的各条轨迹分别属于C个类别的概率,各行最大值所在位置索引即为各条测试轨迹所被判断的类别,与测试集标签矩阵

Ytest对比后即可得出测试集准确率。算法流程见图7。

2 实验及结果分析

以京杭运河淮安段交叉航道2018年6月至11月AIS数据进行轨迹分类实验。如图8所示,研究范围为33.38°N~33.53°N,119.05°E~119.22°E的矩形区域。所有在航船舶轨迹点的空间分布情况见图9。

首先,对研究区域进行子区域划分,从AIS数据库中提取出可用的轨迹数据并构建标签矩阵

Y。然后,为选出最优的分类模型,利用分段三次Hermite插值法分别从轨迹点记录时间上等时距和轨迹点空间分布上等间距这两个角度对原始轨迹数据进行特征点提取,构建轨迹特征矩阵

Xt、

Xs及其对应包含特征点航迹向信息的轨迹特征矩阵

Xtd、

Xsd。同时,为验证基于分段三次Hermite插值的轨迹特征提取算法的有效性,利用LCSCA算法进行轨迹特征提取,其所构建的轨迹特征矩阵分别记为

Xl和

Xld。最后,将轨迹特征矩阵和标签矩阵

代入BLS进行模型的训练与测试,并与反向传播神经网络(BPNN)和支持向量机(SVM)等目前常用的机器学习分类模型进行对比实验。经过参数优化,根据交叉验证所得的测试集平均准确率和耗时结果,选出最优的轨迹分类模型。实验流程见图10。

2.1 AIS数据预处理

为从AIS数据库中筛选出有效的轨迹数据,首先对实验区域进行子区域划分。如图11所示,研究区域被划分为A、B、C、D、E、F等6个子区域。其中,子区域A、B、C限定了各类别轨迹的起止范围,子区域D、E、F则使得属于各类别轨迹的船舶在一个航次内尽可能仅经过航道交叉处一次。

根据轨迹点的分布情况,将所有轨迹分为6类,分别为1号(B→A)、2号(C→A)、3号(A→B)、4号(C→B)、5号(A→C)和6号(B→C)轨迹。然后,根据划分的子区域制定轨迹筛选规则。例如:将属于某一MMSI的轨迹点数据按记录时间早晚逐行排列,若其中存在位于子区域B的轨迹点P1(x1,y1),并且在之后的24 h内存在位于子区域A的轨迹点且在此期间无轨迹点位于子区域D,则从P1开始逐行标记轨迹数据为“1”;若轨迹点Pn+1(xn+1,yn+1)不在子区域A内或虽在子区域A内但航向与轨迹点Pn(xn,yn)的相差超过90°,则停止标记。经上述规则筛选后,提取出的1号类别轨迹的轨迹点坐标向量R=((x1,y1),(x2,y2),…,(xn,yn))。经过筛选,共提取出1 007条轨迹的轨迹点坐标向量。依据类别标签构建该数据集的轨迹标签矩阵Y,其结构可表示為

Y=001000000010100000

式中,各行内数字“1”所在的位置索引(1~6)即为数据集中各条轨迹所属类别。各类别轨迹数量分布见表1,各类别轨迹的轨迹点空间分布见图12。

2.2 轨迹分类实验

2.2.1 实验数据集划分

为充分利用实验数据并尽可能避免过拟合现象,将所有轨迹特征矩阵和标签矩阵按行以相同顺序随机排列后,无重复地划分为4组(第一组251条,第二组252条,第三组252条,第四组252条)进行交叉验证实验。即每种轨迹特征矩阵和标签矩阵以其中1组的数据作为测试集输入矩阵,其余3组作为训练集输入矩阵,共进行4组实验并统计各组分类结果的平均值。

2.2.2 轨迹分段数的确定

构造轨迹特征矩阵前应确定所提取轨迹特征向量的维度,即确定轨迹分段数p的取值。首先,对BLS、SVM、BPNN等3种分类模型的部分关键参数进行初始化。对于BLS,特征映射节点组数设为6,特征映射节点层每组节点数设为5,增强节点组数设为10,增强节点层每组节点数设为10;对于SVM,惩罚系数C设为1.0,核函数设为RBF函数,核函数gamma值设为0.007,训练周期设为100;对于BPNN,网络结构设为包含5个节点的单隐层网络,激活函数设为ReLU函数,学习率设为0.002,训练周期设为100。然后,统计

Xl、

Xt、

Xs、

Xld、

Xtd、

Xsd这6种轨迹特征矩阵在取不同轨迹分段数p(取值范围为2~30;受LCSCA算法本身限制[10],

Xl和

Xld中p的最小值为5)进行构造时,各分类模型交叉验证后所得测试集的平均准确率。最后根据统计结果,选择在模型测试集平均准确率最高的基础上数值最小的p值作为该轨迹分类模型的轨迹分段数。统计结果见图13和表2。

不同轨迹分段数对应的分类模型测试集平均准确率

2.2.3 实验结果比较

完成各分类模型轨迹分段数的确定后,即可将

Xl、

Xt、

Xs、

Xld、

Xtd、

Xsd等6种轨迹特征矩阵分别代入BLS、SVM、BPNN等分类模型中进行模型训练和预测。对各分类模型通过网格化寻优进行调参,选取交叉验证后各分类模型测试集平均准确率最高的实验结果进行记录,结果见表3。

从表3可以看出,相比于SVM和BPNN,BLS在基于6种轨迹特征矩阵的分类实验中均有更高的测试集平均准确率和更少的训练时间。利用分段三次Hermite插值法构建的轨迹特征矩阵

Xt、

Xs、

Xtd和Xsd在各分类模型上表现均优于利用LCSCA算法构建的轨迹特征矩阵Xl和Xld。对于加入了特征点航迹向信息的轨迹特征矩阵Xtd、Xsd相比于未加入该信息的轨迹特征矩阵Xt、Xs,各分类模型的测试集平均准确率有了提升,其中以BPNN的提升效果最为显著。综合表2和3的实验结果可知,当轨迹分段数p=5,等间距构造包含特征点航迹向信息的轨迹特征矩阵Xsd且使用BLS进行分类时,实验取得了最好的分类效果(训练集平均准确率为99.50%,测试集平均准确率为98.91%),此时的轨迹分类模型即为最优模型。

2.2.4 最优轨迹分类模型结果分析

为具体评价最优轨迹分类模型在各类别轨迹上

的表现,以精确率(P)、召回率(R)和综合评价指标(F)来统计其在各类轨迹上的分类结果。精确率定义如下:

P=TpTp+Fp

式中:Tp为被模型判断为正的正样本数;Fp为被模型判断为正的负样本数。召回率定义如下:

R=TpTp+Fn

式中:Fn为被模型判断为负的正样本数。综合评价指标可用来综合度量精确率和召回率,其定义如下:

F=2PRP+R

当F值较高时,说明该模型在此类轨迹的分类上较为有效。

最优轨迹分类模型在测试集各类轨迹上的分类结果统计见表4。另外,为观察各组实验中该模型在各类轨迹上取得的F值的分布情况,制作各组实验F值结果的误差棒图(见图14)。其中,各误差棒的上下端横线和节点分别代表4组实验中该模型在各类轨迹上取得的最大、最小和平均F值。

由表4和图14可知,该最优轨迹分类模型对各类轨迹测试集的分类结果平均F值均在96以上,而其1号及3号类别轨迹的F值下限与其余4类轨迹的相比较低,但仍高于90,说明该模型能够对实验轨迹数据进行有效的分类。

3 结 论

对船舶轨迹进行分类是AIS数据分析的重要环节之一,其可对船舶异常行为识别、通航量预测、船舶轨迹追踪等提供技术上的支撑。由于手动标记并分类海量轨迹数据的工作量十分巨大,且AIS軌迹记录可能会因传输条件或人的因素而产生数据丢失或内容不完整的情况,所以十分有必要对有限的轨迹数据进行自动分类。本文提出一种基于宽度学习系统(BLS)的内河航道船舶轨迹分类算法,该算法可根据具体实验数据和实验区域的选择,利用分段三次Hermite插值法从等时距或等间距两种角度提取特征点以构造轨迹特征矩阵,将轨迹特征矩阵代入训练好的BLS即可完成对船舶轨迹的自动分类。为充分利用特征点位置信息,本文还提出一种基于特征点坐标值之差的特征点航迹向计算方法,以完善轨迹特征矩阵的构建。为验证算法的有效性,本文使用京杭运河淮安段的AIS数据作为实验数据进行了轨迹分类实验。结果表明,基于BLS的轨迹分类模型在测试集上的平均准确率最高可达98.91%,其在分类精度和训练耗时上均优于反向传播神经网络(BPNN)和支持向量机(SVM)等常用的轨迹分类模型。如何利用AIS数据对内河交叉航道内的船舶进行实时轨迹类别预测将是下一步的研究方向。

参考文献:

[1]

杨小军, 肖英杰, 冯宏祥. 航道关键段动态通航饱和度模型及其应用[J]. 上海海事大学学报, 2012, 33(1): 37-40. DOI: 10.3969/j.issn.1672-9498.2012.01.008.

[2]朱姣, 刘敬贤, 陈笑, 等. 基于轨迹的内河船舶行为模式挖掘[J]. 交通信息与安全, 2017, 35(3): 107-116, 132. DOI: 10.3963/j.issn.1674-4861.2017.03.014.

[3]朱飞祥, 张英俊, 高宗江. 基于数据挖掘的船舶行为研究[J]. 中国航海, 2012, 35(2): 50-54.

[4]MA Wenyao, WU Zhaolin, YANG Jiaxuan, et al. Vessel motion pattern recognition based on one-way distance and spectral clustering algorithm[C]//International Conference on Algorithms & Architectures for Parallel Processing. Springer, 2014: 461-469.

[5]LIN Bin, SU Jianwen. One way distance: for shape based similarity search of moving object trajectories[J]. Geoinformatica, 2008, 12(2): 117-142. DOI: 10.1007/s10 707-007-0027-y.

[6]魏照坤. 基于AIS的船舶轨迹聚类与应用[D]. 大连: 大连海事大学, 2015.

[7]肖潇, 邵哲平, 潘家财. 基于AIS信息的船舶轨迹聚类模型及应用[J]. 中国航海, 2015, 38(2): 82-86.

[8]SHENG Pan, YIN Jingbo. Extracting shipping route patterns by trajectory clustering model based on automatic identification system data[J]. Sustainability, 2018, 10: 2327-2339. DOI: 10.3390/su100 72327.

[9]刘磊, 初秀民, 蒋仲廉, 等. 基于KNN的船舶轨迹分类算法[J]. 大连海事大学学报, 2018, 44(3): 15-21. DOI: 10.16411/j.cnki.issn1006-7736.2018.03.003.

[10]CHEN Zhijun, XUE Jie, WU Chaozhong, et al. Classification of vessel motion pattern in inland waterways based on automatic identification system[J]. Ocean Engineering, 2018, 161: 69-76. DOI: 10.1016/j.oceaneng.2018.04.072.

[11]陳志军, 吴超仲, 吕能超, 等. 基于改进三次Hermite插值的车辆时空轨迹重构研究[J]. 交通信息与安全, 2013, 31(6): 43-46. DOI: 10.3963/j.issn.1674-4861.2013.06.009.

[12]张旭臣.分段三次Hermite插值在水文上的应用[J]. 南水北调与水利科技, 2009, 7(5): 92-94. DOI: 10.3969/j.issn.1672-1683.2009.05.026.

[13]LIU Lei, LIU Xinglong, CHU Xiumin, et al. Coverage effectiveness analysis of AIS base station: a case study in Yangtze River[C]//International Conference on Transportation Information and Safety. IEEE, 2017: 178-183.

[14]CHEN C L P, LIU Zhulin. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE Transactions on Neural Networks & Learning Systems, 2018, 29(1): 10-24. DOI: 10.1109/TNNLS.2017.2716952.

[15]贾晨, 刘华平, 续欣莹, 等. 基于宽度学习方法的多模态信息融合[J]. 智能系统学报, 2019, 14(1): 150-157. DOI: 10.11992/tis.201803022.

(编辑 贾裙平)