段俊利
【摘 要】 随着我国对外经济贸易的快速发展,航运市场日益繁荣。为维护航运交通秩序,提高港口营运效率,并能够根据不同船型的航运市场现状作出相应调整,获得船舶精准类型就显得尤为重要。但目前只能通过购买入级船舶文件来获取船舶类型信息。本文提出一种基于AIS的静态数据进行船舶识别的算法,利用船长、船宽、左舷距、尾距以及吃水深度及其联合特征,利用机器学习分类算法,将集装箱船、散货船、杂货船从货船中识别出来。经过模型选择、参数调优之后的模型平均准确率为95%。
【关键词】 AIS静态数据 机器学习 船舶分类
1.引言
隨着我国航运业的快速发展,中国在船舶保有量和港口货运量方面跻身世界前列。船舶识别成为研究的重点之一。目前大多数船舶类型识别基于图形识别。蒋少峰等提出基于结构特征的SAR商用船舶分类算法[1],可对散货船、集装箱船和渔船进行分类;梁锦雄用BP神经网络对六类船舶的红外图像进行识别[2];赵亮等人利用卷积神经网络对数字船舶图像提取特征,然后融合HOG和HSV特征构建船舶图像特征,再用支持向量机方法对集装箱船、客船、渔船、军舰、帆船进行分类[3]。
本文创新性地提出了一种基于AIS静态数据的船舶分类识别方法,利用AIS静态数据中船长、船宽、左舷距、尾距、吃水深度以及长宽比、船宽与吃水深度比和船长与尾距比三个联合特征,利用机器学习分类模型,将集装箱船、散货船、杂货船从货船中识别出来。
2. AIS静态数据
2.1AIS静态数据
本文使用的是AIS静态数据,静态数据包括:MMSI(船舶唯一标识符)、time(收到静态数据包的时间)、shiptype(船舶类型)、length(船长)、width(船宽)、left(左舷距)、trail(尾距)、imo(船舶编号)、name(船名)、callsign(呼号)、draught(吃水)、destination(目的地)、eta(预抵港时间)。
2.2数据获取与清洗
利用Python语言读取AIS静态数据数据库文件,并将货船筛选出来。使用AIS静态数据中Name,IMO、MMSI三个字段与入籍船文件进行匹配,来获得船舶类型信息。并标记集装箱船为1,杂货船为2,散货船为3,其他船型为4。
3.机器学习分类算法
KNN是通过测量不同特征值之间的距离进行分类。如果一个样本在特征空间中K个最相似的样本中大多数属于某一个类别,则该样本也属于这个类别。
支持向量机一般来说是二分类模型,其基本模型是特征空间上的间隔最大的线性分类器,在解决多分类问题时使用“一对一”或者“一对其余”的策略,在解决非线性分类时表现比较好。
决策树是带有特殊含义的树结构,其每个根结点代表数据的特征标签,根据该特征不同的特征值将数据划分成几个子集,每个子集都是这个根结点的子树,然后对每个子树递归划分下去,而决策树的每个叶子结点则是数据的最终类别标签[4]。
随机森林属于集成学习,其基分类器是CART分类树,集成方法是Bagging。随机森林将多个基分类器投出最多票数的类别或者类别之一作为最终类别。随机森林可使用袋外分数来评估泛化能力。
4.实验分析及结果
本实验基于2016年8月1日的AIS静态数据,有效数据为15644条。将整理好的数据进行数据预处理。缺失数据较少,直接将缺失数据剔除,并利用标准差标准化方法对数据进行归一化处理。
本文利用scikit-learn基于树的特征提取进行特征选择,特征选择后保留的特征为:width、length、trail、trail/length、length/width五个特征。
分别建立KNN、支持向量机、决策树、逻辑回归以及随机森林五种分类模型。进行五折交叉验证,并使用f1-socre作为评价指标,随机森林分类效果最好,选择随机森林模型。
接下来使用网格搜索法对随机森林参数进行调优。最终的模型结果如表3.1所示。
5.结语
本文利用机器学习分类算法将集装箱船、散货船、杂货船从货船中识别出来。所用数据为AIS静态数据里面的五个原始静态特征以及联合特征,经过特征选择,模型选择,最终选择随机森林算法。实验结果表明本文算法对货船的精确分类具有很好的效果。
【参考文献】
[1] 蒋少峰,王超,吴樊,等.基于结构特征分析的COSMO-SkyMed图像商用船舶分类算法[J].遥感技术与应用,2014,29(4):607-615.DOI:10.11873/j.issn.1004-0323.2014.4.0607.
[2] 梁锦雄,王刻奇.基于BP神经网络的船舰目标识别分类[J].舰船科学技术,2015,37(3):206-209.DOI:10.3404/j.issn.1672-7649.2015.03.046.
[3] 赵亮,王晓峰,袁逸涛.基于深度卷积神经网络的船舶识别方法研究[J].舰船科学技术,2016,38(8):119-123.DOI:10.3404/j.issn.1672-7619.2016.08.025.
[4] 马景义,吴喜之,谢邦昌.拟自适应分类随机森林算法[J].数理统计与管理,2010,29(5):805-811.