基于回归深度卷积网络的船舶图像与视频检测

2019-12-30 01:36黄志坚张成王慰慈

上海海事大学学报 2019年4期

黄志坚　张成　王慰慈

摘要：

为解决船舶图像与视频检测算法识别率低、实时性差的问题，提出基于回归深度卷积网络的船舶图像与视频检测方法。结合YOLOv2特征提取层和YOLOv3的特征金字塔网络（feature pyramid network， FPN）层思想设计新的网络结构，验证不同激活函数效果，采用聚类算法设计锚框大小。实验表明，相比于YOLO系列网络，本文的方法在船舶图像与视频检测中效果更好，在测试集上平均精度均值为0.920 9，召回率为0.981 8，平均交并比为0.799 1，在视频检测中每秒钟检测的帧数为78～80。為港口船舶智能管理和无人船视觉处理提供一种准确度高和实时性好的船舶检测方法。

关键词：

船舶检测; 回归深度卷积网络; YOLO; 港口管理; 无人船

中图分类号：U675.79文献标志码：A

收稿日期： 2018-11-07

修回日期： 2019-03-01

基金项目：国家自然科学基金（61403250）

作者简介：

黄志坚（1979—），男，江西九江人，高级工程师，博士，研究方向为控制算法，（E-mail）zjhuang@shmtu.edu.cn

Ship image and video detection based on regression

deep convolutional network

HUANG Zhijian1， ZHANG Cheng1， WANG Weici2

（1.Merchant Marine College， Shanghai Maritime University， Shanghai 201306， China;

2.The 711st Research Institute， China Shipbuilding Heavy Industry Group， Shanghai 201108， China）

Abstract：

In order to solve the problems of low recognition rate and poor real-time performance of ship image and video detection algorithm， a ship image and video detection method based on the regression deep convolutional network is proposed. Combining the YOLOv2 feature extraction layer and the YOLOv3 feature pyramid network （FPN） layer， a new network structure is designed， the effects of different activation functions are verified， and the anchor size is designed by the clustering algorithm. Experiments show that， compared with the YOLO series network， the proposed method is better in ship image and video detection. The mean average precision on the test set is 0.920 9， the recall rate is 0.981 8， the mean intersection over union is 0.799 1， and the number of frames detected per second is 78 to 80 in the video detection. It provides a ship detection method with high accuracy and good real-time performance for port ship intelligent management and unmanned ship visual processing.

Key words：

ship detection; regression deep convolutional network; YOLO; port management; unmanned ship

0 引言

随着我国经济飞速发展，以及对外贸易日益增长，航运事业的发展也开始向智能化迈进。借助于计算机视觉的船舶图像与视频检测已开始在港口监管服务以及无人船中应用。准确快速的检测方法，不仅对港口管理具有重要的意义，也能够保障无人船的安全行驶。

传统的船舶图像与视频检测分类方法多是基于船舶结构形状进行人工特征设计的方法：2014年蒋少峰等[1]提出基于结构特征的商用船舶分类算法;2016年YKSEL等[2]从三维船舶模型的轮廓图像中提取了船舶特征。这些研究虽然取得了较好的效果，但是在环境背景复杂、船体差异小的情况下不能得到较好的效果，且对船舶的多分类情况识别率不理想。

相对于传统的船舶图像与视频检测分类方法，深度卷积神经网络以其优越的性能在船舶检测分类应用中的地位越来越重要：2016年RAINEY等[3]利用深度卷积神经网络实现了对卫星船舶的分类;2017年戚超等[4]用8层卷积神经网络与支持向量机结合实现了对船舶的精细分类;2018年王新立等[5]通过改进卷积神经网络实现了船舶的目标检测。这些利用深度卷积神经网络的船舶检测分类方法都取得了不错的效果。

随着工程应用中对船舶检测分类的准确率和实时性的要求不断提高，本文提出基于回归深度卷积网络的船舶图像与视频检测方法，结合YOLO[6-8]系列网络，通过端到端的训练，最终在7类船舶图片上实现了定位精度高、平均准确率高、检测速度快的效果。

1 深度卷积神经网络

卷积神经网络最早是由加拿大多伦多大学的LeCun教授提出的，主要用于图像的识别。经过十多年的发展，卷积神经网络的深度和宽度不断增加，图像识别的准确率也不断提高。常用的卷积神经网络包括Lenet-5[9]、AlexNet[10]、VGG[11]、GoogLenet[12]、ResNet[13]和DenseNet[14]等。

卷积神经网络的基本结构见图1，主要由输入层、卷积层、池化层、全连接层和输出层组成。

1.1 输入层

输入层的功能是接收输入图像，并存储为矩阵

形式。假定卷积神经网络有L层，由x（l）代表第l层的特征，l=1，2，…，L。其中x（l）又由多个特征图组

成，可表示为x（l）=x（l）1，

x（l）2，…，x（l）j，j表示第l层的特征图数量，彩色图像对应的特征表示为

x（1）=x（1）1，x（1）2，

x（1）3，其中x（1）1、x（1）2和

x（1）3分别表示R、G和B通道的数据。

1.2 卷积层

卷积层的作用是通过卷积操作提取特征。经过合适的设计，随着卷积层的增加，网络的特征表达能力增强。

第l层卷积层的特征图x（l）j通过以下方式计算：

式中：k（l）i，j和b（l）j分别表示卷积核和卷积层的偏移量;

G（l）i，j表示该卷积层与前一层特征图之间的连接矩阵，

G（l）i，j取1时x（l-1）i与x（l）j相关联，取0时无关联;符号代表卷积操作;函数f（·）表示激活函数。

1.3 池化层

池化层一般设在卷积层后面，池化操作保持了一定的空间不变性，第l层的池化层的特征图x（l）j计算式为

x（l）j=px（l-1）j（2）

式中：p（·）表示池化操作。

1.4 全连接层

全连接层设置在特征提取层后面，将提取的深层特征映射为特征向量，全连接层之间的特征向量x（l）计算式为

x（l）=fw（l）x（l-1）+b（l）（3）

式中：w（l）表示权重;b（l）表示偏移量;f（·）表示激活函数。

1.5 损失函数

卷积神经网络通过前向传播获得预测值，通过损失函数计算預测值的误差，在图像分类中常用的损失函数交叉熵损失计算式为

C=-1nxyln +（1-y）ln（1-）

（4）

式中：x表示样本;y表示预测的输出;表示实际输出;n表示样本总数量。

2 本文设计的网络结构

常用的深度卷积神经网络可以分为两类：（1）基于区域提名的RCNN（region-based convolutional neural network）[15]、Fast-RCNN[16]和Faster-RCNN[17]等;（2）基于回归的ssd[18]、YOLO[6]、YOLOv2[7]和YOLOv3[8]等。基于回归的深度卷积神经网络将卷积神经网络作为回归器，将待检测图像看成一个候选区输入卷积神经网络，回归目标在待检测图像中的位置信息，通过端到端的训练，快速获得最终的边界框和分类结果。

本次研究结合目前流行的回归深度卷积网络YOLO系列，针对YOLOv2检测效果不理想以及YOLOv3网络庞大、训练识别速度慢的缺点，利用YOLOv2的特征提取层和YOLOv3的特征金字塔（feature pyramid network，FPN）层思想设计新的网络，验证不同激活函数的效果，采用聚类算法设计锚值，在船舶图像与视频检测上取得了较高的准确率和良好的实时性。研究得到的的网络结构见图2。该网络主要由3部分组成：特征提取层、FPN层和预测层，具体介绍如下。

由表2可知：本文设计的网络结构在3个评价指标上均超过了其他两个网络。

3.3 激活函数的有效性验证

为测试激活函数的影响，结合本文设计的网络结构，选取Relu、Elu和Leaky-Relu激活函数作为对比，在测试集上得到表3所示的结果。由于Leaky-Relu激活函数检测效果更好，且比Elu激活函数的运算量更小，故选取Leaky-Relu作为激活函数。

3.4 网络效果展示

为达到更好的网络效果，在训练网络时，首先加载使用Imagenet[19]数据集预训练得到的特征提取层权重参数，然后继续训练本文设计的网络和YOLOv3、YOLOv2。通过在测试集上进行测试以及对视频进行测试，最终得到的结果见表4。

可以看出，本文设计的网络在使用预训练权重时平均精度均值稍低于YOLOv3，但是其他指标均优于YOLOv3，尤其在视频检测速度上比YOLOv3的优势更明显。本文设计的网络除视频检测速度略低外，其他各项指标均优于YOLOv2。本文设计的网络检测效果代表性结果见图5。

用本文设计的网络对一张有多艘渔船的图片进行检测，并与用YOLOv3和YOLOv2检测得到的结果做对比。由图6可知，本文设计的网络取得了更好的效果。

4 结束语

基于计算机视觉中目标检测技术的理论基础，结合回归深度卷积网络YOLO系列，利用YOLOv2和YOLOv3各自的优势，设计新的网络结构，验证不同激活函数对检测效果的影响，聚类产生锚值大小，将得到优化的回归深度卷积网络用于对船舶图像与视频的检测，为港口智能化管理和无人船的安全行驶提供了可靠性强、实时性好的视觉信息处理方法。尽管受限于数据集，只做了7种类别的检测，但本文的方法具有一定的指导意义。

参考文献：

[1]蒋少峰，王超，吴樊，等. 基于结构特征分析的COSMO-SkyMed图像商用船舶分类算法[J]. 遥感技术与应用， 2014， 29（4）： 607-615. DOI： 10.11873/j.issn.1004-0323.2014.4.0607.

[2]YKSEL G K， YALITUNA B， TARTAR F， et al. Ship recognition and classification using silhouettes extracted from optical images[C]//Signal Processing and Communication Application Conference. IEEE， 2016： 1617-1620. DOI： 10.1109/SIU.2016.7496065.

[3]RAINEY K， REEDER J D， CORELLI A G. Convolution neural networks for ship type recognition[C]//Automatic Target Recognition XXVI. International Society for Optics and Photonics， 2016， 9844： 984409.

[4]戚超，王曉峰. 基于卷积神经网络的运输船舶分类识别方法[J]. 微型机与应用， 2017， 36（17）： 52-55. DOI： 10.19358/j.issn.1674-7720.2017.17.015.

[5]王新立，江福才，宁方鑫，等. 基于改进卷积神经网络的船舶目标检测[J]. 中国航海， 2018， 41（2）： 41-45. DOI： CNKI：SUN：ZGHH.0.2018-02-009.

[6]REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE， 2016： 779-788. DOI： 10.1109/CVPR.2016.91.

[7]REDMON J， FARHADI A. YOLO9000： better， faster， stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE， 2017： 7263-7271. DOI： 10.1109/CVPR.2017.690.

[8]REDMON J， FARHADI A. YOLOv3： an incremental improvement[J]. arXiv： 1804.02767， 2018.

[9]LECUN Y， BOTTOU L， BENGIO Y， et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE， 1998， 86（11）： 2278-2324. DOI： 10.1109/5.726791.

[10]KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM， 2017， 60（6）： 84-90. DOI： 10.1145/3065386.

[11]SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv： 1409.1556， 2014.

[12]SZEGEDY C， LIU Wei， JIA Yangqing， et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE， 2015： 1-9. DOI： 10.1109/CVPR.2015.7298594.

[13]HE Kaiming， ZHANG Xiangyu， REN Shaoqing， et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE， 2016： 770-778. DOI： 10.1109/CVPR.2016.90.

[14]HUANG Gao， LIU Zhuang， VAN DER MAATEN L， et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE， 2017： 4700-4708. DOI： 10.1109/CVPR.2017.243.

[15]GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE， 2014： 580-587. DOI： 10.1109/CVPR.2014.81.

[16]GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. IEEE， 2015： 1440-1448. DOI： 10.1109/ICCV.2015.169.

[17]REN Shaoqing， HE Kaiming， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. IEEE， 2015： 91-99. DOI： 10.1109/TPAMI.2016.2577031.

[18]LIU Wei， ANGUELOV D， ERHAN D， et al. SSD： single shot multibox detector[C]//European Conference on Computer Vision. Springer， Cham， 2016： 21-37. DOI： 10.1007/978-3-319-46448-0_2.

[19]RUSSAKOVSKY O， DENG Jia， SU Hao， et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision， 2015， 115（3）： 211-252. DOI： 10.1007/s11263-015-0816-y.

（編辑贾裙平）