基于深度学习的水面目标检测模型压缩方法

2021-11-10 11:22:06李建祯杨晓飞
扬州大学学报(自然科学版) 2021年3期
关键词:锚点准确度卷积

叶 浩, 李建祯, 杨晓飞

(江苏科技大学电子信息学院, 江苏 镇江 212003)

随着内河运输的发展, 港口愈发拥挤,实时监管航道及港口以保障运输通畅的需求日益迫切.为进一步提高航道及港口的智能化管理水平,及时应对突发状况,可利用无人艇或无人机对无闭路电视监控系统覆盖的区域进行探查, 但须确保无人艇或两栖航行器能自主航行或降落至目标区域, 故水面目标的自主检测和识别尤为重要.目标检测的代表性算法主要有以区域卷积神经网络(region-convolutional neural networks, R-CNN)[1]为基础的Fast-RCNN和Faster-RCNN算法[2], Redmon等提出的YOLO系列算法[3], 以及SSD算法[4].其中, YOLOv3算法在船舶检测领域的应用最为广泛.王玺坤等[5]通过在YOLOv3上加入特征映射模块和残差模块,实现对舰船的有效检测; 胡昌华等[6]通过重新设计YOLOv3网络的残差单元并改进特征金字塔, 实现复杂环境下雷达图像舰船小目标的准确检测; Braun等[7]通过增加YOLOv3算法的数据集样本多样性, 提高了深度学习目标检测算法的性能; Lee等[8]提出一种基于YOLOv3的清洁机器人污染物检测系统, 能够有效识别污染物类型, 但缺乏现场测试.YOLOv3检测算法能够准确检测目标, 但是由于其网络复杂、计算量大,不能满足实时检测的要求.

针对水面目标检测的实时性和准确性问题, 本文结合MobileNetV3[9]网络, 拟提出一种改进的YOLOv3算法, 通过多尺度特征融合进行模型压缩, 减少目标检测模型规模, 以期快速完成水面目标分类,实现船舶的有效管理,为后续船舶自主驾驶研究提供理论依据.

1 改进YOLOv3网络模型

1.1 预测框锚点

YOLO模型采用回归预测, 存在定位不准确、定位框波动范围大等问题, 为此引入锚点框机制.锚点框为一组固定大小的先验框, 其宽度和高度直接影响算法检测速度与预测效果.YOLOv3模型基于PASCAL数据集进行标定, 取均值后确定锚点框.为使算法达到最优, 本文使用k-means++算法对标定过的数据集进行聚类, 重新生成9个锚点框, 弥补了k-means[10]初始点随机化的问题.

1.2 网络结构

本文采用的YOLOv3-MobileNetV3网络结构如图1所示, 由深度可分离卷积、轻量级模型注意力机制、特征金字塔组成.

图1 YOLOv3-MobileNetV3网络结构Fig.1 Network architecture of YOLOv3-MobileNetV3

1) 深度可分离卷积.为了减少计算参数, 采用轻量级网络替换Darknet-53, 并保留网络特有的金字塔特征融合结构, 通过逆残差结构,先扩张通道数, 丰富特征后进行特征提取, 然后再降维还原通道数,以确保梯度的稳定性,加强网络结构的鲁棒性.对于低维度的权值, 使用ReLU(rectified linear unit)激活函数[11]易直接输出0, 导致神经元失效, 故使用1×1卷积提升维度,同时低维度在降维后不添加激活函数.

3) 特征金字塔结构.通过对输入图像逐层卷积, 得到不同维度特征信息, 获得不同感受野.在高维通道预测时, 由于多次卷积后特征逐渐抽象, 感受野逐渐扩大,无法检测小目标特征.因此,通过深度卷积和点卷积进行特征提取和通道数转换,将不同特征层上的信息进行多尺度特征融合及类别预测,解决小目标检测的问题.

1.3 激活函数

卷积神经网络为多个线性函数的堆叠, 为避免网络退化, 本文采用Mish[13]激活函数输出y=xtanh(ln(1+ex)), 其中x为输入值.在CIFAR-100数据集中, 采用Mish激活函数处理的平均准确度比Leaky ReLU激活函数提高了1.671%, 且较其他激活函数曲线在0附近更为平滑, 提升了网络泛化能力, 更易于优化.

2 试验结果与分析

2.1 试验设置

选取2 008张网络获取的船舶图片和1 035张航拍及视频截取的船只照片作为试验数据, 船舶类别包括货船、邮轮、帆船和浮标等.水面物体检测存在干扰物及光线反射等问题,须对训练集随机裁剪和遮挡的图像进行亮度、对比度和色域调整,以便模拟雾天和阴天的情况,图像增强过程如图2所示.

图2 图像增强过程Fig.2 Image enhancement process

训练环境采用的操作系统为Windows10, 显卡为GTX 1660Ti, 框架为Pytorch1.2.0, CUDA 10.0.前25个训练周期的初始学习率为0.001, 学习率衰减为0.95.训练完成后, 调整学习率为余弦退火学习率, 参数下降周期为5.采用余弦退火,学习率不断波动, 达到局部最优后, 学习率会上升, 重新寻找其他最优点, 避免学习率达到某个局部最优点后无法继续向下传递的问题.训练至验证集的损失函数不再收敛.

2.2 结果分析

对比YOLOv3算法、YOLOv3-MobileNetV1算法和YOLOv3-MobileNetV3算法的模型参数量、模型大小、模型平均精度均值和单张图片处理时间, 结果如表1所示.由表1可知, YOLOv3-MobileNetV3算法相较于YOLOv3算法的参数量减少61.35%, 模型大小减少144 MB, 较YOLOv3-MobileNetV1算法的平均精度均值(mean average precision, mAP)提升5.55%.

表1 算法对比

图3为不同算法下水面目标检测效果对比图.由图3可知, 单目标检测时, 三种算法的识别效果均较好; 在目标不全的情况下, YOLOv3算法的准确度为87%, YOLOv3-MobileNetV1算法准确度62%, YOLOv3-MobileNetV3算法的准确度为72%; 多目标检测时, YOLOv3-MobileNetV1算法出现漏检现象, YOLOv3-MobileNetV3算法较YOLOv3-MobileNetV1算法的检测准确度更高.

图3 不同算法的水面目标检测效果对比Fig.3 Comparison of different algorithms for water surface target detection

3 结论

本文通过深度可分离卷积和模型注意力机制改进YOLO模型, 引入k-means++算法与Mish激活函数, 提出了一种以小型网络模型替代复杂网络模型的算法, 减少了模型计算参数与模型规模, 实现了模型压缩的目的,从而使目标检测模型可部署到无GPU的嵌入式终端运行环境.但由于训练样本数量偏少, 压缩后模型精度有所下降, 故进一步提高YOLOv3-MobileNetV3算法目标检测的准确度为今后的研究重点.

猜你喜欢
锚点准确度卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于NR覆盖的NSA锚点优选策略研究
5G手机无法在室分NSA站点驻留案例分析
5G NSA锚点的选择策略
5G NSA组网下锚点站的选择策略优化
移动通信(2020年5期)2020-06-08 15:39:51
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
幕墙用挂件安装准确度控制技术
建筑科技(2018年6期)2018-08-30 03:40:54
基于傅里叶域卷积表示的目标跟踪算法
动态汽车衡准确度等级的现实意义
一种基于卷积神经网络的性别识别方法
电视技术(2014年19期)2014-03-11 15:38:20