刘 俊,姜 涛,徐小康,田 胜,李亚辉
(杭州电子科技大学 通信与传输信息融合国防重点学科实验室,浙江 杭州 310018)
作为一个海洋大国,我国的海洋环境极为复杂,周边国家对我国设置了三大包围岛链,领海纠纷时有发生。在复杂海战场环境下,如何能快速检测并识别出目标舰船地位置和类别,极大的关系着战争的成败。同时,在建设海洋强国,海上丝绸之路等一系列海洋政策的推动下,民事领域的海洋监管显得愈发重要,提升舰船目标自动化感知能力和水平在保护海洋渔场、海上能源运输及港口贸易监管等领域有着重大意义。考虑海上部署平台的空间与能源受限性,轻量化与自动化的检测目标识别系统显得尤为重要。
海上舰船目标自动检测是一种利用多种传感器,获取相关目标的信息并对其进行处理的技术。传统目标识别方法是基于图像处理及模式识别等相关技术构建的目标识别方法。随着大数据及云计算等关键技术的发展基于强大特征提取和语义表达的深度学习技术在目标检测领域得以应用。其采用在权值迭代更新过程中实现对图像空间域信息的提取和表达,从而能够自动提取出目标特征。
传统的舰船目标检测识别是基于经典的数字图像处理方法进行的,通过利用设计的相关特征提取算子实现特征目标的模板匹配[1],其泛化能力极差,识别准备率不高。舰船目标检测领域发展缓慢。
随着2012年AlexNet[2]为首的深度网络的出现,舰船目标识别领域也开始从传统方法转向深度学习方法。自深度残差网络之后,VGG[3],GoogleNet[4]等一大批性能卓越的深度网络,带了了性能的极大提升,同时计算量也大大增长,大规模的密集运算使得深度模型的部署平台大大受限,限制了相关技术的应用。
MIT韩松博士在2016年发表了一篇关于对深度网络模型结构裁剪、量化及编码的方法,在保证原有网络性能的前提下,大幅压缩了模型大小,并由此引发了一系列对压缩网络模型大小的改进,包括MoblieNet[5],GoogleNet等一系列优化网络,使得在海洋多平台部署舰船目标识别网络成为可能。
深度学习的目标检测算法在现阶段大致可分为one-stage和two-stage检测算法。前者通过深度网络特征提取后直接输出物体的类别概率和位置坐标预测,具有较快的检测速度;后者则通过选好候选区域和目标样本类别与位置,具有较高的准确率。
R-CNN[6]是首个目标检测领域的two-stage算法,通过不断地卷积池化,将输入图像信息转化为单层感兴趣区域,采用softmax多分类器同步类别预测与位置预测,实现特征提取到类别输出一体化。
而本文选用one-stage算法中的SSD(Single-Shot-Detector)算法作为基础算法框架[7],并在此基础上进行优化改进,基础SSD算法基本框架如图1所示。
图1 基础SSD算法基本框架
原生的SSD算法由特征提取网络、多尺度候选区域和检测输出处理3部分组成,通过在特征提取网络部份提取的高质量图像特征信息,完成不同尺度的特征图默认框生成,采用基于回归和多类别分类器对所生成的感兴趣候选区域进行类别和坐标的预测,通过非极大值抑制筛选置信度最高的目标位置和对应位置类别[7]。在舰船目标识别多平台应用上,SSD算法存在默认框所使用的特征图信息单一,候选框比例不适合舰船目标识别应用,军船民船样本数据集失衡等问题。
针对以上诸多问题,在海洋多平台部署应用背景下,本文借鉴了基础SSD算法,开展了轻量化深度网络模型压缩研究,为海上舰船目标自动识别提供支持。
面向舰船目标识别应用,借鉴one-stage中的SSD算法,本文提出了一种新的网络框架DRSSD。实现海上资源受限情况下的多平台自动化部署。轻量化检测网络结构整体示意如图2所示。
由图2可以看出,本文所提出的在资源受限情况下面向舰船目标识别应用的深度学习框架,通过将输入图片进行轻量化的特征提取,用较少的算力和模型复杂度提取出相关特征信息,随后送入多尺度目标检测附加层。通过对高底层级语义特征图的信息融合,得到较强的富语义信息图,结合原有的面向舰船目标改进后的尺寸参数,生成对应的多种候选区域,最后通过筛选分类,选择出最合适的候选框区域和置信类别。
新网络有以下3大改进点:
① 轻量化特征提取网络;
② 基于信息融合的多尺度特征语义金字塔网络;
③ 面向舰船目标的候选框生成比例优化。
图2 轻量化检测网络结构整体示意
作为目标检测与识别的基础,特征提取的质量极大地关乎着整个模型效果,同时,特征提取中的一系列卷积池化操作和相关存储的模型参数,占用了极大的算力和存储量[8]。本文将从以下3个部分对特征提取部分进行轻量化优化。
1.1.1 卷积优化
卷积是深度学习领域最重要的操作,通过对输入的滤波进行整合输出,得到所需要的特征,但是传统的卷积操作通常将输入的所有特征图与卷积核进行逐点求和累加,消耗大量的算力和存储空间,极大地影响着资源受限情况下的平台部署,本文用深度可分离卷积替代传统卷积[12]。
标准卷积核如图3左侧所示,而右侧为拆分后的可分离卷积核。由图3可以看出,通过将一个标准的卷积核简化为一个深度卷积核和一个逐点卷积核,从而实现标准卷积操作的拆分,避免了输入特征图数量与卷积核参数量之间的耦合作用,大幅度减少卷积核的参数。
图3 深度可分离卷积原理示意
在标准的卷积操作中,假设卷积核的尺寸为Cin×kw×kh,其中,Cin为卷积核的数量;kw×kh为输入特征图的尺寸。输出特征图的尺寸为Cout×Ow×Oh,其中,Cout为输出特征图的数量,Ow×Oh为输出特征图的尺寸。则标准卷积操作所需的计算量为:
Cfs=Cin×kw×kh×Cout×Ow×Oh。
(1)
参数量为:
Cws=Cin×Cout×kw×kh。
(2)
而通过深度可分离卷积操作之后,输入和输出特征图的尺寸均相同的情况下,其计算量可以分为2部分:深度卷积计算量和逐点卷积计算量。其中所需计算量为:
Cfd=kw×kh×Cin×Ow×Oh+Cin×Cout×Ow×Oh。
(3)
参数量为:
Cws=Cin×kw×kh+Cin×Cout。
(4)
通过将标准卷积和深度可分离卷积进行比较可以发现,深度可分离卷积在模型计算量的减少方面,较原始标准卷积减少比例为:
(5)
1.1.2 模型参数压缩
针对特征图感受野缺乏丰富性问题,本文参考并改进了Googlenet网络的想法,通过利用Bottleneck[10]思想将输入特征通道进行预处理[10],并对扩充后的输入通道进行过随机比例切分之后输入到之后的不同尺寸的卷积核进行卷积操作,从而实现在增加感受野的同时减少模型中参数的使用。
原生SSD算法在单感受特征图基础上生成多尺度候选框区域,在某个像素点生成九种长宽比例和不同面积的候选区域,这种方法强调了单感受野对于目标识别的重要性,但忽略了局部感受野之间的关联性,而浅层输出通道则具有丰富的语义信息,如果将深层与浅层信息先融合,图像信息特征表达会更加全面,所产生的候选区域也将更高质量[11]。多尺度特征语义金字塔网络结构如图4所示。
图4 多尺度特征语义金字塔网络结构
由图4可以看出,通过将相邻层级的特征数据归一化后,用矩阵相加的方法进行高底层信息融合,形成多尺度特征语义金字塔网络。同时,利用轻量化网络思想,将金字塔型网络形成时的标准卷积用深度可分离卷积来替换,进一步压缩检测网络的不必要参数和计算量。
一般的深度学习算法在生成多尺度候选区域时的默认框比例是固定的,但这并不适用于舰船目标识别的目标框,盲目运用会导致模型发散和训练效率低下等问题。本文利用基于改进型聚类的候选框比例优化方法,在自建舰船目标数据集上提取大量标注样本长宽比信息。在k-means++[12]聚类操作之后,得到适用于舰船目标识别的长宽比例,并由此作为默认候选框生产的参数设定,具体算法如下所示。
图5 K-means++算法流程
基于嵌入式平台计算和存储能力的有限性,采用在服务器端训练,嵌入式端部署测试相结合地办法。实验环境配置如表1所示。
表1 实验环境配置
类型硬件环境软件环境CPUGPU内存系统框架高性能服务器Xeon E5-2450@2.00 GHZTITAN X(12GB)16 GBDDR4Ubuntu14.04Caffe嵌入式平台Tegra K1GeForce Kepler2GB(GPU共享)Ubuntu14.04定制版Caffe
根据上文所提出的改进型轻量化分类网络结构图,将各个模块连接,最终得到分类网络模型结构,相关网络参数设计如表2所示。
表2 轻量化分类网络模型参数配置
层名称输出维度卷积核步长重复次数深度可分离卷积Image224×224----Conv1112×1127×721×Pool157×573×321-Match_Block157×573×311√DRes_Block157×573×311√Match_Block229×293×321√DRes_Bolck229×293×311√Match_Block315×153×321√DRes_Bolck315×153×312√Match_Block48×83×321√DRes_Bolck48×83×312√Pool21×1-global_pooling1-
面对资源受限平台情况下的相关计算存储需求,本文将提出的轻量化分类网络结构DRSSD与业内公开的MoblieNet,ShuffleNet[13],MobilieNetV2[14]等轻量化模型在相关准确率和模型复杂度方面进行了实验对比,实验结果如表3和表4所示。
表3 ImageNet-67数据集上模型性能对比
模型名称模型大小/MBTop-1准确率/%Top-5准确率/%单帧耗时/msMobileNet16.270.892.813.3ResNet-1844.670.892.114.3ShuffleNet7.369.990.123.6DRSSD7.871.493.516.3MobileNetv214.271.693.628.9
表4 模型复杂度对比实验数据
模型名称参数数量浮点算量复杂指数分类准确率/%VGG-16138 344 12815 470 264 3200.089 4393.0ResNet-5025 556 0323 857 973 2480.066 2494.4ResNet-1811 692 7361 826 918 4000.064 0092.1ShuffleNet_1g31 812 734127 061 3040.142 6790.1MobileNet1 330 592149 497 0880.089 0092.8MobileNet v23 504 960429 111 9360.081 6893.6DResNet(Our’s)2 287 392407 326 7200.056 1693.5
通过对模型大小、准确率和速度3个方面的分析,DRSSD有着较小的模型大小(7.8 MB)和较高的准确率(top5准确率达到93.5%)。
为了对比各个改进点对模型性能的提升幅度,本文采用了控制变量法对各个改进点进行了单独实验作为舰船目标网络,本节的所有实验都是基于自建舰船目标数据集,实验结果如下。
不同于其他物体,舰船目标有着其独特的长宽比和模型大小特征。一般算法中,生成的默认锚框长宽比特征未能针对舰船目标进行特殊化配置。本文使用传统机器学习中的聚类方法来提取舰船目标长宽比例数据的获取,基于自建数据集标注目标尺寸聚类结果及可视化如图6和图7所示。
图6 不同聚类中心数量舰船目标尺寸比例聚类效果
为证明不同数量的尺寸比例都最终结果的影响,本文使用初始化聚类中心数量k∈[4,9]。从聚类结果上可以看出,随着聚类中心数量的增加,目标尺寸比例数据近似在一定范围内波动。但在目标检测过程中,默认框的数量将直接影响算法推理过程中的计算量,因此在此选择k=6作为每个位置生成的默认框的尺寸,也即每个位置生成6种不同尺寸的默认框。k=6时目标尺寸比例效果如图7所示。其中圆内标注数据为目标的长宽比例结果。
图7 目标形状尺寸比例聚类可视化
为了便于后续实验的使用,在此本文将聚类中心数量为k=6时的聚类数据进行了整理,舰船目标形状聚类详细数据如表5所示。
表5 数据集舰船目标长宽比聚类结果
序号123456长宽[0.14,0.40][0.05,0.06][0.12,0.10][0.69,0.58][0.25,0.17][0.49,0.33]长宽比0.350.781.141.181.471.48
由表5可以看出,聚类数据的面积部分为真实目标框相对于原始图像所占的比例,例如[0.25,0.17]表示标注框相对于原始图像,宽度为原始图像的0.25,而高度为原始图像的0.17。此外,从长宽比聚类结果可以看出,采用6个聚类中心进行聚类,最终聚类出的长宽比仅有4类,分别为0.35,0.78,1.14和1.47。本文检测算法部分也均是基于该聚类数据对默认锚点框进行初始化形状参数设置。
分类网络切割改进方法网络模型性能变化如表6所示。
表6 分类网络切割改进方法网络模型性能变化
模型名称DRSSDDepthwise convolution√√√√Squeeze expand√√√Squeeze excitation√√ImageNet-67 Accuracy94.487.388.791.593.5
由表6可以看出,通过建立多尺度语义特征金字塔来增加网络模型中感受野的特征信息与语义信息,能够有效提升舰船目标识别准确率提升了1.4个百分点。
本文针对资源受限情况下的舰船目标检测识别技术进行了研究。在已有轻量化SSD算法模型的基础上进行了诸多改进,提出了改进型的DRSSD轻量化检测模型。经过大量实验表明,该算法结构大量削减了非必要模型参数,在保证原有检测精度和检测速度不大规模降低的情况下,通过本文提出的诸多改进点与现有深度网络在公开和自建舰船目标数据集上进行了比较,证明改进点有效地提高了舰船目标识别的准确率。实现了计算量和参数量的削减,该方法具有资源损耗低、准确率和实时性高等诸多特点。能够有效地实现海上多平台部署,对海洋渔业及国防等诸多方面都有着重大意义。但本文所设计的网络模型仍具有很大的改进空间,如何在保持准确率的情况下,更好地压缩网络的大小,将传统目标检测方法和深度网络相结合,是我们以后研究的重点方向[15]。