多层卷积特征融合的双波段决策级船舶识别

2021-03-23 15:45邱晓华邓光芒王利涛
光学精密工程 2021年1期
关键词:波段卷积船舶

邱晓华,李 敏,邓光芒,王利涛

(1.火箭军工程大学作战保障学院,陕西西安710025;2.武警工程大学信息工程学院,陕西西安710086)

1 引 言

海上视频监控在民用和军事应用领域中发挥的作用越来越明显,例如保护海洋环境、海上人员和货物安全。随着深度学习技术的快速发展,海面自动化控制可实现可视化的船舶自动识别,受到人们的广泛关注和深入研究。集成可见光(Visible Light,VIS)波段和红 外(Infrared Spectroscopy,IR)波段互补信息的双波段图像相比单一波段图像,具有受光照、遮挡和雨雾影响小的优势,已成功应用于人脸识别领域[1]。近年来,面向双波段图像计算机视觉任务的深度学习技术,在场景三维重建[2]、工业自动化控制[3]以及目标检测跟踪[4-6]等领域逐渐成为一个研究热点。

深度学习大幅提升计算机视觉任务性能的关键因素之一在于大型标注图像数据集,例如ImageNet数据集。VIS波段海上船舶数据集的规模难以达到大型ImageNet数据集的数量级,目前公开的最大海上船舶数据集MARVEL具有40万张样本[7],将其用于训练深度卷积神经网络(Convolutional Neural Networks,CNN)网络虽然不会出现过拟合问题,但识别效果并不明显且训练耗时较多。VIS和IR双波段图像船舶数据集的标注样本更少,目前唯一公开的VAIS数据集[8],仅有一千余对标注样本,其用于训练深度CNN网络或微调预训练模型易出现过拟合问题。

在双波段船舶识别中,为避免标注样本少导致过拟合问题,普遍采用基于ImageNet数据集预训练的深度CNN模型提取图像特征,而后再进行融合识别。Zhang等人[8]将基于Gnostic区域和基于VGG-16模型[9]的船舶识别结果进行融合,在VAIS数据集上获得了87.4%的基准船舶识别精度。Aziz等人[10]提出了基于MARVEL数据集训练和VAIS数据集微调深度CNN模型的船舶识别方法,但识别性能提升不明显。Santos等人[11]提出了基于预训练VGG-19模型[9]和概率融合模型的识别框架。Zhang等人[12]利用预训练VGG-19模型和ResNet-152模型[13]分别提取VIS和IR波段的卷积特征,通过结构化融合与线性判别分析,提出了一种基于谱回归判别分析的多特征融合识别方法(SF-SRDA)。此外,刘峰等人[14]创建了包含可见光、中波和长波红外三个波段的海上舰船数据集,提出了基于AlexNet模型卷积特征融合的多波段舰船目标识别方法。同时,以基于协方差矩阵的特征融合策略扩展了该方法[15]。然而,双波段图像特征级融合存在级联特征融合质量低、共同特征表示学习难的问题。

在计算机视觉中,决策级融合常用于单波段图像的多分类器融合[16],在目前基于双波段图像的目标识别[17]、行人检测[18]等任务中得到进一步研究。为解决双波段图像船舶识别中存在的问题,本文利用预训练CNN模型中高级卷积特征和双波段后验概率的信息互补优势,提出了一种基于多层卷积特征和后验概率加权的双波段船舶决策级融合识别方法。

2 决策级融合识别算法

本文算法首先利用基于ImageNet数据集预训练的卷积神经网络VGG-16模型,分别提取双波段图像(VIS图像和IR图像)的低级、中级和高级卷积特征,克服因标注数据匮乏引起深度网络模型训练过拟合的问题。其次,采用主成分分析法降低卷积特征维度,避免高维度卷积特征占用存储和计算资源多的不足,并采用L2范数归一化和特征级联方法,融合每个波段的中级和高级卷积特征。随后,将级联特征送入支持向量机(Support Vector Machines,SVM)分类器并计算每个波段船舶识别的后验概率。最后,通过权重因子加权融合双波段后验概率,从而获得双波段船舶的决策级融合识别标签。算法总体框架如图1所示,为比较双波段特征级融合以突出决策级融合的优势,图1同时给出了双波段特征级融合识别模块,如图1中密集虚线部分所示。

2.1 卷积特征提取

VGG-16网络模型是深度卷积神经网络中最经典、最常用的模型,具有8个网络层,其中5层为卷积块(即图1中的C1,C2,C3,C4和C5),最后3层为全连接层(即图1中的F6,F7以及表示ImageNet数据集中1 000个类别语义信息的最后一个全连接层)。整个网络体系架构由下自上呈现特征表示的层次性,图1中C1和C2卷积块的特征为颜色、角点和边缘等基本模式的视觉特征,适合于大多数数据集和视觉任务,属于低级(Low level)特征。随着网络体系结构层数的增加,卷积特征从低级视觉特征逐渐抽象为中级(Middle level)特征(C3~C5卷积块的特征)和高级(High level)语义特征(F6~F7全连接层的特征),其中中级特征包含部分细节信息和语义信息。VGG-16模型以224×224 pixel的三通道图像作为输入样本,对每个样本可提取大小为r×r×K的卷积特征,其中r×r为卷积核大小,K为卷积核数量,而全连接层特征可以看作大小为1×1×K的卷积特征。本文将每个样本的卷积特征转化为一维特征向量fn∈Rr2K(n=1,2,…N),N为样本数。

图1 基于决策级融合的双波段船舶识别算法框架图Fig.1 Overview of dual-band ship recognition method based on decision-level fusion

2.2 卷积特征降维

所提取的卷积特征维度高、消耗存储和计算资源多,并含有一定的噪声和较多的冗余信息。主 成 分 分 析(Principal Component Analysis,PCA)是机器学习中一种常用的数据降维方法,可以将卷积特征从高维空间投影到低维空间,其主要思想是通过计算高维特征的协方差矩阵,并进行特征值分解,保留前几个特征值对应的特征向量,从而构成低维特征空间。PCA通常采用设置固定维度确定低维特征空间的维度[19]。鉴于本文研究对象为双波段船舶图像数据集,不同波段具有不同的成像特性,而且样本数远小于特征数,因此本文从特征重构的角度,通过设置重构阈值自动获取低维特征空间维度,如式(1)所示:

其中:λd为高维特征协方差矩阵的第d个特征值,dh=r2K为高维空间维数,dl为低维空间维数,t为重构阈值。由式可知,t值越大,则dl值越大。

2.3 单波段多层卷积特征融合设计

从VGG-16模型中各层提取的卷积特征数值差异较大,需对PCA降维后的各层卷积特征进行归一化处理,以实现后续每个波段多层卷积特征融合。此外,归一化处理也有利于提升SVM分类器的分类性能。本文采用L2范数归一化方法,该方法首先对每个样本计算其L2范数,然后对该样本中的元素除以该范数,其目的是使每个样本的L2范数为1。令为第n个样本经L2范数归一化处为PCA降维空间中的第n个样本特征向量理后的特征向量,则中第m个元素的计算如式(2)所示:

经典的特征融合策略包括基于串行融合策略的级联方法和基于并行策略的叠加方法,其中叠加方法要求待融合特征必须具有相同的维度。由于经PCA降维后的每个波段每层卷积特征的维度不一致,因此采用级联方法融合每个波段的多层卷积特征。每个样本级联融合的特征向量计算如式(3)所示。其中:ff为级联融合后的特征向量为多层中第l层特征向量的第dl个元素,本文方法级联融合每个波段的两层或三层卷积特征,因此l值为2或3。

在基于多层卷积特征的双波段特征级融合中,同样采取级联融合方法,其融合特征向量的计算方式与式(3)类似。

2.4 双波段概率融合与决策识别模型构建

通过拟合Sigmoid模型的方法,可以将SVM分类器的标准类别输出转换为后验概率输出。将级联融合的特征送入基于线性核的SVM分类器,分别计算每个波段每个样本的后验概率,而后构建双波段概率融合和决策识别模型,其步骤如下。

假设cj(j=1,2,…,c)为双波段图像数据集的样本类别,s1和s2为VIS和IR双波段图像对应的两个相互独立的SVM分类器,即S={s1,s2}。P(si)=(pi1,pi2,pi3,pi4,…,pij)表示第i个SVM分类器将样本x标记为所有类别的后验概率。P(s1,s2)=(p1,p2,p3,p4,…,pj)表示两个分类器的后验概率经权重因子加权求和后将样本x标记为所有类别的概率,其计算方式如式(4)所示。

其中,权重因子wi需对于VIS满足和IR双波段而言,若令VIS波段的权重因子w1=w,则IR波段的权重因子w2=(1−w)。

在决策识别过程中,取P(s1,s2)中最大值p对应的类别作为样本x的双波段共同表示的类别,如式(5)所示。

式中max(⋅)表示取最大值。

3 实验与分析

3.1 数据集与实验平台

算法验证数据集采用唯一公开的可见光和红外(VIS-IR)双波段海面船舶基准数据集VAIS[8],该数据集包含2 865张船舶图像(1 623张可见光图像、1 242张红外图像),其中包含1 088对未配准的VIS-IR图像,船舶类别包括货船、中级其它船、客船、帆船、小船和拖船等6类。这些图像是在不同距离和一天中不同时间(含黄昏和黎明)情况下采集的。因此,有些图像分辨率高,而有些图像比较模糊即使进行人工检测也难以识别。VAIS数据集中,训练样本为539对VIS-IR图像,测试样本为549对VIS-IR图像。由于采用五折交叉验证获得SVM算法后验概率,实验中随机选择训练/测试组的10次试验重复进行,以10次识别精度的平均值和标准差(mean±std)评估算法的识别性能。

仿真验证平台采用硬件环境为:2.8 GHz英特尔Core i7-7700HQ处理器,16 GB内存,NVIDIA GeForce 940MX显卡。软件环境为:Windows 10操作系统,PyCharm 2.4集成开发环境,PCA和基于线性核SVM算法的实现采用基于Python语言sklearn库集成PCA和SVM模块,深度学习框架采用前端Keras和后端Tensor⁃Flow平台,深度卷积神经网络模型为基于Ima⁃geNet数据集预训练的VGG-16模型。

3.2 实验结果与分析

3.2.1 PCA降维算法的性能评估

SVM的算法时间复杂度与输入样本特征维度成正比,维度越高时间复杂度越高,因此降低输入样本维度,可显著加快SVM分类速度。鉴于数据样本较少和双波段图像的差异性,采用重构阈值t为0.99的PCA算法对CNN特征进行降维,通过分析比较CNN原始特征和PCA降维特征的大小与识别精度,评估PCA降维算法的性能。

表1 CNN特征和PCA特征维度大小比较Tab.1 Dimension size comparison of CNN features and⁃PCA features

表1 显示了VGG-16模型各层的CNN特征和PCA特征的维度大小比较,图2为基于VGG-16模型各层CNN特征和PCA特征的识别精度比较。由表1可知,由于数据集样本少,即使设置了最大的重构阈值,PCA特征的维度远远小于CNN特征的维度。从图2中可知,对于VIS图像而言,低中级特征在PCA降维后,识别精度反而有所提升,而高级特征经PCA降维后的识别精度降低幅度较小。对于IR图像而言,识别精度稍有降低,但在C2和C4层有小幅提升。综上分析,PCA算法虽然大幅降低了CNN特征维度,但对识别精度影响并不明显,因此采用PCA算法对CNN特征进行降维处理简单有效。

图2 CNN特征和PCA特征的识别精度比较Fig.2 Recognition accuracy comparison of CNN fea⁃tures and PCA features

3.2.2 权重因子对融合识别性能的影响

实验中采用一组权重因子w=(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1),计算基于VGG-16模型各层卷积特征的决策级融合识别精度,从而分析不同权重因子w对融合识别性能的影响。权重因子w为0表示基于IR图像特征的识别精度,为1表示基于VIS图像特征的识别精度。图3为不同权重因子对基于单层卷积特征的决策级融合识别精度的影响。由于VAIS数据集中IR图像相比VIS图像对比度高,但分辨率低且目标细节少,因此基于IR图像的识别精度比基于VIS图像的识别精度要低得多,如图3中w为0和1时的识别精度。由图3可知,随着权重因子的逐渐增加,识别精度逐步提高,当权重因子w为0.6,0.7和0.8时,基于各层卷积特征的识别精度达到最高值,随后又降低。综上分析,决策级融合识别以VIS图像为主,以IR图像为辅,并且可以提高每个波段图像的识别精度。

图3 权重因子对识别性能的影响Fig.3 Effect of weight factor for recognition performance

3.2.3基于多层卷积特征融合的决策级融合识别性能分析

中级卷积特征不仅具有低级卷积特征的视觉信息,还包含部分语义信息,而高级卷积特征的语义信息更为丰富。本文基于多层卷积特征的决策级融合对每个波段的中级和高级卷积特征进行级联融合,权重因子w取值为0.7。表2和表3分别为两层和三层卷积特征融合的识别精度,其中FF表示特征级融合,DF表示决策级融合,C3F6缩写表示每个波段C3层和F6层的卷积特征进行级联融合,其他类似缩写表示意义相似。由表2和表3可知,由于在FF中采用简单的级联融合策略,VIS图像特征受IR图像特征的影响,导致特征融合质量降低,使VIS图像的识别精度下降了0.5%~1.5%。DF的识别精度高出FF的识别精度1.5%~2.5%,比VIS图像的识别精度高出0.6%~1.1%。综上分析,在双波段船舶识别中,基于多层卷积特征的决策级融合识别性能明显优于特征级融合,而且基于三层卷积特征的识别性能普遍好于基于两层卷积特征。

3.2.4 与其他现有方法比较

本文方法与其他现有7种方法进行比较,如表4所示。表4中CNN+Gnostic Fields[8],Multi⁃modal CNN[10],DyFusion[11]和SF-SRDA[12]4种方法为双波段VIS和IR图像船舶融合识别方法,而CNN+Gabor+MS-CLBP[20],MFL-ELM[21]和ME-CNN[22]3种方法为单波段VIS图像船舶识别方法。由表4可知,本文方法在单波段VIS图像和双波段图像上的船舶识别精度明显高于其他方法,最好平均识别精度为88.8%和89.7%,比相应的现有最好方法分别高出0.8%和1.5%。而SF-SRDA方法在单波段IR图像上的船舶识别精度取得了74.7%的最佳值。图4显示了决策级融合(C4C5F6)识别精度为89.8%的归一化矩阵。如图4所示,中级其他船和拖船的识别精度普遍较低,中级其他船容易被误识别为货船和客船,而拖船容易被误识别为客船和小船,其他类型船舶的识别精度均为85%以上,帆船的识别精度更是达到100%。

表2 两层卷积特征融合的识别精度Tab.2 Recognition accuracy of two layers convolutional features fusion (%)

表3 三层卷积特征融合的识别精度Tab.3 Recognition accuracy of three layers convolution⁃al features fusion (%)

表4 与其他现有方法的识别精度比较Tab.4 Recognition accuracy comparison of other existing methods (%)

图4 决策级融合(C4C5F6)识别精度的归一化混淆矩阵Fig.4 Normalization confusion matrix for recognition ac⁃curacy of decision-level fusion(C4C5F6)

4 结 论

在单波段图像携带船舶信息有限的情况下,对双波段船舶识别问题展开研究。利用预训练卷积神经网络模型提取多层卷积特征,不仅避免了标注数据样本少导致网络模型过拟合问题,而且利用了层次性卷积特征的信息互补优势。采用PCA数据降维、L2范数归一化和特征级联方法,既实现了多层卷积特征融合又减少了数据存储和计算资源。通过加权融合每个波段的SVM后验概率以实现决策级融合识别,解决了双波段特征级融合识别精度低的问题。在公开数据集上的验证表明,双波段决策级融合的识别性能优于单波段,基于中高级多层卷积特征的决策级融合的识别精度普遍高于特征级融合。此外,与其他现有方法相比,本文方法具有识别精度高、处理速度快的优势。在今后的工作中,将根据双波段图像的特性对特征级融合的影响展开研究。

猜你喜欢
波段卷积船舶
基于3D-Winograd的快速卷积算法设计及FPGA实现
《船舶》2022 年度征订启事
船舶!请加速
BOG压缩机在小型LNG船舶上的应用
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
船舶压载水管理系统
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究