王玺坤,姜宏旭,林珂玉
(北京航空航天大学 数字媒体北京市重点实验室,北京100083)
随着遥感技术的发展,遥感图像处理的研究越来越受到重视。虽然之前已经提出了许多舰船检测算法,但由于存在诸如舰船密度、图像亮度等不确定性因素,如何提高舰船检测的准确率仍然是一个巨大的挑战。此外,遥感图像幅员辽阔,其幅宽可达50~100 km,其中的舰船尺寸非常小且密集分布,具有体积小、数量多、位置多样、地物干扰性大等特点,不同于PASCAL VOC数据集中大而突出的检测目标。遥感图像中舰船之类的小目标,即使在最高分辨率下,每个舰船的范围也只有约15个像素。
在过去的几年中,已经提出了一些传统的舰船检测算法。有些算法采用以下思路:基于图像中梯 度 直 方 图 的SIFT[1](Scale-Invariant Feature Transform)和HOG[2](Histogram of Oriented Gradient)特征提取方法,利用滑动窗口找出舰船目标的潜在区域提取特征信息,再利用SVM[1]和Adaboost[3]等分类器对目标特征进行识别和分类检测。有些算法[4]使用自下而上的视觉注意机制在整个检测场景中选择突出的候选区域。虽然这些算法表现出很好的性能,但复杂的场景下实用性很差,在实际任务中难以达到足够的精度。特别地,基于滑动窗口的舰船潜在区域选择策略会进行大量重复计算,无法满足舰船实时监测的要求。
自从在ImageNet竞赛中引入卷积神经网络(CNN)以来,深度学习技术得到了快速的发展。与传统的舰船检测算法相比,目标检测算法能够通过卷积神经网络对训练的遥感图像进行学习,自动地从图像中提取出舰船的特征,学习能力强且识别速度快、精度高。目前流行的目标检测算法可以分为两类:一类是基于区域的目标检测算法,如Fast R-CNN、Faster R-CNN[5]、Mask R-CNN等,这些算法将特征提取、区域建议网络、边界框回归与分类整合在一个网络中,提高了检测精度,但检测速度很慢,无法满足实时检测的要求;另一类是基于回归的目标检测算法,如YOLO[6](You Only Look Once)、SSD[7](Single Shot MultiBox Detector)等算法,这些算法直接在原始图像上完成输入到目标位置和类别的输出,卷积神经网络经过一次推理,就能得到图像中目标的位置和所属类别以及相应的置信概率,而且其检测速度可以满足实时检测的要求。上述深度学习算法在目标检测数据集PASCAL VOC 2007和2012上取得了很好的检测效果,可以检测到人、车、动物等目标,通常这些目标会占据图像的大部分空间;而在遥感图像中舰船通常只占据10~32像素,深度学习算法对舰船的检测精度很低,如果在遥感图像中出现多个密集的舰船目标,则无法检测出来。
本文以基于回归的YOLOv3-Tiny算法为基础,将遥感图像中的舰船作为检测目标,在YOLOv3-Tiny算法的网络模型中引用残差网络,提高了特征提取网络的检测性能,同时增加特征映射模块,为预测层提供丰富的语义信息,从而有效提取舰船特征。
近年来,遥感图像舰船检测领域已经提出了各种方法。本节将简要回顾现有的基于深度学习的目标检测算法和基于深度学习的舰船检测算法。
在基于深度学习的目标检测领域中,特征提取阶段主流的方法是基于区域和回归的目标检测算法。R-CNN、Fast R-CNN、Faster R-CNN[5]等目标检测算法,主要是通过区域建议产生大量的可能包含检测对象的潜在边界框,再用分类器去判断每个边界框里面是否包含对象,以及对象所属类别的概率和置信度。YOLO[6]不同于这些目标检测算法,其将目标检测任务当做一个回归问题来处理,使用一个卷积神经网络,直接从一整张图像来预测出边界框的坐标,边界框中包含物体的置信度和概率。SSD[7]沿用了YOLO基于回归的思想,结合Faster R-CNN的候选框,提出预设框和加入特征金字塔,直接估计对象区域并真正实现实时检测。特征金字塔网络[8](Feature Pyram id Networks,FPN)采用多尺度特征金字塔形式,开发了一种具有横向连接的自上而下的架构,用于在所有尺度上构建高级语义特征图,并充分利用特征图来获得更好的检测结果。R-FCN[9](Region-based Fully Convolutional Networks)构建了一个基于区域的完全卷积网络,几乎所有计算都在整个图像上共享,从而大大减少了参数数量,提高了检测速度,并具有良好的检测效果。
上述目标检测算法也广泛用于遥感图像舰船检测。文献[10]提出了一种基于卷积神经网络的舰船检测新方法(S-CNN),从测试图像中提取的线段定位船舶建议,并结合改进的显著性检测算法挑选尺寸相对较小的近海船舶。然而在处理不同复杂场景下的船舶时,其检测准确率很低。文献[11]采用传统的恒虚警率(CFAR)将现有的目标检测算法Faster R-CNN修改为CFAR算法,将Faster R-CNN生成的对象建议作为CFAR算法的保护窗口,然后获取小尺寸目标,重新评估检测网络中分类得分相对较低的边界框,但是在检测具有多尺度特征的舰船时存在严重的信息丢失问题。文献[12]提出了一种基于海陆分割的卷积神经网络的舰船检测框架(SLS-CNN),试图将SLS-CNN探测器、显著性计算和角落特征结合起来。然而在现实生活中,对于具有大纵横比的舰船,一旦角度倾斜,冗余区域将相对较大,并且不利于非最大抑制的操作,经常导致检测丢失。文献[13]提出了一种基于YOLOv2[14]算法的船舶检测算法YOLT(You Only Look Twice),YOLT框架使用单个卷积神经网络来预测类别和边界框,借鉴GoogleNet网络结构,以实时速度运行网络结构测试输入图像。YOLT在训练和测试时能检测到整个图像,大大改善了背景差异,网络可以为每个对象编码上下文信息。然而YOLT的特征融合方法,具有较小的感受野,缺乏丰富的语义信息,会造成小目标的语义特征丢失严重,在检测密集较小的舰船时有不利的影响。
YOLO算法经过优化和迭代,在检测性能上都优于SSD、Faster R-CNN等算法。在网络结构上,YOLOv3融合了YOLOv2、Darknet-19以及其他新型残差网络,由连续的3×3和1×1卷积层组合而成。因为一共有 53 个卷积层,称为Darknet-53。
YOLOv3网络首先把遥感图像进行预处理缩放到416×416,并送入卷积神经网络进行推理,根据网络模型的置信度对检测结果进行非极大值抑制和分类识别。YOLOv3网络将输入图像划分成S×S个网格,如果某网格的中心内落有某目标物体,则这个网格就负责预测这个物体。每个网格预测出检测物体边界框的4个偏移坐标(tx,ty,tw,th)以及置信度得分。YOLOv3网络在3种不同的规模上进行预测,分别为13×13、26×26和52×52,每种规模预测3个边界框。在COCO数据集实验中,YOLOv3算法分别为每种规模各预测了3个边界框,所以得到的张量是S×S×[3×(4+1+80)],其中包含4个边界框的坐标(tx,ty,tw,th)、1个目标预测以及80种分类预测。假设以图像左上角顶点为坐标原点,则单元格相对于图像的坐标为(x0,y0),且先验边界框(Bounding Box Prior)具有宽度pw和高度ph,那么预测出的检测框可以表示为
式中:(bx,by)为检测框的中心坐标;σ()表示将tx和ty归一化为0~1;bw和bh分别为检测框的宽度和高度。
如图1所示,YOLOv3网络在3个不同尺度上进行预测。预测层用于在3个不同大小的特征图上执行预测,特征图步幅分别是32、16、8。这意味着,当输入图像大小是416×416时,YOLOv3网络在尺度13×13、26×26和52×52上执行检测。该网络在第一个检测层之前对输入图像执行下采样,检测层使用步幅为32的层的特征图执行检测。随后在执行因子为2的上采样后,并与前一个层的特征图(特征图大小相同)拼接。另一个检测在步幅为16的层中执行。重复同样的上采样步骤,最后一个检测在步幅为8的层中执行。在每个尺度上,每个单元使用3个锚点预测3个边界框,锚点的总数为9(不同尺度的锚点不同)。YOLOv3在多个尺度的特征图上做检测,对于小目标的检测效果提升还是明显的。
图1 YOLOv3网络模型Fig.1 YOLOv3 network architecture
YOLOv3-Tiny网络是YOLOv3网络的简化,并且结合了FPN和FCN算法,模型结构轻量化,检测精度有了很大提高。YOLOv3-Tiny融合了2个尺度(13×13、26×26),在2个尺度的融合特征图上分别独立做检测,同时上采样可以帮助该网络学习细粒度特征,帮助检测较小目标。
为了对比YOLOv3和YOLOv3-Tiny算法对小目标的检测能力,分别利用YOLOv3和YOLOv3-Tiny对PASCAL VOC数据集中的20类目标进行检测,并计算各类目标的检测准确率和20类目标的平均检测准确率(mAP),结果如表1所示。
为了比较YOLOv3和YOLOv3-Tiny算法舰船遥感数据集上的检测准确率(AP),本文算法基于遥感数据集对其2个网络进行训练,数据集类别为1(舰船类)。训练时,初始阶段学习率为0.001,衰减系数为0.000 5,在训练迭代次数为40 000次和45 000次时,分布将学习率降低为0.0001和0.000 01,使损失函数进一步收敛。大约经过45 000次迭代之后,各参数变化基本稳定。
训练结束后,分别利用YOLOv3和YOLOv3-Tiny对遥感数据集中的舰船类目标进行检测,并计算舰船类目标的检测准确率,结果如表2所示。
表1 PASCAL VOC数据集算法结果对比Table 1 Com parison of PASCAL VOC dataset algorithm resu lts
由表1和表2可知,在通用数据集PASCAL VOC上,YOLOv3算法的平均检测准确率高于YOLOv3-Tiny算法,而在遥感数据集上,YOLOv3-Tiny算法的检测准确率却比YOLOv3算法提高2.55%。
通常,在通用目标检测数据集PASCAL VOC上,人、车、动物等目标会占据图像的大部分空间,YOLOv3算法比YOLOv3-Tiny算法会取得更好的检测结果。而在遥感图像中,舰船通常只占据10~32像素,YOLOv3由于网络结构复杂,网络层次深,故YOLOv3算法对舰船的检测精度很低。YOLOv3-Tiny网络模型轻量化,往往在检测一类微小目标时,其检测能力很强。其次,YOLOv3网络中存在着大量的下采样层,这些下采样层会导致对象的相对过程特征分离。假如遥感图像中舰船类目标只有几个像素的范围,在YOLOv3网络结构中该网络缩减32倍并返回13×13的预测网格时,如果舰船类目标在遥感图像中不足32个像素,会导致该类目标在预测网格中丢失。所以在遥感数据集针对小目标的检测时,YOLOv3网络的检测准确率远远低于YOLOv3-Tiny网络。
表2 舰船数据集算法对比结果Table 2 Ship dataset algorithm comparison results
基于以上YOLOv3和YOLOv3-Tiny网络对遥感图像舰船目标的检测结果分析,本文基于YOLOv3-Tiny网络设计了改进型YOLO网络结构(Modified YOLO,M-YOLO)。M-YOLO网络结构如图2所示,M-YOLO网络包括18个卷积层、6个Maxpool下采样层、3个Route layer层、1个Upsample层、2个YOLO层。
为了提高M-YOLO网络对舰船小目标的检测能力,M-YOLO设置其卷积层的下采样率为32,在416×416像素大小的输入分辨率下,经过特征提取后,得到的2个特征图的大小为13×13和26×26。
输入416×416的遥感图像后,M-YOLO网络会得到13×13和26×26两种不同尺度的特征图,并且为每个特征图的每个网格单元设置3个先验框。每个网格单元预测先验框的坐标值(tx,ty,tw,th),以及每个先验框的置信度分数和N个类别预测(N为检测目标的所属类别),由于本文只针对舰船类检测,因此N的取值为1。每一个网格单元的张量为3×(4+1+1)=18,由此得到总的网格单元的张量为13×13×18+26×26×18=15 210。
如图2所示,M-YOLO网络从第12层卷积层Conv8开始分为2条路径,将低层的特征直接连接到高层,增加了高层特征图的语义信息。M-YOLO网络采用了3个Route layer层,其作用主要把对应的输入层连接在一起,而且要求其输入层的图像宽度和高度必须相等;如果不相等,则把Route layer层的输出宽度W、高度H、通道数C都设置为0。
M-YOLO采用了残差网络,在第2个和第3个下采样层之后分别加入残差学习单元,使某一层的输出可以直接跨过几层作为后面某一层的输入,提高了网络的预测性能。其次在预测目标部分,M-YOLO网络在第11个卷积层之后使用了由3×3卷积层和1×1卷积层构成的特征映射模块,以增加网络上下层的语义信息和提高对舰船小目标的检测性能。
图2 M-YOLO网络结构Fig.2 M-YOLO network architecture
YOLOv3-Tiny网络采用上采样和融合的做法,融合了尺度1(13×13)和尺度2(26×26)2个尺度的特征融合层,在2个尺度的融合特征图上分别做独立检测。对于尺度2,从尺度1中之前的2层获取特征图,将其上采样2倍,并与网络中较早的相同大小的卷积特征连接,形成26×26的特征图。这种架构虽然在预测中获得了更细粒度的特征图,但这种设计具有较小的感受野,缺乏丰富的语义信息。因此,M-YOLO网络引入了特征映射模块,如图3所示。
M-YOLO网络模型主要由卷积层和池化层构成,其卷积层采用了3×3卷积和1×1卷积,每个卷积层后添加批标准化层,加速了网络的收敛。在图3中,不同的卷积运算如1×1和3×3的卷积核可以获得遥感图像中不同感受域的信息,汇集这些卷积运算的结果可以获得丰富的语义信息,非常适合多尺度特征的提取。
在特征映射模块中,M-YOLO使用2种不同大小的卷积核1×1和3×3,从而将网络的低级特征和高级特征连接起来。1×1卷积核只有一个参数,相当于原始特征图的缩放,实现跨通道信息的整合和通道数量的改变。3×3卷积核在26×26特征图上占有25%以上的比例,对其改变特征图的大小,提取舰船特征,在为舰船小目标提供语义信息方面非常有效。图3中,3×3卷积层之前是1×1卷积层,这减少了输入通道和网络参数的数量并增加了网络的深度。
M-YOLO网络输入416×416的遥感图像后,在图3中其高级特征映射的大小为52×52×128,低级特征映射的大小为52×52×256,则连接后的特征映射的大小为52×52×384。多级特征映射提供了不同的感知域和有意义的语义信息,有利于舰船密集小目标的检测。
图3 特征映射模块Fig.3 Feature mapping module
在卷积神经网络中,增加网络的宽度和深度可以很好地提高网络的性能,层数深的网络一般比层数浅的网络效果好。但随着网络层数的加深,卷积神经网络在反向传播中容易出现梯度弥散和梯度爆炸问题,抑制了浅层网络参数的收敛,当反向梯度消失后,整个网络的权重参数就无法得到更新和优化,网络模型的性能就会饱和。当网络层数达到一定的数目以后,网络的性能就会开始退化,但这种退化并不是由过拟合引起的,而是由网络层数变深引起的。
为了解决网络深度变深以后的性能退化问题,提出了残差网络[15](ResNet)。在整个网络中每隔3层使用一次快捷连接(Shortcut Connection),把第1层的输出特征加至第3层特征层中,这样梯度在反向传播时就不可能变为0,从而能够有效地训练整个神经网络。残差网络的出现确实有助于解决梯度消失和梯度爆炸的问题,在训练更深网络的同时,又能保证良好的性能。
残差网络由残差模块构成,如图4所示。假设在残差学习模块中,当输入为x时其基础映射记为H(x),现在希望其学习到的残差函数为F(x)=H(x)-x,这样输出的学习特征为F(x)+x。当残差为0时,此时构建模块只做了恒等映射,网络模型的检测精度至少不会损失。实际上为0的残差函数不可能存在,这会使得残差学习单元在恒等映射的基础上学习到新的特征信息,从而提高了网络学习效率。
残差网络的公式为
式中:x和y分别为残差模块中的输入和输出;F(x,{Wi})为后期需要训练的残差映射函数;Wi和Ws为输入参数。由图4可以看到,在快捷连接中加入了特征层x,残差模块不仅便于实现,而且也较容易比较相同层的残差层和基本网络层之间的优劣。因为F(x,{Wi})和x都是同维度的矩阵,但是在矩阵线性运算时必须具有相同深度,因此需要使用线性映射来调整x的通道数。
图4 残差模块Fig.4 ResNet module
本文M-YOLO网络模型采用了基于三层残差学习单元的网络结构。残差网络在解决了阻碍更深层次网络优化的梯度消失和梯度爆炸问题后,通过快捷连接在某一层获得激活,然后迅速反馈给另外一层或者更深层,提高了网络检测性能。残差网络可以训练更深层次乃至几千层的网络模型并取得更高的精确度,现已在检测、分割、识别等领域被广泛应用。
实验从Google Earth上搜集了10 013幅可见光遥感图像,制作了舰船目标遥感数据集,数据集中只包含舰船一种类别,数据集的格式为PASCAL VOC。为了减少训练过程中网络过拟合的风险,对数据集采用数据增广方法实现样本扩充,分别采用旋转和翻转 2 种方式对包含1001幅可见光遥感图像进行6倍扩充从而得到60 078幅扩充图像。首先对原图像进行上下翻转操作,同时图像中的舰船目标框也做翻转操作,从而得到原图像和翻转图像2幅图像;再对以上2幅图像分别做旋转90°和180°的操作,得到额外4幅不同的图像。经过以上操作后,数据集得到了6倍扩充。
本文使用开源工具LabelImg对数据集中的遥感图像进行了人工标注,图片标注后,都会对应生成相同文件名且后缀为.xm l的文件,该文件记录了标注框的位置和目标类别等信息。数据集中含有60 078张图片,分辨率为768×768,如表3所示。
本文采用深度学习框架Darknet搭建实验运行环境,并在GPU服务器GeForce GTX TITAN Xp的CUDA环境中进行GPU并行加速计算。具体配置如表4所示。
表3 舰船检测数据集Table 3 Ship detection dataset
本文算法基于上述遥感数据集进行训练,类别为1,训练阶段初始学习率为0.001,衰减系数为0.000 5,在训练迭代次数为80 000次和95 000次时,分布将学习率降低为0.000 1和0.000 01,使损失函数进一步收敛。大约经过95 000次迭代之后,各参数变化基本稳定,最后的loss值下降到0.2左右,平均交并比(Avg IOU)逐渐接近1,最终稳定在0.9左右。从此参数的收敛情况分析,M-YOLO 网络的训练结果比较理想。M-YOLO网络训练过程中检测准确率和召回率的曲线如图5所示。
图5为本文算法在训练过程中的接受者操作特性(ROC)曲线,其中AP为ROC曲线下的面积,本文中类别为1。
表4 实验环境Table 4 Lab environment
图5 ROC曲线Fig.5 ROC curve
在M-YOLO网络模型成功训练后,即可得到最终舰船检测模型,将待测试舰船图片输入MYOLO模型,即可完成检测,测试结果如图6所示。由图中可以看出,所有的舰船目标都能够被完整检测出来,目标包围框能够准确框出舰船目标。
实验采用检测准确率作为舰船检测的结果评价指标。检测准确率的定义为对每张图片上的检测准确率Precisionc求和后除以包含该类别的总图片数Nc:
数据集中舰船目标的检测准确率Precisionc等于在一张图片上网络模型正确检测出的样本数N(True)c与总样本数(包括正确检测出的样本数N(True)c和错误检测出的样本数N(False)c)之比:
为了验证M-YOLO算法的检测性能,本文将实验结果与SSD、YOLOv3、YOLOv3-Tiny等目标检测算法进行对比,实验结果如表5所示。
表5给出了本文算法与其他目标检测算法在舰船数据集上的测试性能对比,本文算法的检测准确率为94.12%,分别比SSD、YOLOv3提高了11.11%、9.44%,得益于M-YOLO网络具有提取深层特征的能力。检测速度分别提高了13.1、10.7帧/s。与YOLOv3-Tiny算法相比,其检测准确率也提高了6.89%,主要原因是本文算法采用了特征映射模块和残差网络模块,可以获得丰富的语义信息。对比以上算法,M-YOLO网络能够保持较高分辨率,具有开阔的感受野,提高了对舰船小目标的检测能力。本文算法的检测速度达到54.1帧/s,较YOLOv3-Tiny算法降低了1.5帧/s,主要由于本文算法采用了残差网络,加深了特征提取网络的深度,从而降低了检测速度。虽然M-YOLO网络的检测速度有所下降,但检测准确率得到了提高,且满足高于25帧/s的实时检测要求。
图6 舰船检测结果Fig.6 Ship detection results
表5 实验对比结果Table 5 Experimental comparison results
本文将M-YOLO网络模型应用到遥感技术中的舰船检测领域,实现了对遥感图像中舰船目标的有效检测。针对舰船密集小目标难检测的问题,本文在YOLOv3-Tiny网络模型的基础上,增加了特征映射模块对特征提取网络进行优化,同时采用残差网络提高了对舰船的检测性能。本文算法在自制的舰船数据集上进行训练及对比测试,实验表明:本文算法较大地改善了舰船小目标的检测效果,相比于SSD、YOLOv3等目标检测算法,本文算法的检测准确率提高了11.11%、9.44%,检测速度提高了13.1、10.7帧/s。但本文算法在模糊的小目标舰船方面仍有不足,这也是后续的研究方向。