王 彬, 王国宇
(1.中国海洋大学信息科学与工程学院, 山东 青岛 266100; 2.青岛科技大学信息科学技术学院, 山东 青岛 266061)
海岸线同时受到自然因素和人为因素的影响,具有高度的动态性[1-2]。合成孔径雷达(synthetic aperture radar, SAR)是一种主动式成像雷达,具有能对目标进行全天时、全天候观测的优点[3],已经成功应用于很多领域,例如军事、农业、地球科学、海洋资源利用等[4],并且SAR数据很适合进行海岸线的动态检测。《海道测量规范》[5]中规定,海岸线为大潮高潮时水陆分界的平均痕迹线。SAR图像中的海岸线为拍摄时的瞬时水边线,无法保证此水边线为海岸线,因此本文主要研究SAR图像瞬时水边线的提取。
瞬时水边线的提取是海岸线提取的关键一步[6],目前使用较多的方法有阈值分割方法、边缘检测算子方法与数据挖掘方法。阈值分割方法[7-9]简单有效,但是面对复杂的陆地背景时效果欠佳。边缘检测算子[10-11]对噪声敏感,连续性较差。数据挖掘方法[12-14]则是利用了人工神经网络、聚类分析技术、支持向量机等数据挖掘的方法自动提取海岸线,但是需要一定的人工干预,并不能实现完全的自动提取,且当存在阴影或者其他水体时有一定的虚警。
目前深度学习方法在光学图像的目标检测[15-16]、图像分割[17-18]中取得了巨大成功,但深度学习在海岸线提取方面的应用较少,而SAR图像瞬时水边线的提取本质上是一个二分类问题[1],本文引入深度学习分类方法进行SAR图像瞬时水边线的端到端自动提取。
Long等[19]将传统的分类网络修改为全卷积网络(fully convolutional network, FCN),以此实现对输入图像的端对端密集分类。FCN的提出极大地推动了密集分类的发展,但存在分类精度不高、对目标边缘等细节信息提取较差的问题。后续提出的网络在FCN的基础上做了许多改变,提高了分类的正确率。文献[20-21]利用条件随机场对分类结果进行处理,通常作为后处理,或是加入网络中进行端对端训练。文献[20,22]利用空洞卷积提取高分辨的特征图,减小特征图中采样过程细节信息的丢失。文献[23-24]利用编码解码网络实现高分辨率的结果预测,编码网络用来提取图像的中层与高层特征,解码网络则对编码网络提取的高层与中层特征进行融合与再提取,最终输出预测图。
本文首先用增强型Lee滤波[25]降低SAR图像的相干斑噪声,进而用残差网络[26](residual network, ResNet)的升级版本提取SAR图像中的目标特征;再利用全局卷积网络(global convolutional network, GCN)[24]、密集连接网络(densely connected network,DenseNet)[27]进一步提取目标本质特征,将水体区域分割出来;最后再用Sobel算子[28]将边缘提取出来得到瞬时海岸线结果。
一般而言,在图像分类中表现很好的网络在图像密集分类中也能具有较高的分类精度,例如FCN中所用的视觉几何群(visual geometry group,VGG)网络[29-30]以及目前很多编码解码网络中所用的ResNet[31]等。
在传统的卷积神经网络中,网络是一层层简单堆叠构成。He等[31]观测到,通过简单地堆叠层并不能提高网络性能,层数过深时网络性能反而下降,于是提出ResNet,使得卷积神经网络突破了之前的层数限制,在深层时可以获得更好的表达能力。与VGG网络相比,ResNet的参数少得多,因为VGG网络有3个全连接层,这需要大量的参数,而ResNet用平均池化代替全连接,节省了大量参数。
2017年,Xie等[26]提出了ResNet的升级版本ResNeXt以代替ResNet,取得了更好的分类效果。因此,本文的主干网络采用了ResNeXt。该网络的主要特点是:网络结构简明,模块化;需要手动调节的超参数很少;与ResNet相比,相同的参数个数,结果更优,一个101层的ResNeXt,和200层的ResNet准确度差不多,但是计算量只有后者一半。
DenseNet[27]是在ResNet的基础上进一步发展了短连接的思想,在层与层之间引入更多的连接,如图1所示。DenseNet进一步减轻了梯度消失的问题,加强了特征的传播,使得各个层级的特征得到充分的利用,从而提高最后分类的精度。
图1 DenseNet框架
本文采用分割的方法对SAR图像的海水区域进行提取,其中海水分为一类,其他区域归为背景一类。将海水分割出来后,再分离海岸线。首先利用增强Lee滤波对输入图像进行预处理,降低相干斑噪声影响;然后将预处理后的图片输入到搭建的编码解码网络中进行密集分类,得到最终海水和背景的二值分类图;进而利用Sobel算子分离出海岸线。算法的整体框架如图2所示。
1.3.1 增强Lee滤波预处理
为了降低SAR图像相干斑噪声对海岸线提取的影响,本文采用增强Lee滤波抑制噪声,同时保证其纹理信息不受破坏。
1.3.2 深度学习分类网络
本文所提出的网络框架包含编码网络和解码网络,具体如图2所示。
图2 网络的整体框架
(1)编码网络
由ResNeXt主干网络构成,包括4个部分:Encoder_1、Encoder_2、Encoder_3和Encoder_4。编码器通过编码网络提取输入图像的特征,包括从中间层的细粒度特征到高层的低分辨率语义特征。编码网络以级联的方式搭建。其中,Encoder_x(x=1,2,3)的输出连接到Encoder_(x+1)(x=1,2,3),编码块之间从上往下首尾相连,Encoder_x(x=1,2,3)提取图像的中低层特征,Encoder_4提取高层特征,且将模块Encoder_x的输出连接到模块Decoder_x的输入。
(2)解码网络
解码器包括4个主要的部分:Decoder_1、Decoder_2、Decoder_3和Decoder_4。将每一个Decoder_x(x=2,3,4)的输出连接到每一个模块Decoder_y(y 解码模块的内部结构如图3所示[22]。整个解码网络由3部分组成:GCN[30]、解码模块Decoder_x和密集连接模块。 图3 解码器内部结构 全局卷积网络由1×k+k×1和k×1+1×k两个分离卷积[32]组成。GCN可以在输入特征图的一个k×k大区域中实现密集连接,且与普通的k×k卷积核相比,GCN只有O(2/k)的计算量和参数数量。GCN在网络中实现大感受野中的密集连接,可以提高分类结果的精度,也具有维度匹配的功能。具体结果如图4所示。 图4 GCN内部结构示意图 解码模块Decoder_x具有相同的内部结构,但具有各自独立的参数。模块由3部分组成:残差卷积单元(residual convolutional unit, RCU)、多分辨率融合单元和链式残差池化(chained residual pooling, CRP)。解码模块具有多个输入,包括编码网络输出的高分辨率特征图和之前解码模块输出的低分辨率语义特征,编码网络输入的特征经过两个RCU单元进行调整后与直接输入的低分辨率语义特征进行融合,再经过CRP提取新的语义特征,经过一个RCU单元调整后输入下一个解码器或者进行最后预测,其中Decoder_4只有一个输入,其他的输入个数分别为2,3,4。 RCU由去除批量归一化(batch normalization, BN)层之后的RCU组成,主要作用是微调预训练的ResNet模型权重,同时也可以对输入特征进行调整并用于下一步的处理。具体如图5所示,RCU由两个Relu激活函数和两个3×3卷积交叉串联搭建,RCU操作后对输入特征图的大小和维度没有改变。 图5 RCU内部结构 多分辨率融合单元是解码模块第2个阶段,作用是融合编码器经过调整的特征和之前解码器输出的特征。假设H×W×C为输入特征图的高、宽和通道数,在进行不同分辨率特征融合之前,必须保证H、W和C三者的一致。先将编码器和前一个解码器输入的特征经过一个3×3卷积实现通道C的统一,若有密集连接输入则通过GCN进行维度匹配;然后将所有输入的低分辨率特征图使用双线性插值进行上采样至高分辨率特征图大小,实现H×W的统一。 级联池化是解码模块的第3个阶段。CRP最早用于在大的图像区域中提取背景上下文信息。CRP最大的优点是可以对输入特征图进行连续的池化,这样就可以用一个5×5的窗口来获取大范围的上下文信息。具体结构如图6所示,CRP的具体结构由一连串的池化模块组成,每一个模块包含一个卷积层和一个最大池化层,后一个池化层以前一个池化层的输出结果作为输入,因此后续的池化层能够用一个不大的池化窗口来处理更大区域的图像特征。 图6 CRP内部结构 密集连接模块是指图2中解码器Decoder_x的输出为每一个解码器Decoder_y的输入,其中x>y。这使得每一个解码器可以使用所有之前的高层语义特征,特征得到重复利用,从某种程度上可以修正之前编码器出现的错误。密集连接模块可以有效地融合不同分辨率的特征,同时通过密集连接,使梯度可以在训练时在各个解码模块间得到有效地传递,缓解梯度消失的问题。 本文数据集使用了两种数据,一种是Sentinel-1 SAR图像,分辨率为5 m×20 m,一共有7张大小为10 000×13 000的图像;另一种数据是分辨率为0.1 m的毫米波数据,一共选用了10 240×13 050的大场景影像9张。使用Matlab软件中的Image Labeler进行标注,共分为背景和海水两类。将大图切割成500×500大小的图像做成数据集,一共4 500张切片,训练和验证的比例为4∶1。 图7展示的是部分Sentinel-1 SAR影像和毫米波影像。由图7可以看出,毫米波影像的分辨率非常高,细节信息得到了体现。 图7 SAR图像数据集示例 图8为数据集中原图与标签的示例,其中红色为海水区域,黑色为背景区域。 图8 数据集示例 网络训练过程中,学习率和权重衰减分别设置为e-5和0.995。编码与解码网络之间用于维度变换的GCN模块中,卷积核的尺寸设置为k=9,c1分别为64、64、64、128。训练过程中使用500×500的窗口进行随机滑窗剪裁。 为验证本文方法的有效性,对本文提出的算法和两种分割效果很好且应用非常广泛的深度学习网络进行了实验对比,这两种网络为FCN[15]和细化网络(refinement network, RefineNet)[23]。分别对一张Sentinel-1 SAR图像和一张毫米波SAR图像进行海岸线的提取实验。测试的图片来源于在训练中未使用的区域,Sentinel-1的SAR图片大小为2 058像素×2 556像素,毫米波的SAR图像为1 191像素×2 464像素。测试时先使用几种算法训练产生的模型对SAR图像处理产生海水和背景的分割图,再对各自的分割图采用相同的Sobel算子参数进行边界分离。 Sentinel-1 SAR图像的实验结果如图9和图10所示,图9为SAR图像海水分割的结果,可以发现,FCN网络分割的结果中有很多海水的虚警区域,尤其是在陆地上有很多阴影区域也被分成了海水,并且该算法还漏掉了左下角的一小块陆地。RefineNet网络分割的海水区域虚警相较FCN有所减少,FCN中漏掉的陆地区域也被分割出来,但仍有不少虚警。而本文算法结果显示,陆地上的阴影区都没有被分为海水,没有出现虚警,且漏掉的陆地区域也被找到。海岸线分离后与SAR图像的融合结果如图10所示,可以清楚地看到本文算法在海岸线提取上比另外两种网络性能更优。 图9 Sentinel-1的SAR图像分割实验结果 图10 Sentinel-1的SAR图像海岸线提取实验结果 高分辨率毫米波SAR图像的实验结果如图11和图12所示。从图11可以发现,FCN网络和RefineNet网络在进行海水分割时都将陆地上很多小的阴影判定为海水区域,出现了很多海水虚警。而本文提出的方法则基本上消除了这些虚警区域,只出现了非常少的零星虚警区域。图12(a)为SAR图像对应的海水标签。将图11中的分割结果利用Sobel算子进行海岸线分离后,发现本文方法不但虚警非常少,在海岸线的提取中精度也更高,与实际海岸线更加吻合。通过这两个实验,可以看到,FCN的处理结果较粗糙,RefineNet和本文算法可以取得更好的效果,本文算法效果则比RefineNet稍好。FCN存在小块阴影区域误分类为海水,还存在对小块陆地的忽视处理。边缘的粗糙和小目标的忽视是因为FCN的网络结构中缺乏对中级特征的利用,如果只利用经过数次池化后的高级特征就容易导致丢失小目标和边缘信息。误分类是因为FCN对特征的上采样过程中缺乏对上下文信息和全局信息的提取。RefineNet和本文算法与FCN的差别在于解码网络的设计,RefineNet采用逐层将编码网络低层中级特征融入高层语义特征,同时提取上下文信息。这是一个逐层修正分类结果并且同时补充细节信息的过程,故RefineNet和本文算法能取得更好的分类结果。本文算法进一步引入密集连接和GCN,能得到更好的训练效果并获取更多的上下文信息,故能在不同数据中取得更好的分类结果。 图11 毫米波的SAR图像分割实验结果 图12 毫米波的SAR图像海岸线提取实验结果 为对实验结果进行定量分析,表1给出了两个实验的水体分割像素精度(pixel accuracy, PA)和交并比(intersection over union, IOU),为了评定本文提出方法的高效性,还给出了图片测试时间对比。由表1可知,两个实验中PA都可以达到90%以上,从提取图中也可以发现,绝大部分水域都能较好地提取出来。且本文方法比FCN和RefineNet两个方法精度更高,水体区域都能更好地检测出来。两个算法的IOU都比本文方法低3至4个百分点,由图12可以发现,这是因为出现了很多虚警水体的原因,而本文方法则虚警很少,这也进一步验证了本文方法的有效性。 表1 不同方法性能比较 此外,从测试时间来看,FCN的网络效率最高,RefineNet花费时间最长,本文网络比FCN稍慢,但比RefineNet快很多。本文网络和FCN的测试时间有0.1 s左右的差距,FCN作为目前分割网络的鼻祖,其网络结构本身就较为简单,因此训练模型参数较少,测试时间最短。RefineNet的测试时间是最长的,由此可以看出,改进后的网络不仅能对海岸线进行高精度提取,还缩短了图片处理时间,真正实现了高分辨率SAR图像中海岸线的快速提取。 针对SAR图像中海岸线自动高精度提取问题,本文提出了一种基于深度学习的新型网络。该网络首先用增强Lee滤波来降低相干斑噪声;进而利用ResNeXt主干网络来提取特征;再结合GCN、密集连接和分层特征融合进一步提取本质特征,从而获取海水分割结果;最后利用Sobel算子进行海岸线分离。通过对Sentinel-1和高分辨率毫米波SAR图像进行海岸线提取实验。结果表明,本文提出的方法在海岸线提取上比FCN和RefineNet性能更优,虚警和漏警大大降低;也充分证明了本文方法对于不同分辨率和不同波段的SAR图像在海岸线提取中的有效性。2 实验结果与分析
2.1 数据集介绍
2.2 实验参数设置
2.3 实验结果分析
3 结 论