刘易斯
(湖北华中电力科技开发有限责任公司,湖北 武汉 430077)
近年来,高分辨率遥感图像(high-resolution remote sensing image, HRI)的日益可用性为许多研究领域提供了前所未有的便利和机遇[1]。然而,随着观测尺度的变细,HRI的复杂性急剧增加了信息提取的难度,主要是受到传统图像分类器(例如贝叶斯分类器、支持向量机)的阻碍[2-3]。文献[4]公开采用传统卷积神经网络(convolutional neural netwowk, CNN)模型分割高分辨率遥感图像,CNN模型可以自动提取高分辨率遥感图像特征,但当网络层次太深时,靠近输入层的参数改动缓慢,并且池层会丢失大量信息。在此基础上文献[5]公开采取完全卷积网络(full convolutional network, FCN)模型分割高分辨率遥感图像,将传统CNN模型中的全连接层替换成一个个卷积层,提高了计算卷积效率,但FCN模型没有考虑全局上下文信息,具有一定的局限性。为此构建了深度全卷积神经网络(deep convolutional neural network, DFCN)。
本文结合密集连接和全卷积网络的思想,提出了一种新的DFCN。此外,还采用多尺度卷积核对DFCN模型进行了进一步的改进,形成了更广泛的神经网络,增加了提取特征的多样性。关于DFCN模型流程如图1所示。
图1 DFCN模型流程图
如图1所示,设计一个端到端的DFCN模型,使得网络的输出可以得到与输入图像相同的分辨率,其中全连接层被改变为全卷积层。得益于这种机制,DFCN可以接受任何大小的输入图像[6]。DFCN模型主要由下采样路径和相应的上采样路径两部分组成,这两部分都采用了密集连接机制,提高了网络中的信息流。
与普通CNN模型一样,DFCN模型也包含池层,这是一种下采样操作,其主要目的是对特征图进行压缩和扩展,可以有效降低后续卷积层的参数,提高学习效率。在下采样路径中,1×1卷积层和2×2池层被称为每个密集块之间的向下转换。
DFCN通过使用转置卷积层对上一个卷积层之后的特征图进行上采样,将分辨率恢复到与原始输入图像相同的大小,并对每个像素进行预测。最后,对上采样特征图进行逐像素分类。
此外,本文还引入了编码和解码路径之间的跳过连接,这有助于解码器从下采样层恢复细粒度信息。编码器和解码器之间有一个瓶颈块,包含两个主要功能:可以将前一层得到的特征图进行聚合;可以减少输入特征图的数量,提高计算效率[7]。
通常来讲,采用普通CNN模型处理高分辨率遥感图像分割流程如图2所示。
图2 高分辨率遥感 图像分割方法流程
假设一个高分辨率遥感图像波段具有较低的光谱可变性,则与该图像波段重叠像素的局部最优SP应相对较低,反之亦然。光谱可变性可以用光谱标准差(standard deviation, SD)来反映。因此,在进行局部SP估计之前,必须先计算由这些高分辨率遥感图像波段产生的SD图谱。对于只有一个通道的图像,通过为每个像素分配相应的图像波段的SD值来生成SD-map。对于多通道图像,SD是所有波段的平均值。在每次变尺度区域合并之前,使用以下等式对SP进行局部估计:
(1)
式中:SP0为全局SP值,可以由用户直接设置;σmean为所有波段[8]的加权SD和;σ1+2为对应于两个波段s1和s2的平均SD值。σmean和σ1+2通过公式表示为:
(2)
(3)
式中:σ1和σ2分别为波段s1和s2的SD值,当s1和s2处在同一波段时,其SD等于该波段的像素数。
假设s表示高分辨率遥感图像数据,根据SEEDS原理,所有的优化都是基于能量的函数,如式(4)所示。
E(s)=M(s)+γG(s)
(4)
式中:M(s)为基于高分辨率遥感图像的颜色分布;G(s)为高分辨率遥感图像的边界形状;γ为度量,用于控制这两项之间的平衡。在计算每个簇的色密度分布时,通过以下公式表示。
(5)
(6)
(7)
式中:Ak为图像分割,表示高分辨率遥感图像中的一组像素,一组中含有k个的像素;v为直方图中的一组颜色;δ为颜色的指示函数;Z为直方图的归一化因子;CAk(j)为高分辨率遥感图像的颜色分布;T为颜色分布,T的测量质量可用于确定直方图集中了多少颜色。
G(s)用于计算高分辨率遥感图像的边界形状,由式(8)~式(9)表示。
(8)
(9)
综上所述,SEEDS算法的两个主要步骤:对图像进行规则网格的均匀粗分割初始化;当E(s)>E(st)时,面片被移动到相邻的高分辨率遥感图像上,其中s是建议的分区,st是最低的能量分区。在块级移动阶段,将多个像素同时移动到邻域中,使边界被新的高分辨率遥感图像重新调整[9]。这些过程保证了SEEDS算法比其他数据处理方法具有更好的性能和更快的计算效率。
考虑将单个图像x0输入到由t层组成的卷积网络中,将第t层的输出表示为xt,并且xt可以由前一层xt-1输出的变换代数Ht(x)计算为:
xt=Ht(xt-1)
(10)
式中:变换代数Ht(x)可以通过卷积、集成、归一化或ReLU等非线性变换来实现。随着网络的不断深入,为了解决卷积梯度的消失问题,本文引入残差模块可以将Ht(x)的响应与前一层特征的同一映射相结合,从而简化深层网络的训练,其公式为:
xt=Ht(xt-1)+xt-1
(11)
引入残差模块的优点在于梯度可以通过身份函数直接从后面的层传递到前面的层。然而,Ht的身份函数和输出是通过求和来组合的,这可能会阻碍网络中的信息流。
为了进一步改善信息流。本文引入密集连接编程的思想,跳过连接到输出特征映射的所有前一层迭代串联在一个前馈的方式。因此,第t层的输出图像xt定义为:
xt=Ht(x0,x1,…,xt-1)
(12)
综上所述,关于密集连接的流程如图3所示。
图3 密集连接的流程
密集连接性使得所有层能够接收来自其他层的直接监视信号,并且可以更好地重用网络流之间的特征映射。每层的输出具有e个特征图,其中e为增长率参数,通常被设置为小值(例如,e=12),受益于特征图的无障碍流动。在遥感图像分析任务中,节省计算量和参数量的特点是非常有利的[10]。
得益于密集连接机制,为了进一步提高深层神经网络的表征能力,提出用多层感知器卷积层代替传统的卷积层,相当于在传统的卷积层之间增加1×1的卷积层,从而加强了各层之间的特征重用和梯度流,增加提取信息的丰富性和多样性,进一步改进了密集块的组成部分,从而深化了DFCN的结构,并称为多尺度DFCN。基于这种方法开发了初始改进密集块,其中大量使用了1×1卷积。1×1卷积主要有两个目的:一方面可以跨通道组织和聚合信息,提高网络的表现力;另一方面可以减少输出通道的维数,否则会限制网络的规模。
在多尺度DFCN中,改进的密集块由1×1、3×3和 5×5三个不同尺寸的滤波器组成,而不是仅由3×3卷积组成。各改良密集块体结构如图4所示。
图4 改良密集块体结构
密集块体结构由三个支路组成,每个支路采用不同尺寸的滤波器,具有紧密连接的机制。当1×1核在特征图上滑动时,滤波器只覆盖一个像素,因此其更关心光谱的相干性。对于其他两种核,由于感受像素的不同,3×3和 5×5滤波器聚焦于各种潜在的局部空间结构。得益于遥感图像的VHR,即使是小面积的结构变化也能被表示出来。因此,使用多尺度滤波器的密集块可以从不同的角度获取同一像素的不同信息。从不同分支提取的特征映射在密集块的末尾进行拼接,作为过渡模块的输入。因此,利用多个密集块和多尺度滤波器组合成一个完整的网络是充分利用网络深度和宽度优势的好方法。
由于多尺度密集块包含三种滤波器,且密集连接需要将所有前一层的输出反复串联,因此每一层的输入维数将线性增加。为了提高存储空间的效率,迫切需要减少特征映射的通道。为了解决这个缺点,本文对多尺度DFCN模型中上采样路径中的最后一个密集块之后设置softmax输出层,在该层中,将最小化整个密集块上的多项式logistic损失函数的归一化为:
(13)
在表1中,编码器中的每个“体层”对应于多尺度卷积运算,其中包含三种不同的卷积核:1×1、3×3和5×5,而在瓶颈块和解码器中,“体层”仅包含3×3卷积。本文根据表1多尺度DFCN模型的详细体系结构进行试验。
试验选用青岛市X地区,该地区由许多建筑物和水湾组成,通过多方位采样高分辨率遥感图像构建出VHRI试验数据集,从每个图像中选择的对象采样数,其中部分数据样本如表2所示。
为了获得关于分类尺度效应的详细信息,本文进行单尺度试验。单尺度试验使用了15、25、35、45、55和65像素尺度的提取窗口。在这一部分中,本文评估了基于DFCN模型的高分辨率遥感图像分割精度,并采用对比试验的方式,以文献[4]的CNN模型与文献[5]的FCN模型作为参照对象。试验中所采用的计算机硬件环境为CPU:Inter(R)Core(TM)i7,8核16 G内存,主频为2.59 GHz,电脑的硬盘容量为512 G,软件的操作系统Windows7,所用的软件版本为JDK5.0,通过MATLAB软件系统进行仿真。图5显示了使用3种图像分割方法在不同尺度下图像的所有分割精度。
表1 多尺度DFCN模型的详细体系结构
表2 用于试验数据的样本数
图5 不同分割方法在不同 尺度下的分割精度
从图5可以明显看出,基于DFCN模型的分割在所有尺度上表现出最好的性能,而基于CNN模型的分割在大多数情况下表现最差。使用DFCN模型分割方法精确度峰值出现在15尺度时,精确度达到最大值92.2%。
为了更全面地探索不同方法在高分辨率遥感图像分割中的尺度效应,使用3种遥感图像分割方法在最佳尺度(15)下不同类别的遥感图像分割精度结果,如图6所示。
图6 不同分割方法在不同类别下的分割精度
从图6可以明显看出,基于DFCN模型的分割在所有尺度上表现出最好的性能,并且,不同的分割方法对不同类别的遥感图像影响不同。例如对于植被和建筑物FCN模型的分割精度高于CNN模型,但对于道路和裸土却低于CNN模型,而DFCN模型对于所有类别的遥感图像均具有较高的分割精度。因此,从总体优势的排序来看,3种方法的总体分割性能排名从高到低依次为DFCN、FCN和CNN。
本文首先提出了一种新的高分辨率遥感图像语义分割框架DFCN。DFCN模型基于尺度可变区域合并的分割算法提出了一种新的尺度参数(SP),从而更好地分割出各种尺寸的遥感图像,提高了HRI分割的质量。结合SEEDS提取的高分辨率遥感图像特征进行分类,通过密集连接机制加强层间的信息流,缓解消失梯度问题,使网络训练更加准确高效,并研究了多尺度滤波器来拓宽网络。
通过试验验证了本文DFCN模型的适用性,但在试验过程中,发现不同分割方法模型的网络宽度和生成的特征图越多,网络性能越好。对于这种现象,未来会进行更深一步的研究与探讨。