徐胜军,欧阳朴衍,郭学源,Khan Taha Muthar
(1.西安建筑科技大学 信息与控制工程学院,西安 710055;2.清华大学建筑设计院有限公司,北京 100084)
遥感图像的分割是图像分割领域中一项具有挑战的任务。遥感图像建筑物语义分割在国防安全、国土资源管理和土地规划等方面有着重要的研究意义和应用价值。
遥感图像建筑物分割的实质是通过提取有效的图像特征,建立输入图像与输出建筑物特征之间的映射关系。传统遥感图像分割方法[1-4]通过在特征空间的基础上利用数学方法建立分割又模型,常用传统方法有基于边缘的分割方法、基于阈值的分割方法和基于区域的分割方法等。Li等[1]提出一种利用嵌入置信度的边缘检测器检测边缘信息,来提升对弱边界的分割并有效减少遥感图像建筑物的过度分割。Wang等[2]提出了一种基于多尺度特征区域融合和空间规则归纳的图像特征提取方法,提升高空间分辨率遥感图像分割精度。Deng等[3]提出了一种利用图像的灰度直方图确定阈值范围的方法处理图像,获取遥感图像分割结果。传统方法分割遥感图像过程中特征表达通常通过人工设计,对图像表达多数为低层次特征,受多阈值选择限制、图像边界信息不连续和遥感图像空间关系应用较少等因素影响较大。
近年来,利用深度学习算法实现建筑物自动分割得到广泛关注。与传统方法相比,深度学习算法[5-14]可以有效克服人工目视解译,人工劳动成本高和效率低等问题,针对具体的遥感图像分割问题自主学习合适的图像特征,自动建立图像到分割目标间的映射关系。Lin等[5]提出了一种基于AlexNet[6]深度监督策略的方法来提高AlexNet遥感场景分类模型中间层的泛化能力,细化图像特征,有效解决过拟合等问题实现遥感图像分割目的。Wang等[7]提出了一种基于ResNet(residual network,ResNet)[8]丰富层次信息提取图像特征的方法,充分描述遥感图像中的丰富语义信息提升图像分割精度。Li等[9]提出了一种基于UNet(Unity Networking,UNet)[10]的带有收缩路径和扩展路径结构的深度卷积网络模型,改进UNet结构模块连接方式来提升遥感图像分割精度。Yang等[11]等提出了一种基于SegNet[12]应用于遥感图像建筑物提取的方法,实现高维特征的低维提取,解码器网络将低分辨率特征映射传递到高空间分辨率特征映射来实现遥感图像建筑物的提取和分割。Xu等[13]提出一种基于端到端的全卷积神经网络FCN(fully convolutional networks,FCN),将网络通道分组,在不同任务通道上分别对图像进行特征提取并共享特征再进行融合,提升图像分割精度。
上述基于深度学习分割遥感图像建筑物的几种模型一定程度上可以提升图像的分割效果,但对于遥感图像中多尺度的建筑物无法完整自适应提取,建筑物边界所提取的特征存在不清晰和丢失等现象。针对以上问题,提出一种利用膨胀卷积提取特征并多尺度特征融合的深度网络模型(multiscale- feature fusion deep neural networks with dilated convolution,MDNNet),自动提取多尺度遥感图像建筑物特征,解决传统深度网络模型提取遥感图像建筑物受道路、树木、阴影等因素影响提取目标边界特征不清晰和丢失等问题,提升建筑物分割精度。
提出模型MDNNet以ResNet残差网络结构中的ResNet101为基础网络模型,主要由膨胀卷积网络模块,多尺度特征融合模块和特征解码模块组成。首先利用不同扩张率的膨胀卷积获取不同尺度的遥感图像建筑物特征信息,提取过程不对图像进行下采样处理可以避免由于分辨率降低造成图像细节信息损失;其次从不同尺度融合图像特征来获取不同尺度的上下文信息,加强模型对不同尺寸大小建筑物目标的提取能力;最终利用解码模块将经过特征融合模块的各级特征综合利用,恢复图像原有分辨率输出分割结果,实现对目标边界的精细化分割。提出的MDNNet模型结构如图1所示。
图1 MDNNet模型结构
深度学习网络结构中随着网络层数的逐渐增多,会出现误差增高,梯度消失等现象,使得训练效果变差。ResNet残差网络在深度神经网络中增加残差结构,学习目标是多个网络层输入和输出间的残差,其映射关系为:
fResNet(i,w)=fR(i,w)-i=hi-i
(1)
式中,i为网络输入,hi为网络输出,w为深度神经网络权重,fResNet为ResNet网络输入图像和输出特征之间的映射关系,fR(i,w)是常规网络结构入图像和输出特征之间的映射关系。训练结果在保证信息完整性的同时简化学习目标,输入的变化可以反应损失函数的变化产生较大梯度,避免梯度消失,加快训练过程中收敛速度。
ResNet的基础模块由Building block或bottleneck组成。Building block结构包含一个残差支路和short-cut支路,与传统结构相比多了一个short-cut支路。Building block结构如图2。
图2 Building block结构
Bottleneck通过一个1×1的卷积减少通道数,最后的1×1卷积来恢复通道数量,使结构中输出通道数输入通道数相同。Bottleneck结构如图3。
图3 Bottleneck结构
ResNet101网络整体模型由1×1、3×3、1×1的卷积堆叠而成,整体模型结构如图4。
图4 ResNet101网络结构
在利用ResNet101提取遥感图像特征时,连续的池化和其他采样操作通过降低图像尺寸的方法增大提取特征,使图像分辨率损失从而丢失大量局部细节信息,不利于图像边缘信息提取。为了解决以上问题,当利用残差模块使图像分辨率缩小到原图1/8时,在ResNet101中引入膨胀卷积模块。模块中利用不同扩张率的膨胀卷积代替普通卷积来依次增大卷积核感受野。
膨胀卷积与普通卷积相比增添了一个“扩张率(dilation rate,rate)”的参数,来定义卷积核处理数据时各值的间距,卷积内剩下点的权重用0填充,使得在增加卷积感受野的同时不增加卷积的参数量。扩张率的选取由图像原始尺寸的大小和提取特征图的大小来决定,分别以rate=6、rate=12、rate=18的扩张率的膨胀卷积来从多个角度提取建筑物特征信息,具体结构如图5所示。
图5 膨胀卷积结构
膨胀卷积提取特征图的大小会因膨胀卷积的扩张率不同而改变,运算如下:
k′=d(k-1)+1
(2)
h′=(h+2p-k′)/s+1
(3)
式中,s为步长,d为膨胀率,k为原始卷积尺寸,k′为膨胀卷积尺寸,为输入特征图的分辨率大小,h′为输出特征图分辨率大小,p为填充大小。
为了在训练过程中令每次权重的更新保持相同,克服随着卷积层数增多,卷积运算带来的输入和输出的数据分布变化,降低训练难度,在每个卷积层输入前增加BN(Batch Normalization)层,将数据转化成均值为0和方差为1 的规范形式。BN层的运算如表1所示。
表1 BN层运算表
γ的初始值为1,β的初始值为0,变化率如下:
(4)
(5)
(6)
(7)
(8)
(9)
引入膨胀卷积后的ResNet101 卷积层通过依次增大扩张率使得卷积核的感受野依次增大,获取不同尺度的遥感图图像特征信息;膨胀卷积在不增加参数量的基础上扩大感受野,不需要下采样降低图像的分辨率,利于较高层语义特征的学习。
在遥感图像建筑物特征提取时,在利用膨胀卷积提取的多尺度特征无法精确对不同尺寸大小的建筑物完成自适应的识别,为了进一步对膨胀卷积提取的多尺度特征分析,将膨胀卷积提取的特征放入多尺度特征模块,对重叠的不同尺度特征通过全局平均池化进行特征融合生成不同空间分辨率的特征,有效利用图像空间上下文信息。
多尺度特征融合结构包含1×1的普通卷积核采样率rate分别为6、12、18的膨胀卷积,输出通道为256,最后包含一个BN层。多尺度特征融合结构如图6所示。
图6 膨胀卷积结构
膨胀卷积提取的第i层特征的输出为:
(10)
式中,第i层的卷积输入为X(i),输出为Z(i),权重参数为b(i)。膨胀卷积输出的各级特征Z(i)经过多尺度特征融合多个层次特征,模块中带有4个基础全局平均池化单元,根据遥感图像的分辨率和被提取建筑物的分辨率大小的不同进行调整,全局池化后特征图的分辨率大小分别为1×1、3×3、6×6和12×12。由于全局池化后获取的特征权重较大,通过卷积核为1×1的卷积层减少输出的通道数,减小权重后的特征图通道数是经过N次多尺度特征融合的1/N。A(i)为第i层多尺度融合特征,各层输出尺寸如表2。
表2 多尺度特征融合输出表
遥感图像通过膨胀卷积提取特征和多尺度特征融合对特征融合后,利用特征解码模块将各层特征图的空间分辨率恢复到与输入多尺度特征融合模块相同的分辨率。特征解码模块为下采样的逆过程。遥感图像分割过程中,图像的输入为向量为X=x1,x2,…xmT,输出向量为Y=y1,y2,…ynT,解码模块输出的损失函数为Q,则卷积的方向传播如下:
(11)
(12)
式中,C为遥感图像输入输出的卷积矩阵,Cij为矩阵C第i行第j列元素,Call,i=C1,i…Cm,i,解码模块输出为:
(13)
通过解码模块将不同尺度的特征图和原始特征图恢复到输入图像的原始尺寸,输出遥感图像建筑物分割结果。
实验基于Linux操作系统,采用2个NVIDIA TitanV Volta 12 G显卡作为GPU处理单元,32 G内存,CPU Inter E5处理器,pytorch-1.0.2的深度学习框架,Nvidia公司CUDA8.0GPU运算平台及cuDNN6.0深度学习GPU加速库。实验选取WHU Building change detection dataset遥感图像数据集验证提出模型的有效性,数据集包含建筑物、树木、道路、湖泊、草地等多类地表物,图像的原始空间分辨率为0.075米。将原始图片裁剪成像素大小为512×512的8 189张含有遥感图像建筑物的图片,为了避免选区样本的偶然性并有效评估提出模型的泛化能力,将裁剪的图片中4 736张作为训练集,1 036张作为验证集,2 416张作为测试集。
提出网络模型初始化权值来自在ImageNet数据集上预训练的结果,其他参数初始值为零,通过梯度下降法训练模型,迭代总次数为250 000,基本学习率为0.01,每迭代5 000次学习率下降0.1倍,学习率变换如下:
lr′=lr×(1-i/m)power
(14)
式中,lr′为变换后的学习率,lr变换前的学习率,i当下迭代次数,m迭代总次数,power是多项式的幂来控制学习率衰减。
为了对提出模型进行量化分析,对比不同方法分割结果,采用像素准确率(pixel accuracy, PA)、平均交并比(mean Intersection over Union, mIoU)和召回率(Recall Rate,Recall)作为定量评价指标。
评价指标像素准确率PA表示正确识别出建筑物占真实建筑物的比例,指标的计算公式如下:
(15)
式中,k为识别类别总数,pij为像素类i被预测为像素类j的总量,pii为像素类i,的像素被预测为像素类i的总量。
评价指标平均交并比mIoU表示图像真实值集合与图像预测值集合的交集和并集的比例,指标的计算公式如下:
(16)
式中,k为识别类别总数,nii表示第i类实际类别预测结果为j的像素点数量,ti为i类的像素点总数,pi为i类预测结果的总像素数量。
评价指标召回率Recall表示在不考虑遥感图像背景时,分割建筑物的像素点与真实标注像素点比例,指标的计算公式如下:
(17)
其中:Bseg为图像分割中与标注图像相比正确分割的像素点数量,Iunseg为与标注图像系相比未正确分割的像素点数量。
为了验证提出模型的有效性,对比几种不同模型之间的量化指标差异,对比模型包括:FCN模型[15]、ResNet模型[8]和ResNetCRF(ResNet Conditional Random Fields,ResNetCRF)模型[16],训练过程如图7~9所示。
图7 PA训练过程
图8 mIoU训练
图9 Recall训练过程
不同方法网络模型大小与训练速度如表3所示。
表3 网络模型大小与训练时间
不同方法遥感图像分割性能定量分析如表4所示。
表4 实验结果性能评价指标对比
从表3、表4可以看出,提出模型与对比模型相比较取得了最高的像素准确率(PA)、最高的平均交并比(mIoU)和最高的召回率(Recall),且在训练时长上仅高于ResNet模型。实验结果表明,提出模型通过膨胀卷积增大遥感图像感受野限制特征图分辨率损失;通过多尺度特征融合获取上下文特征信息形成不同分辨率的特征图等可有效提升遥感图像建筑物的分割精度。
不同方法建筑物分割结果图如图10所示。
图中10(a)列为分辨率为512×512的遥感图像,(b)列为地表真实值,(c)列为FCN模型分割结果,(d)列为ResNet模型分割结果,(e)列为ResNet模型分割结果,(f)列为MDNNet模型分割结果。
图10 遥感图像分割结果
FCN模型分割图像主要是将模型网络中间层的含有较高分辨率的特征图和反卷积操作输出的特征图融合,对提取建筑物的细节信息不够明显,分割结果中建筑物之间存在多数粘连现象且该模型不能有效识别建筑物边界,存在对树木、道路等误分割。ResNet模型分割图像建立以解码器-编码器模块为基础的深度学习框架,解码器模块以自动提取建筑物的特征,编码器模块采用反卷积实现对特征图的上采样完成对建筑物的分割。分割结果表明该模型有效抑制建筑物间出现的粘连现象,但对目标提取结果细节表达不明显,建筑物边缘信息不够完整。ResNetCRF模型在ResNet模型的基础上增加全连接条件随机场对参数同步训练,分割结果中看出全连接条件随机场可以有效弥补下采样过程细节损失,使建筑物轮廓更清晰,但建筑物边界细节上仍与真值图相比差异较大,存在部分问分割现象,且模型训练时间高于其他对比模型。以上3种模型由于对多尺度特征提取建模不充分,对不同尺寸大小建筑物的自适应提取能力有限。
MDNNet模型通过在ResNet101模型中引入膨胀卷积提取建筑物特征,有效抑制目标特征图分辨率过低从而保留更多建筑物边缘细节特征信息,利用多尺度特征融合模块使得模型可以获取多个尺度建筑物特征信息,对不同尺寸大小的建筑物完成自适应提取,分割结果表明对于较大型建筑物的分割也更加完整,与其他模型相比误分割现象较少,建筑物边界轮廓更加清晰完整。
本文提出的MDNNet模型应用于遥感图像建筑物分割领域中,在ResNet101残差网络模型中增加膨胀卷积,并利用多尺度特征融合获取多个尺度的建筑物特征信息。该模型有效提升建筑物边缘轮廓特征分割精度,实现对不同尺寸大小建筑物的自适应提取。在WHU Building change detection dataset数据集进行实验,实验结果表明本文提出方法在分割精度上明显优于FCN、ResNet和ResNetCRF对比实验模型,分割结果图中建筑物边缘信息的完整性且对不同尺寸大小建筑物的分割效果均明显提升。