密集反卷积网络在遥感建筑物提取中的应用

2018-06-01 10:50陈凯强
计算机工程与应用 2018年11期
关键词:密集卷积建筑物

张 欢,雷 宏,陈凯强

ZHANG Huan1,2,LEI Hong1,CHEN Kaiqiang1,2

1.中国科学院 电子学研究所,北京 100190

2.中国科学院大学,北京 100039

1.Institute of Electronics,ChineseAcademy of Sciences,Beijing 100190,China

2.University of ChinaAcademy of Sciences,Beijing 100039,China

1 引言

遥感技术的迅速发展,为地面物体识别提供了海量的高分辨率遥感图像。这些图像中地面物体的空间布局和几何结构更加清晰,纹理细节信息也更加精细,这为建筑物、汽车、道路、桥的识别提供了数据保障。这些人工目标中,建筑物提取具有重要意义,在场景分析、三维城市景观重建、地图更新、军事检测等方面发挥着关键作用。但是由于建筑物的形状结构多样、周围背景复杂、不同地区密度差异大等原因,建筑物提取仍然是个具有挑战性的课题。

传统的建筑物提取方法是基于经典的手工特征,例如建筑物的形状、颜色、强边缘、纹理、阴影和区域方向性等。Liow等人[1]利用阴影提取建筑物;Levitt等人[2]则利用纹理来区别建筑物和自然特征;Sirmacek等人[3]利用Gabor滤波器提取特征点定位建筑物的边缘和拐点来完成城区提取;侯蕾等人[4]提出了基于分析建筑物的几何特征和灰度特征的建筑物提取算法。这些方法在特定的场景下取得了较好的结果,但是还存在一些局限性。比如对建筑物的形状有较大的局限性,一般是基于常见的矩形或U形等作出的相关研究。建筑物周围复杂的环境,树木、建筑物本身阴影的影响,使其不能准确提取正确的边缘。有的方法需要人工进行复杂的预处理过程来提取建筑物的特征作为输入,无法达到自动提取建筑物的目的。

卷积神经网络是一种多层神经网络的深度学习算法,可以直接从原始像素中得到视觉上面的规律,从而避免了复杂的预处理过程。近年来,大数据时代的大量数据和快速发展的计算机、GPU等硬件资源促使着卷积神经网络技术不断发展,使其在人脸识别[5]、验证码识别[6]、行人检测[7]等多方面都取得了良好的效果。Mnih[8]、Vakalopoulou等人[9]将卷积神经网络的方法应用到了建筑物提取上,并分别设计了基于卷积神经网络和条件随机场的模型和基于卷积神经网络和马尔科夫随机场的模型,克服了传统方法中人工特征表达能力有限的缺点,避免了复杂的预处理过程。但是由于其层数较少,不能充分提取图像的抽象特征,因此对独立的、特定的建筑物能够取得较好结果,但是难以适应复杂场景[8]。

一般研究人员的完善方法是增加网络的深度,深层网络具有更强的非线性拟合能力,能够提取更为抽象的特征,使得网络能够得出与目标函数更相似的结构,从而在图像的分类识别、建筑物提取等方面有更出色的表现。但是,随着网络层数的增加,会出现一些新的问题。例如,输入图像的信息随着网络层数的加深会逐渐消失,这将导致网络不能很好地利用浅层网络的颜色、纹理等信息;同样地,梯度信息在反向传播过程中也会由于网络层数较深而消失,导致网络无法很好地训练优化,达不到预期效果。

针对这种问题,本文基于密集卷积神经网络[10],提出了一种可端对端训练的密集反卷积神经网络。该网络可以实现像素级的建筑物提取,相比于传统的反卷积神经网络[11-12],该网络能够大量减少参数个数。密集连接方式缓解了深度网络中梯度流消失的问题,加强了信息的前向传播,使得训练51层卷积权重层的网络成为可能,能够充分挖掘图像中的抽象特征,并兼顾低层的细节特征,取得了良好的建筑物提取效果。并且由于各个反卷积层之间是直接相联系的,避免了冗余的特征映射图的学习,因此可以大大减少参数数量。

2 密集反卷积网络特征学习模型

文献[10]中提出了密集连接的思想,进而提出了密集卷积神经网络,在图像分类中取得了很好的效果。本文将密集连接的思想引入到反卷积层中,设计了密集反卷积网络,将其应用到了像素级的遥感图像的建筑物提取中。本文首先利用5组文献[10]中提出的密集连接的卷积层和池化层来提取图像的多层级特征,然后设计了5组密集反卷积层将得到的特征映射图上采样到原图尺寸,完成了端到端的像素级别的预测。本文所提出的密集反卷积网络结构如图1所示。本章将详细介绍网络的各个结构。

2.1 输入层

第1层为网络的输入层,直接输入的是遥感图像切片,不需要进行复杂的预处理过程提取特征,遥感图像的大小和波段数可以是任意的,本文选择的图像尺寸为224像素×224像素的IRRG(Infra-red,Red,Green)三波段的遥感图像。

2.2 卷积层

本文的卷积层沿用了文献[10]中的密集连接的卷积层,使用了5组结构相同、参数略有不同的卷积层来提取图像特征,以第1组卷积层,即第2层到第6层为例进行详细介绍。

第2层卷积层采用的是16组3×3×3的卷积核,并对原图进行了上下左右各一个像素的边界扩充,扩充像素值设为0,卷积的步长设定为1,卷积后产生16个特征映射图。卷积操作为:

其中表示第N层的第 j个输出像素值,为第 j个输出相应于第N-1层的第i个输入的权重,3×3的卷积核对应为9个权重值为第N层的第 j个输出,其中和是可训练的。

图1 密集反卷积网络结构

对三通道的图像卷积过程如图2所示。从卷积公式及其图中可以看出,卷积操作是线性操作,为了使网络具有非线性拟合能力,本文使用了激活函数RELU(Rectified Linear Units),即:

来增加网络的非线性。

图2 三通道卷积过程

其他卷积层采用的是3×3×n的卷积核,n为前一层所产生的特征图数量,通过不同的卷积核可以提取不同的特征。表1列出了第1组卷积层的卷积核设置。

表1 卷积密集块卷积层的卷积核设置

第7层是池化层[13],即降采样层。由于通过前面的卷积层后会得到大量的特征图,将造成计算复杂度提高,增加计算机硬件的压力,从而导致效率的低下,网络训练困难,因此需要通过池化层来缓解这个问题。池化层采用的核为2×2,步长为2的最大池化方式,即每4个相邻的像素中保留其中最大的值,将原来的图像尺寸缩小为其0.25倍。池化层不仅降低了计算量,而且提高了对图像的平移、尺度变化的鲁棒性。第1组卷积层结构如图3所示。

图3 卷积层结构图

其他4组的卷积层与第1组卷积层的卷积核设置一致,组数是递增的,最终通过5组卷积层得到112幅14×14的特征映射图。

2.3 反卷积层

常用的反卷积层中输入输出关系为:

而采用密集连接的反卷积层中输入输出关系改变为:

其中yN表示N层输出,x0,x1,x2,…,xN-1表示相应的层的输入,H表示一种或者多种操作方式,比如反卷积/卷积、池化、归一化等操作。传统的N层的卷积层的连接数是N-1,但是密集连接方式的连接数是(N-1)(N-2)/2,这种直接相连接的方式相比于传统连接和跳跃式连接方式,有效地缓解了在深层的网络中梯度消失的问题,增强了信息的传播能力和重复利用性。因此本文的网络的卷积权重层数可以达到51层,更好地提取了高层的抽象信息,兼顾了低层的细节的空间特征信息,并且避免了冗余的特征映射图的学习,使得参数量大大减少。

第36层是卷积核大小为4、步长为2的反卷积层,该层同时具有上采样和密集化的功能。文献[11-12]中使用反池化和卷积操作分别来完成上采样和密集化功能。反池化是通过记录对应池化中的标签值的位置将一个像素映射为多个像素,文献[11]中使用反池化实现上采样,然后使用卷积操作密集化,完成完整的上采样功能,而本文使用的反卷积核大小为4且步长为2的反卷积操作直接完成上采样和密集化,简化了步骤。

第37~40层是步长为1的反卷积层,对图像进行密集化处理的同时进行特征提取。反卷积层的结构如图4所示。表2列出了第1组反卷积层的反卷积核设置。

图4 反卷积层结构图

表2 反卷积密集块反卷积核设置

其他4组反卷积层与第1组反卷积层结构一致,最终经过5组反卷积层得到136幅224×224的特征映射图。

2.4 softmax层

第57层是2组1×1卷积核组成的卷积层和softmax层,即分类层。在最后一组反卷积层后,网络输出了136幅的特征映射图,而本文将识别像素是否属于建筑物定义为二分类问题,因此采用2组1×1的卷积核,生成两幅分值映射图,其大小与原图尺寸一致,通过softmax将每个像素点的值映射为一个概率,从而确定每一个像素是否属于建筑物类,达到像素级别的预测,即

其中为第N层的第 j个像素对应的概率值,为第N层的第 j个像素对应的像素值,其他符号和公式(1)符号意义一样。从公式可以看出所有的输出层结果均为正值且和为1,其中一项较大,另一项必然较小,预测结果由较大概率数值决定。最终输出一幅与原图尺寸大小一致的224像素×224像素的IRRG三波段的遥感建筑物标注图像。

锆合金因其具有良好的核性能及机械加工性能等特点,常被广泛的用作核反应堆中的包壳材料。由于其用途特殊,所以对其质量要求十分严格,包壳管内表面检测是其质量控制中的一项重要内容。

网络在训练过程中使用的是交叉熵形式的损失函数,通过不断优化损失函数,来调节网络层中的各个权重和偏置,来达到最优的结果。损失函数形式如下:

其中n是训练数据的总个数,z是真值,y是实际输出值。

3 实验分析

3.1 数据集及其实现细节

为了保证实验结果的严密性和公正性,实验数据集选用公开的ISPRS 2D的遥感标注数据集[14],它提供了先进的航空影像数据集,包含33幅不同尺度的正射投影区域图片,区域场景复杂,包含建筑物、树木、水域、汽车、低矮植物等,总共约16 800万个像素。其中16幅图给出了真值标注图,为了实现提取建筑物的功能,本文将真值标注图中的建筑物一类再次提取出来,形成了新的16幅建筑物提取数据集。本文中的实验都是基于此数据集的。将这16幅图中的11幅(1,3,5,7,13,17,21,23,32,36,37)作为训练集,5幅(11,15,28,30,34)作为验证集。

本网络的实现方式是使用的深度学习的开源框架MxNet[15],服务器配置如下:操作系统为CENTOS7,CPU为Xeon处理器,128 GB内存,GPU为NVIDIA TELSA K20M,12 GB显存。

网络采用随机梯度下降法进行优化,学习率为0.001,动量为0.9,权值衰减系数为0.000 5。

3.2 实验结果分析

3.2.1 评价指标

本文使用准确率、召回率、F1指标和OP(Overall Precision)作为实验结果评价的指标。

准确率P,即查准率,为正确检测到建筑物像素的个数与检测到的建筑物像素的总数的比值。

召回率R,即检测率,为正确检测到建筑物像素的个数与实际建筑物像素的总数的比值。

F1为准确率和召回率的调和均值,是综合考虑P和R的指标:

OP为正确检测到建筑物和非建筑物像素的个数之和与所有像素个数的比值。

3.2.2 实验结果

将密集反卷积网络在公开的ISPRS 2D的遥感标注数据集上的5幅图中进行了验证,在验证集上的建筑物提取可视化效果如图5所示,评价指标数值表现如表3所示。

图5 建筑物提取可视化效果图

表3 在ISPRS数据集结果%

表3中各个评价指标表明密集反卷积网络在验证集中所有的遥感影像中均取得了良好的效果。从图5中可以形象地看到5幅图中所含建筑物密度不一,并且涵盖了不同形状、结构、颜色和纹理的建筑物,本文网络基本上都可以将其准确地提取出来,错检漏检情况较少,证明了本文网络具有较好的鲁棒性。

从表4、表5中可以看出,本文网络在ISPRS 2D的遥感标注数据集上与一般的卷积神经网络方法相比,F1指标、准确率P和OP指标都取得了较优值,并且本网络在预测效率上具有较大优势。通过图5建筑物可视化效果图的比较可以直观地看出,CNN-PC、CNN-SPL和CNN-FPL提取的建筑物具有边缘效果较差,漏检率较高,房顶检测不完整等现象。相较于这些网络,本文对建筑物提取的结果更准确,边缘更精确,可视化效果更好。因为密集反卷积网络的深层网络可以充分利用低层信息和高层信息,结合上下文信息,不仅提高了准确率,降低了漏检率,精细了建筑物边缘,而且大大缩减了预测时间,充分证明了该网络是有效可行的,具有实际应用价值。

表4 建筑物提取评价指标 %

表5 建筑物提取运行时间表

4 结束语

本文基于文献[10]的密集连接的思想设计的密集反卷积网络可以达到端到端的像素级别的预测,避免了复杂的预处理和后处理过程,可以自动地提取建筑物,具有实际应用价值。与一般的卷积神经网络相比,由于在网络中使用了密集连接的方式,保证了信息流的正向传播,使得低层的边缘、纹理和空间联系等信息得以保留,加强了低层的具象信息和高层的抽象信息的融合,缓解了梯度流消失的问题,使网络能够训练51层卷积权重层,可以挖掘图像更具代表的特征,更加接近目标函数,并且避免了冗余的特征映射图的学习,使得参数量大大减少,提高了预测效率,在复杂场景下的建筑物提取效果良好。

参考文献:

[1]Liow Y T,Pavlidis T.Use of shadows for extracting buildings in aerial images[J].Computer Vision,Graphics,and Image Processing,1990,49(2):242-277.

[2]Levitt S,Aghdasi F.Texture measures for building recognition in aerial photographs[C]//Proceedings of the 1997 South African Symposium on Communications and Signal Processing,COMSIG’97,1997:75-80.

[3]Sirmacek B,Unsalan C.Using local features to measure land development in urban regions[J].Pattern Recognition Letters,2010,31(10):1155-1159.

[4]侯蕾,尹东,尤晓建.一种遥感图像中建筑物的自动提取方法[J].计算机仿真,2006,23(4):184-187.

[5]邵蔚元,郭跃飞.多任务学习及卷积神经网络在人脸识别中的应用[J].计算机工程与应用,2016,52(13):32-37.

[6]刘欢,邵蔚元,郭跃飞.卷积神经网络在验证码识别上的应用与研究[J].计算机工程与应用,2016,52(18):1-7.

[7]芮挺,费建超.基于深度卷积神经网络的行人检测[J].计算机工程与应用,2016,52(13):162-166.

[8]Mnih V.Machine learning for aerial image labeling[D].University of Toronto,2013.

[9]Vakalopoulou M,Karantzalos K,Komodakis N,et al.Building detection in very high resolution multispectral data with deep learning features[C]//2015 IEEE International Geoscience and Remote Sensing Symposium(IGARSS),2015:1873-1876.

[10]Huang G,Liu Z,Weinberger K Q,et al.Densely connected convolutional networks[J].arXiv preprint arXiv:1608.06993,2016.

[11]Badrinarayanan V,Kendall A,Cipolla R.Segnet:A deep convolutional encoder-decoder architecture for image segmentation[J].arXiv preprint arXiv:1511.00561,2015.

[12]Badrinarayanan V,Handa A,Cipolla R.Segnet:A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J].arXiv preprint arXiv:1505.07293,2015.

[13]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[14]ISPRS WG III/4[EB/OL].[2016-11-08].http://www2.isprs.org/commissions/comm3/wg4/semanticlabeling.html.

[15]Chen T,Li M,Li Y,et al.Mxnet:A flexible and efficient machine learning library for heterogeneous distributed systems[J].arXiv preprint arXiv:1512.01274,2015.

[16]Volpi M,Tuia D.Dense semantic labeling of subdecimeter resolution images with convolutional neural networks[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(2):881-893.

猜你喜欢
密集卷积建筑物
耕地保护政策密集出台
基于3D-Winograd的快速卷积算法设计及FPGA实现
密集恐惧症
邻近既有建筑物全套管回转钻机拔桩技术
描写建筑物的词语
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
火柴游戏
全球导航四大系统密集发射卫星
欧盟等一大波家电新标准密集来袭