基于深度学习的高分辨率遥感影像建筑物提取方法

2022-10-26 08:52蓝健均李锐李干尉涛刘健巧胡敏

数字技术与应用 2022年10期

蓝健均李锐李干尉涛刘健巧胡敏

1.国网四川省电力公司；2.国网四川省电力公司建设分公司；3.国网四川电力送变电建设有限公司；4.北京洛斯达科技发展有限公司

特高压工程建设以往存在部分顽疾；“新三直”工程全线拆迁数量大、涉及人口多；工程途经长距离少数民族聚居区域，电力通道内的建筑物拆迁外部协调任务繁重。及时掌握电力道内的拆迁信息对工程顺利开展实施至关重要，因此本文中利用通道内的高分辨率航飞影像，通过充分利用影像中建筑物的全局信息和局部信息以更准确地对需拆迁建筑物轮廓进行分割和提取，提出了基于全卷积神经网络针对边界约束的校正神经网络模型。在建筑物数据库上的试验结果证明，边界校正网络模型对通道内拆迁建筑物的轮廓提取结果精度都在83%以上，高于U-net模型的建筑物提取，将此建筑提取技术运用到全国输电线路建筑通道情理中，可在一定程度上提高建筑的提取效果，有效服务工程进度，对于推进先签后建、依法合规的施工管理和促进高效施工服务全国电网建设有着重大意义。

为贯彻我国的绿色生态经济发展宗旨，进一步加强在基建应用领域的补短板力量，充分发挥中国重大电网建设在优化投资结构、清洁电力消纳、大电网精准扶贫等方面的重大功能，建设适应中国中东部经济发展需要的重大项目,对促进四川省资源优势转化为经济优势、解决四川弃水、弃风、弃光等重大问题，助力脱贫攻坚、助推凉山地区建成世界级清洁能源产业基地示范区具有重要意义。

随着中国国民经济的持续发展,输电廊道输电线路输送容量和运输距离逐日增加,使输电走廊的通道供应越来越紧张[1]。同时通道内建筑物拆迁一直以来都是电力工程通道清理中较为棘手的问题，管理机关对拆迁管理工作职责的界定并不清晰，在建筑物拆除处理过程中经常出现“越位”及“缺位”的现象；在法规层次上，有关拆除法律、规章不健全，拆除补助标准不明晰、拆除补偿出现了隐性不公的现象、拆除评估市场杂乱不规范；从认识层次上，被拆建筑物住户对拆迁的理解和政府部门的搬迁要求之间出现明显反差，房屋补偿需求与供应出现问题。各种因素造成通道内建筑物拆迁执行阶段阻力重重。

近年来，伴随“云计算+大数据+物联网+移动互联+人工智能”[2]以及地理信息技术、无人机技术、激光测量、倾斜摄影等新技术的发展及在工程建设的精细化管理、生产流程优化等方面应用的逐步深入，已证明其在辅助工程建设及提升管理水平上具有显著优势。

1 技术方案

神经网络计算可以通过对图像进行分类以完成图像分割,先基于图像的地表真实数据进行模式学习,然后再将学习结果模式应用于新图像中。其建模方法可以在学习过程中不断基于图像中地表真实数据进行调整,因此基于学习的方法在泛化和精确度方面取得了更优异的性能。全卷积神经网络模型利用全卷积层来执行从输入到输出的图像到图像之间的转换[3]。通过删除全卷积神经网络中全连接层的数量，可在计算过程有效减少模型的参数量，提升算法时间。基于全卷积神经网络进行改进的模型有通过利用非抽样模式[4]、反卷积算法[5]、跳跃链接算法[6]和多约束算法[7]等方式以提升神经网络模型的算法性能；但在以上算法中也仅基于局部信息(3×3或者5×5)的特征对图像像素值进行预测，并未完全利用建筑物的边界轮廓信息。在获取电力通道内的影像过程中，不可避免会产生大量噪声数据(植被遮挡建筑物、建筑物之间相互遮挡、其他地物阴影遮挡等)以造成图像数据误差。神经网络模型算法如果仅仅根据目标像素和周围像素之间的差异来划分，会在提取结果中对建筑的分类提取造成大量漏分误差，同时浪费建筑物的几何边界信息。为尽可能的提取建筑物的光谱和几何信息，增加图像中各类信息的使用率，本次采用图像的局部特征和全局特征的多任务学习方法，通过利用边界矫正网络模拟学习图像信息建筑物进行分割和矫正轮廓提取。在神经网络模型的训练阶段，用优化器以使分割的轮廓提取预测信息和对应的建筑物标签信息相匹配。在每次迭代过程中，以建筑物的边界标签信息对学习参数进行调节，以避免映射模式过程中目标像素被建筑物标签边界以外的像素影响。边界矫正网络模型由共享后端为优化的U-net型全卷积神经网络，和通过双预测框架生成建筑物分割和轮廓提取组成。如图1所示。

共享后端的组成结构为4个下采样层，1个中央转换层和4个上采样层。中央层采用的是内核为3×3的卷积层，后接LeakyReLU激活函数和BN层。在下采样层间的第二BN层和上采样层间的相应上采样层之间采用跳跃连接。卷积运算是通过内核执行的逐元素乘法，内核的大小决定了接收领域的范围。与整数线性单位（ReLU）相比，它将所有小于零的值设置为零，输出将由LeakyReLU激活函数处理，其中α的值设置为0.1。为了加速深度网络训练，避免偏差并防止梯度消失，在卷积层之后大量应用BN层。在这项研究中，选择Max-pooling来对中间特征的高度和宽度进行二次采样。同时选取双线性上采样和跳跃连接，使输入和输出的图像大小保持一致。最后选择Sigmoid激活函数生成分割预测结果。同时通过网络训练和交叉验证，以优化并确定超参数学习率和迭代次数。再根据由优化的超参数训练得到的网络模型对测试集进行测试，最终生成测试集的建筑物结果。

下采样层中：h、w和d分别代表输入的高度、宽度和深度。y表示用于卷积的内核数。含两个卷积层，两个LeakyReLU激活函数，两个BN层和一个最大池化层。对于每个输入，下行层会生成宽度和高度减半的输出。四个层中的内核数对应为：24、48、96、192。

上采样层中：h、w和d分别代表输入的高度、宽度和深度。Y和y分别表示下行层中相应BN层的尺寸和用于卷积运算的内核数。含一个双线性上采样层，一个跳跃连接层和三个卷积层，后接LeakyReLU激活函数和BN层。上行层将输入的宽度和高度加倍。四个层中的内核数分对应为：192、96、48、24。

共享后端的输出是具有与输入图像一致宽度和高度的3D矩阵。将单个1×1卷积核后跟Sigmoid激活函数应用于输出分割结果图的预测。类似采用具有S形激活函数的单个3×3卷积核用于生成建筑物轮廓。然后选取预测值和相应的地面真值之间的二元交叉熵对分割损失和轮廓损失进行计算。

2 实验环境

本次工具采用来自由谷歌智能团队谷歌大脑开发和维护的第二代人工智能计算框架——TensorFlow开源深度学习系统，它具备高度的灵敏度、可移植性、多语言功能等特点。平台采用Windows，语言采用Python。两种深度学习网络模型中采用的所有的训练样本、测试样本、验证样本均为同样规模图片和标注数据集。

Python具有易学习和阅读并且使用于各个场景，最重要的是其中具有大量可用于任何目的软件包，从而使其在深度学习算法编写上具有独特优势。运算平台为Cuda，其加速框架的训练速度足够快，而使得能在合理的时间内得到结果，深度机器学习框架为Tensorflow。本实验的硬件和软件环境如表1所示。

表1 硬件和软件环境Tab.1 Hardware and software environment

3 电力通道建筑物提取

本次使用GF-2影像以及工程电力通道的0.5m航空影像作为训练样本，只将通道内航飞影像的25%列为训练样本中。将预处理后的影像裁剪为512×512像素大小的图片。同时为进一步扩充神经网络的训练样本，充分提取图片中的建筑物边界特征，对制作完成的样本图片进行顺时针45°、90°和135°的旋转，及水瓶镜像、垂直镜像和水瓶垂直的镜像翻转以7倍扩充训练样本。并对制作样本对应的标签，再采用Soble滤波对建筑物标签进行处理以提取建筑物的边界信息，旋转后储存结果图像的数据组的尺寸会大于原图像尺寸，此时采用重采样对数据进行处理以恢复原始尺寸大小，其中四周多余的像素赋值为0，同时扩充建筑物的尺度多样性。如表2所示。

表2 样本扩充Tab.2 Sample expansion

采用经典的U-net模型与边界矫正网络模型结果进行横向比较，对两种神经网络模型采用相同的数据集样本与工作平台进行建筑物提取。从建筑物顶轮廓提取结果的定性判别中对照图，其中，绿色对应代表区为正确提取对象；蓝色对应代表区为欠分割提取对象；红色对应代表区为过分割提取对象；白色对应代表区为非建筑物区域。根据建筑物顶提取结果，边界矫正网络模型的提取结果精度明显优于传统U-net模型的提取结果精度。根据屋顶轮廓的提取结果表现出边界矫正模型所提取的建筑物顶轮廓，与实际建筑物顶的轮廓吻匹配程度更高，其中再建筑物的顶的拐角处，传统U-net模型的提取结果中大部分出现了过度分类，主要因为在网络中没有加入边界校正全卷积网络的误差限制条件；同时在负样本（不存在建筑物的样本）中，U-net模型误将在图像上显示为高亮的道路提取为房屋，误差明显。通过通道内测试影像的建筑物顶提取结果上显示：在占地面积较大的建筑物区域中，U-net模型提取结果与地表真实建筑区域相比都出现了过分类情况；在占地面积较小的建筑物区域中，U-net模型提取结果与地表真实建筑区域相比都出现了欠分类情况。如表3所示。

表3 提取结果Tab.3 Extract results

为充分体现改进后的边界校正全卷积网络对于样本分割能力，对建筑物顶的提取结果分别计算准确率、精确率、召回率、Kappa系数以及平均交并比（mIoU）5类指标。mIoU表示目标建筑物和预测建筑物之间的像素面积重叠程度，是用来表达在某类标签的目标图像集与预期结果图像集间的交集比上并集。实验结果如表4所示。

表4 U-net模型和边界矫正模型建筑物提取结果精度统计Tab.4 U-net model and boundary correction model building extraction accuracy statistics

定量提取的建筑物顶结果显示了U-net模型和边界矫正模型建筑物提取结果精度统计的5中提取结果精度比较，通过提取结果精度分析，边界矫正网络模型的精度结果均显著高于U-net模型的建筑物提取精度。其中，准确率、精确率、召回率、Kappa系数以及平均交并比上，BR-net的总体精度分别提升了25.5%、22.8%、25.3%、35%和23.3%，且在5类精度中BR-net模型的建筑物提取精度均达到83%以上。实验结果证明将加入边界信息约束的矫正网络模型用于具有几何信息的建筑物提取上可以有效增加提取效率，提升建筑物提取进度，并将此应用于实际建设工程中，以辅助工程建设前期信息获取渠道。

4 结语

在计算机视觉领域中，算法的性能与数据集的规模和质量有直接的关系，大量的高质量航飞数据集能为算法的训练和验证提供保证。本研究依据航飞高分影像采用边界矫正网络模型提取通道内建筑物，实现通道内建筑物精细化管理，减少管理成本。相对于传统的电力通道清理工作模式中的建筑物拆迁人工参与多、效率低，提前将通道内建筑物进行识别提取，可以快速获取建筑物位置和面积等基础信息，并制作对应台账对信息统计展示，方便管理人员实时查看。“新三直”工程全线需拆迁房屋近2000余户、拆迁面积约50余万平方米，拆迁数量大、涉及人口多；途经的凉山彝族自治州、乐山马边彝族自治县等民族聚居区域风俗习惯、文化信仰与汉族存在较大差异，外部协调任务繁重，同时工程建设工期紧张。针对以上管控难点，结合本文提出的模型进行建筑物识别提取可有针对性直接确定需拆迁建筑物，对全线拆迁房屋进行逐档梳理、统一标绘；同时贯通房屋拆迁网络数据库，根据跨房属性和同一档内跨房数量、跨房总面积等拆迁放线量化指标对全线拆迁房屋进行敏感等级判断分类，重点识别档内多户聚集的连片房屋和位于塔基、影响进场的房屋，分析处理为可能存在较大协调难度或较高迟滞施工风险的高敏感房屋和一般性低敏感房屋两类拆迁敏感点。对项目识别的高敏感拆迁点结合航摄影像进行梳理复查，针对跨房数量较多、拆迁面积较大的区段，组织拆迁与避让方案造价对比分析，采取优化路径避让、锁定房屋拆迁量、提前签订原则协议、多渠道协调等方式防范重大造价和阻工风险。