基于深度学习的灾后建筑物损坏程度检测综述

2023-09-14 09:52陈晓艺陆一鸣沈加炜钱美玲陆卫忠
计算机技术与发展 2023年9期
关键词:建筑物卷积程度

陈晓艺,陆一鸣,沈加炜,钱美玲,陆卫忠,3,4

(1.苏州科技大学 电子与信息工程学院,江苏 苏州 215009;2.苏州科技大学天平学院,江苏 苏州 215009;3.苏州科技大学 苏州智慧城市研究院,江苏 苏州 215009;4.苏州科技大学 苏州市虚拟现实智能交互及应用技术重点实验室,江苏 苏州 215009)

0 引 言

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息。自然灾害后建筑物损坏程度检测是计算机视觉领域的其中一个方向,其目标是通过综合运用图像处理、机器学习、深度学习等技术,从静态图片中能够快速检测出自然灾害后建筑物的损坏程度等相关信息,在自然灾害后的救援工作中有着重要的研究价值和广泛需求。近年来,计算机视觉技术和深度学习等发展迅速,因此,将深度学习和计算机视觉技术相结合的方法是检测自然灾害后建筑物损坏程度的主要研究思路。

首先,介绍了基于计算机视觉的自然灾害后建筑物损坏程度检测的相关任务、难点和发展现状;其次,介绍了xBD数据集,并说明了其算法的相关评价标准。同时对深度学习方法中几种应用于建筑物损坏程度检测的卷积神经网络模型进行总结;最后,对其存在的问题及未来可能的发展方向进行了讨论。

1 研究背景

1.1 自然灾害后建筑物损坏程度检测的关键任务

当自然灾害发生时,快速准确的信息对于有效的应对至关重要。不仅可以更好地在受影响地区进行资源部署,还可以尽可能了解建筑物损坏的位置和严重程度。随着科技的发展,卫星图像在受灾地区的采集提供了强大的信息来源,可用于评估自然灾害后建筑物受到损害的程度和范围。在当前工作中,虽然专家对卫星和航空图像的分析结果对于快速响应、及时救援很有用,但这仍然会导致时间上的滞后。原因是所涉及范围极大,即使是有大量人员对受灾地区进行分析和研究,也可能需要数周时间才能完全绘制了解受灾地区的具体范围和程度,极大浪费救援时间,在时间至关重要的情况下,需要想办法尽可能改善这种情况。

首先,计算机和人工智能快速发展,为提高检测速度,缩短检测时间提供了可能。其次,最近几年 UAV(无人驾驶飞行器)技术的普及为建筑物损坏检测提供了一种额外的工具,从过去几年收集到的越来越多的灾难后图像数据中证实了这一点。尽管无人机在数据捕获方面具有灵活性,但它们的图像质量和可用性很差——与卫星和载人航空平台相比,它们可以覆盖的空间范围受到严重限制。因此,当地的救援队伍可以很好地应用无人机进行图像的收集[1],但是不能将它收集到的图片作为分析受影响区域建筑物损坏程度的唯一依据。不同类型的人为和自然灾害(即地震、爆炸、台风、洪水、海啸等)对建筑结构的影响不同,通常会在遥感数据中产生独特的特点。根据所考虑的灾害类型,可见的结构性建筑损坏可能看起来完全不同,目前还没有一种能够自动准确地应对所有不同类型的灾害的通用方法。

在过去几年中,卷积神经网络(Krizhevsky et al.,2012)[2]在各种计算机视觉任务上表现极其出色,在目标识别和图像分割(LeCun等人,2015年)[3]等方向,甚至取得了相当于人类视觉水平的性能。然而,还需要考虑灾害评估方法的实用性,因此开发一种高精度、实用的灾害评估方法对于灾害中的应急救援具有重要意义,也是自然灾害后建筑物损坏程度检测的关键任务。目前,主流的建筑损伤评估方法包括两个主要步骤:建筑定位和评估损伤的分类。如果能够提供建筑物的详细占地面积信息,那么进行建筑定位就会容易很多。但现实情况却不容乐观,在灾害事件中,尤其是在欠发达地区的灾害事件中,基本没有详细可用的占地面积信息。并且建筑定位极大影响着损坏程度分类,甚至建筑定位信息的准确性直接影响到分类结果。因此,相关科研人员也在为能够精确定位建筑物不断努力。

1.2 自然灾害后建筑物损坏程度检测的难点

在智能建筑损伤等级评估的应用中,尽管基于卷积神经网络的卫星图像建筑物损伤评估已经取得了一系列研究成果,但仍有许多挑战和难点有待讨论。

该文将具体实际经验和实验与灾后所采集的数据集的使用相结合。首先,利用卫星图像对基于卷积神经网络的建筑物损坏评估算法进行了全面综述。其次,对基于操作卷积神经网络对卫星图像进行建筑物损伤评估的四个技术难点进行了深刻讨论,具体如下:(1)在评估指标不一致的情况下,各种方法的准确性应该怎么比较;(2)无人机图像可能是卫星图像之外的另一个重要来源。然而,灾前无人机图像往往缺乏历史数据,在没有灾前卫星图像的情况下,建筑物损坏评估应该怎么进行;(3)当数据集类别极度不平衡时,在预测中如何去平衡数据集;(4)应采用哪些技术解决方案来提高建筑物损坏评估模型的准确性,从而实现快速预测。

1.3 自然灾害后建筑物损坏程度检测的研究现状

为了解决上述难点和挑战,一些研究人员应用了五分类进行语义分割,即将“无建筑”也视为一种损坏类别。该方法解决了在两阶段结构下,损伤等级的分类高度依赖于建筑物定位精度的问题。虽然关于建筑物足迹分割和变化检测的文献非常广泛,但卫星图像评估建筑物损坏的问题只得到了有限的关注[4-5]。Xu等人[6]描述了一种构建卷积神经网络的方法,该方法以受损/未受损建筑的二元像素分类为框架,在一个跨越三次灾难的专有数据集上,可以通过使用灾难前后图像自动检测卫星图像中的受损建筑物。如果对该区域的一小部分示例进行微调,该模型可以很好地推广到新的受灾区域。Cooner等人[7]将多种机器学习方法在建筑物损伤检测中的性能与2010年海地地震前后的卫星图像进行了比较,发现使用前馈神经网络的效果最好,错误率仅为40%。Ji等人[8]开发了一个卷积网络,用于从海地地震的事后卫星图像中识别倒塌的建筑物,总体准确率达到78.6%。Duarte等人[9]将捕获灾害的无人机和卫星图像结合起来,以提高其卷积网络的准确性,最佳报告准确率为94.4%。在这些模型中,图像上受损建筑物的检测都是一个二值像素分类问题。Yang等人[10]的研究表明,卷积神经网络(CNN)可以执行基于特征的多时相遥感图像配准,并且在大多数情况下检测结果超过了其他方法。Nia和Mori[11]提出了一种仅使用灾后图像进行建筑物损坏评估的原始深度学习模型。该模型使用了三个神经网络:DilatedNet、LeNet和VGG。其中,DilatedNet的作用是对输入数据进行预处理,而VGG和LeNet的作用是从输入源中提取深度特征。该方法表明,卷积神经网络可以对灾后图像进行损伤评估。Valentijn等人[12]提出了一种CNN,它由两个用于从灾前/灾后图像中提取特征的inception-v3块和一组用于分类器的完全连接的层组成。为了克服过度拟合的问题,他们为每个完全连接的层使用了一个批标准化层和一个dropout层,并分析了CNN的可推广性和可转移性。Weber等人[13]使用带有FPN架构的Mask R-CNN和相同的模型架构来构建定位和每像素损伤分类。此外,他们没有处理完整的图像,而是在图像前后的象限上训练架构,并融合最终的分割层,以更准确地绘制建筑边界。Hao[14]为损伤分类和建筑物分割设计了一个端到端的Siam-U-Net-Attn模型,这个方法是通过嵌入建筑物的分割特征来加强对建筑物的损坏程度进行分类。具体来说,U-Net模型用于灾前和灾后图像以生成二进制掩码。U-Net编码器产生的两个特征在Siamese网络中使用不同的融合方法进行融合,这不仅可以比较两个输入帧的特征以检测建筑物损坏,还可以从编码器区域提取特征,提高损伤分类的准确性。该方法在定位方面取得了可观的交叉联合分数(IoU),并且在将建筑物分类为未损坏和被破坏时表现良好。因此,使用该方法首先需要平衡建筑物损坏程度分类。综上,这些模型虽取得良好表现,但还是无法准确地区分轻微和严重受损的建筑物。

2 数据集和评价指标

2.1 数据集

2.1.1 xBD数据集背景

为了提高人道主义援助和救灾领域的资源分配、援助路线、救援和恢复以及许多其他任务的效率,在自然灾害救援的背景下要完成这些任务,对该地区受损建筑的数量和程度的了解至关重要。但是这些数据的收集十分不容易,这需要地面人员在灾难期间或灾难发生后立即收集数据并直接评估损失。随着卫星图像可用性的增加,这项任务不仅可以远程完成,还可以通过应用强大的计算机视觉算法自动完成。为解决这一问题,尽快分析出建筑物的受灾数量和程度,必须大量提供包含多种损伤类型的图像。其他用于自然灾害后建筑物损坏程度的数据集自然灾害类型单一,为此,将介绍包含多种自然灾害类型的数据集——xBD数据集:一个大型卫星图像数据集。

2.1.2 xBD数据集介绍

xBD数据集用于xView2的挑战赛。是迄今为止最大的建筑损坏评估数据集,包含灾前和灾后卫星图像以及850 736个建筑注释,覆盖45 362平方公里的土地图像。该数据集包含19个不同的自然灾害事件,这19个事件可在完整的xBD数据集中通过22 068幅图像获得,数据集中包含850 736个建筑多边形。每个图像都有1 024×1 024像素的分辨率。该数据集旨在推动创建准确高效的机器学习模型,从灾前和灾后卫星图像评估建筑物损坏。

该数据集是首次尝试在多个灾害类型、结构类别和地理位置的卫星图像中创建统一的建筑物损坏评估尺度。损伤程度划分为4个等级,如表1所示,即从无损伤(0)到破坏(3)。

表1 建筑物损坏程度等级评估

2.1.3 xBD数据集数据分析

xBD数据集分别以80%、10%、10%的拆分率拆分为Train数据集、Test数据集和Holdout数据集。具体拆分数据如表2所示 。

表2 xBD数据集介绍

xBD数据集所包含的19个自然灾害事件并不是均匀分布,图1展示了不同灾害事件的出现频次。其中,野火灾害出现次数最多,其次是丛林大火,地震出现次数最少。

图1 不同灾害事件的覆盖区域

xBD数据集对计算机视觉界来说是一个挑战,因为灾难标签和类型的分布是高度不平衡的。此外,利用计算机视觉区分不同程度损伤的可能非常微小。不同类型灾害的负面图像的不同可用性也可能是定位模型的一个障碍。

2.2 评价指标

基于四个常见的评价分类来计算相关评价指标,假设只有正例和负例,四个常见的样本分类分别为TP、FP、TN、FN[15],各个分类代表的具体内容分别是:

TP:True Positive,预测为正例,标签的真实值也是正例。

FP:False Positive,预测为正例,标签的真实值是负例。

TN:True Negative,预测为负例,标签的真实值也是负例。

FN:False Negative,预测为负例,标签的真实值是正例。

目前,对于xBD数据集建筑物损坏程度的评估,还没有标准一致的评价指标。通过对相关论文的复现研究及了解,大多数论文采用以下几个指标:(1)准确率(Precision)。又称为查准率,指的是在预测结果中,有些会预测为正样本,在这些预测为正样本的结果中,能够正确预测为正样本的概率,简称为P,P=TP/(TP+FP)。(2)召回率(Recall)。又称为查全率,指的是在原始样本的正样本中,最后被正确预测为正样本的概率,其公式为:Recall=TP/(TP+FN)[16]。(3)F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率,F1分数值越大,说明模型效果越好。其公式为:F1=2(P*Recall)/(P+Recall)。

3 深度学习在自然灾害后建筑物损坏程度检测的应用现状

3.1 基线模型

对于建筑物损坏程度分类的评估,需要解决两个问题,第一个是建筑的定位,第二是建筑每像素损坏分类。因此,完成该工作需要完成两个任务(即识别是否有建筑物和确定建筑物的损坏程度)。基线模型中对于两个任务使用了两个独立的网络[17]。图2中描述了该任务的基线模型。首先,对于建筑物的定位,使用U-Net[18]架构,作用是对该位置进行是“背景”还是“建筑物”的二进制像素分类。其次,对于损坏程度评估,使用的是在ImageNet[19]上预训练好的 ResNet-50[20]网络模型,该模型中输入的是损坏后的图像和来自浅层CNN训练出的附加特征。所有卷积层都使用ReLU激活函数,输出一个One-hot向量,其中每个元素代表一个概率。该模型使用的损失函数是序数交叉熵损失函数。与传统的交叉熵不同,序数交叉熵相对于真实值和预测值之间的距离进行抉择。由于任何两个类别之间的差异不可互换,因此该损失函数可以使模型区分不同级别的损坏。

图2 基线模型

通过训练,其结果如表3所示。

表3 基线模型实验结果

如表3所示,召回率偏低,可能的原因是严重损坏被归类于轻微损坏所导致。由于数据集极度不平衡,分类结果可能会产生更大的分离。该模型是第一个可以自动评估建筑物损坏并远程执行的模型。然而,有的损坏类别的视觉差异并不明显,甚至可能非常细微,该模型会在这差别不大的两个类别之间产生高度混淆。

3.2 图神经网络模型

Robert Trevino等人旨在自动化评估灾后建筑物损坏的过程,能够对灾后部署进行快速和高效的响应。他们考虑到自然灾害破坏的空间特性,认为评估建筑物损坏程度基于图的学习应该是有效的。在高分辨率卫星图像、位置和时间数据上进行训练,Robert Trevino等人设计了一个混合GCN+CNN模型来有效地对每个建筑物的损伤等级进行分类,其原理是利用基于图的技术对此进行改进。该模型为混合深度学习模型,卫星图像分别在两个网络上进行训练,这两个网络分别是基于相邻建筑物的损伤空间分类的图卷积网络,以及在ImageNet上预训练的ResNet-50网络。上半部分基于卫星图像数据,下半部分保留ImageNet捕获的特征;输出的是包含带以彩色多边形为注释的卫星图像,彩色多边形用于识别该地区的特定建筑物,以及表示建筑物灾后受损程度的评级。

如图3所示,将图与强大的卷积神经网络(CNN)结合使用,充分提取了空间特征。如表4所示,该模型与基线模型相比,极大提高了不同损伤类别的召回率、准确率和F1分数。

图3 图神经网络模型

表4 基线模型和图神经网络模型的实验结果对比

实验表明,该方法性能优于先前使用基线 ResNet-50 架构以及强大的经典机器学习算法报告的基线值,该模型相比于基线模型效果明显提高。

3.3 基于金字塔池化模块的半连体网络模型

建筑物损坏评估的任务分为两个阶段。第一阶段在图像上识别建筑物,这是一个定位问题。大多使用诸如CNN之类的算法来判断输入的图像上是否有建筑物。然后将定位建筑的图片用作第二阶段的实验,来评估建筑物的损坏程度。基于这一思想,Bai等人[21]设计了一个网络来判断建筑物的位置并评估其损坏程度。该方法单独使用灾前图像来判断建筑物的位置并生成相应图像,然后使用灾前图像和灾后图像来评估建筑物损坏程度。为了使定位建筑物位置的图像产生准确的评估结果,该方法直接将其乘以评估估计器的输出(见图4)。图4显示了该网络的体系结构。该网络基于半连体战略,网络浅层的权重共享两个输入图像(即灾前/灾后图像),以使其通过共同学习两者的低水平特征来产生良好的“过滤器库”。随着层的深入,继而停止共享权重,并对两个输入使用独立的分支,然后将这两个分支的输出结果融合,加强网络学习灾前图像和灾后图像之间的差异。网络的尾部,使用层的单个分支来产生最终的结果。在网络中,使用具有扩张卷积和“Squeeze-and-Excitation”(SE)块的残差块。 使用残差块的动机是网络可以通过残差块中使用的大小扩张率从大小感受野中提取特征以提高其对建筑物的评估能力。此外,SE块网络能够关注重要特征,同时还可以抑制不太有用的特征。在网络末端,紧接SE块之前使用金字塔池模块,并使用卷积层加强了特征的聚合。

图4 基于金字塔池化模块的半连体网络

(残差块’和残差块的区别在于残差块’有一个额外的卷积层和BN层(批量归一化层),其目的是在需要时改变输入张量的通道数或大小)

另外,该方法在xBD数据集上进行了增强和扩充,如表5所示,与最初的基线模型相比,半连体网络可显著改善指标。

表5 半连体网络模型与基线模型实验结果对比

在这项研究中,Bai等人开发的带有金字塔池模块的端到端注意力机制的半连体网络采用扩张卷积,利用了输入图像的全局和局部特征,同时采用了SE机制。实验表明,该模型在建筑物定位和损伤分类都取得了令人满意的结果。

4 结束语

阐述了灾后建筑物损坏程度检测的任务以及存在的技术难点,对时下用于xBD数据集的几种卷积神经网络以及相关检测算法分别进行了综述,详细讲述了不同算法的优缺点,同时对xBD数据集进行介绍,并说明了其算法的相关评价标准。当前阶段,计算机和图像检测技术快速发展,建筑物损坏程度的相关检测算法也在不断进步和更新,该文认为还存在几个方面需要进一步探索和研究:

(1)夜间环境下的建筑物的损坏程度检测。

现有的图像分类和语义分割及建筑物损坏程度的检测的数据集大多数都是白天所收集到的图片数据,对于夜间收集到的图片数据来讲,光线暗,亮度低,对建筑物损坏程度识别效果达不到所期望的要求。因此,为提高夜间数据集的精确度,夜间条件下的数据预处理和建筑物损坏程度相关检测算法需要进一步的研究。

(2)算法模型的进一步深入优化。

当前,所构建的相关检测模型还可以继续深入和优化。首先,当一个模型想要超越人类的检测效果时,需要百万级别的样本进行训练才可以达到,但是百万级别的数据集需要大量人工进行手动标注,工作繁重,限制相关检测模型的发展,因此小样本训练和无监督模型也应继续重点关注和研究。其次是数据量大时,相关模型检测需要大参数,计算空间的消耗过大,不利于进行实时监测,不能使用小型设备嵌入相关算法,所以需要进一步研究探索算法模型的轻量化。

猜你喜欢
建筑物卷积程度
基于3D-Winograd的快速卷积算法设计及FPGA实现
精致和严谨程度让人惊叹 Sonus Faber(意大利势霸)PALLADIO(帕拉迪奥)PW-562/PC-562
邻近既有建筑物全套管回转钻机拔桩技术
男女身高受欢迎程度表
描写建筑物的词语
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
火柴游戏
一种基于卷积神经网络的性别识别方法
断裂对油气富集程度的控制作用