基于差异增强和双注意力Transformer的遥感图像变化检测

2024-01-18 12:11张青月
无线电工程 2024年1期
关键词:变化检测特征提取注意力

张青月,赵 杰

(1.国网新源控股有限公司检修分公司,北京 100067;2.北京大学 大数据分析与应用技术国家工程实验室,北京 100871)

0 引言

遥感图像变化检测是一项具有挑战性的任务,其目的是基于双时相或多时相遥感图像自动检测同一地理区域内建筑物或土地利用的变化。近年来越来越丰富的遥感数据和强大的计算能力使得变化检测任务成为重要的研究方向,在城市规划[1]、土地利用[2]、灾害评估[3]和森林监测[4]等领域发挥了重要的作用。

计算机视觉中的深度学习一直在不断发展,很多学者将深度学习技术应用到遥感图像的分割[5-6]、目标检测[7-8]和变化检测[9-10]等任务,深度学习可以自动从原始数据中学习遥感图像的变化目标特征。目前基于深度学习的变化检测任务主要有单分支网络和双分支网络。单分支网络直接输入2幅变化前后的配准图像,经过卷积神经网络生成变化检测结果。Du等[11]在卷积网络中应用SFA来抑制缓慢变化的不变像素之间的光谱差异并增强变化的像素。Mou等[12]将卷积神经网络和递归神经网络引入端到端网络,来生成光谱-空间特征表示并揭示双时间图像中的时间依赖性。Lyu等[13]应用基于循环神经网络(RNN)的迁移学习方法,使用Landsat数据进行年度城市动态检测。张涵等[14]提出一种注意力引导的三维卷积神经网络用于高分遥感影像场景变化检测的方法,在一个语义级高分辨率遥感场景变化检测数据集中获得了很好的性能。双分支网络通常采用孪生网络同时处理变化前后的2幅图像,之后通过映射到高维空间计算不同时间图像的像素变化得到变化检测图。Lyu等[15]从用于土地覆盖变化检测的RNN中学习可转移的变化规则。郭海涛等[16]提出了融合多尺度特征的Siam-DeepLabv3+网络,采用相似性度量和形态学后处理方法提高遥感图像变化检测精度。Fang等[17]联合孪生网络和U-Net++网络设计了SNUNet-CD网络,实现了可以独立提取不同时相影像特征和融合多尺度语义信息的目的。

大多数算法可以很好地检测变化特征,但很少关注特征上下文信息,缺乏对整体特征提取的关注和对目标变化精细区域的关注,原始双时相图像的差异图也没有充分利用起来。基于此,本文提出了一种基于差异增强的和双注意力机制的Transformer神经网络模型,通过在孪生网络架构的特征提取部分引入更加高效的ResNeXt单元,在不增加参数复杂度的情况下提高准确率,将分层结构的Transformer编码-解码器与通道和空间双注意力模块相结合,获得更大的感受野和更强的上下文塑造能力,该网络还关注双时相图像的差异化特征,通过引入差异增强模块对每个像素进行加权,选择性地对特征进行聚合,获得更加精确的变化检测结果。

本文的贡献总结如下:

①提出一个带有孪生架构的基于差异增强和双注意力机制的Transformer模型,能够有效关注到遥感图像变化检测的不同尺度上下文特征,并充分利用双时相图像的差异图特征;

②将更加高效的ResNeXt引入特征提取部分,通过2个共享权重的特征提取模块来学习变化前后图像的多尺度特征,提高模型准确率的同时不增加参数的计算量;

③引入具有更大感受野和上下文建模能力的Transformer结构作为特征的编码器和解码器,增强模型对变化检测的建模能力;

④在编码器和解码器之间引入通道和空间双注意力机制模块,通过权重分配使网络关注更重要的变化特征;

⑤考虑到不同时间遥感图像的变化包含一定的噪声,在模型架构上增加差异增强模块,利用差异化特征充分挖掘变化信息。

1 基本原理

1.1 网络整体架构

针对遥感图像中的变化检测任务,本文提出了一种基于差异增强和双注意力机制的Transformer模型,网络架构如图1所示,由特征提取模块、差异增强模块、Transformer Encoder-Decoder模块与通道和空间双注意力模块组成。特征提取模块用来对输入的变化前后遥感图像T1和T2进行特征编码提取,生成的特征图分别进行通道上的特征融合和像素级的特征相差,2个不同的特征图分别进行不同路径的映射,特征融图经过Transformer Encoder、双注意力模块和Transformer Decoder提取准确的变化特征图,通过 Transformer层的堆叠代替标准卷积中矩阵乘法来学习遥感变化图中的全局上下文信息,双注意力模块可以聚焦不同时间和位置的重要特征。特征相差图通过图像差异和卷积层相结合生成遥感图像变化强度图,之后对变化特征图和变化强度图进行像素级加权和有选择的聚合特征,进一步提高网络模型对于变化特征的提取和生成能力。

图1 网络架构Fig.1 Network architecture

1.2 特征提取模块

由于遥感图像变化检测需要像素级预测,借鉴ResNet[18]相关结构来构建特征提取器,双时相遥感图像首先由2个共享参数的特征提取模块进行特征提取,如图1(c)所示,输入图像在经过卷积和池化层初步处理后进入串联的4层残差卷积单元进行多尺度语义特征提取,每层由带有2倍下采样的ResNeXt单元和1×1的卷积组成,之后统一由上采样模块获得与第一层残差单元一样的特征图尺寸,由此可以得到融合了不同尺度的高级语义信息和低级空间信息,最后将4层的变换特征图在通道上进行串联,并输入2个不同的卷积层(3×3和1×1)以生成最终的特征图,该特征图具有更具区分性和紧凑的特征表达。

增强神经网络表达能力的方法有3种:增加网络深度、增加网络宽度和改善网络结构设计。ResNeXt[19]改变了传统VGG和Resnet堆叠的思想,还是采用分解-变换-合成的策略,通过一组具有相同拓扑结构的网络层并行处理。如图2所示,ResNeXt抛弃了增加网络的深度和宽度的方法,而是提出了一种结构组的新维度,增加结构组比增加深度和宽度更加有效,提高模型准确率的同时降低模型的复杂度。每一组拓扑结构都是一样的,由1×1卷积、3×3卷积和1×1卷积串联构成,输入特征图通过32个并行结构组进行处理后直接像素级相加,并以残差形式合并输入特征图得到最后的输出特征图。ResNeXt的这种结构方式可以在不增加参数复杂度的前提下提高模型的准确率,同时减少超参数的数量。

图2 ResNeXt单元Fig.2 ResNeXt unit

1.3 Transformer模块

输入的变化前后双时相图像在经过共享权重的特征提取器之后进行通道上的合并,之后经过Transformer Encoder(如图1(d)所示)学习全局信息,通道和空间双注意力模块学习上下文信息,Transformer Decoder(如图1(f)所示)获得变化检测的结果图。Transformer Encoder由一系列下采样模块(步长为2的卷积层)和Transformer Block[20]串联组成,用来进一步提取变化特征,Transformer Encoder由一系列上采样模块(双线性插值)和Transformer Block串联组成,通过全局上下文信息生成变化检测特征图。

Transformer Block结构如图3所示。

图3 Transformer Block结构Fig.3 Transformer Block structure

主要由多头注意力模块、多层感知器和深度可分离卷积层通过残差网络进行连接组成,最关键的环节是多头注意力模块,其由多个自注意力连接组成,表示为:

(1)

式中:Q(Query)、K(Key)和V(Value)分别表示要查询的信息、被查询的向量和查询得到的值,都是经过线性变换得到的;dhead为通道维数,Softmax为归一化指数函数,目的是将多分类的结果以概率的形式展现出来,计算每个位置的注意力权重。Positional Encoding位置信息是由多层感知器和深度可分离卷积模块得到,表示如下:

Fout=MLP(GELU(Conv2D3×3(MLP(Fin))))+Fin,

(2)

式中:Fin为自注意力的特征图,GELU为Gaussian Error Linear Unit激活函数,MLP为多层感知机,通过输入层、隐藏层和输出层3个网络层组成;Conv2D为2D版本的卷积神经网络层。

1.4 双注意力模块

双注意力模块由2个独立的通道注意力模块和空间注意力模块组成[21],分别进行通道和空间尺度上的注意力机制,如图4所示,通过增加图像特征的权重来关注重要的特征,忽略次要特征。

图4 双注意力模块Fig.4 Diagram of dual attention mechanism

双注意力模块的流程如图1(e)所示,通道注意力模块是将输入的特征图分别经过全局最大池化和全局平均池化得到2种池化方式的特征图,之后分别经过一个共享权重的多层感知器并作像素级相加操作,最后经过Sigmoid函数得到通道注意力特征图。空间注意力模块是将通道注意力特征图作为输入,首先分别经过基于通道的全局最大池化和全局平均池化得到2种池化方式的特征图,之后将2个特征图在通道层面进行拼接并进行一个7×7的卷积操作,最后经过Sigmoid函数得到空间注意力特征图,将其与通道注意力特征图相乘得到最终的双注意力特征图。双通道注意力模块将通道和空间注意力2个模块以串行和并行的方式组合起来,计算任意2个像素在不同时间和位置之间的注意力权重,来生成更具判别力的特征,使网络能够更好地区分特征之间的重要程度,从而聚焦有用特征。

1.5 差异增强模块

由于双时图像变化会受到光谱和位置误差的影响,为了消除这些噪声影响并提高变化检测能力,将图像差异和卷积层相结合构建差异增强模块,如图1(b)所示。将双时相遥感图像差分图进行卷积操作,在卷积过程中采用类似ResNet的残差连接,将提取的差异特征图用于对原始双时相图像提取的特征进行加权相乘,得到最后的遥感变化检测结果。差异增强模块可以对不同时间差异图像进行建模,将差分图像映射到新的特征空间,从而充分挖掘变化信息,提取变化密度图并过滤噪声,该模块使得网络额外关注双时图像的差异化特征,通过引入差异增强模块,对特征图的每个像素进行加权,自动进行有选择的聚合特征,提高了网络的有效性和变化特征的提取能力。

2 结果与分析

2.1 数据预处理

本文实验采用LEVIR-CD和DSIFN两个大型公开变化检测数据集。LEVIR-CD遥感图像变化检测数据集包含637对高分辨率(1 024 pixel×1 024 pixel)建筑物遥感图像,均来自2002—2018年美国德克萨斯州几个城市的不同区域,将该数据集的图像裁剪为256 pixel×256 pixel,并随机划分70%数据量用于模型训练、10%数据量用于模型验证和20%数据量用于模型测试。DSIFN dataset遥感图像变化检测数据集由谷歌Earth手动收集,它覆盖了中国6个城市(北京、成都、深圳、重庆、武汉和西安),分辨率为512 pixel×512 pixel。数据增强后得到3 940个双时间图像对,训练数据集中有3 600个图像对,验证数据集中有340个图像对,测试数据集中有48个图像对。

LEVIR-CD和DSIFN数据集中部分样本如图5所示,使用了水平和垂直翻转做数据增强。

(a)LEVIR-CD数据集变化前后和标注图像

(g)(e)和(f)的标注图像

2.2 损失函数

模型训练时采用了Dice损失和交叉熵损失结合的综合损失函数,其中Dice_loss代表预测的分割结果与标注的目标的偏差,如下:

(3)

式中:TP表示模型自动分割与手动标注重叠区域,FP表示模型自动分割的错误区域,FN表示模型未能自动分割出的目标区域。因此Dice_loss的值越小说明分割结果越准确。

交叉熵用来评估2个样本分布之间的距离,使用交叉熵来评估当前训练得到的概率分布与真实分布的差异情况,如下:

(4)

式中:q为真值概率,p为预测概率,N为样本总数,i为第i个样本,取值1~N。

2.3 试验结果分析

在1个NVIDIA Tesla V100 GPU上采用PyTorch深度学习框架进行模型的训练和测试,使用Adam算法来最小化损失,初始学习率设置为0.02,并使用固定长度衰减策略来更新学习率,分辨率为256 pixel×256 pixel的变化前后遥感图像作为模型的输入,输出为目标变化检测分割结果,Batch Size为20,训练的Epoch为500。为了与其他相关模型对比,采用Precision、Recall、F1、Intersection over Union (IoU) 和Overall Accuracy(OA) 作为评价指标对比遥感图像的变化检测结果。

表1展示了不同方法在变化检测数据集LEVIR-CD中的结果对比,本文提出方法的F1、IoU和OA评价指标均高于目前最好的模型,相比最好结果分别提升1.6%、1.2%和0.2%,表明模型对复杂场景下的不同大小目标变化检测效果具有优势。

表1 现有方法在LEVIR-CD数据集的变化检测结果对比Tab.1 Comparison of building segmentation results ofexisting methods on the LEVIR-CD dataset

表2展示了不同方法在变化检测数据集DSIFN中的结果对比,提出的方法在F1、IoU和OA评价指标均高于目前最好的模型,相比最好结果分别提升1.06、2.7%和1.05%,表明模型对复杂场景下的不同目标变化检测效果具有优势。

表2 现有方法在DSIFN数据集的变化检测结果对比Tab.2 Comparison of building segmentation results ofexisting methods on the DSIFN dataset

2.4 消融实验

为了验证本文模型的有效性和稳定性,通过消融实验研究删去其中一个算法对实验结果的影响,如分别删除特征提取模块的ResNeXt单元(WithoutResNeXt)、边界增强模块(WithoutDE)和双注意力模块(WithoutDA),将TransformerEncoder-Decoder替换为普通的编码-解码器等(WithoutTransformer),所有模型采用相同的数据集和服务器环境。结果表明,集成上述模块的基于差异增强和双注意力机制的Transformer模型在5个指标(Precision、Recall、F1、IoU和OA)中获得了最好的性能。

2.4.1 在LEVIR-CD数据集上的消融实验

消融实验结果如表3所示,本文提出的方法在5个指标上均有显著提升。消融实验的部分分割结果如图6所示。

表3 消融实验结果对比Tab.3 Comparison of ablation experiment results

图6 模型在LEVIR-CD数据集的消融实验结果图6 Fig.6 Ablation experiment results of the model on the LEVIR-CD dataset

对比可知,第一行遥感变化检测图像为消失的小目标建筑物,小目标物体在深度卷积神经网络中很容易被忽略,本文方法可以很好地学习小目标的不同尺度特征信息,通过上下文特征的融合保证小目标检测的准确率。第二行遥感变化检测图像为大块新增建筑物,成块建筑物相对比较容易检测,但边缘信息较难保持,本文方法相对而言较好地保持了边缘信息。第三行遥感变化检测图像为新增的成片小目标建筑物,视野内目标较多时容易丢失个别目标且导致小目标连起来,本文方法较好地保持了不同小目标的独立性。第四行遥感变化检测图像为在原来树木的基础上新增的少量建筑物,原有的相对明显的树木会导致差异图像的噪声产生,本文方法较好地避免了这个问题,获得了较好的检测结果。

2.4.2 在DSIFN数据集上的消融实验

消融实验结果如表4所示,本文提出的方法在5个指标上均有显著提升。消融实验的部分分割结果如图7所示。

表4 消融实验结果对比Tab.4 Comparison of ablation experiment results

图7 模型在DSIFN数据集的消融实验结果Fig.7 Ablation experiment results of the model on the DSIFN dataset

对比可知,第一行和第二行遥感变化检测图像主要为道路和建筑物变化,遥感图像中的道路变化相对建筑物比较直观但跨度较大,往往需要全局信息,本文方法可以很好地提取到遥感图像的全局信息,对变化的道路进行准确的检测。第三行和第四行遥感变化检测图像主要为植被裸地变化和建筑物变化,图像中的植被裸地容易受到季节变化的影响,春夏和秋冬的颜色存在巨大区别,本文方法较好地识别了植被裸地的区域,对变化区域进行了准确的检测。

通过消融实验可以验证,提出的基于差异增强和双注意力机制的Transformer模型能提取到不同形状目标的特征,对有不同目标建筑物、道路和植被的变化检测效果有很大提升。

3 结束语

本文提出了一种基于差异增强的和双注意力机制的Transformer神经网络模型,通过在孪生网络架构的特征提取部分引入更加高效的ResNeXt单元,将分层结构的Transformer编码-解码器与通道和空间双注意力模块相结合,该网络还关注双时相图像的差异化特征,通过引入差异增强模块对每个像素进行加权,选择性地对特征进行聚合。该方法可以有效学习不同尺度、不同层级的变化特征,使网络具有更大的感受野和更强的上下文塑造能力,提高了图像纹理和细节提取能力,相比其他方法(如STANet、SNUNet和IFNet等)可获得更高的精度和更强的变化检测能力。目前该方法还是依赖裁剪小图像进行处理,在之后的研究中将关注如何在保证高分辨率遥感图像的基础上进行精确的变化检测。

猜你喜欢
变化检测特征提取注意力
用于遥感图像变化检测的全尺度特征聚合网络
让注意力“飞”回来
基于多尺度纹理特征的SAR影像变化检测
基于稀疏表示的视网膜图像对变化检测
基于Daubechies(dbN)的飞行器音频特征提取
基于Landsat影像的黄丰桥林场森林变化检测研究
“扬眼”APP:让注意力“变现”
Bagging RCSP脑电特征提取算法
A Beautiful Way Of Looking At Things
基于MED和循环域解调的多故障特征提取