屈震,李堃婷,冯志玺
(西安电子科技大学 人工智能学院,西安 710071)(∗通信作者电子邮箱zxfeng@xidian.edu.cn)
基于有效通道注意力的遥感图像场景分类
屈震,李堃婷,冯志玺*
(西安电子科技大学 人工智能学院,西安 710071)(∗通信作者电子邮箱zxfeng@xidian.edu.cn)
针对基于人工设计特征的方法不能提取高层次遥感图像信息以及以往利用VGGNet、ResNet等卷积神经网络(CNN)无法关注到遥感图像中显著分类特征的问题,提出了一种基于有效通道注意力(ECA)机制的遥感图像场景分类新模型——ECA-ResNeXt-8-SVM。为了建立高效模型,一方面,设计了嵌入ECA模块的深度特征提取网络ECA-ResNeXt-8,通过端到端的学习使网络更关注分类特征明显的通道;另一方面,利用支持向量机(SVM)代替全连接层作为已提取到的深度特征的分类器,从而进一步提高模型的分类准确率与泛化能力。该模型在实验数据集UC Merced Land-Use上的分类准确率达到95.81%,相较于使用SE-ResNeXt50与ResNeXt50网络,分别提高了6%与18%,且在分类准确率为75%时所提模型的训练时间比上述两个网络分别减少了82%与81%。实验结果表明,所提模型能够有效地减少模型的收敛时间并提升遥感图像场景分类的准确率。
遥感图像场景分类;有效通道注意力机制;支持向量机;深度学习;卷积神经网络
随着成像传感器和数据即时存储技术的快速提高,遥感技术得到快速发展[1-3],监测能力的进步和遥感平台数量的增加使人们能够获得大量不同空间、光谱和时间分辨率[4]的地球表面地理图像。高分辨率遥感图像场景分类是指对遥感图像所表达的场景进行理解,并将其标注为特定的语义类别,它在自然灾害监测、城市规划、土地资源管理等[5-7]领域有着重要的意义。
与普通图像相比,高分辨率遥感图像具有的主要特点是不同场景类别相似性大,而相同场景类别也存在着一定的视觉差异性,因此如何使模型能够关注到图像中类别可区分性更明显的特征成为遥感图像分类任务的主要挑战之一。早期基于人工设计特征对遥感图像场景进行分类的方法主要是基于图像的底层特征,如:颜色[8]、纹理[9]和尺度不变特征[10]。此外,还有基于中层特征提取的有限元方法,如:视觉词袋模型[11]与字典学习机[12]等。然而,这些方法只关注相对简单的低级特征,不能完全捕捉到遥感图像所包含的丰富信息。卷积神经网络(Convolutional Neural Network, CNN)能够自动进行分层特征的提取,通过端到端的学习提取到图像的高层语义信息[13],目前在遥感图像分类领域取得了显著效果,但是仍然存在着无法关注到图像重点区域以及网络收敛速度慢的问题。Hu等[14]提出的通道注意力机制虽然起到了一定的关注重点图像特征的作用,但是通过降维来学习使得网络收敛更慢,分类性能也无法得到很大提升。
针对以上问题,本文提出了一种基于有效通道注意力(Efficient Channel Attention, ECA)机制的遥感图像场景分类新模型——ECA-ResNeXt-8-SVM。相较于ResNet等经典的CNN,该模型具有以下特性:1)能够无降维地捕捉跨通道信息,相对抑制不同场景类别遥感图像中的相似特征,关注类别可区分性更加明显的图像特征;2)收敛时间更短,能够有效提高遥感图像场景分类的准确率。
基于人工设计特征的方法分类准确率提高非常有限,而且无法提取到遥感图像更深层次的语义特征。CNN是深度神经网络中的一种,Penatti等[15]首次将CNN应用于遥感图像场景分类,并利用迁移学习的思想取得了很好的分类效果;Cheng等[16]利用CNN对遥感图像数据集进行分类,并和传统的基于颜色和纹理特征的分类方法比较,提出了使用CNN对遥感图像进行分类,其准确率高于传统方法;李玉峰等[17]在传统的CNN分类模型中加入基于Network in Network思想的Inception结构,从而提高了遥感图像场景分类的准确率;Xie等[18]提出了一种无尺度的遥感场景分类方法,以解决预处理卷积神经网络的微调过程通常会丢弃场景中关键信息的问题;王鑫等[19]提出了将CNN三种高层特征通过串联融合来对遥感图像场景进行分类,使得最终融合后的特征信息更加丰富;Li等[20]融合了在ImageNet上预先训练的CNN模型不同层的特征,以进一步提高分类准确率;孟佳佳等[21]通过搭建深度残差神经网络(ResNet)对高光谱遥感数据进行分类,基于残差学习的思想解决了深层网络中梯度弥散和精度下降的问题,在遥感图像场景分类任务上效果显著;Xie等[22]在ResNet网络的基础上进一步提出了ResNeXt,该网络通过设计特殊的子模块拓扑结构可以在不增加模型复杂度的前提下提高分类的准确率,同时减少了超参数的数量。然而普通的CNN并不能很好地关注到图像中类别可区分性明显的特征,以至于分类的准确率无法进一步提高。
注意力机制已被广泛用于遥感目标检测[23]、遥感图像分割[24-25]和遥感场景分类[26-29]。Wang等[26]首次将注意力机制应用于遥感场景分类中并提出用于场景分类的注意力递归卷积网络(Attention Recurrent Convolutional Network,ARCNet),ARCNet能够自适应地选择一系列关注区域,对这些区域依次处理以提高模型的特征提取能力;Wang等[27]提出了基于注意力的加权方案并称之为集成卷积注意(Convolutional Attention Ensemble, CAE),CAE利用CNN提取特征的能力来增强集成分类器的性能并应用于遥感图像分类任务;边小勇等[28]提出了将尺度注意力机制嵌入到CNN中以解决遥感图像存在多个小对象和背景的复杂分类问题;Hu等[14]通过引入通道域注意力机制,采用压缩和激励(Squeeze and Excitation, SE)的思想对一个通道内的信息直接全局平均池化(Global Average Pooling, GAP),从而忽略每一个通道内的局部信息,使得提取的高层次特征更加丰富。以上注意力机制应用于CNN中往往会使得模型过于复杂,在提升模型分类准确率的同时加重了计算的负担,使网络收敛更慢。
针对上述问题,本文在Wang等[30]的启发下提出了一种将ECA模块嵌入到深度卷积神经网络的遥感图像场景分类新模型ECA-ResNeXt-8-SVM,以达到在提升模型分类准确率的同时加快网络收敛的目的。本文的主要工作如下:1)提出了ECA-ResNeXt-8深度特征提取网络,通过在CNN中引入ECA机制来提升网络对重要特征的提取能力;2)利用支持向量机(Support Vector Machine, SVM)代替全连接层作为特征分类器,进一步提升模型的分类性能。通过实验对比不同的深度特征提取网络对遥感图像的特征提取能力,验证了本文提出的ECA-ResNeXt-8网络相较于传统CNN的优点。通过实验对比不同以CNN提取到的特征作为输入的分类器,验证了本文选择SVM来构成遥感图像场景分类模型ECA-ResNeXt-8-SVM的合理性。
本章主要介绍了基于ECA机制的遥感图像场景分类模型ECA-ResNeXt-8-SVM,该模型的框架如图1所示。在已有的工作中有学者提出了SE-ResNet网络,证明了将注意力机制与残差神经网络相结合可以在场景分类上取得很好的效果。本文参照SE-ResNet网络的思想将ECA模块应用于残差神经网络结构,并利用分组卷积的思想对ResNet进行改进,通过添加相同结构的分支来增加ResNet网络的宽度。如图1所示,本文首先设计了ECA-ResNeXt-8深度卷积神经网络作为遥感图像的特征提取器,从而使模型更加关注类别可区分性更加明显的特征,接着将SVM作为特征分类器对遥感图像场景进行分类,进一步提高模型的非线性映射能力。
2.1.1 注意力机制在遥感场景分类中的应用
在遥感图像中,一般只有某一部分区域的图像特征对判断图像属于哪一个类别很重要,而其他不相关的部分特征可能同时属于另一个类别,二者同时存在往往会使算法混淆。计算机视觉中的注意力机制能够让网络拥有注意力,即更加关注类别可区分性更加明显的特征而在一定程度上抑制类间相似性很大的特征,从而提升网络的特征学习能力。
图2取自遥感图像中的棒球场类别,其主要可以分为投手区、内野与外野三个区域。可以看到,对于该类别遥感场景来说内野中的菱形区域应该是计算机重点关注的特征,即类别可区分性更加明显,而外野以及投手区中的草地包含许多杂乱的信息,甚至可能是属于其他场景类别的特征。
图1 ECA-ResNeXt-8-SVM模型整体框架Fig. 1 Overall framework of ECA-ResNeXt-8-SVM model
图2 棒球场遥感图像Fig. 2 Remote sensing image of baseball diamond
Hu等[14]提出的通道注意力机制最早应用于SENet,它虽然可以通过全连接层降维来降低模型的复杂度,却破坏了权值与通道之间的直接对应关系,而ECA模块可以通过一维卷积替代全连接层来实现无降维的局部跨通道交互,在减少模型参数量的同时提高了分类准确率。
2.1.2 ECA机制
ECA模块结构如图3所示,假设包括卷积在内的任意一种特征变换表示为,其中,,,首先通过挤压操作,利用全局平均池化将全局信息压缩到一个通道描述符中,通过收缩特征中的空间维数来产生统计量,的第个元素可以表示为:
图3 ECA模块结构Fig. 3 Structure of ECA module
式(2)避免了不同通道之间完全独立,在实现局部跨通道交互的同时保证了效率和有效性,的权重仅通过考虑与其个相邻元素之间的相互作用来计算:
为更进一步展现网络加深过程中通道的权重与提取到特征之间的对应关系,本文分别提取图1网络中①、②、③位置经过ECA模块后最大与最小权重的特征图如图4所示。其中对应的通道权重分别为0.47、0.54、0.96,对应的权重分别为0.35、0.34、0.63。可以看出,随着网络深度的增加(),深度卷积神经网络能提取到更具有表征能力的特征,低层()网络提取到的特征很直观,而高层()提取到的特征则更加抽象;对于权重不同的通道(或,或,),可以看出权重越大的通道越能提取出类别可区分性更加明显的特征,而权重较小的通道提取到的大多是无关或类间相似性大的特征。
图4 不同权重下不同层输出的特征图Fig. 4 Feature maps output by different layers under different weights
2.1.3 ECA-ResNeXt-8深度特征提取网络
与普通残差神经网络(ResNet)相比,ResNeXt在其基础上增加了基数(cardinality)的概念,即增加ResNet网络的宽度,将残差模块并联为一个整体,同时使每一个分支的结构相同,这样可以保证在更少的网络层数下获得更高的准确率。本文借鉴ResNeXt增加网络宽度的思想设计了ResNeXt-8作为深度特征提取网络的主要模块,并提出了将ECA模块与ResNeXt-8相结合以便使网络能够关注到遥感图像中类别可区分性明显的区域,提升网络的分类性能。本文设计的ResNeXt-8遥感图像特征提取模块如图5所示。
图5 ResNeXt-8模块Fig. 5 ResNeXt-8 module
本文共使用了9个ResNeXt-8模块串联堆叠,并在每个ResNeXt-8模块之后嵌入ECA模块以捕获通道之间的相互依赖关系,进而提升网络对重要特征提取的能力。将式(9)中的输出特征代入式(1)与式(7)即可得经过ECA模块后每一个通道的对应权重:
为了有效避免深层网络的退化问题,引入残差的思想对每一个通道进行加权并与原始的输入特征相加:
本文深度特征提取网络共有29层,输入遥感图像经过第一层的卷积与池化进行降维与特征的初步提取,接着依次通过三个不同输出通道数的模块组(group),其中group1、group2、group3输出的通道数分别为64、128、256,每一个group包含如图1所示的三个block。通过深度卷积神经网络对每一个ECA模块中的通道权重进行端到端的学习,并利用学习到的权重对经过ResNeXt-8模块后的通道进行加权。这种方式不仅能使网络关注到更重要的特征,加快网络收敛,而且能够提升分类准确率与模型的鲁棒性。本文将在实验中对模型的鲁棒性进行论证。
在深度卷积神经网络中嵌入ECA模块可以在不同深度下适应网络的需求。正如图4所示,在浅层网络中该模块可以通过激发信息特征来提高提取到的较低层特征的质量,在深层网络中该模块作用越来越明显,提取到的特征越来越与类别强相关。
2.1.4 模型训练与反向传播
本文在深度特征提取网络ECA-ResNeXt-8中使用全连接层作为训练过程中的分类器,设输入的第张遥感图像经过网络最后一层全局平均池化操作之后的特征表示为,在经过全连接层之后输出的特征为,其中表示输出的特征维度,表示场景类数,对应关系为:。代表权重矩阵,如式(12)所示:
进一步使用交叉熵损失函数计算网络的误差,如式(13)所示:
图6 ECA-ResNeXt-8网络结构Fig. 6 Structure of ECA-ResNeXt-8 network
本质上全连接层是一种多项式形式的线性映射,因此分类能力有限,而SVM作为目前比较成熟的机器学习分类算法,可以借助核函数进行空间的非线性映射,在高维空间中构造决策函数来实现线性可分。本文首先将训练好的CNN中最后一层全连接层删除,然后将训练集与测试集中的遥感图像分别输入预先训练好的深度特征提取网络ECA-ResNeXt-8中,每张图片对应输出维度为(1,256)的新特征。最后将新特征作为SVM的输入数据进行后续训练和测试。
选取“1-v-1(one against one)”的方法将二分类SVM推广到多分类,即对类的遥感数据,分别选取第类数据和第类数据,共构造个分类器,最后使用投票法,将分类器判决类别最多的结果作为输入遥感图像最终预测的场景类别。
本文在Linux系统下进行实验验证,实验环境是基于 Linux的tensorflow机器学习框架,采用GPU进行加速训练,其型号为NVIDIA Tesla V100,显存为16 GB。
本文实验中使用的遥感图像场景分类领域中的数据集为UC Merced Land-Use[5],它是一个被用于研究21级土地利用图像的遥感数据集,被用于全国各地的城市地区。此数据集公共领域图像的像素分辨率为304.8 mm,图像大小为,包含21个类别的场景图像共计2 100张,其中每个类别100张。
首先对数据集进行划分以训练深度特征提取网络,其中将90%的数据(每类场景90张图片)作为训练集、其余10%的数据(每类场景10张图片)作为测试集检验模型的鲁棒性,另外在训练集中单独为每类场景划分10张图片作为验证集来对网络中的超参数进行优化。本文通过两个阶段的训练来提升网络对遥感图像的特征提取能力,并对训练过程中根据验证集多次实验下的收敛性能来对训练周期和学习率等超参数进行调整。设置第一阶段训练周期为100,初始学习率为0.001 5,使用动量(Momentum)优化器来进行反向传播训练,每30个训练周期将学习率变为原来的0.1倍,这一阶段训练主要使网络能够更快地收敛。在第二个阶段设置训练周期为100,初始学习率为0.001,使用Adam优化器来进行反向传播训练以达到自适应调整学习率的目的。在此阶段主要是对网络中的参数进行微调以使得网络趋于稳定,同时进一步加强网络对遥感图像特征的提取能力。
其次,将训练集中除去验证集的图像(每类场景80张图片)输入预训练好的深度特征提取网络,提取输入全连接层的特征用于SVM训练,并采用高斯核函数将数据映射到高维空间以实现线性可分。本文使用10折交叉验证与网格搜索的方法来确定超参数与的取值,搜索得到最优的超参数取值组合为:。
以同样方法提取测试集中的图像特征并输入训练好的SVM。由于是多分类问题,实验中使用“1-v-1”的方法对测试集中的遥感图像场景类别进行预测,并计算分类的准确率与混淆矩阵。
随着深度神经网络层数的增加,不同层输出的图像越来越抽象,这意味着卷积核提取到的特征也越来越复杂,但同时用于该图像场景类别分类的主要特征越来越明显,在输出的特征图上表现为对应区域呈现高亮状态。为了更清晰地展现训练过程中网络参数的更新以及深度特征提取网络对原始图像特征的提取效果,本文提取神经网络中group3(图1所示)之后权重最大的通道对应的特征图,并以飞机场和棒球场为例展现跟随网络过程的训练,测试集分类准确率不同时特征图的变化情况如图7所示,其中图7(a)、(b)中最左边分别为选取飞机场与棒球场的原始遥感图像,右边分别为当测试集分类准确率到达46%、60%、80%、93%时提取到的原始遥感图像经过网络之后的特征图。
由图7可以清晰地看出,经过group3中ECA模块后的特征图更加抽象,不再关注原始图像的纹理与颜色等一些低级特征,而是更接近于实际的任务场景。在准确率为93%时,明显提取到了飞机与棒球场内野等图像特征,符合人们对于分类的视觉感知。此外,CNN自身端到端的学习可以使网络提取分类特征的能力变强。
图7 不同准确率下的特征图Fig. 7 Feature maps under different accuracies
为验证ECA-ResNeXt-8网络结构对遥感图像进行特征提取的优势,本文选用VGGNet16[31]、ResNet50[32]、ResNeXt50[21]、SE-ResNeXt50[14]四种已公认的在图像分类领域取得良好效果的深度神经网络进行对比,并以测试集准确率作为特征提取能力衡量的标准,计算式如式(22)所示:
图8 不同网络模型性能对比Fig. 8 Performance comparison of different network models
由图8可知,本文提出的ECA-ResNeXt-8网络在测试集上分类准确率达到了最高,而且在第50个周期时就已经达到了收敛。ResNeXt50网络在没有加入ECA模块的情况下分类性能并不如ECA-ResNeXt-8。ResNet50虽然在测试集上的分类准确率达到了80%,但是训练时间大幅度增加,网络收敛较慢。VGGNet16作为传统堆叠式深度神经网络的代表,由于并没有引入类似残差模块的结构,导致网络在前期就过拟合,测试集上的分类准确率在60%左右。通过对比不同网络训练过程中测试集准确率随时间的变化情况,可以看出本文提出的深度特征提取网络具有以下优点:1)初始准确率高,收敛更快;2)在测试集上的分类准确率更高,模型的推广能力更强;3)训练波动更小,对特征的提取能力更强,不易产生过拟合现象。
为了更进一步比较不同深度特征提取网络的性能,本文统计了不同网络在UC Merced Land-Use数据集上的平均准确率、网络的参数量、每周期平均耗时和在测试集准确率达到75%时所花费的训练时间,结果如表1所示。
表1 不同网络的不同指标结果对比Tab. 1 Result comparison of different indicators of different networks
由表1可知,ECA-ResNeXt-8作为特征提取网络(以全连接层作为分类器)时,其在测试集上的分类准确率达到93.86%,相较于ResNeXt50提高了近16%,相较于同样使用注意力机制的网络SE-ResNeXt50提高了近4%,这表明本文网络的特征提取能力以及鲁棒性优于对比的其他网络。值得说明的是本文提出的特征提取网络只有29层,但是性能却优于其他网络,参数量也较低。本文网络在实验平台下每周期平均耗时为10.28 s,相较于使用SE-ResNeXt50与ResNeXt50网络分类,在测试集准确率达到75%时所用时间分别减少了82%与81%,可见本文网络收敛更快。进一步分析可知,本文提出的深度特征提取网络将ECA模块与ResNeXt并联残差网络两者的思想进行了结合,使得网络既能通过局部跨通道交互来关注到重要的特征,又能利用并联残差的思想增加网络的宽度而并非深度,从而在提升分类准确率的同时减少了模型收敛的时间。
为了提高模型分类的准确率,本文进一步将ECA-ResNeXt-8网络提取的特征作为不同分类器的输入进行实验对比,分别选用K近邻(K-Nearest Neighbor, KNN)[33]、随机森林(Random Forest)[34]、朴素贝叶斯(Naive Bayes)[35]和SVM算法思想设计分类器。在UC Merced Land-Use数据集上测试并得到平均准确率与最后一层的平均训练时间,具体结果如表2所示。
表2 不同分类器下的性能对比Tab. 2 Performance comparison under different classifiers
通过测试集平均准确率与最后一层平均训练时间这两个指标对不同的分类器进行比较,可以发现将ECA-ResNeXt-8网络提取的特征作为SVM输入时,分类准确率达到95.81%,相较于使用原始的全连接层提高了近2%,另外也可以发现相较于使用SE-ResNeXt50与ResNeXt50网络分类,其准确率分别提高了6%与18%。而使用KNN、Random Forest或Naive Bayes作为分类器会使模型的分类性能下降,表明这三种分类器并不适合于本文提出的模型。由以上分析可知,本文提出的模型具有较好的遥感图像场景分类性能。
进一步对使用SVM作为分类器的分类结果以混淆矩阵的形式可视化,如图9所示。混淆矩阵的横轴表示遥感图像的预测标签值,纵轴表示每类遥感图像的真实标签值,对角线上的数值代表每一类图像中被正确分类的数量,颜色越深代表该场景类别分类的准确率越高。可以看出,标签为4的场景类别的错误率最高,该类代表的是建筑物(buildings)类别,它被错分为稠密住宅区(dense residential)的概率较高,其原因在于这两种场景类别特征重叠以及相似的部分最多,因此本文建立的模型还需要在相似场景类别分类任务上做进一步的提升。
图9 UC Merced Land-Use数据集分类混淆矩阵Fig. 9 Classification confusion matrix of UC Merced Land-Use dataset
为验证本文模型在遥感场景分类应用上的可扩展性和鲁棒性,将模型在其他遥感场景分类数据集上进行测试并计算平均准确率(训练方法同3.2节)。本文选取文献[36]提供的遥感图像数据集进行实验,其中包含KSA(Kingdom of Saud Arabia)、AID(Aerial Image Datasets)、Optimal-31、WHU-RS19和RSSCN7这5个不同的遥感图像数据集,其图像大小都已被预处理为,以便减少训练时间并保证数据集输入的一致性,测试结果如表3所示。
表3 所提模型在不同数据集上的测试结果Tab. 3 Test results of proposed model on different datasets
由表3结果可知,本文提出的模型可以适用于不同的遥感图像数据集且在测试集上的分类准确率均达到了90%以上,这表明该模型具有一定的鲁棒性,可以适用于不同的遥感图像场景分类任务。
本文提出了一种将ECA模块与ResNeXt-8相结合作为深度特征提取网络,并进一步使用SVM代替全连接层作为CNN特征分类器来提升遥感图像场景分类能力的模型。ECA机制通过局部跨通道交互可以对不同通道的特征图根据其分类特征的重要程度赋予一定的权重,使网络能够更进一步提取到类别可区分性更明显的特征。ResNeXt-8中引入并联的残差模块,使得网络在相同的参数量下能够使用更少的网络层数达到更优的性能。通过比较特征提取网络与分类器在UC Merced Land-Use遥感图像数据集上的分类性能,验证了本文提出的ECA-ResNeXt-8-SVM遥感图像场景分类模型的有效性。但是该模型仍然存在一定的局限性,比如对过于相似的场景识别率较低。但是优化方法为在通道注意力机制基础上引入空间域注意力机制,这样会显著增加模型的复杂度,需进一步研究改善。
[1] SINGH A. Review article digital change detection techniques using remotely-sensed data [J]. International Journal of Remote Sensing,1989, 10(6): 989-1003.
[2] CHENG G, HAN J W, LU X Q. Remote sensing image scene classification: benchmark and state of the art [J]. Proceedings of the IEEE, 2017, 105(10): 1865-1883.
[3] CHENG G, XIE X X, HAN J W, et al. Remote sensing image scene classification meets deep learning: challenges, methods, benchmarks, and opportunities [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 3735-3756.
[4] ROGAN J, CHEN D M. Remote sensing technology for mapping and monitoring land-cover and land-use change [J]. Progress in Planning, 2004, 61(4): 301-325.
[5] YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification [C]// Proceedings of the 2010 18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2010: 270-279.
[6] CHERIYADAT A M. Unsupervised feature learning for aerial scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(1): 439-451.
[7] ZHANG H, SONG H J, YU B C. Application of hyper spectral remote sensing for urban forestry monitoring in natural disaster zones [C]// Proceedings of the 2011 International Conference on Computer and Management. Piscataway: IEEE,2011: 1-4.
[8] SWAIN M J, BALLARD D H. Color indexing [J]. International Journal of Computer Vision, 1991, 7(1): 11-32.
[9] BHAGAVATHY S, MANJUNATH B S. Modeling and detection of geospatial objects using texture motifs [J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(12): 3706-3715.
[10] YANG Y, NEWSAM S. Comparing SIFT descriptors and Gabor texture features for classification of remote sensed imagery [C]// Proceedings of the 2008 15th IEEE International Conference on Image Processing. Piscataway: IEEE, 2008: 1852-1855.
[11] FAN J Y, CHEN T, LU S J. Unsupervised feature learning for land-use scene recognition [J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(4): 2250-2261.
[12] TU B, ZHANG X F, KANG X D, et al. Hyperspectral image classification via fusing correlation coefficient and joint sparse representation [J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(3): 340-344.
[13] LI H T, GU H Y, HAN Y S, et al. Object-oriented classification of high-resolution remote sensing imagery based on an improved colour structure code and a support vector machine [J]. International Journal of Remote Sensing,2010, 31(6): 1453-1470.
[14] HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141
[15] PENATTI O A B, NOGUEIRA K, DOS SANTOS J A. Do deep features generalize from everyday objects to remote sensing and aerial scenes domains? [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2015: 44-51.
[16] CHENG G, YANG C Y, YAO X W, et al. When deep learning meets metric learning: remote sensing image scene classification via learning discriminative CNNs [J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(5): 2811-2821.
[17] 李玉峰,林辉.基于CNN的多光谱遥感图像地物覆盖分类[J].微处理机,2019,40(1):43-48.(LI Y F, LIN H. Multi-spectral remote sensing image classification of ground coverage based on CNN [J]. Microprocessors, 2019, 40(1): 43-48.)
[18] XIE J, HE N J, FANG L Y, et al. Scale-free convolutional neural network for remote sensing scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6916-6928.
[19] 王鑫,李可,徐明君,等.改进的基于深度学习的遥感图像分类算法[J].计算机应用,2019,39(2):382-387.(WANG X, LI K, XU M J, et al. Improved remote sensing image classification algorithm based on deep learning [J]. Journal of Computer Applications, 2019,39(2): 382-387.)
[20] LI E Z, XIA J S, DU P J, et al. Integrating multilayer features of convolutional neural networks for remote sensing scene classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(10): 5653-5665.
[21] 孟佳佳,王弢.基于深度残差网络的遥感数据分类[J].数字技术与应用,2019,37(1):99-101.(MENG J J, WANG T. Remote sensing data classification based on deep residual network [J]. Digital Technology and Application, 2019, 37(1): 99-101.)
[22] XIE S N, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5987-5995.
[23] ZHANG G J, LU S J, ZHANG W. CAD-Net: a context-aware detection network for objects in remote sensing imagery [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 10015-10024.
[24] SU Y Z, WU Y J, WANG M, et al. Semantic segmentation of high resolution remote sensing image based on batch-attention mechanism [C]// Proceedings of 2019 IEEE International Geoscience and Remote Sensing Symposium. Piscataway:IEEE, 2019: 3856-3859.
[25] QI X Q, LI K Q, LIU P K, et al. Deep attention and multi-scale networks for accurate remote sensing image segmentation [J]. IEEE Access,2020, 8: 146627-146639.
[26] WANG Q, LIU S T, CHANUSSOT J, et al. Scene classification with recurrent attention of VHR remote sensing images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 1155-1167.
[27] WANG H N, MIAO Y Q, WANG H R, et al. Convolutional attention in ensemble with knowledge transferred for remote sensing image classification [J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(4): 643-647.
[28] 边小勇,费雄君,穆楠.基于尺度注意力网络的遥感图像场景分类[J].计算机应用,2020,40(3):872-877.(BIAN X Y, FEI X J,MU N. Remote sensing image scene classification based on scale-attention network [J]. Journal of Computer Applications, 2020, 40(3): 872-877.)
[29] ZHANG C, WANG Q, LI X L. A multi-task architecture for remote sensing by joint scene classification and image quality assessment [C]// Proceedings of 2019 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE, 2019: 10055-10058.
[30] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020:11531-11539.
[31] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2021-02-15].https://arxiv.org/pdf/1409.1556.pdf.
[32] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016: 770-778.
[33] ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning [J]. Pattern Recognition, 2007, 40(7): 2038-2048.
[34] PAL M. Random forest classifier for remote sensing classification [J]. International Journal of Remote Sensing, 2005, 26(1): 217-222.
[35] RISH I. An empirical study of the naive Bayes classifier [J]. Journal of Universal Computer Science, 2001, 1(2):127.
[36] ALHICHRI H S. Remote sensing datasets [DS/OL]. [2020-12-01]. http://alhichri.36bit.com/research.html.
Remote sensing image scene classification based on effective channel attention
QU Zhen, LI Kunting,FENG Zhixi*
(School of Artificial Intelligence,Xidian University,Xi’an Shaanxi710071,China)
The methods based on artificially designed features cannot extract high-level information from remote sensing images and previously used Convolutional Neural Network (CNN) such as VGGNet and ResNet cannot focus on distinguishable classification features in remote sensing images. In order to solve the problems, a novel method called ECA-ResNeXt-8-SVM was proposed based on Effective Channel Attention (ECA) mechanism for remote sensing image scene classification. In order to build an effective model, a deep feature extraction network called ECA-ResNeXt-8 embedded with the ECA module was designed, and the end-to-end learning was used to make network lay emphasis on channels with distinguishable classification features. At the same time, Support Vector Machine (SVM) was utilized to replace the fully connected layer as the classifier of the extracted deep features, which helped to improve the classification accuracy and generalization ability of model. On the experimental dataset UC Merced Land-Use, the classification accuracy of the proposed model reaches 95.81%, which is increased by 6% and 18% compared to SE-ResNeXt50 and ResNeXt50 networks respectively. When the classification accuracy is 75%, the proposed model has the training time reduced by 82% and 81% compared to the two above networks respectively. Experimental results show that the proposed model can reduce the convergence time of model effectively and improve the classification accuracy for remote sensing image scene.
remote sensing image scene classification; Efficient Channel Attention (ECA) mechanism; Support Vector Machine (SVM); deep learning; Convolutional Neural Network (CNN)
TP309.7
A
1001-9081(2022)05-1431-09
10.11772/j.issn.1001-9081.2021030464
2021⁃03⁃26;
2021⁃07⁃16;
2021⁃07⁃16。
国家自然科学基金资助项目(61836009,61906145)。
屈震(2000—),男,陕西榆林人,主要研究方向:机器学习、遥感图像处理; 李堃婷(2000—),女,辽宁昌图人,主要研究方向:机器学习、遥感图像处理; 冯志玺(1989—),男,甘肃武威人,副教授,博士,CCF会员,主要研究方向:智能信号与图像处理。
This work is partially supported by National Natural Science Foundation of China (61836009,61906145).
QU Zhen, born in 2000. His research interests include machine learning, remote sensing image processing.
LI Kunting, born in 2000. Her research interests include machine learning, remote sensing image processing.
FENG Zhixi, born in 1989, Ph. D., associate professor. His research interests include intelligent signal and image processing.