融合Transformer和VGG网络的高光谱图像分类*

2023-12-13 12:12张明慧王先旺
传感器与微系统 2023年12期
关键词:波段光谱像素

张明慧,周 浩,王先旺

(云南大学信息学院,云南 昆明 650500)

0 引 言

高光谱遥感图像是由若干个光谱波段组成的三维(3D)立体图像,具有较高的光谱分辨率,图像中每个像元都可反映为一条连续的光谱反射曲线,此外,还具有丰富的空间信息,这种“图谱合一”的特性,能够提取到不同地物的深层次特征,有效提高了地物目标的识别精度,在农作物监测[1]、生态系统测量、地球环境监测、矿物鉴定[2]等方面发挥着巨大作用。传统的高光谱图像(hyperspectral image,HSI)分类方法,如支持向量机分类法[3]、决策树分类法、最大似然分类法等,只能提取到HSI的浅层特征信息而忽略了深层特征信息,导致其分类精度的进一步提高受到限制。基于深度学习的方法,特别是卷积神经网络(convolutional neural network,CNN),可以较好地提取HSI 的深层特征信息。比如文献[4]提出将中心像素与周围的每个像素相结合构造像素对,并利用CNN提取的像素对特征进行HSI分类,获得了良好的分类性能;文献[5]对HSI数据进行主成分分析后,将以待分类像素为中心的领域范围的空间面片用于训练二维(2D)CNN从而完成HSI分类任务;文献[6]设计高效的3D多通道CNN以提取HSI的空谱联合信息,并挖掘深层特征实现分类。

基于CNN的HSI分类方法是目前HSI 分类领域应用最多的深度学习网络模型,已经实现了最先进的性能,但仍然存在着一些问题。首先,在处理HSI 像素向量时,使用CNN会导致信息丢失[7];其次,由于卷积运算处理的是局部邻域,CNN的感受野受到其核大小和层数的严格限制,这使得它在捕获输入数据的长程依赖性方面不太有利[8]。因此,该方法很难学习包含数百个波段的HSI光谱间的长程依赖性。

基于自注意力(self-attention,SA)机制的Transformer使用注意力机制来捕获输入序列中的全局依赖关系,具有计算效率高和可扩展性强等特点,已经成为自然语言处理(nature language processing,NLP)的首选模型[9]。受Transformer在NLP中成功应用的启发,许多研究工作尝试将CNN式架构与SA机制相结合[10,11],还有一些研究工作完全用Transformer取代了卷积网络[12,13]。

基于以上研究,本文针对目前基于深度CNN(deep CNN,DCNN)的方法难以处理HSI的光谱序列数据,且不善于建立长程依赖性,在光谱特征提取时往往忽略各波段间光谱信息的关联性,导致网络在HSI分类中存在一定的分类误差问题,提出了一种融合Transformer 和VGG 网络的HSI分类框架(SST_Like)。

本文主要工作如下:

1)对VGG16网络进行改进,将原本的16 层网络改为8 层,用3D-CNN 取代2D-CNN,并将3 层全连接(fully connected,FC)层用全局平均池化(global average pooling,GAP)层代替,改进后的网络在保留光谱信息的同时,能够提取到更细致的空间特征;

2)引入Transformer 用于捕获各光谱波段间的长程依赖性,解决了目前基于CNN的方法忽略的问题;

3)在Transformer网络中添加稀疏约束,去除有噪声或冗余的波段。实验在3 个HSI 开放数据集(详见2.1 节)上进行验证,以证实本文方法的有效性。

1 方法介绍

本文提出的用于HSI分类的SST_Like网络结构如图1所示。SST_Like网络包含3个部分:基于VGG_Like的HSI空谱联合特征提取、基于Transformer 的HSI 光谱特征提取和基于多层感知机(multilayer perceptron,MLP)的分类。首先,由改进的VGG网络(VGG_Like)提取HSI 的3D 特征;然后,将特征图沿着波段分割得到n个2D特征图(n为光谱波段数),再对特征图进行位置嵌入并送入到Transformer,由改进后的Transformer 网络获得光谱序列间的长程依赖性;最后,利用得到的空间-光谱特征得到分类结果。

图1 SST_Like网络结构

1.1 基于VGG_Like的HSI空谱联合特征提取

HSIZ∈RW×H×L是包括光谱维和空间维的3D 图像,其中,W×H为空间分辨率,L为光谱波段数。本文将9 ×9 ×1的基准图像块送入到改进的VGG_Like 网络进行训练,从而学习到深层次的空间-光谱像特征F(Z;Θ)∈RW′×H′×L′×C,C为特征通道的数量,Θ 为所有先前图层的参数。为了减少卷积层对内存的消耗,加快训练速率,对VGG16网络模型结构进行了改进,将2-2-3-3-3 的13 层卷积层改为1-1-2-1-3结构的8层卷积层,池化层由5个增加到6个,3个FC层改为1 个GAP层。考虑到HSI 的光谱维特征,对卷积核的大小做了相应改变,将3 ×3的2D卷积核改为3 ×3 ×1 的3D 卷积核,最终设计为图1 所示的VGG_Like网络结构。

1.2 基于Transformer的HSI光谱信息提取

HSI含有丰富的光谱信息,但波段较多,相邻波段间相关性较高,存在特征冗余问题。CNN使用局部连接来提取输入的相邻特征,但受限于卷积核的数量和大小,在光谱特征提取时,CNN很难捕获光谱序列间的长程依赖性。而自注意机制可以获得任意2 个波段间的关系。例如,机载可见/红外成像光谱仪(airborne visible/infrared imaging spectrometer,AVIRIS)包含224 个波段,利用自注意力机制的学习过程可以得到1个224 ×224的矩阵,矩阵中的每个元素代表任意2 个波段之间的关系。基于SA 机制的Transformer网络善于处理序列数据,在Transformer 网络中添加稀疏约束策略来去除有噪声或冗余的波段,使用密集连接来减轻梯度消失并加强特征传播。

1.2.1 空谱特征嵌入

VGG_Like通过3D卷积学习到空谱特征hx,s(Z;Θ)∈RC,即特征图F(Z;Θ)上空间位置x和光谱位置s处的空谱特征元素,并将其输入到Transformer,线性投影矩阵E∈RC×D将特征元素hx,s映射到隐含的D维嵌入空间。为了对光谱位置信息进行编码,需要对每个位置s进行特定嵌入ps,嵌入ps被添加到空谱特征后,形成序列输入

1.2.2 Transformer编码器

Transformer编码器旨在通过全局上下文信息对每个光谱波段进行编码来捕获HSI的各波段之间的相互关系。每个Transformer编码器由1 个多头SA(multi-head SA,MSA)机制和1 个MLP 块以及层归一化和残差连接组成。每个MSA机制和MLP 层之前都有一个归一化层,并且在每个MSA机制和MLP层之后进行残差连接。考虑到模型深度增加会带来梯度消失问题并减缓模型训练时的收敛性,本文仅采用了2 层Transformer 网络来捕获各波段之间的相互关系,如图2 所示。为了尽可能地将特征重用,将第1层和第2层中MSA 的输出采用short-cut 连接,Transformer的输出可通过以下方式计算

图2 2 层Transformer 编码器示意

1.2.3 稀疏Transformer

MSA模块中每个头部的注意力分布通常使用SoftMax归一化函数进行预测,这会导致所有上下文波段的权重均为非零,即每个源位置都要受到目标位置的关注,模型资源不能专用于相关联的波段。而分类任务的目的是学习有意义的波段之间的关系,即学习有用的波段和摆脱噪音或冗余波段。SparseMax在计算概率时,将高于阈值的输出变量保留,其他输出变量被截断为零,从而返回稀疏的后验分布,在本文实验中,没有使用SoftMax,而是采用文献[14]提出的SparseMax 函数用于计算值的权重,注意力的输出定义如下

其中,p服从函数ΔK-1:={p∈RK|1Tp=1,p≥0},在算法1中,定义函数[K]:={1,…,K},[t]+:=max{0,t}。

算法1计算SparseMax(z)

输入:z

排序:z(1)≥…≥z(K)

查找:k(z):=max{k∈[K]|1 +kz(k)>∑j≤kz(j)}

定义:τ(z)=((∑j≤k(z)z(j))-1)/k(z)

输出:p满足pi=[zi-τ(z)]+

2 实验与分析

2.1 数据集介绍

Indian Pines(IP)数据包含21 025个像素,其中地物像素为10 249 个,共包含16 个地物类型,去掉不能被水反射的20个波段后剩余200 个波段,样本分布极不均匀,大部分是农作物、植物等。Pavia University(PU)数据图像中共包含207400个像素,其中地物像素有42 776 个,共包含9 个地物类型,剔除12个易受噪声影响的波段后剩余103 个波段。肯尼迪航天中心(KSC)数据共包含314 368个像素,其中地物像素有5211个,共有13个类别,去掉低信噪比波段后剩余176个波段,包含山地和湿地等。

本文从IP和KSC数据集中随机选取20%的像素作为训练集,80%的像素作为测试集,再从测试集中选取训练集的50%作为验证集,训练集、验证集和测试集数据之比为2∶1∶8;从PU数据集中随机选取10%的像素作为训练集,90%的像素作为测试集,再从测试集中选取训练集的50%作为验证集,训练集、验证集和测试集数据之比为2∶1∶18。

2.2 参数设定

实验中,数据集的批处理大小设置为28,输入网络的样本邻域大小设置为9 ×9,优化器Adam使用自适应学习率来加快收敛速度,其中初始学习率为0.000 09,模型训练80个epoch,采用等间隔调整学习率StepLR,每历经一个epoch学习率降低0.9。为减轻计算量和加快网络训练速度,2个高光谱的数据集均通过预处理标准化为均值为0,方差为1的数据。

实验所采用的计算机硬件环境为Intel®CoreTMi5-10600KF CPU 4.10 GHz处理器,NVIDIA GeForce RTX 3060显卡,金士顿骇客3 200 MHz @ 16 G DDR4内存,编译环境为Python 3.7 +Pytorch 1.8。实验采用3 组公开的HSI 数据集来验证本文方法的有效性,并通过平均精度AA、总体精度OA、Kappa 系数对分类结果进行评价。

2.3 实验结果与分析

实验选取2D-CNN[15]、3D-CNN[16]两种常用的基于DCNN的HSI分类算法进行对比分析,用于验证所提出方法的有效性。为了保证实验结果的公平性,每种实验均在相同的环境中进行,并且各参数均设定相同。同时,为了验证本文提出的SST_Like 网络模型的优势,将其与原始的SST[17]网络模型、改进的SST_3D网络模型的分类性能进行比较,其中,各种参数的设定及输入尺寸均相同。在3 个数据集上的实验结果分别如表1 所示。

表1 3 个数据集的分类结果%

表1的总体实验结果显示,SST-Like网络在3个数据集上的平均精度均达到97%以上,在PU 数据集上更是接近99%,具有较高的分类精度。在IP 数据集上,提出的SSTLike网络的OA比基于2D-CNN 的空间特征提取网络模型高8.9%,AA 高7.02%,Kappa 高10.19%。与3D-CNN 相比,在KSC、PU和IP数据集上,SST-Like的OA分别提高了3.83%,2.63%,10.36%。此外,与SST 网络相比,在KSC和IP数据集上,该方法的平均精度分别达到了97.72%和98.86%,分别提高了7.42%和13.3%。SST-Like 网络中的VGG_Like在保留光谱信息的同时充分提取了空间特征信息,稀疏约束有助于去除有噪声或冗余的光谱信息,便于Transformer网络提取到波段间的有效信息,从而提高HSI的分类精度。本文提出的SST-Like 网络在3 个数据集上无论从整体精度还是平均精度上都比SST 网络的分类精度高,证明了基于VGG_Like和Transformer网络在提高分类精度上的有效性。

图3 ~图5分别显示了在PU、IP和KSC数据集下本文方法和对比实验方法的分类效果。

图3 PU数据集

从图3 ~图5中可以看出,本文提出的方法明显错分点更少。基于2D-CNN 和3D-CNN 的分类方法的分类效果与参考样本相差较大。当图像中的地物特征比较容易区分时,本文方法的分类结果与其他深度学习方法相差不大。例如,KSC 数据集的Water、Scrub、Salt marsh、Spartina marsh类,IP数据集的Woods、Wheat、Hay-windrowed 类和PU 数据集的Shadow、Metal sheets、Trees类,这些特征都是比较容易区分的,都可以取得较好的分类结果。而对于特征类似、分类时易产生误差的地物种类,本文方法的分类精度也有提高。比如,图3 PU数据集中的Gravel、Bitumen类;图4 IP数据集的Buildings-Grass-Trees、Com 类;图5 KSC 数据集中的Slash pine、CP hammock 类。可以明显地看出,SST_Like 和SST_3D 比2D-CNN 和3D-CNN 错分点更少,说明改进的VGG_Like和Transformer网络在提取深层特征上的优势,并且加入稀疏约束可以有效减小噪声对分类性能的影响。由图3 的Bare soil 和Meadows 类、图4 的Com-min 和Oats 可以看出,SST_3D方法比SST方法分类效果更好,证明VGG_Like保留的光谱信息能够有效提高分类精度。由图4 的Com-min和图5的Slash pine 类可以明显看出,SST_Like 比SST_3D错分点更少,说明稀疏约束有助于去除有噪声或冗余的波段信息,从而提高分类精度。

图4 IP数据集

图5 KSC数据集

3 结 论

本文针对目前基于DCNN 的方法难以处理HSI 的光谱序列数据,且不善于建立长程依赖性的问题,提出一种融合Transformer和VGG网络的HSI分类方法。实验结果表明,本文提出的方法SST_Like在PU,IP,KSC 3个数据集上分别取得了98.86%,98.32%,98.47%的总体分类精度,模型性能明显优于SST、2D-CNN、3D-CNN。在之后的研究工作中,准备在保证分类精度的同时,进一步提高算法的运行效率。

猜你喜欢
波段光谱像素
赵运哲作品
基于三维Saab变换的高光谱图像压缩方法
像素前线之“幻影”2000
“像素”仙人掌
M87的多波段辐射过程及其能谱拟合
高像素不是全部
星载近红外高光谱CO2遥感进展
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究
苦味酸与牛血清蛋白相互作用的光谱研究