3D密集全卷积的高光谱地物分类算法研究

2023-02-14 10:31厍向阳景任杰董立红
计算机工程与应用 2023年3期
关键词:密集残差光谱

厍向阳,景任杰,董立红

西安科技大学 计算机科学与技术学院,西安 710054

随着空间分辨率、光谱分辨率的提高,遥感图像从可见光波段延伸到了近红外和短波红外波段[1]。当谱段被划分更加细致,从离散谱段变为连续谱段时,得到的即为高光谱图像(hyperspectral image,HSI)[2]。高光谱图像具有丰富的空间信息和光谱信息,被广泛应用在资源勘探[3]、精准农林[4]、城市规划[5]、灾害评估[6]等领域,但光谱维度较高、光谱空间特征与频谱特征存在差异性会导致高光谱地物分类的特征提取不合理、分类精度不稳定和训练时间较长的问题。因此研究更准确、高效的高光谱图像地物分类算法具有重要的理论和实际应用价值[7]。2004年Melgani等[8]在高光谱图像分类中使用模式识别中的特征选择方法,并第一次引入支持向量机(SVM),取得了较好的分类结果。2007年Demir等[9]进一步改进SVM,减小相关向量的变化率,使分类精度达到84%。但Melgani和Demir所提出的算法都无法克服SVM学习速率慢、分类精度依赖人工所提取特征质量的问题。2014年Chen等[10]首次将深度学习方法引入高光谱地物分类中,通过主成分分析降低高光谱维度,利用堆叠式自动编码机进行特征提取,分类精度提高到96%。2016年Yang等[11]在通道数目上做了新的尝试,提出2D-CNN的网络模型,但分类精度仅为92%。2017年Li等[12]再次增加通道数,提出不进行降维处理的3D-CNN空-谱联合分类,该方法在一定领域内可以直接提取光谱、空间特征,分类精度达到98%,但网络参数过多,增加了许多计算成本。2018年Zhong等[13]提出了端到端光谱残差网络(SSRN),以原始的三维立方体结构作为输入数据,分类精度达到99%,但训练时间过长,在小样本的数据中分类稳定性也无法保证。同年,Wang等[14]提出端到端快速密集谱空间卷积网络(FDSSC),该网络采用不同大小的卷积核提取光谱、空间特征,缓解了训练时间过长的问题,分类精度也达到了98%,但降维过程中容易损失有用的特征信息,分类稳定性也有不足。目前深度学习在高光谱图像地物分类的改进思路:(1)加深网络层次[15]。(2)改变通道个数[16]。但存在以下问题:(1)高光谱数据的训练样本有限,深层网络在分类中会产生梯度消失和过拟合现象。(2)高光谱包含空间特征和光谱特征,通道数目的改变没有考虑到高光谱的空间特征和光谱特征的差异性,导致信息的提取和分析不合理,从而影响分类的精度。为解决以上的问题,本文借鉴端到端快速密集谱空间卷积网络的思想,提出了基于3D快速密集全卷积的HSI分类方法,该方法主要由密集模块和特征映射模块组成。在密集模块内部使用3D卷积核提取光谱特征、空间特征。在特征映射模块内部使用卷积层替换传统网络中的池化层,通过网络自动筛选有效信息。在特征映射模块使用卷积层替换传统网络中的全连接层。密集模块间通过特征映射模块连接起来,最终通过Softmax分类器完成分类。

1 相关理论与技术

1.1 卷积神经网络

卷积神经网络结构如图1所示。

图1 卷积神经网络结构图Fig.1 Structure diagram of convolutional neural network

(1)输入层:通常为预处理后的图像数据。

(2)卷积层:提取输入数据的不同特征。

(3)池化层:对卷积层的特征映射进行特征选择,池化操作一般可分为平均值池化操作、最大值池化操作、最小值池化操作等。

卷积层和池化层实现传统机器学习中的特征提取功能。

(4)全连接层:层间所有神经元相连接,通常放在卷积神经网络尾部。

(5)输出层:用于输出最终的分类结果。

1.2 残差网络

为了获取更好的分类效果,人们在实践中应用更深层的卷积神经网络,梯度消失问题也随之而来。残差网络[17]的输入信号可以从任意低层直接传播到高层,能有效地解决或缓解这个问题。残差块如图2所示。

图2 残差块Fig.2 Residual block

设xi+1表示残差网络的输出,则其数学表达式如下式:

其中,xi表示残差单元的输入;H(xi)表示目标映射。残差网络是通过叠加来实现的连接方式。

1.3 密集网络

密集网络[18]在残差网络的基础上对连接机制做出修改,即在保证信息传输的前提下,让每层网络与其他层紧密关联,实现信息复用,在解决梯度消失问题上效果更好,密集模块如图3所示。

图3 密集模块Fig.3 Dense block

数学表达式如下:

其中,xi表示第i层的输出结果;[x0,x1,…,xi-1]表示将前i-1层的特征映射做串联,本质是通道合并;Hi表示组合操作,一般包含卷积操作、激活函数ReLU[19]和BN批量归一化等。

1.4 3D卷积运算

3D卷积神经网络[20]拥有更高的维度,在处理立方体结构的数据上效果更好,卷积核在输入3D图像的三个维度均需进行滑窗操作,得到输出结果。图4描述一个2×2×2卷积核的3D卷积运算过程,图中:⊗表示卷积核参数与图像对应的像素值进行点乘;⊕表示计算结果相加。卷积操作后得到的新图层,常称作特征映射。

图4 3D卷积计算过程Fig.4 Convolutional calculation process

2 基于3D快速密集全卷积的高光谱地物分类算法

2.1 基本思想

首先,将训练数据集作为网络的输入,经过一个3×3的卷积操作H0,在密集模块内部利用3D卷积核进行特征提取。然后将得到的特征立方体输入到特征映射模块。再次经过第二层密集模块、第二层特征映射模块。最后通过Softmax分类器得到分类结果。3D-DSFCN网络模型基本结构如图5所示。

图5 3D-DSFCN网络结构Fig.5 3D-DSFCN network structure

2.2 密集模块

密集模块主要功能是对光谱、空间特征进行特征提取。针对梯度消失和过拟合现象:通过密集网络实现不相邻网络层之间的特征复用,缓解梯度消失,通过增加网络深度改善过拟合现象。针对通道数目改变带来的差异:通过全3D卷积核维持通道数目不变,减少在升、降维度过程中,空间特征和光谱特征带来的差异。密集模块由直接连接、非线性变换两部分组成。

(1)直接连接部分使x0通过直接连接通道与x2、x3、x4连接,x1通过直接连接通道与x3、x4连接,x2通过直接连接通道与x4连接,完成输入信息和梯度信息的相互连接。

(2)非线性变换采取BN+ReLU+卷积的结构。在卷积操作后衔接BN批量归一化和ReLU激活函数,得到的特征映射作为下一层的输入。

设Ml为第l层输入的通道数,则:

其中,M0表示输出层开始的通道数;M表示卷积核数量,即通道数,通常选取4;l表示网络层数。

设为第l层卷积层输出的第j个通道3D数据在(x,y,z)坐标上的特征值,则:

其中,f表示激活函数,一般为ReLU激活函数;Hl、Wl、Rl分别表示3D数据的长、宽和光谱维度;klhjmwr表示连接第l层和第j层的第m个通道3D卷积核在坐标(h,w,r)的值;blj表示连接两层3D特征的偏置。卷积操作通过四层卷积层构建密集网络,采用3D卷积核进行计算,每个卷积核尺寸选择为3×3×5,其中空间尺寸是3×3,光谱尺寸是5。

2.3 特征映射模块

通过特征映射模块对模型做进一步优化。第一个特征映射模块采用BN+ReLU+卷积层+卷积层的结构。第一层卷积核尺寸选择为1×1×p,p表示通道数。第二层卷积核尺寸选择2×2×p,在卷积层做步长为2的卷积运算,替换传统网络中的池化层。设特征映射模块的输入为x4,做两层卷积运算,得到下一层的输出x0,具体过程如图6所示。

图6 特征映射模块Fig.6 Feature mapping module

特征映射数学表达式如下:

其中,Conv2表示卷积核为2×2×p的卷积运算;Conv1表示卷积核为1×1×p的卷积运算,p表示通道数;f(x4)表示组合操作,包括BN批量归一化和ReLU激活函数,数学表达式如下:

其中,f表示激活函数,选ReLU激活函数;μΒ表示样本数据的平均值;表示样本数据的方差;ε是防止分母为0的常数,常选1。设进入特征映射模块前的特征数为n0,经过特征映射模块后特征数为n1,则:

其中,θ∈(0,1]表示压缩系数;表示向下取整。当θ=1时,表示特征数没有压缩。设置第一个特征映射模块参数θ为0.5,经过特征映射模块后,特征数量减少为原来的1/2。

第二个特征映射模块与第一个基本相同,采用BN+ReLU+卷积层+卷积层的结构,使用卷积层替换传统网络中的Dropout层和全连接层,卷积核尺寸分别选择1×1×p、2×2×p。设置第二个特征映射模块参数θ为0.25,经过特征映射模块后,特征数量减少为原来的1/4。在第二个特征映射模块后,经过BN批量归一化操作,再输入到Softmax分类器,完成分类。

3 实验测试与分析

3.1 数据集与测试环境

Indian Pines数据集是1992年6月获得,它来源于美国印第安纳西北部的一块农场测试地,由大量植被覆盖,通过机载传感器AVIRIS采集。数据集的波段是400~2 500 nm范围,空间分辨率大约20 m,原始波段220个,图像原始大小145×145,光谱波长的变化范围是0.4~2.5 μm。该数据集总体样本数量少,部分样本标签量极少。

Pavia University scene数据集是2001年获得,它来源于意大利北部帕维亚大学区域,通过机载传感器ROSIS采集。其空间分辨率约1.3 m,图像原始大小610×340,光谱波长的变化范围是0.43~0.86 m,原始光谱波段有115个,受到噪声和水吸收干扰,只有103个波段可用。与Indian Pines数据集对比,样本数量较多,应用场景和各类标签不同。

基于Python的深度学习库Keras和GPU加速环境下进行实验,具体实验环境如表1所示。

表1 实验环境配置Table 1 Experimental environment configuration

3.2 实验方案与参数设置

将高光谱数据集原始数据按2∶8的比例分为训练集和测试集。通过训练集进行3D-DSFCN模型训练,通过测试集进行模型验证。

为了验证实验的有效性,3D-DSFCN与支持向量机(SVM)、卷积神经网络(CNN)、端到端光谱残差网络(SSRN)、端到端快速密集谱空间卷积网络(FDSSC)的分类效果进行对比。模型中参数设置如表2所示。

表2 实验参数配置Table 2 Experimental parameter configuration

3.3 实验评估指标

(1)平均精度

每个类别分类精度的平均值。若用AA(average accuracy)表示平均精度,则:

其中,recalli表示第i类分类精度;n表示类别数。

(2)总体精度

每一个预测正确的样本与样本总数之间的比值。若用OA(overall accuracy)表示总体精度,则:

其中,TP表示预测与实际都为真的样本数;TN表示预测与实际都为假的样本数;FN表示预测为假、实际为真的样本数;FP表示预测为真、实际为假的样本数。

(3)Kappa系数

一种基于混淆矩阵的综合性衡量指标。若用K表示Kappa系数,则

其中,r表示总的类别数;xii表示正确分类的数目;xi+和x+i分别表示第i行和第i列的总像元数量;N是总的用于精度评估的像元数量。

3.4 实验结果分析

3D-DSFCN与支持向量机(SVM)、卷积神经网络(CNN)、端到端光谱残差网络(SSRN)、端到端快速密集谱空间卷积网络(FDSSC)在Indian Pines和Pavia University scene数据集的实验分类结果如表3、表4所示,分类效果图如图7、图8所示。

表3 Indian Pines数据集分类精度Table 3 Classification accuracy of Indian Pines data set

表4 Pavia University scene数据集分类精度Table 4 Classification accuracy of Pavia University scene dataset

通过在Indian Pines和Pavia University scene数据集的实验得出:本文方法提取到的特征和分类效果比CNN好很多,这是因为相比CNN具有更复杂的网络结构、更深的网络层数。从表3展示结果可以看出,本文方法在平均分类精度上表现更好,尤其是序号为1、7、9,数量分别为46、28、20的样本,占总样本数的比重极小,属于小样本标签。由此可以看出密集网络对比残差网络,在特征提取的过程中对不相邻网络层之间的利用更加充分,可以大大提升小样本标签的分类精度和稳定性。本文方法对比SVM、CNN、SSRN、FDSSC总体分类精度分别提高了29.3%、12.6%、0.2%、1.1%,平均分类精度分别提高了47.3%、11.3%、12.2%、0.3%,Kappa系数分别提高了34.6%、14.4%、3.3%、0.8%。

由于Pavia University scene数据集各类样本的数据量充足,没有明显的小样本标签,误差较小,因此3DDSFCN对比SSRN和FDSSC的分类精度提升不大。由表4可以看出,3D-DSFCN整体的分类精度更好,对SVM、CNN、SSRN、FDSSC总体分类精度分别提高了8.0%、3.6%、0.1%、0.3%,平均分类精度分别提高了7.2%、3.5%、0.3%、0.3%,Kappa系数分别提高了10.1%、4.8%、0.3%、0.3%。

图7中,相对于地面真实标签,大部分都展现出了很好的分类效果,尤其是在小样本标签的苜蓿草、修剪过的草地、燕麦等部分。图8中,相对于地面真实标签,草地、金属板、柏油房顶的分类效果也比较突出。

图7 Indian Pines数据集分类效果对比Fig.7 Comparison of classification effects of Indian Pines data sets

图8 Pavia University scene数据集分类效果对比Fig.8 Comparison of classification effects of Pavia University scene dataset

为了更好地分析算法的分类性能,实验分析了各个数据集的训练时间和测试时间,如表5所示。

表5 Indian Pines、Pavia University scene数据集的训练时间和测试时间Table 5 Training time and testing time of Indian Pines and Pavia University scene data sets 单位:s

由表5的实验结果不难看出,在Indian Pines和Pavia University scene数据集上,本文提出的方法3D-DSFCN在运行效率、分类速度上都是五种方法中最优的,它通过减少运算参数优化模型的计算,提高算法的效率。深度学习与SVM这样的传统方法相比更消耗资源;CNN的训练时间已经远远大于SVM,所需要的计算资源也更多;本文方法与SSRN相比训练时间大幅减少,算法效率更高,因为模型结构更简洁,不需要两种残差块的连接并减少了全连接层无效的计算量;本文方法与FDSSC相比算法效率提升不大,因为仅减少了维度升降、交叉验证的过程,但本质还是密集网络。

4 结语

针对高光谱遥感图像训练样本较少、光谱维度较高、空间特征与频谱特征存在差异性而导致高光谱地物分类的特征提取困难的问题,本文提出一种3D-DSFCN网络结构并构建分类模型。通过在Indian Pines和Pavia University scene数据集进行实验,结果表明:相比较FDSSC,该模型有效减少信息损失;相比较SSRN,该模型有效减少了小样本标签的分类误差,但小样本标签分类精度的提高对于整体影响有限,因此相对于FDSSC、SSRN整体分类效果提升不显著;相比较FDSSC、SSRN、SVM、CNN,该模型在OA、AA和Kappa系数三项评价指标上都有不错的表现,在算法的运行效率上也是最优的。高光谱图像不仅仅是像元的无序集合,还有空间特征的有序排列,下一步的研究将着重于如何通过模型更好地提取、利用空间特征。

猜你喜欢
密集残差光谱
基于三维Saab变换的高光谱图像压缩方法
基于双向GRU与残差拟合的车辆跟驰建模
耕地保护政策密集出台
密集恐惧症
高光谱遥感成像技术的发展与展望
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
综合电离层残差和超宽巷探测和修复北斗周跳
星载近红外高光谱CO2遥感进展
全球导航四大系统密集发射卫星