张明华,牛玉莹,杜艳玲,黄冬梅,2,刘刻福
基于残差3DCNN和三维Gabor滤波器的高光谱图像分类
张明华1,牛玉莹1,杜艳玲1,黄冬梅1,2,刘刻福3
(1. 上海海洋大学信息学院,上海 201306;2. 上海电力大学,上海 200090;3. 自然资源部东海局,上海 200137)
高光谱图像含有数百个波段,包含丰富的光谱信息,因此被广泛应用于地物分类中,但仍存在着维数灾难的问题。高光谱图像中同时也含有丰富的纹理信息,有效利用纹理信息能够显著提高分类精度。三维Gabor滤波器不仅能够保留图像丰富的光谱信息,还能提取到图像的纹理特征。为了充分利用高光谱图像的特征,提出一种基于三维Gabor和残差三维卷积神经网络(Res-3DCNN)的分类方法。三维卷积神经网络(3DCNN)能够直接对三维立方体数据进行处理,提取到深层纹理-光谱信息,然而随着网络层的加深会产生网络退化问题,因此利用残差思想对3DCNN模型进行改进。在PaviaU,Indian Pines和Salinas 3个公共高光谱图像数据集上进行实验,分别取得99.17%,97.40%,98.56%的平均分类精度,结果表明该方法能有效提高高光谱图像的地物分类精度。
高光谱图像分类;卷积神经网络;三维Gabor滤波器;三维卷积;残差学习
卫星传感器捕获的高光谱图像(hyperspectral images,HSI)[1]每个像素都含有大量光谱带,能够同时获取地物的空间信息和光谱信息。与RGB图像相比,HSI能够更精细、更准确地识别地物信息。因此HSI在遥感应用中发挥了重要作用,如目标检测、地物分类等。然而,HSI分类仍然面临着维数灾难[2]的问题。
随着深度学习的应用愈发广泛,利用深度学习对HSI进行分类逐步成为目前的研究热点。卷积神经网络(convolutional neural networks,CNN)[3]的网络结构简单,不需要人工设计参数,并且能够提取深层特征。CHEN等[4]提出将空间信息加入到基于光谱信息的堆叠自编码器(stacked autoencoder,SAE)中,提出一种新的融合光谱信息和空间信息的深度学习框架。HUANG等[5]提出双向递归神经网络(bidirectional recurrent neural network,Bi-RNN),用于HSI分类,考虑了波段之间的相关性,同时利用前向和后向的信息进行分类。无论是SAE还是RNN在输入时都要将特征拉成一维的向量,以适应网络结构,而HSI是三维结构,无法完整保留空间特征。二维卷积神经网络(two-dimensional convolutional neural network,2DCNN)[6]在三通道图像上表现良好,但是HSI有上百个波段,2DCNN无法很好地利用这些波段信息。3D图像的处理促进了三维卷积神经网络(three-dimensional convolution neural network,3DCNN)[7]的发展,3DCNN可以在空间维度上实施卷积操作,有效利用了图像的空间特征,而相邻像素一般在很小的空间里属于同一类别的可能性很高,而且3DCNN可直接对三维数据进行特征提取,得到深层空间和光谱信息。但随着网络层次的加深,网络难以收敛,尤其是在样本量较少的情况下,网络结构的加深并不能有效提高分类精度,甚至会呈现梯度消失和梯度爆炸的现象。残差学习和普通神经网络区别在于引入捷径连接,构造残差模块,残差模块以跳层连接的形式实现,将单元的输入直接与单元的输出加在一起,再使用激活函数进行组合,有效防止了网络层数加深时产生的梯度消失或梯度爆炸问题。并且残差网络容易优化、不会引入额外的参数。
HSI中的纹理信息,是辨别地物类别的重要因素。Gabor滤波器[8]具有提供区分性和信息性的特性,对图像的边缘变化敏感,有较好的方向性和尺度选择性。与其他滤波方法相比,Gabor滤波器在提取纹理信息方面显示出优越性能,可以同时在方向和尺度2个维度进行滤波,获取纹理特征。付青等[9]提出了Log-Gabor-CNN方法,使用Log-Gabor提取其纹理特征。但Log-Gabor为二维Gabor滤波器,只能获取其纹理特征而未考虑光谱信息。
三维Gabor滤波器[10]能够在提取纹理特征的同时保留光谱信息。冯逍等[11]将三维Gabor滤波器与支持向量机(support vector machines, SVM)[12]结合(Gabor-SVM)用于高光谱影像分类。而SVM分类器虽然可以通过调节输入的信息比如空谱信息来获得分类结果,由于是基于浅层特征的分类,精度不高。魏祥坡等[13]提出了双通道卷积神经网络和三维Gabor结合的地物分类方法(Gabor-dual-channel- CNN,Gabor-DC-CNN),使用2DCNN提取图像的空间信息,利用三维Gabor滤波器,对立方体数据进行滤波,输入到一维卷积神经网络(one-dimensional convolutional neural network,1DCNN)中进行深层光谱-纹理特征提取,最后将2种特征进行融合。1DCNN的感受野较小,只能考虑每个位置单独的信息,而且需要双通道进行特征提取,最后进行融合,需要大量的训练时间,效率不高。
为了充分利用HSI立方体数据的信息,本文提出了一种基于三维Gabor滤波器和残差3DCNN的HSI分类方法。该方法可以通过三维Gabor滤波器得到包含纹理-光谱信息的立方体数据,3DCNN可以直接对处理后的立方体数据进行特征提取,充分利用数据的纹理-光谱信息。在3DCNN中,添加了多个残差模块,用于更有效地提取抽象特征表示。同时,通过残差模块,解决随网络深度增加导致的梯度弥散和梯度爆炸问题,提升网络性能,有效提高了HSI中的地物信息的分类精度。
本文方法针对高光谱三维立方体数据,首先使用三维Gabor滤波器,得到包含纹理-光谱信息的三维立方体数据;然后输入到残差三维卷积神经网络(residual 3DCNN, Res-3DCNN)中进行特征提取,最后进行地物分类。方法总体过程如图1所示。
由于HSI三维数据的特殊性,二维Gabor滤波器只能获取纹理特征未考虑光谱特征。三维Gabor能够在频域和空间域找到最好的组合定位,在提取纹理信息的基础上,考虑了图像的光谱特征。Gabor滤波器的三维频域的方向如图2所示,对于纹理信息和光谱信息拥有较好的识别能力为
图1 方法总体流程图
Fig. 1 Method overall flowchart
图2 三维Gabor滤波器角度
高光谱立方体数据(,,),使用HSI原始立方体数据输入到三维Gabor滤波器中,经过卷积处理后,提取实部部分。构成一个具有纹理和光谱特征的新三维图像三维结构数据,即
对于传统的2DCNN,一般只能提取二维图像的特征信息,而3DCNN可以通过三维卷积,提取3个维度的特征,适用于高维度的图像数据,利用空间相关性,同时提取其空间特征和光谱特征。3D卷积的示意图如图3所示,3DCNN卷积为
其中,i为神经网络序号;j为特征样本序号;Pi和Qi为二维空间上卷积核的长和宽;Ri为第3个维度上的高;m为上一阶段网络的连接特征数;g为神经元的激活函数;为神经元在(x,y,z)处的值;为第m个特征的第(p,q,r)个神经元传递权重;bij为第i层第j个特征偏移量。
为了避免随着网络深度的增加而出现网络退化现象,在3DCNN的基础上,增加了残差学习,使得样本不足时,解决网络退化的情况。残差学习的主要内容是在神经网络的结构上,增加一条路径,从而跳过一些网络模块后,再与主路径结合,是一种短路连接。可以通过该跳跃路径,将训练网络架构时所生成的误差,反向传入。从而解决了网络结构模块过多造成的参数更新慢、梯度弥散问题,驱动整体架构更加高效。残差思想示意图如图4所示,残差映射为
其中,x为神经网络的输入;F(x)为函数映射;H(x)为残差映射。
因此将残差学习和CNN相结合,网络结构如图5所示。Conv表示卷积层,使用5×5×5大小的三维卷积核;Pooling表示池化层,使用2×2×4步长[14],对特征进行压缩同时降低计算量。使用ReLU (rectified linear units)[15]激活函数,相比于Sigmoid、tanh激活函数,ReLU激活函数的收敛速度更快一些。由于HSI数据的结构特殊性,本文为了解决网络架构中主要路径与跳跃路径相结合时所产生的维度不同问题,采用了在残差模块中不进行池化的方法,使得主要路径与跳跃路径得到的特征图结构相统一,从而进行路径结合。
图5 Res-3DCNN网络结构
网络结构中共包含3个残差模块,其中1个虚线范围表示使用一个残差模块,包括2个5×5×5的三维卷积核和一个特征融合模块。本文设计的残差模块,放在卷积层之后,将上一层卷积得到的特征,与残差模块内经过2层卷积得到的特征进行特征融合,经过ReLU激活函数后,继续输入到下一个池化层。这使得该残差模块在输入特征基础上学习到新的特征,从而拥有更好的特征表示。
为了让激活函数更有效地使用输入信息,在每次ReLU之前采用批量归一化(batch normalization, BN),为了防止实验结果过拟合,采用Dropout正则化[16]方式,随机删除部分隐藏层结果。之后,将获得的结果输入全连接层。最后,使用Softmax激活函数,进行分类操作,得到其类别标签。
实验时的硬件运行环境是AMD Ryzen 5 3600X CPU @ 3.80 GHz处理器,Radeon RX 5500 XT @ 8 GB GDDR6显卡,金士顿骇客3200 MHz @ 8g DDR4内存,编译环境Python 3.6+Tensorflow 1.13。
为了证实本文方法的有效性,使用目前公开且具有代表性的PaviaU,Indian Pines和Salinas数据集进行实验。数据集的具体参数见表1,训练集、验证集和测试集数据之比为2∶2∶6。
表1 数据集参数
训练网络时参数设置如下:方差为0.1;均值为0;Dropout为0.5;偏置为0.1的截断正态分布;初始学习率为0.001。图6给出了本文的方法在3个数据集上训练时的验证损失及训练损失函数变化曲线。
从图6可以看出,本文方法在3个数据集上的收敛速度较快,整体迭代周期达到50左右时,验证损失和训练损失达到一个较低的水平,说明网络模型训练良好,能够有效进行特征提取。
本文与Gabor-SVM[11],Log-Gabor-CNN[9],3DCNN,Res-3DCNN和Gabor-DC-CNN[13]几种方法进行了对比实验。其中,Gabor-SVM使用三维Gabor滤波器;Log-Gabor-CNN使用CNN网络;3DCNN采用本文方法中去除残差结构的网络架构;Res-3DCNN采用本文方法中去除3D Gabor滤波器的网络架构。采用总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)以及Kappa系数作为评价指标。在3个数据集上的实验结果分别见表2~4。
从表2~4的结果显示,3DCNN在3个数据集上的平均精度达到95%左右,具有较高的分类精度。3DCNN保留了充分的光谱信息,有助于分类精度的提高。Res-3DCNN无论从整体精度还是平均精度上均比3DCNN的分类精度高,证明了残差学习解决网络退化问题、提高分类精度的有效性。本文提出的3DGabor-Res-3DCNN方法,平均每一类的分类精度比Res-3DCNN高出2%。
图6 3个数据集上的损失精度收敛曲线
表2 PaviaU数据集的分类结果(%)
表3 Indian Pines数据集的分类结果(%)
表4 Salinas数据集的分类结果(%)
由于Gabor-SVM主要基于浅层特征的分类方法,缺乏更深层次的特征表达,导致分类精度不高。Log-Gabor-CNN的平均分类精度在92%左右,比Gabor-SVM高约5%,证明了CNN能够得到更抽象的特征表示。Log-Gabor-CNN在PaviaU数据集上整体分类精度比Gabor-DC-CNN低了6%左右,尤其是第8类,低了13%,在Indian Pines和Salinas数据集上整体分类精度比Gabor-DC-CNN低了5%左右。主要原因是Log-Gabor-CNN是二维Gabor滤波器,Gabor-DC-CNN方法使用的是三维Gabor,二维Gabor只考虑纹理特征,三维Gabor在提取纹理特征的同时考虑光谱信息,所以保留光谱信息可以有效提升分类精度。本文方法与Gabor-DC-CNN相比,在PaviaU数据集中,总体精度提升了1.70%。在Indian Pines数据集中,总体精度提升了1.29%。在Salinas数据集中,总体精度提升了2.44%。
针对样本数量较少的Indian Pines数据集的第1类和第6类,本文方法的分类精度和其他方法相比较,分类精度至少提高了2%~4%,见表3。
当图像中的地物特征比较容易区分时,本文方法的分类结果与其他深度学习方法相差不大。例如Salinas数据集的第2,6,12类;Indian Pines数据集的第5,8,10类;PaviaU数据集的第2,5,9类。其特征比较容易区分,均可取得较好的分类结果。
而对于特征类似、分类时易产生误差的地物种类,本文方法的分类精度也有提高。比如PaviaU的第3类和第6类,分别是砖块、砂砾和裸土,与Gabor-DC-CNN相比精度提高了2%,与Log-Gabor- CNN相比精度提高了7%和10%。说明了只有纹理特征没有光谱特征会对分类精度造成影响,进一步说明了针对特征类似的地物,三维Gabor滤波器保留丰富的光谱特征能够提高其分类精度。
图7~9分别显示了在PaviaU,Indian Pines及Salinas数据集中本文方法和对比实验方法的分类效果图。
从图7~9中可以看出,本文方法明显错分点更少。Gabor-SVM的分类效果与参考样本相差较大。从图7的PaviaU数据集的第6类可以明显地看出,Res-3DCNN比3DCNN错分点更少,说明深度学习方法更能提取深层特征的优势,并且加入残差学习可以有效提高方法的分类精度。图7第8类可以看出,Gabor-DC-CNN方法比Log-Gabor-CNN方法分类效果更好,证明三维Gabor滤波器保留的光谱信息能够有效提高分类精度。从图8的第12类可以明显看出本文方法比其他方法错分点更少,说明三维Gabor滤波器的纹理信息和光谱信息有助于提高分类精度。
表5显示了实验中各方法的训练时间和测试时间。
表5 各方法训练时间和测试时间(s)
从训练时间和测试时间的结果可以看出,本文方法比Gabor-DC-CNN方法消耗的时间少,主要因为Gabor-DC-CNN是双通道卷积神经网络,需要分别进行训练,所需时间稍长。本文和3DCNN方法相比,训练时间多了10 s左右,主要因为使用了Gabor滤波器进行滤波,加入残差会在原来的网络结构上增加一条路径,从而降低了网络运行效率,增加了训练时间。Log-Gabor-CNN是2DCNN,相比三维卷积在时间效率上会快一些,但同时分类精度会略有下降。Gabor-SVM是使用三维Gabor滤波和SVM进行分类,和其他深度学习方法相比优点在于省去了网络训练步骤,因此效率更高,和本文方法相比训练时间快了50 s左右,但分类精度不高。
本文针对HSI维度高,具有丰富的光谱信息和纹理信息的特性,提出了一种基于三维Gabor滤波器和残差3DCNN的HSI分类方法。主要贡献为:
(1) 通过三维Gabor滤波器得到的纹理特征和光谱信息,有助于高光谱遥感图像的地物分类。
(2) 通过Res-3DCNN对处理后的数据进行深层特征提取,得到深层光谱纹理特征,利用残差模块,有效解决了网络训练中梯度消失以及梯度爆炸问题,有效提高地物分类精度。
实验结果表明,本文提出的方法3DGabor-Res- 3DCNN的分类精度能够达到97.86%。与其他HSI分类方法相比,本文方法能够有效提高分类精度。在之后的研究工作中,准备在保证分类精度的同时,进一步提高算法的运行效率。
[1] AHMAD M, SHABBIR S, OLIVA D, et al. Spatial-prior generalized fuzziness extreme learning machine autoencoder-based active learning for hyperspectral image classification[J]. Optik, 2020, 206: 163712.
[2] HSIEH P F. Impact and realization of increased class separability on the small sample size problem in hyperspectral classification[J]. Canadian Journal of Remote Sensing, 2009, 35(3): 248-261.
[3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[4] CHEN Y S, LIN Z H, ZHAO X, et al. Deep learning-based classification of hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094-2107.
[5] HUANG S, WANG X, HE H, et al. Hyperspectral image classification based on bidirectional recurrent neural network[C]//2019 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC). New York: IEEE Press, 2019: 1-4.
[6] LEE H, KWON H. Contextual deep CNN based hyperspectral classification[C]//2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). New York: IEEE Press, 2016: 3322-3325.
[7] LIU X F, SUN Q Q, MENG Y, et al. Feature extraction and classification of hyperspectral image based on 3D- convolution neural network[C]//2018 IEEE 7th Data Driven Control and Learning Systems Conference (DDCLS). New York: IEEE Press, 2018: 918-922.
[8] LIU C J, WECHSLER H. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition[J]. IEEE Transactions on Image Processing, 2002, 11(4): 467-476.
[9] 付青, 郭晨, 罗文浪. 一种利用空谱联合特征的高光谱图像分类方法[J]. 激光与光电子学进展, 2020, 57(20): 380-386.
FU Q, GUO C, LUO W L. A hyperspectral image classification method based on spectral-spatial features[J]. Laser & Optoelectronics Progress, 2020, 57(20): 380-386 (in Chinese).
[10] SHEN L L, ZHENG S H. Hyperspectral face recognition using 3D Gabor wavelets[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). New York: IEEE Press, 2012: 1574-1577.
[11] 冯逍, 肖鹏峰, 李琦, 等. 三维Gabor滤波器与支持向量机的高光谱遥感图像分类[J]. 光谱学与光谱分析, 2014, 34(8): 2218.
FENG X, XIAO P F, LI Q, et al. Hyperspectral image classification based on 3-D Gabor filter and support vector machines[J]. Spectroscopy and Spectral Analysis, 2014, 34(8): 2218 (in Chinese).
[12] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[EB/OL]. [2021-01-07]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=142f0rg03u3e06p0u57s04f08k398057&site=xueshu_se.
[13] 魏祥坡, 余旭初, 谭熊, 等. CNN和三维Gabor滤波器的高光谱图像分类[J]. 计算机辅助设计与图形学学报, 2020, 32(1): 90-98.
WEI X P, YU X C, TAN X, et al. Convolutional neural networks and 3D Gabor filtering for hyperspectral image classification[J]. Journal of Computer-Aided Design & Computer Graphics, 2020, 32(1): 90-98 (in Chinese).
[14] AKHTAR N, BEG M M S. Improving microblog clustering: tweet pooling schemes[EB/OL]. [2021-01-07]. https://xueshu. baidu.com/usercenter/paper/show?paperid=1m020p80er3h0av0w14h08u0ch644942&site=xueshu_se.
[15] CLEVERT D A, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by exponential linear units (ELUs)[EB/OL]. [2021-01-07]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=a51510acdf684bee61be7c85f67f89ff&site=xueshu_se.
[16] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[EB/OL]. [2021-01-07]. https://www.oalib.com/paper/ 4083699#.YOVid8jr4y0.
Hyperspectral image classification based on residual 3DCNN and 3D Gabor filter
ZHANG Ming-hua1, NIU Yu-ying1, DU Yan-ling1, HUANG Dong-mei1,2, LIU Ke-fu3
(1. College of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. Shanghai University of Electric Power, Shanghai 200090, China; 3. East China Sea Bureau, Ministry of Natural Resources, Shanghai 200137, China)
Hyperspectral remote sensing images contains hundreds of spectral bands and rich spectral information, resuling in wideapplications in the classification of ground objects, but there remains the problem of the curse of dimensionality. Hyperspectral images also contain rich texture information which can improve the classification precision significantly. 3D Gabor filter can not only keep rich spectral information of the images, but also extract the image texture features. In order to make full use of the features of hyperspectral images, this paper proposed a hyperspectral image classification model based on 3D Gabor and residual three-dimensional convolution neural network (Res-3DCNN). The 3DCNN can deal with three-dimensional cubic hyperspectral data and extract sufficient texture-spectral information. However, the deepening of convolutional neural network structure will lead to the problem of network degradation. Therefore, the idea of residual learning was applied to the improvement of the performance of 3DCNN. The proposed method was examined with three public hyperspectral data sets of PaviaU, Indian Pines and Salinas, reaching the average classification accuracy of 99.17%, 97.40% and 98.56%, respectively. Experimental results prove that the proposed method can effectively improve the ground targets classification accuracy of hyperspectral images.
hyperspectral images classification; convolutional neural network; three-dimensional Gabor filter; three-dimensional convolution; residual learning
TP 79
10.11996/JG.j.2095-302X.2021050729
A
2095-302X(2021)05-0729-09
2021-01-07;
2021-02-17
7 January,2021;
17 February,2021
国家自然科学基金项目(41906179);上海市自然科学基金项目(18ZR1417300);上海市科委部分地方高校能力建设项目(20050501900)
National Natural Science Foundation of China (41906179); Natural Science Foundation of Shanghai (18ZR1417300); The Capacity Development Project of Local Universities byShanghai Science and Technology Commission (20050501900)
张明华(1977-),女,河南郑州人,副教授,博士。主要研究方向为遥感图像处理、海洋信息处理。E-mail:mhzhang@shou.edu.cn
ZHANG Ming-hua (1977-), female, associate professor, Ph.D. Her main research interests cover remote sensing image processing, ocean information processing. E-mail:mhzhang@shou.edu.cn
黄冬梅(1964-),女,河南郑州人,教授,硕士。主要研究方向为海洋遥感处理与分析、海洋大数据管理、智能辅助决策系统。E-mail:dmhuang@shou.edu.cn
HUANG Dong-mei (1964-), female, professor, master. Her main research interests cover ocean remote sensing processing and analysis, ocean big data management, intelligent DSS. E-mail:dmhuang@shou.edu.cn