刘雪峰 孟月 王浩 付民
摘 要: 利用高光谱数据所包含的丰富信息,可以实现对地物的精细准确分类和目标检测。目前,深度学习方法已应用于高光谱图像的分类,但是高光谱图像的维度高和样本少,仍然是对目标精确分类的瓶颈。残差网络通过从输入到输出添加跳跃连接,可以更方便地优化参数并提取更多功能信息。文中提出一种基于三維残差网络的分类方法,利用三维卷积核同时获取高光谱图像的空间和光谱信息。为了减少网络对参数初始化的依赖并在一定程度上提高模型的泛化能力,文中使用批量归一化方法来优化网络。同时,为了解决训练样本不足的问题,还提出引入虚拟样本以增加样本数量。通过在真实的高光谱图像上进行实验验证,证明所提方法在高光谱图像分类方面具有一定的应用前景。
关键词: 高光谱图像; 图像分类; 深度学习; 参数优化; 三维残差网络; 实验验证
中图分类号: TN911.73?34 文献标识码: A 文章编号: 1004?373X(2020)12?0145?06
Abstract: The accurate classification of ground objects and target detection can be realized by means of the rich information contained in the hyper?spectral data. The deep learning method has been applied to the classification of hyper?spectral images, but the high dimension and few samples of hyper?spectral images are still the bottleneck of accurate classification of objects. The residual networks can more easily optimize parameters and extract more functional information by adding the jump connections from input to output. A classification method based on 3D residual network is proposed to obtain spatial and spectral information of hyper?spectral images simultaneously by using 3D convolution kernel. The batch normalization method is used to optimize the network o reduce the dependence of the network on parameter initialization and improve the generalization ability of the model to some extent. The virtual samples are introduced to increase the number of samples, so as to improve the insufficient training samples. The experimental verification performed on the real hyper?spectral images show that the proposed method has a certain application prospect in the hyper?spectral image classification.
Keywords: hyper?spectral image; image classification; deep learning; parameter optimization; 3D residual network; experimental verification
0 引 言
20世纪80年代以来,随着多光谱遥感技术的不断发展进步,进一步带动了高光谱遥感技术的不断发展[1]。随着传感器技术的不断提高,能够获取到更高质量的遥感图像,对图像的研究带来了极大的帮助。高光谱图像因其高维特性,以及特有的光谱特征,再结合具有的空间特征,能够对各种不同地理类别进行精确的分析、定位,以及对精细特征提取进行分类[2?3]。利用高光谱图像(Hyperspectral Image,HSI)独特的优势,能够提高对于地物的精细分类能力。高光谱遥感已广泛应用于当前许多遥感图像处理的研究领域中[3]。目前对HSI的分类研究已成为遥感图像领域的热点问题。
高光谱图像是一个具有高维度的图像,含有丰富的光谱特征信息和空间特征信息,因此与普通图像有很大不同[3]。通过将反射目标辐射的光谱波段信息与反映目标二维空间的图像信息整合在一起,能够获得统一的地物信息[4]。HSI数据空间中的每个波段都可以作为一个二维空间图像,光谱空间中的每个像素都可以反射为连续的光谱响应曲线[5]。目前,对HSI分类的常用方法主要有支持向量机(Support Vector Machine,SVM)[6]、深度信念网络(Deep Belief Network,DBN)、卷积神经网络(Convolutional Neural Network,CNN)[5]。
高光谱图像输入数据采用三维立体的形式,具有空间维度和光谱维度[7?8]。现有的基于光谱和空间融合的方法用于对HSI分类还较少,多数采用独立的处理空间特征或者光谱特征,或者对图像进行降维后采用融合的光谱和空间特征[9]。因此,它们无法利用联合的空间光谱信息[9]。目前,二维和三维CNN在许多问题上都表现出了良好的性能。一些深度学习的2D模型能够根据图像的空间特征信息或者光谱波段特征单独进行分类,会破坏图像不同像素点之间具有的相关性,进而破坏了光谱特征信息。但是,对HSI中光谱特征信息的获取是很重要的[10]。
基于残差网络(Residual Network,ResNet)在图像处理方面展示出的优势以及HSI分类当前存在的一些问题,提出3D?ResNet用于HSI分类。三维卷积层作为网络的基本单元,批量归一化在每一个卷积层的后面,归一化加快网络的训练速度,采用批量归一化对网络进行数据处理,从而也增加了网络的泛化能力,使模型更加稳定[11]。图像样本大小及其不平衡的HSI中,通过向具有少量目标的训练样本添加虚拟样本,增加样本总数。通过所提出的改进方法,减小了样本数目不足对网络分类结果带来的影响,从而保证了网络的分类效果。
1 残差网络
1.1 深度学习
对遥感图像的分类研究是当前图像处理方面的热门探讨问题[12],由于深度学习方法的不断发展变化,基于深度学习的HSI分类方法得到快速发展,已经有许多学者将深度学习的方法应用到HSI的分类研究中,而且已经证实其具有准确的特征提取能力和高效的处理性能[10]。深度学习的优势在图像处理的过程中,减少了手工提取特征的过程,能够自动地从原始数据中学习、提取特征。它只关注输入和输出的内容,不考虑中间步骤。在图1中将传统方法与深度学习方法进行简明的比较。
CNN是目前最受欢迎的监督深度学习方法[13?14],它在各类图像分类、检测中表现出了极强的特征提取能力[15]。然而在深度学习领域,为了实现更好的网络效果,网络层数的不断加深,会导致网络运算的错误率不断上升,这种现象称为过拟合现象[8]。为了解决由于网络深化所导致的性能下降的问题,提出了残差网络,通过添加一个捷径或者跳跃连接,构成残差块,在训练更深网络的同时,保证良好的性能[15?16]。
1.2 残差网络
ResNet由何凯明等人提出,它的提出在ImageNet竞赛中获得了巨大成功,对图像分类、检测、定位等方面都有突出表現[16]。ResNet相对于目前用于图像分类方面的网络来说具有更容易优化的特点,而且将网络增加到相当程度的深度时,还能够继续提高准确率。它通过连接每个卷积层进行身份映射,在多个计算机视觉任务中展现出良好的结果[16?17]。
普通的卷积神经网络,由于网络层数的不断加深,在误差反向传播的过程中梯度会不断的衰减,导致信息的丢失,造成误差不断增大。然而ResNet通过增加的跳跃连接可以减少反向传播过程中的衰减,便于梯度传播,具有较强的鲁棒性和较深的体系结构[15]。ResNet的特殊之处在于它比普通网络在结构上多了一个跳跃连接,构成残差块单元,在图2中展示了残差块的基本结构单元,输入值为x,经过第一层线性化并激活后的输出为F(x),在经过第二层线性变化之后,在激活函数ReLu之前,添加了短连接Identity,此时获得输出为F(x)+x,再利用激活函数ReLu激活,最后得到此残差块的输出值。
2 基于三维残差网络的高光谱图像分类
本文提出的基于三维残差网络的分类方法能够提取HSI的光谱特征和空间特征联合信息,因为HSI在空间上和光谱波段上都具有一定的相关性和联合性,对于地物的分类识别有一定的作用。所提方法对于HSI的分类有明显的优势,对其分类研究带来一定影响。为了加快网络的训练速度,减少网络参数变化对分类结果的影响,在网络中采用了批量归一化的方法,进而也增加了网络的稳定性。为了能够获得更好的图像分类结果,分析图像中每一个类别的样本数目,根据不同样本数目依次对应加入虚拟样本进行实验。
2.1 三维卷积核
三维卷积是通过将一个三维核与多个相邻帧叠加而成的立方体进行卷积来实现的[18]。由于独特的构造特点,卷积核对每一个波段的图像分别进行卷积,提取各自的信息[19]。将图像输入到网络中,三维卷积核的运算公式如下: [vxyzij=Gnh=0Hi-1l=0Li-1d=0Di-1whldijnv(x+h)(y+l)(z+d)(i-1)n+bij] (1)
式中:i为当前操作所在的层;j表示特征图的数量;[vxyzij]表示在第i层第j个特征图(x,y,z)处的输出;b是偏差;G代表激活函数;n表示在i-1层上与当前特征图相连的特征图集;[whldijn]表示在位置(h,l,d)处连接到第n个特征图的权值;Hi,Li,Di是卷积核的高度、宽度和深度。
2.2 批量归一化
批量归一化(Batch Normalization,BN)是神经网络的标准化方法,它具有非常强大的作用和效果,可以加快训练过程并提高性能、解决梯度消失的问题等等[11,15]。在网络训练过程中,各层输入的数据分布随前一层的变化而变化,而BN的作用就是为了解决在网络训练过程中,中间层数据分布发生改变的情况[20]。归一化的公式为:
2.3 虚拟样本
在HSI图像中,不同种类的样本像素个数一般是不同数目的,这在分类中往往会造成误差,为了减小误差的影响,通过引入虚拟样本来平衡此问题。通过对成像过程的仿真,得到了虚拟样本。在训练像素数据[mi]中加入随机噪声n,乘以随机因子β,得到虚拟样本[sn],公式为: