特征重校准融合密集神经网络的遥感场景分类

2020-06-12 11:42:42陈德海潘韦驰黄艳国

计算机工程与设计 2020年6期

陈德海，潘韦驰，马原，黄艳国

(江西理工大学电气工程及自动化学院，江西赣州 341000)

0 引言

遥感影像技术在现代得到快速发展，其所包含的空间信息越来越丰富，从而使得影像中复杂的语义信息难以提取。目前有许多学者研究针对遥感影像分类提出许多方法[1-4]，如何有效提取遥感影像场景的高层语义特征是当前极具挑战的研究内容。

近几年，深度学习因其强大的学习能力被应用到诸多领域[5-7]，同时也被不少研究者应用于遥感影像场景分类[8-13]中，取得了不错的效果。文献[14]利用卷积神经网络进行场景分类，训练出的特征可以进行遥感图像中建筑物的二分类。文献[15]针对遥感场景分类，分析了3种卷积神经网络策略用以提高分类精度，降低训练参数。文献[16]通过联合显著性采样和卷积神经网络进行遥感场景分类，但对于类内差异性和类间相似性等问题，显著性算法无法识别。

为解决遥感场景影像中空间信息复杂，遥感场景影像样本不足导致分类精度无法提高等问题。本文通过构建SE block提高通道之间的依赖性，进而提高遥感场景特征响应能力；然后利用密集神经网络的特征重用以及高效的信息流传递特点，将SE block嵌入DenseNet-121中并引入多尺度SE block，学习不同尺度下的遥感场景影像特征并校准特征通道权重，提高遥感场景影像特征的稳健表示；最后，利用缩聚-激发机制获取遥感场景影像有效特征并抑制干扰特征，通过数据增强扩充数据集提高模型泛化能力以及鲁棒性。实验结果表明，该方法能有效提升网络针对遥感影像的分类精度以及泛化能力。

1 相关理论

1.1 squeeze and excitation block

文献[17]通过研究网络结构中通道之间的关系，提出一种新的结构单元，缩聚与激发模块(squeeze and excitation block)。其目标是通过卷积特征的通道之间的相互依赖性来提高网络生成的特征图的质量，允许网络执行特征重新校准，通过该机制，它可以学习使用全局信息来选择性地强调有效的信息特征并抑制干扰特征。SE block分为3个步骤，首先通过缩聚操作通过使用全局平均池化(GAP)将输入的特征图进行统计求和，获取全局信息。具体公式如下

(1)

其中，Z∈RC，H、W表示特征图的高度和宽度。Zc表示为经过全局平均池化后特征图的集合。

其次，使用激发操作捕获通道之间的依赖性，对缩聚操作中的特征图进行处理。具体公式如下

s=σ(W2δ(W1z))

(2)

最后，进行对特征的重校准操作，公式如下

yc=Fscale(uc,sc)=sc·uc

(3)

其中，yc表示经过重校准后的二维矩阵，通过将特征图uc与权重sc相乘，得到第c个通道的输出矩阵yc。

1.2 密集神经网络

密集神经网络(DenseNet)[18]由康奈尔大学、清华大学等提出。该网络对残差神经网络[7]进行改进，通过密集连接的方式加强层与层之间的信息流传递，更有效地利用了特征提高网络潜力，降低网络参数，网络结构如图1所示。密集神经网络将之前所有层的特征输出作为当前层的输入，即x0,x1,…,xl-1，通过复合函数Hl得到输出xl，具体公式如下

xl=Hl([x0,x1,···,xl-1])

(4)

其中，Hl为经过批处理化(batch normalization)、ReLU激活函数和3×3卷积计算3种连续操作的复合函数，这种结构被称为Dense block。

图1 密集神经网络

2 网络结构设计

由于遥感场景影像具有地理特征复杂，空间信息丰富特点，增加了场景分类的难度，而仅通过单一的堆叠卷积层，无法有效提取遥感影像的特征，从而导致分类不精确。受到SE block与DenseNet启发，通过将多尺度SE block嵌入到DenseNet中，利用DenseNet特征重用和高效信息流的特点，提高SE block提取有效遥感场景影像特征抑制场景中干扰特征的效果，提高分类的准确度。网络结构设计如图2所示。

图2 本文网络结构

如图2所示，网络结构设计步骤为：①在每个Dense block的卷积变换之后嵌入SE block，对每个遥感场景特征通道的信息进行权重自动分配；②在嵌入SE block旁引入多尺度SE block分支，即在全局池化层前加入1×1与3×3的卷积层，用以解决不同尺度下遥感影像场景特征图之间的空间联系；③将两种分支权重通过Scale操作加权到最初的遥感场景特征图中，以增强整个神经网络的泛化能力。该模型通过“特征重校准”策略，高效利用多维特征信息，并且由于多尺度SE block分支的引入，有效的将不同尺度下的遥感场景影像特征进行融合，保证遥感场景影像有效特征稳定保留，增强整体网络的学习和表达能力，进一步提升网络性能与泛化能力。本文的网络模型由4个Dense block构成，每一个Dense block后嵌入SE block并引入多尺度SE block分支。DenseNet的参数配置见表1。

表1 DenseNet参数配置

通过这种融合结构，模型既可以提高遥感场景影像的信息流传递，又可以学习场景影像的全局信息，获得遥感场景特征的健壮性表示并且增强有效特征权重，抑制干扰特征权重，进而起到特征自适应校准的作用，使遥感影像场景的分类精度得到提升。

3 实验结果与分析

3.1 实验数据集

实验数据集1为UCMerced_LandUse，选自美国地质勘探局国家城市地图航空遥感影像,其中包含立交桥、森林等21类遥感场景影像，每类遥感影像的样本数量为100，尺寸均为256×256，空间分辨率为0.3 m，各类遥感影像的部分示例如图3所示。

图3 UCMerced_LandUse数据集部分示例

实验数据集2为SIRI-WHU，选自Google Earth遥感影像数据集，该数据集包含12类遥感影像场景，每类遥感影像的样本数量为200，尺寸均为200×200，空间分辨率为2 m，各类遥感影像的部分示例如图4所示。

图4 SIRI-WHU数据集部分示例

两种数据集均通过数据增强的方式将每张图片进行随机缩放、反转等操作，将每张图片扩充为10张，扩充后数据集1有21 000幅图像，数据集2有24 000幅图像，并将所有图像统一为224×224尺寸。实验中，将每类场景随机选取80%的遥感影像作为训练样本，剩余的遥感影像作为测试样本。

本文的实验环境为：Windows 10操作系统，Tensorflow框架，CPU：intel-7700K、16 G内存和NVDIA图像处理单元GTX 1060。初始学习率为0.01，batch size为64，采用的优化器为Adam算法，训练的次数为50(epoch)。

3.2 实验结果分析

3.2.1 UCM_LandUse数据集结果分析

为了评估本文模型的性能，在相同实验环境下，将本文方法与CaffeNet[19]、ResNet-50、DenseNet-121进行遥感影像场景分类实验，实验结果如图5所示。

图5 本文方法与其它模型准确率对比

由图5可以看出，在EPOCH10之前，DenseNet-121的准确率增长速度要快于其它模型，由于本文模型嵌入了SE block使得在一定程度上，增加了基准模型的复杂度。而随着迭代次数的增加，分类的准确率逐渐处于稳定的状态，最后本文方法的准确率要高于另外3种模型，准确率为97.7%，高于DenseNet-121的准确率2%，高于CaffeNet的准确率4.28%，高于ResNet-50的准确率11.99%。实验结果表明，通过嵌入SE block和引入多尺度SE block，可以有效提高模型的性能。21类分类结果如图6所示。

图6 UCM_LandUse数据集的分类混淆矩阵

由图6可以看出，21类的分类准确率均保持在90%以上，其中纹理差异性较小的遥感影像场景分类准确率较高，如农田、沙滩等5种类型的场景准确率为100%。为进一步评估本文方法的有效性，结合目前针对UCMerced_LandUse数据集的现有方法进行对比，各方法分类精度见表2。

由表2可知，相比于传统的低中层提取特征方法(SVM-LDA等)，基于卷积神经网络的方法分类精度更高(CaffeNet等)。其原因在于卷积神经网络可以通过训练学习到遥感影像场景高层次特征，对于场景影像中的细微特征具有更高的区分性。而本文提出的结合SE block和DenseNet的模型能有效提升卷积神经网络对于遥感影像场景的识别能力，分类效果要优于其它方法。

3.2.2 SIRI-WHU数据集结果分析

为了验证本文模型的泛化能力，在SIRI-WHU数据集进行实验，12类分类结果如图7所示。

图7 SIRI-WHU数据集的分类混淆矩阵

有图7可以看出，本文方法对SIRI-WHU数据集的12个分类精度均高于95%。其中农田、商业区等分类精度能达到100%，表明本文方法对于特征复杂度小的场景具有较好的分类性能。同时，实验结果表明，池塘以及河流场景中分类精度下降为95%，其中池塘的部分场景被分为海港和河流，河流的部分场景被分为海港和水，说明本文方法对于极易相似的场景分类能力仍需要进一步提升，但总体上能进行空间信息丰富的不同场景区分。将本文方法与现有方法进行对比，对比结果见表3。

表3 SIRI-WHU数据集分类结果对比

表3对比了在SIRI-WHU数据集中，本文方法与其它几种方法的分类准确率。通过Bag of SIFT仅可获得85.52%的准确率，本文将分类SIRI-WHU数据集的准确率提升至98.9%，相比于采用VGG模型的卷积神经网络方法，高于其准确率2.85%和0.26%。进一步验证了本文方法可以有效提取出遥感场景影像特征并抑制干扰特征，得到表达能力更强的深度影像场景特征。

4 结束语

针对遥感影像场景包含空间信息复杂等问题，提出一种特征重校准融合DenseNet-121的场景影像分类方法。该方法通过将SE block嵌入DenseNet-121中，并引入多尺度SE block分支来获取并提高特征重校准能力，用以学习场景影像特征通道之间的相关性，能够充分提取出遥感场景影像特征并抑制干扰特征。在两个公开数据集UCMerced_LandUseSIRI-WHU的实验结果表明，本文方法可以有效提高遥感影像场景的分类精度并具有较好的泛化能力。在未来的工作中，将研究多种模型结构的融合，用以获取影像场景中区分度更高以及表达能力更强的深层特征。