结合密集连接和特征重标定的高分影像分类方法

2022-05-23 06:26:06吴列，齐华，郎垚,，南轲

地理信息世界 2022年1期

关键词：密集高分辨率卷积

吴列，齐华，郎垚, ，南轲

1. 四川电力设计咨询有限责任公司，四川成都 610016；

2. 西南交通大学地球科学与环境工程学院，四川成都 611756；

3. 四川省公路规划勘察设计研究院有限公司，四川成都610046

0 引言

随着对地观测技术的发展，高分辨率遥感影像被广泛地应用于土地利用、城市规划、环境监测等领域中[1-3]。遥感影像分类是高分辨率遥感影像信息提取的前提和基础，实现高精度的分类具有重要的作用和意义[4]。但是，高分辨率遥感影像存在同物异谱、异物同谱、波段较少、高度细节化等特点，这些都给高分辨率遥感影像的高精度分类带来了困难[5-6]。传统的面向对象分类方法以对象作为分析基元，充分利用影像中丰富的形状、纹理、拓扑等信息，是一种更适合高分辨率遥感影像的分类方法[7]。然而，该方法需要人工设计特征，耗时烦琐、特征鲁棒性不强[8]。深度学习的出现为面向对象分类带来了新的发展，其核心优势在于能自动从影像对象中提取复杂的深层次特征[9]。现在已经有诸多学者将深度学习技术应用于遥感影像面向对象分类研究中，主要从分割算法优化和用于特征提取的模型选择上开展研究[10-15]。ZHAO等[10]利用5层卷积神经网络从以像素为中心的对象中提取深层次特征，并分别在3种展现不同城市场景的高分辨率遥感影像上进行分类实验；滕文秀[11]将面向对象和深层次特征相结合用于树种分类，利用VGGNet网络实现树种分类；陈斌等[12]利用GoogleNet网络从分割对象中提取特征，实现中分辨率遥感影像的分类；ZHANG等[15]在分割阶段采用最小生成树分割算法，设计双输入网络进行特征提取和分类。

基于卷积神经网络的深度学习模型随着网络层数不断增加，提取的特征表达不尽相同，浅层特征表达的是结构特征，深层特征表达的则是语义特征[16]。而现有的面向对象分类方法中采用的深度学习模型未考虑浅层特征和深层特征之间的相互联系，提取的特征仍为单一层次特征，存在特征表达不充分的问题，如何自动提取表达更充分的多层次特征是提高高分辨率遥感影像分类精度的关键。

DenseNet网络的核心在于卷积层之间的密集连接。密集连接方式能实现每一次层输入都是前面所有层的信息的汇总，可以有效顾及各个层之间特征的联系。鉴于此，本文研究了一种结合密集连接和特征重标定的高分辨率遥感影像分类方法。首先结合数字表面模型参与影像分割得到初始分割图斑；然后以具有密集连接结构的DenseNet作为基础网络，在此基础上引入SE模块，SE模块能自动评估不同特征的重要程度，并为不同特征赋予不同的权重，进一步提高特征的代表性和区分性，设计最优的SE_DenseNet网络结构，提取表达更充分的多层次融合特征；最后利用最优SE_DenseNet网络进行影像分类，并在公开数据集上通过实验验证本文方法的有效性。

1 本文方法

1.1 DenseNet网络

DenseNet网络[17]是由黄高和刘壮等人提出的一种卷积神经网络。该网络因卷积层之间密集连接的方式而得名，即任何层与所有后续层都直接连接，每一次的输入都是前面集体知识的总和，构建了多层次的融合特征，最终分类器根据提取的特征做出准确的分类预判。标准卷积神经网络与DenseNet网络的连接方式对比如图1所示，此处H1、H2、H3、H4是诸如卷积、池化、批量归一化或整流线性单位等操作的函数组合，X0、X1、X2、X3、X4表示每一次经过上述操作后得到的特征图。前者只在邻近层之间有连接，第4层卷积的输入只包括第3层卷积单一层次的输出；后者在所有层之间都直接相连，第4层卷积的输入是前面所有卷积层X0、X1、X2、X3输出的串联总和。因此，DenseNet网络可以有效顾及各个层次特征之间的直接联系，更适合蕴含复杂信息的高分辨率遥感影像的分类任务。

图1 标准卷积神经网络与DenseNet网络连接方式对比Fig.1 Comparison between standard convolutional neural network and DenseNet network

DenseNet网络主要由DenseNet（密集模块）、Transitonlayer（过渡层）两个结构交替组成（图2），前者是通过密集连接的方式提取多层次的卷积特征，使特征表达更充分；后者是对密集模块输出特征图进行下采样，从而实现尺度的变化。DenseNet网络根据层数的不同分为 DenseNet121、DenseNet169、DenseNet201，本文采用DenseNet121网络作为基础的卷积神经网络[17]，如图2所示，N表示一个密集模块中密集层的个数，Conv表示卷积，Pool表示池化，BN表示批量归一化，FC表示全连接。

图2 DenseNet 121网络结构示意图Fig.2 DenseNet 121 network structure

1.2 SE模块

SE(Squeeze-and-Excitation)模块是由HU等[18]在2017年提出的一种注意力机制，是一个新的架构单元，可以灵活集成在卷积神经网络的不同位置，并非一个独立的网络。SE架构可以自动学习在卷积过程中每个特征图的重要程度，对所含信息的价值进行衡量，为不同特征图赋予不同的权重，改善相同特征权重导致的网络对特征敏感度降低的问题。

SE模块进行特征重标定的过程如图3所示，在一般的卷积神经网络中，给定一个输入，经过一系列卷积操作得到新的特征。添加了SE模块的网络模型通过压缩、激发、特征重标定等3个操作来重标定前面得到的Y中每个特征通道的权重，最终得到带权重的输出Ys，其中表示在经过压缩操作后得到的降维特征向量值。

图3 SE模块示意图Fig.3 SE module structure

因此，本文在DenseNet网络中引入SE模块实现特征重标定策略，提高网络对特征的敏感度，增加特征的区分性和代表性，使特征表达得更加充分。

1.3 结合密集连接和特征重标定的最优网络

SE模块可以灵活地集成在DenseNet网络中，不同的集成策略会产生不同的效果。针对高分辨遥感影像分类任务，选择合适的集成策略可以更好地提升网络模型的性能，取得更好的分类精度。本文根据SE模块集成的位置不同，设计了4种集成策略（图4）：集成策略1，SE模块被设置在密集模块中的每个密集层之后和每个过渡层之前；集成策略2，SE模块被集成在密集模块中的每个密集层之后；集成策略3，在每个密集模块和过渡层之前设置SE模块；集成策略4，SE模块只出现在每个密集模块之前。

图4 SE_DenseNet的4种集成策略结构图Fig.4 Four integration strategies of SE_DenseNet

本文通过实验对比不同集成策略的效果，4种集成策略的模型精度对比如图5所示，集成策略2的模型精度最高，集成策略4的模型精度最低。因此，本文选集成策略2构建最优的SE_DenseNet网络。

图5 SE_DenseNet的4种集成策略精度对比Fig.5 Accuracy comparison of different integration strategies

本文以DenseNet121网络作为基础网络，分为密集模块、过渡层两个结构，每个密集模块由不同个数的密集层组成，每个密集层的结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)。将SE模块集成到密集模块中的每一个密集层之后构成新的结构SE_Denseblock，具体结构为 BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)-SE。其中，Conv(m×m)表示卷积层中卷积核的大小为m×m；Relu表示激励函数为Relu激励函数。

完整的SE_DenseNet网络模型结构如图6所示，主要由4个SE_Denseblock和3个过渡层交替组成，其中4个SE_Denseblock中的密集层数量分别为6、12、24、16。在经过上述结构后，利用一个全局平均池化层求每一个特征图的所有像素值的平均值，再进行全局空间信息求和，最后采用全连接层将学习到的特征映射到样本标记空间的7维向量，得到最终的分类结果。

胃癌患者就诊时，病情大都已经发展至中晚期，患者单纯接受保守治疗的效果欠佳，临床上均强调为患者以手术治疗。临床上为胃癌患者行手术治疗时，麻醉药物的选择尤为关键，本次研究中旨在对右美托咪啶对胃癌手术麻醉应激反应的抑制作用作探讨。现报告如下。

图6 最优SE_DenseNet结构Fig.6 Optimal SE_DenseNet structure

1.4 本文方法的分类流程

根据面向对象分类的思想，本文方法的分类流程包括影像分割、样本集建立、模型训练、影像分类4个步骤（图7）。

图7 分类方法技术流程图Fig.7 Workflow of classification method

首先，采用数字表面模型约束下的多尺度分割算法获得分割图斑作为分析基元，多尺度分割算法采用分型网络演化算法[19]，在数字表面模型约束下的多源数据协同分割能改善地物分割质量；其次，按照真实地物类别对分割图斑进行样本标注，建立训练样本集和测试样本集，分割图斑是分割对象最小外接矩形，背景值以0填充，通过拉伸放缩操作固定到统一尺寸；再次，通过ImageNet数据集得到预训练的SE_DenseNet模型，并利用训练样本集对预训练模型进行训练得到最优模型；最后，将待分类影像采用相同方法进行分割，再利用训练好的最优模型实现影像的高精度分类，得到分类结果图。

2 实验与分析

本文实验硬件平台CPU为Inter(R) Xeon(R)E5-2640 v4 2.40GHz，GPU为NVIDIA Tesla P40 24GB，内存为128G配置，采用PyTorch深度学习框架实现具体卷积神经网络的训练。

2.1 实验数据和训练样本集的建立

本文实验使用国际摄影测量与遥感协会ISPRS公开的Vaihingen城市分类和三维建筑重建遥感数据集。该数据集包括数字正射影像、数字表面模型、数字航空影像、机载激光扫描数据和影像对应的真实地物类别等数据。图8所示为实验数据集中的数字航空影像及对应的数字表面模型。本文实验样本数据集参照ISPRS分类标准将样本采集影像共分为7类地物，分别为不透水面、建筑物、树木、草地、裸地、水体、车辆。影像分割后在易康软件中按照类别对样本进行标注，导出不同类别的面矢量文件，通过打碎、批量裁剪等操作方式变成能输入模型的尺寸统一的规则图斑。样本数据采取几何变换的方式进行数据增强，最终得到的训练样本和测试样本数量分别为83 094个和11 516个。

图8 实验数据Fig.8 Experimental data

2.2 网络设置

1）在影像分割阶段，利用分形网络演化算法对分类的高分辨率遥感影像进行数字表面模型参与下的多尺度分割。参考论文[20]参数设置并借助目视解译分割，分割尺度设置为245，形状参数和紧致度参数设置为0.2和0.4，波段权重都设置为1。

2）在模型训练阶段，利用在ImageNet数据集上经过预训练后的网络参数对SE_DenseNet进行参数初始化，再利用训练样本集对模型进行训练，采用交叉熵[21]计算损失值，采用随机梯度下降[22]的方法对网络进行训练。模型迭代的轮数最大为50，批训练的样本数量设置为60，学习率随着训练的深入不断调整，初始学习率设置为0.01，动量为0.09，学习率衰减的步长为5，学习率衰减的乘数因子为0.2。

3）在影像分类阶段，采用同样的分割参数对分类影像进行分割，再利用训练完成的模型实现影像分类。

本文以F1-score作为影像分类精度的定量评价指标。F1-score是精度与召回率的调和平均数，能够全面地反映网络模型对样本的识别与区分能力，计算公式如下：

2.3 实验结果和分析

本文方法的分类结果如图9所示，影像整体分类效果与真实地类相似度高，所有地物均能分到正确的类别中。

图9 分类结果与真实地类对比图Fig.9 Comparison map between classification result and real land type

为了科学地评价本文方法的性能，将其与DT（决策树）、RF（随机森林）等传统机器学习的方法和深度学习方法中的 AlexNet[23]、VGGNet[24]、GoogleNet[25]、ResNet[26]、DenseNet等网络模型进行对比实验（图10）。

图10 分类结果对比图Fig.10 Comparison of classification results

从图10可以看出，传统机器学习分类方法RF、DT错分现象明显，无法有效识别阴影区域。AlexNet和VGG网络错分现象较少，但在细碎的建筑图斑及树木和草地的区分等方面分类效果不佳。GoogLeNet、ResNet网络整体分类效果较好，但在不同类别的地物分类上表现不够稳定，且一些建筑物边缘的细碎图斑分类仍不够准确。DenseNet网络在不同类别的地物分类上表现较稳定，且对建筑物边缘的细碎图斑识别效果较好。本文方法整体分类效果最好，能有效地区分建筑物和不透水面、树木和草地等易混淆地类，准确识别阴影区域地物类别。

表1显示了不同方法的每一类地物的F1值和平均F1值。总的来看，传统的面向对象分类方法（DT、RF）平均F1值较低，仅为82.3%、84.5%，这是由于传统的面向对象分类方法为手工设计的浅层特征，无法满足高分辨率遥感影像的分类要求。AlexNet和VGGNet网络在平均F1值与传统方法大致相同，分别为83.1%、85.2%，这是由于AlexNet、VGG网络为单一连接结构，利用单一层次特征进行分类，无法实现多层次特征信息融合，分类精度较低。ResNet和GoogLeNet网络平均F1值有所提高，分别达到90.7%、90.9%。但是二者对不同地物的识别效果表现不稳定，如前者在树木和草地上的分类精度优于后者，但后者在建筑物上的分类精度更高。这是由于两种网络卷积层之间采取的连接策略不同，特征表达不全面，针对性有所差异，难以满足不同地类的分类要求。

表1 分类精度对比表Tab.1 Comparison of classification accuracy

DenseNet网络的平均F1值为91.5%，相较于前几种网络中F1值最高的ResNet网络提升了0.6%，这表明通过密集连接方式融合的多层次特征的表达力更充分，分类精度更高。本文方法的平均F1值达到93.4%，在每一类别的分类精度上均有改善，对地物类别识别能力更稳定，相比其他方法在草地和树木这两类地物分类上表现突出，F1值达到了88.3%、92.4%。这说明通过密集连接和特征重标定的方式构建的深层次特征表达能力最强，模型预测能力更佳，能实现高分辨率遥感影像高精度分类。

3 结论

本文研究了基于深度学习的高分辨率遥感影像面向对象分类方法，从构建具有代表性和区分性的多层次融合特征角度出发，提出一种结合密集连接和特征重标定的分类方法。本文的创新工作主要在于构建了最优SE_DenseNet网络，其中作为基础的DenseNet网络因有密集连接方式，可顾及不同层次特征之间的联系从而增强特征表达力；将SE模块集成到DenseNet基础网络中，设计的SE_DenseNet网络在注意力机制的引导下，能为重要程度不同的特征图赋予不同的权重，从而进一步增强特征的表达力。通过ISPRS公开的Vaihingen遥感数据集测试验证，结果表明，本文方法设计的网络提取的带有权重的多层次融合特征表达能力更强，优于传统的机器学习方法和其他深度学习分类方法，能提高影像分类精度，更适合于地物信息复杂的高分辨率遥感影像分类任务。

如何在影像分类阶段通过波段叠加或者特征阶段联合的方式引入多源数据，为深层次网络模型提供更多可学习信息是下一步研究工作的重点。