基于深度迁移学习的城市高分遥感影像分类

2020-03-13 04:08黄如金聂运菊

江西科学 2020年1期

黄如金，聂运菊

(东华理工大学测绘工程学院，330013，南昌)

0 引言

随着计算机技术和空间技术的不断进步，使得遥感学科充分发挥自身优势释放出巨大的商业价值和科研价值，国家政府部门在发展规划中也把地理信息产业列为工作的重点之一，包括扩大遥感技术及遥感数据应用领域，以及鼓励社会资本进入遥感应用产业等[1]。同时，我国城市化进程大量人口涌入城市，据国家统计局数据显示2018年我国城镇人口占总人口比重达到59.58%，这距离发达国家平均水平的75%还有15个百分点意味着未来我国还会有大约2.15亿人进入城市，随之形成庞大的人口密集建筑区将带来相当严峻的社会问题。

传统的遥感信息获取主要利用航拍相片或者中、低分辨率卫星影像，常用的方法有目视判读以及基于像元的计算机分类法[2]。其分类技术通常运用的是一种基于像元的分类，无论是监督分类还是非监督分类仅仅是基于像元级别的处理，更加适用于获取中、低分辨率遥感影像的信息。高分遥感影像的发展这种分类方法已经不能满足分类的精度需求和影像信息的提取，面向对象的分类方法不再是针对单个像元，而是针对影像对象[3]。卷积神经网络(CNN)的应用使得这一问题有了很好的解决[4]，Krizhevsky等提出了8层的Alex Net模型，大幅提高了图像分类的准确度[5];Simonyan等提出了16层的VGG－16模型和19层的VGG－19模型分类准确度进一步提升[6];Res Net模型的提出解决了网络退化的问题;刘嘉政提出基于Inception_v3模型的迁移学习并对结构进行微调适应花卉识别[7－8]。在遥感影像分类领域，由韩军伟构建包含45类场景的遥感场景分类数据集NWPU－RESISC45，并使用多种模型对数据集进行分类实验，其准确率远高于传统方法。但用于城市人口密集建筑的分类识别研究还未有深入研究，本文通过将NWPU－RESISC45数据集与手动裁剪获取样本相结合的方法得到实验样本数据集并对样本数据进行数据增广，分别利用Alex Net、VGG－19、Res Net 3种网络对城市人口密集建筑进行迁移学习的分类识别研究，为未来城市地质遥感城市地物分类提供借鉴意义。

1 研究原理方法

卷积神经网络(CNN)是深度学习算法领域中在当前生产中应用最广泛、最成功的算法模型之一，它是一种基于反向传播的模型[9]主要包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。在遥感领域主要利用的是二维卷积，即应用于图像类文本的识别，而遥感影像本身也是图像恰好符合卷积神经网络特征对象提取的优点。卷积神经网络通常情况下是由卷积层、池化层、激活函数和全连接层等组成，核心部分操作分卷积操作和池化操作，整体结构如图1所示。

图1 卷积神经经网络架构

从整体架构上来看，卷积神经网络就是一个从输入层读取图片信息然后经过一系列运算到达输出层得到输出结果的过程，在这个过程中，通过每一层结构参数的计算逐步将信息传递到下一层，不断地进行卷积和池化操作得到具体的抽象信息，将这些信息映射到隐层特征空间实现对目标图像进行特征提取，经过全连接层和分类函数进行分类。当前，深度学习技术迅猛发展涌现出了如Alex Net、Res Net、VGG－19等较为经典且分类效果较好的网络模型。Alex Net[10]相较与传统神经网络方法的主要创新优化在于利用Re Lu激活函数[11]和Drop Out方法来抑制过拟合。Re Lu激活函数取代Sigmoid非线性激活函数，通过Re Lu激活函数可有效改善梯度消失及收敛波动，Re Lu只需一个阈值即可得到激活值且其为非饱和线性函数;引入多种权值组合的Drop Out方法控制过拟合。通过Drop Out方法，网络每输入一组新数据，都会激活一组不同的隐层神经元，从而每次训练的时候相当于使用一个全新的网络，而网络的所有激活状态始终共享权值，从而显著降低了神经元间复杂的互适应关系，从而实现对过拟合的抑制。VGG－19模型是对Alex Net模型的一种改进。与Alex Net相比，VGG系列模型的特点体现在2个方面:1)所有的卷积层都使用非常小的感受野(3×3和1×1);2)模型拥有多个卷积层，在模型深度上远远超过Alex Net。Res Net[12]通过Residual残差模块解决随着网络深度的加深网络带来的退化问题。Residual block通过shortcut connection实现，利用shortcut将block的输入和输出进行一个element－wise的加叠，极大提高模型的训练速度并获得比较好的训练效果，同时，随着模型的层数不断加深引入批归一化层使得网络更容易训练，3种方法各有特点在不同程度上都对卷积神经网络的发展研究有着重大意义。同时，在许多实际实验过程中会出现数据量不足、训练效果不佳的情况，这就需要对数据进行数据增广[13]。本文分别利用镜像(flip)、旋转(rotation)、缩放(scale)、裁剪(crop)、图像亮度、饱和度对比变化实现数据的增广。

1)镜像变换公式:

式中:ω为图像宽度，(x1，y1)为变换后的图像坐标，(x0，y0)为变化前坐标。

2)旋转变换公式:

式中(x1，y1)为变换后的图像坐标，(x0，y0)为变化前坐标。

3)其余几种变换方法多有类似之处，都可以通过一定方法获得随机对图像进行缩放、裁剪、图像亮度、图像饱和度调整。

2 数据处理与实验分析

本文的实验分析共分为(Alex Net、VGG－19、Res Net)3组实验，选用NWPU－RESISC45与人工手动制作样本相结合的方式制作成新的贴近本次实验的样本数据集。实验选定总体分类精度(Overall Accuracy)、精确率(Precision)、混淆矩阵3个指标作为实验结果的评价指标，其中，总体精度是为了在分类过程中被正确分类的像元数;精确率是为了显示实际正样本的概率;混淆矩阵就是简单明了地展示分类对错观测值个数的标准格式。

2.1 数据集制作

试验训练的样本数据主要有2个部分，一部分通过网络获取的完整训练样本，经过具体训练条件筛选后使用;另一部分通过原始影像人工裁剪获得实验样本，分为居民区、高层商业建筑、体育场、工业区4类，每一类分有700张共2 800张，图片尺寸为256×256，如图2所示，同时对数据进行数据增广后的结果如图3所示。

2.2 实验分析

图2 影像数据实例

图3 数据增广效果图

2.2.1 Alex Net结构 Alex Net结构实验结果如图4所示，图4上图为测试精度与训练代数的变化图。测试集精度随着训练代数的增加测试精度逐渐提高，由于载入了预训练的Alex Net的模型参数，所以训练精度提升得很快。在第3代时效果有了较大的变化，从3～44代测试精度呈现不断提高到底趋势，但中间测试精度还在不断的震荡，在第50代时测试精度趋于缓和，此时模型训练达到目标精度。图4下图为测试集的损失函数随着训练代数的变化图。在第3代开始损失函数的值有了明显变化，从第3代开始损失函数缓慢下降其中略有回升、震荡，在第50代开始损失函数逐步趋于平缓，在50代之后降到了目标之下。

图4 Alex Net精度曲线(上)与损失曲线(下)

图5 Alex Net混淆矩阵

如图5为Alex Net的混淆矩阵，可以看出其对于高层商业建筑和工业区以及居民区和工业区的分类错误率较大，其主要原因是由于工业区和居民区都是建筑密集区域，而居民区和工业区不仅都是建筑密集区域且其建筑形态较为相似。因此，Alex Net网络区分居民区和工业区的准确率比区分体育馆和高层商业建筑区的准确率要低。

2.2.2 VGG－19结构 VGG－19结构实验结果如图6所示，图6上图为测试精度与训练代数的变化图。测试集精度随着训练代数的增加，测试精度逐渐提高，由于载入了预训练的VGG－19的模型参数，所以训练精度提升得很快，第3代时由于模型抛弃了一些不必要的特征，精度出现了急速下坠，经过3～40代的持续上升、震荡在第40代之后达到了较好的效果，测试精度仍有震荡，在第63代时测试精度最高并达到目标精度。图6下图为测试集的损失函数随着训练代数的变化图。如图，训练开始损失函数下降，在第3代急速上升，造成这一结果的主要原因是模型抛弃了之前学习到的一些特征，从第3代开始损失函数逐步下降，在第45代开始损失函数降到了目标之下并趋于平缓。

图6 VGG－19精度曲线(上)与损失曲线(下)

图7为4类的混淆矩阵，从图6可以看出VGG－19的分类精度较好，基本能够实现对密度建筑的准确分类。但从图7中仍能发现在面对工业区和居民区这些人口密度大、建筑规模不一、形态混乱的建筑分类识别的准确度仍有提升空间。

2.2.3 Res Net结构 Res Net结构实验结果如图8所示，图8上图为测试精度与训练代数的变化图。随着训练代数的增加测试精度逐渐提高，通过载入预训练的Res Net模型参数，所以训练精度提升得很快，在第1～40代之间精度波动较大，40代之后就达到了较好的效果，但测试精度还在不断地震荡整体趋于平缓，在第53代时测试精度达到最高并稳定平缓，此时模型训练达到目标精度。图8下图为测试集的损失函数随着训练代数的变化图。损失函数的值在初始阶段就有了明显下降，之后损失函数不断下降，中间在第9代有明显回升，之后不断震荡总体下降呈稳定趋势，在第40代开始损失函数基本达到目标，但仍有波动，53代之后损失函数降到了0.05之下并趋于平缓。

图7 VGG－19混淆矩阵

图8 Res Net精度曲线(上)与损失曲线(下)

图9为Res Net混淆矩阵可以看出对于居民区以及工业区的分辨精度较低，较多次将居民区以及工业区混淆。居民区和工业区都为建筑密集区，它们的纹理、颜色等特征都有较大的相似性，这种相似性对图片的分类精度有较大的干扰。体育馆由于其有明显的特征，其辨识度较高。综上可以知道，Res Net对于特征明显的地物有较好的识别度，但是对于像居民区以及工业区之类的相似性较高的地物识别精度会下降。

2.3 结果讨论

图9 Res Net混淆矩阵

本文对3种网络结构在总体精度、精确率、优点3个维度进行对比分析，如表1所示。Alex Net通过激活函数将精度提高到90.5%;Res Net引入残差网络精度为91.16%;VGG－19对VGG网络进行卷积层数增加精度为93.5%。从精确率可以看到在4种分类中，都对高层商业建筑、体育馆这些特征信息明确相对城市存在个数较少的建筑分类效果较好，对居民区、工业区这些整体特征信息明显但局部模糊的建筑分类效果不佳更容易将两者混淆，这些都对以后的研究提供了方向。

表1 3种方法评价指标对比表

通过对比实验验证了卷积神经网络在遥感影像分类识别的过程中的应用价值，面对大量复杂繁琐的分类工作不仅提升了效率，同时在精度上有了很大的保证。迁移学习在机器学习的基础上省去了前期训练模型的大量时间，降低了机器学习的使用成本。

3 结论

通过3种卷积神经网络结构的实验分析，明确了卷积神经网络在影像分类识别领域的价值。深入其中不难发现VGG－19虽然处理当前问题精度较高但单纯的增加卷积层数在达到一定数值时必然会导致参数的数量过多;故在未来将引入Res Net残差块以解决梯度消失问题，让网络能构建得更深，使用VGG－19的网络结构设计卷积神经网络模块，以提升分类精度。