马海荣,冯天晶,戢 锐
(1.湖北省农业科学院农业经济技术研究所,武汉 430064;2.中国地质大学(武汉)地理与信息工程学院,武汉 430074;3.文华学院,武汉 430074)
深度学习方法因其不需要人工参与就可以通过对大量训练样本自主学习来提取图像中的地物特征而被广泛应用于图像处理与分析领域。全卷积神经网络(FCN)[1]是首个可以实现对图像进行逐像素分类预测的深度学习网络,被广泛应用于目标分割[2]、目标检测[3-5]、目标分类[6,7]等图像处理领域。例如:Lee[8]等首次将FCN 应用于高光谱图像分类;Ronneberger 等[9]基于FCN 模型提出U-Net 模型,将上下文的特征进行融合,实现密集像素分类;邰建豪[10]提出基于深度学习框架的FCN 分类方法,并选取ZY-3、Worldview2 和Google Earth 三组高分辨率遥感影像进行分类实;Ksenia 等[11]与Schuegraf 等[12]提出多通道融合的FCN4s 模型,并将该方法应用于基于DSM 与高分遥感影像的建筑物提取。
基于FCN 进行遥感影像语义分割的学习时首先对遥感影像进行下采样获取特征图,然后基于上采样获取与输入图像同样大小的预测结果图。上、下采样的图像处理过程会造成部分信息的丢失,特别是地物边缘细节信息的丢失,最终严重影响分类或分割结果。本研究提出一种将FCN 网络与面向对象技术优势互补的高分遥感影像土地覆盖分类方法。该方法将面向对象分割获取的地理单元可以有效保持地物边缘细节信息,以及FCN 深度学习模型不需要人工参与就可以通过对大量训练样本自主学习完成对遥感影像语义分割的优势相结合,提高高分遥感影像土地覆盖分类的精度。
卷积神经网络(CNN)是目前最成熟、应用最广泛的深度学习框架,但基于CNN 进行图像分类,只能输入固定大小的图像,且CNN 只能实现对整幅图像所属类别的判断,无法完成对图像逐像素的密集预测。随着计算机视觉领域的发展,这种对图像整体一对一的预测已经无法满足应用需求,更多的应用需要对输入图像的每个像素都进行类别预测,即图像密集分类。基于CNN 提出的FCN 解决了图像密集预测的需求。FCN 利用全卷积层代替了CNN中的全连接层,可以处理任意大小的图像,基于反卷积技术对深度训练获取的特征图进行上采样处理,获取和待分类图像大小一致的分类结果图。FCN 深度学习模型主要由输入层、卷积层、池化层、全卷积层和输出层组成(图1)。
图1 FCN 遥感影像地物提取模型
FCN 区别于CNN 的3 个优点为:全卷积化、上采样和跳跃连接结构。全卷积化将CNN 模型中输出的一维特征向量转换为二维特征矩阵,解决CNN 中空间特征丢失问题,且将全连接层换成卷积层后,FCN 可以处理任意大小图像。上采样优化了CNN 中池化操作造成特征分辨率降低的问题,保证最终预测结果图像和输入图像的大小一致性。跳跃连接结构将FCN 在不同层级的获取特征图融合,保留了更多的边缘细节特征,进一步提高了分割结果的精度。
FCN 也存在以下缺陷:①网络整体规模过大,需要将待处理图像分割成较小的单元处理;②由于上、下采样的机制,导致FCN 分割结果不够精细,容易丢失地物的边缘细节信息。为提高FCN 对图像的分割精度,就需要对FCN 模型进行优化改进或对FCN 获取的初始分类结果进行优化。
经典FCN8s 模型是为了处理多媒体图像而提出,多媒体图像中目标个体较少且容易分离。与多媒体图像不同,遥感影像空间分辨率高,地物对象复杂并且有混合像元的存在,导致直接将经典FCN 模型应用于遥感影像分类或目标提取效果不佳。本研究构建了一个FCN4s模型(图2)进行影像分类,FCN4s在一定程度上可以保留更详细的地物细节。
图2 FCN4s模型
本研究探索如何充分挖掘高分辨率遥感影像蕴含的地物特征以及构建相对简单有效的深度学习模型,并利用基于最优尺度下面向对象的分割结果优化FCN 的初始分类结果,提高土地覆盖分类结果中不同地物的边界准确性和减少孔洞噪声的影响。方法的具体技术流程如图3 所示,基于面向对象分割结果优化FCN 初始分类结果的高分遥感影像土地覆盖分类的具体研究步骤如下:
图3 基于FCN 与面向对象的高分遥感影像土地覆盖分类技术流程
1)收集研究区高分遥感影像数据、现存土地利用分类数据及其他辅助数据,并对所收集的数据进行预处理;基于现存土地利用数据进行遥感影像人机交互目视解译,获取与影像获取时间一致的土地覆盖类型的标签数据。
2)基于文献[13]的方法,对研究区的高分遥感影像进行最优尺度的面向对象分割,获取能够充分保存不同地物边缘细节信息的分割对象数据,作为优化FCN 初始分类结果的辅助数据。
3)对研究区的高分遥感影像与相应的土地覆盖类型标签数据进行裁剪,分别制作用于深度学习模型训练和分类的训练样本集和测试样本集。
4)利用训练样本数据进行FCN4s分类模型的训练建模,并基于训练好的FCN4s 模型对测试样本数据进行分类,获取测试区土地覆盖类型的初始分类结果。
5)利用最优尺度的面向对象分割结果,对基于FCN 获取的土地覆盖类型初始分类结果进行优化处理,得到最终的土地覆盖分类结果。
研究区位于湖北省武汉市江夏区西南部,整个研究区地势平坦,总面积105.5 km2,地形以平原为主。本研究所用的高分遥感影像为2018年6月获取的高景1 号卫星影像,该影像包含1 个0.5 m 分辨率的全色波段和4 个2 m 分辨率的多光谱波段。根据研究区的高分辨率遥感影像数据和现存的土地利用数据,基于人机交互目视解译和实地调查的结果,获取与高分遥感影像获取时间一致的土地覆盖类型分布。图4 为研究区遥感影像与土地覆盖类型分布,研究区耕地占比最大,面积46.71 km2,其次为河流水体,面积22.81 km2。建筑多沿道路或河流聚集性分布,面积2.77 km2。道路和灌排渠道整个研究区分布均匀,面积分别为2.03 km2与1.91 km2,但由于树阴遮蔽以及影像分辨率影响,道路和灌排渠道存在断裂与不连续现象。农业大棚在研究区广泛分布,面积为3.78 km2,林草地和其他地类分布无一定规律,面积分别为11.09 km2和14.40 km2。
将图4 中红色范围线内区域作为试验测试区(测试区面积11.09 km2,因深度学习网络可以处理的图像大小有限,需要对影像进行一定尺寸的裁剪,裁剪时剔除不够设定尺寸的边缘,裁剪后测试区面积10.58 km2),将研究区除去测试区以外区域的影像数据用来构造训练样本集。测试区耕地、河流水体、建筑、道路、灌排沟渠、大棚、林草地和其他地类的汇总面积分别为5.21、1.18、0.31、0.16、0.28、0.80、1.25 和1.39 km2。
图4 研究区遥感影像与土地覆盖类型分布
FCN 的预测结果是对多个下采样后的特征图进行上采样直接产生,上、下采样导致特征图太过稀疏,造成基于FCN 的直接分割结果不够精细,缺乏细节信息。面向对象影像分析法可以综合考察各像素与其邻域像素的光谱、空间特性,以具有光谱、空间同质性的多个像元(即对象)作为基本处理单元进行影像分析,可以较好地保持地物的边缘特征信息。因此,基于面向对象的分割结果进行FCN 初始分割结果的优化,可以有效保持地物的细节信息。
面向对象分割结果的质量直接影响分类结果,而分割尺度的选择对分割结果影响最大,最优尺度下的面向对象分割结果应该与目标地物大小基本一致、轮廓相当,多边形相对完整,地物边界清晰,同类地物对象同质性好,不同地物类别对象间的异质性差异大。最优分割尺度选择方法也由最开始的经验选择法,发展到目前基于模型计算和评判指标选择的理论选择法。对测试区影像基于文献[13]提出的基于场景复杂度的最优尺度面向影像分割方法进行面向对象分割,分割结果见图5。从图5 可知,获取的对象具有较好的完整性,基本可以保持原始地物的光谱、纹理、几何和拓扑关系等特征。4 个放大的圆分别展示对不同类型地物(林地、裸地、房屋、道路、水体、耕地等)的分割结果,分割所得对象基本可以保持原始地物良好的几何形态和边缘信息。
图5 测试区遥感影像与面向对象分割结果
基于最优尺度面向对象分割结果优化FCN 初始分类结果的方法如下:将在最优分割尺度下获取的面向对象分割结果与基于FCN 获取的初始分类结果进行叠加,统计落在每个面向对象获取的分割单元内基于FCN 获取的分类结果中不同地物类别的面积,面积最大的那个地物类别判定为该对象单元的最终分类结果。该优化操作可以将基于FCN获取的基于像素的语义分割结果转化为基于对象的分类结果。
本研究基于Caffe 深度学习框架构建了全卷积神经网络语义分割模型。试验环境的软硬件设备具体配置及型号分别见表1 和表2。
表1 硬件配置及型号
表2 软件版本及型号
为满足基于深度学习模型对高分遥感影像土地覆盖类型进行精细分类的需求,根据研究区土地利用状况制作深度学习数据集。由于深度学习模型网络层数比浅层机器学习模型多且复杂,对图像样本数据的处理能力有限,因此无法对任务区的整张影像进行完整的一次性处理。试验数据准备时基于ArcGIS 软件标注了与遥感影像对应的土地覆盖类型标签图像,并对预处理后遥感影像以及标签图像分别进行128 像素×128 像素的裁剪,构建了深度学习训练和测试样本数据集。分割后训练区包含23 013幅图像,测试区包含2 565 幅图像。
对于所有随机初始化的层以学习率λ=0.01 开始网络训练,对于使用预先训练的模型初始化的层采用λ=0.001,每20 000 次迭代将它们减少10 倍。总迭代次数被设置为60 000,批处理大小为5。质量衰减η和动量因子分别设置为η=0.005 和m=0.9。所有参数都是在验证数据集上的训练过程中获得的。在训练过程中,在将样本输入网络前,对样本进行随机变换。
本研究选择整体分类精度(OA)、生产者精度(PA)、使用者精度(UA)和Kappa系数4个评价指标定量评价深度学习模型对测试区数据的分类精度。
基于FCN 网络模型对测试区影像数据进行土地覆盖分类的初始分类结果见图6。初始分类结果是基于像素的分割结果,其易存在椒盐现象和丢失地物边界细节信息,影响分类的效果和精度。由图6 可知,基于FCN4s 的初始分类结果中存在较多孔洞噪声,即不同类别的分类结果图斑参杂被错误地分类成其他类别的小面积图斑,对土地覆盖分类制图的目视效果一般。
图6 基于FCN4s的土地覆盖类型初始分类结果
初始分类结果的OA 为84.81%,Kappa 系数为0.781 7。图7 为针对不同类型的地物基于FCN4s 网络模型分类结果的PA 与UA 值。FCN4s 对不同地物的分类性能不同,分类性能较好的地物类型有耕地、水体、林草地,这3 种地类所的PA 和UA 均较高;对于道路和灌排渠道的分类性能最差,PA 仅为50%。
本研究利用面向对象分割结果优化FCN4s的初始分类结果,对测试区基于FCN4s 获取的初始分类结果进行优化,优化后的分类结果见图8。由图8 可知,优化后的分类结果在目视效果上明显优于基于FCN4s 的初始分类结果,少了很多孔洞噪声,不同地类图斑相对纯净。优化后分类结果的OA为87.11%,Kappa 系数为0.813 4,与基于FCN4s 的初始分类结果相比OA 提高2.3 个百分点。
图9 为优化分类结果的PA 与UA 值,分别对比图6 和图8 及图7 和图9 可知,优化后土地覆盖类型的分类性能整体有所提高。大部分地物类型的PA和UA 均有所提高,例如大棚、渠道、水体和耕地;部分地物类型的PA 有所提高,UA 稍有下降,例如建筑和道路;对于林草地这一地物类型,优化前后分类结果的精度稍有降低,但变化很小;对于其他地物类型,PA 和UA 均有所降低,是因为其他地物类别中包括多种地物类型,分类不确定性较大。
图7 基于FCN4s的土地覆盖类型分类精度
图8 基于面向对象优化FCN4s后土地覆盖类型的分类结果
图9 基于面向对象优化FCN4s后土地覆盖类型的最终分类精度
提出一种基于面向对象分割结果优化经典FCN模型初始分类结果的高分遥感影像分类方法。其优势在于利用最优尺度的面向对象分割结果优化基于FCN 获取的高分遥感影像初始分类结果,可以有效弥补基于FCN模型进行高分遥感影像语义分割时上、下采样造成的地物边缘细节信息丢失的问题,优化高分遥感影像分类结果的视觉效果和提高分类精度。