面向对象结合深度学习方法的矿区地物提取

2021-03-19 00:23蔡祥李琦罗言齐建东

自然资源遥感 2021年1期

蔡祥，李琦，罗言，齐建东

(1.北京林业大学信息学院,北京 100083; 2.国家林业草原林业智能信息处理工程技术中心，北京 100083)

0 引言

煤矿资源在推动经济发展中具有重要作用，保证矿区的安全生产是采矿作业的重中之重[1]。准确高效地获取矿区地物信息能有效辅助煤炭矿区生产工作的安排及部署，为安全生产奠定基础，而矿区地物类型往往特殊且复杂，传统人工野外调查手段获取大面积矿区信息耗时耗力[2]。

近年来，国内外学者针对矿区的特点，在矿区地物提取方面进行了大量研究[3-5]。这些研究主要采用面向对象方法对矿区卫星遥感影像进行地物提取，该方法以“同质均一”的多个像元为基础分类对象，利用影像的形状、光谱、空间纹理等特征进行分类。其基本分类方法中较为常用的有基于规则分类和最邻近分类2种，前者对于一些特征相似的地物类别区分效果较差[6]，同时需要在一定专业基础上多次制定规则和调整阈值进行实验才能获得合理的规则集；后者通过计算地物对象与已知类别样本在特征空间的距离来判断类别，分类结果更客观，但计算量较前者大。荆平平等[7]利用面向对象的多尺度分割技术等对矿区无人机影像进行地物分类，总体精度达89.92%。

随着遥感技术的迅速发展，无人机低空遥感在矿区的应用越来越多。和卫星遥感相比，无人机遥感成本低，时效性好，操作灵活，分辨率高，且富含更多空间信息[8]。张建勇等[9]利用低空无人机摄影测量快速构建矿区线状地物信息；韦国钧[10]提出了一种无人机影像可疑变化地物快速发现方法；徐晓萍[11]将无人机摄影测量技术应用于大宝山矿，提高了地形测量的速度与效率；师文杰等[12]基于实例探讨了无人机测量技术在矿山地质环境治理中的应用。

深度学习在分类任务上的高准确率体现了其特征提取的强大能力，为各领域的信息提取提供了新的思路。2010年Minh等[13]首次应用深度学习技术来提取道路信息，此后,深度学习技术逐渐被应用于高分影像的分类、信息提取、变化监测等任务。郑重等[14]提出了基于深度学习的地面塌陷遥感识别方法用于监测矿区的地面塌陷情况；向阳等[15]使用改进的U-Net孪生网络对矿区遥感影像进行变化检测并取得了较好的检测效果。

针对现有的卫星遥感影像处理繁琐，消耗时间长，面向对象方法分类精度不高等问题，本文提出一种通过无人机低空遥感获取煤炭矿区高清影像，利用基于面向对象分类方法和深度学习的语义分割模型进行高效煤炭矿区地物提取的方法。

1 矿区无人机影像采集与标注

1.1 研究区概况与数据源

本文选择内蒙古自治区西部乌海市海南区焦化厂为试验区，地理坐标在E106°53′06″～106°54′07″,N39°26′59″～39°27′33″之间，面积约为1.58 km2。

本研究采用瑞士生产的型号为eBeeAg的固定翼无人机,搭载相机为Sony DSC-WX220，影像数据采集时间为2018年3月，航拍影像包含红、绿、蓝3个波段，空间分辨率为5 cm。

试验对无人机影像进行拼接和正射校正等预处理操作，生成矿区的正射影像图。本研究选取6块典型区域的正射影像(图1)，每块大小均为6 720像素×5 760像素，覆盖面积均约为0.08 km2，其中区域1—5为训练集数据，区域6为测试集数据,各区域均无交集。

1.2 数据标注

使用深度学习语义分割模型进行地物提取的第一步是对影像数据进行像素级标注，传统标注方法为人工目视解译，该方法虽简单但人力和时间成本较高。本文提出采用面向对象分类方法辅以人工校正进行数据标注。该方法包括3个步骤： ①分割影像； ②对分割影像进行分类； ③人工校正分类结果。

1.2.1 面向对象的分割算法

面向对象分类方法包含两部分：影像分割和对象特征提取[16]。影像分割的对象边界与地物边界重合度越高，特征提取的结果就越准确。该过程使用从单个像元对象开始自下而上的区域增长法合并相邻对象生成影像对象，当对象的异质性达到设定阈值，则完成合并，结束对象分割过程。其中，分割方法包括3个重要参数：分割尺度、形状因子和紧致度因子。不同分割参数结果示例如图2所示。

通过控制变量对比实验选择最优的异质性度量参数，其中形状因子越大，分割后的对象形状越平滑，产生的对象越规整；紧致度因子越大，分割的对象就越接近矩形。本文最终确定分割尺度为140，形状值为0.4，紧致度因子值为0.5。

1.2.2 面向对象的最邻近分类算法

本文定义4种地物类别：道路、建筑、车辆和矿区地面。每类均选取适量(大约1/3)样本作为训练样本，计算对象的形状、光谱等特征值，再建立合适的对象特征空间，由特征空间参数指导分类[17]，但过多分类特征可能导致冗余，造成计算量增加，分类效率降低等问题，甚至降低分类精度。经实验对比，本文取不同类别之间可分性最大的5种特征组成最优特征空间集，这5种特征是：归一化灰度矢量反差、亮度、边界长度、归一化灰度矢量熵、边界指数，再运用最邻近分类器完成地物分类，待分影像对象O与类别Ki的最小距离DKi公式为：

(1)

人工校正完成后将分类结果图转为索引图(图3)，用于后续语义分割模型训练。考虑到实验设备限制及模型的网络结构等因素，将6块实验区域影像分割成320像素×320像素的图像集，其中训练集1 890张，测试集378张，训练集与测试集样本数之比为5∶1。

2 基于神经网络的地物提取方法

本文提出一种基于神经网络的地物提取方法，首先使用FCN-8s，FCN-32s，U-Net这3种语义分割模型在矿区数据集上训练，生成相应的神经网络模型，再基于3种模型采用多数投票法及打分法生成两种集成模型，最后使用膨胀及腐蚀算法对集成模型的输出结果进行优化，识别模型结构如图4所示。

图4 矿区地物识别集成模型结构Fig.4 Structure of integrate algorithms for surface feature extraction on mining area

2.1 全卷积网络

全卷积网络(fully convolutional network，FCN)[18]是一种深度学习神经网络模型，一般用于图像的像素级分类。相较于图像级分类使用的卷积神经网络(convolutional neural network，CNN)，FCN保留了CNN的卷积层，用于提取图像特征，将CNN中的全连接层替换成卷积层，并对最后一个卷积层的特征图进行上采样，将输出还原至输入图像相同尺寸，从而实现对每一个像素点的类别预测，同时保留原始图像的空间信息，完成图像的像素级分类。FCN的卷积层具有很强的图像特征提取能力，其中较浅层具有较小感受野，能够获取局部特征信息，较深层具有较大感受野，能够获取更多特征信息。另外跳跃结构可融合网络中不同卷积层输出特征，能有效提升地物提取效果。本文使用FCN-32s和FCN-8s模型进行实验，其中FCN-32s将网络中最后一个卷积层特征图进行32倍上采样后输出，该方法实现简单但预测结果较为粗糙，而FCN-8s则融合了多层上采样的特征图后输出(图5)。

图5 FCN基本结构Fig.5 Basic structure of FCN

2.2 U-Net模型

U-Net[19]是一种基于FCN改进的模型，使用了编码-解码结构(图6)，由左半边的压缩通道(contracting path)和右半边的扩展通道(expansive path)组成。压缩通道由卷积层和最大池化层组成，实现特征提取功能。扩展通道先进行反卷积操作，减半特征图维数，然后拼接对应压缩通道裁剪得到的特征图，组成一个2倍大小的特征图，再采用2个卷积层对其进行特征提取，并重复以上操作。最后的输出层再进行2次卷积将64维的特征图映射成2维的图输出。

图6 U-Net结构Fig.6 Structure of U-Net

2.3 模型集成

模型集成(ensemble)是结合多个学习器并使用某种策略来构建完成学习任务的模型，该方法从多个学习器取长补短，较单个学习器能得到更好的预测结果。本文的个体学习器为FCN-8s,FCN-32s,U-Net训练出来的模型，先取其分类结果，再采用多数投票法及打分法两种策略进行集成。

1)多数投票法。针对同一像素点，假设3个学习器的输出为Oj(j=1,2,3)，多数投票法先统计3个学习器中相同分类结果的个数，最终输出结果为相同分类个数最多的结果。若个数一样，则选择学习器中整体准确率最高的输出结果作为输出结果。

2)打分法。针对同一像素点，当3个学习器的输出一致时，将该输出直接作为结果输出。否则根据同类别地物的预测准确率对学习器j进行打分Sij(i=1,2,3,4;j=1,2,3)，i类地物预测准确率最高的模型Sij=3，最低的模型Sij=1，输出结果为总分Pi最高的类别，Pi由预测为i类的各个模型分数相加得到，即

Pi=Si1+Si2+Si3。

(2)

如果存在不同类别Pi一致，则选择学习器中整体准确率最高的输出结果作为输出结果。

3 实验结果与分析

实验在Ubuntu 18.04 LTS 64位操作系统下进行，其中神经网络的搭建、训练及预测使用Keras深度学习框架，采用GTX1080Ti显卡进行加速。

3.1 分类效果分析

图7分别展示了面向对象方法、基于面向对象和深度学习方法，以及2种集成模型方法在测试数据集上的地物提取效果。图8将面向对象方法的提取结果进行放大分析，可以看出传统面向对象方法分类效果存在漏分(红色框放大图像的灰色区域即为漏分对象)和地物边界模糊合并的“块状”分类现象，且对车辆和建筑的错分较多(亮绿色框标识出的对象为错分对象)。而3种神经网络模型分类结果均不存在漏分对象，且错分现象均比面向对象方法少。另外从分类结果也可看出，3种神经网络模型对不同地物表现出不同分类效果，这是因为不同地物表现出的特征不同，而不同神经网络对不同特征的提取识别能力有差异，其中FCN-8s对建筑物和道路的识别效果最好，FCN-32s对车辆的识别效果最好，U-Net对矿区地面的分类效果最好。基于此，采用2种策略对3种神经网络模型结果进行集成，取长补短，提升分类效果。实验结果表明，2种集成模型识别效果均比3种神经网络模型好。另外从实验结果也可看出，各种方法对车辆和碾压形成的道路的识别均存在不少错分现象，这和矿区无人机影像中矿区地面部分情况复杂，车辆种类多，相关地物边界模糊有关。

3.2 分类精度分析

为了合理评估不同方法对矿区地物提取的精度，本文从总体准确率、混淆矩阵、Kappa系数3个方面进行比较分析。

总体准确率为预测正确的像素数量占总像素数量的比例，计算公式为：

(3)

式中:Pc和Pt分别为预测正确的像素数量及像素总数量。

Kappa系数为分类精度的衡量指标之一，基于混淆矩阵进行计算，值越高意味着一致性越高，分类精度越高。假设有n个类别，每一类的实际像素数量分别为a1，a2，…，an，而预测出来的每一类的像素数量分别为b1，b2，…，bn，总样本个数为m，则Kappa系数的具体计算公式为:

(4)

式中:Po为每种地物类别正确分类像素数量之和与总像素的比值，即总体分类精度；Pe为偶然性因素导致的错误解释比例,公式为:

(5)

由不同方法在测试集上的分类准确率(表1)可知，神经网络模型的识别准确率均高于传统面向对象分类方法。说明新方法较传统方法能有效提高矿区地物识别准确率。集成模型准确率高于单神经网络模型，说明集成模型能改善单神经网络模型的识别效果。

表1 不同方法地物分类结果的整体准确率Tab.1 Overall classification accuracy of each method

本文采用随机采样的方法进行精度评估，在测试区域选取1 000个样本点，以标注图像为标准，采用混淆矩阵进行分析，结果如表2所示。传统面向对象分类方法对每一类地物的识别精度均低于FCN-32s，FCN-8s及2种集成模型，其Kappa系数为0.597 8，为6种方法中最低，处于一致性较低的水平。2种集成模型方法的Kappa系数均达到了0.81以上，证明其分类结果与人工辨识后的标注图基本吻合，识别效果较好。实验结果表明面向对象结合深度学习方法与集成模型均对矿区地物错分现象改善明显且有效提高了识别精度，优于传统的面向对象分类方法。另外，由混淆矩阵可知，模型对矿区车辆和建筑的识别精度一般，这与矿区地面存在不少煤堆、废石堆及与车体大小相近的临时建筑有关，同时货车存在车头、车架、集装箱分离的情况，导致人眼也难以辨别车体，增加了错分的可能性，在未来研究中可加强对这部分地物特征的抽取表达，提升模型识别能力。

表2 不同方法地物分类结果的混淆矩阵Tab.2 Confusion matrix of classification results in test region for different models

(续表)

3.3 膨胀腐蚀优化实验结果

观察深度学习方法对地物分类后的结果，发现同一类别地物的像素块中存在一些错分类且呈椒盐分布的像素点，这些像素影响最终的分类结果。鉴于此，使用形态学运算中的膨胀和腐蚀算法消除椒盐像素，优化地物提取结果。通过统计椒盐噪声之间的平均距离、最大距离和最小距离并经对比多次试验效果，取膨胀及腐蚀的内核参数均为5时优化效果最好。优化前与优化后的准确率对比(图9)显示，优化后的总体准确率及道路、建筑、车辆的识别准确率均有所提升，矿区地面的识别准确率有少许下降，这是由于该算法是用来消除被错误分类的“噪点”像素，大部分噪点像素开始被模型误分类为地面，在膨胀腐蚀后，噪点根据周边像素所属地物类型被正确转换为其他非地面类。通过实验结果可以看出膨胀、腐蚀操作可有效优化分类效果，提升面积较小地物的识别准确率和整体识别准确率。

4 结论

本文利用无人机低空遥感技术获取煤炭矿区高分辨率影像数据集，提出基于面向对象结合深度学习的方法提取矿区地物，通过实验和结果分析，得出以下结论：

1)面向对象结合深度学习方法在矿区地物提取效果上比传统面向对象方法更有效，其识别精度更高，泛化能力更好，可有效地对煤炭矿区地物进行提取。

2)集成模型的总体准确率和Kappa系数均高于所有单体神经网络和传统面向对象方法，证明合适的模型集成算法能够提高单体神经网络的地物分类效果。

3)实验结果表明，本文提出的方法满足矿区地物的快速检测要求，对矿区安全作业和管理起到良好辅助作用。该方法与传统野外人工勘测方法相比，节省了时间和人力，与基于卫星遥感的监测方法相比，精度更高，时效性更好。