◆ 王 佳 刘锦秀 李晓民 马世斌 彭 玺
(1.青海省青藏高原北部地质过程与矿产资源重点实验室,青海西宁 810012;2.青海省地质调查院,青海西宁 810012;3.青海省遥感大数据工程技术研究中心,青海西宁 810012)
遥感数据获取能力的增强和成像方式的多样化,造就了遥感数据的海量化和多元化,这些具有多源、多时相、多波段、多分辨率特征的海量遥感数据,给数据处理及应用带来了新挑战,这也意味着遥感大数据时代已经来临。然而,现有的遥感海量数据处理技术和影像分析技术难以满足当前遥感大数据,如何高效地处理并利用已有的和即将采集的海量多源异构遥感大数据,将遥感大数据转化成知识,是主要的理论挑战和技术瓶颈。智能信息提取是遥感大数据方法的明显特征和必然要求,基于对地球观测信息的理解和应用需求,研究融合遥感数据特征与深度学习等智能信息提取的算法,构建适用于遥感大数据的模型、方法与系统工具,是解决遥感大数据时代信息提取与知识挖掘的必由之路。基于深度学习的目标识别算法,通过模仿人脑神经网络结构对大数据进行学习、分析和解释,已成功应用于地下目标识别和遥感地物目标识别等领域,可以获得高效的时空决策支持信息,能够动态感知和理解地球复杂系统之间的相互作用。
2020年1月至2021年10月底,自然资源卫星遥感云服务平台推送的青海省卫星数据达583批,共35483景,数量约42393.6GB。包括空间分辨率为2米级的 GF1、GF1B、GF1C、GF1D、GF6、ZY3-02、ZY3-03、ZY1-02D等卫星数据,以及空间分辨率为亚米级GF2、GF7等卫星数据。从以往实现技术上来看,遥感影像数据变化信息的提取大致可分为两类:一是,直接比较分析前后两期遥感影像,进行人工解译变化图斑;二是,首先对影像进行多尺度分割,在此基础上,进行监督或非监督分类,最后通过比对分析分类矢量结果,实现变化监测。无论上述哪种方法,对影像图数据质量要求都很高,对人工的依赖性较大,提取速度较慢,难以实现大范围变化监测。尤其是青海省地域广阔、地势复杂,按照上述两种方法实现实时变化监测,更是工作量大、效率低,不能达到实时监测的要求。而通过对基于深度学习的遥感智能化信息提取技术的应用,一方面,能够充分利用遥感影像覆盖范围广这一优势,对青海短时间内进行大面积信息提取,保障监测范围的同时,减少了人工工作量;另一方面,智能信息提取技术及时、高效、精准的发现定位目标,为后续的人机交互判读提供了有效位置提示服务,提高了判读效率,减少了变化图斑遗漏。
本文采用2米级国产陆地卫星(GF1、GF1B、GF1C、GF1D、GF6、ZY3等)数据,在构建青海省自然资源变化遥感监测体系的基础上,利用基于深度学习方法的遥感智能信息提取技术,在青海省域开展自然资源变化遥感智能信息提取的同时,对遥感智能信息提取技术进行了研究,整合搭建了“自然资源遥感智能解译系统V1.0”,现已具备单期建设用地、水体、光伏用地、湖泊等业务化专业模型和两期变化监测业务化专业模型,可实现对遥感影像的自动化、批量化智能信息提取。
根据上述遥感监测工作中所用数据的特点,以及深度学习算法的关键步骤,本文对青海地区智能化信息提取技术进行研究。如图1为总体技术路线。
图1 总技术路线图
遥感大数据时代的信息提取是以数据驱动下的信息分析模型为主要特征,因此,影像的获取及处理,对智能信息提取至关重要,本文依托自然资源青海卫星应用技术中心已建设完成的“自然资源综合数据管理系统V1.0”来获取多源遥感数据,充分利用青海省已有卫星数据优势,采用2米级国产陆地卫星GF1、GF1B、GF1C、GF1D、GF6、ZY3等高分辨率卫星数据对智能化信息提取技术进行研究,最大程度减小了数据对智能化信息提取的干扰。
上述多源遥感卫星数据,包含多光谱数据和全色波段数据,数据处理主要包括数据预处理、正射纠正、影像融合、波段计算、匀光匀色、影像分幅生产等方面。凭借自然资源青海卫星应用技术中心建设完成的“自然资源卫星影像自动化集群处理系统V1.0”对所需影像进行批量化处理,该系统集成图像处理的各个步骤,能够流程化、大批量生产遥感正射融合影像,为智能化提取所需的大量遥感数据,提供了高效数据生产平台。
深度学习模型由于其在多种尺度上都能较好地表达和识别地表地物大部分特征的优势,已成为图像分类领域研究的主流工具。其中,最具代表性的是卷积神经网络模型在自然图像解译领域取得了巨大的成功。随着该技术的逐渐发展,将其应用于高分辨率遥感影像地物提取的研究逐渐升温,分类模型主要以卷积神经网络和全卷积神经网络为代表。众多已有研究已证实在高分辨率遥感影像地物提取领域,深度卷积神经网络的提取效果良好,并进一步证明该方法与传统的方法相比具有更好的适应性和准确性。这类算法的核心是将整景影像划分为只包含单个地物的若干影像样本后,利用卷积算法对样本进行训练,最终用训练结果识别影像中的地物。本文选取模型的构建过程基本步骤主要包含影像数据预处理,影像分割制作训练样本集、图斑提取模型迭代学习及模型参数修改完善得到相对满意的结果,提升遥感分类的准确性(图2)。
图2 卷积神经网络架构图
(1)单期单要素监测提取
深度网络模型的建立,是智能化提取的前提和基础。将已有的要素提取结果,作为深度学习的对象,对学习结果归类划分得到特征信息,这些信息归入图斑数据库(样本库),大量样本训练便得到了提取业务的网络模型,再将特定规格的高分辨率正射融合影像数据作为输入遥感监测生产系统,计算机利用已建好的网络模型将疑似要素信息进行标注,通过与数据库图斑进行对比,提取所需要素图斑。
单要素监测提取业务,主要包括光伏、建设用地、道路、水体、湖泊等提取。输入单期正射融合影像数据,进行单期单要素监测提取,最终得到单要素提取结果,如图3所示。
图3 单期单要素监测提取
(2)两期变化监测提取
两期变化监测提取业务,主要指新增建设用地提取,其中又细分为“新增线性地物”“新增建(构)筑物”“新增推填土”等。提取过程与单期单要素监测提取基本相同,不同之处在于,输入对象为前后两期影像,除了需要提取后期影像的信息之外,还要与前期影像进行比对,得到两期变化信息,再经过人工判读修边,最终得到变化图斑(图4)。
图4 两期影像变化监测提取
基于深度学习的智能提取技术想要获得较为理想的提取结果,离不开海量样本数据的支持,训练样本选取的多少和优劣,很大程度上影响着深度学习网络的建立以及智能化信息提取的最终效果。训练样本数据越丰富,特征识别就越准确,模型的泛化能力越强,最终提取效果就越具代表性和全面性。因此,在不改变图像类别的基础上进行样本数据的增广以此来提高模型的泛化能力,进而提升深度学习影像信息提取精度,无疑是智能化提取技术中一个较为关键的环节。
训练样本可以在待检测图像集中人工勾选,也可以利用历史影像。本文结合2020年在十八批次自然资源自动变化图斑生产工作,将生产过程中提取得到的图斑作为样本,通过反复迭代训练,更新模型,提高智能变化提取系统的提取精度(如图5)。
图5 样本采集及模型升级流程图
前1-8批次由模型1.0生产提取,自动提取图斑提取总数6462个,人工交互图斑提取总数2835个,查全图斑840个,完整率32.23%,正检图斑1127个,正检率25.86%。针对模型1.0提取效果较差的新增推填土、道路等图斑类型,从自然资源部下发成果和作业图斑中优选高质量图斑制作样本,变化图斑累积扩展正样本下发图斑样本9792组,作业图斑样本673组,同时针对典型的云、影像亮度差异等产生的误提取,制作负样本3501组,进行了模型的升级,如图6为新增推填土、新增建(构)筑物等变化图斑提取的样本示例,一个完整的变化发现样本包括前期样本影像a、后期样本影像b以及一个标签图像c,标签图像为一个二值图像,图中的白色代表变化内容,黑色区域则表示未变化部分。
图6 变化发现样本示意图
目前新模型正样本25034组,负样本3501组,模型结构由原先的叠加模式升级为特征高度耦合模式,网络由原先的MobileNetV2升级为EfficientNet,正检图斑量增加,召回率提升;典型误检图斑减少。后续利用升级的模型2.0进行9-18批次生产提取任务,自动提取图斑提取总数5096个,人工交互图斑提取总数1510个,查全图斑1220个,完整率80.79%,正检图斑1557个,正检率30.55%(表1、图7)。
表1 模型升级信息对比表
图7 模型升级提取效果对比图
经过对深度学习支持下的智能化信息提取技术的研究,将前文所述的技术方法,经过整合集成,搭建完成了“自然资源遥感智能解译系统V1.0”。该系统整合了计算资源、技术资源和应用资源,现已实现流程化业务应用,能够进行建设用地提取、水体提取、光伏用地提取、道路提取、两期变化监测提取等任务,满足自然资源要素提取的快速、准确需要。
为积极响应自然资源管理“数量”管控业务需求,有效遏制土地矿产违法行为,提高执法监察效能,自2019年至今,将研究和应用相结合,基于深度学习方法进行了遥感智能化信息提取技术的研究和变化图斑提取工作,利用“青海省自然资源遥感智能解译系统”进行了2020年度和2021年度青海省内变化图斑监测提取,为青海省自然资源厅相关单位执法工作提供了参考变化图斑支持,为实现自然资源监测的常态化和精细化管理提供基础服务。
2020年4~9月,以2019年第四季度影像为前期影像,2020年最新接收影像为后期影像,共向厅相关单位提交青海省自然资源变化图斑18批(次),累计生产107县·次,通过伪图斑剔除和后续人工修正等工作,最终提交3867个有效图斑,覆盖青海省所有区县,其中西宁全市、海东全市、海南全州、同仁县、尖扎县、格尔木市、德令哈市等26个区县实现了3次以上监测。根据影像接收情况,逐步形成了月度监测按周生产的监测模式,为构建省级卫片动态监测提供了有力数据支撑。
2021年5月至7月,以2020年第四季度影像为前期影像,使用2021年最新遥感影像为后期影像,在青海省重点监测区域与非重点监测区域开展提取工作,伪图斑剔除和人工修边后,提取变化图斑1412处。按周监测,力求新增变化图斑的早发现、精准性和全面性、系统性,服务于青海省2021年卫片执法动态监测工作。
2020年10~11月,开展青海省重点县(区)农村乱占耕地建房疑似违法图斑提取工作,提取大通回族土族自治县、湟中区、互助县、民和回族土族自治县、循化县、乐都区等6个区县疑似违法图斑共计1908个。影像空间分辨率主体以优于1m为主(GF-2、GF-7),局部地区为2m分辨率卫星影像(GF1B/C/D、GF6、ZY1E),及时服务于青海省自然资源厅相关部门(图8)。
图8 新增建筑物图斑对应图
以乐都区提取图斑为例,在提取的图斑中,经过相关单位的核查反馈,提取结果能够与实地核查结果相对应,自动变化提取结果,较好的提示了实地变化位置。
本文基于深度学习,对智能化信息提取技术进行研究,并在此基础上,完成了“自然资源遥感智能解译系统”的整合搭建。研究结果表明:
(1)基于深度学习的自动提取模型在前期进行了大量的样本训练,相比传统的两期变化检测方法,采用深度学习技术对两期影像展开新增建筑变化监测,对不同卫星、不同传感器遥感影像有着更强的普适性,监测成果精度高,能够大大减小人工作业,提高监测效率。
(2)耕地图斑精度较高,错提漏提现象数量少,且提取的耕地图斑与实际耕地边界贴合度高,这足以证明深度学习下的智能化信息提取是变化图斑提取的有效手段。
(3)青海地区由于海拔较高,影像积雪和多云区域较多,导致提取结果存在少部分伪图斑,后续工作中,应尝试制作和训练云雪地区的负样本,提高此类地区的提取精度。