史文中,张 敏
1.香港理工大学智慧城市研究院,香港 999077; 2.香港理工大学土地测量及地理资讯学系,香港 999077
近年来,人工智能技术的应用给各行各业都带来了新的发展机遇。20世纪50年代,人工智能开始起步,经过近70年的发展,已经在图像理解、文本翻译和预测分析等领域取得了显著的进步,在某些情况下,甚至超过了人类。人工智能技术特别是深度学习技术的快速发展,也已经成为测绘遥感学科发展的重要驱动力量[1]。随着国内外卫星商业化的发展,以及无人机的普及,遥感数据量快速增长,空间分辨率、时间分辨率、光谱分辨率得到不断提升。目前遥感数据呈现出高中低分辨率、多光谱、高光谱、SAR、街景及LiDAR激光点云等多源数据共存的情况,为遥感监测及其他多领域应用提供了基本数据保障。但同时对遥感目标的快速、准确、自动化识别带来了新的研究课题与挑战。在遥感目标识别中融入人工智能技术是当今的一个研究热点,也是未来的发展趋势[2-4]。
遥感目标识别是指从遥感数据中提取目标地物信息的过程,如属性信息、位置范围和变化信息等,但认知水平及技术的局限性影响了这些信息的可靠性。可靠性是指产品或系统在一定的条件下和时间内无故障地完成规定功能的能力或可能性[5]。而遥感目标识别的可靠性问题主要体现在:①客观世界存在不确定性问题,遥感观测数据资料是否可靠地反映了真实的客观世界;②人或机器的认知水平是否能够可靠地识别遥感目标特征;③遥感目标识别过程中的处理方法是否满足了任务目标的可靠性需求。因此,为了提升遥感目标识别的可靠性,笔者研究如何结合可靠性理论[6]和人工智能技术,将传统的遥感目标识别方法发展为智能化的遥感目标可靠性识别方法,使其具有高精度、强智能、可解释性和高稳健性等优点(如图1所示)。这里的可靠性理论包括可靠性分析、可靠性评估和过程可靠性控制。
图1 智能化的遥感目标可靠性识别的总体思路
传统的遥感目标识别方法首先提取人工设计的目标特征,然后通过决策分析或者传统的机器学习分类器进行目标识别。而随着人工智能技术,特别是深度学习技术的发展,利用深度神经网络模型进行目标识别,对复杂多变的自然地表取得了优于传统方法的性能,可靠性得以提高。一方面,人工智能具有强大的学习、感知和推理等能力,能够从各种遥感数据中学习有效的特征,提升遥感目标识别的可靠性;另一方面,人工智能也带来了新的可靠性问题。现有研究多是在单一的点上进行,比如针对单一遥感数据源,或者少量目标的识别算法,导致其不能满足实际复杂应用场景中的目标可靠性识别的需求。
尽管将人工智能技术引入遥感目标识别有许多优势,但是人工智能算法普遍存在的数据驱动属性和不透明性导致了新的不可靠性问题,如不可解释性、低稳健性、容易被欺骗等,这使得很多方法只能在有限的场景下使用,如具有完全信息、确定性信息的场景,或静态环境、限定领域等[7]。文献[8]指出,人工智能发展的不确定性带来新挑战,在大力发展人工智能的同时,必须高度重视可能带来的安全风险挑战,加强前瞻预防与约束引导,最大限度降低风险,确保人工智能安全、可靠、可控发展。在此背景下,亟须建立遥感目标的可靠性识别方法,使得遥感目标识别的结果达到多种应用场景的精度要求,结果可靠、稳定。基于人工智能的遥感目标可靠性识别的思想,其总体框架如图2所示,具体内容包括以下4个方面。
图2 智能化的遥感目标可靠性识别的总体框架
(1)分析影响可靠性的因素。首先,分析遥感目标识别过程中的不可靠性因素;然后,根据技术过程研究其不确定性的传播机理;最后,确定对整体方法可靠性造成影响的关键因素。
(2)可靠性提升方法。结合人工智能和可靠性理论,优化遥感目标识别的预处理过程,提出新的可解释和可靠的算法使用数据及算法融合等策略,提升遥感目标识别方法的可靠性。
(3)可靠性评估。提出两类可靠性指标:①针对目标识别算法;②针对识别结果。根据应用需求,构建相应的可靠性指标体评估模型,以及设计整体可靠性评价指数。
(4)过程可靠性控制。针对目标识别过程,研究其可靠性传播模型,通过确定影响可靠性变量及其控制(如通过改进方法设计、算法实现过程及参数设置),实现过程可靠性控制,达到提升最终结果可靠性的目的。
通过改善遥感目标识别技术,提供可靠的测绘遥感产品,是进行科学决策的重要保障[6]。可靠性理论已应用到第一次全国地理国情普查[9],本文进一步提出结合人工智能的可靠性框架,以期为智能化测绘时代的遥感目标识别提供可靠性的理论支撑。
空间数据不确定性理论研究已经取得了许多成果,并进一步发展为通过降低不确定性从而提高可靠性的理论。文献[10]系统地阐述了空间数据与空间分析的不确定性原理;文献[11]探讨了测量平差到空间数据分析的可靠性理论延伸,简要介绍了空间数据分析的可靠性指标计算方法;文献[12]将可靠性理论引入航天摄影测量中,研究了卫星成像质量的可靠性问题;文献[13]研究了分类过程中不确定性对分类精度的影响,提出遥感数据可靠性分类方法。此外,关于人工智能算法的可靠性研究也逐渐引起关注,文献[14]提出了人工智能深度学习算法可靠性评估方法。
随着人工智能技术在测绘遥感领域的广泛应用,遥感目标识别方法的精度都得到了提升,但是仍然存在可靠性问题需要解决,且缺乏系统的可靠性理论支撑。分析遥感目标识别过程中的影响可靠性的因素,可为智能化遥感目标识别结果的可靠性评估和过程可靠性控制提供基础,最终保障智能化遥感目标识别的可靠性。按照遥感目标识别技术实现过程,从遥感数据源和人工智能算法两个方面对其各个步骤的可靠性影响因素进行了分析,如图3所示。
图3 遥感目标识别的可靠性影响因素
遥感数据源是实现智能化目标可靠性识别的重要基础,其可靠性影响因素主要存在于数据获取和预处理两个过程。
(1)数据获取过程。客观世界的复杂性和不确定性、人类认知水平的局限性、感知技术的缺陷等因素造成了不确定性普遍存在[10]。遥感技术作为一种观测手段,其数据获取过程的可靠性,除了受客观世界的复杂性和不确定性影响外,还主要受到成像条件、分辨率、存储过程等因素影响。成像条件是一个复杂的因素集合,包括传感器平台、大气环境、观测时间、光照条件等。例如,阴影遮挡容易引起变化检测方法的误报导致其最终成果可靠性降低。分辨率包括时间分辨率、空间分辨率和光谱分辨率等,不合适的分辨率会影响目标识别结果的可靠性。文献[15]分析了不同空间分辨率遥感数据对湖泊识别可靠性的影响。而存储过程的可靠性是指遥感数据在存储与传输过程中是否会发生信息丢失、文件损坏等问题,可以通过信息校验进行可靠性提升。
(2)预处理过程。遥感数据预处理是遥感应用的关键步骤之一,通常包括辐射定标、辐射处理、几何定标、几何处理4个方面。该过程旨在消除成像过程受到的各种因素,如大气作用、传感器姿态、随机噪声等影响,使得遥感数据能够真实反映地物辐射电磁波能量的大小,从而保证遥感目标识别数据源的可靠性。同时,预处理方法如辐射校正、几何配准、数据融合、镶嵌等存在的误差也成了影响可靠性的因素。文献[16]研究了配准误差对变化检测方法精度的影响,分析了配准问题导致变化检测误差的空间分布规律,并指出通过将边缘信息和空间信息结合有助于研究可靠的变化检测方法。
智能化的遥感目标识别的核心内容是人工智能的应用,人工智能需要基于外部数据进行解释和学习,并利用这些知识实现特定目标和任务[17],其可靠性主要受到训练样本生成、识别算法实现和应用数据输入3个过程中的可靠性因素影响。
(1)训练样本生成。对于以数据驱动为主的人工智能算法,如目前广泛应用的深度学习算法,需要可靠的样本数据进行模型训练。因此,在实践中,一方面,应该考虑训练样本的数量规模、类型、分布模式、标注质量等影响可靠性的因素。其中,实现高精度的样本标注是目前面临的较大挑战,这是由于地物目标本身存在不确定性,如几何边界、光谱特征(同物异谱、同谱异物)的模糊性,使标注结果具有不可靠性。另一方面,由于受到人类认知水平的限制,即使是专家标注的真值也难免存在问题。文献[18]研究了地理国情普查中容易混淆的地表覆盖类型,指出应该通过加强培训,提高作业人员对地物特征定义和采集要求的认识,避免人为因素导致的标注错误。
(2)识别算法实现。尽管人工智能能够模仿人类的目标识别过程,甚至在精度方面超过人类,能够帮助提升算法识别结果的可靠性。但是人工智能算法结构的复杂性和多样性、不可解释性、目标函数的局限性等,仍然是影响其可靠性的重要因素。一个人工智能算法尽管可能获得很好地识别检测性能,但是如果其产生的结果不可解释,甚至是不可控,那么这个算法会因为无法展现更多的可靠信息而受到应用限制[19]。
(3)应用输入数据。应用输入数据是指人工智能算法运行的输入数据,对于需要训练样本的遥感目标识别任务,输入的遥感数据容易存在与训练样本分布模式不同的情况,这会导致人工智能算法失效。例如,在识别遥感变化目标的任务中,应用数据的分布模式难以估计,存在低似然性问题,即绝大多数地物未变化而且变化类型和数量难以估计。地表覆盖的复杂性和成像条件与训练样本的差异性,都容易导致基于该人工智能模型的遥感变化检测算法可靠性降低。此外,异常输入数据如存在极端值的遥感数据也是导致人工智能算法可靠性下降的重要因素。针对具体的人工智能模型,通常都存在对抗性样本使算法失效的情况[20],因此,对抗性样本也是影响人工智能算法可靠性的因素之一。
分析遥感目标识别各个过程中的可靠性影响因素可以帮助研究其可靠性提升策略,目前已经取得了一定的研究进展[4,21],主要可以归纳为以下4个方面。
(1)分析数据的不确定性分布模式。如分析双时相数据的配准误差[16]、联合不确定性[22]等对结果可靠性的影响,发展可靠的图像配准、几何校正、辐射校正等预处理算法,来降低数据获取过程中的不可靠因素,旨在提升遥感数据源的可靠性。
(2)结合各种数学模型。如动态阈值模型[23]、马尔科夫模型[24]、水平集模型[25]、模糊拓扑模型[26]、局部光谱趋势相似性模型[27]等,旨在基于遥感数据的时空特征对结果进行优化,以提高识别结果在模糊区域的可靠性。
(3)融合多种数据、特征和算法。如融合多源遥感数据[28]、融合多特征方法[29-30]、融合多算法和多尺度结果[31-33]等,可以有效避免单一数据、特征或算法失效导致的低可靠性。
(4)恢复细节。通过恢复检测目标的细节,提高边缘位置目标识别的可靠性。文献[34]利用不确定性分析提高变化目标的边缘准确度。文献[35]首先利用亚像素方法恢复像素细节,然后进行变化检测,以提高变化目标检测结果的可靠性。
上述遥感目标识别的可靠性提升策略中,人工智能技术也发挥了重要作用。文献[36]设计了一种深度神经网络,提升了遥感图像的配准精度,可以用于提升预处理过程的可靠性。文献[37]结合深度学习模型和条件随机场数学模型用于遥感影像的滑坡识别,提升了滑坡边界在模糊区域的可靠性。文献[38]利用卷积神经网络从卫星影像和点云中识别城市树木的类型,试验证明多源遥感数据的使用,提高了识别结果的可靠性。文献[39]结合边缘损失函数来提高建筑物识别边缘位置的可靠性。文献[40]设计了一种基于多尺度、多任务的深度学习模型,实现了基于高分辨率遥感影像的道路识别,多尺度和多任务的设计使模型保留了空间细节的同时也提高了特征提取的稳健性。
此外,发展可靠的人工智能算法,也是提升智能化遥感目标识别可靠性的重要途径,目前的研究可以归纳为以下3个方面。
(1)提高算法识别能力。旨在通过设计各种新的人工智能模型结构提高算法识别能力。文献[41]设计了一种具有旋转不变性学习能力的网络结构来处理目标旋转变化的问题,提高遥感目标识别的性能。这种通过提高识别结果的准确性和完整性来提升算法的可靠性,是目前大部分研究主要关注的方向[4,42-43]。
(2)降低对训练样本的要求。旨在通过发展各种人工智能学习算法,如无监督[44]、弱监督[45]、半监督[46]等算法及生成对抗[47]、样本增广[48]、小样本学习[49]、迁移学习[50-51]等训练策略,降低算法对训练样本的依赖程度和提高容错能力,提高模型的稳健性和适用性,从而提升可靠性。
(3)提高人工智能算法的可解释性。人工智能用于遥感目标可靠性识别首先需要提高算法自身的可解释性,才能保证算法可以被人理解、控制和信任[52-53]。因此,人工智能算法的可解释性也是可靠性方法需要研究的重要内容,其中深度学习模型的可解释性研究是人工智能应用领域目前最具有代表性的方向。根据文献[54]对深度学习模型可解释性的定义可知,按可解释性的解释范围可以分为全局可解释性和局部可解释性;按可解释性的阶段可以分为建模中的可解释性和建模后的可解释性。目前主要的3个研究方向为:①通过模型内部可视化分析,使模型的推理过程变得透明、可理解。②利用知识表征解释模型各个模块的语义特征,通过特征扰动和对抗性样本分析各个特征对模型预测的影响。③基于已有可解释性模型和工具如决策树对黑盒模型进行建模后解释。
受到计算机领域相关研究的推动,可解释性人工智能已经逐渐应用到遥感目标识别[55-59],但是还缺乏系统的理论研究。因此,遥感领域的可解释性人工智能的理论和方法需要进一步的发展。例如利用模型可解释性相关技术探测人工智能模型的决策弱点和决策逻辑,利用其生成的对抗性样本来进行对抗训练,可以进一步提升模型的稳健性[60],从而得到更可靠的模型用于目标识别。
遥感目标识别的整体可靠性评估是算法能否实际应用的重要保证,因此,需要根据可靠性影响因素分析,构建相应的可靠性评估指标体系。针对不同的应用需求,可以构建不同的可靠性评估指标体系。通过加权的方式确定各个指标的重要性,最终用于计算整体可靠性指数。针对目标识别算法的评价指标和针对识别结果的评价指标两类,如图4所示。
图4 智能化遥感目标识别的可靠性评估
(1)针对目标识别算法的指标。目前,人工智能算法的可靠性评估已经有一定的标准化研究,文献[61]提出了深度学习算法的可靠性评估指标体系,包括:①算法功能实现;②代码实现;③目标函数;④训练数据集;⑤对抗性样本;⑥软硬件平台;⑦环境数据。文献[62]介绍了如何研究人工智能算法模型安全指标和可信赖标准。文献[63]阐述了这些人工智能技术的可靠性评估方法和标准的发展,为智能化目标识别算法在遥感领域的可靠性评估提供了重要依据。
(2)针对识别结果的指标。遥感目标识别结果可以作为一般测绘成果进行可靠性评估,其可靠性指标需要反映识别结果与参考数据表述情况(代表现实世界的真值)的吻合程度,现有的指标包括[21,64]:①准确性(识别结果反映真值的准确程度);②完整性(识别结果与真值相比的符合与缺失的程度);③现势性(识别结果与评价时刻真值的吻合程度);④一致性(识别结果的类型与真值的一致程度);⑤尺度合理性(识别结果在当前尺度上与真值的符合程度);⑥适用性(识别结果在具体应用领域的适用程度);⑦稳健性(抗干扰性,即稳定表达真值的能力)。这些评价指标从不同方面反映了识别结果的可靠程度,通过这些指标构建的可靠性评估体系可以保障遥感目标识别最终结果的整体可靠性。
在智能化遥感目标识别的具体应用中,通常需要根据应用的可靠性需求,构建不同的评价指标模型,通过设置权值表示可靠性指标的重要程度。最终计算得到的整体可靠性评价指数一方面可以为提升智能化遥感目标识别的可靠性提供指导方向;另一方面可以为依据识别结果进行的决策提供可靠性保障。
遥感目标识别可以视为一个系统工程,各个处理过程可以通过可靠性评估指标进行可靠性分析,其分析结果可以进一步用于过程可靠性控制,最终通过调控算法过程中的可靠性影响因子提升整体方法的可靠性。文献[65]研究了地理国情遥感监测数据变化检测可靠性控制算法,通过顾及邻域局部不确定性来提升算法结果的可靠性。
过程可靠性分析是指分析遥感目标识别过程中各种可靠性影响因素随着系统过程不断地传递与积累,以及可靠性影响因素之间的相互作用,从而影响最终结果可靠性的过程。而过程可靠性控制旨在利用过程可靠性分析,结合可靠性评估指标,建立系统过程的可靠性推理模型和可靠性影响因素之间的相互关系,从而找出重要的可靠性影响因子并进行可靠性控制,建立对应的可靠性控制方法[64]。
智能化遥感目标识别的过程可靠性控制如图5所示,主要包括两个关键步骤:
图5 智能化遥感目标识别的过程可靠性控制思想
(1)对识别过程中的可靠性传播进行建模,并对其可靠性传播规律进行分析,建立可靠性状态转移序列,用于可靠性影响因子的重要度分析。
(2)通过指标评估过程中的可靠性影响因子,加强对重要因子的过程可靠性控制,并通过优化方法设计达到提升识别过程总体可靠性的目的。
有效的过程可靠性控制方法有助识别关键的可靠性影响因素,并控制这些因素对结果可靠性的影响。这是智能化遥感目标可靠性识别的重要研究内容之一。
人工智能用于遥感目标识别已经成为重要研究方向之一。结合笔者团队有关研究,本文提出以下几个展望。
人工智能的可靠性受到先验知识和训练过程的影响。目前遥感领域存在的已标注训练样本数据集的数量和规模都比较小,缺乏可靠性保障。因此,除了通过人工标注制作可靠的训练样本数据集外,利用无监督学习方式有可能解决这一问题。这些人工智能算法通过自身改进而降低对训练样本的依赖,在减少人力和物力消耗的同时,可以提高算法对任务的适应性和稳健性,不易受训练样本分布模式的局限,从而提升算法的可靠性。
如上文所述,不可解释的人工智能是不可靠性的重要来源因素。目前可解释性人工智能的研究还不够成熟,没有统一的理论和标准,特别是在遥感领域还处于起步阶段。因此,还需要更深入的研究,探索能够应用于遥感目标识别甚至是其他遥感应用的可解释性人工智能。
从算法应用实现角度考虑,遥感应用通常会面临大数据量、多数据类型、复杂地表覆盖等挑战,导致基于人工智能的遥感目标识别算法复杂且难以理解,同时也需要大量的计算机资源支持。对于复杂的遥感目标识别任务,单一的人工智能算法很难实现全部任务目标。因此,可以将复杂任务分解成多个简单且容易理解的任务并实现原生分布式算法,利用分布式计算或边缘计算等技术实现复杂任务的模块化处理,这种解耦合实现除了可以提升整体算法的执行效率外,还有助于提升整体算法的可解释性和可靠性。
测绘行业已经进入大数据时代,随着观测手段和观测能力的提高,以及空天地一体化观测平台的发展,多源遥感数据的融合处理是必然的发展趋势。基于多源遥感数据的目标识别一方面可以提高遥感数据利用率,另一方面可以提高方法与结果的可靠性。因为多源数据的使用,本质上是一种通过冗余信息使用提高可靠性的思想。
同时,随着国家众多遥感监测任务的实施和智慧城市的建立,遥感目标识别应用需求的时间频率不断提高,从年度观测到月度观测甚至到实时观测;空间维度不断扩展,从二维到三维甚至到多平台、多角度观测,这给基于多源、多时相遥感数据的智能化遥感目标识别的可靠性控制带来了新的机遇与挑战。
将人工智能与遥感信息处理有机结合是重要发展趋势,可靠性问题是这个发展中的重要研究课题。本文提出智能化的遥感目标可靠性识别的总体设计,作为抛砖引玉,希望可以推动可靠性遥感目标识别的发展,包括基础理论、智能方法、实用技术、国家和行业标准的系统发展与实践,最终使新一代测绘技术实现智能化的同时具有高可靠性。