面向SAR图像解译的物理可解释深度学习技术进展与探讨

2022-03-05 14:34:40黄钟泠姚西文韩军伟

雷达学报 2022年1期

黄钟泠姚西文韩军伟

(西北工业大学自动化学院西安 710072)

1 引言

合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动式微波传感器，可以不受光照和气候的影响进行全天时全天候的成像，在军事和民用的对地观测领域具有重要的应用价值。不同于可见光或红外等光学遥感手段，SAR主动发射电磁波作用于地物和目标并产生调制效应，其后向散射被雷达接收形成回波信号，通过成像处理算法生成二维SAR图像[1]。因此，SAR图像反映了地物和目标的微波特性，成像结果受波长、入射角、极化方式等多种因素影响，且与目标的结构、排列、材质等特性紧密相关，和人类视觉系统更为熟悉的可见光图像相比差异较大，如图1所示[2]。

图1 Sentinel-1卫星在不同成像条件下拍摄的SAR图像[2]Fig.1 The SAR images obtained by Sentinel-1 under different imaging conditions[2]

SAR图像解译面临诸多挑战，专业判读人员通常需要在了解SAR成像机理和微波散射特性等背景知识的情况下才能准确判读解译SAR图像中的地物目标[3]。传统的SAR图像解译智能化方法大多基于丰富的专家知识和理论模型来设计[4–6]，这些方法具有较强的可解释性，但手工设计的特征往往只偏向SAR图像在某方面的特性，对领域知识的要求较高，设计过程费时费力。近年来，随着人工智能技术的蓬勃发展，基于深度学习(Deep Learning,DL)方法的SAR图像解译研究在本领域逐渐成为主流。深度学习能够搭建一个端到端的系统，进行自动化多层级特征提取并同时学习目标任务，克服了手动设计特征和分类器带来的局限性，并且在性能上获得了显著的提升[7]。

当前主流的SAR图像解译深度学习方法大多数从计算机视觉领域发展而来，主要面向SAR幅度图像的视觉信息开展研究，通过卷积神经网络对SAR幅度图像进行自动特征学习，根据特定任务设计损失函数进行优化[7–10]。数据驱动方法的优势在于能够自动地从大规模数据中学习到潜在的模式和规律，然而在SAR图像解译实际应用中，通常会面临以下几个方面的困境：

(1) 可学习难解释：深度神经网络(Deep Neural Networks,DNN)的学习能力不容置疑，但模型复杂难以解释。在战场监测等一些特定的SAR应用领域要求模型预测结果应具有较高的可靠性和可信度，当前深度学习模型的“黑箱”性质限制了判读/决策人员对结果的理解，难以在实际场景中广泛使用。

(2) 大数据小样本：尽管目前在轨SAR卫星能提供海量的大数据，但由于目视解译困难，大规模标记SAR样本的代价较高，利用小样本标记数据训练深度神经网络是目前亟待解决的一大难题；即使积累了一批优质的标记样本，在面临新的SAR图像解译任务时，训练好的模型也很容易因为成像条件参数等因素的影响，在新的SAR图像数据上泛化性能低下[8–10]。

(3) 视觉认知局限：尽管SAR图像的空间纹理信息是进行SAR解译的重要依据，但由于SAR特殊的微波成像机制，一些散射复杂的目标在视觉上难以区分，只基于幅度信息发展深度学习方法无法全面理解SAR图像信息[11]。

笔者认为，区别于计算机视觉发展物理可解释的深度学习方法对解决上述SAR图像解译中存在的问题有积极的促进作用，并且对挖掘微波视觉的物理智能具有重要意义[12]。本文提出的物理可解释深度学习(Physically Explainable Deep Learning,PXDL)旨在建立一种混合式模型，将SAR已有的物理模型或专业判读知识与深度学习相融合以提升模型本身的可解释性。数据驱动方法对数据利用率高，理论模型的可解释性强，建立混合式模型可以使二者优势互补，有助于提升算法透明度，增强可解释性，并减少对标记样本的依赖，这也是发展第三代人工智能的必经之路[13]。可解释人工智能(Explainable Artificial Intelligence,XAI)是目前AI领域的一大前沿研究方向，学界针对深度学习的可解释性(XDL)也开展了很多工作[14–18]，其中一大类属于事后解释(post-hoc)，运用一些可解释性分析工具在建模之后对模型做出解释，在SAR领域的相关工作可参考文献[19–21]等。本文所提的PXDL更倾向于XDL中自解释(self-explanatory)模型的范畴，可以认为是XDL特别面向SAR图像解译的应用技术，通过类似物理机器学习的手段构建本身具有一定可解释性的SAR智能解译模型。

不同于传统基于计算机视觉的深度学习思路聚焦于“图像”进行解译，物理可解释的深度学习方法应在多个维度上构建可学习且可解释的SAR图像智能化解译新范式。受专业判读人员认知过程的启发，图2提出了从信号、特性、图像和应用多阶段进行SAR解译的思路。从SAR图像中自动挖掘高层语义特征以实现端到端的应用任务是当前常见的深度学习解译流程，与之同样重要的也包括学习SAR的成像机理、明确成像条件对结果的影响、理解目标的物理散射特性等，这些过程目前大多基于可解释的物理模型来完成。一方面，当前一些理论模型采用诸多假设和近似，对复杂情况很难准确构建完备的物理模型[4]，对理论不足或建模复杂的物理过程，可借助数据驱动的方法实现模拟或替代，或者自动挖掘新模式或进行参数估计，与此同时，利用已知的部分知识在网络学习优化过程中作为约束，防止模型学习到违背物理认知的结果；另一方面，对于传统数据驱动的SAR图像理解算法，合理利用已有的SAR物理模型或专业判读知识引导深度神经网络进行自主学习，充分发挥大量无标记样本的作用，以此获得泛化能力更强，且具备物理感知能力的模型，保证解译结果的物理一致性。

图2 物理可解释的深度学习 SAR 图像解译应从多个维度开展研究，充分结合数据驱动和知识驱动的模型，逐步发展可学习且可解释的智能化图像解译新范式Fig.2 The PXDL for SAR image interpretation is supposed to be carried out from multiple aspects,that deeply integrates the data-driven and knowledge-driven models to develop the novel learnable and explainable intelligent paradigm

本文首先简要介绍了物理机器学习这一新兴的研究方向，并结合SAR图像解译的具体过程总结了如何发展物理可解释深度学习的基本思路；然后本文回顾了最近两三年时间内，结合物理模型和深度学习的方法在SAR图像仿真、物理特性理解、目标检测识别等关键应用领域的研究进展；最后，本文对物理可解释的SAR图像解译深度学习技术与应用的未来研究方向进行了展望。

2 物理机器学习

物理机器学习，即Physics-ML(Machine Learning)，是近来提出的一种新型机器学习手段，旨在将物理知识嵌入机器学习模型(主要是深度神经网络)来解决病态问题或逆问题，以提升模型性能、加快求解速度、改善泛化能力，现已在流体力学、空气动力学等多个领域取得了出色的应用效果[22]。物理机器学习目前在基于非线性偏微分方程的物理过程相关领域应用广泛，Thuerey等人[23]对此做了详细的介绍，主要策略在于利用神经网络的自动求导机制将物理过程的偏微分方程嵌入到DNN的损失函数中，例如Raissi等人[24]提出的PINN (Physics-Informed Neural Network)框架及相关应用改进[25,26]，现已成为学界最主流的物理机器学习方法之一。

在地球科学与遥感领域，文献[27–30]等对结合物理模型的机器学习/深度学习方法和相关应用进行了总结和展望，主流思想包括改进目标函数、搭建混合模型等，涉及水文学模型、辐射传输过程、气候变化等应用。例如以湖水温度反演问题为代表的文献[31,32]等提出的PGNN (Physics-Guided Neural Network)学习框架，将物理模型的预测结果同观测数据一起输入神经网络，并作为约束限制神经网络的学习，类似的还有文献[33]在大气对流预测中的应用。和本文探讨的主题比较相关的研究包括文献[34,35]给出的在光学遥感图像和地震波解译中的应用，文献[36,37]提出的在波束形成中的应用。相比之下，SAR内在的电磁散射等物理模型更为复杂，与SAR相关的物理机器学习方法研究还处于非常初步的阶段，在上述总结性文献[27–30]中未有体现，近期SAR深度学习的综述性文章[38]也缺乏对这方面研究现状的总结和讨论。

3 SAR的物理可解释深度学习

图3详细展示了图2提出的从信号层级到语义理解任务的SAR图像解译过程，黄色代表物理模型，绿色是每个模块的输入和输出，红色模块通常情况下由深度神经网络实现，蓝色代表相关的参数集合。物理可解释深度学习在SAR图像解译任务中可能的实现思路在图中以数字编号标出，①②③包含在物理过程中整合数据驱动方法进行替代或模拟，通过数据驱动方式求解物理模型所需的参数集等，对应以下3.1节、3.2节和3.3.1节介绍的内容；③④⑤涵盖在DNN学习过程中加上物理模型的引导或约束，或者作为已知信息为数据驱动方法提供先验等，对应以下3.3.2节、3.4节和3.5节。本节基于图3简单概述了如何发展物理可解释深度学习的基本思路，具体的实现案例在第4节、第5节给出。

3.1 DNN改善物理模型的参数化

运动平台携带雷达传感器发射电磁波信号，作用于地面场景和目标后形成回波信号被传感器接收，然后通过成像系统的处理得到二维的复值SAR图像数据，成像结果与场景/目标的物理性质和传感器及平台的工作参数紧密相关。在目标识别等应用场景中通常会基于电磁散射模型仿真目标以扩充样本，或利用电磁散射模型辅助目标识别[39,40]。不管是电磁仿真计算还是电磁散射参数化建模，都需要确定一些重要的参数，这个过程一般来说非常复杂。类似这样的情况，可以借助大量的观测数据通过深度神经网络自动学习映射规律，将其植入物理模型以改善参数选择。

3.2 DNN模拟复杂非线性物理过程

复杂的非线性物理过程计算复杂度较高，且存在模型误差。随着GPU硬件加速和并行计算的发展，多层堆叠的深度神经网络具有高效的前向推理速度和强大的拟合非线性复杂模型的能力。因此，类似图3中SAR成像系统或SAR电磁仿真系统等比较复杂的非线性物理过程可以直接用深度神经网络来模拟，此举还将有助于成像解译一体化网络的实现[41]。但要注意的是在学习过程中仍旧需要考虑理论知识的干预，防止网络得到违背物理规律的结果。

图3 SAR图像解译思路，①②③④⑤表示可以发展物理可解释深度学习方法的模块Fig.3 The SAR image interpretation guideline,①②③④⑤ are the potential modules to develop PXDL

3.3 DNN和物理模型相互替代

3.3.1 可靠物理模型替代部分NN层

过去在图像处理领域例如Chan等人[42]针对图像纹理特征抽取和分类提出了PCANet架构，基于级联主成分分析构造滤波器来代替前面的卷积层，以此简化DNN参数学习，在SAR图像解译任务中也有相关应用[43,44]。笔者认为类似的研究思路也可用于发展物理可解释的深度学习技术。针对SAR成像系统输出的二维复值图像，基于一些有充分理论基础的物理模型可以对其进行物理散射特性的分析与解释，例如针对全极化SAR图像的极化分解模型[45,46]，基于傅里叶变换的子孔径分解模型[47]，描述目标的属性散射中心模型[48]等。这些物理模型本身能够提供可解释的特征表示，在深度神经网络的设计中替代部分神经网络层，可以提供有意义的先验并减少网络需要学习的参数。

3.3.2 DNN替代不完备的物理模型

当物理模型不完备，或缺少全面的理论分析时，微波散射特性无法得到完整的描述与解释。例如对于双极化或者单极化SAR图像来说，极化分解模型的应用效果将大打折扣[49]。在这种情况下可以采用深度神经网络进行替代，借助大规模的数据主动发现潜在的映射关系。数据驱动的学习结果能够弥补人类的不充分认知，但这类方法易体现出数据偏向性，泛化能力有待商榷；其学习结果是否能被人类所理解，能否有效支撑具体的解译任务，也是值得思考的一个问题。

3.4 物理模型引导/启发DNN学习

传统基于深度卷积神经网络的方法大多作用于SAR幅度图像，借助堆叠的卷积学习到层级式的特征表示，其高层特征具有特殊的语义含义。另外，判读人员可以基于物理散射特性推断出地物目标类别，即物理散射特性也内含语义信息。例如图4展示的极化 H/α平面的区域划分和地物类别对应的极化熵/极化角分布情况[50]。由此可以设计物理模型引导神经网络学习的方案，利用海量SAR图像及其散射特性构建无监督的学习回路来增强泛化能力，同时引导模型学习到具备物理感知能力的高层语义特征表示。此外，物理模型提供的理论知识也能启发深度神经网络模型的设计或初始化，使网络结构参数本身具备物理意义。

图4 文献[50]给出的全极化SAR图像H /α平面，以及选取的部分地物样本在其中的分布Fig.4 The H /α plane for full-polarized SAR data and the selected land-use and land-cover samples distributed in Ref.[50]

3.5 物理特性参与/约束DNN决策

缺少标记样本是SAR目标识别等典型任务中常见的一大难题，端到端的CNN训练可以直接预测SAR图像的语义标签，但小样本为网络优化带来了挑战，网络参数空间在有限观测样本的学习下难以找到泛化性能较好的解。小样本条件下考虑将SAR的物理散射特性作为额外信息加入网络训练过程，或者作为约束限制参数优化空间，能够可观地节约学习成本，提升模型泛化能力。

为了更充分地挖掘SAR图像的本质，上述过程多有涉及对复数数据的处理，发展当前流行的多种深度神经网络架构对应的复数形式很有必要。需要说明的是，以上5大类针对SAR解译的物理可解释深度学习方案只是选取了图3中标注的5个模块作为案例进行了阐述，但实际上同一种任务可以采用不同的物理可解释深度学习方案，不同的方案也可以整合到一个算法实现中。接下来两节的内容将按信号与特性，语义与应用两方面对当前的研究现状进行回顾。

4 SAR信号与特性理解中的PXDL

在对SAR信号和物理特性的理解阶段，过去大部分研究都是基于SAR的物理本质发展经验性或理论性的模型进行处理或分析。近来随着深度学习技术的快速发展，也有很多学者开始关注如何借助数据驱动的优势来弥补当前基于理论和经验方法的不足。

4.1 SAR图像仿真

SAR图像仿真能够模拟不同的场景目标和成像条件，为后续的解译任务积累大量的数据。基于物理模型的SAR目标电磁仿真多年来都是学界关注的一大难题，仿真参数的选取是其中一个非常重要的步骤，直接关系到仿真结果是否和真实样本相似，从而有效辅助后续的解译任务。如3.1节所述，深度学习可以嵌入已知的物理模型中来改善物理模型的参数化，这里介绍SAR图像仿真中的几个典型应用案例。Niu等人[51]提出了用不同的深度神经网络结构从真实SAR图像中提取仿真参数，实现了自动化设置仿真参数，提升了仿真结果与真实样本的相似度。此外，Niu等人[52]通过在电磁仿真系统中嵌入深度神经网络，从真实SAR图像中学习实际的电磁反射模型，保持成像模型不变，即只是利用深度神经网络改善电磁反射系数的计算，显著提升了仿真图像的质量。

目前应用更为广泛的方式是用深度神经网络完全模拟SAR图像仿真，一般采用基于生成对抗网络(Generative Adversarial Networks,GAN)的方法来实现，如3.2节所述。一开始，基于GAN的SAR图像仿真仍以计算机视觉领域的相关技术为原型[53]，后续的研究也逐渐开始考虑SAR图像生成需遵循的物理规律，利用条件生成对抗网络等技术将类别、方位角、观测俯仰角等参数纳入学习系统。Oh等人[54]考虑到方位角对SAR目标成像结果的影响，提出了基于多任务学习的Peace-GAN来生成SAR图像，同时完成SAR目标的姿态估计和分类，类似的研究还有文献[55–57]等。Hu等人[58]基于条件变分自动编码器(Conditional Cariational Auto-Encoder,CVAE)和生成对抗网络构建了SAR目标的生成模型和可用于目标识别的特征空间，可以在给定类别标签和观测角度的条件下生成较为合理的SAR图像，并且借助VAE构建了具有一定可解释性的SAR目标特征空间，在变化的方位角上有连续的特征表示。

总的来说，以文献[51,52]为代表的研究保留了电磁仿真的物理过程，深度神经网络用来改善物理模型的子模块(例如参数选择)，在保证仿真结果物理一致性的基础上提升仿真图像的质量，具备良好的泛化性能，该领域未来还有很大的发展空间。基于生成对抗网络的SAR图像仿真方法[53–58]在计算复杂度、可操作性等方面优势明显，但如何保证生成SAR图像的结果不违背电磁散射规律，能够用物理知识进行解释，仍然是本领域亟待解决的问题。其他领域也有一些工作通过在GAN网络中嵌入物理量来控制生成结果，利用已知的物理方程进行对抗学习，使生成结果更逼近真实情况，例如文献[59,60]针对流体模拟开展的相关研究，可以为本领域的后续发展提供一些参考与启发。

4.2 SAR学习成像

近来也有一些学者开展了在SAR成像系统中集成深度学习技术的研究来提升成像质量和计算效率，一方面成像质量的提升有利于后续SAR图像的解译，另一方面罗迎等人[41]提出通过深度学习建立成像解译一体化的思路，从回波数据中学习目标参数域的信息以服务于SAR图像解译。

目前在SAR成像领域结合深度学习技术的一种研究思路如3.1节所总结的，在已有的成像算法中集成深度学习改善参数化选择。例如在ISAR成像中，Qian等人[61]指出用于机动目标成像的传统距离瞬时多普勒(Range Instantaneous Doppler,RID)方法存在分辨率低和噪声抑制能力差的问题，因此提出一种基于深度学习辅助时频分析(Time-Frequency Analysis,TFA)的超分辨率ISAR成像方法，深度神经网络用于学习低分辨率频谱输入与其高分辨率参考信号之间的映射函数，集成到RID成像系统中实现超分辨率的清晰聚焦。传统基于压缩感知的成像算法需要手动预定义最优参数以及耗费大量时间进行迭代重建，由此Liang等人[62]提出将CNN与传统迭代收缩阈值算法相结合，在成像过程中自动学习最佳参数，保证算法依旧具备物理可解释性。

也有研究利用深度神经网络模拟成像算法，本质是将信号处理优化算法用神经网络的形式加以重新表述，利用深度神经网络训练的方式对算法参数进行训练，改善成像性能。许多迭代稀疏重建算法展开后能够产生一个可学习的神经网络，例如基于迭代收缩阈值算法(Iterative Shrinkage Thresholding Algorithm,ISTA)发展的可学习ISTA(LISTA)[63]、分析型LISTA (ALISTA)[64]、神经增强型ALISTA[65]，基于交替方向乘子法(ADMM)发展的深度学习模型ADMM-Net[66]、ADMM-CSNet[67]等。在稀疏微波成像领域，Mason等人[68]首次提出基于ISTA算法设计深度神经网络对SAR成像过程进行建模，模拟了ISTA的迭代优化过程，证明了深度学习比传统的ISTA算法具有更快的收敛性和更低的重构误差，在此之后有很多学者跟进了研究，例如文献[69–72]等。基于ADMM开展SAR学习成像的工作包括文献[73–75]等。近期的一个工作[76]对当前的研究进行了简单的总结，指出后续研究还需进一步提升深度学习方法在SAR成像应用中的可解释性和通用性。总的来说，借助深度学习有望发展快速、高精度、高分辨率的成像算法，构建成像解译一体化智能系统，该领域未来有着巨大的发展潜力。

4.3 微波物理特性理解

理解SAR图像的微波物理特性对SAR目标和场景的分析具有重要意义，例如极化分解模型、子孔径分解模型、干涉相位图等现已广泛应用在地物分类[77]、运动目标检测[78]、地形沉降监测[79]等领域。在一些特殊的应用场景下，现有的物理特性分析模型很难直接使用，例如双极化和单极化SAR数据的极化分析效果较差[49]，干涉测量由于大气、地形等因素影响存在相位噪声[80]等。当前已有一些深度学习技术在以上相关领域对物理模型进行了替代，利用数据驱动的方法来学习SAR的微波物理特性，如3.3.2节所述。

一个典型的任务是极化信息反演，目的是从非全极化SAR数据中获取目标完整的极化特性。文献[81,82]都提出利用深度神经网络从单极化SAR图像中学习完整的极化信息。其中Song等人[81]提出用卷积神经网络抽取单通道SAR幅度图像的纹理特征，再通过一个特征转换网络将其映射到极化特征空间，恢复极化协方差矩阵中的主要元素，类似的还有文献[83]。Zhao等人[82]则提出基于复数卷积神经网络学习体散射、单次散射等，应用于单/双极化SAR的物理散射特性分析。上述深度学习方法都利用已知的极化物理模型，例如极化协方差矩阵[81,83]、Cloude &Pottier分解[82]，制作真值标签数据作为监督信息驱动深度神经网络学习，使得单通道SAR图像的目标极化散射特性描述成为可能。

SAR图像上色是该方向的一个主要应用。这里值得说明的是SAR图像上色目前一大研究分支主要类比计算机视觉领域的黑白图像着色(Image Colorization)[84]，或者风格转换(Style Transfer)[85]，更关注如何给单通道的灰度SAR图像赋予颜色特征或转换到彩色的光学遥感图像风格，以方便人类的视觉解译[86]，但无法保证SAR的物理一致性。本文讨论的工作[81–83]更关注通过深度学习获得极化信息，利用Pauli分解形成伪彩色图实现SAR图像上色，使上色结果具备物理意义。

SAR图像沿方位向的子孔径分解在动目标检测、相干目标检测等研究中应用广泛[87,88]，此外Spigai等人[89]提出基于复数SAR图像的二维时频分析理论对4类典型目标进行了建模，Ferro-Famil 等人[90]通过分析极化特性随方位角变化的特征对场景中的非平稳目标进行了建模，但这些经验性模型难以全面概括大面积场景中所有复杂目标。基于此，Huang等人[91]提出了一种无监督学习的思路，利用深度神经网络全自动地挖掘目标后向散射随距离向和方位向变化的模式，并将其扩展至极化SAR数据中[92](如图5所示)，对文献[89,90]的经验性知识通过大数据驱动的方式进行了验证和完善。

图5 基于时频分析和极化特征扩展时频分析模型的无监督学习方法在不同极化SAR图像上的结果比较[92]Fig.5 The unsupervised learning results of different polarized SAR images based on TFA and pol-extended TFA models[92]

深度神经网络学习到的微波物理特性还应当合理遵守SAR的物理本质，满足物理可解释性。例如Song等人[81]指出单极化SAR图像恢复的极化协方差矩阵需要满足半正定的约束；Huang等人[91]通过无监督学习得到的目标散射类别应当涵盖文献[89]提出的4种典型目标；De等人[93]尝试解释深度神经网络的结果并将其输出与SAR的物理特性相关联。

5 SAR语义理解与应用中的PXDL

相比于对SAR信号和特性的理解，传统深度学习算法在SAR图像语义理解与应用方向起步更早，过去的几年时间内已在自动目标识别、场景分类、变化检测等多种类型的任务上具备了扎实的研究基础，近来也有越来越多的学者开始关注如何结合物理模型的优势开展深度学习方法研究。

5.1 物理引导与注入式学习建模

本节基于笔者在文献[94]所提的方法展开介绍一种新的SAR图像语义理解任务深度学习范式。

将复数SAR图像表示为x，语义理解任务的标签表示为y，传统数据驱动的学习范式构建端到端的深度神经网络映射f，以x(或者幅度信息xI作为输入，学习语义标签y，记为f:x →y，输入数据决定神经网络参数选用实数或者复数形式。可以看出，训练映射f需要大量的标记样本(x,y)，在SAR图像解译实际应用场景缺少标注样本时，迁移学习、小样本学习等优化策略都是解决这个问题的途径，此处不展开说明。本文要探讨的是如何通过物理知识的干预减少深度神经网络对标记样本的依赖，这里介绍的物理引导与注入式学习的构想(Physics Guided and Injected Learning,PGIL)依托3.4节和3.5节给出的思路，具体如图6所示。

图6 物理引导与注入式学习Fig.6 Physics guided and injected learning

假定已知的物理模型fphy以SAR图像数据x作为输入，输出记为yphy。对于SAR图像来说，这里的yphy可以表示属性散射中心[95]、极化散射特性、子孔径分解信号[11]等多种含义。文献[32]提出的PGNN模型将yphy和已知的观测样本一起构成混合物理数据，作为网络输入进行预测，即学习映射

这类方法可简单总结为多模态的融合型学习，已有研究在SAR图像分类或目标识别上实现了在数据[96]、特征[95]和决策层级[97]进行融合。

此处介绍的PGIL范式与以上融合方法稍有不同，它包含了无监督的物理引导式学习(PGL)和有监督的物理注入式学习(PIL)两个阶段：

PGL即利用物理模型提供的知识驱动深度神经网络训练，不依靠语义标注信息，得到具有物理感知能力的语义判别性特征表示FPA。相比于直接将yphy作为现成的融合信息，FPA通过yphy的引导学习得到，以特征图的形式存在，适应性更强，并且更接近SAR图像的高层语义，可以有效支撑目标任务。无监督的训练模式可以充分利用大规模的样本进行训练，确保了FPA的强泛化能力。PIL则通过设计特征变换层将可继续优化学习的FPA注入传统数据驱动网络中，借助少量标记样本进行监督式学习，同时PGL中的物理知识可通过一体化网络连接形成目标函数的约束项限制网络训练。式(1)所述多模态融合学习可认为是式(3)的一种特殊情况，读者也可参考多模态特征融合的相关工作[98,99]来设计PIL特征注入方法。

5.2 SAR图像分类

笔者在SAR图像分类任务上开展了一些相关研究，这里结合上述PGIL学习范式做出简单的回顾与介绍。文献[11]提出的Deep SAR-Net (DSN)学习框架将复数SAR图像的子孔径分解拓展到连续二维频域空间获得高维时频“超图”(hyper-image)，提出了空域-频域特征融合SAR图像分类方法，如图7所示。与复数卷积神经网络(CV-CNN)直接作用于复数图像学习复数域到语义标签的映射相比，基于时频分析理论的图像分解相当于代替了CVCNN的一部分神经网络层来获取可解释的特征表达，如3.3.1节所述。图7的神经网络2采取了无监督预训练的模式，获得空间约束的频域特征表示，即实现了式(2)；后续特征融合再用于预测语义标签则是实现了式(3)。实验结果验证了DSN与传统CNN相比特别是在少数标记样本可用情况下的优越性，其平均准确率能提升8.58%，在人造目标类别上平均能提升14.06%；与纯数据驱动的CV-CNN方法相比在小样本条件下性能也有很大的提升。

图7 文献[11]所提的SAR图像分类框架Deep SAR-Net (DSN)Fig.7 The SAR image classification framework Deep SAR-Net (DSN) in Ref.[11]

为了进一步提升模型透明度，增进深度神经网络对SAR图像物理意义的理解，近来Huang等人[92,100]针对SAR场景图像分类和极地海冰类型识别提出了无监督的物理引导学习方法(PGL)来学习具有物理感知能力的判别性语义特征表示。用于引导的物理模型包括基于极化熵的H /α-Wishart[101]，基于极化Kennaugh矩阵和测地距离(Geodesic Distance)的GD-Wishart分类模型[102]、单通道复数SAR图像的连续二维子带分解[89]和极化扩展的二维子带分解模型[92]。目标函数的提出基于一个基本假设，SAR物理散射特性与SAR图像语义之间具有相关性，如图4所示，即物理和视觉信息存在共同的抽象语义表示。基于二者之间的语义关系设计可微的目标函数引导神经网络学习到既具备物理感知能力又包含高层语义信息的特征，完成式(2)描述的过程无监督的训练策略可以充分利用未标记的SAR图像样本，保证了特征在测试集上的泛化性能。文献[94]将特征的物理感知能力进行量化，证明了PGL所学特征内含传统CNN特征不具备的物理约束。图8展示了文献[100]所提无监督物理引导学习方法与CNN监督学习方法相比，特征在标记训练集和未标记测试集上的分布情况，可以看到物理引导学习得到的特征在未标记数据集上也能保证较好的语义判别性。

图8 无监督的物理引导学习与CNN监督分类学习在训练集与测试集数据上的特征可视化[100]Fig.8 The feature visualization of the unsupervised physics guided learning and supervised CNN classification on training and test set[100]

如3.5节所述，在预测和决策阶段，文献[92]提出将物理引导网络结合小样本学习算法进行分类，文献[94]设计了多尺度的特征变换算子以实现式(3)，并在决策学习过程中加入物理引导学习的约束，保证了分类语义特征的物理一致性。文献[94]还对作为驱动PGL学习的引导信号yphy进行了解释，分析了物理模型在整个算法过程中发挥的作用，以及如何约束最终预测结果使之具备物理一致性，通过yphy的可解释性对算法存在的缺陷和未来可改进的方向做出了讨论。

5.3 SAR自动目标识别

SAR自动目标识别(SAR-ATR)一直以来都受到很高的关注，对SAR-ATR的经典定义包括目标检测、鉴别和识别3大步骤，基于端到端一体化深度神经网络的方法一般将其分为目标检测和目标识别两部分内容。

目标的属性散射中心参数化建模在传统SAR目标识别方法中应用广泛，属性散射中心模型(ASC)基于几何绕射理论和物理光学理论，利用一组参数来描述目标的电磁和几何特性信息，能够较好地表示SAR目标的物理属性[48]。近期一些最新研究进展都采取了整合ASC模型与深度学习的思路，构建新型的SAR目标识别神经网络模型。

一部分研究遵循式(1)进行特征融合的研究。例如Zhang等人[95]提出两路FEC学习框架，将属性散射中心参数化表示通过词向量转化成特征形式，与CNN的特征图进行融合学习；Li等人[103]将ASC转化为几个具有确定物理意义的部件特征图表示，分别与CNN的全局特征进行融合，有效抓取了目标的局部电磁特性；文献[104]与文献[103]的思路类似，对ASC建模结果的部件进行分部卷积学习，并采用了双向卷积循环神经网络进行处理。Liu等人[105]提出将SAR目标图像的幅度和相位看作两种不同模态的信息，通过多模态流形特征学习与融合解决目标识别问题，在小样本条件下也取得了很好的性能提升，但幅度和相位在识别过程中各自都有怎样的作用效果仍然缺少明确的说明。可以看到，文献[95,103,104]利用ASC模型提供的散射中心几何信息强化了深度学习模型对SAR目标的理解，对改善神经网络的可解释性更有帮助。

另一类研究可归类于物理模型启发式学习，如3.4节所述，例如物理引导的神经网络设计，将物理原理通过神经元嵌入深度模型，使之具备物理可解释性。Liu等人[106]提出将ASC模型提供的领域知识应用于复数卷积神经网络第一层卷积核参数迁移学习，给神经元的初始化赋予了物理意义。图9展示了基于ASC模型初始化的复数卷积神经网络第一层卷积核幅度可视化图像[106]，横坐标φ0q表示从0°到90°的观测方位角，以10°为间隔，纵坐标LP表示不同的散射中心长度。与随机初始化神经元相比，此类方法不仅显著加快了网络优化，并且赋予复杂连接的深度网络一定的可解释性，获得具有物理意义的隐藏层特征表示。类似的工作还有Cui等人[107]提出的极化旋转核(Polarization Rotation Kernels,PRKs)在卷积神经网络中自适应地学习POLSAR的极化旋转角。关于如何将物理知识应用到神经网络设计中，读者还可以参考其他领域的相关研究[108,109]。

图9 基于ASC模型初始化的复数卷积神经网络第一层卷积核幅度可视化[106]Fig.9 The amplitude images of convolution kernels in the first layer of CV-CNN based on ASC model initialization[106]

迁移学习和领域适应也是SAR目标识别的一种常见研究思路，过去的一些研究提出了从SAR场景图像[9]、自然图像和光学遥感图像[8,10]到SAR目标识别上的迁移学习和领域适应方法。Malmgren-Hansen等人[39]于2017年首次提出将仿真SAR目标作为迁移源学习真实的SAR目标类型，但是考虑到SAR目标对成像参数十分敏感，例如方位角、俯仰角、入射波长等都会对SAR目标形态结构产生较大的影响，要想预训练模型能有效识别真实成像情况下的SAR目标，需要使之具备物理感知能力，在物理参数、目标特征和类型等多个维度上建立联系。近来，He等人[110]借助领域适应技术缩小在不同成像条件下仿真SAR目标的高层特征差异，以此保证预训练模型能具备识别不同成像条件下SAR目标的能力。文献[111]在SAR目标识别少次学习任务中将仿真SAR目标作为迁移源，结合与车辆的方位角、幅度和相位数据相关的SAR领域知识来进行数据增强。无独有偶，Agarwal等人[112]在研究中也提出基于物理模型去插值不同方位角的SAR目标作为数据扩充，以支撑深度学习算法的训练。

常用的目标识别公开数据集例如MSTAR[113]和OpenSARShip[114]都提供了原始的复数数据，有助于研究人员开展物理可解释深度学习研究，将属性散射中心等物理模型融入数据驱动方法中。然而面向SAR目标检测的公开数据集基本都只提供了幅度图像，例如AIR-SARShip[115]等，基于深度学习的目标检测大多源于计算机视觉并在图像域进行(详情可查阅综述文献[116])，这也是限制物理可解释的目标检测深度学习方法发展的一大重要因素。Lei等人[96]基于旋转框标注的复数SAR舰船目标检测数据集CSRSDD提出一种特征增强的深度学习方法，将子孔径分解的散射结果与幅度信息相结合输入网络进行学习。从数据量更充分、信息更完备的复数SAR目标检测数据集，到物理可解释的深度学习算法，SAR目标检测技术未来还有非常大的发展空间。

5.4 SAR图像语义分割

SAR图像语义分割旨在为SAR图像中每个像素点赋予一个语义类别标签，由于存在背景复杂、相干斑干扰、目标形态不连续等现象，基于计算机视觉深度学习算法的语义分割很难在SAR幅度图像上取得很好的效果。早期，像素级的SAR图像场景分类一般都在极化SAR图像上实现，因为极化特征能帮助区分不同散射特性的地物类型，后来的深度学习算法也常将极化特征分量作为神经网络的输入，增强深度学习模型对目标散射特性的理解[117–120]，以上可归类于3.3.1节阐述的思路。

建筑分割是SAR图像语义分割中一个重要的分支，广泛应用在全球城市化监测和建筑物三维重建等领域，本文重点讨论这一领域的研究进展。近来多个建筑区域(Buil-up Area,BA)分割或建筑物分割数据集相继被提出[121–125]，其中建筑区域分割主要针对大面积的中分辨率SAR图像对大片的城市建筑进行标注，例如文献[122]用到的10 m分辨率高分三号FSII成像模式的数据；建筑物分割则主要针对更高分辨率的SAR数据，将建筑物实例进行标注[121,123–125]，精细程度更高。由于SAR图像目视解译难度大，大多数的建筑分割数据集都基于对应的光学图像或街景(例如Open Street Map,OSM)等辅助数据进行标注。图10(a)展示了Xia等人[121]所提建筑物分割数据集中的两个标注案例以及深度学习模型的预测结果，可以看到像摩天大楼这类超高建筑在光学图像中还能清晰可见，但在SAR图像中由于多次复杂散射形成了一片无法区分的强散射点，基于OSM标注的真值反映的是建筑物在地面覆盖的二维信息，要求深度学习模型直接学习到从SAR图像到标注真值的语义映射非常困难。在另一个标注案例中，光学图像显示右上角并没有出现建筑物，但由于SAR图像存在顶底倒置的几何特征，在右上角出现了实际地理位置并不在此处的建筑的后向散射，在深度学习算法的预测结果中也体现了这一现象。严格来说，SAR图像中显示的不是建筑本身，而是电磁波作用于目标和周围环境之后的后向散射，深度学习模型需要依靠物理知识作为桥梁，跨越从后向散射表示到目标语义的鸿沟来实现对图10(a)中真值的预测。

Chen等人[123]提出的InSAR图像建筑物分割数据集对建筑目标的散射特性进行了标注，主要包括阴影、雷达叠掩或二次散射、地面或单次散射3个类别，如图10(b)所示。基于此设计的复数卷积图像分割网络CVCMFF-Net以InSAR主、辅图像作为输入，建立了从复数SAR图像到建筑物基本散射特性的映射关系，其分割结果具有可解释的物理意义，对进一步构建建筑目标的语义信息，分析目标位置、高度等信息打下了很好的基础。此外，中科院仇晓兰等人[125]近来基于单视复图像数据提出了SAR微波视觉三维成像数据集，对建筑物实例进行了精细的语义标注，保留了散射叠掩次数信息，但文中也表明仅基于视觉信息的语义分割深度模型(例如MaskRCNN)的精度较低[125]，基于该数据集的建筑物实例分割具有很大的挑战性，未来依旧有很大的研究空间，也期待在此数据集的基础上开展更多物理可解释的深度学习研究。

图10 不同SAR图像建筑物分割数据集和算法示例[121,123]Fig.10 The different SAR image building segmentation datasets and algorithms[121,123]

6 未来展望

总的来说，面向SAR解译的物理可解释深度学习方法目前还处于起步阶段，大部分较前沿的研究集中在SAR自动目标识别方向上，归因于该方向发展深度学习的起步较早，且有MSTAR等包含复数数据和成像参数等多维度信息的公开数据集支撑。针对当前领域仍旧存在的一些问题和挑战，未来可参考以下几个方向继续开展研究：

(1) SAR图像解译数据集

为了促进本领域继续发展物理可解释深度学习方法，更深层次结合SAR图像的物理特性，除了幅度图像以外从多个维度构建信息更丰富的SAR解译数据集具有重要的研究意义，例如带复数数据、成像信息的SAR目标检测识别数据集，标注物理散射特性的SAR图像分类/分割数据集，SAR回波数据集等。

(2) 加强数据驱动学习的物理干预

在SAR目标仿真、超分辨重建等应用场景中，深度学习不能完全脱离物理知识去模拟或替代物理模型，摒弃可解释的能力单纯依靠数据驱动学习物理过程。未来还需加强数据驱动学习过程中的物理干预，充分利用成像、电磁散射等模型，通过惩罚违背物理认知的结果来约束网络的学习，限制深度学习模型得到物理一致的预测结果。或者利用深度学习模型对物理模型的误差进行建模，改善现有的物理模型和理论[29]。

(3) 发展物理引导神经网络

当前已有很多研究从特征融合的角度将物理知识嵌入神经网络模型中，实现了物理模型+深度学习的初步尝试。为了突破少量标记样本的应用瓶颈，大力发展以无监督学习为主的物理引导神经网络学习回路十分有必要。充分利用已知的物理模型和领域知识以及大量的无标签SAR图像数据，在损失函数优化设计或模型结构设计中加入物理规律，自动挖掘泛化能力强且具备物理感知能力的特征表示，同时与少次学习、零次学习、元学习等优化方法相结合，逐渐形成SAR特有的小样本深度学习体系。

(4) 与可解释人工智能的学科交叉

SAR图像解译深度学习方法不仅需要在各类任务上实现速度更快、准确率更高、性能更强，也需要满足算法更透明、结果更可信、对抗扰动更稳定的实际应用需求。本文回顾的大多数现状研究聚焦于如何有机结合深度学习和SAR物理模型，主要关注加入物理知识后模型性能的提升，对可解释性的讨论还较少。基于理论的物理模型所给予的知识和先验有望在算法透明度和智能化程度上实现平衡，为实现SAR智能解译算法的人机交互提供可能。结合可解释人工智能(XAI)学科领域的相关理论和技术开展交叉学科研究对深入推动物理可解释的SAR解译深度学习方法具有重要意义。

(5) 结合不确定性量化的研究

SAR解译的一些实际应用场景要求预测结果具有可靠性，虽然目前深度学习方法在一些SAR图像解译任务上已经能取得很高的准确率，但用户仍然不敢信赖深度模型的预测结果。例如SAR目标的物理特性对成像参数等十分敏感，小的扰动可能会导致结果的巨变，缺乏训练样本的情况下用户更需要感知模型预测结果的不确定性，为用户提供置信度作为参考，或丢弃过于可疑的结果。将不确定性量化和物理可解释的深度学习方法相结合开展研究，利于有针对性地利用物理模型的鲁棒性降低数据驱动学习偏差产生的预测结果不确定性。

7 结束语

基于深度学习的SAR图像智能化解译技术在过去几年的发展中不断刷新在各类任务上的评价指标，超越基于模型和经验设计的传统方法，取得了显著的成果。而今，知识驱动和数据驱动相结合的后深度学习时代已向我们走来，可解释的SAR内在物理机理和可学习的深度神经网络优势互补，具有广阔的发展前景。本文概述了物理机器学习的基本思路，基于SAR图像解译体系总结了本领域发展物理可解释深度学习方法的挑战和可行性，回顾了近几年在SAR信号与物理特性理解，以及SAR图像语义理解与应用结合深度学习和物理模型的前沿研究，并对未来的发展进行了展望。本领域的研究尚未成熟，期待未来有更多跨领域的专家学者参与进来，博采众长，对物理可解释的SAR解译深度学习算法开展更加深入的研究。