基于SVD-SRNet的SAR三维成像方法

2022-06-23 02:45曾涛王岩刘常浩丁泽刚卫扬铠

信号处理 2022年5期

曾涛王岩刘常浩丁泽刚卫扬铠

（1.北京理工大学信息与电子学院雷达技术研究所，北京 100081；2.北京理工大学长三角研究院，浙江嘉兴 314019；3.北京理工大学重庆创新中心，重庆 401120）

1 引言

合成孔径雷达（Synthetic Aperture Radar，SAR）是一种全天候、全天时的微波成像系统［1］，其在距离向上利用脉冲压缩技术，在方位向上依靠平台运动实现合成孔径，能够实现二维高分辨成像。但由于该二维图像是三维空间中的场景和目标在二维平面的投影，因此可能出现叠掩现象［2］，难以实现对目标的识别。层析合成孔径雷达（SAR tomography，Tomo SAR）在高程向利用合成孔径思想［3］，能够实现高程向的聚焦，实现三维高分辨成像，解决目标叠掩的问题。

Reigber等人［4］在2000年首次利用机载系统开展了层析SAR 的实验研究，验证了层析SAR 技术的可实施性。之后Pasquali［5］和She［6］等人分别在实验室和基于星载条件下进一步验证了层析SAR技术的可行性。同时，不同学者针对层析SAR 技术提出了多种数据处理方法。传统算法包括后向投影算法（Back Projection，BP）及其改进方法［7］和各种谱估计法［8］，其中BP 算法处理精度较高，但计算效率很低［9］。谱估计法中最先提出的是傅里叶变换法［6］，该方法计算效率高，但由于高程向基线数量有限及不规则釆样引起的严重旁瓣效应，不能实现高程向高精度成像。其余谱估计方法包括：Capon法［10-11］、MUSIC法［12］、RELAX 方法［13］、NLS法［14］和奇异值分解（Sin⁃gular Value Decomposition，SVD）法［7，15］，其中以SVD法最为简单实用。但以上方法由于高程向采样数目少以及受限于香农采样定理，高程向分辨率仍较低。

2006 年Donoho 提出的压缩感知（Compressive Sensing，CS）技术利用信号的稀疏性或可压缩性进行信号重建，突破了传统香农采样定理的限制［16］。Zhu 等人［17］在2011 年成功将CS 理论应用于层析SAR，验证了基于CS理论的层析SAR可以最大限度的减少从信号中获取的测量数量，同时保留原始信号的全部信息，克服因高程向孔径引起的分辨率限制，实现超分辨［18］。在层析SAR 中对高程向信号的稀疏重建本质上是求解稀疏信号ℓ1范数的最优化问题［19］。常用求解方法包括以基追踪［20］和正交匹配追踪算法［21］为代表的贪婪迭代算法、以软阈值迭代收缩算法（Iterative Soft/Shrinkage Thresholding Al⁃gorithm，ISTA）［22］和交替方向乘子法（Alternating Di⁃rection Method of Multipliers，ADMM）［23］为代表的凸优化算法、以贝叶斯压缩传感和迭代最小化稀疏贝叶斯重构算法为代表的稀疏贝叶斯算法［24］。其中以ISTA 和ADMM 为代表的凸优化算法在层析SAR应用中计算效率高，稳定性强。Wang［25］和Han［26］等人分别将改进的ADMM 算法和ISTA 算法应用于层析SAR 成像中，能够较高分辨率地实现目标高程向重建。但由于超参数选择困难，算法迭代慢，以上算法在层析SAR应用中实时性较差。

通过将压缩感知与深度学习相结合，能够使得模型训练更准确，高程向重建更精准，且计算速度更快。Gregor 等人［27］于2010 年提出软阈值迭代收缩算法（Learned Iterative Shrinkage and Thresholding Algorithm，LISTA），通过训练一个具有特定架构和固定深度的非线性前馈网络，以产生稀疏编码的最佳可能近似，提高运算效率。Yang等人［28］在核磁共振图像的稀疏重建中提出ADMM-Net，提高了重建精度和计算速度。Zhang等人［29］于2018年提出ISTA-Net和ISTA-Net+，结合了传统优化算法的结构可解释性和基于深度网络的运算速度。Wang 等人基于LISTA-Net 提出了一种CSR-Net，基于阵列SAR进行了深度学习三维成像的研究［30］。现有文献进行网络训练基于实测数据信号先验生成仿真数据对网络进行训练，尚未发现若实测数据未知的情况下，只基于雷达观测模型生成仿真数据训练的网络，能够迁移应用于实测数据进行SAR 三维成像获得优异结果的方法。

针对上述问题，本文首次提出了一种基于奇异值分解的信号空间归一化超分辨成像网络（SVD Signal-Space Normalization Super-Resolution Net，SVDSRNet），所提网络的网络结构由复数网络重构、SVD-Norm 模块、深度压缩感知求解器、阈值层四个部分组成，通过雷达接收的复回波信号进行复数重构后利用神经网络进行非线性解算，获取观测场景的散射信息。所提网络的核心在于通过网络中引入的SVD 信号空间归一化模块，将实测数据信号能量水平与仿真数据的信号能量水平匹配，使得在测试数据数据情况未知时，根据SAR 观测模型训练的三维成像网络的鲁棒性得到提升。所提方法通过了计算机仿真及无人机载实测数据验证，结果表明所提方法在计算精度、鲁棒性方面较传统方法具有优势。同时，验证结果证实了所提方法具有较强的数据迁移能力，能够适用于实测数据情况未知时的SAR 三维成像网络训练，避免采集数据后的数据分析、网络训练时间成本，为实时三维SAR 成像提供了解决方案。

本文结构如下：第2 节分析了层析SAR 三维成像的信号模型。第3节介绍了SVD-SRNet的具体结构与设计思路。第4节基于计算机仿真数据与无人机实测数据对所提方法进行了深入分析。第5节是全文总结。

2 SAR三维成像信号模型

SAR层析技术是将合成孔径的方法应用于高程向的一种成像技术，即通过在不同轨道位置、不同时刻对同一目标区域进行多次数据采集，获取散射目标的空间相位变化信息，实现在垂直视线方向的合成孔径。层析SAR的观测几何构型如图1所示。

图1中，平行于波束指向的方向称作距离维，沿传感器运动方向称作方位维，图中分别用x和r表示。垂直于距离-方位平面的方向定义为高程向，用s表示。场景中每一点的后向散射系数用γ（x，r，s）表示。假设共采集了N+1 次，层析SAR 首先需要在每一轨上进行二维SAR 成像，二维聚焦后的第n幅单视复图像（Single Light Complex，SLC）每一像素的复数值为：

其中，x΄和r΄分别代表二维图像中像素坐标，Rn（x，r，s）为第n条轨道对应的距离方位向斜距；λ为波长；f(∙)表示二维聚焦后的点扩展函数（point spread function，PSF），在不加窗的条件下可以表示为：

在获得了N+1 幅单视复图像后，从式（1）可以看出图像中每一像素的复值均为高程向后向散射系数的积分。由于各单视复图像数据是分别独立获取的，雷达空间位置和视角都存在一定的差异，即成像几何不同，导致相同目标在二维图像序列中并不重合并存在一定的扭曲变形。为了将相同目标对应的二维图像像素序列对齐，需要进行复图像配准。配准方法主要选取某一幅SAR 图像作为主图像（一般选择N/2），其余作为辅图像，依据永久散射体干涉测量技术，完成进行复图像配准，我们得到了N+1 幅配准后的SLC，每一幅中的对应像素可以看作一个N+1 维向量h，将式（2）中的sinc 函数简化近似为冲击函数，对于每幅SLC 的同一点（x，r）的高度向散射体回波，描述为式（3）所示的模型。

其中，［-smax，smax］是目标场景高程向的采样范围。对N+1 幅SLC 完成配准后，由于还需要进行去斜（deramping）处理，以去除由于轨道存在非理想性导致的由参考斜距引起的相位误差；此外，还需要根据成像场景特性进行相位补偿。若不考虑相位补偿，去斜后的N+1幅图像每一像素值为：

其中，bn为第n条从基线与主基线间的垂直基线长度，可定义高程向采样频率为ξn=-2bn/λr；则式（4）变为：

式（5）可以看作每一像素的复值是在目标高程向后向散射系数的傅里叶变换；若该函数沿高程向进行L次离散采样，则式（5）可离散化为：

其中sl（l=1，…，L）是高程向采样位置；ε是噪声；式（6）可以写为：

其中，g是完成预处理后的图像每一像素的复值矩阵；A是观测矩阵；γ是每一像素对应的高程向后向散射系数矩阵，层析SAR 的高程向成像，实际就是通过各种模型求解重建式（7）中的γ。

3 基于SVD-SRNet 的深度学习SAR 三维成像

神经网络本质上是由参数化的线性和非线性函数组成，这些线性层与非线性层的组合而构建的网络使得整个网络具备非线性拟合能力。但与此同时基于数据驱动的深度神经网络的网络模型参数训练，受数据影响极大。在测试数据与训练数据极为相似的情况下，网络性能优越，可以较好的完成三维SAR 成像任务。但对于层析三维SAR 成像来说，三维SAR 图像的实测数据训练集获取极为不易，现大多利用对场景的观测模型，采用计算机仿真生成仿真数据对网络进行训练。而仿真数据获取基于电磁散射模型近似获取，其系统噪声由人为自行设定。然而，对于实测数据的获取，由实际电磁环境及硬件系统等因素共同决定，二者数据差异较大，导致网络的训练数据与实测数据差异较大，仿真数据训练而成的网络难以泛化到实测数据的应用中。

本小节提出了一种SVD-SRNet 深度学习SAR三维成像网络，其网络架构是一种融合了深度神经网络与信号处理的混合架构，利用该方法可以使得在实测数据状况未知的条件下，利用基于仿真数据训练的网络进行实测数据SAR 三维成像可以获得较好的精度效果。

3.1 复数网络模型重构

目前而言，神经网络的发展主要源于计算机视觉中的图像处理领域。然而神经网络在图像处理中的应用是通过RGB 的三通道基于实数域的信号处理范式。在雷达信号处理领域，我们需要的是对基于雷达回波的复数域信号进行的信号处理。这与计算机视觉的图像处理领域的网络应用具有一定差异，因此，将雷达复数域信号转化为可以使用实数网络进行网络学习与处理十分重要。对于基本的层析SAR三维成像模型

这里得到的信号都是复数形式，包含着观测场景的幅度与相位信息。首先需要利用复数运算将其转化为对应的实数矩阵形式。

其中，Re(∙)代表取实部操作，Im(∙)表示取虚部操作。通过上述迭代式可以将原本对于复数运算的求解问题转化成实数矩阵通过神经网络模型进行求解。重构后的矩阵形式为

3.2 SVD-SRNet的设计

SVD-SRNet 的基本思想，是通过结合信号处理与神经网络的优势，利用SVD-Norm 信号处理模块将输入信号分解成信号子空间与噪声子空间，并基于信号子空间对所提输入数据进行归一化，从而减小实测数据与仿真数据的差异。并将其与神经网络进行结合，构建SAR 三维成像网络。同时，网络最后一层通过设计阈值层信号处理模块以提高估计结果的稀疏性。具体如下：

（a）利用雷达成像高度向成像模型生成仿真数据进行网络训练，仿真数据的噪声水平固定设置为“1”。

（b）将输入数据通过SVD-Norm 层为信号处理模块，其作用是利用SVD 方法对输入数据进行空间分解，将输入数据拆解为噪声空间与信号空间，并基于信号空间对数据进行归“1”化操作。求解层将迭代式压缩感知算法（如ISTA、ADMM 算法），映射为包含多个网络层的DNN，如图2 所示，网络层中一层网络模块对应着迭代式压缩感知算法中的一层迭代式。

（c）在整体网络架构的最后一层中加入阈值层，以保证输出结果的稀疏性，使得Loss 计算与网络整体反向传播参数优化更准确迅速。

通过以上三个步骤，SVD-SRNet 在保留原有迭代式压缩感知法基于的基本“LASSO”模型的基础上，利用网络训练自动学习网络中的超参数，通过信号处理模块SVD-Norm 弱化实测数据与仿真数据的数据差异，通过阈值层保证网络结构的稀疏性，所提网络结构框架如图2 所示。接下来，将详细介绍网络中这些模块的具体结构构成。

（1）SVD-Norm模块

假设网络输入层输入观测信号yL×1，y中包含着信号分量ys与噪声分量w，他们之间的关系如下所示

构造含噪信号y的Hankel矩阵Y如式（13）所示：

其中，Ys和W为ys与w所构成的Hankel 矩阵，L=m+n-1，在构造矩阵时使m与n的值尽可能得接近。

利用SVD 方法对Y矩阵进行奇异值分解，可以得到

其中S=diag（σ1，σ2，…，σm）。

若将S写成组合分量形式，可以得到，式（14）可以写成

对于观测信号来说，信号能量集中在由奇异值较大的几个分量矩阵构成的信号中，而对于噪声来说，奇异值分布均匀，且都较小。因此，可以利用该性质对信号空间进行估计［31］。

将Y分量中奇异值较大的k个分量求和，视作信号空间的估计，如式（16）所示：

对Ys进行Hankel反变换，得到Ys对应的一维重建信号ys，计算ys所表示的信号能量的均值ρe与方差ρσ，将其作为归一化系数，如下式所示。

根据参数均值ρe与方差ρσ对输入y进行SVDNorm归一化：

（2）层级求解层

层级求解层是将迭代式压缩感知算法（ISTA、ADMM 等），进行层级展开，映射为包含多个网络层的DNN，网络层中一层网络模块对应着迭代式压缩感知算法中的一层迭代式。下面以软迭代阈值（ISTA）为例，推导其层级求解层的网络结构。

式（19）、（20）为ISTA 算法的求解迭代式，设输入信号设为g，需要估计的信号为γ：

其中，threshold(∙)和ηλ/ζ(∙)是软阈值函数，在网络中实际上是充当了激活函数的地位，λ是正则化系数，ζ一般取ATA的最大特征值。由此可见，当前时刻的重构输出γk不仅仅与输入的观测信号g有关，也与上一次的输入γk-1有关，这是一个典型的RNN 结构，将上述的式子可以建模成RNN模型。

因此将基于软迭代阈值求解器进行层级展开，可以得到层级求解层如式（21）所示：

其中W1、W2为可学习的网络参数。

式（21）所表达的求解层网络结构图如图3所示。

接下来进行阈值能量水平归一化，该步骤的目的是将输出阈值归一化层的信号的能量水平保持与输入时一致，具有稳定反向传播的作用。将阈值输出结果的能量水平重新归一化到uB，hθ(∙)为归一化函数，如下式所示：

（4）Loss计算

SVD-SRNet 的Loss 组成由三部分组成，均采用回归损失函数均方误差（MSE），如下式所示：

其中，第一项表示阈值归一化层最后输出结果与观测信号的误差，第二项表示目标标签与输层级求解层的误差，第三项表示目标标签与阈值归一化层的估计结果误差，第一项与第三项损失函数设计的目的是控制整个网络的参数学习，第二项损失函数设计的目的是控制层级求解层的网络稀疏度。

4 试验分析

本小节通过模拟TomoSAR 成像构型得到的计算机仿真数据和利用无人机多航过得到的实测数据进行实验验证，验证利用SVD-SRNet 的进行三维成像的方法成像性能。

4.1 仿真试验

SAR 数据获取几何与目标分布如图4 所示，雷达发射信号中心频率为800 MHz（P 波段），高度向基线总长度设置为60 m，共10轨数据。信号带宽为500 MHz，距离向分辨率为0.3 m。方位向合成孔径长度为1 m，方位向分辨率为0.5 m。观测场景坐标系中x为表示距离向，y表示方位向，z表示高度向。观测场景中心坐标为（0，0，0），主基线孔径中心坐标为（-600，0，0），信噪比SNR 设置为10 dB，三维SAR 成像仿真实验场景如图4所示。空间中共布置10对散射点，每对散射点高度向间隔如表1所示。

表1 仿真设置散射点高度向间隔坐标Tab.1 Simulation setting scattering point location coordinates

按如上所述仿真参数，可以计算得到高度向瑞利分辨率如式（26）所示。

训练数据根据与仿真实验相同的观测模型生成，数据生成过程中不添加噪声，并且随机设置训练数据中目标的散射强度与初相位信息。根据上述标准生成10 万组训练数据进行网络训练。即假设在仿真实验信噪比、信号能量、噪声能量均未知情况下，利用仿真随机生成的训练数据进行网络参数训练，对训练得到的网络的成像性能进行分析比较。

分别利用ISTA 算法（迭代30次）、ISTA 算法（迭代至收敛精度e=10-4）、ISTA-Net 深度网络、SVDSRNet 深度网络对如图4 所示的仿真场景进行了层析SAR 三维成像，其中ISTA-Net 与SVD-SRNet 网络的训练数据保持一致，皆为上文所述的训练数据。具体成像结果如图5 所示。图6 为场景中点E 组点对的高度向切片图。

表2 中对比了迭代30 层的压缩感知方法，迭代收敛至均方误差e=10-4的压缩感知方法以及30层下的ISTA-Net 与SVD-SRNet 方法的性能，ISTA-Net与SVD-SRNet 的网络训练耗时约1～2 min。其中算法精度由误差的均值meanε与方差varε进行定义。e、meanε与varε定义如式（27）所示。本文所提的SVD-SRNet网络化方法在三维成像速度上较迭代式压缩感知算法的成像效率提高一个数量级。并且通过所提方法与其他三种方法的结果对比可以发现，所提方法的误差最小，成像精度最高。

表2 仿真试验算法性能对比表Tab.2 Performance comparison table of simulation test algorithms

其中，εi为误差的绝对值,为第i个数据估计结果，为第i个数据标签，仿真试验数据总量为M。

4.2 无人机SAR实测试验

2021 年3 月，在重庆通航学校成功采集到新型无人机TomoSAR 试验数据。小型无人机TomoSAR系统工作在P 波段。该系统由一架多旋翼无人机携带，在170～260 m 高度共执行30 次数据采集，无人机和轨道分布如图7（a）和7（d）所示。场景主要由校园区域组成，对应的光学地图和SAR 图像如图7（b）和图7（e）所示。系统入射角θ=70°从场景中心开始的倾斜范围为656.2 m，高程孔径Δb≈90 m，此时对应的高程分辨率ρs=2.54 m。

本文使用这组实验数据对层析SAR 三维成像方法进行了算法验证。如图7（g）为使用传统迭代式压缩感知方法ISTA 方法的成像结果，图7（h）是通过深度压缩感知算法ISTA-Net 利用整幅场景数据进行三维成像的高程染色结果图，共用时25 分钟，若使用传统方法进行三维SAR 成像将耗时6 小时以上。下面通过利用整幅数据的局部区域进行成像效果对比，算法成像验证区域选取为如图7（c）所示的楼房区域，区域位置位于图7（b）红框处区域，图7（f）为该区域的二维SAR 成像结果，对应图7（e）红框处二维成像结果。图7（i）为整幅场景对应的LiDAR 结果，图7（j）为楼房区域中的特显点对应的LiDAR 三维图像结果，特显点为LiDAR 数据与SAR图像数据能够相关对应的点。

同样的，分别利用ISTA、ISTA-Net、SVD-SRNet这三种方法，对如图7（c）所示的成像建筑物区域进行层析SAR 三维成像，ISTA-Net 与SVD-SRNet 的网络训练耗时约20～30 min。其中ISTA 迭代算法设置的迭代收敛条件为最大1000次迭代或者满足迭代均方误差小于10-6。对于深度压缩感知网络，为保证训练效率及成像精度，设置ISTA-Net 与SVD-SRNet 的网络层数为30层。图8（a）～8（d）为使用这四种方法的成像结果图，图8（e）～8（h）为这四种方法的高程误差，认为图7（j）所示的Lidar 结果为真值。图8（i）～8（l）为图8（e）～8（h）高程误差的统计直方图，横轴为误差的绝对值，纵轴为估计结果与Lidar误差四舍五入后的点的个数。通过对三维成像误差的对比，可以发现高度向成像精度从优到劣依次为基于SVDSRNet 的三维成像方法（30 层）、ISTA 方法（迭代至收敛精度e=10-4）、ISTA 方法三维图像（最大迭代30次）、ISTA-Net方法三维图像（30层）。

表3展示了获得这四种层析SAR三维成像结果耗时与成像精度的比较分析。可以证明：本文所提SVD-SRNet 具有极高的数据适用能力，能够在实测数据未知的情况下，利用仿真数据基于SVD-SRNet网络进行训练，即可在实测数据的应用中达到优秀的成像效果。

表3 成像性能对比表Tab.3 Time comparison of the four algorithms

5 结论

本文针对深度学习方法在SAR 三维成像领域应用中存在的网络鲁棒性差、网络成像精度低、网络训练难度大的问题，提出了一种基于SVD-SRNet的SAR 三维成像方法。所提方法通过在网络中引入SVD 信号空间归一化模块，使得实测数据信号能量水平与仿真数据的信号能量水平匹配，在测试数据数据情况未知时，根据SAR 观测模型训练的三维成像网络的鲁棒性得到提升。计算机仿真试验与无人机载实测数据试验结果表明，与迭代式压缩感知方法相比，所提方法具有更高的成像精度与成像效率，提升成像效率1～2个数量级，提高成像精度约25%。与传统深度学习SAR 三维成像方法相比，所提方法具有更高的成像精度和网络鲁棒性，提升成像精度约30%。

目前而言，网络化三维成像方法的发展受到了训练数据的制约，无法充分发挥网络对非线性问题解算能力，基于深度网络的成像性能发挥目前仍然受到一定约束。本文的研究可以支撑在实测数据尚未采集的情况下提前进行网络训练，避免采集数据后的数据分析、网络训练时间成本。后续本课题组将继续基于SAR 三维成像研究鲁棒性更强，成像精度更高的SAR三维成像网络。