陈 亮 李涌睿 丁 杰 徐 明* 张至涵 张 傲 谢宜壮
(1.北京理工大学雷达技术研究院,北京 100081;2.嵌入式实时信息处理技术北京市重点实验室,北京 100081;3.北京理工雷科电子信息技术有限公司,北京 100097)
星载SAR 是指装载于卫星平台上的SAR 载荷,利用宽带雷达信号和合成孔径原理实现二维高分辨成像。作为一种主动式的微波传感器,星载SAR 具备夜视和穿透能力,可以不受太阳光照以及云、雨、雾等恶劣天气的影响,全天时全天候对地进行观测。现已被广泛应用于灾害检测、军事侦察、海洋观测、地质勘探等诸多方面[1-5]。
星载SAR 获取的雷达回波需经过聚焦成像处理才能形成二维图像,由于成像处理运算量很大,传统星载SAR 一般在地面进行成像处理。随着SAR 载荷性能的提升,带来载荷数据量和数据率双增长,星地数传逐步成为瓶颈;同时,星上获取数据、地面处理的模式导致信息获取的时效性不足,难以满足减灾应急、环境监测、国家安全等高时效应用需求。随着星载SAR 处理算法的逐步成熟以及在轨处理硬件技术的发展,星载SAR在轨处理逐渐成为可能。由于星载SAR 在轨成像存在回波数据率高、存储量大、算法流程复杂等难点,如达到实时成像的要求,在轨成像系统需具备较大规模、并对成像算法进行硬件高效映射,做到高吞吐、低延迟,这具备较高的技术难度。在轨成像后,进一步在轨完成目标检测识别等处理,可大幅减少下传数据量,满足多种高时效应用要求[6-10]。
目前,星载SAR 在轨成像已经成为世界各国的研究热点,众多学者投入SAR在轨处理关键技术的研究中,完成了基于FPGA[11-14]、DSP[11,13]、GPU[15]、SoC芯片[8]等核心处理器的SAR在轨成像处理器研制工作[16]。国内的雷达信号实时处理系统于二十世纪九十年代开始发展,中国科学院电子所首先开始了关于实时信号处理系统的研究,并于1994年成功研究实时信号处理系统。2005年,熊君君等人[17]使用7 块FPGA 构建了实时成像处理器,设计兼顾流水和并行处理,混合使用浮点和定点计算,成像速度和质量达标。2010年,边明明等人[18]设计了一种多FPGA 松耦合并行处理的星载SAR 处理器架构,成像系统具备可扩展特点,可兼容RD/CS算法,点阵成像精度良好。2016 年,刘小宁等人[3]提出了一种基于单片FPGA 构建了星上SAR 实时成像系统,提出了压缩运算量的改进CS 算法和高效矩阵转置方案,并对CORDIC 运算进行资源优化以减少成像系统资源占用,整体方案成熟。2019 年,于文月等人[11]设计了一种基于FPGA+DSP 的混合异构星载实时SAR 处理系统,FPGA 负责主控、数据接口、存储、FFT处理,DSP负责复杂因子处理,最大支持成像尺寸为16384×16384,成像时间24 s,处理性能优异。2020 年,胡善清[15]对基于嵌入式GPU 的SAR 实时成像方法进行研究,提出一种内存分割与重配置方案以提高处理速度,对嵌入式GPU的在轨成像能力进行验证。2022 年,李涌睿等人[8]提出了一种针对BP 算法的专用SoC 成像芯片设计方法,并构建了基于MPSoC+FPGA 的原型验证平台对芯片设计方案进行验证。显然,高性能可重构的FPGA 是目前构建星载SAR 实时处理器的首选;DSP 作为协加速处理器,可分担SAR 成像中的复杂运算,简化FPGA 的开发、释放FPGA 的性能;嵌入式GPU 作为通用处理器,针对SAR 处理的优化空间有限;SoC 芯片性能优异,但仍处于研制验证阶段。目前,基于FPGA+DSP 的SAR 成像系统在成像算力、能效、可靠性、灵活性、开发难度等方面综合评价最优,但现有系统在大粒度成像、并行高效处理、矩阵转置等方面仍有很大的改进空间。
本文提出了一种基于FPGA+DSP 的高效处理系统,支持功能性更强的NCS 算法,重点关注系统的并行处理优化,提出了基于时频抽取切换的多通道FFT 并行计算方法和通用多通道存储转置方案。本文研制了FPGA+DSP 板卡,对提出的SAR 成像方案进行实现验证,用多组仿真和实测数据进行成像测试,在处理精度满足需求的前提下,处理时间较现有方案大幅度缩短。
NCS 是基于调频变标算法(Chirp Scaling Algorithm,CS)的改进算法。北京理工大学提出了一种二维NCS算法[19],通过更高精度的斜距模型和距离向非线性变标处理,实现距离空变的徙动校正和多普勒相位补偿;通过高阶方位向NCS 处理方法,实现方位空变的多普勒相位补偿。相比在轨SAR 处理广泛使用的CS 算法,该算法增加了对大斜视、更高分辨率模式的支持,目前正逐步被应用于星载SAR实时处理系统中。
NCS 与CS 在算法流程上均可划分为距离预处理、方位预处理、方位压缩和距离压缩,从工程实现角度看,均可分解为FFT、因子计算、复乘和转置。CS 和NCS 算法流程(条带模式为例)如图1 所示。由于NCS算法的因子基本涵盖CS算法,在正侧视、分辨率较低的成像模式下,NCS 算法可向下退化为步骤更少的CS算法,以减少成像处理时间。
图1 CS算法和NCS算法流程图Fig.1 CS Algorithm and NCS Algorithm Flowchart
NCS算法流程可划分为主流程和辅助流程。主流程:原始数据顺序执行FFT、IFFT、复乘和转置等操作,直至生成图像;辅助流程:根据辅助数据,执行对各个因子的计算。为保证主流程的顺利进行,因子计算应提前于相应的复乘计算,即因子提前计算完毕,主数据流可无等待地和因子进行复乘。
FFT 算法是离散傅里叶变换(Discrete Fourier Transform,DFT)算法的快速实现算法,是数字信号处理领域的基本工具。FFT的基本原理是将大点数的DFT 运算拆分为多个小点数DFT,N表示数据长度,DFT 的计算复杂度为O(N2),FFT 的计算复杂度为O(Nlog(N))。FFT处理器的实现方式众多,以适用于不同的应用场景,通常分为流水式、迭代式、全并行式三种[4]。
在SAR 成像处理中,雷达数据点数长、数据量大、处理速度要求高,常采用流水式的FFT 处理器。处理数据越长,FFT处理器的规模越大,但在主频固定的情况下,1 个FFT 处理器的处理带宽是固定的,以单精度浮点FFT 处理器为例,其处理带宽为:主频×8 Byte。为了提升处理带宽,往往放置多个FFT处理器并行处理。假设SAR 成像系统中放置了M个N点FFT 处理器,利用多通道FFT 算法理论上可对M个FFT 处理器进行合并,最高支持点数为M×N的FFT。相比放置1 个M×N点FFT 处理器相比,放置多通道FFT 处理器在处理带宽上具备明显优势。以下是多通道FFT算法推导。
2.2.1 时间抽取多通道FFT算法
设一信号序列为x(n),序列长度为N,对x(n)进行DFT 运算后得到序列X(k)。其中n和k的范围是0,1,2,…,N-1。DFT的计算公式为:
对公式(1)中的时域索引值按时间抽取,频域索引值按频率抽取,拆分如下:
代入公式(1)中:
其中:
由公式(3)~(4)可知,长度为N的FFT 分解为L次M点FFT,和M次L点FFT。把L认为是通道数,M认为是单个FFT 处理器点数,则N点FFT 的流水处理可分解两步。第1 步中,L个流水式FFT 处理器并行进行M点FFT 计算;第2 步中,1 个全并行式FFT 处理器进行L点FFT 运算。N点FFT 的按时间抽取多通道流水处理示意如图2,以L=4为例。
图2 N点FFT按时间抽取多通道流水处理示意图Fig.2 Flowchart of N-point FFT with Time-Domain Extraction for Multi-Channel Pipelined Processing
在时间抽取FFT 算法中,输入数据按时间抽取划分,但输出结果按频率抽取划分。为了保证数据连贯处理,还需配合频率抽取多通道算法。
2.2.2 频率抽取多通道FFT算法
对公式(1)中的时域索引值按频率抽取,频域索引值按时间抽取,拆分如下:
其中:
由公式(6)~(7)可知,同时间抽取FFT,长度为N的FFT分解为M次L点FFT,和L次M点FFT。把L认为是通道数,M认为是单个FFT 处理器点数,则N点FFT 的流水处理可分解两步。第1步中,1个全并行式FFT 处理器进行L点FFT 运算;第2 步中,L个流水式FFT 处理器并行进行M点FFT 计算。该过程与时间抽取正好相反,N点FFT 的按频率抽取多通道流水处理示意如图3,以L=4为例。
图3 N点FFT按频率抽取多通道流水处理示意图Fig.3 Flowchart of N-point FFT with Frequency-Domain Extraction for Multi-Channel Pipelined Processing
显然,在频率抽取FFT 算法中,输入数据按频率抽取划分,输出结果按时间抽取划分,这与时间抽取FFT 算法形成互补关系。本文提出时频抽取互补的多通道FFT 方案,采用时间抽取与频率抽取多通道FFT 算法穿插配合,可有效提升FFT 的处理带宽,适配NCS算法中多轮FFT的算法结构。
本章设计了一种基于FPGA+DSP 的星载SAR实时成像系统,采用FPGA 实现NCS 算法的主流程处理,DSP 实现辅助流程处理。系统结构框图如图4所示。
图4 基于FPGA+DSP的星载SAR实时成像系统框图Fig.4 Block Diagram of Real-time On-board SAR Imaging System based on FPGA+DSP
本系统基于AMBA 总线+XDMA+DDR 存储搭建。总线类型包括AXI、AXIS和APB。AXI总线用于主控(MBS),DDR存储、高速数据流(原始回波和因子)的互联,AXIS 总线用于各计算模块之间进行高速数据传输,APB总线用于CPU和各模块之间的通信控制。XDMA 是本文研制的改进版DMA,在Xilinx DMA基础上,新增了可编程地址跳变读写功能,用于桥接AXI和AXIS 总线,是负责系统中数据调度的枢纽。4组DDR和4个DDR控制器(DDRC)构成系统存储系统,用于保存回波数据、因子数据、中间数据和成像结果。
四通道协同处理是本系统的特点和优势,与单通道FPGA+DSP 相比,处理带宽高4 倍,在算法和硬件架构上设计难度更高。每个通道中AXI 总线上挂载了1 个DDRC、2 个XDMA、数据输入控制器和因子输入控制器。对于数据输入FPGA 阶段,IO传入的原始数据和DSP 传入的成像因子可直接分发至对应通道的DDR 中;对于成像处理阶段,DDR中的图像数据和因子数据可通过2 路XDMA 进入数据处理单元中。每个通道中AXIS 总线上挂载了1 个量化单元,1 个FFT+复乘单元。FFT+复乘模块中集成了FFT、复乘、去直流等诸多模块,互联关系灵活。四个通道的AXIS 总线互联,可进行跨通道高速数据传输,FFTPOST 单元和TRANSP 单元对四个通道的数据整合处理,FFTPOST中的因子复乘器和全并行4 点FFT 处理器负责多通道FFT 预/后处理,TRANSP负责图像转置。
本文采用的基本算法映射思路为:FPGA 负责算法中对主数据流进行FFT、复乘、转置和量化操作,DSP 负责各个因子的计算。在本文的设计中,NCS算法在FPGA中的处理流程被分割为多轮操作(Stage),每个Stage包含数据从DDR中读出、数据经过处理单元、处理结果写回DDR 3 个步骤。以每个Stage 中最多包含1 次FFT 或1 次转置作为分割依据。DSP在FPGA处理的同时并行对各个因子进行计算,DSP计算完毕某个因子后,由FPGA把该因子从DSP 的DDR 中读取至FPGA 的DDR 中。考虑到DSP 的高速接口带宽较低,采用区域补偿因子不变方法[7],对因子进行多倍降采样计算,大幅度缩短因子计算时间,可保证FPGA不必等待DSP,顺利进行主流程处理。算法映射示意如图5 所示,由于NCS成像流程过多,且相互类似,图中部分Stage省略。
图5 NCS算法映射图Fig.5 Mapping Diagram of NCS Algorithm
具体地,FPGA 中,第0 个Stage:原始数据存入DDR中。
第1 个Stage:原始数据从DDR 中读出,原始数据流入FFT 模块完成去直流+FFT 操作,处理结果写回DDR。
第2个Stage:数据从DDR中读出,流入TRANSP模块进行转置,转置结果写回DDR。
第3 个Stage:数据和因子1 同时从DDR 中读出,数据先流入FFT模块完成FFT操作,FFT计算结果再和因子1 同步流入复乘模块完成复乘,处理结果写回DDR。
…
第14个Stage:数据和因子10同时从DDR 中读出,同时流入复乘模块完成复乘,计算结果流入FFT模块完成IFFT 操作,IFFT 计算结果流入量化模块完成量化,结果写入DDR。
第15个Stage:成像结果从DDR导出。
DSP 在Stage0 过程中,会开启因子计算,按顺序逐个计算因子1~因子10,并存入DDR 中。DSP计算完毕1个因子,即向FPGA 上报中断。当FPGA处理该中断时,通过高速接口将该因子从DSP 的DDR读取至FPGA的DDR中。
星载SAR 成像系统的设计在整机体积、功耗、处理时效等方面存在着诸多限制和要求,本文选用业内能效比领先的Xilinx XC7VX690T FPGA 和FT6678 DSP 搭建系统,依据“时效性最优”原则完成系统设计,系统关键参数如表1所示。
表1 星载SAR成像系统关键参数设计表Tab.1 Key Parameter Design Table for Spaceborne SAR Imaging System
存储带宽设计:存储带宽是决定SAR 成像系统实时性的瓶颈,选择V7690T FPGA 最高支持的4 组DDR3,可保证理论时效性最优。单个DDR 主频800 MHz,位宽为64 bit,单个DDR 带宽=800 MHz×64 bit=6.4 GB/s,4 组DDR 总 带 宽=4×6.4 GB/s=25.6 GB/s。
存储容量设计:选择DDR3 支持的最大容量8 GB,总容量32 GB,最大可处理的单景SAR 图像尺寸为32K×64K(或16K×128K等)。
FFT 并行度设计:设计的处理带宽应匹配或略高于存储带宽,以保证存储带宽充分利用。“FFT-复乘”运算是SAR 成像中的高频步骤,在250 MHz 主频下,单个单精度浮点FFT 处理器的处理带宽=250 MHz×64 bit=2 GB/s,“FFT-复乘”包含2 路输入+1 路输出,总吞吐带宽=3×2 GB/s=6 GB/s。考虑到因子从DSP 中写入FGPA 时,同样占用DDR 带宽,平均至每个DDR 为20 Gbps÷4÷8=0.625 GB/s,在理想情况下,单个DDR 中SAR 成像主流程的带宽为5.8~6.4 GB/s。因此,4 组DDR 搭配4 组“FFT+复乘”模块,存储和处理带宽相互匹配。
FFT 长度设计:受限于V7690T 逻辑资源,设计单个FFT 长度为32K,可通过4 通道合并处理最高支持至128K。
针对不同成像尺寸,本文给出了适配的FFT 和转置实现方法。如SAR 图像的两维尺寸均≤32K,则称为常规尺寸;如SAR 图像的某一维尺寸>32K,则称为非常规尺寸。
常规尺寸:单个FFT 处理器可覆盖FFT 长度,4 个FFT 处理器相互独立工作,分别处理1/4 的数据,可达到最高处理带宽。因此数据必须沿非处理维度分割放置在4 个DDR 中。以32K×32K(距离向×方位向,余文中的尺寸表示同理)为例,Stage1中沿距离向执行FFT,因此数据在Stage0 中沿方位向分割为4 份,DDR0~DDR3 中分别放置的数据量为32K×8K。Stage3中沿方位向执行FFT,因此数据必须变为沿距离向分割为4 份,DDR0~DDR3 中分别放置的数据量为8K×32K。因此,Stage2 转置时,不仅需要将数据由距离向转为方位向,同时还需要将4 个DDR 中的数据交叉存储。以上步骤的示意图如图6所示,尺寸的表示方法是距离向长度×方位向长度。在Stage 中,白色网格代表1 幅32K×32K的图片沿二维分割为16 块存于DDR 中,在转置操作中,4 个DDR 需要两两交互数据。在其他Stage中,FFT和转置操作类似。
图6 常规尺寸下FFT和转置流程示意图Fig.6 Flowchart of FFT and Transpose Processes for Conventional Sizes
非常规尺寸:在大尺寸维度处理时,单个FFT处理器无法覆盖FFT 长度,4 个FFT 协同处理。和常规尺寸不同,数据变为沿处理维度分割放置在4个DDR中。以128K×32K为例,数据在Stage0中沿距离向分割为4份,DDR0~DDR3中分别放置的数据量为32K×32K,Stage1中沿距离向执行四通道128K点FFT。Stage3 中沿方位向执行32K 点FFT,4 个FFT处理器独立处理。由于数据已经沿距离向分割为4 份,Stage2 中无须进行DDR 间数据交互。以上步骤示意如图7。需要注意的是,图中的4通道FFT是以频率抽取为例进行示意的,两种抽取方式的不同点在于FFT模块和FFTPOST模块的执行顺序相反。
图7 非常规尺寸下FFT和转置流程示意图Fig.7 Flowchart of FFT and Transpose Processes for Non-Conventional Sizes
本文提出的多通道FFT 方案支持时间抽取、频率抽取两种工作模式。灵活支持双通道和四通道,文中仅以四通道为例进行介绍。图8 对FFT、FFTPOST模块的互联结构进行示意。
图8 FFT和FFTPOST互联结构示意图Fig.8 Schematic Diagram of Interconnection between FFT and FFTPOST
FFT 和FFTPOST 内部的4 点FFT 和W 因子乘法器通过两级AXIS 总线互联。在不同抽取模式下,主控对AXIS 的互联关系进行设置,按照图2 和图3的结构形成对应的四通道FFT处理结构。
在一次SAR成像流程中,SAR图像尺寸的某一维度超过单个FFT 最大处理长度,需要在Stage0 时以时间抽取或频率抽取的方式存于多片DDR 中。后续针对该维度进行FFT 处理时,交替使用时间和频率抽取两种结构。由于量化后的SAR 图像还需进行几何矫正、检测识别的步骤,因此图片应该以时间连续,即频率抽取的方式输出。所以,需预先统计SAR 成像流程中该维度的FFT/IFFT 次数,如为偶数次,则Stage0 中应该以频率抽取方式存储,否则按时间抽取方式存储。
本文提出的通用多通道转置方案支持数据在单个DDR 内、多个DDR 之间进行矩阵转置。基本原理是基于灵活的XDMA 对DDR 的地址空间进行二维分割读写,利用片上存储对按块分割的最小单元逐个进行转置,以此实现全图转置的功能。同时,通过不同通道的XDMA 协同工作,可实现多个DDR之间的交叉转置。
考虑片上存储容量,将原图以32×32 为最小单元进行分割,最小单元进行流水式转置操作。以128K×16K 为例,第1 次转置前,DDR 中沿距离向存放32K×16K 数据,1 行距离向数据存于32 个Page中,每个Page 中存放1024×64 bit。转置开始时,XDMA从DDR中读取32×32大小的数据,即每行距离向数据取32×64 bit,共取32 行,需跨32 次Page。32×32(距离向×方位向)点数据完全流入TRANSP模块后,由TRANSP 中的地址转换逻辑将数据按32×32(方位向×距离向)的顺序输出。最后,该32×32 点数据通过XDMA 写入本DDR 或另一组DDR中。在写入DDR时,同样需跨32次Page,每个Page中写入1 行方位向的32×64 bit。类似地,32K×16K数据共被分割为1024×512=512K 个最小单元逐个送入TRANSP中进行转置。
TRANSP 模块的转置核心单元为一对乒乓结构的双口RAM 及地址控制器,共放置4 组,可同时对4 组DDR 的数据进行转置。TRANSP 内部的AXIS 总线上挂载各个通道的XDMA,因此可通过配置AXIS 总线路由实现4 组DDR 的数据交互读写。以上流程如图9所示。
图9 转置流程和TRANSP模块示意图Fig.9 Transpose Process and TRANSP Module Schematic Diagram
在非常规尺寸成像中,如图7所示,转置操作时4 个DDR 相互独立,即在图9 中,数据由某个DDR读出,经转置后再写回本DDR。在常规尺寸成像中,如图6所示,转置操作时4个DDR需两两交互数据。一次性完成该转置需要每个DDR 启动4 个读+4 个写通道,考虑到DDR 同时启动的读写通道数过多会导致效率降低,因此将常规尺寸的转置分为4个阶段进行,如图10所示。每个阶段中,当个DDR只有1个读+1个写通道,可使DDR保持高效。
图10 常规尺寸转置4个阶段示意图Fig.10 Schematic Diagram of 4 Stages of Transpose Process for Conventional Sizes
本文使用2个XC7VX690T FPGA 和2 个FT 6678 DSP 作为核心处理器构建SAR 成像板卡,1 个FPGA 和1 个DSP 配合实现本文中的设计1 套SAR成像系统,故该板卡可对2 景图像并行处理。板卡实物如图11所示。
图11 FPGA+DSP板卡实物图Fig.11 Physical Image of FPGA+DSP Board
验证环境采用2 台PC 机分别作为模拟源和地检设备,如图12 所示。模拟源负责向SAR 成像系统发送原始回波,SAR 成像系统处理后将结果传回地检,可在地检上查看成像结果。
图12 验证环境实景图Fig.12 Schematic Diagram of Validation Environment
本文使用SAR成像系统对条带、扫描、聚束、滑聚、TOPS 五种成像模型进行成像测试,回波数据使用点阵仿真数据,可通过峰值旁瓣比(Peak-to-Sidelobe Ratio,PSLR)和积分旁瓣比(Integrated Sidelobe Ratio,ISLR)对成像质量进行评估。成像结果和中心成像点二维剖面图如图13所示。
图13 条带/扫描/TOPS/聚束/滑聚模式点阵数据成像结果图Fig.13 Schematic Diagram of Imaging Results for Strip/Scanning/TOPS/Beamforming/Sliding Focus Mode Lattice Data
表2 中给出了部分成像参数以及成像中心的PLSR和ILSR,均满足星载SAR成像质量需求。
表2 部分成像参数和中心点PSLR/ISLR表Tab.2 Partial Imaging Parameters and Center Point PSLR/ISLR Table
此外,本文进一步对某卫星的条带模式、滑聚模式实测数据进行成像处理,成像质量良好,如图14所示。
图14 卫星条带/滑聚模式实测数据成像结果图Fig.14 Schematic Diagram of Imaging Results for Satellite Strip/Sliding Focus Mode Experimental Data
SAR成像系统中,FPGA主控具备计时功能,可设置FPGA 将每个成像步骤的时间发送给地检设备。本文对五种工作模式下的NCS 成像时间进行测试,每个模式使用相同的测试数据测试3次,以减少测试时间的随机性。此外,本文对兼容的CS 算法在五种模式的成像时间进行测试,便于和其他论文工作进行对比。成像时间测试情况如表3所示。
表3 成像时间测试表Tab.3 Imaging Time Test Table
与现有的SAR 成像系统[11]相比,本文提出的SAR成像系统同样使用1片FPGA和1片DSP,系统规模相当。在CS 算法、条带模式、相同处理粒度下,本文提出系统的成像时间较[11]缩短约86%。
与现有的SAR 成像系统[20]相比,[20]使用4 片DSP(2 片板卡),本文提出的SAR 成像系统规模更小。本文采用的NCS 算法在成像质量上优于[20]采用的RD 算法[19]为前提,条带模式下的成像时间较[20]缩短约64.5%,聚束模式下的成像时间较[20]缩短约64.6%。
本文提出了基于时频抽取切换的多通道FFT处理方法,可同时实现单景成像粒度大、数据处理带宽高。在芯片主频相同(设为100 MHz)、不考虑存储带宽和容量限制的前提下,考察本文提出的成像系统和现有基于FPGA 的SAR 成像系统在最大处理粒度和数据处理带宽两方面的表现,情况如表4。
表4 主频100 MHz、不考虑存储带宽和容量限制的最大处理粒度和最大处理带宽情况表Tab.4 The Table of Maximum Processing Granularity and Maximum Processing Bandwidth without Considering Storage Bandwidth and Capacity Limitations at A Main Frequency of 100 MHz
本文提出了基于XDMA+片上分割转置的通用交叉转置方案,可配合多通道FFT对多组DDR进行交叉转置,同时可灵活支持不同成像粒度。考察本文提出的成像系统和现有基于FPGA 的SAR 成像系统在处理粒度灵活性和最高处理并行度两方面的表现,情况如表5。
表5 处理粒度与最大处理并行度情况表Tab.5 The Table of Processing Granularity and Maximum Processing Parallelism
本文设计了一种能够高效实现NCS 算法的FPGA+DSP的SAR成像系统,支持大斜视成像场景。该成像系统的设计包含完整的多通道FFT协同处理流程,以及多通道DDR分阶段交叉转置方案,可普适于不同成像粒度、不同硬件并行度。最后。本文研制了FPGA+DSP板卡,搭建了基于模拟源、地检的验证环境,对5种成像模式仿真数据和2种成像模式实测数据进行处理,成像质量良好,成像速度表现出色。