对先进多功能雷达系统行为的识别、推理与预测:综述与展望

2024-02-24 01:54王沙飞朱梦韬李云杰
信号处理 2024年1期
关键词:脉冲序列脉冲雷达

王沙飞 朱梦韬*,2 李云杰 杨 健,2 李 岩,2

(1.电磁空间认知与智能控制技术实验室,北京 100191;2.北京理工大学网络空间安全学院,北京 100081;3.北京理工大学信息与电子学院,北京 100081)

1 引言

本文所考虑的先进体制雷达具体指具备多功能能力的相控阵多功能雷达系统(Multi-Function Radar,MFR),以及在此基础上采取了认知技术的相控阵多功能雷达系统1本文简称为认知多功能雷达(Cognitive MFR,CMFR)。两类。

多功能雷达概念最早可以追溯到第一部相控阵天线的出现。20 世纪70 年代,随着数字技术的发展,雷达被赋予多功能性,能够执行多个不同的雷达任务,如搜索、跟踪、导航等[1,2]。由Simon Haykin 于2006 年正式提出的认知雷达(Cognitive Radar,CR)概念[3]赋予多功能雷达更高的智能水平和自由度,从而进一步发掘雷达的性能潜力。多功能性强调雷达系统具备任意波形生成和同时执行多个不同任务的能力,以实现不同的雷达功能需求。认知能力则强调雷达系统的智能性,认知雷达能够根据动态变化的环境和目标调整其雷达资源管理[2,4]。可以说,认知多功能雷达(Cognitive MFR,CMFR)将是下一代多功能雷达的重要发展方向和实现形态[4]。

(1)相控阵多功能雷达系统

雷达的多功能性与天线类型无关,如机械扫描方式的AN/APG-6570和73雷达已经在作战中演示了多功能性[1,5],但电子扫描天线阵列更容易实现多功能。电子扫描阵列可以通过相位控制、频率控制和时间控制实现波束扫描。相控阵雷达是最常见和最典型的MFR,其使用相位控制实现波束的无惯性快速扫描能力[6-8]。相较于传统机械扫描天线,相控阵雷达从根本上解决了大天线与伺服转动之间的矛盾,缓解了雷达目标容量与数据率之间的矛盾,为远程、高速目标的搜索与跟踪提供了有效的技术途径。相控阵多功能雷达能够实现实时和同时多波束指向,从而一方面可以灵活的针对空间多个目标执行多个同时的任务,例如可分时分波束对不同目标执行搜索、跟踪任务。另一方面也使得雷达任务执行对雷达资源管理方法的依赖性增大[9-11]。即MFR是雷达硬件和资源管理算法的综合体,是复杂系统的系统。

相控阵雷达发展的直接需求来自于冷战期间洲际导弹预警、空间轨道监视等等军事需要。雷达需要在广阔的空间体积中搜索检测再入体以及跟踪多个目标以进行作战管理[6]。图1 描述了美国相控阵技术和数字处理节点发展的时间线[6]。相控阵体制在多任务执行方面具有天然优势,加上相控阵在往低成本、小型化方向发展,50年来,多功能相控阵雷达在很多领域得到了迅速发展和广泛应用。包括反导预警、防空预警、空间目标监视、航空管制、引导识别、战场侦察、电子对抗等等。雷达的载体也从地面发展到机载、舰载、星载以及弹载等形式[12]。这些先进体制多功能雷达的应用部署给现代电子侦察设备带来了极大的挑战[13]。

图1 美国相控阵雷达技术发展Fig.1 Development of phased array radar technology in the United States

(2)认知多功能雷达系统

随着认知技术的不断发展,现代相控阵多功能雷达的系统设计正受到认知雷达从发射-接收-闭环处理架构的影响。认知技术[3,4,14-17]基于对环境的感知,实时优化雷达预先设定的目标函数以充分挖掘雷达的性能潜力。认知技术使得雷达具有脉冲-脉冲或者脉冲组-脉冲组级别的捷变能力,信号的复杂度和灵活性进一步提升。认知雷达通常也是多功能的,基于认知雷达资源管理技术对多个雷达工作模式分配资源并优化对应控制参数。对认知雷达技术的早期尝试可以追溯到20 世纪70 年代,美国、欧洲以及亚洲的一些研究者就在尝试将一些认知技术应用到真实世界的相控阵雷达[18-19]2在参考文献[18]中,作者Fred Daum(IEEE Fellow,雷神技术公司专家,粒子滤波器的提出者)指出虽然“认知雷达”这个名词是最早直接由Simon Haykin 和Joe Guerci提出,但符合认知雷达概念与想法的尝试性工作在20世纪70年代已得到广泛开展。而这些50年前的尝试由于保密和知识产权的原因未能在公开文献发表。。在20 世纪90 年代的两篇经典相控阵多功能雷达的论文中提出了认知技术的相关概念[20-21]。2006 年Simon Haykin 首次直接提出认知雷达的概念[3],被认为是认知雷达发展史上的开创性贡献。从此,认知雷达开始受到国内外研究者的广泛关注和研究。

目前对认知雷达技术的研究集中在波形研究(Waveform Diversity)[22-24],传感器和雷达资源管理研究(Sensor and Radar Resource Management)[4,25-27],目标检测与跟踪(Target Detection and Tracking)[15,28],认知雷达顶层框架设计[14,29-30],元认知雷达[31-32],认知雷达测试平台等等[33-36]。认知雷达最典型的特征就是感知-行动环路(Perception Action Cycle,PAC)。在PAC 中,雷达感知环境,然后基于随机最优控制算法对发射机进行最优发射控制,以优化雷达性能。典型的随机最优控制框架如马尔可夫决策过程(Markov Decision Process,MDP),部分可观测MDP(Partially Observable MDP,POMDP)以及基于强化学习算法求解序贯决策问题,已经成为多功能雷达以及认知多功能雷达的相关资源管理问题的一个热点,并得到了广泛研究[37-42]。总的来说,认知雷达的概念、理论和建模工作,经过十多年的发展,已经有了许多的研究成果,但是大多成果仍处于雷达测试平台验证层面,表1 梳理了国外典型的认知雷达测试平台。

表1 典型认知雷达技术测试平台Tab.1 Typical cognitive radar testbed

(3)多功能性的使能技术

在现代多功能雷达的研究中,雷达资源管理是雷达多功能性与雷达性能保证的关键使能技术。在给定多功能硬件射频系统、雷达资源总量和约束关系的前提下,资源管理技术需要充分控制和利用雷达的自由度,实现任务容量、质量最大化和资源利用最优化。多功能雷达资源管理具有三个方面的依赖性:一是雷达工作模式具有设计性;二是雷达探测能力具有调节性;三是雷达事件调度具有管理性[8]。具体来说,具有传统或自适应雷达资源管理能力的多功能雷达,这些雷达在设计时,预先设计具体的、有针对性的资源管理方法,并将这些方法封装为一套完整的、相对固定的、可重复调用的资源分配和雷达控制关系。例如,在工作模式设计方面,针对不同环境和目标预先设计不同具有针对性的雷达工作模式。在事件调度方面,预先设置调度策略处理事件调度,这些策略包括如固定模板、多模板、部分模板和自适应模板等策略。而对认知多功能雷达则根据回波感知到的环境状况和优化特定目标函数来进行雷达资源管理,即CMFR 具有认知雷达资源管理的特点。参考IEEE 标准中对认知雷达和自适应雷达的定义[2],相较于自适应MFR,CMFR 能够在扩展的时间线上学习调整其控制参数和处理参数,灵活性、自由度较传统多功能雷达有极大提升。

(4)给电子侦察带来的挑战

上述先进多功能雷达系统的发展给传统电子侦察设备带来了几个方面的巨大挑战:

1)建模表征难:先进多功能雷达系统具备自由分配时域、空域、频域、能量域等多域资源的能力,其天线波束及工作波形复杂多样,波束调度和发射波形组合灵活多变,且软件自定义的特性使得新的工作状态随时出现。先进体制雷达灵活捷变的动态特性以及非合作电子侦察任务存在的视角差异、信息不对称性等给雷达行为建模表征带来挑战。

2)分选识别难:先进多功能雷达系统自身信号产生机理层次化、信号形式复杂、多维参数联合变化、工作状态序列受调度策略和环境目标状态影响;现代战场环境中各种用频设备数量不断增加且体制日趋复杂,使得先进体制雷达所处电磁信号环境日益复杂,侦收脉冲序列往往包含来自多个辐射源的复杂脉冲序列;侦收脉冲序列存在由于侦察设备带来的检测信号缺失,雷达波束调度等原因造成的稀疏观测情况,由于信号发射-传播-接收过程带来的噪声与虚假干扰等非理想情况。上述三个因素给传统的雷达辐射源分选3多功能雷达行为的特点可以辅助分选,因而对多功能雷达信号进行分选时往往需要同时完成分选与识别。但本文聚焦于对先进多功能雷达系统行为的识别、推理、预测等,为了聚焦,本文不对分选展开介绍。与识别方法带来了挑战。

3)推理预测难:多功能雷达行为动作序列受其和环境、目标之间的交互过程影响,呈现出随机动态特性。认知多功能雷达行为动作序列受雷达资源管理器控制,行为生成策略受特定环境、目标情况下的目标函数最大化这一过程影响。上述先进体制雷达和环境/目标之间交互或博弈对抗导致的行为动作随机捷变特点,给非合作观测下的雷达行为生成策略推理与预测带来挑战。

因而开展对先进多功能雷达的行为识别、推理与预测研究具有紧迫性和必要性。

(5)对先进多功能雷达系统行为的分析研究

目前,国内外学者针对多功能雷达的系统行为建模表征与感知识别开展了大量研究,也取得了大量的研究成果。相关的综述性文章主要有航天工程大学阳榴于2020 年发表的关于多功能雷达工作模式识别的综述[47],并对各类识别方法进行了定性分析。2023 年信息工程大学付雨欣对多功能相控阵雷达行为辨识进行了综述[48],并对各个研究中识别方法取得的性能进行了比较分析。国防科技大学熊敬伟从知识驱动和数据驱动两个方面对四类雷达工作模式识别方法进行了综述[49]。但这些综述均聚焦于较为具体的、特定的雷达行为或工作模式识别任务,亟须对多功能雷达行为分析更为全面和更具系统性的综述研究。本文聚焦相控阵多功能雷达系统行为的非合作侦察分析,从多功能雷达行为的概念内涵、建模表征、外显行为识别、内隐行为推理和未来行为预测等方面,对国内外新技术、关键问题、解决方案进行归纳分析,并对未来研究重点进行展望4本文依据公开发表的文献进行综述与展望。。

本文重点综述和介绍以下四个方面的内容:第一是多功能雷达系统行为的概念、分类与内涵,对应本文第2 章;第二是多功能雷达系统行为的侦察分析模型,对应本文第3章;第三是对多功能雷达系统外显行为的识别和内隐行为的推理,对应本文第4 章和第5 章;第四是基于行为识别与推理结果对未来行为的预测,对应本文第6 章。最后第7 章对多功能雷达系统行为分析的未来研究重点进行展望,并在第8章总结全文。

2 多功能雷达行为的概念、分类与内涵

2.1 雷达行为的概念与分类

在心理学中,“行为”指“有机体在各种内外部刺激影响下产生的活动”。2017 年国防科技大学的欧健博士首次定义“雷达行为”为“雷达对战场态势及电磁环境作出的内部资源分配与外部信号辐射等所有反应的总和”[50]。2018 年,电子信息控制重点实验室的石荣结合人类行为科学领域的研究,将电磁辐射源行为描述为“该电磁辐射源目标在个体和群体层次上对外界的变化和内在任务要求改变所做出的整体性反映”[51]。

上述定义对雷达行为进行了较为抽象和整体性的描述。本文结合心理学与行为科学相关知识以及其他工程领域类似研究对行为定义和分类[52-54],首先依据雷达系统行为活动的内容与目的,将雷达行为划分为推理行为、决策行为和动作行为三类。推理行为指雷达基于对外界环境5环境为广义的环境,包含如目标、干扰方、侦察方等所有可能和雷达发生交互的元素。的量测信息,对外界环境的状态做出识别/估计、推断与预测的行为。决策行为指雷达基于对外界环境的量测信息或推理信息,对雷达外界环境未来状态的控制、优化方案与策略做出决定的行为。动作行为指雷达基于对外界环境的决策信息,对雷达外界环境未来状态的控制、优化方案与策略进行执行的行为。然后进一步从雷达方视角和侦察方视角对上述三种雷达行为进行分类,如表2所示。

表2 不同视角对雷达行为的分类Tab.2 Categorization of radar behavior from different perspectives

上述三种角度分类的关系如图2所示。其中在雷达方视角,管理行为从行为内容与目的这个角度,可进一步细化为动作行为和决策行为。评估行为则对应推理行为和决策行为。从侦察方视角,动作行为实际上是雷达的外显行为,而决策行为和推理行为则是动作行为背后的内隐行为6这些划分和分类,一定程度上基于作者自身的观点和偏好设计得到,不可避免地存在需要进一步完善和改进的地方,读者可以根据实际需求进行调整与修改。。

图2 不同角度行为分类之间的关系Fig.2 The relationship of behavioral categorization from different perspectives

2.2 雷达方视角的雷达行为及内涵

对多功能雷达而言,其行为和资源管理模块息息相关。MFR 是“设备”和“管理”的综合体。其中“设备”指雷达的物理硬件实体,而“管理”则指嵌入雷达系统的计算机系统及实现雷达资源管理和各种功能操作的算法软件。雷达设备提供了雷达运行各种任务、实现多种功能的基础,而雷达资源管理则是任务有效运行、提升雷达性能的关键保证[55]。

多功能雷达的资源管理是层次化的[8,12,20,55-56]。为了方便信息在层内和层间传递,雷达研究者又基于信息融合领域研究[57]的理论基础,在模块内构建高速有效的信息融合机制,实现了如图3 所示的雷达资源管理架构[4,29-30,58-59]。该架构由管理分支和评估分支组成。评估分支表示了雷达信号处理的内容,而管理分支则表示了对雷达的控制内容。

图3 先进多功能雷达资源管理层次化结构示意图Fig.3 Schematic diagram of hierarchical structure for advanced MFR resource management

因此雷达方视角,多功能雷达的行为包括对应雷达管理分支各个层次活动的管理行为和对应评估分支各个层次活动的评估行为。管理行为包括如信号发射、信号调制、波束调度等活动。评估行为包括如雷达内部的匹配滤波、检测测量、跟踪识别等活动。

2.2.1 评估行为

在雷达领域经过几十年的研究对评估分支行为各层的各个内容已经建立了许多处理方法,如1)信号层中的空时自适应处理技术(Spatial Time Adaptive Processing,STAP)[60];2)在测量层,通过学习杂波环境特征来辅助复杂环境下的目标检测[61];3)在任务层,雷达利用多假设跟踪算法(Multiple Hypothesis Tracking,MHT)[62]来解释测量数据,以及利用交互式多模型(Interacting Multiple Model,IMM)[63]滤波算法估计复杂运动目标的运动状态。管理分支的决策取决于评估分支所提供的信息,相较于评估分支,雷达领域对管理分支的研究相对滞后。

2.2.2 管理行为

管理行为主要包含任务管理、场景管理、目标管理、测量管理和信号管理5 个部分。任务管理以雷达战略需求为目的规划制定雷达的观测任务计划。场景管理负责为每个雷达任务依据任务的需求设置对应的优先级、任务质量效能评价等。不同的观测任务都需要一整套相应的搜索、跟踪策略以及对应的雷达控制参数。目标管理根据观测目标特性预先设计或优化观测任务对应的搜索、跟踪策略及控制参数,封装成相对固定的工作模式方便调用。在任务管理、场景管理和目标管理的基础上,每个目标的观测任务最终可以分解为独立的、离散的、具有时效性约束的雷达波束探测事件(Radar Job),每个事件7对不同智能程度的雷达,事件代表的雷达操作尺度不同。例如“水星”MFR中事件对应雷达命令,该命令对应了四个雷达字,每个雷达字对应了一次具体的波束探测。若雷达实时处理能力更强,则可以以雷达字作为事件进行调度,以取得更大的自由度和性能潜力提升。对应了雷达天线的一次或多次使用。测量管理需要从许多事件请求(Job Request)中规划事件执行的时间线。最后的信号管理对应发射机端,执行每个具体的事件及对应的事件控制参数。雷达需要设计或优化事件对应的发射控制参数、接收控制参数等控制内容。控制参数的种类越多、取值空间越广,雷达的自由度和性能潜力也越大。

在管理分支,自上而下是雷达任务层层分解的过程,上层是下层的框架和要求,下层是上层的分解和细化,通过任务层层细化分解,最终具化为雷达可执行信号发射的方案。通过层次化结构设计,能够将顶层雷达操作器规划的雷达任务等与底层可执行雷达脉冲发射的天线单元关联起来,实现多时间尺度上的资源管理。在评估分支,自下而上是对雷达接收信号的层层处理,逐级提取对目标和环境的态势感知信息。最后通过环境和操作器,实现多功能雷达发射-接收-处理的闭环架构。

2.3 侦察方视角的雷达行为及内涵

对侦察方而言,雷达行为分为外显和内隐行为。对不同内容和目的的行为,侦察方进行行为识别分析研究所要完成的任务也不相同。对外显行为,侦察方需要识别获取行为的信息,如发射信号的类型、调制参数、所属雷达工作状态等。通过外显行为的识别结果,侦察方可推理内隐行为。对内隐行为中的决策行为,推理其决策过程的准则。例如雷达波形优化过程的目标函数与约束条件,雷达选择所使用的跟踪滤波模型的准则等。对内隐行为中的推理行为,侦察方需要逆向推理雷达方推理的结果和性能。例如希望获知对手目标跟踪的结果、跟踪精度、目标识别的结果和识别准确率。

2.3.1 外显行为

雷达的外显行为和雷达的发射信号相关。侦察方可以通过分析侦收到的底层雷达信号逐级向上推知各个层次的外显行为。

对侦察方而言,先进体制雷达调度的事件序列,可以按时分复用的形式划分为图4所示单帧时间和多帧时间两个维度。单帧时间反映了多功能雷达同时(对多个目标)执行多个事件的过程;多帧时间则反映了对同一个目标雷达的事件序列执行过程。

图4 多功能雷达发射信号与分布式观测Fig.4 The transmitting signals of MFRS and distributed observation

在单帧时间维度,不同观测平台观测到雷达在一个处理帧中对各个观测平台的事件脉冲序列。通过对观测平台之间的协同可以恢复出雷达在单帧时间尺度的事件调度序列。多个观测平台可能被同一个波束照射,或者观测平台被雷达对其他观测平台波束的旁瓣所照射。即使是多平台观测,也可能存在指向所有观测平台之外位置的搜索波束,即可能存在未被观测到的雷达波束。在多帧时间维度,单个观测平台会侦收到来自雷达的,针对该目标的连续多个雷达事件序列,如搜索-跟踪-识别等事件序列。多观测平台在两个维度的事件观测示意图如图5所示。上述单帧时间和多帧时间的划分主要是依据雷达的多目标处理能力,随着雷达资源管理能力的提升,单帧时间和多帧时间的划分将会更加灵活[8]。

图5 多观测平台单帧时间和多帧时间事件观测Fig.5 Observations of fast and slow time radar job on multiple observation platforms

2.3.2 内隐行为

雷达的内隐行为无法直接体现在侦察方可感知到的信号上。但随着对抗双方智能程度的不断提升,通过研究可感知到的雷达外显行为和环境信息,逆向分析推理雷达系统内隐行为的研究也开始受到电子侦察领域学者的关注。电子信息控制重点实验室的石荣等人在文献[51,64-65]中指出对辐射源内部控制机制与控制参数进行推理的作用和重要性,并给出了基于主动有源电子对抗实现对辐射源内部控制参数估计的基本设想。对内隐行为推理系统性的研究工作则由美国康奈尔大学教授Vikram Krishnamurthy 率先开展。例如在文献[66]中,针对雷达评估分支的滤波行为,设计逆滤波方法,实现对非合作雷达系统目标跟踪环节滤波精度的估计;针对雷达方管理分支控制发射信号生成的波形优化决策行为,设计逆强化学习算法,估计该决策行为的优化目标函数及约束。

对内隐行为推理的研究概念新颖,将使得电子侦察一方由识别雷达当前采取的外显行为“是什么”,进一步由果溯因深入为获知雷达“为什么”会采取这些外显行为,以及环境和侦察方动作演变对雷达方行为过程的影响,可为后续针对先进体制雷达系统的精准干扰与行为控制提供强有力支撑,需要引起国内研究者的重视。

3 多功能雷达行为的侦察分析模型

3.1 侦察分析模型的概念与分类

多功能雷达侦察分析模型是以多功能雷达本体为对象,直接从多功能雷达本体的行为出发,以侦察方可观测外显行为为输入,融合对雷达行为有影响因素的所有可得信息,以获取行为主体多功能雷达相关行为的属性、产生机理、作用过程、行为结果及后续行为利用和对抗方式等为目的而构建的雷达行为模型。“从多功能雷达本体的行为出发”是模型构建的思路。因为侦察方可观测的外显行为直接原因是多功能雷达的管理行为,根源原因是多功能雷达的评估行为,管理行为和评估行为均来自多功能雷达本体,只有从本体出发才可从逻辑上导出可观测外显行为产生的一般机理和分析方法8我们认为对非合作雷达行为的分析识别,应该包含两大类模型:雷达方真实行为模型和侦察方侦察分析模型。其中雷达方的真实行为模型对侦察方而言未知。侦察方的侦察分析模型源于多功能雷达真实行为模型,是在通盘利用侦察方所有可得信息的基础上从侦察方视角构建的模型。侦察分析模型可继续细分为两类模型:侦察方想定的雷达行为模型和用于行为分析的侦察过程模型。其中想定的雷达行为模型是对雷达方的真实行为模型的一种尽可能的近似,用于行为分析的侦察过程模型则是在想定模型的基础上,构建的逆向分析识别模型。本文为了保持聚焦,不至于过于发散,仅对侦察分析模型构建的基本逻辑进行介绍。。

根据上述思路,多功能雷达行为的侦察分析模型应该包括但不限于以下5个基本要素:评估行为、管理行为、动态环境、外显行为模型、内隐行为模型。侦察分析模型构建的基本逻辑如图6 所示:雷达方基于评估行为和管理行为,向环境输出雷达动作,侦察方根据对外界环境的量测信息,对外显行为进行识别,然后对内隐行为进行推理。最后侦察方可能会基于行为分析结果对环境输出自身的动作,影响环境变化,进一步刺激雷达方的评估行为,进入新一轮雷达行为实现与分析过程。

图6 多功能雷达行为侦察分析模型构建的基本逻辑Fig.6 The basic logic of constructing a MFR behavior reconnaissance analysis model

在图6 中,四种行为均为客观存在的行为。评估行为和管理行为为雷达本体真实行为,侦察方无法感知。虽然外显行为、内隐行为和管理行为、评估行为能够通过动态环境直接关联,但侦察方不一定知道之间确切的关联关系。因此,外显行为模型和内隐行为模型是侦察方视角,基于动态环境作用后的雷达方动作,及其他可用信息,对外显行为和内隐行为构建的想定模型,是对真实外显行为和内隐行为的模型近似。如在文献[67]中,雷达方在任务层采取Logit 模型进行任务决策,决定是否进行雷达任务的切换。此时任务层的外显行为为雷达执行的任务序列,决定该任务序列的Logit 模型对侦察方未知。因此侦察方采取马尔可夫链模型对外显行为进行数学模型表征。侦察方构建的模型显然永远不会和非合作雷达目标的真实模型匹配上,但是总是可以在不同的应用场景下构建合适的数学模型以逼近雷达的真实行为模型。这也反映出构建好的侦察分析模型对于非合作MFR 进行行为识别具有复杂性、重要性和必要性。

考虑到动态环境是客观存在的,但侦察方视角和雷达方视角各自认为的动态环境是不同的,这涉及到双方的博弈设计,如智能水平、想定推理深度等,不在本文涉及。侦察方进行侦察分析时,是基于外显行为模型和内隐行为模型对雷达行为进行识别、推理与预测,因此下面分别介绍这两个模型的研究情况。

3.2 雷达外显行为的层次化建模

雷达外显行为,从行为内容和目的来说,是雷达基于对外界环境的决策信息,对雷达外界环境未来状态的控制、优化方案与策略进行执行的动作行为。例如执行雷达调度的事件、采取的工作模式、对优化波形结果的发射等。

以文献[67]中的例子说明单观测平台的雷达外显行为模型,此时的模型如图7 所示。雷达对特定的跟踪目标执行辨识任务,辨识任务对应一组可调度的雷达命令(雷达命令即该雷达可调度的雷达事件),包括如警告、非自适应跟踪、距离分辨等。其中每个雷达命令又由不同的雷达字序列构成。最终雷达通过将每个雷达字映射成对应的雷达脉冲,通过天线发射。可以看出雷达外显行为具有功能多层次、序列多状态以及信号多维度的特点。功能多层次指系统行为的层次化实现。序列多状态指雷达在雷达时间线上对目标调度多个工作状态(本文将雷达字称为雷达状态)。信号多维度则指雷达发射的脉冲是由多维状态参数表征。

图7 外显行为模型Fig.7 Explicit behavior model

3.2.1 建模表征方法

已有典型对多功能雷达外显行为建模的层次化模型如图8所示[50,68-69]。根据层次化模型各个层次的抽象程度和在雷达资源管理模块管理分支所起的功能,可以将层次划分为符号层和符号-脉冲层两大类。

图8 已有MFR的外显行为层次化模型Fig.8 Existing hierarchical model for explicit behavior of MFRs

符号层的含义指雷达在这些层次外显行为的基本元素是符号,即在符号层中雷达通过符号间的映射表征管理分支各层的外显行为。符号-脉冲层则起到将雷达管理器规划调度的符号转换成雷达可执行发射的脉冲序列的功能,直接对应了管理分支中的发射机执行控制命令这一行为。因此,模型符号层中的符号和雷达方资源管理调度的事件存在直接映射。对不同的雷达,符号-脉冲层具体执行的控制信息具有多样性。

2005 年加拿大学者Visnevski Nikita 在其博士论文中[68],首次提出了著名的多功能雷达层次化模型(图8中层次化模型1)。在该层次化模型结构下,他使用乔姆斯基所提出的形式语言和语法[70-72](即句法模型)来建模多功能雷达复杂动态的信号生成过程。他提出的方法能够从数学模型的角度表征雷达层次化管理分支中自顶向下,从雷达任务到中间层雷达命令再到底层可直接执行的雷达发射脉冲序列的雷达信号产生机理与过程。在层次化资源管理中,雷达自顶向下,将上层的任务符号序列、命令符号序列等逐层拆解成底层雷达可直接执行发射任务的“雷达字”这一符号-脉冲层符号,将高层抽象的任务信息转换成雷达可执行对应雷达任务的具体控制参数,最后通过动作行为执行具体的控制。

具体的层次化模型1 的雷达任务层,他使用马尔可夫链[67]表征由于多功能雷达和目标之间交互导致的雷达任务切换过程。在雷达命令、雷达字等下层,他使用随机上下文无关文法(Stochastic Context-Free Grammars,SCFG)表征下层各层内和层间元素之间的概率性切换。相较于传统基于状态空间模型,如基于隐马尔可夫模型(Hidden Markov Model,HMM)[73]的表征方法,SCFG 能更好地描述多功能雷达外显行为中的事件规划和插入等操作,相较于HMM 具有更低的熵,更适合表征多功能雷达的外显行为。图9描述了上述马尔可夫调制的SCFG 模型表征MFR 外显行为时,层次化模型层内与层间的符号转移关系[67]。他们所提出的多功能雷达层次化模型,以及使用句法模型对多功能雷达外显行为进行数学建模分析的思路,给多功能雷达系统行为分析奠定了基础。后续国内外大量的研究以他们所提出的层次化模型,以及典型的“水星”多功能雷达为对象开展研究。

图9 MFR的层次化模型Fig.9 The hierarchical model of a MFR

在他们的层次化模型中[68],所使用的“水星”雷达型号设计生产比较早,对应的雷达字较为简单。如图10 所示,每个雷达字由两串脉冲组成,第一串是固定脉冲重复间隔(Pulse Repetition Interval,PRI)的脉冲-多普勒脉冲(图10 中B 段,字与字的PRI 不同),第二串为固定PRI 的同步脉冲(图10 中D段,所有字的同步脉冲PRI相同)。

图10 “水星”多功能雷达的雷达字结构Fig.10 The radar word structure of the “Mercury” MFR

3.2.2 符号层行为表征

符号层行为相较于符号-脉冲层行为,从形式上说要更简单,因为符号层所对应的雷达操作要更抽象,因而对应的符号集合基数也相对要小。高层次符号层符号为有限个低一层次符号层符号的有序排列。符号层行为的建模表征方法需要具备表征层内元素之间和层间元素之间转换关系与规律的能力。已有研究对真实雷达符号层实现模型进行建模表征的常用方法分类如表3所示。但这些典型文献是从雷达方视角进行建模,是为雷达决策服务的模型方法研究。

表3 符号层表征模型分类Tab.3 Categorization of symbol layer representation models

基于实际工作过程目标函数优化的表征方法,实际上也是对决策行为的建模。雷达实际上是按照自身的资源管理过程进行雷达控制与信号生成,而不是按照侦察方构建的模型产生雷达信号。侦察方是通过如句法模型等数学模型对雷达方的外显行为进行描述,是对雷达真实资源管理过程的数学模型近似。不同的雷达资源管理过程对应的数学模型也会存在区别[76]。

3.2.3 符号-脉冲层状态表征

符号-脉冲层行为表征则更复杂。随着多功能雷达的不断发展,多功能雷达的信号形式日益复杂,如雷达广泛使用捷变频或者频率步进技术来抗干扰,或者使用参差PRI序列解距离模糊等等[22,24]。Visnevski Nikita 层次化模型中的雷达字不能适应先进体制雷达信号的建模表征。因此,国内外的研究者以层次化模型为基础,围绕符号-脉冲层的表征展开了一系列的研究改进。其中典型的工作有,国防科技大学的欧健博士在其博士论文中,将雷达字替换成脉冲样本图,从而使得句法模型的应用范围从脉冲多普勒(Pulse Doppler,PD)多功能雷达扩展到所有脉冲雷达[50]。脉冲样本图模型由罗景青等人构建[77,78],基本思想源自抽样理论。即只要恰当的选取合适数量的样本,就可以以任意准确度描述该数据集代表的总体。2019 年,德国夫琅禾费研究所的Sabine Apfeld等人将雷达字层次扩充为雷达字母,雷达音节和雷达字三层,从而将原始雷达字表征粒度进一步细化,同时将单PRI参数表征扩充到多维参数表征[69]。

文献[68-69]研究中所考虑的“符号-脉冲层”对应的脉间调制都比较简单。文献[50]中的脉冲样本图对脉冲序列调制类型进行了扩展,能够表征所有类型的雷达脉冲。但脉冲样本图本质上仍然属于构造模板的表征方法。随着先进体制多功能雷达及新一代认知多功能雷达的发展,雷达系统可以在符号-脉冲层上实现更丰富的调制类型,每种调制类型可以实现更灵活的参数控制。以对应脉冲序列中的PRI参数为例,雷达除了可以实现不同的PRI脉间调制类型外,在相同的PRI调制类型工作状态实现中,也可以存在调制参数不同的细粒度工作状态实现。本团队在这些研究的基础上[79-80],提出基于参数化概率模型表征符号-脉冲层元素,把符号-脉冲层元素对应的脉冲序列表征为随机变量序列。该随机变量序列的特点可由K个参数上的调制类型与调制参数组合描述,(如图11 所示)。基于参数化概率模型的表征方法更通用并能和数学模型相结合。进一步,本团队在文献[81]中结合贝叶斯非参数理论,通过贝叶斯非参数HMM表征雷达脉冲序列,能够适应电磁环境存在的虚假和缺失脉冲非理想情况,并能够实现模型的自动定阶。

图11 MFR符号-脉冲层的参数化模型表征Fig.11 Parametric model representation of MFR Symbol to Pulse Layer

3.3 雷达内隐行为的层次化建模

内隐行为是外显行为的成因。相较于外显行为,对内隐行为建模的研究较少。

3.3.1 建模表征方法

对内隐行为的建模不是孤立的,需要从雷达发射-接收-处理的闭环架构进行考虑。考虑文献[82]中对发射-接收-处理闭环架构的模型,具备如下动态特性:

其中,k=1,2,···,N表示离散化时间,p(·)表示条件概率密度函数或条件概率质量函数,~表示服从的分布。其中:

xk∈X 为环境状态,为状态转移核函数,π0为初始状态信念,X 为状态空间。状态空间包含所有与雷达任务有关的环境因素。例如在目标跟踪任务中,状态空间可包括目标的运动学信息。

yk∈Y为雷达方对环境状态的带噪估计,为观测函数,Y为观测状态空间;由于非合作原因,雷达方无法获得环境状态的真实值。

由于真实的xk无法被观测,雷达根据yk获得对xk的信念或后验(Belief 或Posterior)πk。令y1:k=(y1,y2,…,yk)为包括到当前时刻k的所有可观测变量历史。

at∈A为雷达动作,Gπk,a为决策准则,A为动作空间包含了雷达所有可采取的动作。例如在特定空域调度特定波形的波束进行测量。∈为我方对雷达动作的观测,为观测函数,观测动作空间。

上述过程在单个时间步具有式(1)所示依赖关系。如第2.1 节所述,内隐行为从行为内容和目的上划分,包括决策行为和推理行为。对内隐行为不同的行为类型所构建的模型类型也不同。目前主要是由美国康奈尔大学教授Vikram Krishnamurthy率先开展相关研究[82-84]。本文结合Vikram Krishnamurthy 的研究,从滤波和随机优化模型两个方面描述建模表征的基本思想。其中滤波对应了内隐行为中的推理行为类型,随机优化模型则对应了内隐行为中的决策行为类型。

3.3.2 推理行为中的滤波处理模型

Vikram Krishnamurthy 在文献[82,85]中分别给出了T(πk-1,yk)为HMM 滤波器和卡尔曼滤波器时的模型。经典贝叶斯滤波器有:

当T(π,y)为HMM 滤波器时,记状态转移矩阵分别为P和B:

记B的列向量形式为:

从而有:

3.3.3 决策行为中的随机优化模型

Vikram Krishnamurthy 在文献[84]中给出了基于显示偏好的雷达决策行为建模。但在显示偏好框架下,一方面他们要求认知雷达的优化目标函数为单调函数;另一方面他们考虑雷达基于近视性的方式优化其目标函数,未考虑对环境的预见性(Anticipation),难以适应不同体制、型号、智能水平以及认知推理深度等雷达多样性带来的复杂而广泛的建模问题,因而侦察分析模型需要具有普适性和泛化能力,适应各种未知且复杂的认知雷达技术具体实现。

文献[25,76]定义了雷达基于服务质量的资源分配模型(Quality of Service based Resource Allocation Model,Q-RAM)建模资源分配决策问题,该模型可以描述如下:

记{τ1,τ2,…,τn}为雷达任务集合,雷达共有k种可分配且待分配的资源,对应的资源总量分别为R1,R2,…,Rk。对每一个雷达任务τi,存在:

离散控制空间Φi:即可行的任务配置离散空间;

映射gi:Φi→Rk:该函数将任务配置映射为对应的资源需求;

任务质量空间Qi和环境状态空间Si;

映射fi:Φi×Si→Qi:该映射将配置-环境对映射成对应的任务质量水平;

上述Q-RAM 资源管理模型的求解实现流程如图12 所示,分为构建并评估控制参数配置、凸包运算、全局优化以及调度器调度四步。

图12 基于实时全局优化的Q-RAM资源管理实现Fig.12 Implementation of Q-RAM resource management based on real-time global optimization

首先构建并评估控制参数配置,假定雷达存在k种待分配的资源R1,R2,…,Rk,复合资源函数h:Rk→R 将资源向量映射为描述资源需求的标量。对每个任务,雷达产生并评估所有可能的控制参数配置ϕ。在评估中,雷达将任务配置嵌入到资源-效用空间。然后通过凸包运算,确定在固定资源水平的情况下最大化效用函数的控制配置子集。这些控制配置子集被称为事件列表。在资源充分的前提下,雷达使用全局优化器迭代地将资源分配给具有最佳的效用-资源比率的事件。资源分配结束后,通过调度器对选定的雷达事件进行调度。

上述方法在实际雷达运行时需要求解优化问题,实时性得不到保证。为了解决实际部署时的算法实时性问题,一个研究趋势是基于强化学习求解雷达资源管理问题[37,75,86-87]。强化学习通过智能体在环境中与环境不断进行交互,学习到使得累积回报值最大的动作策略。从而在部署时,训练好的智能体便可以以类似于查表法(或神经网络前向计算)的时间,给出当前环境下Q 函数最大的雷达动作(即控制参数优化结果)。基于强化学习求解QRAM问题的实现过程如图13所示[88]。

图13 基于强化学习的资源管理实现Fig.13 Implementation of resource management based on reinforcement learning

3.4 雷达行为侦察过程建模

图14 展示了多功能雷达的信号生成过程与侦察方基于侦收脉冲序列进行行为侦察的过程。其中识别对应外显行为,推理对应内隐行为。以文献[67]中的例子说明,在图14中雷达对特定跟踪目标执行辨识任务,辨识任务对应一组可调度的雷达命令,则不同雷达命令为可调度的雷达事件,如警告,非自适应跟踪,距离分辨等雷达命令。其中每个雷达命令由不同的雷达字序列构成。最终雷达通过将每个雷达字映射成对应的雷达脉冲,通过天线发射。对侦察方而言,其直接侦收到雷达脉冲序列,需要基于底层脉冲序列逐层向上反向推理脉冲序列所对应的雷达工作状态、雷达行为等外显行为。例如根据雷达字符号序列识别当前的雷达命令,然后根据雷达命令序列预测未来时刻雷达可能采取的雷达命令等。

图14 信号生成过程与行为侦察过程Fig.14 Signal generation process and behavior reconnaissance process

上述3.2-3.3 节的建模研究多是从侦察方视角构建的想定模型,是对雷达方真实行为模型的近似,未考虑非合作侦察条件下由于视角差异、信息不对称性等因素引入的新问题。例如在外显行为建模方面,文献[50,68-69]在构建模型时往往假定雷达真实模型的结构已知或结构和参数均已知。即假定雷达资源管理模块管理分支各个层次的动作行为(即句法模型字母表)已知,或者字母表及字母表元素间的转移规则(语法)已知,侦察识别方只需要从侦收脉冲序列逐级提取,识别各个层次对应的元素就实现了对各个层次外显行为的识别。在文献[68]的模型中,侦察方可通过脉冲序列提取雷达字,然后每四个雷达字可以映射成一个高层雷达命令,对应了命令层中的一个雷达命令符号,而多个固定排列的雷达命令对应了一个特定的雷达任务。在实际战场环境中,侦察方很难获取雷达脉冲与脉冲-符号层中的各个元素以及这些元素间的转移规则。从而也就无法依据他们的层次化模型逐层完成对各个层次雷达符号的准确提取。就算能够通过长时间积累对非合作雷达信号进行分析处理,因为侦察方与雷达方视角的不同,往往也无法完美构建各个层的元素。

再如对图10 所示的雷达字,从侦察方的视角,若有雷达字先验信息,则直接可以将对应的脉冲序列转换成对应的雷达字符号。若无雷达字先验信息,那么在进行分析处理时,无论是通过专家分析还是无监督算法提取[89],很可能首先将B 和D 划分成两个不同的“雷达字”,然后通过大量积累的数据分析,可能进一步将BD 这两段合并归纳成一个“雷达字”。再考虑如图15 所示PRI序列。对雷达方而言,其“符号-脉冲层”最小元素可能就是重复多个周期的组变脉冲,对侦察方而言,在无直接先验信息的情况下,将组变脉冲的一个周期或者一个周期中每个PRI 取值对应的脉冲序列当作一个单独的“符号-脉冲层”元素也是合理的。因此需要构建更通用的表征模型以支撑非合作侦察情况下对雷达行为的建模,以支撑后续的识别处理。

图15 符号-脉冲层的多尺度示例Fig.15 Multiscale example of symbol to pulse layer

本团队在文献[80]中考虑非合作视角差异,提出了符号-脉冲层序列观测的多尺度建模方法,并针对典型脉间调制类型给出了表4所示无先验信息情况下的不同尺度脉冲序列层级划分示例。

表4 不同尺度脉冲序列层级划分示例Tab.4 Example of hierarchical division of pulse sequences at different scales

对于任意雷达脉冲序列,总是可以按一定尺度标准将其划分成多个脉冲片段,这是符号-脉冲层对符号“盲”提取的基础。在按尺度划分之后,需要给划分之后的片段和片段内脉冲进行符号分配,以便进行后续符号层的处理。不失一般性,本团队在文献[80]中,将按照一定划分标准得到的单个符号类别对应的雷达脉冲序列片段为雷达行为的最小可分辨单元,对应的符号类别称为工作状态类别。在有先验信息时,最小可分辨单元直接基于先验信息定义,例如不同的雷达字即为不同的最小可分辨单元。在无任何先验信息时,最小可分辨单元对应一组有序脉冲。本文定义最小可分辨单元为一组多维脉冲参数上具有特定调制类型和调制参数组合的脉冲序列。

4 多功能雷达外显行为的识别

4.1 行为识别的研究路线分类

在多功能雷达的层次化结构与句法模型表征的基础上,国内外有许多学者开展了雷达外显行为识别的研究[47,50,67,89-106]。外显行为识别的目的是基于输入脉冲,逐级向上推知雷达管理分支各个层次的外显行为。已有的外显行为识别研究工作可以根据实现外显行为识别的不同输入输出形式,划分为表5中4类。

表5 已有MFR行为识别研究的分类Tab.5 Categorization of existing MFR behavior recognition studies

已有雷达行为感知识别研究中的“行为”多对应符号层行为,为了描述简便,在后面的描述中,除非特别指出,本文将符号层行为统称为雷达行为。而对符号-脉冲层,其基本元素符号在不同的文献中有不同的含义,如雷达字、工作状态、或更细化的分层描述等,本文不做表述上的区分,统一称为工作状态。下面分别进行介绍。

4.2 序列预处理

序列预处理对存在缺失、虚假等非理想情况的脉冲序列或符号序列进行重建,去除非理想情况,以提升后续识别处理性能。考虑雷达脉冲或符号序列数据A={a1,a2,…,aT|ai∈RD},D为A对应的特征维度,T为时间序列的长度。A中的一部分数据Arc存在缺失或错误,另一部分可用上下文数据为Aob。预处理任务的目的是学习条件概率分布p(Arc|Aob)。本文所考虑的预处理包含了:1)对序列中缺失数据的填补;2)对序列中的离群值、错误值等进行删除或修正。

上述两个预处理任务的含义可分别在雷达行为的符号-脉冲层和符号层映射。在符号-脉冲层,侦收脉冲序列存在由于侦察设备带来的检测信号缺失、雷达波束调度等原因造成的稀疏观测情况;由于信号发射-传播-接收过程带来的噪声与虚假干扰等非理想情况。在符号层,符号序列存在由于前级符号提取算法造成的符号缺失、符号错误以及符号额外插入等情况。因而,无论是对符号-脉冲层还是符号层,都需要先对序列进行预处理,尽可能降低上述非理想性对行为序列的影响。从电子侦察的视角重建雷达行为序列的时序模型,对精确掌握雷达情报并支持后续识别、预测和干扰等应用具有重大现实意义,但相关的研究相较于识别也较少。

最早开始研究上述预处理的是国防科技大学的刘海军[107],其在博士论文中针对三种雷达字序列中的雷达字符号错误,引入随机句法引导的翻译器,对错误的雷达字符号进行校正。该方法在利用随机翻译器实现符号层符号序列重建任务的同时,完成对多功能雷达的行为识别。国防科技大学的李雪琼等人[108]基于去噪自编码器对存在噪声、虚假和缺失脉冲的脉冲序列进行去噪重建处理,能够在存在复杂脉间调制类型的情况下实现较好的脉冲序列重建。但该方法基于神经网络,训练开销和样本需求不一定能得到满足。国防科技大学的刘章孟等人[109]基于机器学习中的频繁项挖掘技术,提出了基于提取和扩展到达时间(Time Of Arrival,TOA)一阶差分频繁项的PRI序列重建方法。该方法能够实现在线和并行处理。但该方法主要针对常数、参差和组参差PRI 调制类型设计,难以适应更为广泛且复杂的先进多功能雷达脉间调制。国防科技大学的袁硕在文献[109]基础上,基于语义编码[110]设计了脉冲序列重建方法。袁硕所提出的语义编码方法需要设置的参数少,能够适应的调制类型更多,对虚假和缺失脉冲非理想情况的鲁棒性也更好。

4.3 状态识别

符号-脉冲层符号识别的目的是根据输入脉冲序列P=(p1,p2,…,pT) ∈RM×T,输出对应的符号序列即学习映射fsym:P→Ssym,其中P为脉冲序列空间,Ssym为符号序列空间[97,99,105-106,111]。例如图14 中“a,b,a,a”对应了四个工作状态符号,在雷达中被转换成对应的脉冲序列。侦察方的任务是基于这四个符号对应的脉冲序列,识别这四个符号。

4.3.1 状态符号先验已知

在各个状态符号对应脉冲序列的映射关系已知情况下,侦察方可以根据对应关系将脉冲序列转换成对应的状态符号。此时的状态符号即为雷达在“符号-脉冲层”调度的基本元素。状态符号序列的准确识别是后续符号层识别推理的基础。例如国防科技大学刘海军和欧健等人各自的博士论文中均指出,随着雷达字提取错误率提升,后续的雷达命令等高层符号识别准确率降低[50,107]。

Visnevski Nikita使用隐马尔可夫模型从脉冲序列提取雷达字[105],其根据不同雷达字的TOA 特性,将连续时间离散化然后构建转移矩阵不同的多个两状态(Two state)HMM 模板表征不同雷达字。通过并行求解给定HMM 模型参数和观测序列情况下的HMM 模型评估问题,从带噪脉冲序列中给每个脉冲标记对应的雷达字标签。国防科技大学的刘海军提出一种数据库等级,脉冲等级和编码序列等级三级匹配的雷达字提取算法[96-97]。王勇军[106]在此基础上,提出一种改进的事件驱动雷达字提取方法,能够更好适应虚假脉冲和缺失脉冲环境。上述研究主要针对“水星”多功能雷达,雷达字模板较为固定。在文献[112]中,刘海军考虑现代雷达的复杂调制类型给状态识别带来的挑战,提出一种基于联合参数建模的雷达辐射源识别方法。该方法可以认为是考虑了信号时间序列特征和多参数联合变化规律情况下的模板表征,与传统基于统计参数建模的识别方法相比取得了明显的性能提升。但面临较强的非理想情况时性能下降严重,且为了计算置信度需要准确地对脉冲序列子序列进行划分。

4.3.2 最小可分辨单元识别

当侦察方未知各个状态符号所对应脉冲序列的映射关系时,雷达发射脉冲序列的时间序列特征与多参数联合变化规律信息则被认为可以反映雷达的行为意图,受到研究者们的广泛关注[113-116]。此外,在部分雷达工作状态识别的研究中,研究者将雷达符号-脉冲层符号元素定义为多维脉冲参数,如PRI,载频(Radio Frequency,RF)和脉冲宽度(Pulse Width,PW)等参数上的联合调制类型与调制参数组合,以支撑映射关系未知情况下的算法研究。此时识别得到的符号不是雷达正向调度过程中所使用的真符号,将存在由于非合作视角导致的映射差异。在本团队的研究中[80],将此类情况下的识别称为最小可分辨单元识别。

典型的研究如Kauppi 等,人为设计了专用于PRI 调制类型识别的无偏特征提取方法[114],利用提取到的特征和多层感知机,设计分层分类算法,实现了对六种典型PRI脉间调制类型的准确识别。国防科技大学和电子科技大学的研究者[115,117-118]使用卷积神经网络(Convolutional Neural Network,CNN)进行PRI 脉间调制识别,相比于传统手工特征取得了显著的性能提升。最小可分辨单元可以定义为多维脉冲描述字(Pulse Descriptive Word,PDW)上的不同调制类型组合。考虑到不同最小可分辨单元的脉冲数目往往是不等的,国防科技大学的刘章孟、李雪琼等人[104,116,119-120]在使用循环神经网络(Recurrent Neural Network,RNN)进行多功能雷达最小可分辨单元的识别方面做了大量的工作。RNN提取时序特征,能够适应不同时间长度的输入数据,因而处理雷达脉冲流数据更为合适。

MFR的脉冲序列往往连续到达,一段输入脉冲信息往往包含多个雷达工作状态的脉冲,针对此类输入,传统方法多基于分类器结合滑窗法进行雷达工作状态的识别。作者团队[121]从非合作的视角给出MFR 信号的层次化描述,提出序列到序列学习(Sequence to Sequence,Seq2Seq)方法,使得所提出的层次化序列到序列长短时记忆网络(Hierarchical Sequence to Sequence Long Short Term Memory Network,HSSLSTM)可以适应同时输入连续多个雷达工作状态的脉冲的情况,并且可以给每一个脉冲都标记上其所属的雷达工作状态类别。

先进体制MFR 具备调整或者优化其调制参数的能力,对脉间调制参数的估计也引起人们的关注。作者团队[79]基于多任务学习,提出联合调制类型识别与调制参数估计网络(Joint Modulation Recognition and Parameter Estimation Network,JMRPENet)。通过多任务学习,网络能够利用任务之间相关性,取得更好的性能和泛化能力;且多任务学习只需要一个网络便能够同时完成多个电子侦察任务,从而简化电子侦察设备的任务流程。此外传统神经网络的输入结点数目是固定的,不能适应如参差调制类型所需要的可变数目的参数估计结点输出。本团队结合Transformer 神经网络[122],提出多任务LSTM-Transformer[123],在任务特定输出部分采取序列到序列结构,使得神经网络可以实现灵活的输出结构,包括标量结构输出、固定长度矢量结构输出与可变长度矢量结构输出,解决上述参数估计任务存在的问题。

4.3.3 少先验情况识别

上述4.3.1-4.3.2 的方法,都是依赖于有监督学习,对非合作MFR 需要事先通过侦察接收、专家分析等获得训练样本。在缺乏训练样本或可能存在未知样本的条件下,已有识别方法主要基于如小样本学习、无监督学习和序贯分析理论,进行状态符号的识别处理。

(1)小样本学习识别

在小样本学习方面,北京理工大学的张滋林等人[124]提出了双路变分自编码器(Variational Auto-Encoder,VAE)间局部、交叉和分布对齐(VAE with Local,Cross and Distribution Alignment,LACADA VAE)的生成式小样本识别方法。通过将样本扩展成多种模态并进行复合对齐,使得学习到的概率分布更加可靠。北京理工大学的翟启航等人[125]提出编码细化原型随机游走网络(Coding Refined Prototypical Random Walk network,C-RPRWN),该网络能够从具有大量可用训练样本数据集中提取通用信息,并将这些信息迁移至仅有少量可用样本的新任务中。同时为了提升网络性能,新任务中未标记样本也被用于提供数据的流形信息。C-RPRWN 通过结合通用信息与流形信息,有效提升了小样本条件下的识别性能。

(2)无监督学习识别

在无监督学习方面,国防科技大学的马爽[126]将生物基因分析中的异常基因检测技术引入雷达电子侦察,利用循环二分算法提取雷达波形单元(即本文所述雷达状态)。该方法不需要任何状态先验信息,在较低信噪比情况下也能够取得较好的提取结果。进一步,他引入生物序列分析中的点阵图分析技术和多序列比对技术,提出一种基于序列相似性分析的搜索规律重建方法,能够对波形序列不同分段之间的相似部分进行检测和计算,实现高精度搜索规律重建。海军航空大学的关欣等人[127]分析了电子扫描雷达搜索和跟踪工作模式序列的生成和不同时间序列特点,结合Needleman-Wunsch算法思想,提出将两个脉冲列提取的公共序列作为对应于搜索模式的主干序列,而不同的序列部分则对应于其他高优先级的序列,如跟踪或制导模式的信号序列(符号)。这些算法可以在无先验信息情况下,通过对序列的比对处理获取HMM 模型和句法模型无法得到的搜索模式规律,但无法辨识搜索模式外的其他工作模式。另一方面,由于待比对序列集合只包含有限个元素,不适用于频率和PRI 采用随机调制的新体制雷达。国防科技大学的方旖等人[100]基于贝叶斯准则提出了一种无监督工作状态切换点检测算法,该方法基于离散的脉冲描述字进行处理,对具有连续取值空间的捷变调制脉冲序列以及环境非理想因素适应性需要进一步研究。国防科技大学的刘章孟[89]基于模型简洁性[128](奥卡姆剃刀定律)原理、信息论和压缩编码理论[129],提出了对MFR 脉冲序列的语义编码模型与编码策略优化方法,能够自动发掘MFR脉冲序列信号的序列规律,并以最简洁的形式进行表征提取。但该方法对于如存在状态转移模型阶数可变、多子阵同时工作等情况,信号形式更为复杂的先进MFR 系统,需要依据编码理论进一步深入研究。

(3)序贯分析理论识别

此外随着序贯分析理论[130]的发展,如时间序列聚类[131-140]和切换点检测理论[141-145]研究的进展也被应用于MFR 序列无监督聚类或切换点检测。这些方法利用脉冲序列时间序列特征对连续到达的多个雷达工作状态进行序列聚类或切换检测。北京理工大学的马溢浩等人[146]根据脉间调制类型的特点与层次化聚类思想,提出基于时间序列特征的MFR工作模式聚类算法,逐层实现不同调制类型信号序列的聚类。航天工程大学的高天昊等人[147]利用PRI,RF 和PW 三维参数的时空信息,提出改进的基于子空间的聚类算法,聚类性能优于传统方法。本团队在文献[140]中基于时间序列子序列聚类原理设计算法实现在无监督条件下,工作状态片段的聚类。对四种典型雷达调制类型设计对应的参数化概率模型,然后在三种不同先验可得条件下设计聚类算法。但所提出的方法在模型表征、推理和学习方面,均需要进一步针对实际电磁环境中存在的非理想脉冲序列情况进行针对性优化设计。进一步,本团队在文献[81]中对工作状态的表征模型进行了改进,使得模型能够适应可能存在的虚假、缺失脉冲非理想情况,并将聚类问题建模成切换点检测问题,提高模式切换时侦察方判别的实时性。哈尔滨工程大学的迟坤等人[148]提出了基于递归图和奇异值分解的MFR工作模式分割算法,该方法利用递归图揭示脉冲序列的特征变化,并通过奇异值分解进行定量分析。最后采用差异测量来检测模式切换的边界,能够实现不同粒度模式切换边界的准确检测。

一方面,基于无监督学习的工作状态识别研究相对较少。另一方面,当前新体制雷达多采用载频捷变和PRI抖动的随机调制来增强抗干扰性能。而具备认知和软件自定义能力的雷达[14,17,149]则具有脉冲-脉冲或者脉冲组-脉冲组级别的捷变能力,复杂度和灵活性进一步提升,因此需要进一步优化算法,提高算法对真实电子侦察任务的适应性。

4.4 基于符号输入的行为识别

行为识别任务的输入是低层行为符号序列,输出是高层行为符号类别(如雷达命令)。此类研究多在第3.2 节中所述行为层次化模型框架下开展,基于脉冲序列逐级向上递推高层行为类别,同时还可以估计模型对应的符号转移概率。

在有先验的情况下,可直接基于符号序列识别的方法识别行为符号类别。例如输入状态符号序列S,输出行为类别标签M为求解下述最大条件概率问题:

其中M为S对应的高层符号类别标签,∑mode为符号字母表。也可以考虑序列到序列的识别设置,即求解下述问题:

其中M=(M1,M2,…,M|S|),Mi为第i个输入符号对应的高层符号标签,|S|为序列长度,即识别每一个输入符号对应的高层符号类别。

国外对行为识别的研究以Visnevski 本人及其课题组展开的相关工作[68,90,105,150-151]为代表。如在文献[67,90]中,他们系统地研究了在使用SCFG模型建模符号层行为基础上的两类经典任务。第一类任务使用经典的维特比算法在给定句法模型参数的基础上结合观测符号序列实现MFR高层符号类别的识别;第二类任务在给定观测符号序列的基础上实现对SCFG 模型参数的估计。但他们研究中估计模型参数所使用的Inside Outside(IO)算法和维特比评分(Viterbi Score,VS)算法均为迭代算法,在面临词汇表巨大、语法规则复杂的句法模型时,计算复杂度过大。加拿大蒙特利尔大学的Guillaume Latombe等人[152-153]针对上述问题,基于IO和VS 算法基本原理,和图期望最大(graphical Expectation-Maximization,gEM)原理,提出了句法模型的增量式学习算法和句法生成规则的快速学习算法,能够在保持参数估计准确率的前提下显著降低算法时间复杂度和收敛时间。空军工程大学的代鹂鹏等人[92-93,95]构造CKY 解析表,排除了未参与序列派生过程的句法模型产生式,然后采用改进的IO 算法P(IO)和改进的VS 算法P(VS),实现对SCFG 产生式概率和状态转移概率的快速估计。其中P(VS)算法还支持多文法并行计算,计算复杂度低于IO,VS和P(IO)算法。上述研究未考虑雷达层次化模型中,雷达与目标存在的交互。航天工程大学的陈维高等人[74]引入目标状态信息,构建双链HMM,然后利用Dempster-Shafer(D-S)证据理论优化估计结果,提出一种基于HMM 的雷达状态转移估计方法。相较于传统HMM 算法,双链HMM 算法提升了模型的鲁棒性和识别的准确率。

但基于句法模型或HMM 进行识别的研究,要求MFR信号各个层次符号已预先进行了精准提取,且往往假定模型结构已知,只需要根据观测进行模型参数估计。识别方面若出现如符号-脉冲层符号识别错误(如雷达字提取错误)的情况,就会造成识别出错;估计方面,模型结构先验不一定总是可以获取,往往只能获取部分结构信息,此种情况无法实现准确估计。针对第一个问题,国防科技大学的欧健等人[154-155]考虑基于贝叶斯的识别方法,使用预测状态表示(Predictive State Representations,PSR)模型替代句法模型、HMM 实现对MFR 的建模。PSR 模型具备通用性好、模型简洁、易于学习、表征能力强等特点。随后欧健提出基于栅格滤波器和基于预测状态累积的符号识别方法,无先验信息情况下,通过对预测状态的累积动态获取符号转移信息,实现最大后验意义上的符号层符号识别。第二个问题需要实现模型结构和参数的联合估计[156],目前仍然存在较大的挑战,但在雷达领域存在较多相关研究,如雷达目标跟踪研究中一系列基于模型的方法[157]和雷达目标自动识别研究中[158]一系列基于参数化统计模型的方法,可以为侦察方提供一定的理论和模型基础。

深度学习模型也被用于符号层符号识别任务。相较于传统常用句法模型、HMM 模型以及PSR 模型,深度学习模型能够从大量带噪声数据中学习,学习输入符号序列与标签类别之间任意复杂的映射关系。如迈阿密大学的Jayson Rook等人[159]基于LSTM 网络,构建半监督识别方法,在识别已知雷达行为的同时对未知雷达行为进行拒识。

4.5 基于脉冲输入的行为识别

基于脉冲输入的行为识别方法又可以根据是否输出中间结果,划分为级联识别方法和端到端识别方法。其中级联识别方法输入脉冲序列,逐级输出符号层更高层的符号。端到端识别方法输入脉冲序列,直接输出最终所要识别的符号层的符号结果。

(1)级联行为识别

级联行为识别的研究工作可以按实现雷达系统行为识别的两个阶段进行划分,如图16所示。第一个阶段完成状态符号提取。第二个阶段基于第一阶段识别得到的符号序列推知高层行为符号。

图16 级联行为识别框架Fig.16 Cascaded behavior recognition framework

电子科技大学的代策宇[160]和中国船舶集团有限公司第八研究院的周姝婧等人[161]考虑级联识别方法,级联符号-脉冲层识别网络与符号层识别网络,实现行为识别。针对级联识别中容易出现级联误差的问题,国防科技大学的许信松等人[102,162]基于门控循环单元神经网络(Gate Recurrent Unit,GRU)实现行为识别。通过将输入雷达字脉冲序列分割,第一级网络给出各段对应的识别结果,第二级基于该识别结果进行最大后验估计,得到高层符号识别结果。本团队[80]则提出由状态符号序列生成和符号层符号识别两步组成的算法以降低级联误差。首先通过HSSLSTM 网络[121]识别得到每个脉冲对应的工作状态符号标签,然后通过自适应或固定转换对识别得到的状态标签序列进行转换得到状态符号序列,如图17所示。最后提出基于两种不同LSTM 架构的符号层符号识别算法,如图18所示。其中基于序列到序列的识别网络结构,能够对输入的包含多个符号的低层符号序列,输出每个输入符号对应的高层符号类别。此外由于不同的高层符号类别可能存在相同的低层符号序列(公共符号序列),通过序列到序列学习可以利用高层符号间的符号转移关系,一定程度上缓解对这些公共符号序列的识别错误。

图17 状态符号序列识别Fig.17 State symbol sequence recognition

图18 基于不同LSTM结构的符号层符号识别示意图Fig.18 Schematic diagram of symbol layer symbol recognition based on different LSTM structures

(2)端到端行为识别

端到端行为识别输入脉冲序列,直接输出符号层高层符号,实现端到端行为识别。此类研究多以雷达工作模式(高层行为)为识别对象,例如边搜索边跟踪(Track While Scan,TWS),搜索加跟踪(Track And Scan,TAS),多目标跟踪(Multiple Target Tracking,MTT)等。

此种高层雷达行为,具有控制参数种类多、维度高等特点,以及考虑MFR 执行任务的多目标特点,对如多目标跟踪、边搜索边跟踪、搜索加跟踪等工作模式识别往往需要融合多侦收参数和多观测平台的观测信息。因此,端到端行为识别研究多基于多域信息融合识别。西南交通大学的李辉等人[163]针对机载相控阵雷达工作模式,结合雷达对目标搜索、跟踪时数据率及接收信号幅值的变化规律,提出了一种基于脉冲多层次参数建模与关联的识别算法。空军工程大学的王玉冰等人[164]考虑机载火控雷达执行多目标任务,基于D-S 证据理论[165]进行单平台多周期时域融合和多平台空域信息融合,有效提升雷达工作模式识别准确率。国防科技大学的唐文龙等人[166]考虑三坐标对空情报雷达的工作特点,提出了一种基于波位建模的工作模式识别方法,并结合D-S 证据理论对多波位传感器信息进行融合识别,提升了对此类雷达的识别准确率。空军工程大学的董晓璇等人[167]针对侦察设备对雷达信号参数的测量误差严重影响识别效果的情况,提出了时域模糊决策融合的雷达工作模式识别方法,利用多个时刻的模糊决策基于D-S 证据理论进行融合识别,从而提高工作模式识别率。空军预警学院的唐玉文等人[168]提出了一种基于复合赋权优劣解距离(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)的识别方法,将雷达工作模式识别问题转化为多属性决策问题,对6种雷达空空工作模式取得了较好的识别稳定性和较高的识别性能。国防科技大学的马珂针对机载火控雷达空空工作模式反推识别局限性大的问题[169-170],从电子情报的角度重新定义了8 种工作状态,分别设计了多种手工特征,并基于DS 证据理论开展多参数和多周期融合识别。最后通过信号模拟器仿真数据验证了识别方法的时效性,具有较好的工程应用价值。

随着人工智能领域的发展,利用深度神经网络,如卷积神经网络,循环神经网络等的自动特征提取能力,提取脉冲序列多参数时间序列特征,并结合分类器实现端到端行为识别的研究也得到广泛发展。西南交通大学李辉等人[171]使用堆叠去噪自编码器对机载多功能雷达的截获信号幅值变化规律进行自动学习,在存在较高的环境非理想性情况下取得了超过90%的识别结果,验证了深度学习模型的强大特征提取能力与非理想性适应能力。国防科技大学的杜明洋等人[172]提出鲁棒贝叶斯注意力机制信念神经网络以增强在信号非理想情况下深度网络模型的表征能力,提升工作模式识别能力。该方法结合补零、CNN 和注意力机制实现非RNN 类结构的并行脉冲时间序列特征提取。西安电子科技大学的田甜等人[173]针对舰载多功能雷达工作模式识别问题,提出了双路注意力时序卷积神经网络,将PDW序列特征映射至高维时序特征空间,能够保证识别准确率的同时提升时效性。国防科技大学的马珂等人[174]提出一维CNN 结构进行机载火控雷达空空工作模式,通过一维卷积降低特征提取计算复杂度,提升了识别的实时性,具备良好的应用潜力。

当深度网络所需要的训练样本有限,或者测试样本将存在与训练样本分布不一致的可能时,深度网络识别性能将急剧下降。北京邮电大学的张居圆[175]开展了基于已有数据库大样本学习和基于孪生神经网络的小样本微调算法设计,实现对7种雷达工作模式小样本条件下的准确识别。电子科技大学的利强等人[176]考虑多功能雷达工作模式的多样性、隐藏性,以及电子侦察系统截获样本数可能较少的问题,提出了基于知识原型网络的小样本多功能雷达工作模式识别方法,将通用领域先验知识进行编码映射,实现知识在网络模型中的嵌入,显著提升了网络在小样本条件下的识别性能。国防科技大学的潘继飞等人[177]考虑通用识别模型,设计多源联合识别框架,将雷达工作模式的领域知识融入网络训练,从而提升训练和测试数据分布存在失配情况下的识别性能。

5 多功能雷达内隐行为的推理

侦察方需要通过对外显行为的识别结果,推理内隐行为。具体的,对内隐行为中的内隐管理行为推理其决策过程的准则。对内隐行为中的评估分支行为,推理雷达方评估的结果和性能。

5.1 行为推理的研究路线分类

内隐行为推理在逆向推理的框架下实现。逆向推理指的是通过研究系统外部行为或表现逆向分析系统内部细节的过程。1964 年卡尔曼(Kalman)在文献[178]中研究了逆最优控制问题,目的是确定给定控制策略的成本准则是最优的。近年来逆向推理在多个领域引起了关注,且在不同领域,逆向推理有不同的具体问题及其解决方法。

在认知电子战领域[179],人工智能等先进技术已经得到不断发展与应用,雷达方和侦察方系统各自的精准对抗博弈能力不断提升。如第4 节所述,侦察方可以对多功能雷达的行为以及行为动态特性实现快速准确识别与估计;雷达方则往往基于深度学习框架构建各类神经网络模型实现对复杂干扰信号的高效精准识别[180-183],基于序贯决策或博弈理论设计抗干扰策略[184-185],提升抗干扰能力。对抗双方系统都亟须寻求根据所掌握先验信息及部分可观测结果获取更丰富和更准确对手系统信息的技术手段,以便在对抗博弈过程中取得优势。因此,针对无法直接观测得到的对手系统内部细节信息(如雷达方目标跟踪环节的跟踪精度)进行逆向推理技术研究开始进入研究者的视线。

Vikram Krishnamurthy 在文献[66]中构建了针对认知雷达的“信号层-功能层-策略层”的逆推理框架,提出在功能层应用逆滤波实现对雷达跟踪功能的逆推理,在策略层使用逆强化学习完成对雷达认知能力的分析,在信号层设计干扰信号以迷惑对手雷达。作者团队在文献[186]中给出了雷达对抗场景中的反智能技术定义,指对抗一方针对对手系统中感知、推理、决策等不同层次上具备的智能化技术功能和性能,实现逆向处理、反演推理和反制决策的相应技术措施总称。

具体的,作者团队在文献[187]中给出雷达对抗场景中的逆向推理框架。无论是雷达方还是侦察方系统,均可概括为如图19所示的主要的系统功能实现环节,即收发天线、接收机和发射机、信号与信息处理、资源管理调度、发射/干扰信号优化模块。在侦察方对雷达方进行逆向分析处理时,可根据分析对象在侦察方系统处理链路中的所处位置,映射为逆信号/信息处理、逆资源调度、逆信号优化的三个基本功能模块。逆向推理模块的输入是侦察方的接收模块对雷达方系统外部可观测行为的量测结果(即第4 节所述识别结果),其输出可支撑自身智能化对抗行为的决策。侦察方逆推理模块所针对雷达系统行为的具体环节、逆推理输入及作用总结如表6。各个环节逆推理所采取的主要方法分为逆滤波处理和逆强化学习两类。

表6 侦察方逆向推理模块的具体映射Tab.6 Mappings of the inverse inference module from reconnaissance’s perspective

图19 雷达对抗场景下的逆向推理框架Fig.19 Inverse inference Framework in radar countermeasure scenarios

5.2 基于逆滤波处理的内隐推理行为推理

逆滤波是对雷达系统信号和信息处理中关键推理节点的逆向推理问题。如侦察方根据对雷达行为的感知,实时对雷达信号及信息处理环节中的目标跟踪滤波环节的输出状态进行逆向推理,估计雷达方目标跟踪滤波的跟踪误差。进一步可支撑后续干扰效果评估和干扰策略优化。

目标跟踪是雷达最基础和最核心的功能,滤波算法则是雷达目标跟踪功能的核心。雷达通过相关和滤波算法建立目标运动轨迹。如对目标运动状态进行预测,再根据由雷达信号处理模块输入的目标运动状态的观测值进行修正,从而得到对目标运动状态的估计,实现目标跟踪。最后根据雷达跟踪等环节的输出进行资源管理、波形优化、平台运动等决策,并通过发射机发射信号。对侦察方而言,就需要考虑通过可感知得到的雷达外在行为,实现对雷达内部信号及信息处理环节性能的估计。

经典的逆滤波处理主要讨论如何通过贝叶斯滤波输出的状态后验来估计滤波输入或传感器精度[188]。从1979年开始,就已经有专家学者对卡尔曼滤波的逆滤波问题进行了研究。文献[141,189]中讨论了包括最优卡尔曼滤波器设计在内的一系列逆问题。文献[188]针对线性高斯状态空间系统的逆滤波问题进行了探讨,在给定贝叶斯后验(即均值和协方差的样本路径)的情况下重建量测和某些未知传感器参数,并对已知状态后验带噪声情况下的逆滤波问题进行分析,提出了这两种情况下的逆滤波算法。最后通过数值仿真评估了算法对量测误差的鲁棒性。文献[190]讨论了隐马尔可夫模型下的逆滤波问题,提出了基于聚类算法的逆HMM滤波算法。

在控制领域,利用逆滤波对状态估计进行逆推理的研究最早可以追溯到2006 年,Paul Sundvall 等人在文献[191]中将其用于机器人导航系统的故障检测。移动机器人导航系统需要在避免碰撞的同时到达目的地,通过如计算机视觉、激光、声呐等传感器系统测量障碍物姿态并进行路径规划。由于系统中传感器和状态估计器事先经过了集成和封装,因此需要从外部对状态估计器进行逆推理,得出机器人导航系统的状态估计输出,并基于此分析其传感器输出和传感器系统的精度。2009 年,Wahlberg和Bittencourt对汽车导航系统故障定位问题进行了研究,采用逆滤波的方法对导航系统状态估计模型进行逆分析[192]。2017 年,为了实现人机交互过程中机器对力度和位置的控制,文献[193]结合模型参考设计和自适应逆滤波提出了一种阻抗控制方法,通过自适应地调整机器人中阻抗参数,提升对力度和位置的跟踪性能。2018 年,文献[194]基于多输入-多输出(MIMO)系统模型,提出了一种针对具有多个输入信号系统的逆滤波方法,通过将多个输入信号的影响分离并进行逆滤波处理可以有效地恢复出各个输入信号,并且对于不同输入信号之间的干扰具有较好的抑制能力。2019 年,文献[195]将自适应学习机制引入到逆滤波器构成动态逆滤波器用于前馈跟踪控制,动态滤波过程运用迭代学习控制跟踪目标信号并更新滤波器,从而显著改善前馈跟踪控制性能,并在不确定性和变化的环境下实现精确跟踪。2022 年,文献[196]针对跟踪非线性和复杂系统在控制器收敛速度和跟踪精度方面存在限制的问题,探讨了如何交错应用迭代学习控制和逆动力学识别方法构建逆滤波模型,用以加速收敛并提高控制性能。

上述领域的研究均是针对自身或合作系统的某些环节进行逆向推理,无法满足雷达对抗领域非合作特点引入的新的问题。2019 年,以美国康奈尔大学的Vikram Krishnamurthy 教授为首的学者首次将逆滤波问题扩展至非合作对象,以具有认知能力的无人机系统或雷达系统作为对手,探讨如何使用逆滤波方法实现对非合作对手系统目标跟踪环节的逆推理,或称为逆向跟踪,并估计对手传感器的观测精度[82]。同年,学者Robert Mattila在文献[197]中讨论了对抗认知雷达系统的固定间隔平滑问题,考虑对手雷达对己方的离散状态进行估计时,构建平滑器,根据可观测雷达动作逆向推理对手雷达对己方离散状态的估计结果。文献[85]将离散状态空间的HMM 模型逆滤波问题在雷达对抗领域进行扩展,讨论了电子对抗背景下的逆HMM 滤波与经典的逆HMM 滤波问题的不同之处,并给出在电子对抗背景下如何应用逆HMM 滤波方法实现对雷达传感器观测精度的估计。

已有雷达对抗逆滤波研究多针对基本的卡尔曼滤波。2023年印度理工学院的Himali Singh等人基于Vikram Krishnamurthy 所提出的反对手自治系统(Counter-adversarial autonomous system)对先进逆滤波方法和理论的研究需求,分别从逆扩展卡尔曼滤波[198-200](Inverse Extended Kalman Filter,IEKF)、逆立方体和正交卡尔曼滤波(Inverse Cubature and Quadrature Kalman Filters)等方面研究了相应的逆滤波方法。在文献[198]中,作者假定具有完美的系统模型信息,并在已知和未知输入的情况下,对前向滤波和逆向逆滤波均为非线性状态空间模型的情况下提出了相应的I-EKF算法。进一步,作者在文献[199]中将I-EKF 算法扩展至对高度非线性的二阶扩展卡尔曼滤波中,提出了基于希尔伯特空间再生核EKF 算法,以处理存在不完全系统模型信息情况下的滤波与逆滤波处理。需要注意的是,在此篇文献中作者首次考虑了侦察方存在的模型失配情况。但EKF 算法是基于非线性高斯状态空间模型,先进的自动化系统通常具有更为复杂、非线性程度更高的滤波方法,Himali Singh 基于高效数值积分技术,提出了逆立方体和正交卡尔曼滤波(Inverse Cubature KF I-CKF,Inverse Quadrature KF,I-QKF)。雷达目标跟踪领域实际上存在大量更为先进和复杂的滤波算法[201],不同的雷达滤波算法均需要设计与其匹配的逆滤波处理算法。

本团队在Vikram Krishnamurthy 研究的基础上,针对可以适用杂波背景的概率数据关联(Probabilistic Data Association,PDA)滤波算法设计了逆PDA 滤波算法[202],并将逆PDA 滤波的结果实现干扰效果评估,进一步指导我方干扰策略、干扰样式优化。文献[202]是通过逆滤波设计实现雷达系统更多内部状态感知和推理的一次有益探索。

上述已有逆滤波研究对非合作雷达系统内部的各个处理环节的假设较强,例如需要假定对手系统所使用的滤波算法、状态转移矩阵、观测函数均已知。此种情况下的逆滤波问题转变为给定观测和概率图模型情况下,对未知变量节点的后验计算问题。但上述先验信息在实际对抗过程中难以准确获取。本团队[203]考虑构建隐变量的方式,利用隐变量和状态转移矩阵、观测矩阵分别表征交互过程中的中间变量和条件概率分布,设计了少先验情况下对离散状态和观测空间的滤波模型的逆滤波算法。

总的来说,国外对于雷达对抗中的逆滤波技术研究处于起步阶段,而国内对该问题的研究较少。

5.3 基于逆强化学习的内隐决策行为推理

逆强化学习则针对雷达系统的决策类行为。在决策行为中,通常雷达优化特定的目标函数实现最优决策。侦察方通过逆强化学习算法,实现对对手优化问题目标函数的估计。

对雷达而言,随机优化框架给雷达提供了在量测和环境演变预期存在不确定性情况下进行决策的规范理论[38,40,42,87,204-205]。在随机优化理论框架下,先进体制雷达通过在时间线上最优化预先设定的目标函数获得最优动作策略。该策略将到当前时刻所有可得状态信息映射成下一时刻待执行的最优动作、或所有待执行动作的概率分布。常用的随机优化模型包括马尔可夫决策过程和部分可观测马尔可夫决策过程,被广泛用于雷达领域[37-42]。对侦察方而言,则需要由表及里、由果溯因,从可观测的认知雷达和环境的“状态-动作”交互过程,反演出生成该交互序列的雷达随机优化过程(argmax过程)。

对argmax 系统进行逆向分析推知或估计其目标函数属于偏好学习范畴,目的是从一个智能体的选择或者决定中推断出他的偏好(Preference)和信念(Beliefs)。偏好学习已经在社会科学[206-207],人工智能[208-210],经济学[211-212],自动控制[213-214]等许多领域得到了研究。例如在计量经济学中,研究者通过结构化估计(Structural estimation),从观察到的人对工作和教育的选择中推断人对教育回报的信念,以及吸烟行为对健康结果的偏好等[211]。结构化估计的开创性工作如John Rust[215-216],近期也有相关的综述文章[211]。在控制论中,相应的研究内容为逆最优控制(Inverse optimal control)。

在机器学习领域,偏好学习被称为逆强化学习,并已经被广泛用于不同的计划和决策任务中[208-210]。真实世界中很多智能体实现任务的回报函数难以建模表征,但是这些任务大多存在较多专家示范经验。IRL的目的则是从专家的示范行为中学习其潜在的回报函数。IRL的研究始于文献[217],而后在文献[209]中学者吴恩达首次正式提出IRL的概念。通过IRL可以借助其他智能体(或人)在完成特定任务时记录的数据(称为专家示范)估计或拟合出该智能体行为背后隐含的目标函数(在强化学习中,目标函数又称为回报函数)。然后基于该目标函数,构建其他可以完成该任务的自动化智能体。例如在自动驾驶领域,研究者基于生活中大量可见易收集的司机驾驶轨迹数据构建IRL 模型,而后从这些示范轨迹数据中学习示范专家关于驾驶任务潜在的目标函数。通过学习到的目标函数,可以指导得到具有和示范专家相同驾驶能力与偏好的智能体。已有IRL 研究中,示范专家和学习者均是合作关系,即学习者在反演分析时,可以以合作的形式获取示范专家感知结果和执行动作的相关信息。但即使在完全合作情况下的反演分析中,示范专家和学习者之间也存在如永久无法观测到的异质性(Permanent unobserved heterogeneity)、初始条件分布、删失结果(Censored outcomes)和样本选择偏差、测量误差、内生性(Endogeneity)、模型辨识等问题。在非合作对抗条件下,还会引入由于视角、可观测性差异带来的新问题[211],使得对雷达的反演分析更加复杂与困难。上述偏好学习基本理论与方法可以给针对认知雷达的非合作分析与雷达方随机优化过程反演提供有益思路,但无法直接应用于对雷达的反演分析。

在雷达对抗领域的反演研究方面,Vikram Krishnamurthy 于2020 年首次提出了对认知智能雷达目标函数进行逆向反演分析的概念[84]。他们基于微观经济学领域1954 年所提出的显示偏好理论和Afriat 定理[218],对最大化其目标函数的认知雷达进行目标函数的反演估计。该文献[84]是目前世界范围内首篇针对认知雷达系统进行逆强化学习的论文。基于显示偏好理论与Afriat 定理[84],Vikram Krishnamurthy 和美国洛克希德·马丁公司、美国陆军研究局(Army research office)以及美国空军科学研究局(Air force office of scientific research)在雷达及其反演对抗两方面开展了一系列研究[82-85,219-220]。在对雷达逆向反演研究的理论基础上,Vikram Krishnamurthy 近期还从雷达方研究了故意隐藏其认知能力的雷达决策方法[219-220](即逆-逆强化学习算法,inverse-inverse reinforcement learning),使得侦察方无法从观测的“状态-动作”序列准确反演认知雷达的目标函数,实现雷达策略层对侦察方的射频隐身。随着体系作战的发展,雷达方往往采取组网的形式,通过设计博弈算法、均衡条件实现组网资源分配、协同等任务。Vikram Krishnamurthy针对雷达网之间存在的博弈关系,基于多智能体逆强化学习提出了对雷达网目标函数的反演方法[221]。

综上所述,美国已率先开展了对认知智能雷达的逆向反演研究,也已取得了相应理论成果并尝试在工程实践中进行应用,但该部分的研究仍然处于起步阶段。具体的,Vikram Krishnamurthy 等人已开展的研究均在显示偏好理论与Afriat定理的框架下进行,从侦察方视角对认知雷达和电子侦察方双方视角差异,以及雷达方信号处理方法与处理流程做了较强的先验信息可得性假设,从而在面临真实世界非合作强约束情况下的反演问题时具有较大的局限,需要从以下四个方面进一步深入研究:

1)他们假定对抗双方均能完美观测到对方的动作和状态,这个假设在真实非合作环境中不成立,需要研究双方视角均存在部分可观测情况下的方法。

2)他们要求认知雷达的优化目标函数为单调函数且侦察方已知该目标函数所属的函数族,从而侦察方仅需要根据观测估计给定函数结构情况下的函数参数,这个假设在真实认知雷达研究中也难以满足,反演方法需要适应任意结构与参数均未知且复杂的目标函数。

3)他们要求认知雷达的行为必须为严格最优,即目标函数存在唯一全局最优解且该解能被雷达达到,这在真实认知雷达研究中也无法满足。如认知雷达的目标函数可能非凸,从而严格最优解无法取得;或者凸目标函数通过数值优化得到的ϵ 次优解(ϵ suboptimal),也不满足他们提出的反演算法对严格最优的要求。因而反演方法要能解决最优解集合(Optimal set)与内隐目标函数集合(Objective function set)之间存在的集值映射[222]情况。

4)他们考虑认知雷达基于近视性的方式优化其目标函数,未考虑对环境的预见性(Anticipation),难以适应不同体制、型号、智能水平以及认知推理深度等认知雷达多样性带来的复杂而广泛的反演问题,因而非合作侦察分析模型和反演方法需要具有普适性和泛化能力,适应各种未知且复杂的认知雷达技术具体实现。

国内对先进体制雷达的侦察对抗研究大多聚焦于对雷达行为动作进行感知识别,能够发掘侦收信号和雷达工作机理之间的相关性,但实现雷达行为动作形成策略的因果关系反演研究还少有涉及[223-224]。本团队在文献[80]中初步探索了马尔可夫决策过程框架下的反演估计问题,提出基于最大熵深度IRL 的雷达回报函数反演方法,交替优化强化学习算法和最大似然回报函数估计,以尽可能少的先验信息需求实现回报函数估计。

6 多功能雷达未来行为的预测

对先进体制雷达未来时刻可能采取的雷达行为动作进行推理预测,对于干扰方实施干扰对抗具有重要意义。根据识别或推理的结果,可以开展多功能雷达行为的预测。

6.1 行为预测的研究路线分类

考虑雷达脉冲或符号序列数据A={a1,a2,…,aT|ai∈RD},D为行为对应的特征维度,T为时间序列的长度。未来行为预测的任务是根据历史行为序列At0:c={at0,at0+2,…,ac}预测Ac:T={ac,ac+1,…,aT},其中At0:c为预测的上下文窗数据,Ac:T为待预测的数据。预测任务的目的是最大化p(Ac:T|At0:c)。

预测任务方法设计与雷达的决策行为有关。将预测任务方法划分为表7 所示两类,原理示意图如图20所示。第一种方法在经济学领域,称为“Reduced form estimation”[225-226],基于历史数据对未来数据进行趋势外推。第二种方法则称为“Structural estimation”[211],学习数据背后对应决策问题的结构化参数(如回报函数),然后基于学习到的结构化参数,再次求解决策问题,实现预测。

表7 已有MFR行为预测研究的分类Tab.7 Categorization of existing MFR behavioral prediction studies

图20 行为预测方法示意Fig.20 Schematic diagram of behavior prediction methods

6.2 基于识别结果的直接预测

基于识别结果的直接预测,需要学习待预测数据的联合条件概率分布p(Ac:T|At0:c)。此外在预测时,还可能存在一些辅助预测的信息,记为St0:T,该辅助信息需要尽可能地包括所有可能影响预测结果的信息。此时的预测任务需要学习p(Ac:T|At0:c,St0:T)。

目前相关研究的主要对象为多功能雷达,基于历史雷达行为预测未来时刻的雷达行为。如国防科技大学的欧健[50,154]针对多功能雷达行为预测,研究了基于PSR 的多功能雷达信号预测。在他的研究中,将MFR 的信号建模成离散时间动态系统,基于全概率公式实现对MFR 信号的预测。为了实现多步预测,他将PSR 和反向传播神经网络(Back Propagation Neural Network,BPNN)结合,构建PSR-BP 神经网络模型,能够把复杂度较高的计算部分留在离线训练阶段,以保证算法在线预测的实时性。以“水星”MFR 数据为例,在预测步数较少、雷达字识别错误率较低、训练数据充足的条件下PSR-BP 模型取得了很好的预测性能。航天工程大学的陈维高等人[227]将载机机动信息与常规侦收参数共同作为预测特征集,利用D-S 证据理论融合MFR各个状态之间的转移概率,实现最终的状态预测。机动信息即为前文所述的预测辅助信息。电子科技大学的代策宇[160]基于HMM 模型,对下一时刻雷达状态进行预测,对多功能雷达能取得不错的预测效果。该方法中预测准确率随着历史雷达行为序列长度的增加逐渐增加,然后趋于平稳。上述研究从历史数据中学习构建当前时刻行为和历史行为的各种假定马尔可夫阶次下的条件概率模型,对于典型的“水星”MFR能够取得不错的效果。

深度学习算法由于其具备自动提取特征、表征非线性映射关系、表征任意阶次时间序列关系的能力也被应用到多功能雷达行为预测中,如德国的研究者Sabine Apfeld 研究了长短时记忆网络和马尔可夫链对多功能雷达各个层次资源管理操作的预测能力[69,228]。结果表明,LSTM 在处理具有多种可能的复杂行为时性能和鲁棒性均优于传统马尔可夫链预测方法。西安电子科技大学的侯超[229]将CNN 与LSTM 结构结合,提出了CNN-LSTM 混合网络用于多功能雷达行为预测,相较于传统的LSTM 网络取得了更好的预测效果。西安电子科技大学的惠晓龙[230]比较了不同的RNN 结构对多功能雷达行为预测的影响,表明GRU 网络无论是从参数规模还是训练用时上都明显优于LSTM 网络。西安电子科技大学的田卫东[231]进一步,结合一维CNN(1D-CNN)和双向GRU(Bi-GRU)网络结构各自的优势,提出了1D-CNN-Bi-GRU 网络,将雷达时间序列通过1D-CNN 提取信息再连入双向GRU 网络中得到预测结果,降低了传统CNN特征提取的计算复杂度,并相较于Bi-GRU 网络取得了更好的预测效果。上述方法研究的对象均为符号层元素,如“雷达字”。国防科技大学的袁硕等人[232]则利用RNN 预测脉冲序列未来时刻的PRI 值。他比较了RNN 与其他不同结构模型,以及RNN 的不同变体之间的预测效果。结果表明LSTM 网络具有最佳的预测性能和鲁棒性。

上述方法对于多功能雷达能够取得不错的效果。因为多功能雷达虽然灵活捷变,但无论是脉冲序列还是低层符号序列,往往都对应预先设计的模板,人为设计所体现出的规律性较强(如“水星”雷达一个雷达命令对应四个雷达字模板)。因而在序列形式上具有较强的规律性可供预测算法学习。

对先进体制雷达行为的预测本质上是一个求解因果交互过程的问题[233]。即多功能雷达系统行为受环境影响,而认知多功能雷达行为动作更是和环境息息相关。因而若仅依据历史行为预测未来行为,会发生一定的预测偏差。本团队在文献[80]中将雷达动作序列视为随机变量序列,构建了雷达动作和环境状态之间的概率图模型。在三种不同的雷达-环境交互情况下构建了对应的图模型。其中最简化的概率图模型仅考虑当前动作和历史动作之间的条件概率,也就是目前已有的预测方法主要考虑的模型。第二个模型考虑当前动作和历史动作以及环境状态之间的条件概率。最复杂的模型则认为雷达和环境之间存在博弈,雷达和环境之间是一个互相影响的因果交互过程。在已有研究的基础上,针对第二个概率图模型研究了多功能雷达或者认知雷达的动作预测问题。借助行为克隆原理[234-235]与深度时序学习模型的发展[122,236-237],对概率图模型进行简洁有效的参数化,从而表征输入和输出之间的任意概率分布关系。而对第三个模型,由于雷达和环境(或侦察方)之间的博弈研究,无论是雷达方还是侦察对抗方视角,均处于不断研究中,尚无典型明确的范式。

6.3 基于推理结果的演化预测

此类预测研究在电子侦察领域,主要是Vikram Krishnamurthy在显示偏好的框架下进行了尝试[84]。方法的核心在于对优化问题的结构化参数估计。基于估计得到的结构化参数,以及对环境状态未来的演变预期对雷达行为未来的演变情况进行预测。

相较于基于识别结果的直接预测方法[235,238],基于推理结果的演化预测具有许多好处:1)推理得到的回报函数,相较于直接学习到的行为策略,在表征雷达的行为规律与偏好方面要更简洁(Succinct)和紧凑(Compact);2)相较于直接学习到的策略,推理得到的回报函数可迁移性更好,对环境、动作、目标等的噪声适应性也更好。但相应的,由于需要对数据中隐含的回报函数进行推理,所需要的计算复杂度高,问题非凸性和不适定性带来的求解难度也相应更大。因此需要根据实际任务需求、数据可得性、数据质量、计算资源等进行权衡,在两种预测方法中选取适合任务的方法。

7 未来研究重点展望

对先进体制多功能雷达行为的建模与识别方法是电子侦察与对抗领域重点和难点研究问题。尽管目前众多学者已围绕上述研究热点研究出一系列成果,但电子对抗和电子反对抗永远是一个此消彼长、相互不断发展的过程,了解和掌握先进多功能雷达资源管理基本原理和方法,跟踪雷达方资源管理研究的最新进展和趋势,对侦察方动态调整自身策略、研究方向和研究侧重具有重要意义。目前仍然存在许多需要继续研究改善的地方,主要包括以下几个方面:

(1)先进体制多功能雷达系统行为建模

需要构建更好的非合作行为表征数学模型,在模型的表征、推理与学习设计上均需要尽可能全面地考虑电子侦察与对抗实际任务中所面临的问题(如模型可泛化性、少先验、无先验情况下模型的鲁棒性、未知动态环境适应性等),进一步推动研究从理论研究走向实际应用,解决实际电子侦察问题。

(2)电磁域通用大模型方法

在人工智能领域,以ChatGPT、文心一言等为代表的大模型正在掀起研究热潮。一个通用大模型能够解决多个下游任务,模型能力也相较于传统专用模型得到显著提升。在电磁领域研究相应的垂直领域大模型方法,可打通各个电子侦察任务环节,提升模型通用性、鲁棒性和泛化能力。

(3)快速准确的逆信号处理与回报函数反演方法

具备认知能力的雷达处于不断发展的过程,对抗双方采用的滤波和逆滤波算法、随机优化和逆强化学习算法本身纷繁复杂。在雷达方与对抗方的可观测性、智能性、交互性等方面又衍生出许多新的问题。需要构建出更符合真实情况的模型和快速迭代求解方法,以获得准确、实时的逆向推理结果。

(4)基于行为博弈理论的先进雷达高效对抗方法

无论是对先进体制雷达的行为识别还是推理预测,都是为认知电子战“感知-判断-决策-行动”环路(Observation-Orientation-Decision-Action,OODA)中的决策做服务。如根据感知识别结果,可直接实现对未来雷达行为动作的“精准预测”,支撑后续精准干扰与博弈对抗;另一方面可通过有意“调制”我方干扰动作的未来转移,实现对雷达方动作策略的“调制”,间接“控制”雷达未来采取的行为动作朝我方预期的方向演变,实现对电磁空间的认知与智能控制。因此,结合感知识别与行为博弈理论,在多阶段、多层次、多维度、多智能水平和多认知推理深度的动态交互/博弈过程中,生成最优干扰策略,以智胜智。

(5)电子侦察任务和方法的理论误差分析

从公开发表的文献看,目前还缺乏对电子侦察任务系统和深入的数学理论框架研究。有了好的数学模型和理论基础,对各个电子对抗任务就可以研究对应的理论误差分析方法,从数学理论上对问题进行深入分析,推导各个问题和方法的理论边界,实现电子侦察系统在数学理论上的闭环。

(6)通用行为数据集及方法性能基准比较

目前在雷达电子对抗领域,尚缺乏受到广泛认可、具有代表意义、可用于定量评价各类型算法性能的公开的仿真或采集数据集,因而本文暂未对各文献算法进行复现并进行算法定量比较。上述包括整体性或任务特定数据集的建立、以及各文献算法在各个问题下的定量性能基准比较对研究者和实践者将具有重要意义。

8 结论

随着计算智能、优化理论、软件自定义及硬件可重构系统的不断发展,先进体制雷达系统的自由度不断提升,使得雷达行为具有可供优化的控制参数数目多、参数空间大等特点。本文围绕新的先进体制多功能雷达系统行为建模表征研究、适应先进多功能雷达复杂灵活信号形式的系统行为识别、推理和预测研究展开综述,并基于已有的研究成果,针对当前研究中存在的不足,从系统行为模型建模表征、电磁域通用大模型方法、快速准确的逆信号处理与回报函数反演方法、基于行为博弈理论的先进雷达高效对抗方法、电子侦察任务和方法的理论误差分析、通用行为数据集及方法性能基准比较六个方面进行了展望。希望本文能够给相关研究者一些启发,加强在先进体制雷达行为建模与识别方法方面的深入研究,博采众长,提高算法的实时性、鲁棒性和泛化能力,以进一步推动算法技术在实际战场复杂电磁环境下的应用。

猜你喜欢
脉冲序列脉冲雷达
他们使阿秒光脉冲成为可能
有雷达
脉冲离散Ginzburg-Landau方程组的统计解及其极限行为
一种基于TOA的同型雷达同源判别方法
雷达
黄芩苷脉冲片的制备
基于脉冲序列核的脉冲神经元监督学习算法
基于空时二维随机辐射场的弹载雷达前视成像
现代“千里眼”——雷达
一D-T2二维核磁共振脉冲序列改进设计及性能对比