朱霸坤, 朱卫纲, 李 伟, 杨 莹, 高天昊
(1. 航天工程大学电子光学工程系, 北京 101416; 2. 电子信息系统复杂电磁环境效应国家重点实验室, 河南 洛阳 471032; 3. 航天工程大学研究生院, 北京 101416)
多功能雷达是指基于相控阵体制,通过灵活的波形变换和快速的波束扫描来实现多种功能的雷达系统[1]。多功能雷达作为一种重要的用频设备,被广泛装载于军舰、航母、战机等重要军事武器,在情报侦察、目标跟踪、导弹防御等任务中发挥着重要的作用。有效地干扰敌方的用频设备、削弱其作战效能是电磁对抗中不懈追求的目标,干扰策略优化是实现这一目标的关键环节。干扰策略优化分为干扰决策和干扰波形优化两个部分,干扰决策主要解决干扰样式的选取问题,而干扰波形优化则是在干扰样式选取的基础上进一步选择干扰波形参数[2]。本文主要研究多功能雷达干扰决策的相关问题,具有重要的理论和军事意义。
多功能雷达信号复杂多变,这给多功能雷达的干扰决策带来了困难。针对多功能雷达的干扰决策问题,学者们给出了多种解决方案。文献[3]中,单步雷达和干扰机被作为博弈对抗的双方,雷达的策略为雷达波形,干扰机的策略为干扰功率谱密度,采用互信息准则建立效用函数,研究了博弈中纳什均衡的存在条件,并在不满足存在条件的情况下,得出斯塔克尔伯格均衡策略是可以接受的安全策略的结论。文献[4-5]中,构建了一个多输入多输出(multiple input multiple output, MIMO)雷达和智能干扰机之间的博弈论模型,同样采用互信息作为效用函数,研究博弈过程中多种情况下的最优策略。文献[6]对博弈论在认知雷达对抗中的应用进行了综述,总结了博弈论在干扰决策、编码优化、波形优化等方面的应用前景。雷达与干扰机之间的对抗关系很容易让人联想到博弈论模型,但是博弈论中策略的求解直接依赖于效用函数,而效用函数与干扰效果评估直接相关,当前的干扰效果评估大都基于雷达方[7-8],评价指标多为互信息、峰均功率比[9]等,在实际的雷达对抗中获取此类信息是困难的,所以基于博弈论的干扰决策研究更多的是理论指导意义。除了博弈论之外,支持向量机(support vector machine, SVM)也被用于干扰决策,在文献[10]中多功能雷达干扰决策问题被构建为一个分类问题,通过SVM直接学习雷达波形参数到干扰样式的映射,这样的干扰决策方法依赖于大量的雷达信号样本和干扰样式标签,训练样本的可得性有待商榷。此外,文献[11]中将雷达对抗的过程描述为一个随时间变化的动态贝叶斯网络,通过从大量的统计样本中学习网络模型的参数来预测雷达状态,进而根据转移概率来完成决策,但动态贝叶斯网络的模型是在已知雷达状态种类的情况下构建的,而且模型参数的学习需要大量的统计样本。
上文提到的3种多功能雷达干扰决策方法,基于博弈论的方法、基于SVM的方法和基于动态贝叶斯网络的实现都依赖于一些在实际对抗过程中难以获得的数据,如干扰效果评估、雷达信号样本和干扰样式对、雷达状态转移的历史数据,因此有必要去探索一种新的不过分依赖数据的干扰决策方法。鉴于此,一些学者提出将强化学习用于多功能雷达干扰决策。强化学习作为一种不依赖模型的规划和决策手段,目前在游戏[12]、机械控制[13]、任务规划[14-15]、资源管理[16-17]、金融投资[18]等领域取得了不俗的表现。强化学习不依赖于先验的数据,强调智能体在与多功能雷达的对抗中通过学习优化干扰策略。不仅如此,强化学习使用收益作为反馈,成功地避免了干扰评估的难题。文献[19-21]中,将多功能雷达与干扰机之间的对抗过程构建为马尔可夫决策过程(Markov decision process, MDP)模型,采用Q-Learning算法进行求解,在不依赖于先验数据的情况下得到了最佳的干扰策略。文献[22]中,则是采用深度Q网络(deep Q network, DQN)来求解多功雷达干扰的MDP问题,讨论了干扰过程中的时效性问题。基于强化学习的多功能雷达干扰决策方法目前还处于发展阶段,还存在一些需要完善的问题,而算法收敛速度慢的问题就是其中之一。收敛速度慢意味着学习能力差,学习能力差的智能体将难以适应瞬息万变的战场环境。
收敛速度慢并不是多功能雷达干扰决策中独有的问题,是一个在强化学习应用中普遍存在的问题,需要结合问题中的具体情况采取解决措施。文献[23]在使用强化学习解决焊接机械臂的控制问题中引入了运动学模块提供先验知识,提高了算法的收敛性能。文献[24]在仿真机器人的控制中,利用一个识别模型进行在线训练为智能体提供先验知识,弥补了物理训练样本少、效率低的问题。文献[25]研究了随机多臂老虎机问题中,针对一个智能体已知近似最平均报酬先验知识情况,设计了求解最优策略的算法,提高了问题的求解速度。文献[26]在多机器人编队队形保持与协同避碰问题中,提出了一种基于模型知识和数据训练融合的算法,通过较少的训练数据就能使智能体达到极高的工作性能。结合先验知识来提升强化学习算法的收敛速度是一种十分重要的手段,受到这种想法的启发,可以利用先验知识来提升基于强化学习的干扰决策算法。
在本文中,首先将多功能雷达干扰决策问题定式化为MDP问题,结合问题的实际定义了先验知识,然后利用基于势能函数的收益塑造理论将先验知识加入到收益函数中,针对智能体存在胆怯行为的现象,在收益函数中加入一个修正函数项,有效改善了胆怯行为,最终得到了基于先验知识的多功能雷达智能干扰决策算法。仿真实验表明,本文所提算法能极大地提升了算法的收敛速度,对于实现对多功能雷达快速实时的智能干扰具有重要的意义。
本文的其他部分组织如下:第1节介绍了强化学习原理和Q-Learning算法。第2节将多功能功能雷达干扰决策问题定式化为一个MDP问题。第3节阐述了基于势能函数的收益塑造理论并构建基于先验知识的智能干扰决策算法。第4节设计仿真实验,分析了所提算法的参数敏感性和算法通用性。第5节对本文工作进行了梳理总结。
强化学习是目前机器学习的热门领域之一,其特点是允许智能体在环境中通过试错的方式学习如何动作。在学习的过程中,数值化的收益信号是唯一的反馈,智能体的目标是学习如何动作才能获得最大的收益。智能体的设计者并不会指示智能体每一步的最佳动作,所以智能体需要通过反复试错去寻找最佳动作。在大多数情况下,智能体的动作并不会产生及时的效果,需要等到未来的收益,才能了解动作对环境造成的影响。这就是强化学习的两大特性:反复试错和延迟收益[27]。
任何强化学习问题都有两个主要组成部分:智能体和环境。智能体是采取行动的实体,有着明确的目标,能够获取环境的状态并做出决策;环境是智能体运行的地方,与要解决的问题息息相关。除了智能体和环境之外,一个强化学习系统还具有4个关键组成部分:收益、策略、动作价值函数和环境模型。
收益由强化学习任务的目标定义。智能体的每次动作,环境都会返回收益,智能体通过收益更新策略以寻求在与环境的交互中获得最大的总收益。收益对策略的更新至关重要,如果当前的动作获得低收益,智能体会抑制该动作;如果当前动作获得高收益,智能体则会增加选择该动作的几率。
收益是来自环境的即时反馈,而价值函数则让智能体有更长远的目光,与智能体的行动策略直接相关。策略是一个从环境状态到动作的映射,直接决定了智能体如何行动。状态的价值是可以从该状态获得的总收益,指示一个状态未来收益的期望。没有收益就没有价值函数,因为价值的目的就是如何获得最大的期望收益。强化学习的问题是一个序列决策的过程,从长远的角度来看,智能体应该选择具有最高价值的动作而不是具有最高收益的动作,因为收益只是暂时的。价值函数的存在是智能体具有“智能”的重要原因。
环境模型是对环境特性的描述,根据环境特性,可以在当前的状态和动作下预测下一步的状态。如果环境模型已知,能使智能体学习更加快速和稳健。而现实中的绝大多数问题,环境模型都是未知的,这就需要智能体进行反复的试错。
常用一个如图1所示的MDP模型来描述强化学习过程,一个MDP模型包括5个组成部分,{S,A,P,γ,R}。其中,S是状态的集合,A是智能体动作的集合,P是环境转移概率的集合,R是收益的集合。此外,γ是折扣率,表示未来收益的现值,γ越大,表示未来的收益在当前的决策中所占的比重越大。下标t用于区分当前和未来的MDP元组。智能体对环境施加一个动作,环境状态转移至下一步的环境状态,并将收益返回智能体。
图1 强化学习的MDP模型
Q-Learning是一种异步策略的强化学习算法[28],是本文进行算法研究的基础,其动作策略与学习策略不是同一个策略。在Q-Learning中,智能体的策略与状态动作价值函数密切相关,状态动作价值函数,即Q值函数,定义为在特定状态下进行某一动作所获得的收益期望。s和a分别表示状态和动作,π表示策略。
Q-Learning的动作策略,一般采用ε策略,这是一种贪婪策略和随机策略的混合策略。以1-ε的概率选择使得当前的Q值达到最大的动作,以ε的概率随机选择动作,ε被称为探索因子,用以平衡Q-Learning算法中的学习与探索。
Q-Learning的学习策略是在每一步的行动后对Q值进行更新,Q值采用下式进行更新迭代:
Q(s,a)←Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]
(1)
式中:s′,a′表示下一时刻的状态和动作;r是收益函数,是关于状态s和动作a的函数。
最佳策略π*满足贝尔曼最优方程:
Qπ*(s,a)=
∑p(s′,r|s,a)[r(s,a)+γ·maxa′Qπ*(s′,a′)]
(2)
理论上[27],通过不断地更新迭代,智能体的策略最终会收敛于最优策略π*。
为了更好地解决多功能雷达的干扰决策问题,将干扰决策的过程表述为一个MDP。多功能雷达拥有有限个雷达状态,可表示为一个有限状态集S(s∈S);干扰决策智能体或者干扰决策系统所能产生的干扰样式也是一个有限状态集,表示为J(j∈J);R是收益的集合,由环境状态的转移所决定,收益函数用r(s,s′)表示;环境模型用环境转移概率P表示,具体可表示为p(St+1|St)。干扰决策系统对多功能雷达实施干扰,雷达状态发生转移,干扰决策智能体从中获得收益,智能体会不断尝试直至实现干扰的目标。
当然,在实际的雷达对抗中环境模型是未知的,但这并不影响智能体最终找到最优的干扰策略,这也正是强化学习的魅力所在。下面,将对多功能雷达干扰决策问题中的状态集、动作集、环境转移概率和收益函数进行更详细的定义和说明。
雷达状态是以干扰方所接收的信号参数为基本依据而界定的目标雷达所处的情况。雷达状态的定义对于强化学习问题至关重要,与时间相关,在一段时间内具有一定的稳定性,与每一个雷达状态相对应,在每一次干扰决策的闭环中,智能体都会进行一次决策,完成一次动作,而且智能体的收益也是通过雷达状态的改变获得。这就要求雷达状态在时间维度离散,易于识别区分,与干扰样式间存在映射关系,并且能够为决策提供丰富的信息。在电子侦察的相关研究中,常将多功能雷达的信号模型建模为一个层级模型[29-30],对侦察到的雷达信号序列进行波形单元提取转换为雷达字序列,采用生成结构语法中的理论对雷达字序列进行进一步的处理,由雷达字构成雷达短语,进一步构成雷达句子。
其中,雷达短语是层级模型的中间层,相比于雷达句子,雷达短语具有更加丰富的信号信息,可为干扰决策提供信息支撑;相比于雷达字,雷达短语与多功能雷达工作方式的控制参数直接相关[31],其与干扰样式之间可以建立一定的映射关系,因此可以将电子侦察中获取的雷达短语作为雷达状态,本文MDP模型中的状态集即多功能雷达的雷达短语集。文献[32-33]中利用递归神经网络(recurrent neural network, RNN)识别进行雷达状态的识别,识别结果及时准确,很好地支持了本文的想法。
动作集包含干扰决策系统可以产生的所有干扰样式,这由干扰波形发生设备的硬件条件所决定。常见的多功能雷达干扰样式包括噪声调幅干扰、脉冲卷积干扰、波门拖引干扰和灵巧噪声干扰等。干扰决策的核心工作就是在每一个雷达状态时选择合适的干扰样式,最终完成既定的干扰目标。
环境的转移概率定义了雷达状态和样式间的相互作用关系,由多功能雷达的信号产生机制所决定。在多功能雷达信号的产生过程中,存在着严密的雷达任务调度机制和环境目标自适应机制[34-37],这使得多功能雷达状态间存在马尔可夫性,这种马尔可夫性可以表示为p(St+1|St,Jt),这是一种简化的表示方式,揭示了多功能雷达状态发生转移的规律,是将强化学习应用于多功能雷达干扰决策的基础。
收益函数r定义了从一种雷达状态转移到另一种雷达状态时,智能体获得的收益的数值。为了定义收益函数,需要考虑智能体的实际工作所要完成的现实目标。对于多功能雷达干扰决策问题而言,干扰决策的目标就是使雷达状态尽快从当前的雷达状态转移到低威胁等级雷达状态或者由于战术目的需要希望多功能雷达所处的雷达状态。这样的现实目标存在着两方面的要求:一是需要雷达状态最终转移到目标雷达状态;二是决策者希望状态的转移过程所花费的时间是最短的。根据上述的两个要求,该问题的收益函数可以设置为
(3)
若雷达状态转移至目标雷达状态Saim,获得收益为100;若雷达状态未转移到目标雷达状态,则获得收益为-1,这就保证了以最少的步数转移到目标雷达状态时,智能体所获的总收益是最大的。步数与耗费时间呈正相关,最小的步数意味着最短的时间,因此智能体此时的干扰策略也是最优的。
在当前对多功能雷达的干扰决策算法研究中,主要有Q-Learning和DQN,与融合了神经网络和强化学习的DQN相比,Q-Learning采用表格记录Q值,用查表的方式进行决策。当状态动作空间过大时,存在占用存贮空间大、查表搜索时间长的问题[22],但在多功能雷达的干扰决策问题中,雷达状态的数量和干扰样式的数量都是有限的,状态动作空间不会太大,因此不存在相应的问题。此外,Q-Learning相比于DQN有两方面的优势,第一方面,Q-Learning相对于DQN由于不使用神经网络,调参和训练将更为简单和容易;第二方面,Q-Learning的扩展性更好,当多功能雷达的数量增加或者出现新的未知雷达状态时,Q-Learning只需要增加表格的列数即可,而DQN则需要增加神经网络输入输出的节点,甚至要重新设计神经网络的结构,这无论是对于工程师还是神经网络的训练都是不利的。因此,Q-Learning是一种适合于多功能雷达干扰决策的算法,本节将在Q-Learning算法的基础上结合基于势能函数的收益塑造理论利用先验知识改进算法,提升算法的收敛速度。
强化学习往往很耗时,因为强化学习算法必须使用延迟反馈或收益来确定其行为的长期后果。收益塑造是一种将领域知识结合到强化学习中的方法,以便更快地将算法引导至更有前景的解决方案。
收益函数反应了强化学习任务的目标,与状态的划分联系紧密,因此收益函数的设置要结合实际问题的需求与形式,具体问题具体分析。这也导致了收益函数的设置领域并没有成熟、系统的方法理论,收益函数的设置更多的是依靠工程师的经验和技巧的总结。而基于势能的收益函数的塑造理论讨论了如何在原有的收益函数上加上一个具有塑造功能的函数项,使得在此基础上智能体学到的最优策略不发生改变[38]。该理论对于收益函数设置具有重要的指导意义,该理论的主要内容如下。
一个马尔可夫决策过程,可用一个元组来描述,M={S,A,P,γ,R},相关概念已经在第1节和第2节中进行了说明,故在此不做过多的交待。
对于任意的S,A,γ和任意的收益塑造函数F:S×S→R,若F满足:
F(s,s′)=Φ(s′)-Φ(s)
(4)
式中:Φ:S→R为一实值函数,则M={S,A,P,γ,R}与M′={S,A,P,γ,R′}具有相同的最优策略;Φ被称为S的势能函数;F即为基于势能的收益塑造函数。该定理被称为基于势能函数的收益塑造理论,由Andrew[38]首先提出并证明。
根据该定理,工程师就可以通过调整收益函数,将一个MDP转换为另一个MDP,在保证最优策略的情况下,加快强化学习算法的收敛。如果事先知道一些关于干扰决策的先验知识,可以将先验知识以收益塑造函数F的形式加入到强化学习算法之中,以此提升算法学习效率。
在一些具体的多功能雷达干扰决策场景中,对于干扰决策问题并不是完全空白的,而是会有一些先验的知识。假设在某一次干扰任务中,干扰任务的目标是使雷达状态从当前雷达状态S0转换到目标雷达状态Saim。在实行干扰任务之前,通过专家经验或者对历史数据的信息挖掘[39],已知在最优的干扰策略下,从当前雷达状态S0转移到雷达状态Saim,需要经历的一些雷达状态,用集合Se表示,称之为先验雷达状态。Se在最理想的情况下可能会包括最优策略下的所有雷达状态,当然在更多的时候,Se可以提供的信息是有限的,决策者也不知道先验雷达状态在最优策略状态序列中的顺序,仅仅是知道在最优的雷达状态序列中有这样一些雷达状态。先验雷达状态Se是不完整、不充分的,也正因如此,先验雷达状态形式的先验知识会更加容易获得。先验雷达状态对于人来说是容易理解的,而对于智能体而言,理解和运用这样的先验知识是存在一定困难的。收益塑造函数正是化解这一困难的有力武器。
强化学习的价值函数机制决定了当策略收敛至最优策略时,最优策略下的雷达状态价值必然会高于其他雷达状态的价值,所以一个直观的想法是为最优雷达状态的价值提供一个比较高的初始值。但在Q-Learning中,动作的选取依赖于动作价值函数,由于不清楚环境模型,无法得知最优雷达状态依赖的最优动作,因此无法为动作价值函数提供有益的初始值。而收益只与雷达状态有关,可以通过对收益函数的塑形来实现对先验雷达状态的状态动作价值函数的提升。
运用基于势能函数的收益塑造理论来改造收益函数,对于先验雷达状态Se,先增加先验雷达状态的势能,令势能函数为
(5)
则收益塑造函数可以写为
(6)
更进一步,可以写出进行收益塑造后的收益函数:
(7)
式中:ωp为收益强化系数,用于控制增加收益的数值大小。
基于势能函数的收益塑造理论保证了在修改收益函数后,MDP问题的最优策略不会发生改变,但同时带来了另一个问题。这种方法的最终结果,相当于雷达状态转移到先验雷达状态时,增加收益ωp,雷达状态从先验雷达状态转移到其他雷达状态,减少收益ωp/γ,这会使智能体易于出现胆怯的行为,即由于害怕离开先验雷达状态时带来的损失,选择停留在先验雷达状态,不敢积极地去探索。为了抑制智能体的胆怯行为,给收益函数添加一个修正函数T(s,s′),其表达式为
T(s,s′)=(C(s′)-1)·ωs·(-1)
(8)
式中:C(s′)表示状态s′连续出现的次数;ωs为收益抑制系数,用于控制抑制认知干扰决策智能体收益获取的程度。T(s,s′)相当于一个临时抑制项,几乎不会影响MDP问题的最优策略。
通过上述的分析,决定采用基于势能的收益函数塑造方法添加先验知识,并且在收益函数中加入抑制胆怯行为的修正函数。在Q-Learning算法的基础上进行改进,结合多功能雷达干扰决策问题场景,可以得到基于先验知识的多功能雷达智能干扰决策算法如算法1所示。
算法 1 基于先验知识的多功能雷达智能干扰决策算法
进行仿真实验,以验证所提算法的性能。假设现有一多功能雷达,共有50种雷达状态{s1,s2,…,s50},雷达状态间的转移情况如图2所示。
图2 雷达状态转移情况示意图
干扰机的干扰任务是使多功能雷达的雷达状态从当前的雷达状态s1转移到雷达状态s25。最优干扰策略下的雷达状态转移情况为S1→S3→S5→S7→S9→S22→S23→S25,从初始状态转移到目标状态至少需要7步,已经在图2中标为
红色。另有一智能干扰机,可以产生9种干扰样式,干扰样式与雷达状态的相互关系为一维度为9×50×50的转换矩阵,为使仿真结果不失一般性,矩阵中的转移概率随机产生。转移矩阵可表示如下:
(9)
智能干扰机采用本文所提的基于先验知识的干扰决策算法,算法的基本参数设置如表1。
表1 算法的基本参数设置
本次仿真中采用控制变量的方法共设置3组实验,设置实验1主要为了分析参数ωp和ωs的敏感性;设置实验2和实验3是为分析算法的通用性。其中,实验2研究了先验知识数量对算法性能的影响,实验3研究了错误先验知识对算法性能的影响。
关于强化学习算法的研究中,常用Q值是否收敛来判断算法的收敛性,这是一种比较严谨的、直观的数值指标方法。而在本文的实际问题,智能体不必等到Q值完全收敛就可以做出最佳的决策,所以可以用步数的收敛情况来判断算法是否收敛。考虑到智能体在进行决策时会以一定的概率进行探索,会使步数存在一定的波动,如果步数连续3个回合保持不变,并且对于同一步数这样的情况出现6次,认为算法收敛。若该步数为7,则认为算法达到了最优收敛。进一步可以定义在多次重复实验中,干扰策略收敛到最优策略的比例为最优收敛率;智能体从开始进行训练到最后收敛所需要的步数称为收敛总步数。这些指标反应了智能体学习的速度与质量,与干扰的实时性和有效性密切相关。
保持多功能雷达信号模型和算法基本参数不变,先验知识为Se={s2,s7,s22},智能体每次训练的最大回合数为400,每次改变ωs或ωp的值进行100次蒙特卡罗实验。
从实验的结果来看,虽然每次实验ωs或ωp的值不完全相同,但在400个回合内算法的收敛率都是100%,意味着算法始终会收敛。由于不同的ωs或ωp结果都是相同的,所以在此处就不以表格和数据的形式展现了。不同的ωp和ωs参数下的最优收敛率如表2所示。
表2 不同ωs和ωp下的最优收敛率
从表2的统计结果来看,不同参数下最优收敛率几乎相差无几,都是接近1或者等于1。而在理论上,基于势能函数设计的收益塑造函数是不会改变最优策略的,最优收敛率应该都为1。
为进一步研究实验结果中出现最优收敛率不为1的原因,将每次实验中算法收敛以后,步数取值的均值定义为平均收敛步数,记为mean-step,平均收敛步数可以更准确地反映算法的收敛情况。
在上述的参敏感性实验中,一共进行了5 600次实验(8×7×100=5 600,8和7分别为ωs和ωp的取值个数,100为进行蒙特卡罗实验的次数),其中出现异常的实验次数为44次,达到最优收敛的实验次数为5 556次。将这5 556次实验的平均收敛步数作为一个样本集,计算可得该样本集的均值为7.58,标准差为0.13,记为μ=7.58,σ=0.13。44次异常情况的平均收敛步数情况如表3所示,(ωs,ωp)为出现异常情况时的参数取值。
表3 异常情况的平均收敛步数情况
图3为不同ωs或ωp情况下的回合数与步数图,在每一张子图中,保持ωs的值不变,ωp取不同的值,“无先验知识”即为改进前的Q-Learning算法。在此基础上,逐渐增大ωs的值一共得到8张子图。
图3 不同ωs和ωp下的回合数-步数图
在图3(a)中,ωs此时为0,相当于没有对智能体的胆怯行为进行抑制。采用本文所提算法,当ωp比较小时,如ωp分别取1、2、4,算法的收敛性能明显好于Q-Learning算法,当ωp比较大时,智能体会出现明显的胆怯行为。逐渐增加ωp的值,胆怯的行为能得到明显的改善。在图3(h)中,当ωs取值为64时,不同ωp的曲线基本重合,具有相似的收敛性能。在工程实践中,ωp可以取一个比较小的值,这样可以既无明显的胆怯行为,也能达到较好的收敛性能,但是小的尺度不容易把握。根据实验的结果,ωp可以取一个较为灵活的值,在此基础上ωs取一个较大的值,这样也能达到相似的甚至更好的性能,同时参数的设置方法也将更为灵活和可靠。
为了研究先验知识数量对算法性的影响,保持多功能雷达信号模型和算法基本参数不变,ωp取值为16,ωs取值为64,智能体训练的最大回合数为600。随机抽取1到6个先验雷达状态作为先验知识,每种先验雷达状态数量下进行100次实验,实验的统计结果如表4所示。
表4 不同先验雷达状态数下的算法收敛性能参数
在不同的先验雷达状态数量下,算法的收敛率始终为1,最优收敛率也都为1或者接近1,这样的结果与实验1中得到的结果是一致的。而随着先验雷达状态数的增多,平均收敛总步数是在不断减少的。将基于Q-Learning算法的实验结果作为一个基准,用基于Q-Learning算法的平均收敛总步数减去基于先验知识算法的平均收敛总步数,称为缩减步数,用缩减步数衡量基于先验知识算法收敛性能提升的程度。折线图如图4所示,随着先验雷达状态数的增加,缩减步数逐渐增加并且增加的趋势逐渐放缓。这表明,先验雷达状态数量越多,本文所提方法对算法的收敛性能的提升越大,但通过继续增加先验雷达状态来提升算法性能的效果就越不明显。
图4 缩减步数随先验雷达状态数变化图
为了研究先验知识数量对算法性的影响,保持多功能雷达信号模型和算法基本参数不变,ωp取值为16,ωs取值为64,智能体训练的最大回合数为1 000。初始的先验知识为{s3,s7,s22},在此基础上,采用随机选择其他雷达状态并随机替换初始先验知识中雷达状态的方式,产生先验知识错误率为0%,33%,66%,100%的先验知识。每种先验知识错误率下,产生100次错误先验知识进行实验。
实验的统计结果如表5所示,算法的收敛率还是都为1,这表明错误的先验知识并不会影响算法的收敛。但随着先验知识错误率的增加,最优收敛率却出现了明显的下降,当先验知识100%错误时,最优收敛率只有0.59,而且平均收敛总步数也在上升。这样的结果表明,错误的先验知识会导致智能体需要花费更多步数的训练才能找到最优的策略,毕竟此时的智能体不仅需要去寻找最优策略,同时也需克服错误知识带来的影响。在本次实验中,最大训练回合数只有1 000个回合,很多的结果虽然已经达到了本文所提的收敛标准,但实际上并没有真正的收敛。因为在理论上,只要训练的回合数足够多,智能体就一定能找到最优的策略。
表5 不同先验知识错误率下的算法收敛性能参数
图7显示了不同先验知识错误率下的缩减步数,从图中可以明显的看出错误的先验知识会严重影响算法的性能,当先验知识错误率为0%时,缩减步数为6 998步,而当先验知识错误率为33%时,缩减步数就只有3 085步了,当先验知识错误率为100%时,缩减步数为-200,仅比原始的Q-Learning算法的表现略差一点。因此,为了实现最大的算法性能提升,在采用基于先验知识的多功能雷达智能干扰决策算法时,应尽量保证先验知识的正确性。
相比于基于Q-Learning的智能干扰决策算法,本文所提的基于先验知识的多功能雷达智能干扰决策算法充分地利用了有限的先验知识,在大多数的情形下都能达到更好的收敛性能,能够大幅缩短干扰决策智能体的训练时间。
将强化学习方法应用于多功能雷达的干扰决策有望实现对多功能雷达干扰策略的实时调整,实现更为精准有效的干扰。然而,强化学习算法普遍存在着训练周期长、收敛困难的问题。针对此,考虑到在实际的雷达对抗过程中先验知识存在的客观性,使用基于势能函数的收益塑造原理将先验知识以收益的形式加入到强化学习问题,并提出抑制智能体胆怯行为的方法,最终形成了基于先验知识的多功能雷达干扰决策算法。通过实验仿真,讨论了算法中两个参数ωp和ωs对算法性能的影响,总结了在实际工程应用中参数设置的一般方法。此外,还研究了所提算法在不同的先验雷达状态数量下和在先验知识错误情况下的收敛性能,先验雷达状态数量越大,算法收敛性能相对于传统Q-Learning算法的提升就越大,并且先验雷达状态数量越少,增加先验雷达状态对算法性能的提升越大;错误的先验知识会造成算法的收敛性能下降,智能体寻找到最优策略将会更加的困难,所以使用本文所提的方法应该尽量保证先验知识的正确性。总之,在绝大多数的情况下,本文所提算法收敛性能都是优于Q-Learning算法的,具有较好的通用性,而本文所提的利用先验知识的方法,不仅可以应用于多功能雷达干扰决策领域,也可通过简单的迁移在强化学习的其他领域使用,具有广泛的应用前景。
当然本文所研究的工作是有限的,只是研究了在多功能雷达干扰中的干扰样式选择问题,距离真正的形成实时化、智能化的干扰能力还有很长的路要走。此外,本文对于加入抑制胆怯行为的函数项是否会改变强化学习的最优策略并未给出严格的数学证明,所提的判断收敛的方法足够简单,但不够严谨,这都是在未来值得研究的问题。