基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法

2022-08-19 02:55赵知劲朱家晟叶学义尚俊娜

电子与信息学报 2022年8期

赵知劲朱家晟叶学义尚俊娜

①(中国电子科技集团第 36研究所通信系统信息控制技术国家级重点实验室嘉兴 314001)

②(杭州电子科技大学通信工程学院杭州 310018)

1 引言

为构建更稳定、高效的无线通信系统，抗干扰技术的重要性日益突出。跳频通信技术具有抗传统干扰能力较强、难以截获和易组网的特点，基于其建立的跳频通信网广泛应用于通信领域[1]。随着无线设备不断增加，干扰技术逐渐智能化，跳频网络工作的电磁环境变得越来越复杂，需要大量频谱资源支持的传统抗干扰技术已无法满足需求。而智能抗干扰技术由于具有更强的灵活性和抗干扰性能，已逐渐受到关注。

通信设备的网络化运用不仅可以提升系统信息传递速率，其抗侦察、抗截获和抗干扰能力也明显优于点对点通信[2]。跳频组网通信中需要同时应对同频干扰、敌意干扰和自然干扰。传统的降低同频干扰的方法主要有增加频带宽度、跳频频点数、设计相关性好的跳频序列等。文献[3]分别从技术和策略上研究了跳频组网抗干扰技术，其使用了加密的宽间隔跳频图案，并以节点慢速跳频扫描跟踪和多频点轮流发送同步信息的方式改进了组网的同步过程，提高了同步过程的抗干扰性能。文献[4]基于网络拓扑抽象出基本组网场景，并构建频率规划求解模型，提高了具有多节点、多子网、多频表的网络的资源协同规划效率。文献[5]提出了一种基于碰撞跳频码一致的同频干扰消除方案，通过在碰撞频点上传输空码元避免频率碰撞，提高跳频组网效率。文献[6]提出了一种认知无线Ad-hoc网络中的频段动态管理方法，其中节点仅在感知到目标频段空闲时才进行频率跳变并提出了无碰撞下一频率可用性指示(Next Frequency Availability Indication，NFAI)方法使节点间共享感知结果，减少服务中断时间。然而，复杂的电磁环境、稀缺的频谱资源和激增的设备数量导致传统抗干扰技术在跳频组网中难以发挥作用。并且，目前几乎没有关于同时对抗同频干扰和敌意干扰的研究。对此，文献[7]提出了根据干扰因素调整通信参数的智能组网技术，能最优化通信资源，提升系统抗干扰能力。

跳频组网中的智能抗干扰决策涉及多个用户，是典型的多智能体系统。其中，每个用户的决策都将影响环境和其他用户的决策，这造成了环境的非平稳性[8]。而强化学习是解决动态和未知环境中智能决策问题的有效方法[9]。多智能体强化学习则将上述两个方面结合起来，是强化学习中的重要分支。目前多智能体强化学习的主要问题包括智能体的差异性和协调合作、环境非平稳性、奖励机制复杂、算法效率较低等。针对智能体差异和协调的问题，文献[10]针对分布式认知无线电网络中信道和功率分配问题提出了一种合作Q学习(Q-Learning，QL)算法，使各Agent在学习过程中融合其他具有更高奖赏值的Agent的Q值来获取学习经验，减少不必要的探索，该算法较单Agent的 QL算法有更高的学习速率和系统性能。文献[11]研究了具有多个主用户、次用户和信道的认知无线电网络中的动态资源管理问题，使用多个独立的深度Q网络(Deep Q Network， DQN)学习非平稳性环境，实现频谱资源分配。文献[12]则研究了系统的奖励机制，设计了包含合作和竞争因素的奖励函数及分配策略，并使用共享经验池，从而提出了基于多智能体虚拟体验的深度Q学习(Multi-agent Virtual Exploration in Deep Q-Learning， MVEDQL)算法，实现了Agent之间的协调和相互学习。文献[13]将空战仿真中计算机生成兵力智能化问题建模为两人零和博弈问题，设计了一种基于势函数的奖励成型方法，从而提出了一种带奖赏形成机制的深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient with Reward Shaping， RS-MADDPG)算法，有效提升了空战策略生成算法的有效性和生成策略的智能化水平。

本文研究复杂电磁环境下跳频异步组网中的抗干扰问题，首次应用多智能体深度强化学习算法进行各子网参数智能决策，实现避免同频干扰和对抗敌意干扰的目的，从而提出了基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(Multiagent Fuzzy Deep Reinforcement Learning based on Centralized Training and Decentralized Execution， MFDRL-CTDE)算法。针对多智能体系统中各Agent相互影响和环境不稳定的问题，将集中式训练分散式执行框架以及共享经验池引入多智能体深度强化学习中。针对Agent的差异性和协调合作问题，本文提出了基于模糊推理系统的融合权重分配策略，采用模糊推理系统以Agent获得的累计平均奖赏和样本优先度为标准估计各网络性能并分配权重用于网络融合，使性能好的Agent能做出更大的贡献，从而提高算法性能。最后，本文采用了Dueling DQN算法和优先经验回放技术以进一步提高算法的效率。该算法在跳频异步组网智能抗干扰决策问题中具有更快的收敛速度和更高、更稳定的收敛性能，并且对多变的复杂电磁环境具有更好的适应性。

2 系统模型

2.1 跳频组网

跳频通信网是通过频率跳变方式将相当宽的频带内的大量用户组建成的通信网，实现网内任意用户间的通信。跳频组网通信中的抗干扰主要分为对抗自然干扰和敌意干扰、减小不同子网间和同一子网内节点间的同频干扰[5]。

跳频组网根据网络是否采用完全统一的时间基准可分为同步组网方式和异步组网方式。同步组网中各个子网采用相同的跳频技术体制和跳频图案算法，且工作在同一张跳频频率表上，其每一跳的起跳时间和驻留时间完全一致。因此，同步组网方式的效率很高，不存在同频干扰[14]，但是对同步性能要求很高，实现困难，建网速度慢，复杂度高，难以保持，并且抗阻塞干扰能力差。异步组网对各子网之间跳频时序、跳频图案和频率表等方面没有约束，各子网之间不需要同步，而子网内各节点需要同步[15]。异步组网方式组织使用方便、灵活，是目前最常用的组网方式，但是组网效率较低，抗侦察能力较差，存在一定程度的同频干扰，并且随着节点数量的增加和频谱资源的日益稀缺，同频干扰的影响会越来越大。为尽量避免同频干扰，异步组网方式需要更高效、更智能的频谱资源分配方式。

本文的跳频网络中，对于同一子网内的节点采用时分多址复用技术[3]，各节点使用相同的跳频图案分时隙地发送数据，从而避免网内同频干扰。各子网之间则采用异步组网方式，通过智能规划频谱资源，尽量避免网间同频干扰并应对敌意干扰。

2.2 马尔可夫博弈

强化学习以其免模型和与环境交互的特点能有效地解决各种复杂环境中的智能决策问题。马尔可夫决策过程(Markov Decision Process， MDP)是单智能体强化学习方法的基础理论，其描述了单智能体在决策问题中状态-动作空间、观测、奖赏、状态转移函数等因素。但是在多智能体系统中有多个智能体同时与环境交互，单个智能体往往无法完整地观测整个环境，且其动作将影响环境和其他智能体，故无法通过MDP完善地描述该系统，进而导致单智能体强化学习方法在多智能体系统中的决策效果有限。为了获得更大的奖赏，每个智能体都需要学习环境和其他智能体的动作策略。

2.3 状态-动作空间及奖赏

根据2.1节所述，本文将使用多智能体深度强化学习方法为跳频异步组网提供更智能的频谱资源分配方式，智能对抗同频干扰和敌意干扰，提高网络通信质量。定义该马尔可夫博弈模型中的状态空间由智能体的功率P和信源速率B构成，则状态集

3 基于CTDE的多智能体模糊深度强化学习

3.1 集中式训练和分散式执行

在多智能体深度强化学习中，各智能体的值函数是由所有智能体的状态和动作决定的，这导致单智能体强化学习算法直接应用于多智能体系统时效果不佳。在多智能体系统中，智能体在执行时往往无法完整得到环境中隐藏信息，但是这些信息在训练时很容易获得。因此，仅在训练时有效地利用这些额外信息将能帮助智能体加速学习[18]。

基于CTDE框架和共享经验池，本文提出如图1所示的多智能体系统模型，其中共享经验池(shared experience pool)用于使智能体之间能互相利用经验，进行信息交流。

图1 具有CTDE框架和共享经验池的多智能体系统模型

3.2 竞争性DQN

DQN是最常用的深度强化学习方法，但是在多智能体系统中，由于环境复杂且智能体之间可能的状态、动作组合过多，其过大的状态-动作空间将降低DQN的效率。

对此，本文采用竞争性DQN(Dueling Deep Q Network， Dueling DQN)作为网络的基础结构。Dueling DQN是一种常用的DQN改进方法，其通过改进Q网络结构就能简单而有效地提升学习效率。在智能体学习过程中，某些状态下采取任何动作对后续状态都没有大的影响，对此可以通过分离状态和动作的价值来提升效率，Dueling DQN正是基于该思想创建的。如图2所示[19]，Dueling DQN将Q网络最后一层拆分为状态值流和动作优势流，从而将每个动作的Q值变为状态价值和动作优势值之和。

图2 Dueling DQN网络结构示意图

为防止在状态价值函数为0，动作优势函数等于Q值的训练结果出现，通常采用式(5)[19]所示的形式，将单个动作优势函数值减去所有动作优势函数值的平均值。该方式可以在保证各动作的优势函数相对排序不变的同时缩小Q值的范围，去除多余的自由度，提高算法稳定性

3.3 优先经验回放

3.4 基于模糊推理系统的融合权重分配

本文模型中，集中式目标Q网络的更新依赖所有智能体的估值Q网络及其融合权重。但考虑到各个智能体之间的竞争、协作关系及其差异，权重分配一直是多智能体深度强化学习的难点，因此，本文提出基于模糊推理系统的融合权重分配机制，以模拟网络优越性与融合权重的映射关系，从而使得性能优越的网络在集中式目标Q网络的更新中发挥更大的作用，提高算法整体的效率。

模糊推理系统(Fuzzy Inference System， FIS)能通过简单有效的推理从复杂信息中推导出结论[20]，打破了经典集合定义中绝对隶属的概念，是一种强大的非线性问题处理技术。FIS由模糊化、模糊规则库、模糊规则推理和去模糊化等部分组成。对于输入状态，FIS先通过隶属度函数进行模糊化，再经过模糊规则推理得到其对各输出状态隶属度，最后通过去模糊化确定输出。

如图3所示，系统输入变量隶属度函数均采用最常用的三角隶属度函数[20]。系统输出变量去模糊化过程采用质心解模糊法，求取阴影部分质心，其横坐标即为系统输出的融合权重。

图3 隶属度函数及质心解模糊法示意图

表1 模糊规则定义

3.5 动作选择策略

常用的基于ε-greedy机制的动作选择策略的参数ε是固定的或随迭代次数线性下降的，在迭代中后期智能体仍有一定概率选择随机动作并执行，这将导致算法难以收敛。对此，本文引入非线性因素，采用如式(13)所示的动作选择策略

3.6 复杂度分析

多智能体深度强化学习算法的复杂度与状态-动作空间、Q网络的复杂度和智能体数量直接相关[21]，即取决于参与决策的智能体数量，决策过程中状态空间、动作空间的维度和Q网络的规模。因此，在解决相同智能决策问题时，本文该部分的复杂度与其他多智能体深度强化学习算法的相同。

因此，本文算法的复杂度将略高于其他多智能体深度强化学习算法。

3.7 算法步骤

综上所述，本文所提MFDRL-CTDE算法的具体步骤如下：算融合权重并按式(11)进行归一化，由式(12)更新集中式目标Q网络的网络参数。

4 实验结果及性能分析

仿真中各项参数设置如下：子网数量为4，总带宽W为200 MHz，用户传输功率为150～250 mW，信源速率为5～15 Mbps，高斯白噪声功率n0=10-7mW，可选跳速集合为[500， 1000， 2000，4000] hop/s，可选跳频序列共8种，信道划分间隔为1～10 MHz。算法经验池容量Ng=2000，每次经验回放采样样本数量M=50，网络学习速率lr=0.00005，集中式目标Q网络更新周期Ttar=50，总训练回合数T=250，折扣因子γ=0.9，参数α=0.6，β=0.4， λ=40。下文4.1节和4.2节的仿真结果均在如图4所示的未来短时间内的干扰环境频谱瀑布中获得，频谱瀑布表达了各种干扰的功率、干扰频段随时间的变化情况，该环境中包含宽带干扰、窄带干扰、扫频干扰和高斯白噪声，其中各种干扰的数量、功率、频段等参数均为在一定范围内随机产生的，颜色越深表示干扰功率越大，单位时间间隔为最大跳速对应跳频周期，单位为mW[22]。

图4 干扰环境频谱瀑布图

4.1 算法性能分析

分别使用MFDRL-CTDE算法、IDQN算法[11]、MVEDQL算法[12]，不具有Dueling DQN和优先经验回放的本文算法(以下简称MFDRL-CTDE-1)以及各智能体使用相同融合权重的本文算法(以下简称MDRL-CTDE)在相同的干扰环境下进行智能抗干扰决策，得到各算法的系统平均能量效率随训练回合数变化的曲线，经平滑处理后其结果如图5(a)所示。

由图5(a)可得如下结论：(1)本文算法最优，其收敛速度快，收敛后的最佳性能明显高于对比算法，且性能的波动较小。(2)MVEDQL算法虽然初期收敛速度更快，但随后性能提升较慢，效率较低。这说明MFDRL-CTDE算法中的CTDE框架较MVEDQL算法的共享经验池能使多智能体系统更有效地收集、交流和利用额外信息，帮助算法突破局部最优解。(3)缺乏智能体交流机制的IDQN算法则收敛缓慢且性能波动较大。(4)使用了固定等值融合权重的MDRL-CTDE算法的收敛速度则慢于MFDRL-CTDE算法和MFDRL-CTDE-1算法且收敛后性能波动更大。这是因为基于模糊推理系统的融合权重分配策略能使性能好的网络在网络参数融合过程中发挥更大的作用，减少性能差的网络带来的影响，有效提升了网络融合效率和系统在高动态环境中的稳定性。(5)MFDRL-CTDE-1算法的收敛速度比MFDRL-CTDE算法快，但能达到的最佳性能低于后者，且波动较大。因为在学习初期，网络对联合值函数的拟合性能较差。此时，PER的经验筛选比传统经验回放技术更注重网络预测精度的提升，这可能造成短暂的性能下降；而Dueling DQN的状态值与动作优势值分离的策略难以发挥效果。随着网络拟合性能的提升，PER的经验筛选和Dueling DQN的优势逐渐体现，在加速MFDRLCTDE算法收敛的同时能避免回放劣质样本和值函数大幅更新造成的算法性能波动，从而提高了算法收敛后的稳定性。

图5 各算法性能比较图

4.2 多子网情况下算法性能比较

为验证本文算法在不同子网饱和程度下的性能，当子网数量为3～7时，分别使用MFDRLCTDE算法、IDQN算法[11]、MVEDQL算法[12]在相同的干扰环境下进行智能抗干扰决策，其系统平均能量效率曲线如图5(b)所示。

由图5(b)可知，本文算法在各子网数量下的性能都优于对比算法。本文算法在子网数量较少和适中时，性能明显优于对比算法；随着子网数量的增加，系统逐渐趋近饱和状态，资源逐渐紧张，环境复杂度和不稳定性加强，智能抗干扰决策的难度提升，因此，本文算法性能逐渐下降，相较对比算法的优势有所减小。

4.3 不同干扰环境下算法性能比较

随机改变宽带干扰、窄带干扰和扫频干扰的功率、干扰频段及数量，得到3种干扰环境频谱瀑布，如图6(a)–图6(c)所示。分别使用MFDRL-CTDE算法、IDQN算法[11]、MVEDQL算法[12]在不同的环境中进行决策，各算法的系统平均能量效率曲线如图6(d)–图6(f)所示。

由图6可见，在不同干扰环境下本文算法的收敛速度、收敛性能和稳定性都优于对比算法。所以本文提出的MFDRL-CTDE算法更适合复杂电磁环境中智能抗干扰决策问题。

图6 不同环境下算法性能比较

5 结束语

本文主要研究复杂电磁环境下跳频异步组网中应用多智能体强化学习的智能抗干扰决策问题。引入CTDE框架和共享经验池解决了多智能体之间相互影响和环境不稳定的问题。提出了基于模糊推理系统的融合权重分配策略，使性能更好的网络在融合时能做出更大贡献，从而提高算法性能。采用Dueling DQN和优先经验回放技术进一步提高了算法的效率。仿真结果表明，本文算法在收敛速度、最佳性能和对环境的适应性上都有更好的表现。