基于LSTM及DQN的多用户联合抗干扰决策算法∗

2021-08-28 06:42:16朱佳璐马永涛刘开华

传感技术学报 2021年6期

朱佳璐，马永涛，刘开华

(天津大学微电子学院，天津 300072)

随着无线通信技术的发展，信道环境变得越来越复杂，其中干扰攻击对通信质量造成了严重威胁。近些年有许多关于干扰模式及抗干扰方法的研究[1－5]。针对这种无线通信抗干扰的频谱决策问题，可以利用马尔可夫决策过程(Markov Decision Process，MDP)[6]作为框架进行分析。MDP是一个离散时间随机控制过程，它提供了一个数学框架来建模频谱决策问题，以优化其结果。求解MDP的目标是为所考虑的用户找到最优策略。在抗干扰场景中，它意味着为认知用户找到最佳的信道进行通信，以避免被干扰。但是在存在干扰的无线通信场景下，得出确定的状态转移概率是不可能的，这个问题可以借助机器学习范畴内的强化学习算法来解决。例如，强化学习中经典的q-learning算法[7]。基于q-learning算法，文献[8－9]中Slimeni等人主要研究了单用户场景下的抗干扰问题，随后Aref等人将单用户场景拓展到了多用户场景[10]，同时引入了马尔可夫博弈框架，构建模型中多个用户之间的关系。文献[11]提出了一种联合功率分配和信道选择的决策算法，可以有效解决动态干扰问题。文献[12]提出了一种协同多智能体抗干扰算法(CMAA)以获得最优抗干扰策略，同时考虑了虚警率以及误检率的影响。

随着用户数的增加，对于维度过大的状态空间，传统的强化学习方法难以收敛。传统的强化学习已经与深度学习方法相结合继而解决维度灾难问题。谷歌DeepMind首次提出了将卷积神经网络与qlearning结合在一起的深度强化学习算法，将传统的q-table改进成神经网络形式，根据神经网络拟合出的函数值选择动作。文献[13]提出了进行干扰模式识别后决策的方法，同时还考虑了跳频系统能量的消耗问题。对于无线网络中，动态的频谱接入问题，文献[14－15]主要对单用户场景进行研究。其中文献[15]利用了DQN和Double DQN方法，使得单个用户在复杂干扰条件下可以实现对干扰的规避，实现最优接入策略。文献[16]中考虑了在多信道无线网络中，网络效用最大化的动态频谱接入问题，dueling DQN[17]的引入改善了因连续的不良状态对动作选择的影响。

图1是多用户系统存在干扰影响的场景，用户在多个信道中根据策略选择信道进行通信，避免用户之间冲突以及干扰影响。本文针对该干扰场景，在无需在线协调或用户之间交换信息条件下，提出了一种融合了LSTM[18]和DQN算法的多用户联合抗干扰决策算法(MJADA)，该算法同时考虑用户之间的协调(即减少用户接入同一信道的风险)以及对干扰的规避两方面因素，目标是最大化传输成功率，在多种干扰模式以及用户数目增加的场景下，都能进行有效收敛，得出最优的抗干扰策略。

图1 干扰存在的场景图

1 系统模型

本文中所有用户皆为认知用户。认知用户具有可以进行频谱感知，主动检测信道状态的能力。在一定的区域内，多个认知用户组成了一个认知无线网络。假设信道感知部分是已知的，即每个认知用户都可以感知到所有信道的状态(是否被占用)。

如图2所示，一个时隙中，用户可以进行数据传输、频谱感知[19]及信道选择和学习决策等四个任务。在某个时隙t中，每个认知用户只能选择其中一个信道进行传输。假设接入无线网络中的所有认知用户在每个时隙都有传输任务，但是认知用户可以选择在某时隙不选择信道进行传输。认知用户可以选择的信道集合跟干扰可以占用的信道集合是相同的。

图2 传输时隙结构图

图3为智能体即认知用户与环境的交互过程，在时隙t中，智能体从环境中感知到当前状态s t∈S，其中S为状态空间。根据状态s t，在动作空间A中选择动作a t，根据输入状态动作对(s t，a t)，智能体会收到奖励r t。在下一时隙t＋1，状态s t也会随之转变成新的状态s t＋1。在传输时隙的最后，智能体根据自己收到的奖励来更新策略。智能体的目标就是使自己得到的奖励最大化。在本文构建的模型中，认知用户从环境中感知到的信道状况作为状态信息，认知用户的联合动作空间作为动作信息。

图3 智能体与环境交互过程

本文考虑的认知无线网络中，认知用户集合为N＝{1，2，…，N}，可用信道集合M＝{1，2，…，M}。认知用户数目为N，可用信道的数目为M，其中(N

该场景下的抗干扰问题模型中，任意一个认知用户的动作空间A n＝{0，1，2，…，M}，即用户可以选择信道集合M中任意一条信道进行通信。所有认知用户的联合动作空间为A＝⊗A n(n＝1，2，…，N)，⊗表示笛卡尔积。状态空间S由每个信道的状态来表示。0表示信道被占用，1表示信道处于空闲状态，所以状态空间内有2M种状态。例如，S t＝[0，1，1，1，0，1]表示系统中共有6个信道，在时隙t中信道1和5被占用。认知用户n在时隙t中选择信道进行传输后都会得到一个奖励r n(S t，a n，t)。

式中:a n表示认知用户n选择的动作，a j表示干扰器的动作，a l表示认知用户集合中除用户n以外的任意用户选择的动作。每个用户在一段时间内的累计折扣奖励为:

式中:γ为折扣因子(0<γ<1)，T为整个训练过程的时域。

在这个多用户的模型中某个时隙t的全局奖励为:

目标是经过学习，生成一个可以使每个用户的长期累计奖励最大化的策略。

2 多用户联合抗干扰决策算法

2.1 DQN算法

强化学习基本原理是在智能体与环境不断地交互过程中，根据自身从环境中得到的奖励或者惩罚来改进自己的策略，从而生成最优决策。传统强化学习算法，例如q-learning，智能体是根据状态动作值Q(s，a)来选择动作的。通过不断的迭代，Q(s，a)才会达到收敛。Q(s，a)的更新公式如下:

根据Bellman公式:

式中:α(0<α<1)是学习因子，可以调节更新的Q(s，a)幅度，表示算法的学习速率。一般会把它取为一个较小的接近0的数字。V∗(st＋1)是状态值函数，总是选择当前最大的Q(s，a)值。q-learning将存Q(s，a)存在在一个二维表格q_table中，智能体通过查表的方式获取。当状态空间过大或者动作连续的时候，需要进行降维操作，成本较大。

DQN算法是一种基于q-learning的无模型的强化学习算法。DQN中使用神经网络作为函数逼近器来近似状态动作值函数，即用q(s，a；θi)≈Q(s，a)。其中θi为神经网络的权重参数。q(s，a；θi)即预测q值由神经网络来迭代更新。

DQN网络以最小化q(s，a；θi)的预测误差为目标来进行训练。误差函数可以表示为:

式中:目标q值y i可以表示为:

DQN算法通过梯度下降方法来更新权重并减小目标q值和预测q值之间的预测误差。传统的动作选择原始策略π是总是选择当前时隙最大的Q(s，a)的动作，容易陷入局部最优，这里我们采用ε－贪心策略:

式中:p e为0～1之间的随机数。ε(0<ε<1)为探索概率。该策略以ε的概率在动作空间｜A｜中随机抓取一个动作，避免陷入局部最优。ε为探索概率，1－ε为利用(选择当前最优策略)概率。ε的值越大，利用的概率就越小。算法执行初始阶段，由于状态动作空间较大，探索概率应该取较大的值，随着迭代次数的增加，逐渐策略接近最优，利用概率应该随之增加。本文中为了平衡概探索与利用的关系，ε的值随着迭代次数变化而变化。

式中:εmax，εmin为ε能够取到的的最大值和最小值，ξ表示衰减因子，τ表示当前迭代次数。

为了打破马尔可夫状态下数据之间的相关性，适应神经网络训练不相关的数据的特性，DQN设有经验回放(Experience Replay)功能。将智能体经历过的(s t，r t，a t，s t＋1)数据样本存储起来，在神经网络更新参数的过程中随机抽取部分数据样本加入训练，从而打破数据的关联性。

2.2 LSTM结构

LSTM结构是一种特殊的循环神经网络(Recurrent Neural Network，RNN)结构。RNN可以利用历史信息对序列数据进行处理和预测，LSTM的提出解决了RNN的长期以来存在的梯度消失问题，目前在自然语言处理领域中的应用取得了巨大的进展[20]。LSTM结构组成如图4所示。

图4中的遗忘门决定要丢弃的信息，输入门决定让多少新的信息加入，输出门决定从本LSTM单元输出到下一个单元的数据。遗忘门:

图4 LSTM网络结构及模型展开

输入门:

输出门:

式中:W i，c，o，b i，c，o为三个门的输入权重、输入偏置，x t

为当前时刻t的输入，h t－1为t－1时刻LSTM单元输出，f t为遗忘门输出，C t，～C t为细胞状态和候选值。

LSTM结构用三个门来对输入的数据序列决定保留程度，可以实现通过历史信息对未来进行预测。本文中的抗干扰场景是各个用户无信息交换，所以无法确定其他用户选择了哪个信道。算法中加入LSTM结构，利用历史信息的经验来帮助用户对其他用户的行为进行预估，得出更好的频谱决策策略，减少用户之间的冲突，提升MJADA算法的抗干扰性能。

2.3 MJADA算法

如图5所示，用户n从外界感知到的信道状态以及ACK信号、用户动作等内容构成了输入内容X n(t)。假设一共有L个信道，那么X n(t)为一个的长度为2L＋2的向量。向量中第1位表示用户是否接入信道，1表示用户未选择信道通信，0则相反。第2至L＋1位表示用户在时隙t－1中选择的动作，若用户选择了信道l(1≤l≤L)，那么除了第l＋1位为1，其他L－1个位置都为0。第L＋2至2L＋1位表示用户检测到的外部信道状态，信道被占用置0，信道空闲置1。X n(t)中最后一位为1，则代表用户接收到ACK信号且传输成功。若传输失败或者用户未成功接收到ACK信号则为0。

图5 输入信息结构图

算法伪代码如表1所示。

表1 算法伪代码

3 仿真分析

3.1 仿真条件与场景

在本文实验利用python和MATLAB工具进行系统仿真和实验分析。算法模型中的各种参数根据参考相关文献以及本文场景因素综合决定。本文的干扰场景扫频干扰和随机干扰。扫频干扰是指干扰器在一定的时间段内对各个信道进行周期性的占用。随机干扰是指干扰器随机的选择任意的信道进行占用，无经验规律可循。本文将三种不同的抗干扰决策方法进行了对比。三种方法分别是MJADA、独立DQN算法以及随机策略。其中独立DQN算法为用户都各自使用DQN算法来进行抗干扰决策。

表2 参数设置

3.2 仿真结果

3.2.1 收敛性能分析

算法中的误差函数是目标q值与预测q值的均方差。误差函数的值越小，说明算法收敛的越好。为了比较不同算法的收敛性，我们对不同算法的误差函数曲线进行对比。

图6为扫频干扰场景下MJADA与独立DQN算法的误差函数曲线，为50场仿真的平均结果。从图6可知独立DQN算法收敛速度较快，但是收敛效果较差，MJADA收敛效果较好。以图6最后10000时隙为例，MJADA的平均误差函数值为0.09，相较独立DQN算法的平均误差函数值0.43，收敛效果提升了近五倍。

图6 不同算法误差函数曲线对比图

3.2.2 抗干扰性能分析

本文中的抗干扰性能可以用归一化累计奖励¯Rnormal作为衡量标准。根据式(4)可得:

式中:T为算法迭代次数，随着时隙数增加而增加。Rsum为在某一时隙中，全部用户可以获得最大奖励总和。另一个抗干扰性能评价标准可以定义为成功进行传输任务的次数。

r nt为用户n在时隙t收到的奖励。用户收到奖励为1即为传输成功。那么时隙T内全局传输成功次数为:

在算法收敛阶段对一定时间的传输成功次数进行统计，从而评价频谱决策策略的好坏。

图7为扫频干扰场景下应用不同抗干扰方法的归一化累计奖励曲线。该曲线为50次仿真数据平均。因为随机策略不会从环境信息中进行学习，收敛很迅速但是抗干扰的效果差，归一化累计奖励基本维持在0.5132。独立DQN算法的归一化累计奖励基本上能达到0.7037。MJADA的归一化累计奖励可以达到0.8189。在扫频干扰场景下MJADA的性能相较独立DQN算法提升了约16.4%，相较随机策略提升了约59.6%。

图7 扫频干扰下不同抗干扰方法性能对比

图8为某一次随机干扰下不同抗干扰方法的归一化累计奖励曲线。从图中可以看出，独立DQN方法抗干扰效果最差，最终归一化累计奖励稳定在0.1482。随机策略的归一化累计奖励迅速收敛维持在0.4089。MJADA的归一化累计奖励随着时隙增加逐渐增长，最终达到0.4693。

图8 随机干扰下不同抗干扰方法性能对比

图9为在扫频干扰场景下算法收敛阶段5000个时隙内全局传输成功次数曲线。为了避免偶然性，本图数据为10次仿真数据平均，曲线较为光滑。仿真中两个用户的全局传输成功次数上限为100000。随机策略下的平均全局成功传输概率次数为5597次。应用独立DQN方法基本稳定在7212次。应用MJADA可以达到9645次。在收敛阶段，MJADA性能比起随机策略高出约72.3%，比起独立DQN算法提升33.7%。MJADA在收敛阶段有约3.6%的概率传输失败，这是由于算法根据ε－贪心策略来选择动作，会进行一定概率的探索动作，而非全部选择当前最优策略，在探索的过程中用户就会被干扰或者发生冲突，导致传输失败。

图9 随机干扰下不同抗干扰方法性能对比

图10为10个用户在扫频干扰场景下应用不同抗干扰方法的归一化累计奖励曲线。该场景下共有20个可用信道，共运行1.5×105个时隙。本图数据为10次仿真平均。在该场景下，随机策略的归一化累计奖励基本稳定在0.56左右。而MJADA的归一化累计奖励最后达到约0.81。虽然随着用户数的增加，收敛时间随之增加，但是抗干扰效果仍然优于随机策略。独立DQN算法由于用户间冲突，效果最差，归一化累计奖励收敛在0.24。

本文对不同用户数目在扫频干扰场景下利用不同抗干扰方法进行仿真，对算法收敛阶段的传输成功概率进行了统计。根据式(19)，传输成功概率可表示为P S＝W/NT1。设置T1＝10000。因为用户数目的增加会导致状态空间几何式增长，为了快速遍历所有状态，避免陷入局部最优，重新设置参数εmax＝0.4，εmin＝0.1，仿真结果如表3所示，其中所有的传输成功概率精度为小数点后三位有效数字。

表3 传输成功概率统计表

如表3所示，随机策略传输成功概率均在0.6以下。随着用户数目的增加，独立DQN算法性能大幅下降，而本文提出MJADA算法均能够实现有效的收敛，传输成功概率维持在0.9以上，可以实现良好的抗干扰性能。

4 结语

本文结合了LSTM结构和DQN算法，将其应用到了多用户抗干扰的问题场景中，提出了一种MJADA方法。仿真结果表明，在多用户之间无信息交换的条件下，对于固定模式或以及变化的干扰，该算法均能够有效的收敛，保持着良好的冲突避免及抗干扰效果，相较独立DQN算法以及随机策略，性能均有大幅提升。