邹超,孙艺夫,朱勇刚,林志,安康
(1.南京信息工程大学电子与信息工程学院,江苏 南京 210044;2.国防科技大学第六十三研究所,江苏 南京 210007;3.国防科技大学电子对抗学院,安徽 合肥 230037)
由于无线信道固有的广播特性和开放性,无线传输极易受到安全威胁,为保护无线通信免受主动干扰和数据拦截窃听,各类无线物理层安全方法,包括跳频通信[1]、功率控制[2]、中继辅助[3]、人工噪声辅助以及空域波束形成[4]等已被提出并得到广泛的应用。但是,跳频通信技术会消耗额外的频谱资源,功率控制方法难以适用干扰功率较大的场景,大规模中继部署可能导致高昂的硬件成本,而发射人工噪声则需要额外的发射功率。
近年来,可重构智能表面(RIS,Reconfigurable Intelligent Surface)被认为是提高无线通信频谱效率和保密性能的重要解决方案[5-9]。具体来说,RIS 由大量无源、低成本的反射元件组成,每个反射元件可以通过编程来改变电磁波的相位、幅度、频率甚至轨道角动量,从而有效地调制无线电信号。因此,从安全通信的角度,RIS 已被广泛用于增强和减弱不同用户处的反射信号,以达到同时消除干扰信号或抑制窃听者信号的效果[10-15]。文献[10]和[11]采用交替优化(AO,Alternating Optimization)算法,共同优化基站(BS,Base Station)的发射波束形成矢量和RIS 的相移矩阵,以实现保密率最大化。为了在保密速率受限的情况下最小化BS 处的发射功率,文献[12]采用了AO 算法和半定规划(SDP,Semidefinite Programming)松弛来解决优化问题。不同于上述完美信道状态信息(CSI,Channel State Information)假设,文献[13]提出了一个考虑级联信道不完全信道状态信息下反窃听最小化发射功率问题 。此外,在文献[14]和[15]中,作者进一步研究了在不完全信道状态信息下,针对恶意干扰和窃听的RIS 辅助安全传输,并提出了一种鲁棒波束形成设计实现联合优化BS 处功率分配/ 主动波束形成矢量以及RIS 处的被动反射波束形成。
此外,受人工智能(AI,Artificial Intelligence)的最新进展启发,许多研究致力于将AI 技术应用于RIS 辅助通信系统[16-20]。文献[16]提出了一种基于深度强化学习(DRL,Deep Reinforcement Learning)的无源相移设计,旨在最大化下行链路的接收信噪比。在文献[17]中研究了RIS 辅助毫米波高铁通信网络中的性能,并提出了一个结合长短期记忆(LSTM,Long Short-Term Memory)和深度确定性策略梯度(DDPG,Deep Deterministic Policy Gradient)的学习框架。仿真结果表明,LSTMDDPG 方案以较短的执行时间实现更高的频谱效率,从而使动态高铁网络的决策成为可能。此外,文献[18]进一步研究了存在多个窃听者的情况下多用户RIS 辅助系统中的安全波束形成策略。值得注意的是,尽管DRL 在解决众多具有挑战性的控制任务方面表现出优势,但由于DRL 应用中使用的深度神经网络(DNN,Deep Neural Network)通常被视为黑盒模型,存在可解释性和安全性方面的不足。因此,在处理敏感的安全问题时,可解释人工智能(XAI,Explainable AI)因其有助于理解和审查模型,或者提取相关问题的知识而引起广泛关注。在XAI领域,决策树(DT,Decision Trees)因其高度透明和简单的模型而引起了广泛研究的关注[21-22]。与仅提供结果的黑盒模型不同,DT 揭示了决策的具体过程。此外,决策树可以通过文本或图形可视化的方式,直接反映出特征值的重要性差异,从而能够向使用者解释潜在的知识。
在复杂电磁环境下通信攻防中,由于双方行为的隐蔽性、动态性和对抗性,攻防行为缺乏完整表现形式,人工智能算法分析得到的决策方案可视化、可解释程度还不高,难以有效地展现,进而被充分的认可。因此,本文研究了基于可解释机器学习的RIS 辅助安全通信方法,其目标是在窃听者存在的情况下,最大化多个用户的可实现速率,同时满足最低保密速率约束条件。其基本思路是,针对难以解决的非凸优化问题首先提出一种基于DRL 的安全波束形成方法,并引入一种创新的级联决策树(CDT,Cascading Decision Tree)方法来生成可解释的策略,以实现针对窃听者的最优波束形成策略,并提高RIS 辅助抗窃听决策的有效性和可信度。
系统模型如图1 所示:
图1 系统模型
基于式(1),第k个用户接收信号的传输速率为:
如果窃听者试图窃听第k个用户的信号,则其可实现的窃听速率为:
因此,第k个用户的保密率表示为:
假设所有信道采用莱斯衰落信道模型,以HBR为例表示为:
其中HBR,Los为确定性LoS 分量,HBR,NLos为快衰落NloS 分量,分量为零均值单位方差的独立同分布的圆对称复高斯随机变量,且K为LoS 路径功率与NloS 路径功率之比[23]。
在上述模型中,基于RIS 的防窃听问题转化为通过优化RIS 相移矩阵在满足RIS 的反射单元约束下最大化系统传输速率。具体地,优化问题可构建为:
DRL 主要由智能体和环境两部分组成。智能体通过与环境的交互接收反馈,不断改进自己的策略,以获得最大的回报。这个学习过程被描述为马尔可夫决策过程(MDP,Markov Decision Process)。经典的强化学习算法,如Q 学习、确定性策略梯度和深度Q 网络(DQN,Deep Q-Network)已被用于研究安全传输策略。然而,Q-学习不能处理连续状态,并且受到巨大维度状态空间的约束。尽管DQN 在许多应用场景中都有很好的效果,但它仍然存在收敛速度慢和估计过高的明显缺点。此外,确定性策略梯度算法的动作空间是一个连续集合,不适用于RIS 单元的离散相移设计。因此,本文采用了PPO算法来应对挑战,如图2 所示,该算法克服了上述算法的局限性,大大提高了可实现性能。
图2 不同莱斯因子下的收敛性能
首先,将优化问题(7) 重新表述为MDP 问题,且相应的MDP 问题中的要素定义如下:
下面提出一种DRL 方法来搜索使奖励(10) 最大化的最优策略。为保证稳定训练过程,以便更可靠地更新策略,带截断的近端策略优化(PPO-Clip,Proximal Policy Optimization with Clip)在目标函数中进行限制,以保证新的参数和旧的参数的差距不会太大,即:
随后使用随机策略梯度(SGD,Stochastic Policy Gradient)最大化目标函数以训练策略网络πw,表示为:
算法1 总结了基于RIS 辅助抗窃听通信中的基于PPO 的相移优化算法。
则每条可能路径的K 维中间特征向量f为:
本节通过仿真结果来评估所提PPO-CDT 算法的性能。仿真结果参数设置如下:BS 的天线数为M=2,用户个数为K=2,RIS 单元数为N=32,用户处和窃听者处的噪声方差为,目标保密速率为算法训练轮数E=1 500,每轮步数为T=20,学习率为l×10-3,奖励折扣系数为截断参数为ε=0.1。决策树深度为D1=D2=3,中间特征维度为L=3。此外,BS 和RIS 分别部署在[0,0,10]、[-2,5,5],用户和窃听者随机分布在高度为1.5 的[0,10]×[0,10]的区域内。
图2 给出了不同的莱斯因子条件下各算法的收敛性能。可以观察到,所提方法显著优于基准方案,即随机反射和多臂赌博机(MAB,Multi-Armed Bandit)。尽管三种方案都独立于CSI,但对其他信息的利用是不同的。随机反射不依赖于任何信息,毫无疑问会达到最差的性能。MAB 假设一个固定的奖励分布,并探索所有臂的奖励分布。然而MAB 无法描述环境状态,也无法建立动作与环境之间的联系。因此,在动态的通信系统中MAB 无法实时地根据当前状态做出最优决策。DRL 定义了一个合适的状态来表示智能体在环境中的位置,并利用PPO 从奖励和状态信息中学习到最优策略来最大化收益。此外,还可以发现,所提方法与基准方案的性能差距随着莱斯因子的增大而增大。
图3 给出了所学习到的决策树结构。可以看出,与参数庞大的DNN 黑盒模型不同,CDT 结构是透明的,可以直接分析。CDT 学习了CSI 和相移矩阵信息作为中间特征的组合来预测,并据此做出相移调整决策。通过分析节点上的参数权重,可以提取问题知识,了解对策略有重大影响的变量和阈值。此外,还可以观察到CDT 的复杂度在很大程度在很大程度上取决于状态和动作的维度。因此,动作设计为相位增量而非直绝对相位调控,大大减小了动作空间维度,从而简化决策树结构提高可解释性。
图3 已学习决策树的结构
图4 给出了测试阶段的决策树实例推理路径。其中,实线表示实际的推理路径,内部节点正方形上的每种颜色代表节点的权重向量值,特征学习树的叶节点根据特征系数着色,决策树的叶节点根据输出分类分布着色。在每一时刻,智能体观察基于RIS 的安全传输环境状态矢量首先经过特征学习树分类学习特征然后传入决策树输出动作概率分布,智能体对其贪婪采样执行安全波束形成策略。
图4 决策树实例路径
本文提出了一种可解释机器学习驱动的RIS 安全通信方法。首先,将原始相移优化问题描述为MDP 框架,并利用PPO 算法实现了RIS 的相位控制。然后,采用CDT 代替DNN 作为策略函数近似器以生成可解释策略。仿真结果表明所提算法在性能上优于基准方案,并验证了生成的决策策略具有良好的可解释性,提高了RIS 辅助抗窃听决策的有效性和可信度,为RIS 辅助无线通信安全提供了参考和思路。