基于DRL的主动RIS安全无线通信优化方法

2023-10-18 23:14:21刘文涛ManzoorAhmed林青

计算机应用研究 2023年9期

刘文涛 Manzoor Ahmed 林青

摘要：针对可重构智能表面（reconfigurable intelligent surface，RIS）辅助的安全无线通信系统在保密率优化问题中存在的信道空间连续变化、传统数学优化方法难以逼近最优解等问题，提出一种基于深度强化学习的SEC-DDPG（security deep deterministic policy gradient）算法。通过将RIS通信系统建模为连续变化空间中的马尔可夫决策过程，联合优化传输波束赋形和反射波束赋形达到最大化用户保密率的目的。仿真实验结果显示，在不同的传输功率及反射单元数量下，SEC-DDPG算法在主动和被动RIS系统中得到的最优保密率均比传统的交替优化算法有15%～20%的提升。研究結果表明，主动RIS场景下的安全性要优于被动RIS，与交替优化算法相比，SEC-DDPG算法能显著提高安全无线通信系统的用户保密率且具有鲁棒性，接近系统的最佳保密性能。

关键词：主动可重构智能表面；深度强化学习；深度确定性策略梯度；波束赋形；乘法衰落；多输入单输出；物理层安全

中图分类号：TN926 文献标志码：A

文章编号：1001-3695（2023）09-039-2808-07

doi：10.19734/j.issn.1001-3695.2023.01.0026

Optimization for active reconfigurable intelligent surface-assisted secure wireless communication based on deep reinforcement learning

Liu Wentao，Manzoor Ahmed，Lin Qing

（College of Computer Science & Technology，Qingdao University，Qingdao Shandong 266071，China）

Abstract：For reconfigurable intelligent surface（RIS）-assisted secure wireless communication systems in the secrecy rate optimization problem，there are problems such as continuous variation of channel space and difficulty in approximating the optimal solution by traditional mathematical optimization methods.This paper proposed a SEC-DDPG（security deep deterministic policy gradient） algorithm based on deep reinforcement learning.By modeling the RIS communication system as a Markovian decision process in a continuously variable space，this algorithm jointly optimized the transmission beamforming and reflection beamfor-ming to maximize the user secrecy rate.The simulation experimental results show that the SEC-DDPG algorithm obtains the optimal secrecy rate in both active and passive RIS systems with 15%～20% improvement over the conventional alternating optimization algorithm for different transmission power and the number of reflective elements.The study results show that the secu-rity in the active RIS scenario is better than that in the passive RIS，and the SEC-DDPG algorithm can significantly improve the user secrecy rate of the secure wireless communication system with robustness and close to the optimal secrecy performance of the system compared with the alternating optimization algorithm.

Key words：active reconfigurable intelligent surface；deep reinforcement learning；deep deterministic policy gradient；beamforming；multiplicative fading；multi input single output；physical layer security

0 引言

随着5G时代的到来，移动端设备的性能不断提升，极大地增大了发射基站的传输负载，如何大幅提高信道容量成为亟待解决的问题。传统无线通信理论中认为无线环境是不可控的，通过优化信号的传输方式带来的性能提升已经很有限，然而智能环境可以通过控制信道中的设备实现信道的重构，进而实现传输性能的大幅提升［1］。其中可重构智能表面（RIS）因其低功耗、易部署、环境友好、兼容性强等特点，尤其是在可重构编程和提高光谱利用率方面的优异表现，相对于传统无线通信中采用的复杂射频链组件具有革命性的优势，成为最有前景的信道增强技术之一［2～4］。

RIS是一种新的无线传输技术，具体来说，是一种可以实现无线环境重复编程的辅助设备，外形上可以理解为一种廉价的智能薄复合材料板，类似于壁纸，可以覆盖墙壁、天花板等建筑物表面［1，5］。RIS中的每个反射单元都能独立地实现输入信号的实时引导，通过调整反射单元的相移可以重新配置所需方向的信号功率，主动改变入射信号来实现控制无线通信环境的目的［6］。根据其能量消耗，RIS可分为主动RIS和被动RIS，RIS的主动或被动性质决定了其最终性能。值得一提的是，由于其固有的可配置属性，RIS不可能是完全被动的［4］。

传统的反射面板配备的只是固定的移相器，尽管在雷达系统、遥感和卫星通信中有广泛应用，但是不能满足用户随机移动产生的动态无线信道，所以很少用于移动无线通信。RIS通过调整所有反射单元的相移，同时提高合法用户的接收信号功率并减轻窃听者的干扰功率，可以抑制干扰以及提高通信安全性。受到该结果的启发，一些研究人员开始深入探索利用RIS增强和优化无线通信系统物理层安全（physical layer security，PLS）的问题［4］。RIS增强的PLS主要通过用户保密率来评价系统的保密性能，一般通过控制信号传输方式或者重构信道来优化用户保密率问题。其中的一个关键问题是，传输和反射波束赋形的联合设计需要基站到窃听者、RIS到窃听者两条链路的信道状态信息（channel state information，CSI），这是相当具有挑战性的工作。RIS的工作模式几乎是被动的，主动RIS也只有很少部分功率用于信号传输，而且在通信环境中，窃听者自身也会通过保持静默来隐藏自己的位置，这些因素导致系统只能探测到空气中的信号，难以完整获取窃听者的CSI。因此，在无法完整获取窃听者CSI的条件下联合设计传输和反射波束赋形是优化用户保密率的关键。

文献［7～9］研究了多输入单输出（multi-input single-output，MISO）系统的PLS问题，借助交替优化（alternating optimization，AO）算法将目标优化问题拆分成多个子问题，通过迭代优化获得用户保密率。文献［10］研究了多用户MISO的PLS通信系统，同时考虑了传输波束赋形、人工噪声以及RIS反射波束赋形三种因素的影响，以最大化加权和保密率；文献［11］介绍了一种基于RIS的PLS通信框架，讨论了系统中的一些环境变量造成的影响。这些方法都是通过分析优化问题的闭式表达式来逼近最优解的数学优化方法，其优化性能过于依赖公式的人工设计和推导，一般难以应对更复杂的实际通信场景。

深度强化学习（deep reinforcement learning，DRL）的蓬勃发展，为RIS的PLS优化问题提供了新的解决方式［12～15］。文献［16］提出了一种DRL框架，通过理想化信道状态信息简化信道系数，用DRL算法优化用户传输速率，避免了信道建模的复杂过程；文献［17］研究了一种存在多个窃听者多个合法用户的PLS通信系统，提出一种基于延时信道的深度Q网络（deep Q-network，DQN）算法，通过将动作空间分割成离散变量来简化智能体与环境的交互过程；文献［18］在文献［17］的基础上研究了一个能抵抗智能恶意干扰、具备高抗干扰通信性能的多用户MISO安全通信系统。这些DRL方法都是通过简化环境建模来实现智能体的交互，没有考虑实际环境中信道系数的变化是一个连续的过程。

上述研究都是基于传统的被动RIS，通常RIS仅作为反射器。随着RIS在无线通信中的研究活动不断开展，被动RIS辅助的通信系统中乘法衰落现象的弊端逐步显现［19，20］。相对于直接链路的信号强度，基站到RIS、RIS到合法用户的双路径相乘造成的路径损失通常是基站到合法用户直接链路的数千倍［19］，反射链路带来的信道增益几乎可以忽略不计。考虑到RIS的增益受限于面积和反射单元个数，这就意味着要给整个系统模型带来有效的信道增益，需要大体积的RIS面板或者大规模的反射单元矩阵，这就无法体现RIS小巧、轻便、容易部署的优点。为了弥补被动RIS的上述缺点，文献［19～22］研究了一种主动RIS，通过在RIS配置主动负载来克服乘法衰落带来的路径损失。实验结果也证明了主动RIS比被动RIS有更高的传输速率，相同的功率预算下，具有更好的信道传输性能，不过研究方法仍旧是采用传统的数学优化算法。

在实际通信环境中，信道系数是随着时间变化的连续函数，RIS中的反射相移也是一个连续的区间［23］。特别是在大规模RIS通信网络中，信道系数和反射相移都是连续变化的空间，传统的优化方法一般会采取对连续变量进行离散化处理的方式来控制优化计算的时间和空间复杂度［24］，但是这样做会损失一些潜在的最优解选择，使得大规模RIS通信网络的安全性能难以达到较高的优化水平。为了解决这一问题，本文受到DRL中深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法的启发，提出一种RIS波束赋形控制算法SEC-DDPG，将信道系数和反射相移建模为连续的状态空间和动作空间，并基于DDPG算法的框架来有效求解连续状态空间和动作空间中最优解搜索问题，从而使得主动RIS无线通信系统的保密率优化达到更高水平。

SEC-DDPG算法的主要特点有：a）信道建模采用主动RIS，克服乘法衰落造成的信道损失，考虑了在物理层提高合法用户保密率；b）在信道建模中考虑了主动RIS负载产生的热噪声，使得主动RIS的信道模型更为准确；c）设计并实现了时间连续的智能体交互环境，使得在时隙连续变化的信道中，能够随着通信环境信道参数的动態变化联合优化传输波束赋形和反射波束赋形。实验结果表明，SEC-DDPG算法在主动RIS场景下能实现更好的保密性能，也证明了DDPG算法比传统数学优化方法中的AO算法具有更高的应用价值。

1 主动RIS安全无线通信问题

1.1 RIS无线通信系统模型

本文中用户保密率优化问题的无线通信系统模型如图1所示，系统由多天线发射基站、主动RIS反射面板、合法用户和窃听者四部分组成。RIS面板位于基站与用户之间，用来增强无线通信的信号，基站服务于周围用户，基站与合法用户之间隐藏着随机分布的窃听者企图窃听数据。假设窃听者只是合法用户不信任的其他用户，窃听者的信道是可知的。整个系统的控制器部署在主动RIS上面，通过控制基站发射功率的传输调节反射单元的反射相移，研究在窃听者的干扰下能否实现合法用户的安全传输［21］。

4 实验结果与分析

4.1 实验系统环境与参数

实验环境中，用户、基站、RIS的位置如图4所示，假设基站天线数M=4，RIS反射单元个数N=16，基站和RIS的功率Pmax=10 dBm、PI=10 dBm。大规模信道衰落的计算公式为PL=PL0-10ε log10（d/d0） dB，其中PL0=-30 dB是参考距离d0=1 m处的路径损失，ε表示路径损失指数，d表示发射端到接收端之间的距离。考虑到RIS能直接沟通基站与用户、用户与窃听者的反射链路中采用莱斯分布来仿真小规模信道衰落，直接链路则服从瑞利分布。RIS主动负载产生的热噪声为σ2I=90 dB，信道环境产生的高斯噪声为σ2u=σ2e=90 dB。为了方便计算，本文采用随机变量来初始化动作w和Ψ，所有反射单元的振幅放大系数值相等，ηn=η，n∈N。其他参数的设置如表1所示。

4.2 实验结果分析

图5展示了SEC-DDPG算法在训练过程中的收敛性能。为了更好地理解本文算法，讨论了基站传输功率Pmax=20 dBm情况下奖励（短期奖励和平均奖励）与时间步长的关系。其中，振幅放大系数为η2=10 dB，主動RIS的最大反射功率为PI=10 dBm，反射单元个数N=16，奖励函数表示用户的保密率。由图5可以看出，奖励随着时间步长step的增加而上升，前2 000 step时奖励值在0～8振荡，随着训练步数的增加，短期奖励逐步收敛，大约6 000 step就能收敛到一个相对稳定的奖励值，最终稳定在10.5左右。结果表明，本文算法能高效地探索环境、累计奖励，获得一个满意的解决方案。

图6、7展示了AO和SEC-DDPG算法在主动RIS或被动RIS参与的场景中，对比两种信道模型下的性能差异。文献［7，20］采用AO算法，通过推导闭式表达式的方式分别研究了被动RIS和主动RIS场景下的用户保密率优化问题，用AO-pass和AO-active表示。本文分别设计了被动RIS和主动RIS两种仿真环境，用SEC-DDPG算法优化用户保密率，分别用SEC-pass和SEC-active表示。

图6展示了四种算法下用户保密率在不同功率下的变化。其中，反射单元个数N=16，RIS面板的反射功率PI=10 dBm，振幅放大系数η2=20 dB。可以看出，相比于被动RIS，主动RIS场景中的两种算法都能大幅提升用户的保密率，本文提出的SEC-DDPG算法提升幅度略高于AO算法。SEC-DDPG算法得到的用户保密率比AO算法高20%左右，这是因为SEC-DDPG通过与环境交互的方式累积最大奖励，能随机探索所有动作，获得一个传输波束赋形和反射波束赋形的最优值，既可以有效抑制窃听者的监听，又能保证用户数据的传输，接近系统的最优性能；而AO算法推导的闭式表达式得到的是一种次优解，性能过度依赖于公式的设计，很难得到最优解。

图7展示了四种算法下用户保密率在不同反射单元个数下的变化。其中，最大传输功率Pmax=20 dBm，RIS面板的反射功率PI=10 dBm，振幅放大系数η2=20 dB。可以看出，主动RIS场景下的两种方案都能获得更高的用户保密率，SEC-DDPG比AO算法的性能高15%左右。在被动RIS场景中，反射单元个数的增加对SEC-DDPG算法的影响略大于AO算法，这是因为反射单元数量会影响神经网络的输入维度，反射单元个数越多，在输入维度占的比重越大，网络输出的动作具有更多的随机性，相比于AO算法固定的闭式表达式更接近问题最优解。图8和9展示了SEC-DDPG算法在主动RIS、被动RIS、无RIS三种场景下用户保密率的变化情况。主动RIS场景下考虑了振幅放大系数为η2=10 dB、η2=20 dB和η2=30 dB三种不同的情况。

图8表示用户保密率与基站最大传输功率的变化关系。可以看出，随着基站传输功率的增加，用户保密率都能按预期增加。与没有RIS的场景下得到的最优解相比，由于乘法衰落效应的影响，被动RIS对保密率的提升程度很有限，仅有10%左右，但采用主动RIS设计的算法由于主动负载的存在，能极大地提升用户的保密率（η2=10 dB时大约30%，η2=20 dB时大约40%，η2=30 dB时大约55%），实现了更好的保密性能。这是因为，主动RIS的主动负载通过增加传输功率、强化信号，有效地削弱了反射信道链路中乘法衰落效应带来的影响。

图9展示了用户保密率与反射单元个数N之间的关系。可以看到，主动RIS和被动RIS场景下的用户保密率都会随着N的增加而变大，这是因为反射单元N的增加会提高通信系统整体信道的传输自由度，也就是说，会有更多的信道来传输数据，所以在RIS辅助的系统中，保密率会随着N的增加而增大。由于乘法衰落效应的影响，主动RIS场景下本文算法获得的保密性能明显大于被动RIS。被动RIS场景下，随着数量N的增加，保密率仅提升了18%左右，小于主动RIS场景下的增幅（η2=10 dB时提升了30%左右）。被动RIS场景下的最大值与主动RIS场景下的最小值相差无几，可以表明，与被动RIS相比，使用主动RIS可以节省更多反射元件，以实现更好的性能增益，从而大大降低RIS的复杂性。

5 结束语

本文研究了基于主动RIS辅助的安全无线通信系统，提出一种基于DRL的SEC-DDPG算法，联合优化传输波束赋形和反射波束赋形以提高系统保密率，通过实验分析了主动RIS对用户保密率的影响以及算法的性能。实验结果表明主动RIS能有效缓解乘法衰落带来的信道损失，弥补被动RIS在直接链路中信道增益不足的缺陷，实现更大的信道增益。相对于传统的AO数学优化算法，所提的SEC-DDPG算法能更有效地提高用户保密率，保证用户数据传输的安全性。下一步的工作是分析多用户下MISO安全无线通信，将算法推广到多用户的场景中，泛化算法的适用性。

参考文献：

［1］Di Renzo M，Zappone A，Debbah M，et al.Smart radio environments empowered by reconfigurable intelligent surfaces：how it works，state of research，and the road ahead［J］.IEEE Journal on Selected Areas in Communications，2020，38（11）：2450-2525.

［2］Pan Cunhua，Ren Hong，Wang Kezhi，et al.Reconfigurable intelligent surfaces for 6G systems：principles，applications，and research directions［J］.IEEE Communications Magazine，2021，59（6）：14-20.

［3］Dai Linglong，Wang Bichai，Wang Min，et al.Reconfigurable intelligent surface-based wireless communications：antenna design，prototyping，and experimental results［J］.IEEE Access，2020，8：45913-45923.

［4］Liu Yuanwei，Liu Xiao，Mu Xidong，et al.Reconfigurable intelligent surfaces：principles and opportunities［J］.IEEE Communications Surveys & Tutorials，2021，23（3）：1546-1577.

［5］Wu Qingqing，Zhang Shuowen，Zheng Beixiong，et al.Intelligent reflecting surface-aided wireless communications：a tutorial［J］.IEEE Trans on Communications，2021，69（5）：3313-3351.

［6］Di Renzo M，Debbah M，Phan-Huy D T，et al.Smart radio environments empowered by reconfigurable AI meta-surfaces：an idea whose time has come［J］.EURASIP Journal on Wireless Communications and Networking，2019，2019（5）：article No.129.

［7］Cui Miao，Zhang Guangchi，Zhang Rui.Secure wireless communication via intelligent reflecting surface［J］.IEEE Wireless Communications Letters，2019，8（5）：1410-1414.

［8］Shen Hong，Xu Wei，Gong Shulei，et al.Secrecy rate maximization for intelligent reflecting surface assisted multi-antenna communications［J］.IEEE Communications Letters，2019，23（9）：1488-1492.

［9］Chu Zheng，Hao Wanming，Xiao Pei，et al.Intelligent reflecting surface aided multi-antenna secure transmission［J］.IEEE Wireless Communications Letters，2020，9（1）：108-112.

［10］Niu Hehao，Chu Zheng，Zhou Fuhui，et al.Weighted sum secrecy rate maximization using intelligent reflecting surface［J］.IEEE Trans on Communications，2021，69（9）：6170-6184.

［11］Chen Jie，Liang Yingchang，Pei Yiyang，et al.Intelligent reflecting surface：a programmable wireless environment for physical layer security［J］.IEEE Access，2019，7：82599-82612.

［12］孟晨陽，郝崇清，李冉，等.基于改进DDPG算法的复杂环境下AGV路径规划方法研究［J］.计算机应用研究，2022，39（3）：681-687.（Meng Chenyang，Hao Chongqing，Li Ran，et al.Research on AGV path planning method in complex environment based on improved DDPG algorithm［J］.Application Research of Computers，2022，39（3）：681-687.）

［13］陈清林，邝祝芳.基于DDPG的边缘计算任务卸载和服务缓存算法［J］.计算机工程，2021，47（10）：26-33.（Chen Qinglin，Kuang Zhufang.Task offloading and service caching algorithm based on DDPG in edge computing［J］.Computer Engineering，2021，47（10）：26-33.）

［14］刘金石，Manzoor A，林青.基于QMix的车辆云计算资源动态分配方法［J］.计算机工程，2022，48（11）：284-290，298.（Liu Jinshi，Manzoor A，Lin Qing.QMix-based method for dynamic resource allocation leveraging vehicular cloudlet computing［J］.Computer Engineering，2022，48（11）：284-290，298.）

［15］邓晖奕，李勇振，尹奇跃.引入通信与探索的多智能体强化学习QMIX算法［J］.计算机应用，2023，43（1）：202-208.（Deng Huiyi，Li Yongzhen，Yin Qiyue.Improved QMIX algorithm from communication and exploration for multi-agent reinforcement learning［J］.Journal of Computer Applications，2023，43（1）：202-208.）

［16］Huang Chongwen，Mo Ronghong，Yuen C.Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning［J］.IEEE Journal on Selected Areas in Communications，2020，38（8）：1839-1850.

［17］Yang Helin，Xiong Zehui，Zhao Jun，et al.Deep reinforcement lear-ning-based intelligent reflecting surface for secure wireless communications［J］.IEEE Trans on Wireless Communications，2021，20（1）：375-388.

［18］Yang Helin，Xiong Zehui，Zhao Jun，et al.Intelligent reflecting surface assisted anti-jamming communications：a fast reinforcement learning approach［J］.IEEE Trans on Wireless Communications，2021，20（3）：1963-1974.

［19］Zhang Zijian，Dai Linglong，Chen Xibi，et al.Active RIS vs.passive RIS：which will prevail in 6G？［J］.IEEE Trans on Communications，2023，71（3）：1707-1725.

［20］Dong Limeng，Wang Huiming，Bai Jiale.Active reconfigurable intelligent surface aided secure transmission［J］.IEEE Trans on Vehicular Technology，2022，71（2）：2181-2186.

［21］Long Ruizhe，Liang Yingchang，Pei Yiyang，et al.Active reconfigurable intelligent surface-aided wireless communications［J］.IEEE Trans on Wireless Communications，2021，20（8）：4962-4975.

［22］You Changsheng，Zhang Rui.Wireless communication aided by intelligent reflecting surface：active or passive？［J］.IEEE Wireless Communications Letters，2021，10（12）：2659-2663.

［23］Song Yizhuo，Khandaker M R A，Tariq F，et al.Truly intelligent reflecting surface-aided secure communication using deep learning［C］//Proc of the 93rd IEEE Vehicular Technology Conference.Piscataway，NJ：IEEE Press，2021：1-6.

［24］Zhu Yu，Bo Zhu，Li Ming，et al.Deep reinforcement learning based joint active and passive beamforming design for RIS-assisted MISO systems［C］//Proc of IEEE Wireless Communications and Networking Conference.Piscataway，NJ：IEEE Press，2022：477-482.

［25］Wu Qingqing，Zhang Rui.Intelligent reflecting surface enhanced wireless network via joint active and passive beamforming［J］.IEEE Trans on Wireless Communications，2019，18（11）：5394-5409.

［26］Yu Xianghao，Xu Dongfang，Sun Ying，et al.Robust and secure wireless communications via intelligent reflecting surfaces［J］.IEEE Journal on Selected Areas in Communications，2020，38（11）：2637-2652.

［27］Watkins C，Dayan P.Q-learning［J］.Machine Learning，1992，8（3）：279-292.

［28］Feng Keming，Wang Qisheng，Li Xiao，et al.Deep reinforcement lear-ning based intelligent reflecting surface optimization for MISO communication systems［J］.IEEE Wireless Communications Letters，2020，9（5）：745-749.

收稿日期：2023-01-27；修回日期：2023-03-15 基金項目：山东省自然科学基金资助项目（ZR2020MF060）

作者简介：刘文涛（1996-），男，山东潍坊人，硕士，主要研究方向为安全无线通信；Manzoor Ahmed（1975-），男（通信作者），巴基斯坦人，副教授，硕导，博士（后），主要研究方向为蜂窝网络安全通信（manzoor.achakzai@gmail.com）；林青（1981-），男，山东泰安人，讲师，博士，主要研究方向为智能交通．

计算机应用研究2023年9期

计算机应用研究的其它文章: 基于样本分布特征的数据投毒防御; 基于改进显著图和局部特征匹配的copy-move窜改检测; 基于Markov微分博弈的移动目标防御决策优化; SM4国密算法的异构可重构计算系统研究; 时空需求下的电动汽车充电设施选址优化模型; 面向依赖关系约束的移动群智感知任务协作