基于深度强化学习的多智能体防窃听波束成形

2024-11-07 00:00徐浩南林立岚蔡霞
软件工程 2024年11期

摘要:针对多智能体通过无线传感器网络与目标接收器通信时可能遭遇的信息窃取问题,提出了一种创新的多智能体波束成形方法。该方法旨在通过动态调整智能体的分布及传输信号状态,确保接收器能收到高质量的信号,最大限度地避免被潜在的窃听者窃取信息。首先将联合优化问题定义为部分可观测马尔可夫决策过程(POMDP),其次基于深度强化学习算法解决此优化问题。通过引入集中式训练、分布式执行的框架,智能体可以根据局部观测进行协同决策,从而调整全局通信状态。为了验证所提方法的有效性,基于多智能体粒子环境(MPE)设计了仿真环境,并在多个场景下进行了训练及测试,实验结果验证了该方法的有效性。

关键词:多智能体系统;波束成形;防窃听通信;深度强化学习

中图分类号:TP301.6文献标志码:A

0引言(Introduction)

多智能体之间可以通过无线传感器网络(WSN)进行通信[1],无线传感器网络由一些传感器节点组成,这些传感器节点可以通过无线通信进行交互[2]。然而,无线通信存在信号传输距离受限、信道质量有波动和易受到干扰等问题[3],为了解决这些问题,引入了波束成形技术建立传感器与远程设备之间的通信链路[4],通过控制多个智能体发射的信号,可以改变波束的形状。

智能体在与目标接收器通信的过程中,环境中可能存在窃听者试图干扰或窃取敏感信息,因此需要在保证可靠通信的同时,防止信息被窃取。在实际场景中,窃听者的数量未知,并且可能是动态的,这大大降低了无线通信的安全性。为了防止信息被窃听者窃取,同时确保信号可以传输到指定的接收器,智能体需要动态调整自身发射信号的状态(图1)。

针对智能体通信中潜在的信息窃取问题,本文引入了智能体的位置和传感器发射信号的相位偏移作为控制变量。首先将多智能体联合波束成形问题表述为部分可观测马尔可夫决策过程,其次设计了一种基于近端策略优化的算法求解该POMDP。智能体可以根据自身的局部观测结果调整自身行为,进而影响波束成形结果。

1相关工作(Relatedwork)

目前,强化学习被广泛应用于无线传感器网络的波束成形问题。TAN等[5]提出了一种基于深度强化学习的自适应波束成形方案,为实时自适应波束成形提供了一种高效的深度学习模型,可以实时预测产生任意期望辐射图案所需的空间相位配置。受深度强化学习在动态规划问题中展现出的较高解决能力的启发,MISMAR等[6]将波束成形、功率控制和干扰协调的联合优化表述为一个非凸优化问题,利用最大化信号干扰噪声比,并通过深度强化学习解决此问题。然而,在通信过程中可能会受到干扰或存在窃听者试图窃取信息,YU等[7]提出了一种使用人工噪声辅助的安全波束成形系统,发射器将人为干扰信号与有效信息结合进行传输,并对信息和干扰信号的发射功率进行分配,确保信息发送给合法用户的同时,有效防范窃听者。YANG等[8]研究了一种智能反射面辅助的安全无线通信系统,在存在窃听者的复杂环境中,保障了合法用户的安全通信。由于系统高度动态且复杂,因此他们提出了一种基于深度强化学习(DRL)的安全波束成形方法,以实现在动态环境中针对窃听者的最优波束成形策略。XIAO等[9]的研究考虑了一个多输入单输出可见光通信的场景,其中多个灯具充当发射器,一个可见光通信接收器作为合法用户,同时存在一个窃听者试图获取信息。文中提出了一种基于强化学习的可见光通信波束控制方案,该方案旨在通过优化波束成形策略,确保信息在动态环境中能够安全、准确地传输给合法用户,同时有效防止窃听者的信息窃取。

现有的研究没有考虑到环境中存在多个动态窃听者的情况,本文将此优化问题建模为POMDP,通过引入集中式训练、分布式执行的框架,基于近端策略优化(PPO)设计了算法并进行求解。

2系统模型(Systemmodel)

2.1系统描述

系统模型由多个智能体、接收器和窃听者组成,每个智能体携带一个用于发射信号的传感器,并配备一个各向同性的天线,使智能体发出的信号能在各个方向上连续且均匀地传送,从而保证接收器可以接收到一个共同的信息。在该环境中,存在一个或多个动态窃听者试图获取智能体发射的信号。针对该模型提出以下假设。

(1)假设智能体发出信号的反射和散射对最终波束成形结果的影响很小,可以忽略不计。

(2)假设所有智能体均配备相同的传感器用于发射信号,并且受到最大发射功率的限制,即所有智能体以相同的功率发射信号。

(3)每个节点(包括智能体、接收器和窃听者)都有一个与载波频率ω同步的本地振荡器,载波漂移很小。

2.2信噪比计算

设定一个笛卡儿坐标系,智能体分布在坐标系原点周围,接收器在Y轴正方向,窃听者在初始时刻处于坐标系上的一个随机位置。用z、zr和ze分别表示m个智能体、接收器和窃听者的位置。用ρri=‖zr-zi‖和ρei=‖ze-zi‖分别表示智能体i到接收器和窃听者的距离。

假设所有智能体的传感器都发射相同的信号,用As(t)表示,其中A是发射信号的振幅,s(t)是复数正弦波,即s(t)=elωt。使用φi(KT)表示智能体i在时间t∈[KT,(K+1)T]内的相位控制变量,φti表示智能体i发射的传感器信号在t时刻的瞬时相位偏移。在该系统中,所有智能体上传感器发射信号的相位偏移在t=KT时被同时更新,其中T>sπ/ω是一个常数。用τri表示从智能体i到接收器的传播延迟,即τri=ρri/c,ηi为因时钟同步误差而产生的相位偏移。

因此,接收器在时间t∈[KT,(K+1)T]内的综合接收信号是

r(t)=∑[DD(]m[]i=1[DD)]μriAs[JB<1(]t-τri-ηi-φi(K)[JB>1)]+n(t)[JZ)][JY](1)

其中:n(t)表示零均值高斯白噪声,功率为σ2;μri表示从智能体i到接收器因传输距离ρri而产生的信号衰减,即μri=vρ-αri,其中v>0为常数,α为路径损失指数,通常设置为3.7。在不失一般性的情况下,假设高斯白噪声的功率σ2=1。那么接收器接收到的传感器信号的信噪比(SNR)为

由公式(2)和公式(3)可以得出,SNRrec(z,φ)和SNReav(z,φ)都取决于智能体的位置分布和传感器信号的相位偏移,即可以通过智能体的决策决定最终接收器和窃听者接收到信号的信噪比。

2.3优化目标

本文旨在确保接收器能接收到良好信号的前提下,最大限度地避免被动态窃听者窃取信息。由于窃听者会在环境中不断移动,所以为了实现上述目标,智能体需要根据窃听者的位置变化动态地调整自身行为,从而持续降低窃听者接收到的信号质量。考虑到实际需要,施加了以下两项限制。

(1)由于目标是实现远距离的防窃听通信,限制智能体在一定区域内移动,通过调整自身位置和传感器信号的相位偏移改变通信区域。

(2)为了避免智能体碰撞和传感器信号相互干扰,任何两个智能体之间的距离ρij=‖zi-zj‖应始终大于1/4的传输信号波长。

由于期望接收器能够接收到高质量的传输信号,所以研究人员设定了一个信噪比的阈值X,接收器接收到的传感器信号的信噪比必须大于此阈值,以保证信号的可靠传输。在此基础上,通过寻找参数的最佳组合(z,φ)*最小化SNReav。

因此,优化目标可以被表述为

3.1深度强化学习概述

强化学习作为一种先进的机器学习方法,使得智能体可以根据当前自身的策略执行动作,并通过与环境进行交互获得的奖励改进自身策略,其目标是最大化智能体获得的累计奖励。深度强化学习融合了深度学习的特征表示能力和强化学习的决策与控制能力,可以使智能体学习到比人工建模更好的特征表示。

针对多智能体联合波束成形问题,需要对智能体本身的行为进行限制,以及对通信目标进行联合优化。然而,由于环境中存在动态的窃听者,因此对于多个智能体和窃听者的场景进行系统建模极具挑战性。在这种情况下,传统的优化方法难以处理复杂的场景。

3.2POMDP

为了使多智能体联合波束成形问题适用于DRL框架,以下列出了本文建立POMDP的基本要素。

状态:根据建立的系统模型,t时刻的状态包括环境中所有智能体、接收器和窃听者的状态,s(t)={zt,[AKz·D4]t,φt,ztr,SNRtrec,zte,SNRteav},其中zt={zt1,…,ztm}表示环境中智能体的位置,[AKz·D4]t={[AKz·D4]ti,…,[AKz·D4]tm}表示智能体的速度,φt={φt1,…,φtm}表示传感器信号的相位偏移角度。

动作:智能体的行为包括改变移动速度和调整传感器信号的相位偏移,即ai(t)={au,aφ}。

观测:智能体i在t时刻的观测包括智能体本身的状态、周围智能体的状态以及接收器和窃听者的相对位置信息,即oi(t)={zti,[AKz·D4]ti,φti,z〖DD(-1*2〗[HT5]^〖DD)〗t,z〖DD(-1*2〗[HT5]^〖DD)〗tr,z〖DD(-1*2〗[HT5]^〖DD)〗te,φ〖DD(-1*2〗[HT5]^〖DD)〗t}。

奖励:由于优化目标是保证接收器的信号强度大于设定的阈值,[JP2]同时尽量降低窃听者接收的信号强度,因此设置奖励函数Ri(t)=Rrange(t)+Rρ(t)+RSNR(t),其中Rrange(t)=[JP]rrange(t)*wrange为智能体的移动范围限制奖励,Rρ(t)=rρ(t)*wρ[JP2]表示智能体之间的距离限制奖励,RSNR(t)=rrec(t)*wrec+reav(t)*[JP]weav表示传输信号质量奖励,具体描述如下。

智能体移动范围限制:智能体超出限定范围则获得相应惩罚,否则为0。

rrange(t)=[JB({]-1,‖zi‖>D

0,‖zi‖≤D〖JB)〗[JZ)][JY](5)

智能体之间的距离限制:任何两个智能体之间的距离ρij=‖zi-zj‖应始终大于1/4的传输信号波长。

rρ(t)=[JB({]-1,ρij>λ/4

0,ρij≤λ/4〖JB)〗[JZ)][JY](6)

传输信号质量奖励:接收器的信噪比必须大于设定的阈值,由于优化目标是尽量降低窃听者接收到的信号质量,所以将窃听者接收到的传感器信号的信噪比直接作为负奖励项。

rrec(t)=[JB({]-1,SNRrec(z,φ)<X

0,SNRrec(z,φ)≥X〖JB)〗[JZ)][JY](7)

reav(t)=-SNReav(z,φ)[JZ)][JY](8)

3.3基于PPO的算法框架

近端策略优化(PPO)是一种常用的强化学习算法,旨在优化智能体的策略,使其在与环境的交互过程中获得最大的累计奖励。该算法通过在每次更新模型参数时限制新策略与旧策略之间的差异,防止网络更新引起剧烈策略变化,该算法引入了一个截断的代理目标函数,并将其作为优化目标。目标函数的具体形式如下:

多智能体强化学习可以为只具备局部观测的多智能体系统提供分布式的决策,通过引入一个全局的价值函数,将POMDP转化为完全可观测的马尔可夫决策过程(MDP)。本文采用集中式训练分布式执行的框架,分为集中式训练阶段和分布式执行阶段。

在集中式训练阶段,Critic网络基于全局状态信息计算行为价值函数Q(s,a1,…,am|φ),评估智能体的行为,通过最小化损失函数更新参数。

Actor网络根据智能体的局部观测输出智能体的行为,同时根据Critic网络计算的行为价值函数,沿梯度方向更新网络参数θ。

在分布式执行阶段,不使用Critic网络进行评估,每个智能体独立执行一个Actor网络,根据自身的局部观测进行决策。

算法的训练过程包括两个步骤:在经验收集阶段,所有智能体使用同一个策略网络产生的行为与环境交互,并记录采样轨迹,然后计算优势函数和状态价值函数;在策略优化阶段,在经验缓存区中随机采样小批量数据,对策略网络和状态价值网络进行更新。

4.1实验设置

本文基于多智能体粒子世界环境(MPE)构建了一个新的交互场景,用于模拟多智能体的行为及联合波束成形过程。如图2所示,假设环境中存在一个笛卡儿坐标系,智能体初始时随机分布在坐标系原点周围,并被限制在一个给定半径(D=0.8)范围内进行移动,同时随机设定每个智能体传感器信号的初始相位偏移φi∈[0,2π];接收器位于Y轴的正方向,位置坐标为[0,3];窃听者在初始时刻处于智能体附近的一个随机位置,并在环境中不断移动,限制窃听者移动的角度范围为[0,π/4]∪[3π/4,2π]。

使用奖励函数限制智能体的行为,包括智能体的移动范围限制及智能体之间的距离限制;设置移动范围限制奖励权重wrange=30;为完成系统目标,设置接收器信号质量奖励权重wrec=20,窃听者信号质量奖励权重weav=5;此外,为了避免智能体之间发生碰撞以及减少传感器信号的相互干扰,设置距离限制奖励权重wρ=1。在仿真环境中,为了简化计算,研究人员忽略因时钟同步误差而产生的相位偏移,设定v2A2=1,信噪比阈值X=5dB,SNRrec(z,φ)需要大于此阈值,以保证可靠通信。

为了验证本文所提出方法的稳定性,针对该仿真环境,分别在智能体数量增加和窃听者数量增加的情况下,创建了6种不同的仿真场景,智能体数量m为3,4,5,分别对应单个或两个窃听者,如图3所示,a3e1表示3个智能体和1个窃听者的场景。

从图4中各场景下的奖励曲线可以看出,算法在不同场景下均能达到收敛。在智能体数量增加的情况下,由于每个智能体发出的传感器信号幅值相同,导致窃听者也可以接收到相对更强的传感器信号;当窃听者数量增加时,SNReav为环境中所有窃听者接收到的传感器信号的叠加,因此最终达到收敛时,系统获得的奖励均有所降低。从图4中可以看出,窃听者数量对于最终收敛奖励的影响更大。

本文在各场景下模拟了智能体与环境的交互过程,并进行可视化展示,包括智能体的状态及行为决策和窃听者的行为等,为了能直观地表示当前的通信状态,可视化模拟了环境中各个位置接收到传感器信号的信噪比变化。各场景下的波束成形结果如图5所示。

当环境中只有一个窃听者时,增加智能体的数量不会影响最终的波束成形结果,通过调整智能体行为均能实现防窃听通信;当窃听者数量增加时,尽管每个智能体发出的传感器信号幅值不变,这会在一定程度上增强接收器处收到的信号,但同时也增大了信息被窃听的风险。为了解决此问题,可以通过调整传感器信号的强度避免通信被窃听。

5结论(Conclusion)

本文研究了一种防窃听的多智能体波束成形方法。该方法通过结合了多智能体的移动决策和传感器信号的相位控制,实现了动态的防窃听通信。首先建立了系统模型,并提出系统通信目标和防窃听目标的联合优化问题,其次将该问题建模为在智能体行为受限情况下的POMDP。为解决此问题,设计了一种基于PPO的多智能体深度强化学习方法,通过在交互过程中优化智能体的行为策略,使多智能体系统获得最大的累计奖励。本文在多个场景下评估了算法的性能,并进行可视化仿真,实验结果验证了本文所提出方法的有效性。

参考文献(References)

[1][ZK(#]KANDRISD,NAKASC,VOMVASD,etal.Applicationsofwirelesssensornetworks:anup\|to\|datesurvey[J].Appliedsysteminnovation,2020,3(1):14.

[2]孙彬,耿伟涛.无线传感器网络节点覆盖优化策略研究[J].信息与电脑(理论版),2023,35(6):13\|16.

[3]周游,兰天宇.无线通信系统中的智能反射面研究综述[J].信息工程大学学报,2021,22(3):277\|282.

[4]马晓琳,袁全盛,江源,等.面向无人机通信安全的波束成形策略研究[J].现代电子技术,2023,46(19):13\|19.

[5]TANYJ,ZHUC,TANTC,etal.Self\|adaptivedeepreinforcementlearningforTHzbeamformingwithsiliconmetasurfacesin6Gcommunications[J].Opticsexpress,2022,30(15):27763\|27779.

[6]MJPpzVNHzbwxRnuVzye+FqB2Ld7VgAJGoogoM5TuZ57A=ISMARFB,EVANSBL,ALKHATEEBA.Deepreinforcement&nbsp;learningfor5Gnetworks:jointbeamforming,powercontrol,andinterferencecoordination[J].IEEEtransactionsoncommunications,2020,68(3):1581\|1592.

[7]YUH,KIMT,JAFARKHANIH.Wirelesssecurecommunicationwithbeamformingandjammingintime\|varyingwiretapchannels[J].IEEEtransactionsoninformationforensicsandsecurity,2018,13(8):2087\|2100.

[8]YANGHL,XIONGZH,ZHAOJ,etal.Deepreinforcementlearning\|basedintelligentreflectingsurfaceforsecurewirelesscommunications[J].IEEEtransactionsonwirelesscommunications,2021,20(1):375\|388.

[9]XIAOL,SHENGGY,LIUSC,etal.Deepreinforcementlearning\|enabledsecurevisiblelightcommunicationagainsteavesdropping[J].IEEEtransactionsoncommunications,2019,67(10):6994\|7005.