干扰攻击下基于MAPPO的电视频谱资源分配研究

2024-04-28 12:28刘明轩
电视技术 2024年3期
关键词:发射功率时隙吞吐量

赵 越,杨 亮,刘明轩

(福州大学 电气工程与自动化学院,福建 福州 350108)

0 引言

随着通信技术的发展,电视数量指数逐渐增长,有限的电视频谱资源难以满足现阶段的频谱需求。认知无线电(Cognitive Radio,CR)技术可以解决设备增长和频谱利用率低之间的矛盾[1]。此外,许多无线网络设备电池容量小,无法满足设备长时间通信,传统的电池方案不能很好地解决此类问题。射频能量采集(Energy Harvesting,EH)技术可以从周围的射频信号中获取电磁能量,并将其转换成电能存储到电池中,延长电池寿命[2]。因此,基于能量采集的认知无线(Energy Harvesting-Cognitive Radio,EH-CR)网络在现阶段无线通信具有很大的优势和潜力。

但是,EH-CR网络因其具有开放性,容易受到干扰攻击。连续的干扰信号会使信噪比恶化,导致网络通信中断,因此网络资源分配成为一个关键问题。WANG等[3]通过将抗干扰策略建模为马尔可夫博弈,设计了可以避免干扰信号的最佳通信策略,但由于节点的发射功率保持固定,在资源有限的EH-CR网络中实现该策略比较困难。CHANG等[4]研究了分布式网络的动态频谱接入策略,利用递归神经网络和储层计算来实现深度强化学习(Deep Reinforcement Learning,DRL),使次用户(Secondary Users,SUs)根据当前和过去的信道感知结果,独立做出接入信道的决策,但没有考虑受到干扰攻击的情况。本文研究了干扰攻击下EH-CR网络中SUs的联合信道和功率分配策略,旨在最大化SUs的平均吞吐量,同时避免了SUs发射功率保持恒定的缺陷。

1 系统模型

建立一个EH-CR网络通信模型,如图1所示。模型中包含N个主用户(Primary Users,PUs)和1个主用户基站(Primary user Base Station,PBS);M对SUs包含发射机、接收机以及R个恶意用户(Malicious Users,MUs),MUs通过一定的攻击策略干扰SUs的通信。考虑该网络共有N个无线信道,PUs具有信道优先使用权,但只允许在相应的信道上进行传输,PUs信道状态转换遵循两维马尔可夫链。SUs发射机采用混合方式接入空闲频谱,定义SUi为第i个SUs,如果SUi感知到信道n空闲,则以Interwave方式接入,否则以Underlay方式接入。本文假设SUs可以完美感知,用Ii,n∈{0(空闲),1(占用)}表示SUi在t时隙感知到的信道n的状态,Ii,n=0表示PU不存在,信道空闲,Ii,n=1表示PU存在,信道繁忙。则时隙t时SUs的频谱感知集合S(t)={S1(t),S2(t),…,SM(t)},其中Si(t)=[Ii,1,Ii,2,…,Ii,N]。

图1 干扰攻击下EH-CR网络模型

1.1 信道模型

SUj表示第j个SUs,PUn表示第n个PUs,MUr表示第r个MUs,用dii表示SUi发射机和接收机之间的距离,dji表示SUj发射机对SUi接收机的干扰距离,dni和dri分别表示PUn和MUr对SUi接收机的干扰距离,其中i∈{1,2,…,M},j∈{1,2,…,M}且j≠i,n∈{1,2,…,N},r∈{1,2,…,R}。本文采用WINNER II信道模型计算传输过程中的路径损耗[5],同时采用Rician模型推导出信道模型,描述为g=|h|2,因此可以得到gii、gji、gni和gki,它们分别代表SUi、SUj发射机、PUn、MUr与SUi接收机之间的信道增益,则SUs在时隙t的信道增益集合表示为G(t)={G1(t),G2(t),…,GM(t)},其中Gi(t)=[gii,gji,gni,gri]。

1.2 能量模型

每对SUs均具备EH功能,但不能同时在采集和传输状态工作,当前采集到的能量存储到电池中并在后续的时隙使用。在时隙开始阶段,SUi独立感知N个信道,由于频谱资源的限制,每个时隙只能选择一个信道接入且每个信道只允许接入一个SUs,当有多个SUs接入时会造成通讯失败。用fi(t)和Pi(t)分别表示SUi发射机在时隙t选择接入的信道及其功率,设SUi最大接入功率为Pmax,则fi(t)∈(0,N],Pi(t)∈[0,Pmax]。用Hi(t)作为SUi的工作状态指示器,Hi(t)∈{1,0},1表示频谱接入,0表示能量采集。感知结束后,SUi根据观测信息调节接入动作和发射功率,若Pi(t)>0,表示SUi采取接入动作,此时Hi(t)=1;若Pi(t)=0,表示SUi采取能量采集动作,此时Hi(t)=0。

SUs的时隙结构图如图2所示。图2中SUs的单个时隙长度为T,Ts为总时隙数,τ为频谱感知时间,T-τ是数据传输或能量采集所消耗的时间,SUi感知时间τ和消耗的能量eτ是固定的,不存在其他消耗。在工作时,SUs可以从PUs和MUs以及其他SUs处获取射频能量。设PUs的发射功率为Pp,则t时隙SUi采集到的射频能量Ei(t)表示为

图2 SUs的时隙结构图

式中:η是能量转换效率,Pi(t)是SUj的发射功率,N(t)是PUs占用信道数量,Pr(t)是MUr的干扰功率。

在电池更新阶段,只有感知和传输阶段消耗能量。设SUs电池的最大容量为Bmax,Bi(t)表示SUi的电池状态,Bi(t)∈[0,Bmax],则SUs的电池状态集合B(t)={B1(t),B2(t),…,BM(t)}。基于此,可以得到SUi的电池状态更新表达式,即为

1.3 攻击模型

MUr在时隙开始选择一个攻击信道,表示为lr(t),Pr(t)为其干扰功率,Pr(t)∈[0,P jmax],其中P jmax表示最大干扰功率。同时,用Jr(t)=∈{0,1}表示干扰状态,当Jr(t)=0,表示MUr干扰失败,信道上无SUs活动;当Jr(t)=1,表示MUr干扰成功。

本文考虑了2种干扰模式:一是随机干扰,即MUr在时隙开始时随机选择一个信道进行干扰;二是反应扫描干扰。反应扫描干扰在文献[6]中被提出,干扰机在时隙开始时选择空闲信道进行干扰,并观察该信道是否存在SUs活动,若存在则持续干扰直至时隙结束[6]。如果没有检测到SUs的活动,若当前扫描周期结束则会开始新的扫描周期,否则会继续干扰下一个信道直至扫描周期结束。

1.4 问题陈述

基于以上模型分析,将SUi接收机在时隙t接收到的信号与干扰加噪声比(Signal to Interference plus Noise Ratio,SINR)χi(t)的表达式为

式中:Pi(t)是SUi的发射功率,n是噪声功率。

在时隙t处,SUs网络瞬时总吞吐量r(t)可以用采样公式表示,数学表达式为

式中:W是信道带宽。

本文的目的是实现干扰攻击下的SUs的最大平均吞吐量。优化问题可以表示为

式中:第一个条件表示接收机接收到的信号的SINR必须大于最低SINR要求,第二个条件表示电池剩余能量必须不得小于传输消耗的能量,第三个条件表示当PUs占用信道时,SUs的发射功率必须小于阈值Pthreshold,以防止对PUs造成干扰,第四个条件表示SUs之间不能选择同一信道进行传输,以避免冲突,第五个条件表示SUs的信道和功率值不能超过限定范围。

2 干扰攻击下基于多智能体的资源分配

考虑到优化问题之间的耦合关系,本文设计了一种高效、简单的基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的资源分配方法。每个SU都是一个独立的Agent,共同目标是使干扰攻击下SUs的平均吞吐量最大化。这种多Agent任务被称作部分可观测马尔科夫决策(Partially Observable Markov Decision Process,POMDP),由{S,A,O,R,P}五元组构成。其中,S表示环境中的全局状态空间,A={at1,at2,…,atM}表示Agents动作集合,表示Agents观测集合,R={Rt1,Rt2,…,RtM}表示Agents奖励集合,P表示状态转移概率函数。多Agent任务中基本元素的详细解释如下。

第一,Agents。每个SU都是一个Agent,Agents仅根据观测信息独立做出动作决策,与环境进行交互。

第二,状态空间S。S由Agents的频谱感知集合S(t)、信道增益集合G(t)以及电池状态集合B(t)组成,表达式为

第三,局部观测空间oti。oti表示SUi在t时隙的观测空间,由谱感知集合Si(t)、信道增益集合Gi(t)以及自身电池水平Bi(t)组成,表达式为

第四,动作空间ati。Agent根据观测做出信道选择fi(t)和功率分配动作Pi(t),为了符合实际环境和方便,将发射功率平均离散为ζ个等级,即Pi(t)∈[0,Pi,1(t),Pi,2(t),…,Pi,ζ-1(t)],其中Pi,ζ-1(t)=Pmax,则动作空间ati的表达式为

第五,奖励Rti。Rti是衡量Agents在给定状态下采取的动作策略的影响。考虑到式(5)的优化问题,对奖励Rti做出如下设定:当SUi传输成功,Rti=ri(t),即Rti为SUi获得的吞吐量;当SUi遭受攻击时选择工作在能量采集模式,则Rti=C,C为固定常数;当SUi干扰PUs或与其他SUs发生冲突时,Rti=-C;其他情况下,SUi奖励皆为0。

3 基于MAPPO的资源分配设计

MAPPO算法采用Actor-Critic架构,并引入新的裁剪替代函数,避免对目标值进行过度修改,新的裁剪替代损失函数LtCLIP(θ)为[7]

式中:θ为Actor网络的参数,rt(θ)为新策略与旧策略的比值;为泛化优势估计(General Advantage Estimation,GAE),clip(·)是裁剪函数,引入该函数的目的是限制rt(θ),ε为截断因子,ε∈[0,1]。

泛化优势估计用于估计在状态s下采取动作a相对于平均动作的优势,其数学表达式为

式中:δt为t时刻时间差分误差,γ为折扣因子,λ为学习率,δt+1为t+1时刻时间差分误差,δTs-1为Ts-1时刻时间差分误差。

t时刻时间差分误差的数学表达式为

式中:rt为奖励,Vϕ(st+1)是t+1时刻Critic网络的价值函数,Vϕ(st)是t时刻Critic网络的价值函数,表达式为

Critic网络的参数用ϕ表示,Critic网络通过梯度下降方式和损失函数更新,损失函数LtVF(ϕ)的表达式为

式中,y(t)是目标值函数,表示为y(t)=rt+γVϕ(st+1)。

在MAPPO算法中,损失函数将策略代理项和值函数误差项相结合,并使用熵加成来增加探索力度,因此总的目标函数LtCLIP+VF+S(θ)可以描述为

式中,c1和c2均为系数,S[πθ](st)为状态st下策略πθ的熵。

MAPPO框架包含M个Agents,每个Agent执行近端策略优化(Proximal Policy Optimization,PPO)算法,通过可以观测到全局信息的Critic网络来指导Actor网络训练。Actor网络的输入为每个SU的局部观测,输出的是一个与动作空间中每个动作相对应的概率列表,这些概率构成了一个分布,因此可以对动作进行采样。Critic网络可以评估Actor网络采取的行动是否符合预期反馈,在训练完成后得到最优策略,在执行阶段各Agents之间无须进行内部信息交换,也不需要进行随机探索,根据自己的局部观测即可采取最优动作,具体算法流程如下。

初始化:初始化EH-CR网络中所有参数,初始化MAPPO参数,设置学习率lr,初始化经验池D

4 仿真结果与分析

本节验证所提方法的有效性。考虑到EH-CR网络存在10个PUs、10个正交信道、4对SUs以及3个MUs,PUs的状态转换概率为0.6,PUs、SUs、MUs的位置随机分布在200 m×200 m的区域内,SUs的接收机和发射机的距离为40~60 m。本文将SUs发射机功率平均离散化为8个等级,Pmax=24 mW,除特殊说明外,其余模拟参数设置如表2所示。

表2 模拟参数设置

为验证提出的方法在资源分配方面的有效性,将本文方法与文献[4]中的MADQN-RC方法进行对比。在文献[4]中,CHANG等将储层计算引入深度Q网络(Deep Q-Network,DQN)算法,用RC网络代替Q网络,解决梯度消失和爆炸问题。其中,RC网络的神经元数目为256,学习率为0.000 1,激活函数为ReLU(·),使用Adam优化器迭代训练更新网络权重,迭代次数为3 000次。

本文所提MAPPO方法使用Adam优化器迭代训练更新网络权重,Actor和Critic网络学习率设置为0.000 1和0.000 5,截断因子ε=0.2,折扣因子γ=0.9。具体仿真结果如下。

图3为两种方法在随机干扰和反应扫描干扰这两种不同干扰攻击情况下的表现情况,时隙数量Ts=100,Bmax=1 J。在不同情况下,两种方法的平均吞吐量虽然因受到动态环境特征和策略探索的影响而出现波动,但都随着迭代次数的增加而趋于稳定,证明了两种方法的收敛性,本文方法在迭代了1 000次左右进入收敛状态,比文献[4]方法快了2.4倍。这是因为本文方法采用近端策略优化,使得更新步幅更加平稳,有助于网络加速收敛。相比之下,文献[4]方法是基于Q值的更新方法,需要通过Q值的估计来更新策略,会导致训练不稳定和慢收敛。

图3 不同干扰攻击下两种方法的平均吞吐量

由图3可以看出,无论哪种干扰情况,本文方法比文献[4]方法具有更高的平均吞吐量。在随机干扰下,本文方法的平均吞吐量比文献[4]方法提高了62.15%;在反应扫描干扰下,尽管本文方法的平均吞吐量下降了26.19%,但仍比文献[4]方法提高了52.66%。

通过与传统接入模式比较来评估混合频谱接入模式的性能,结果如图4所示。在不存在攻击且算法、时隙和电池容量等相同的情况下,本文采用的模式能够获得最高的吞吐量,比底层模式提高了14.95%,比交织模式提高了34.54%。这是因为在混合频谱接入模式下,当PUs存在时,SUs可以以限定功率接入信道,否则就以高功率接入信道,以此实现最大的频谱利用率,使SUs网络的平均吐量最大。

图4 不同信道接入模式对比(Ts=100、Bmax=1 J)

通过计算平均吞吐量与平均奖励的差值来分析本文提出方法的性能,如图5所示。通过图5可以看出,在算法收敛前差值为正,表明此时处在迭代学习阶段,为了对动作进行充分探索,获取更大的奖励,SUs会通过发生碰撞和干扰PUs的动作而遭受惩罚。在充分探索后,无攻击模式下算法收敛至0,表明获得的奖励即为吞吐量,即SUs彼此可以完美避开且不对PUs产生干扰。若SUs在攻击信道选择能量采集,会获得固定奖励常数,此项是刺激算法能够更好学习未知的干扰模式,因此在随机和反应扫描攻击模型下会出现差值为负的现象。这表明MAPPO算法可以学习到未知干扰模型,在攻击信道选择能量采集,避免遭受干扰攻击。同时,又因为反应扫描比随机攻击的攻击性更强,所以反应扫描攻击的差值小于随机攻击。

图5 平均吞吐量与奖励差值(Ts=100、Bmax=1 J)

5 结语

本文提出了一种干扰攻击下联合信道和功率分配以实现EH-CR网络中SUs用户平均吞吐量最大化的方法。利用马尔科夫决策过程(Markov decision process,MDP)和DRL工具将这个NPhard问题转化为多智能体深度强化学习问题,提出了一种基于MAPPO的联合信道和功率的资源分配方法,并在仿真中使用平均吞吐量和迭代过程来评估所提方法的性能。模拟仿真结果表明,所提方法在随机和反应扫描干扰情况下,可将SUs的平均吞吐量分别提高62.15%和52.66%。

猜你喜欢
发射功率时隙吞吐量
复用段单节点失效造成业务时隙错连处理
放大转发中继器降低发射功率的选择策略研究
浅谈AC在WLAN系统中的应用
2017年3月长三角地区主要港口吞吐量
2016年10月长三角地区主要港口吞吐量
2016年11月长三角地区主要港口吞吐量
基于功率分配最优中继选择的研究
一种高速通信系统动态时隙分配设计
时隙宽度约束下网络零售配送时隙定价研究
基于TDMA的无冲突动态时隙分配算法