何茂霖,多滨,邱吉刚,罗俊松,袁晓军
(1.成都理工大学计算机与网络安全学院,四川 成都 610059;2.电子科技大学通信抗干扰技术全国重点实验室,四川 成都 610059)
随着无线通信技术的不断进步,物联网领域取得了重大进展,与人工智能的联系更加紧密,催生了一系列新兴应用,包括超级自动化、智能物联网和虚拟现实等应用[1]。然而,这些应用通常具备高度的计算需求,会对物联网中广泛分布的终端设备的内置资源产生极大压力,导致不可接受的网络延迟[2]。在这一背景下,移动边缘计算(MEC,Mobile Edge Computing)[3]作为一种前景广阔的解决方案,将计算资源部署在接近终端设备的网络边缘,如接入点(AP)。这一策略有助于减轻终端设备资源负担,同时提高了响应速度并降低了网络延迟[4]。然而,传统的地面MEC 部署方式存在灵活性不足的问题,并容易受到城市环境中的障碍物的影响,从而限制了其有效性。
最近无人机因其具有可控的高机动性,可以克服传统地面MEC 网络部署不灵活的问题,通过这种空中服务器和地面服务器之间的协作,可以显著提高MEC系统的计算能力。在文献[5-7]中,研究者们将边缘服务器安装在UAV(MUAV,MEC server-mounted UAV)上,作为通信和计算中继,以增强MEC 系统的灵活性。文献[5]通过MUAV 与地面MEC 服务器之间的协作,完成了用户计算任务的卸载以及结果回传,并实现了MEC 系统中计算效率的最大化。文献[6]通过联合优化MUAV 辅助的MEC 系统中的无人机轨迹和计算资源分配,通过分布式的算法解决所提出的优化问题,显著提高了系统的能量效率。文献[7]提出了一种全双工的中继协议,以保护MUAV 辅助的MEC 系统中的卸载信息免遭窃听者的攻击。尽管无人机具有高机动性,但是在面对复杂的城市环境时,无线传输会面临严重的信道衰落,极大地制约了MUAV 辅助的MEC系统计算性能。
智能超表面(RIS,Reconfigurable Intelligent Surface)作为一种低成本、易部署的硬件设备,近年来引起了学界和业界的广泛关注[8]。在无线通信网络中,RIS 具有改变恶劣传播环境的特性,将RIS 与无人机辅助的MEC 系统相结合可以有效对抗无线信道衰落对通信的不利影响。文献[9]将RIS 部署在建筑物表面,协助无人机将用户的计算任务卸载到地面AP,通过优化RIS 的被动波束成形以及无人机的卸载决策来最大化用户间的最小计算能力。文献[10]提出了一种搭载RIS 的无人机(RUAV,RISmounted UAV)辅助的MEC 系统,通过无人机轨迹、RIS 无源波束形成和MEC 服务器资源分配的联合设计,实现了系统能效的最大化。文献[11]中考虑借助RUAV将大量计算迁移到移动边缘云,以提高网络服务质量。在上述工作中,通常将复杂的联合优化问题建模为非凸优化问题,再将问题拆分为多个子问题,采用凸优化方法进行求解。但是在面临复杂且动态变换的环境时,凸优化方法往往会产生较高的计算成本且难以在线部署。
深度强化学习方法(DRL,Deep Reinforcement Learning)被广泛认为是一种解决复杂环境中策略控制问题的理想方法[12]。文献[13]研究了一种MUAV 和RUAV 协作的双无人机合作空中计算MEC 系统,提出了一种基于双深度Q 网络(DDQN,Double Deep Q Network)的方案,将系统能效最大化优化转问题转变为离散学习问题。但是,基于DDQN 的算法通常适用于离散的动作空间,而无人机的轨迹和RIS 的相移等是连续变量,在基于DDQN 的算法中将连续变量转变为离散变量会造成一定的精度损失。
为了解决上述问题,本文提出了一种空中智能MEC系统(ASMEC,Aerial Smart Mobile Edge Computing)。在系统中,无人机同时搭载RIS 和MEC 服务器,从指定起点飞向终点,在飞行过程中为区域内合适的用户设备(UE,User Equipment)提供计算卸载服务,无人机在接收到来自UE 的任务后可以决定使用机载MEC 服务器计算或者通过RIS 卸载到远处MEC 服务器处理。为了处理优化问题中状态的复杂性以及动作的连续性,本文提出了一种基于DDPG(Deep Deterministic Policy Gradient)[14]的联合优化方案,将提出的联合优化问题转换为连续学习问题,通过联合优化无人机的轨迹、RIS 的相移、用户调度以及计算卸载策略以最大化MEC 系统的能效。仿真结果表明,本文提出的ASMEC 系统可以有效地利用和分配系统中的计算通信资源,根据实际的计算需求采用最合适的用户调度和计算卸载策略,从而实现系统能效的最大化。
系统模型如图1 所示,由K个UE、远端MEC 服务器以及一架机载RIS 和MEC 服务器的无人机组成,RIS 配备了M=M×My个反射元件,形成一个M=Mx×My的均匀矩形阵列,Mx和My分别为x轴和y轴方向的反射元件数量。其中K个UE 随机分布在目标区域中,第k(k∈{1,2,…,K}) 个UE 和远端MEC 服务器的坐标可以用qk=[xk,yk,0]和qm=[xm,ym,0]表示。由于地面环境复杂,UE 和远端MEC 服务器的通信可能会被阻塞,通过调度无人机为UE 提供边缘计算服务,Dk表示UEk需要被处理的任务量,当UEk的任务被全部处理后将不再请求无人机的服务。假设无人机以固定高度H从UE侧飞向服务器侧,并且将无人机的飞行时间T划分为N个大小相等的时隙,每个时隙的大小为δt,对应的无人机在时隙n(n∈{1,2,…,N}) 的位置可以用三维坐标qu[n]=[xu[n],yu[n],H]表示,q0和qF分别表示无人机的起始位置和最终位置。
图1 系统模型示意图
(1)无人机本地计算。在时隙n中,无人机选择通过机载MEC 服务器处理UE 的任务,即offl[n]=0,offo[n]=1。在本文中,UE 均配备单根天线,无人机采用频分多址协议可以避免UE 之间相互干扰,将总带宽W平均分配给K个子信道,每个信道对应的带宽B=W/K。由于无人机的计算资源有限,在每个时隙中最多可以选择同时为kmax个用户提供服务,定义bk[n]为用户调度变量,bk[n]=1 表示在时隙n中无人机选择为UEk提供服务,且满足约束考虑到无人机的飞行高度较高,将UE 到无人机在时隙n中的信道建模为莱斯(Rician)信道,定义为,如下所示:
其中pk为UEk的发射功率,而σ2表示高斯白噪声的功率。
(2)无人机卸载计算。由于无人机的机载资源有限,可以通过RIS 将UE 的任务卸载到远端MEC 服务器,即offl[n]=1,offo[n]=0。此时UE 到远端MEC 服务器的级联信道由两部分组成,一部分为UE-RIS 链路,另一部分为RIS-MEC 链路,假设这两段信道均遵从莱斯信道模型,分别用表示,其中表示M×N的复数矩阵。因此,可以得到:
在本文的ASMEC 系统中,能量消耗主要由两部分组成,一部分是无人机飞行产生的能量消耗,另一部分是卸载计算产生的能量消耗。对于无人机飞行产生的能量消耗,遵循一种新型的旋翼无人机能耗模型[15],在时隙n中无人机的飞行能耗可以表示为:
其中,式(14) 为用户调度策略的约束;式(15) 为无人机移动速度的约束,vmax为无人机最大的水平移动速度;式(16) 是保证每个UE 的任务都可以完成的约束;式(17)表示无人机和MEC 服务器的计算能力约束,Fu和Fm为无人机和MEC 服务器可以提供的最大CPU 周期;式(18)为RIS 每个反射元件的相移约束。问题(13)是一个非凸的优化问题,采用传统的优化算法将其分解成多个子问题近似求解也需要花费大量的计算资源,并且不能保证得到最优解。考虑到深度强化学习(DRL,Deep Reinforcement Learning)使代理能够从高度动态的环境中学习并做出决策,可以在线部署以解决复杂的控制问题,因此本文开发了一种基于DRL 的算法来解决问题(13)。
DRL 是一种结合深度学习和强化学习的方法,用于解决在智能体(代理)与环境之间互动的任务。在DRL中,智能体通过学习从环境中获取奖励来改进决策策略,能够在不断变化的条件下不断适应和改进策略,以最大化累积奖励。DDPG 是一种用于解决连续动作空间的强化学习问题的算法,它结合了深度神经网络和确定性策略梯度方法。DDPG 广泛用于在连续控制任务中训练深度强化学习代理,如机器人控制、自动驾驶和游戏玩法等。
强化学习问题通常可以基于马尔科夫决策过程(MDP,Markov Decision Process)进行求解,该框架建立了代理学习与目标实现之间的联系。在本文所提出的基于DDPG的联合优化算法中,将问题(13) 表述为一个马尔科夫决策过程,无人机被视为代理,在每个时隙n中观察状态s[n],执行动作a[n],得到奖励r[n],状态空间、动作空间和奖励定义如下:
(1)状态空间s[n]:在时隙n中的系统状态可以表示为,其中xu[n]和yu[n]分别表示UAV 的x轴和y轴坐标,且无人机必须要满足抵达终点的约束,为RIS 的相移。
(2)动作空间a[n]:在本文中,神经网络输出的动作包括无人机的飞行距离d[n]和水平方向角度θ[n],可以按照位移公式计算无人机在下一个时隙中的位置。此外,神经网络还会输出无人机的卸载决策off[n],用户调度决策bk[n]以及RIS 的相移变化Δθ[n]。由此,动作空间可以表示为:
(3)奖励函数r[n]:首先将系统在时隙n中的能效作为奖励的一部分,即为了满足无人机可以到达指定终点的约束,当无人机抵到终点时即可获得奖励Rin,使无人机可以自主学习飞往终点的轨迹。此外当约束(14) 不满足时,即无人机服务的用户数量超过了最大用户数量,会施加惩罚Pk。而当约束(15) 不满足或者无人机飞出了目标区域时设置惩罚Pout。因此在时隙n中可以得到的奖励为:
本文所提出的基于DDPG 的联合优化算法的框架如图2 所示,使用了两个神经网络:Actor 和Critic,这两个网络分别用于确定性策略的学习和值函数的估计,并且均采用了双网络结构,分别创建了两个网络的副本以提高稳定性和收敛性,称作Actor_Target 网络和Critic_Target 网络,使用软更新算法更新目标网络。同时使用经验回放缓冲区来存储之前的状态、动作、奖励和下一个状态,以便在训练过程中能够重复利用这些经验。
图2 基于DDPG的联合优化算法流程图
Actor_Online 网络会根据代理状态信息s[n]输出动作,并采用确定性策略,这个策略是一个从状态到动作的映射,使用DNN(Deep Neural Network)对策略函数进行估计,即a[n]=π(s[n]θπ),π(·) 表示策略函数,θπ为Actor_Online 网络的参数。而Critic_Online 网络则是通过Q值函数来评估Actor 选择动作的好坏,Q值的定义如下:
Q(s[n],a[n]) 表示估计的预期累计奖励,而表示折扣因子。Critic_Online 网络的参数θQ是通过最小化损失函数来实现的,在DDPG 中采用的是均方误差损失,用于衡量估计的Q值与实际Q值之间的差距,损失函数的定义如下:
其中y[n]为实际Q值,由Critic_Target 网络给出,具体计算如下:
而对于Actor_Online 网络参数θπ的更新,采用的是梯度下降的方法,梯度计算方法如下所示:
基于上述设置,本文所提出的基于DDPG 的联合优化算法流程如算法1 所示,且根据文献[16]和[22],计算复杂度可以通过全连接层模型的复杂度表示:其中Fl为全连接层第l层的神经元数量。
本文通过计算机仿真验证所提出算法的性能,软件环境为Python 3.7 以及Tensorflow 框架。假设无人机在1100 m×1100 m 的规定区域内飞行,飞行高度固定为75 m,无人机的起始位置为[1 000,500,75]m,终点位置为[50,500,75]m,MEC 服务器所在位置为[50,500,0]m。共有30 个用户随机分布在规定区域内,用户的计算任务Dk随机生成,且Dk∈(512,1 024]kB[18]。本文其他参数设置如表1 所示:
表1 实验仿真参数
在基于DDPG 的联合优化算法中,Actor 网络和Critic 网络均包括一个输入层、两个隐藏层和一个输出层,组成全连接层模型。输入层的神经元数量与状态维度相同,每个隐藏层包括64 个神经元。输入层和隐藏层采用ReLu 作为激活函数,输出层采用Tanh 作为激活函数,应用AdamOptimizer 训练DNN 的参数。
此外,为了体现所提出的ASMEC 系统的性能的优越性,本文将其与以下基准方案进行比较:
(1)边缘服务器方案[6]:在本方案中,将不携带RIS 的无人机(MUAV)作为MEC 系统的通信和计算中继,UE 可以将自己的任务卸载到MUAV 处理,也可以选择通过RIS 卸载到地面MEC 服务器。
(2)中继方案[10]:在本方案中,将不携带MEC 服务器的无人机(RUAV)作为MEC 系统中的通信中继,UE通过RUAV 将自己的任务卸载到MEC 服务器进行计算。
(3)最短路径方案:在本方案中,不对无人机的轨迹进行优化,无人机从起始位置出发,以恒定速度飞行到最终位置。
图3 展示了不同方案的收敛性,从图中可以看出,在训练开始时奖励呈现负值,这是因为在开始的时候代理可能会采取一些错误的动作,会根据式(19) 施加一些惩罚。而随着迭代过程的持续,在经历大约250 次迭代之后系统奖励趋于稳定,此时经验池已经存满,无人机可以从记忆池中学习最优的RIS 相移、用户调度以及计算卸载策略,得到的奖励值迅速增加。并且可以观察到所提出的ASMEC 方案在训练过程中的累计奖励表现上要优于其他三个基准方案。而最短路径方案由于路径是预先设定的,不会施加惩罚项Pout,因此在训练过程中的累计奖励表现上要优于另外两个基准方案。
图3 不同方案在迭代过程中的累计奖励值
图4 为不同方案下无人机的二维轨迹对比图,在边缘服务器方案和中继方案中的无人机在满足抵达终点位置的前提下,从UE 分布更加稀疏的区域上空飞过,飞行路径更长,需要花费更多的时间处理UE 产生的计算任务,根据仿真结果显示,在边缘服务器方案和中继服务器方案中完成所有UE 的计算任务平均需要413 和421 个时隙,而在最短路径方案中需要498 个时隙。相比之下在ASMEC 方案中的无人机,从初始位置出发,以较快速度向用户密集的区域上空飞行,之后从多个用户之间穿过,能够更好地提供计算卸载服务,最终快速抵达目标位置。ASMEC 方案中的无人机在满足抵达最终位置的约束的前提下,可以通过学习自适应地调节轨迹以更好地满足UE的计算需求,和用户之间保持合适的距离,合理分配计算资源,处理UE 的计算任务平均只需要350 个时隙,实现了系统能效的最大化。
图4 不同方案下无人机的二维轨迹对比图
在图5 中,本文通过累积分布函数(CDF,Cumulative Distribution Function)展示了不同方案下系统能效的对比图。CDF 是一个概率分布函数,它表示在给定能效值x的情况下,各个方案在整个训练过程的能效表现小于这个值的概率F(x)。在给定F(x) 的情况下,x越大则表示该方案的能效性能表现越好。仿真结果表明,最短路径方案中系统能效变化较小且始终低于其他三个方案,这是因为无人机不能合理调整自身轨迹以适应UE 的计算需求。而本文提出的ASMEC 方案随着网络参数的更新,无人机可以学习到最佳的用户调度以及卸载策略,在满足抵达最终位置约束的前提下,无人机可以根据实际计算需求,合理地调整自身轨迹以及RIS 的相移,从而取得最佳的系统能效。相较于边缘服务器方案和中继方案,性能提升了大约20%。由此表明了联合优化RIS 的相移、用户调度以及卸载策略对于最大化系统能效的重要性。
图5 不同方案下系统能效对比图
本文提出了一种新的ASMEC 系统,其中无人机不仅配备RIS 以提升通信性能,还配置边缘服务器以支持计算卸载,从而能够为偏远地区的物联网终端设备提供处理计算任务。本文的目标是通过联合优化无人机的轨迹、用户调度、卸载策略以及RIS 的相移最大化ASMEC 系统的能效。为了解决本文建模的非凸优化问题,提出了一种基于DDPG 的联合优化算法。通过仿真比对与分析,本文提出的ASMEC 系统,要优于以往的MUAV 辅助的MEC 系统和RUAV 辅助的MEC 系统,这种通过RIS 改善无线传输信道,UAV 机载MEC 服务器实现更灵活的计算卸载策略的方式可以极大地改善MEC 系统的能效。