移动边缘计算中基于内容流行度的深度强化学习缓存机制

2022-02-11 09:44王朝炜石玉君于小飞王卫东
无线电通信技术 2022年1期
关键词:效用函数传输速率时延

王朝炜,石玉君,于小飞,王卫东

(1.北京邮电大学 电子工程学院,北京100876;2.通信网信息传输与分发技术重点实验室,河北 石家庄 050081)

0 引言

随着技术的发展和5G的商用,越来越多的新应用对网络时延、带宽和安全性提出了更高的要求。 行业普遍认为,移动边缘计算 (Mobile Edge Computing,MEC)是应对“海量数据、超低时延、数据安全”发展要求的关键[1]。MEC是指将云端的计算能力和网络服务下放到通信网络边缘,即无线接入网中,使用户可以在更邻近的无线接入点(Access Point,AP)获取计算服务[2]。

随着智能手机和可穿戴设备的广泛使用,混合现实(Mixed Reality,MR)给经济、科技、文化、生活等领域带来深刻影响。典型的MR系统由5个关键组件组成:视频源、跟踪器、映射器、对象识别器和渲染器[3],本文只关注渲染模块。MR应用程序的性能会受到有限的MR设备的计算和缓存资源影响。如果将用户预取的渲染环境帧缓存在边缘服务器上,能提高混合现实应用服务质量。

文献[4]提出了一种基于博弈论的算法,首先预估内容的流行度,然后基于松弛方法制定缓存方案以减少延迟。文献[5]讨论了空间网络结构和设备之间通信,并提出了一种缓存方法来降低终端设备的能耗。文献[6]采用启发式 Q-learning预测车辆运动,实现有效的主动缓存策略并提高服务性能。文献[7]结合边缘计算提高面向网络的MR应用的服务质量。文献[8]将计算任务卸载到最近的MEC服务器来延长帮助盲人的MR设备的电池寿命。

本文提出了一种可行的MEC系统模型,针对MEC服务器上有限资源,提出了一种基于内容缓存方案的深度强化学习(Deep Reinforcement Learning,DRL)方法来做缓存决策,并提出一个新的效用函数来衡量缓存方案的性能。

1 系统模型和优化目标函数

图1 MEC场景架构图Fig.1 Network architecture of the MEC scenario

1.1 请求和缓存模型

(1)

(2)

式中,CF_M是 MEC 中缓存内容大小的总和。

用户的请求到达SBS后,先检索MEC服务器缓存的内容。若在MEC服务器中检索到所请求内容,将直接传输给用户;否则,用户请求将被发送到云端,并从MR环境帧提供商检索并发送所需的内容;最后,中心云通过SBS 将内容交付给用户。

1.2 时延和能耗模型

本文系统总时延和能耗由两部分组成:数据检索和数据传输,只考虑MEC服务器所产生的能耗。

(1) 数据检索时延和能耗

用fC和fM分别表示中心云和MEC服务器的处理能力(即CPU每秒钟执行的周期数)。如果用户请求第i个内容,则获取该内容的检索时延可以表示为:

(3)

MEC的内容检索能力表示为Pr_M,由于只考虑 MEC服务器的能耗,则检索能耗表示为:

(4)

(2) 传输时延和能耗

由于请求信息的数据量明显小于请求内容大小,因此本文忽略了上行传输的成本。中心云和SBS采用光纤连接,且光纤数据传输速率表示为Dtrans_C。SB数据传输能力表示为Dtrans_M。假设每个用户获得相同的信道资源,则每个用户的下行数据传输速率为Dtrans_M/K。用Ptrans_M表示SBS的传输功率。如果用户请求第i个内容,则传输时延可以分为两部分:从中心云到SBS和从SBS到用户,记为

Ttrans_i=(1-Ci)·ttrans_i_C+ttrans_i_M,

(5)

Etrans_i=Ptrans_M·ttrans_i_M。

(6)

(3) 时隙t的系统总时延和能耗

(7)

(8)

总的传输延迟和能耗可以表示为:

(9)

(10)

因此,在时隙t的系统总时延和能耗可以表示为:

(11)

(12)

1.3 缓存命中率和效用函数

本文还考虑缓存命中率这一指标。使用hk∈{0,1}表示用户请求的内容是否在MEC服务器缓存空间缓存命中。 如果用户k的请求命中,hk=1,否则hk=0。时隙t的缓存命中率可以表示为:

(13)

然后,基于用于多目标权衡加权求和法[9],定义了时隙t的归一化系统成本,包括时延、能耗和缓存空间资源,表示为:

(14)

ω+φ+μ=1,

(15)

式中,ω、φ、μ是超参数,表示时延、能耗和缓存空间资源的所占比例。Tmax(t)和Emax(t)表示系统在时隙t的最大时延和能耗。

此外,本文定义了一个新的效用函数,即缓存命中率与归一化系统成本之比,效用函数表示为:

(16)

1.4 优化目标函数

令τ表示一个时期的时隙数。由于很多应用更关注一段时间内的体验而不是瞬时体验,因此平均效用函数为:

(17)

优化目标函数为:

(18)

(18a)

(18b)

(18c)

hk∈{0,1},∀k∈K,

(18d)

ω+φ+μ=1。

(18e)

2 基于深度强化学习的缓存策略

2.1 深度强化学习

V(s)=

(19)

(20)

式中,s′表示下一状态。R(s,a) 为在时间τ的期望奖励值,P(s′|s,a) 为在状态s执行动作a到s′的转移概率。最优策略应满足贝尔曼方程:

(21)

采用Q-learning方法解决上述问题,Q函数为:

(22)

在状态s执行动作a后,可以获得折扣累积奖励。 智能体学习如何在每次迭代中选择Q值最大的动作,并在多次迭代后根据最佳解决方案智能地执行动作。公式化(21) 可以表示为:

(23)

设学习率为α,则Q函数表示为:

(24)

然后,收敛到最优动作值函数Qπ*(s,a)。

但是,在更复杂的环境中,状态空间面临维度灾难,RL方法将不再适用。文献[11]引入了DRL方法来解决尺寸爆炸问题。 深度Q网络(Deep Q-network,DQN)是DRL的典型例子,它通过深度神经网络逼近Q函数:Q(s,a)≈Q(s,a;θ),其中θ表示深度神经网络(Deep Neural Networks,DNN)的权重参数。目标Q网络的权重参数需要每周期更新一次(例如Nu步)。通过在每次迭代中最小化损失函数来训练它达到目标值:

Lloss=[(Qtarget-Q(s,a;θ))2]。

(25)

整个训练过程是Q值向目标Q值逼近的过程,目标Q值表示为:

(26)

2.2 马尔可夫决策过程

① 状态:在t时刻的系统状态为当前MEC服务器缓存情况s(t)=[CF1,CF2,…,CFF]。

② 行动:在每个时期,SBS应该决定缓存哪些内容以最大化效用函数。 因此,动作可以表示为Action(t)=[AF1,AF2,…,AFF],其中AFi={0,1}。

③ 奖励:系统会在每个状态返回一个奖励,设为优化目标。由于优化目标是最大化效用函数,将强化学习的奖励定义为U(χ)。

2.3 所提策略的实现

本文提出的基于DRL缓存方案的核心算法为Q-network。输入s(τ)和输出Q(s(τ),a(τ);θ) 之间的映射由神经网络结构决定。使用DNN 逼近非线性函数来实现Q-network。DNN的结构与文献[12]相同,包括3个全连接隐藏层,每层有256、256、512 个神经元。在DNN中,前两个隐藏层的激活函数设置为线性整流函数(Rectify Linear Units,ReLUs),第3个隐藏层函数设置为tanh函数。

此外,利用经验重放训练Q-network以提高方案的稳定性,经验数据(s(τ),a(τ),r(τ),s(τ+1))存储在容量为NB的回放池B中。当存储的经验元组数量大于ND时,从回放池B随机选择NM个经验数据来训练网络。采用ε-贪婪策略选择动作a(τ)来平衡开发和探索。探索率从初始值εs线性下降到最终值εe。基于DRL的缓存方案的详细过程如算法1所示。

算法1 基于DRL的缓存方案初始化系统和网络参数Forepisode=1,2,…,Mdo 初始化初始状态s(0)为随机缓存状态 Forτ=1,2,…,Tdo 基于ε-贪婪策略选择动作a(τ): 获取奖励值r(τ)和下一状态s(τ+1) 储存元组(s(τ),a(τ),r(τ),s(τ+1)) If τ≥ND 从B中随机选取少量样本进行训练 最小化loss函数使梯度下降 更新Q-network参数 每Nu步重置Q-network End ForEnd For

3 仿真实现

本文使用Python进行数值分析来评估所提方案的性能。所有的仿真都是使用在 Pycharm3.7 和 Tensorflow 2.4.0实现的,计算机的配置为:Intel (R) Core (TM) i7-8700 CPU、8 GB RAM。

3.1 模拟设置

在仿真实验中,考虑一个由MR环境帧提供商、中心云、小型基站和MEC服务器组成的小型网络。SBS覆盖区域半径为 200 m,用户服从泊松分布。中心云和 MEC服务器的 CPU 周期频率分别为fC=64 GHz和fM=16 GHz[13]。光纤数据传输速率为Dtrans_C=2 Gbit/s。数据传输速率为Dtrans_M=9.6 Gbit/s。MEC服务器的数据检索功率为Pr_M=2 500 mW。SBS的发射功率为Ptrans_M=20 mW[14]。内容的数据大小在[100,500] Mbit内随机分布。DRL中的相关参数设置如下:学习率α=0.000 1,折扣因子=0.9,初始探索率εs=0.9,结束探索率εs=0.001。假设所请求内容的流行度被建模为Zipf分布[15]。因此,用户请求的第i个内容的流行程度为:表示 Zipf 分布的形状参数,设置为常数值0.56。

本文将所提方案与以下方案进行比较:

① 遗传缓存:通过N代种群遗传、变异、交叉、复制得出问题的最优解。随机生成50对缓存方案作为父染色体,迭代500次,交叉概率和变异概率分别设置为0.7和0.02。

② 贪婪缓存:由于 MEC服务器的缓存内存空间大小限制,缓存尽可能多的流行内容。

③ 随机缓存:随机选择满足MEC服务器缓存内存空间大小限制的缓存方案。

3.2 仿真结果分析

基于DRL的缓存方案算法的收敛性能如图2所示,其中,ω=0.7,φ=0.2,μ=0.1,K=7,CM=1 400 Mbit,F=10。随着迭代次数的增加,损失值逐渐收敛。损失函数在前10 000次迭代中急剧下降,然后在15 000次迭代内基本稳定,因为开始执行的动作对奖励值的影响更显著。

图2 Loss函数Fig.2 Training loss

图3显示了算法的时间复杂度和用户个数的关系,用单步平均运行时间表示时间复杂度。随着用户数目的增加,DRL缓存算法输出层神经元数变多,时间复杂度变大,但仍比其他算法时间复杂度低。

图3 时间复杂度对比Fig.3 Time complexity comparison

图4展示了4种方案在不同MEC服务器缓存内存空间大小的效用函数值。其中,ω=0.7,φ=0.2,μ=0.1,K=7,F=10。DRL缓存算法的效用函数值高于其他3种算法,说明本文提出的缓存方案的性能优于其他3种算法。此外,随着MEC服务器缓存大小的增加,DRL缓存、遗传缓存和贪婪缓存的效用函数值增加,因为MEC服务器有更多的缓存资源,可以缓存更多的内容,提高缓存命中率,时延会减少,但能耗和消耗缓存空间会增加。延迟在归一化系统成本中所占比例最大,故效用函数随着MEC服务器缓存内存空间的增加而增加。

图4 效用函数U(χ)vs MEC服务器缓存空间大小CMFig.4 Utility function U(χ) vs MECs caching size CM

图5显示了相同环境条件下不同用户数量对效用函数的影响。其中,ω=0.7,φ=0.2,μ=0.1,CM=1 400 Mbit,F=10。效用函数随着用户数的增加而逐渐减小。 因为随着用户的增加,分配给每个用户的带宽减少,传输速率降低,时延增加,导致效用函数值降低。此外,随着用户数量的增加,效用函数的降低程度逐渐减小,是因为随着用户数量的增加,传输速率的降低率变得更小。

图5 效用函数U(χ)vs 用户数KFig.5 Utility function U(χ) vs.User number K

图6显示相同环境条件下不同内容数量对效用函数的影响。

图6 效用函数U(χ) vs 内容数目FFig.6 Utility function U(χ) vs.Content number F

图6中,ω=0.7,φ=0.2,μ=0.1,CM=1 400 Mbit,K=7。随着内容数量的增加,整体效用函数值呈现下降趋势。因为随着内容数量的增加,用户请求的目标越来越多,缓存命中率降低,时延增加。效用函数值有起伏,在每种内容数情况下,会随机生成大小不同的内容,当内容总数较小时,相同的MEC服务器缓存内存空间可以缓存更多的内容,以提高命中率,减少时延,增加效用函数值。

4 结束语

本文针对5G混合现实应用中MEC服务器上缓存资源有限的问题,提出一种深度强化学习方法进行缓存决策,并构造一种新的效用函数衡量缓存性能,提高混合现实应用服务质量。详细研究了用户数、内容数、缓存空间大小对效用函数的影响,仿真结果表明,提出的算法与传统遗传和贪婪算法相比,可以用较小的时间复杂度做出更好的缓存决策,并可以改变用户数、内容数、缓存空间大小的权重,满足不同场景的要求,从而提高服务质量。

猜你喜欢
效用函数传输速率时延
5G承载网部署满足uRLLC业务时延要求的研究
三星利用5G毫米波 实现创纪录传输速率
《舍不得星星》特辑:摘颗星星给你呀
基于GCC-nearest时延估计的室内声源定位
基于移动站的转发式地面站设备时延标校方法
夏季滨海湿地互花米草植物甲烷传输研究
供给侧改革的微观基础
数据传输速率
SPCE061A单片机与USB接口