闵明慧 张 鹏 朱浩鹏 程志鹏 马 帅李世银* 肖 亮 彭国军
①(中国矿业大学信息与控制工程学院 徐州 221116)
②(武汉大学空天信息安全与可信计算教育部重点实验室 武汉 430072)
③(厦门大学信息学院 厦门 361005)
为推进智慧矿山建设,实现矿山生产自动化、信息化和智能化,需要对矿山物联网中数据密集且时延敏感的计算任务进行及时处理和分析[1]。然而,一般情况下,矿山物联网设备计算、能量和内存资源受限[2]。因此,针对智慧矿山建设需求的高效任务计算卸载方法亟待研究。
移动边缘计算(M ob ile Edge Com pu ting,MEC)技术利用边缘服务器的计算、缓存和能量资源将矿山物联网设备产生的计算任务卸载至边缘端协助处理以降低计算时延和能耗,甚至提高智慧矿山的安全性[3,4]。Porambage等人[5]展开一项全面调查,介绍了M EC技术在不同物联网系统中的应用,并阐明了该技术可改善物联网性能。在工业物联网等场景,可以利用边缘计算技术有效地解决设备终端计算能力不足的问题,在靠近用户的边缘上提供满意的服务质量和灵活的计算资源[6]。采用智能计算卸载框架将单个物联网设备上的计算任务卸载到多个边缘服务器上,并对任务分配以及CPU频率进行联合优化,可最大限度地减少执行延迟和能耗[7]。本工作针对矿山物联网中丰富特殊的计算任务需求[8],如实时检测甲烷浓度的时延敏感型计算任务、采煤工作面高效运行大量感知参数处理的数据密集型任务以及火灾/爆炸警报的生命保障型任务,运用MEC技术实现矿山物联网的高效任务处理和性能优化。
传统物联网系统利用电网供电必然导致大量的碳排放,这不符合节能减排的需求。在智慧矿山生产过程中,挖掘使用能量收集(Energy Harvesting,EH)技术,将井下可再生能源(包括风能[9]、无线射频信号能量[10]和机械能[11]等)作为绿色供电来源,这是响应国家倡导的“碳中和、碳达峰”目标的有效举措,可解决矿用电池不易更换的难题[9],也可极大地提高井下工作生产的安全性。此外,将EH技术运用到边缘计算系统中,有助于实现可持续的任务计算效益。Sun等人[12]提出一种基于差分进化算法的能量收集和任务计算优化方案,该方案不仅优化效率高和能耗低,而且能有效缓解微型设备的能源短缺问题,延长设备的使用寿命。因此,本文采用EH技术辅助矿山物联网设备供电,以提高任务计算效益并延长设备使用寿命。
矿山物联网中井下通信环境相比于地面更加复杂多变,严重的非视距通信场景导致边缘覆盖困难;此外,井下还存在无线信号衰落严重、传输距离受限等突出问题[13]。因此,本文考虑在矿山物联网设备近端布置多个边缘服务器提供视距通信且增强覆盖范围,并设计一对多的矿井MEC网络架构,即由一个矿山物联网设备和M个井下边缘服务器组成的矿井MEC网络。此外,由于井下导致信号衰落的因素复杂多变、移动设备遮挡信号视距传输、多径衰落效应十分严重,目前尚欠缺针对复杂环境的无线通信理论来精确刻画井下通信模型。因此,传统的优化理论无法解决矿井下的计算卸载策略选择问题。本文将矿山物联网设备的计算卸载过程建模为马尔可夫决策过程(M arkov Decision Process,MDP)[14],利用强化学习(Reinforcement Learning,RL)算法可在不了解系统模型的情况下,根据上一个时隙中每条边缘链路的无线信道带宽、预测的EH再生能量和当前物联网设备的电池电量选择计算卸载策略(即选择边缘服务器和计算任务的卸载率)。通过与环境不断交互,矿山物联网设备可自适应复杂环境在动态试错中探索最优的计算卸载策略并获得最优长期效益。
综上所述,本文提出了融合能量收集和强化学习的智能计算卸载机制,建立井下一对多MEC网络模型,对能耗、时延和任务失败等问题进行具体分析。本文首先提出了一种基于RL—Q-learning算法的智能计算卸载机制,矿山物联网设备作为智能体在不能精确获取井下系统模型的情况下动态探索最优计算卸载策略。但是,传统的强化学习技术面临维度灾难问题,当动作状态空间很大时,Q-learning算法的计算效率会大大降低。并且计算卸载率是连续的策略空间,Q-learning算法需先将该策略离散化才可进行学习。因此,本文还提出了一种基于深度确定性策略梯度算法(Deep Determ inistic Policy Gradient,DDPG)的计算卸载机制,可实现在连续空间内选择计算卸载策略,减小离散化误差[15]。再者,利用卷积神经网络解决了维度灾难问题,能够更好地捕获井下环境特征,进一步优化计算卸载策略选择,提升系统性能。仿真结果表明所提机制可减少能量损耗、降低计算时延和任务计算失败率,提高计算卸载效益。
图1给出了由一个矿山物联网设备和M个井下边缘服务器组成的矿井MEC网络架构。矿山物联网设备为井下多种传感设备,如巷道巡检机器人、煤炭采掘机和采煤工人安全头盔等。这些设备将产生的计算任务卸载至边缘服务器以协助任务处理。矿山物联网设备配备了射频能量采集器、风力涡轮机等储能元件和EH组件,利用能量收集技术产生电能。物联网设备既可以在本地处理计算任务,也可以将部分或全部任务卸载至井下边缘服务器。另外,任务处理的最小时间单位为时隙,假设物联网设备在第k个时隙生成R(k)Mbit的计算任务数据量。
图1 矿山物联网中的MEC架构
M个边缘服务器部署在矿山物联网设备可视距通信的范围内。物联网设备至边缘服务器的无线信道链路带宽为B i(k),其中。物联网设备在时隙k内选择信道较好的井下边缘服务器i并将R(k)x(k)M b it计算任务量卸载至该服务器,其中x(k)(0≤x(k)≤1)为 卸载率。具体来说,当x(k)=0时,物联网设备本地处理全部计算任务;当x(k)=1时,设备将所有计算任务卸载到边缘服务器;当0≤x(k)≤1时,该设备将R(k)x(k)M bit数据卸载至井下边缘服务器i,剩余的(1-x(k))R(k)M bit数据在本地处理。于是,矿山物联网设备在时隙k内选择卸载策略a(k)=[i(k),x(k)]∈A,其中A表示所有可能的计算卸载策略集合。
矿山物联网设备的CPU用作本地计算,处理1 M bit数据需要N个CPU周期,则本地计算需要(1-x(k))R(k)N个CPU周期,CPU周期频率为f,用S1=N/f表示本地计算1 M b it数据所需的时间。e0表示物联网设备本地处理1 bit数据消耗的能量。和分别表示本地计算的时延和能耗,表达式为
由于动态复杂矿井环境下的无线信道状态信息难以精确获取,本文将信道带宽B建模成马尔可夫链[16],并用来简化和表征信号传输速率。矿山物联网设备通过带宽为的无线信道,在时隙k内卸载计算任务至边缘服务器i。S2表示井下边缘服务器计算1 M b it数据所需的时间,且有S1≫S2,表明边缘服务器具有更强的计算处理能力。P为物联网设备的发射功率。分别表示任务卸载产生的时延和能耗,表达式为
矿山物联网设备使用EH技术,捕获井下可再生能源(包括风能、无线环境中的射频信号、机械能等)作为绿色供电能源。EH技术配合电池充电,来补给物联网设备计算任务的电量需求。
令时隙k内收集的能量为g(k),且本地计算和计算卸载的总能量损耗为E(k)=()。电池电量表示为b(k),b(k+1)则表示获取EH产能后下一时刻的电池电量,其表达式为
本文以无线信道中的射频信号能量为例对EH过程建模[17],在时隙k内EH产能为
其中,G表示矿山物联网设备上的天线部分和射频能量发射器天线的联合增益;ν ∈(0,1)表示井下再生能源的转换效率,由于井下无线信道条件较差,能源转换效率相对地面场景较低;η(k)表示矿山物联网设备上EH模块的传输功率;d(k)代表在时隙k内EH模块和对应射频能量发射器之间的距离;τ ≥2表示再生能量传输过程中的路径损耗因子。此外,在动态复杂矿井环境下,根据文献[18]中模型评估实际产能g(k)并用马尔可夫链模型表示其产能随时间的变化。
针对矿山物联网中大量且特殊的计算任务需求,并充分考虑矿山特殊通信环境对物联网智能计算卸载的影响,本文构建EH辅助的一对多矿井MEC网络框架,实现矿山物联网的智能计算卸载。此外,为了充分满足矿山物联网应用中特殊任务处理的服务质量需求,本文设计了由任务共享收益、能量损耗、计算时延和任务失败损失共同组成的目标效益函数。再者,考虑到动态复杂矿井环境中的无线通信模型无法精确获取,传统的优化理论无法解决矿井下的计算卸载策略选择问题,研究基于强化学习的动态计算卸载机制,最大化系统的长期折扣累计效益,提升矿山物联网智能计算卸载性能。
由式(7)可见,当I(b(k+1)=0)=0时,矿山物联网设备将计算任务卸载至边缘服务器,可降低资源有限的矿山物联网设备的任务处理负担,得到任务共享收益θ0x(k)R(k)。当I(b(k+1)=0)=1时,计算任务因电量不足而处理失败,无任务共享收益。但是,在这个过程中产生了相应的能量损耗E(k)和计算时延T(k),并且效益函数也由于计算任务处理失败而降低。
矿山物联网设备在状态s(k)下 基于ε-greedy选择计算卸载策略a(k),将计算任务卸载至边缘服务器i,得到效益U(k),并进入下一个状态s(k+1)。Q值Q(s(k),a(k))表示井下MEC系统的每个计算卸载动作-状态对的长期期望折扣效益值,Q值在每个时隙内通过贝尔曼方程完成迭代更新,具体为
其中,学习率α∈(0,1]表示当前Q值所占权重;折扣因子γ∈[0,1]表 示未来效益的衰减。γ越小表示物联网设备越重视当前的效益,而忽略未来长期效益。基于Q-learning的计算卸载机制的核心步骤如算法1所示。
在智慧矿山建设的大背景下,矿山物联网环境更加复杂,使用传统的强化学习如Q-learning算法存在维度灾难。再者,实际的计算卸载策略空间为高维且连续的向量。第3节提出的RLOM机制需要将计算卸载策略离散化,这将不可避免地导致离散化误差,使得最终的学习结果并非真实最优。为了能够解决复杂矿山物联网环境下的维度灾难问题并更好地处理连续计算卸载策略空间的策略选择问题,满足井下计算密集型和时延敏感型任务的快速计算需求,本文提出了一种基于DDPG的计算卸载机制,记为DDRLOM。
DDRLOM机制结合了深度强化学习DQN和Actor-Critic算法来处理矿山物联网设备的高维且连续的计算卸载策略选择问题。该机制采用深度神经网络(Deep Neural Network,DNN)压缩系统的状态空间,解决维度灾难问题[19,20],并且可更好地捕获井下环境特征,进一步优化计算卸载策略选择,提升矿山物联网的任务计算卸载性能。此外,DNN作为非线性拟合器,拟合高维且连续的计算卸载策略与Q值以加快学习速度;然后,利用一个参数化的动作价值函数a(k)=µ(s(k);ξ)进行计算卸载策略选择,提高算法对连续动作空间的处理能力,该动作函数实现给定输入系统状态s(k),输出一个最优的计算卸载策略a(k)。
如图2所示,DDRLOM机制采用Actor-Critic架构体系,包含4个神经网络,即Actor网络和Critic网络;Target Actor网络和Target Critic网络。其中,Actor网络对应网络参数为ξ2将当前系统状态作为输入,输出计算卸载策略,即选择协助计算的边缘服务器和矿山物联网设备的卸载率。为了使模型更有效地更新网络参数和实现优化的收敛效果,增加算法的探索能力,在计算卸载策略选择时增加了OU(Ornstein-Hollenbeck)过程[15]即噪声函数N,加入扰动噪声后的计算策略生成如式(9)
图2 基于DDPG的计算卸载机制(DDRLOM)框架
Critic网络对应网络参数为ξ1,作为价值网络给出逼近状态动作对的值函数Q(s(k),a(k)),从而提供优化的梯度信息,帮助Actor网络采取更好的策略。
算法1 基于Q-learning的计算卸载机制
基于DDPG的计算卸载机制的核心步骤如算法2所示。
本节分析3种典型场景下的静态计算卸载策略,从理论上推导并证明了不同条件下的最优卸载策略选择及其效益函数的理论界,以指导基于RL的计算卸载机制的学习参数设置和环境配置。下述分析中假设计算卸载策略选择和状态更新均在一个时隙内完成,故省略时隙k。
算法2 基于DDPG的计算卸载机制
到最大值,同时获得系统最优性能如式(16)—式(18)所示。证毕
当物联网设备到边缘服务器的无线信道状态一般时,物联网设备本地处理部分计算任务,并将剩余的计算任务卸载给边缘服务器,以权衡能耗和时延,从而使其效益最大化如式(16)所示。此时,能量损耗和计算时延与生成的任务大小R正相关,如式(17)和式(18)所示。
式(28)表明矿山物联网设备的效益值随着B ≥Bm′ax递增,且于i*=arg max1≤i≤M B i达到最大值。由式(28)可知,a*=[i*,1]是该场景下的最佳计算卸载策略,且矿山物联网设备获得最大效益值U(1),同时获得系统最优性能如式(25)—式(27)所示。证毕
若矿山物联网设备与至少一个边缘服务器之间的无线信道状态良好,那么物联网设备将所有计算任务卸载至边缘服务器处理。此时,最佳计算卸载策略为a*=[i*,1],可取得较高的计算任务共享收益;此外,无线信道状态良好时,计算卸载过程中的时延和能耗都较小,如式(26)和式(27)所示。
定理3当矿山物联网设备至无线信道状态最好的边缘服务器i*的信道状态较差,即B i*≤时,
矿山物联网设备将生成的计算任务全部本地处理,即最佳计算卸载策略为a*=[i*,0]。此时,物联网设备的效益、能量损耗和计算时延分别为
式(33)表明矿山物联网设备的效益值在卸载率为0时达到最大值。因此,a*=[i*,0]是矿山物联网设备在该场景下的最佳卸载策略,同时获得系统最优性能如式(30)—式(32)所示。证毕
若无线信道状态较差,即式(3)和式(4)中无线信道带宽B较小(B≤B′′min)时,传输过程中的时延和能耗较大。如式(33)所示,物联网设备将在本地处理所有的计算任务,以避免任务卸载导致过大的任务处理时延和能量消耗。
本节通过仿真验证所提方法的性能优势。仿真中考虑矿井MEC系统包含3个边缘服务器和1个矿山物联网设备。其中矿山物联网设备的EH产能由无线射频能量转换而来,由于井下无线通信环境复杂且信号衰落与地面相比更加严重,井下EH的平均能量转换效率设置为0.3[22]。物联网设备上的电池最大电量为1000 m Ah。边缘服务器的计算能力更强[23],量化体现如下,边缘服务器处理1 M bit数据所需要的时间为0.05m s,而本地设备处理1 M bit数据所需要的时间为0.4 m s。根据防爆标准GB/T 3836.1—2021中无线射频信号的规定[24],设置物联网设备的发射功率为5.5W。
在学习算法中,设置学习率α=0.001、折扣因子γ=0.9。表1列出了DDRLOM机制的超参数设置。我们将能量损耗、计算时延和任务失败率作为边缘计算卸载的各项性能指标,其中任务失败率定义为失败的计算任务占总处理任务的比例。根据式(7)设定权重系数θ0=15,θ1=4,θ2=5,θ3=7。仿真评估选取了DRLO[18]和全本地处理方案Fu ll Local作为对比机制。
表1 DDRLOM机制的超参数设置
图3给出了给定训练回合数下矿山物联网设备采用不同计算卸载机制的收敛性能结果,其中最大回合数为200,每回合最大时隙数为1000。将不同的智能计算卸载机制的收敛性能进行对比,可以看出DDRLOM机制的性能优于RLOM机制。首先,DDRLOM机制相比于RLOM机制具有更快的收敛速度。例如,在相同的学习回合数下,DDRLOM机制基本已经实现收敛,而RLOM机制的效益值仍然呈现逐步上升趋势。这是因为DDRLOM机制通过DNN压缩状态空间来加速学习过程,提高计算卸载性能。此外,DDRLOM机制收敛后的计算卸载效益也明显优于DRLO机制。例如,在第40回合数处,DDRLOM机制的平均效益值比DRLO机制约高24.6%。因为DDRLOM结合了DQN和Actor-Critic架构来处理矿山物联网设备的连续高维计算卸载策略,减小了离散误差,优化了计算卸载策略选择。
图3 不同智能计算卸载机制的收敛性能
图4给出了矿井MEC系统中EH产能对计算任务失败率的影响。可以明显看出,随着EH平均产能的增加,矿山物联网设备的任务失败率显著降低。例如,当平均收集产能从2.00 J增加到3.00 J时,RLOM机制的任务失败率降低了52.5%。当平均收集产能为2.5 J时,DDRLOM机制比DRLO机制的任务失败率约少99.9%。此外,在平均收集产能大于2.75 J时DDRLOM机制的任务失败率几乎达到0。
图4 能量收集产能对计算任务失败率的影响
图5给出了矿井MEC系统中边缘服务器计算能力对计算时延的影响。边缘服务器的处理能力用处理1Mbit所需要的时间S2来 衡量,S2∈[0.001,0.025,0.050,0.075,0.100]。如图5所示,由于Full Local方案将计算任务全部本地处理不受T1的变化而变化,其他机制下矿山物联网设备的计算时延随着T1的降低而减小,且远远小于Fu ll Local方案的时延。例如,当T1从0.1降低到0.001时,DDRLOM机制的计算时延降低57.7%。
图5 边缘服务器计算能力对计算时延的影响
本工作对动态计算卸载中前3000个时隙的平均性能进行了评估,分析了计算卸载性能和总计算任务量的关系。如图6所示,可以明显看出,随着矿山MEC系统中计算任务量的增加,矿山物联网设备的能量损耗、计算时延和任务失败率也在增加。例如,当总计算任务量从4.2 M bit增加到5.8 M bit时,采用Fu ll Local的计算卸载方案平均性能指标增加明显。当计算任务量为5 M bit时,DDRLOM机制相对于DRLO机制,能量损耗约降低14.2%,计算时延约降低7.7%,任务失败率约降低30.9%。可见,针对计算任务需求更强的矿山物联网环境,采用DDRLOM机制可以在保证能耗、时延和任务失败率都增加不多的前提下取得更好的计算卸载性能。
图6 计算卸载的平均性能与计算任务量之间的关系
该文提出一种融合能量收集和强化学习技术的矿山物联网智能计算卸载方法,以应对井下通信环境复杂和设备资源受限的挑战,并提高计算密集和时延敏感任务的计算效率。在不可精确获取井下系统模型的情况下,针对计算能力较弱的矿山物联网设备提出基于复杂度较低的Q-learning算法的RLOM机制,实现动态探索最优计算卸载策略;此外,对于复杂的矿山物联网场景下高维且连续的策略空间问题,该文设计了基于DDPG的智能计算卸载机制DDRLOM,减小了计算卸载策略选择过程中的离散化误差,进一步优化计算卸载策略选择。针对3种典型场景的静态计算卸载策略进行了理论分析,可助于指导基于RL的智能计算卸载机制的学习参数设置和环境配置。仿真结果表明,所提方法可提高任务计算卸载性能,提升矿山物联网的安全性和生产效率。针对复杂受限空间的矿井环境,引入智能超表面辅助井下通信,完善井下无线通信理论并优化智能计算卸载方法是下一步研究工作的重点,为5G助力智慧矿山数字化转型提供有力支撑。