基于深度强化学习的车辆边缘计算任务卸载方法

2023-10-18 08:49:09郭晓东郝思达王丽芳

计算机应用研究 2023年9期

郭晓东郝思达王丽芳

摘要：车辆边缘计算允许车辆将计算任务卸载到边缘服务器，从而满足车辆爆炸式增长的计算资源需求。但是如何进行卸载决策与计算资源分配仍然是亟待解决的关键问题。并且，运动车辆在连续时间内进行任务卸载很少被提及，尤其对车辆任务到达随机性考虑不足。针对上述问题，建立动态车辆边缘计算模型，描述为7状态2动作空间的Markov决策过程，并建立一个分布式深度强化学习模型来解决问题。另外，针对离散—连续混合决策问题导致的效果欠佳，将输入层与一阶决策网络嵌套，提出一种分阶决策的深度强化学习算法。仿真结果表明，所提算法相较于对比算法，在能耗上保持了较低水平，并且在任务完成率、时延和奖励方面都具备明显优势，这为车辆边缘计算中的卸载决策与计算资源分配问题提供了一种有效的解决方案。

关键词：车辆边缘计算；任务卸载；资源分配；深度强化学习

中图分类号：TP393 文献标志码：A

文章编号：1001-3695（2023）09-038-2803-05

doi：10.19734/j.issn.1001-3695.2023.02.0027

Task offloading method based on deep reinforcement learning for vehicular edge computing

Guo Xiaodonga，Hao Sidab，Wang Lifangb

（a.College of Electronic Information Engineering，b.College of Computer Science & Technology，Taiyuan University of Science & Technology，Taiyuan 030024，China）

Abstract：To meet the exploding demand for computational resources in vehicles，offloading computational tasks to edge servers is allowed in vehicular edge computing.But how to make offloading decision and computational resource allocation are still critical issues that need to be addressed.Moreover，task unloading of moving vehicles in continuous time is rarely mentioned，especially the randomness of vehicle task arrival is not considered enough.To address the above problems，this paper

established a dynamic vehicle edge computing model and described this model as a Markov decision process in seven state two action spaces.Then this paper built a distributed deep reinforcement learning model to solve the problem.Furthermore，for the discrete-continuous hybrid decision problem causing poor results，

this paper proposed

a deep reinforcement learning algorithm for split-order decision making，which nested the input layer with the first-order decision network.Simulation results show that the proposed algorithm has significant advantages in terms of task completion rate，time delay，and reward compared to the comparison algorithm by maintaining a lower level of energy consumption.This paper provides an effective solution to the offloading decision and computational resource allocation problem in vehicle edge computing.

Key words：vehicular edge computing（VEC）；task offloading；resource distribution；deep reinforcement learning

0 引言

近年来，随着智能网联车辆的快速发展，车辆的信息化、智能化程度不断提高。与此同时，自动驾驶［1］、增强车辆现实［2］、车载游戏等车载应用和服务不断涌现，对车辆的计算能力提出严苛要求，计算能力不足已成为制约其发展的关键问题。

车辆边缘计算（VEC）［3］被认为是一种很有前景的解决方案。VEC将计算和存储资源放置在距离用户更近的路侧单元（road side unit，RSU），允许车辆将计算任务卸载到边缘服务器，从而实现低时延、低能耗的任务卸载。VEC环境下，车辆配备通信设施可以通过与RSU间的无线连接完成车辆—边缘服务器间的信息传递，形成一种称为车—基础设施（vehicle-to-infrastructure，V2I）［4］的模式。VEC的架构模型与卸载策略是其中的关键问题，吸引了大量学者的关注。Liu等人［3］对VEC的最新研究进行了综述，包括简介、架构、优势与挑战等。模型方面，Tian等人［5］对运动车辆进行建模，并提出一种任务信息已知情况下的KMM算法以減小任务时延。Huang等人［6］将任务按照优先级分为关键应用、高优先级应用和低优先级应用，并研究了一种不同优先级应用下最小化能耗的任务卸载问题。卸载策略方面，可以分为集中式卸载策略与分布式卸载策略。集中式卸载策略由中心节点进行统一调度与管理，具备更优的全局效果，但是车辆高速移动会导致网络拓扑快速变化［7］，从而造成集中式网络不断重构导致时延增加。Hou等人［8］针对非凸和NP难的卸载优化问题，设计了一种容错粒子群优化的启发式算法，以最大化卸载的可靠性。

相比之下，分布式卸載策略由个体根据环境信息单独作出，避免了网络不断重构。深度强化学习（deep reinforcement learning，DRL）是常用的分布式卸载算法，并具备广泛应用。施伟等人［9］提出了一种基于深度强化学习的多机协同空战决策方法，用于提高多机协同对抗场景下的多机协同度；陈佳盼等人［10］综述了深度强化学习算法在机器人操作领域的重要应用；Chen等人［11］研究了卸载决策与资源分配的联合优化问题，并提出一种基于强化学习的任务卸载与资源分配方法以减少延迟和能耗。

以上方法虽然解决了部分VEC环境下的任务卸载问题，但仍存在一些不足。一是模型缺乏对运动车辆在连续时间内的研究，且对车辆任务到达的随机性考虑不足；二是未能充分考虑车辆的高速移动性，及其造成的网络拓扑快速变化［7］。针对以上问题，建立动态车辆边缘计算模型，并建立一个分布式深度强化学习模型来解决问题。本文的主要研究工作如下：

a）构建动态多时隙的车辆边缘计算任务卸载与资源分配模型。针对动态VEC环境下任务卸载与资源分配问题，将连续时间抽象为多时隙模型，并把车辆相关的运动状态、计算资源、计算任务等动态压入时隙队列，构建连续的车辆运动模型、任务模型与计算模型。

b）设计一种基于深度强化学习的分布式任务卸载与资源分配算法。考虑7种状态对卸载决策的联合影响，特别是探讨了任务复杂度和传输距离对卸载策略的交叉影响。将问题描述为7状态2动作空间的Markov决策过程，并建立即时决策的分布式深度强化学习模型来阐述问题。将智能体分布在多个计算节点，通过共享参数和并行化计算来提高训练效率和性能。

c）提出一种分阶决策的深度强化学习算法。针对离散—连续混合决策问题导致的效果欠佳，将输入层与一阶决策网络嵌套，提出一种分阶决策的深度强化学习算法。经实验验证，该算法在时延、能耗、任务完成率等方面都具备明显优势。

4 实验和分析

仿真分析基于Python 3.7.10、NumPy 1.18.5、pyglet 1.5.21、TensorFlow 2.3.0。参考文献［14～16］进行时隙、通信、任务相关实验参数设置；根据能耗限制的不同，车辆端参考IntelTM CoreTM系列CPU进行实验参数设置，服务器端参考Intel Xeon系列CPU进行实验参数设置；将任务复杂程度控制在［50，1 250］ cycles/bit，覆盖复杂计算任务与简单计算任务；单辆车与RSU间的平均数据吞吐量为38.5 Mbps，VEC服务器平均数据吞吐量为770 Mbps；主要参数设置如表2所示。

为了验证本文算法的有效性，参考文献［12，17，18］的实验设计，设计对比实验，并且本地计算、贪婪卸载或随机卸载是共有的；参考文献［19～22］，在VEC任务卸载的强化学习解决方案中，DQN和DDPG被广泛应用。本文对比算法有全部本地计算、采用贪婪卸载、采用DQN算法卸载、采用DDPG算法卸载、采用分阶决策的分布式动态卸载算法（本文算法）。进行多次实验并对所有车辆的结果进行加权和，以下是复现上述方法得到的结果。由图3～6，对总时延、总执行时延、总传输时延、总等待时延进行分析可得：本文算法在总时延方面表现出超过15%的性能优势，这得益于算法显著降低了执行时延和等待时延。

由图7～10，对总能耗、总奖励、car剩余计算资源和VEC剩余计算资源进行分析可得：在能耗方面，本文算法与DQN、贪婪卸载处在同一水平线，且明显低于DDPG算法，而本地计算未能完成任务；在奖励方面，本文算法表现出超过20%的性能优势；在剩余计算资源方面，本文算法、贪婪卸载、DQN对VEC计算资源利用充分，且车辆为即将到来的任务留有一定的计算资源，具备较优的资源配置策略。相比之下，DDPG算法对VEC计算资源利用不充分且对本地计算资源过度依赖。

由图11，对卸载失败任务数进行分析可得：本文算法、DQN、贪婪算法未出现任务卸载失败的情况，而DDPG算法出现少量任务卸载失败，本地计算则出现大量任务卸载失败。

5 结束语

本文旨在研究车辆边缘计算中的卸载决策和计算资源分配问题，特别是针对连续时间内运动车辆随机到达任务的情况进行探讨，这种情况下需要快速、准确地进行卸载决策和计算资源的分配。为了解决这一问题，本文提出了一种基于深度强化学习的车辆边缘计算任务卸载方法。首先，将问题描述为7状态2动作空间的Markov决策过程，建立分布式深度强化学习模型。并且，针对离散—连续混合决策问题导致决策效果较差的问题，将输入层与一阶决策网络嵌套，提出一种分阶决策的深度强化学习算法。经仿真实验分析，本文算法经过训练能够综合当前任务的信息、剩余计算资源、剩余未计算任务数、与边缘服务器距离以及边缘服务器的剩余计算资源来作出较优的即时决策，并具备低时延、低能耗、高任务完成率的优点。

本文为车辆边缘计算、为满足车辆爆炸式增长的计算资源需求提供了一种有效的解决方案。接下来将重点研究多边缘服务器场景下的车辆边缘计算网络，并探索任务卸载与资源分配策略，以期望实现更好地协同计算和负载均衡。

参考文献：

［1］Narayanan S，Chaniotakis E，Antoniou C.Shared autonomous vehicle services：a comprehensive review［J］.Transportation Research Part C：Emerging Technologies，2020，111：255-293.

［2］Pratticò F G，Lamberti F，Cannavò A，et al.Comparing state-of-the-art and emerging augmented reality interfaces for autonomous vehicle-to-pedestrian communication［J］.IEEE Trans on Vehicular Technology，2021，70（2）：1157-1168.

［3］Liu Lei，Chen Chen，Pei Qingqi，et al.Vehicular edge computing and networking：a survey［J］.Mobile Networks and Applications，2021，26（3）：1145-1168.

［4］李智勇，王琦，陳一凡，等.车辆边缘计算环境下任务卸载研究综述［J］.计算机学报，2021，44（5）：963-982.（Li Zhiyong，Wang Qi，Chen Yifan，et al.A survey on task offloading research in vehicular edge computing［J］.Chinese Journal of Computers，2021，44（5）：963-982.）

［5］Tian Shujuan，Deng Xianghong，Chen Pengpeng，et al.A dynamic task offloading algorithm based on greedy matching in vehicle network［J］.Ad hoc Networks，2021，123：102639.

［6］Huang Xinyu，He Lijun，Zhang Wanyue.Vehicle speed aware computing task offloading and resource allocation based on multi-agent reinforcement learning in a vehicular edge computing network［C］//Proc of IEEE International Conference on Edge Computing.Piscataway，NJ：IEEE Press，2020：1-8.

［7］Zhang Yan.Mobile edge computing［M］.Cham：Springer，2022.

［8］Hou Xiangwang，Ren Zhiyuan，Wang Jingjing，et al.Reliable computation offloading for edge-computing-enabled software-defined IoV［J］.IEEE Internet of Things Journal，2020，7（8）：7097-7111.

［9］施伟，冯旸赫，程光权，等.基于深度强化学习的多机协同空战方法研究［J］.自动化学报，2021，47（7）：1610-1623.（Shi Wei，Feng Yanghe，Cheng Guangquan，et al.Research on multi-aircraft cooperative air combat method based on deep reinforcement learning［J］.Acta Automatica Sinica，2021，47（7）：1610-1623.）

［10］陈佳盼，郑敏华.基于深度强化学习的机器人操作行为研究综述［J］.机器人，2022，44（2）：236-256.（Chen Jiapan，Zheng Minhua.A survey of robot manipulation behavior research based on deep reinforcement learning［J］.Robot，2022，44（2）：236-256.）

［11］Chen Xing，Liu Guizhong.Joint optimization of task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge network［C］//Proc of IEEE International Conference on Edge Computing.Piscataway，NJ：IEEE Press，2020：76-82.

［12］张秋平，孙胜，刘敏，等.面向多边缘设备协作的任务卸载和服务缓存在线联合优化机制［J］.计算机研究与发展，2021，58（6）：1318-1339.（Zhang Qiuping，Sun Sheng，Liu Min，et al.Online joint optimization mechanism of task offloading and service caching for multi-edge device collaboration［J］.Journal of Computer Research and Development，2021，58（6）：1318-1339.）

［13］Guo Songtao，Liu Jiadi，Yang Yuanyuan，et al.Energy-efficient dyna-mic computation offloading and cooperative task scheduling in mobile cloud computing［J］.IEEE Trans on Mobile Computing，2018，18（2）：319-333.

［14］Gu Xiaohui，Zhang Guoan.Energy-efficient computation offloading for vehicular edge computing networks［J］.Computer Communications，2021，166：244-253.

［15］田贤忠，许婷，朱娟.一种最小化时延多边缘节点卸载均衡策略研究［J］.小型微型计算机系统，2022，43（6）：1162-1169.（Tian Xianzhong，Xu Ting，Zhu Juan.Research on offloading balance strategy of multiple edge nodes to minimize delay［J］.Journal of Chinese Computer Systems，2022，43（6）：1162-1169.）

［16］Zhu Hongbiao，Wu Qiong，Wu X J，et al.Decentralized power allocation for MIMO-NOMA vehicular edge computing based on deep reinforcement learning［J］.IEEE Internet of Things Journal，2021，9（14）：12770-12782.

［17］許小龙，方子介，齐连永，等.车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法［J］.计算机学报，2021，44（12）：2382-2405.（Xu Xiaolong，Fang ZiJie，Qi Lianyong，et al.A deep reinforcement learning-based distributed service offloading method for edge computing empowered Internet of Vehicles［J］.Chinese Journal of Computers，2021，44（12）：2382-2405.）

［18］Sun Jianan，Gu Qing，Zheng Tao，et al.Joint communication and computing resource allocation in vehicular edge computing［J/OL］.International Journal of Distributed Sensor Networks，2019，15（3）.https：//doi.org/10.1177/1550147719837859.

［19］卢海峰，顾春华，罗飞，等.基于深度强化学习的移动边缘计算任务卸载研究［J］.计算机研究与发展，2020，57（7）：1539-1554.（Lu Haifeng，Gu Chunhua，Luo Fei，et al.Research on task offloading based on deep reinforcement learning in mobile edge computing［J］.Journal of Computer Research and Development，2020，57（7）：1539-1554.）

［20］邝祝芳，陈清林，李林峰，等.基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法［J］.计算机学报，2022，45（4）：812-824.（Kuang Zhufang，Chen Qinglin，Li Linfeng，et al.Multi-user edge computing task offloading scheduling and resource allocation based on deep reinforcement learning［J］.Chinese Journal of Computers，2022，45（4）：812-824.）

［21］Qi Qi，Wang Jingyu，Ma Zhanyu，et al.Knowledge-driven service offloading decision for vehicular edge computing：a deep reinforcement learning approach［J］.IEEE Trans on Vehicular Technology，2019，68（5）：4192-4203.

［22］Qin Zhuoxing，Leng Supeng，Zhou Jihu，et al.Collaborative edge computing and caching in vehicular networks［C］//Proc of IEEE Wireless Communications and Networking Conference.Piscataway，NJ：IEEE Press，2020：1-6.

收稿日期：2023-02-03；修回日期：2023-03-15 基金项目：国家自然科学基金资助项目（61876123）；山西省研究生教育改革项目（2021YJJG238，2021Y697）；太原科技大学博士启动基金资助项目（20212021）；大学生创新创业项目（20210499）

作者简介：郭晓东（1977-），男，山西襄汾人，硕导，博士，主要研究方向为智能计算、边缘智能与协同计算；郝思达（1997-），男，河北晋州人，硕士，主要研究方向为智能计算、车联网、边缘智能与协同计算；王丽芳（1975-），女（通信作者），山西和顺人，副教授，硕导，博士，主要研究方向为智能计算、智能优化控制（wanglifang@tyust.edu.cn）．