田一博,沈 航,白光伟,王天荆
(南京工业大学 计算机科学与技术学院,南京 211816)
车联网(Internet of Vehicles,IoV)基于车用无线通信技术,将车辆、路边单元(Road-Side-Unit,RSU)、基站和服务提供商连接为一个有机的整体,实现全方信息实时共享[1].车载用户可以获得自动驾驶、路径规划、碰撞预警、车载娱乐、高清地图下载等服务[2].一般而言,车辆搭载的计算设备能力有限.车联网中有许多对延迟敏感的计算任务,若任务被卸载至远端的云服务器,远程传输和处理带来的高延迟对延迟敏感型任务而言是无法接受的[3].移动边缘计算(Mobile Edge Computing,MEC)[4]将数据处理从云端转移到网络边缘设备中,终端设备产生的任务交由边缘设备处理,有效降低传输过程中产生的延迟.车辆大部分时间处于高速移动状态,任务发布在时间和空间上分布不均匀.边缘网络资源有限,很难为车载用户提供稳定的服务质量(Quality-of-Service,QoS)保证[5].车联网用户常同时处于多个基站的覆盖范围内,如何为任务选择最优卸载目的地也是一个挑战性问题.
网络切片[6]是一种对网络架构和服务模式的重要革新技术.通过将物理无线接入网(Radio Access Network,RAN)划分为多个逻辑独立的虚拟网络(即:切片),多个运营商可以共享同一物理网络的资源,从而提升网管灵活度,减少基础设施支出和运营成本.网络功能虚拟化(Network Functions Virtualization,NFV)[7]和软件定义网络(Software-Defined Networking,SDN)[8]是网络切片的支撑技术.在RAN侧,基站功能包括无线接入和处理等,用于创建无线连接并分配资源.在无线NFV中,无线接入等功能以软件实例形式运行在基站上,由一个集中式的控制器进行管理.通过采集终端请求信息,控制器根据QoS需求创建切片并依据网络实时流量或拓扑信息调度网络切片资源.
由于多种类型任务并存,车联网任务卸载对网络切片技术有天然的依赖.RAN切片可以为车载用户不同类型任务的卸载提供差异化的QoS保证[9].然而,边缘网络设备中的频谱和计算资源有限,使得任务卸载策略与切片划分策略呈相互耦合的关系.另一方面,车联网用户常处于高速移动状态,而单个基站的覆盖范围有限,任务难以在延迟要求内处理完成.协同多个基站的资源为同一用户提供服务可以解决这一难题,但车辆与基站的关联(association)选择也成为一项关键且具有挑战性的问题.
针对上述挑战性问题,本文提出面向车联网的RAN切片和任务卸载联合优化框架,目的是在满足车辆应用任务卸载延迟需求的基础上最大化任务完成率.主要贡献包括:
1) 提出一种面向服务的动态RAN切片框架,在大时间尺度上进行资源切片,在小时间尺度上进行任务调度,为不同类型的任务卸载提供差异化QoS保证.基于排队模型,RAN切片和任务卸载联合优化被建模为一个耦合约束和资源约束下的最大化长期任务完成数的联合优化问题.
2) 将联合优化问题进一步解耦为RAN切片和任务调度两个子问题.对于前者,设计一种最优化方法,以切片窗口为周期,为RAN切片分配频谱和计算资源.对于后者,设计基于深度强化学习的算法,解决小时间尺度下的在线任务调度,以适应车辆的高速移动性和均衡基站负载.该算法综合考虑车辆行驶速度和方向,允许任务的接收和处理分别被不同的基站执行.仿真结果表明,相比现有的方案,本文方案可以显著提高资源利用率和任务成果完成率.
本文的剩余部分安排如下:第1节介绍和本文相关的研究工作;第2节对所提出的系统模型进行详细描述;第3节将RAN资源切片和任务调度构建为一个带约束的随机优化问题;第4节将随机优化问题解耦为RAN切片子问题和任务调度子问题,并提出一种基于深度强化学习的调度决策算法;第5节介绍实验的参数设置和仿真结果;最后对全文进行总结,并指出未来的研究方向.
由于车联网场景下的任务常具有高时延敏感性的特性,任务卸载效果在很大程度上依赖车辆-基站关联模式.卢旭等人[10]提出了一种基于云边协同的计算卸载网络模型,通过对服务应用进行分类,设计了一种基于车联网的自适应边缘卸载策略,并提出一种基于多目标免疫算法实现卸载时延、车载终端消耗的多目标优化.朱思峰等人[11]提出异构无线网络下行资源切片框架,为机器类型设备和移动用户设备提供差异化QoS保障.该方案利用迭代优化方法解决资源分配和设备接入选择联合决策问题,旨在最大化网络效用.许小龙等人[12]提出一种“端-边-云”协同的车联网边缘计算系统模型,并针对该模型设计了基于深度学习的分布式服务卸载方法.该方案通过输入网络环境中的系统状态,获取服务的卸载策略.Dai等人[13]研究了一种基于MEC的汽车众包服务场景,通过联合优化卸载决策和带宽资源分配对车辆感知到的交通数据进行调度.该方案设计了一种异步深度Q学习算法确定卸载决策.总体而言,在动态变化的车联网环境下,传统的启发式算法也可以为车载用户提供差异化服务,但取得的效果有限.而深度学习的应用较好地解决了车联网环境多变,任务信息复杂的问题.
RAN切片的资源分配也会影响任务卸载效果.自动驾驶任务往往具有差异化QoS的特性.如果无线电资源的分配无法满足任务传输速率、时延或可靠性的要求,则可能无法实现计算的负载均衡.Omar等人[14]研究了车辆网络协同计算卸载的联合通信和计算时间分配问题,将任务卸载资源、本地任务执行资源和车辆辅助任务迁移资源进行联合优化,以实现任务计算的整体最大可靠性.Xu等人[15]针对计算任务的卸载目的地选择问题,设计了一种适用于边缘计算的自适应计算卸载方法,优化边缘计算系统的任务卸载延迟和资源利用.刘雷等人[16]针对车联网环境下有限的网络资源和大量用户需求之间的矛盾,设计了任务卸载和服务缓存的联合优化机制.利用异步分布式智能优化算法,得到最优卸载决策和资源管理方案.
与低移动性场景下的任务卸载不同,面向车联网的任务卸载需要考虑到用户的高速移动性带来的影响.这驱使本文研究一种深度强化学习辅助的,基于RAN切片的协作式任务卸载方法,在动态变化的网络环境中,找到最优的任务卸载方案,为车辆任务卸载提供差异化的QoS保证.
如图1所示,考虑一个MEC辅助的车联网场景,其中包含地面基站、车辆和基于MEC的控制器.车辆和地面基站的集合分别被表示为{I,J}.控制器和基站通过有线连接.作为边缘网络的计算中心,控制器可以降低车辆获得服务的时延,提高服务效率.在基站覆盖范围内的所有车载任务都可以通过基站卸载到控制器进行调度.控制器根据网络环境实时分配任务,并交由合适的基站处理.基站接收到任务后,按任务的需求,延迟约束等信息为其分配物理资源并进行处理.最后,基站将处理结果传回车辆.
图1 MEC辅助车联网场景Fig.1 MEC assisted internet of vehicles
即使同时处于多个基站的覆盖范围内,车辆在同一时隙也只能关联唯一的基站卸载任务.
本文设计一种面向任务卸载服务的RAN切片框架,采用长短时协同优化机制,以应对网络动态性和任务流量的时空变化.如图2所示,本文考虑两类典型的车联网任务,即:延迟敏感型任务和延迟容忍型任务.前者对应智能汽车内部控制指令[17]等,其延迟约束仅为50ms~1s;后者的典型应用包括车载设备的高清地图下载[18],延迟要求比较宽松.
图2 多时间尺度面向任务卸载的RAN切片框架Fig.2 Multi-timescale task offloading oriented resource management framework
任务类型o=1(o=2)对应延迟敏感(延迟容忍)型任务.每个基站的物理资源(频谱资源和计算资源)被划分为2个面向任务卸载的RAN切片,即切片1和切片2,分别支持延迟敏感型任务和延迟容忍型任务.基站j持有的频谱资源和计算资源分别表示为cj和sj.基站j分配给切片o∈{1,2}的频谱和计算资源数量表示为cj,o和sj,o.
考虑到车流量的时空变化,RAN资源的切分策略需要根据实际情况动态调整.文中探索一种多时间尺度RAN切片框架,以支持具有差异化QoS需求的任务卸载.如图2所示.时间被划分为多个等长的切片窗口,每个切片窗口被划分为等长的调度时隙.切片窗口w包含的调度时隙集合被定义为Tw.在切片窗口开始时,控制器根据收集的历史任务信息制定相应的RAN切片方案.各个基站按照切片方案分配频谱资源和计算资源.然后在小尺度的调度时隙t∈Tw内,即控制器对接收到的任务进行调度;各个基站按照任务调度决策处理任务;基站将任务的处理结果传回车辆;基站将任务的数据上传到控制器中.
基站根据任务类型将同类切片中的资源以正交的形式分配给所关联的车辆.在与基站传输的过程中,车辆受到的干扰只来自其他基站的传输信号.车辆i的发射功率被表示为Pi.基站j的发射功率被表示为Pj.定义σ2为平均背景噪声.若基站j分配给车辆i产生的任务m的带宽为ci,j,m,则车辆i向基站j提交任务m时的上行传输速率被计算为:
(1)
其中,j′代表基站集合中去除j的剩余基站.Gi,j代表车辆i与基站j之间的信道增益,计算参照文献[19].
车辆接收基站的回传结果时,同样只受到来自其他基站的干扰.因此,从基站j回传任务m到车辆i的下行传输速率为:
(2)
针对车辆的高速移动性,本文设计一种协作式的任务调度框架.从图3可以看出,任务调度不再依赖单个基站,而是允许任务的卸载与处理在不同的基站执行.每个基站包含两个处理队列,用以缓存采集到的延迟敏感型和延迟容忍型任务.MEC控制器也包含与之对应的两个卸载队列,用于缓存由基站采集来的两类任务.综合多源信息,MEC控制器卸载队列中的任务被转交给不同的基站协作处理.
图3 协作式任务调度框架Fig.3 Collaborative task scheduling framework
协作式任务调度需要综合考虑车辆位置、速度、行驶方向和基站负载等因素.考虑到基站负载对处理延迟的影响,本文利用排队论[20]刻画基站处理任务的过程,并通过公式推导计算得到延迟敏感型和延迟容忍型任务的调度时延.
车辆i产生的任务m中包含任务的数据大小(bits)、所需计算资源数目和任务处理完成的延迟需求,分别被表示为εi,m,τi,m,di,m.下面基于排队论建模任务卸载和处理延迟.
2.4.1 任务卸载延迟建模
任务卸载延迟代表任务从车辆上行由基站j卸载至控制器的时间.基站j采集到的类型为o的任务集合Mj,o的总元素个数被表示为Mj,o.在控制器覆盖的区域内,请求类型为o的任务从车辆传输到基站的平均时间被量化为:
(3)
将单个车辆的任务到达建模为泊松过程,相应地基站接收到的任务到达也建模为泊松过程.车辆i产生请求类型o任务的到达率被表示为λi,o.定义二元变量ai,j=1代表车辆i与基站j关联.也就是说,控制器卸载队列中请求类型o任务的到达率可以表示为:
(4)
卸载队列每次只处理一个任务.任务的卸载过程被建模为M/M/1队列模型.卸载队列的进队由任务到达率决定,卸载队列的出队由基站传输决定.当队列的进队速率大于出队速率时,队列中的任务会不断累积导致队列溢出.队列以服务强度反映繁忙程度,定义基站j中请求类型为o的卸载队列的服务强度[21]为:
(5)
为了保持卸载队列的稳定性(防止队列溢出),公式(5)需要满足:
(6)
任务m到达卸载队列后,排在任务m前的任务索引集合表示为Ω(m).假设ζi,j,m代表由车辆i产生的任务m由基站j上载至控制器的时长.该任务的卸载延迟被计算为:
(7)
2.4.2 任务处理延迟建模
处理延迟指任务从控制器进入基站处理队列到任务被处理完所花费的时长.基站按需为各个任务分配计算资源,计算资源以虚拟机实例(virtual machine instance)为单位分配.每个虚拟机实例的最大CPU周期为s(max)Hz(每秒).假设基站j为车辆i产生的任务m分配虚拟机实例的数量为ni,j,m.该基站中处理队列o的任务平均处理时长被计算为:
(8)
控制器卸载队列中的任务被分发到不同基站的处理队列中.处理队列中任务的到达也服从泊松过程.基站j分配给切片o的频谱资源数量在所有同类型切片的频谱资源中的占比为:
(9)
基站j中任务处理队列的服务类型o任务到达率为αj,oλo.任务处理过程被建模为M/M/1队列模型.基于式(4)、式(8)和式(9),基站j中处理队列o的服务强度被定义为:
(10)
为了保持处理队列的稳定性,式(10)需要满足:
(11)
在基站j的处理队列中,排在任务m之前的任务索引集合被表示为ψj(m).该任务的处理延迟被计算为:
(12)
2.4.3 任务移交延迟建模
如图3所示,每个任务在基站的处理队列中计算完成后,直接由基站将结果传输回车辆.基于公式(2),在基站j中的任务m回传给车辆i的移交延迟被表示为:
(13)
任务延迟由卸载延迟、处理延迟和移交延迟组成,由式(7)、式(12)和式(13)得车辆i产生的任务m的任务延迟为:
(14)
车辆只有在与基站建立连接时才能获取服务.若车辆在离开基站覆盖范围时仍未收到任务处理结果,即使任务调度时间未超出本身延迟要求,同样视为任务失败.假设车辆i从产生任务m时到驶出基站j覆盖范围的总行驶距离被表示为γi,j,m,车辆i的行驶速率被表示为vi.则任务m的最大调度时间可以被计算为:
因此,任务m完成的延迟约束被表示为:
(15)
由于车载用户行驶方向和速度的时变性以及路网的复杂性,车辆未来的行驶轨迹是多变的.单个基站的覆盖范围有限,很难为车载用户提供完整的服务,协作式卸载模式有助于减少因车辆离开基站覆盖范围而导致的任务失败率.尽管如此,协作式卸载模式也使得基站的选择策略变得更多,进而导致控制器进行调度决策的难度提高.后续将探讨相应的解决方案.
所提方案的目标是在满足差异化QoS需求的基础上最大化任务完成数量.切片窗口w任务完成情况依赖于RAN切片策略和协作式任务调度策略.面向RAN切片的频谱资源和计算资源策略集合分别被表示为:
和
协作式任务调度策略集合被表示为:
定义如下二元变量:
(16)
当任务在满足延迟约束的条件下完成时,系统获得对应的收益.相应地,若任务未能完成,系统产生对应的损失.
定义1.在第w个切片窗口内,任务完成且满足延迟需求时,系统获得的总奖励U(w):
(17)
其中uj,o∈(0,1)代表请求类型为o的任务在基站j上的对应收益因子.
定义 2.在第w个切片窗口内,任务未能满足延迟需求时,系统产生的总损失H(w):
(18)
其中hj,o∈(0,1)代表请求类型为o的任务在基站j上对应的损失因子.
在满足QoS需求前提下,使系统长期性地完成更多的车辆任务是本文的目标.以最大化车辆任务完成数为目标,动态RAN切片问题被建模为:
(19a)
(19b)
(19c)
(19d)
(6)和(11)
(19e)
问题P0的实质是通过在线的方式,协调分配各个基站的频谱和计算资源以及区域内的工作负载,使得系统长期的平均任务完成数最大.其中,约束(19a)保证每个基站j分配得到的子信道数为正数.约束(19b)和(19c)保证每个基站分配给车辆的频谱和计算资源不超过自身持有的资源总数.约束(19d)保证了每个车辆只能连接唯一的地面基站,而不能同时连接多个.约束(19e)保证了排队系统中队列的稳定性,同时,也表明了RAN资源的切片决策和任务调度决策是耦合的,即耦合约束.
为了便于处理,将P0分解为大时间尺度上的RAN切片子问题和小时间尺度上的任务调度子问题.
s.t.(19a),(19b)and(19c)
根据式(17)和式(18),每个切片窗口内的决策独立且窗口内的各任务被独立地分配资源.RAN切片子问题的实质是最大化每个切片窗口内的任务完成数量.现实中的车流量不会出现连续的较大波动,相邻切片窗口的车流量具有相似性.
控制器可以参考上一个切片窗口的任务调度策略来优化RAN切片.根据该思路,将P1转化为如下以切片窗口为周期的一次性优化(one-shot)问题 :
s.t.cj,o≥0,∀o∈{1,2},∀j∈J
(20a)
(20b)
(19b)和(19c)
(20c)
问题P2属于求解多约束条件下的多元函数极值问题,可以使用拉格朗日乘数法对其求解.这种方法将一个有多个变量和多个约束条件的最优化问题转化为一个有多个变量的无约束方程组的极值问题.P2问题被转化为P3.
在给定任务调度策略的情况下,控制器可以计算出每个基站处理任务的具体数量.然后,根据任务的属性、QoS需求以及各个基站的资源持有量构建出RAN切片子问题.计算P3可以得到一个最优的RAN切片方案C(w),S(w).
s.t.19(d),(6)和(11)
问题P1中,各个切片窗口的资源分配是相互独立的.相应地,在各个切片窗口中RAN切片决策固定下进行任务的调度也是相互独立的.因此,求解问题P4时可以将长期优化问题分解为各个调度时隙内的短期优化问题.短期优化问题属于有限视界的马尔可夫决策问题.
下文将单个切片窗口内的任务调度子问题重新构建为一个马尔可夫决策问题[22].具体而言,控制器被抽象为一个智能体(agent).在训练回合l时,控制器观察环境的状态,记录为s(l).然后基于s(l),控制器采取任务调度决策动作a(l).做出动作后,环境反馈给相应的奖励r(l).同时,根据状态转移概率Pr(s(l+1)|s(l),a(l))将环境的状态转化为新状态s(l+1).在本马尔可夫决策问题中,状态、动作、奖励的表示如下:
·状态空间S:任务调度需要考虑全局路网中的多个因素,包括任务参数、车辆信息以及各基站位置、资源及队列状态等信息.用s(l)∈S描述系统状态,表示为:
(21)
·动作空间A:系统在训练回合l做出的任务调度描述为动作a(l).动作的制定基于当前的环境状态,与问题P4的优化变量对应,即:
a(l)={A(l)}
(22)
其中,A(l)代表训练回合内的任务调度决策.为了满足约束(19d),每个动作只取0或1.
·奖励R:奖励是为了评估在某个状态下所做动作的优劣.通过设立奖励机制使神经网络以最大化奖励为目标更新优化.基于式(17)和式(18),奖励可以被表示为:
r(l)(s(l),a(l))=(U(l)-H(l))
(23)
基站按照深度强化学习的决策接收任务并处理.任务如果能够被正常处理,系统需要获得奖励来肯定这次动作.如果系统做出一个不合理的任务调度决策,基站常面临资源不足的情况,进而导致处理队列难以保持稳定.为了描述这种情况,需要加入惩罚以阻止控制器做出不合理的决策.
令Π代表候选调度策略的集合.针对当前的调度时隙t,目标是寻找最大化系统奖励获得的调度策略,表示为:
其中,π∈Π代表选择的任务调度策略,φ(l)∈(0,1)代表在训练回合l的折扣因子.由于任务信息发布的不可预知性,状态转移概率无法确定.问题P5无法通过传统的基于模型(model-based)的强化学习算法求解,本文采用不依赖模型(model-free)的强化学习算法求解最优任务调度问题.另一方面,由于难以对车联网环境进行建模,本节引入深度强化学习中的深度Q学习网络(Deep Q-learning Network,DQN)算法,通过改进Q学习算法,可以应对更加庞大的动作状态空间.
Q学习算法的核心在于构建一个Q表.在状态空间下,每个动作获得的奖励被估计并存储到Q表中.动作价值函数表示为Q(s(l),a(l)|θ),θ代表神经网络的权重参数.Q表中每个状态的奖励最大值代表未来可能获得的最大回报.通过查询Q表,每个状态下最大收益的动作被确定为:
(24)
对(24)运用贝尔曼等式,可以得到Q表中的值,计算过程为:
(25)
上式中v代表学习速率,φ代表贪心概率.
如图4所示,DQN算法输出的动作就是控制器为每个任务做出的调度决策.相较于人为制定的策略,神经网络更容易从复杂的全局环境中找出当前任务卸载的最优解.当车辆行驶距离长时,车辆会通过多个基站的覆盖网络,基站协作进行任务卸载的概率很高;而当行驶的距离短时,任务卸载多由附近基站独自完成.
图4 面向任务调度的DQN框架Fig.4 DQN structure for task scheduling
下面通过算法1来描述基于DQN的任务调度机制.
算法1.基于DQN的任务调度
输入:各基站持有的物理资源,车辆、任务以及队列的信息.
输出:每个任务的最优调度决策.
1.初始化DQN中的参数和相应的动作价值函数;
2. 使用随机权重θ初始化原始神经网络参数;
3. 使用随机权重θ←θ-初始化目标神经网络参数;
4.for回合episode←1,T(w)do
5.初始化s(0);
6.forl←1,l(max)do
7. 以概率1-φ选择一个随机动作a(l),否则a(l)←π(s(l));
8. 执行动作a(l),观察奖励r(l)和状态s(l+1);
9.ifl==l(max)then
10. 令Q(s(l),a(l)|θ)←r(l);
11.else
13. 将四元组存储到经验池中;
14. 每隔Na次随机抽取批量样本训练;
15. 根据梯度下降更新原始神经网络权重参数θ;
16. 每隔Nb步更新目标网络权重参数θ-←θ;
17.end if
18.end for
19.end for
20.return最优任务调度策略π*;
本节提出联合优化策略,大时间尺度上的RAN切片子问题与小时间尺度上的协作式任务调度子问题被联合求解.算法2给出了RAN切片子问题和协作式任务调度联合优化策略.
算法2.RAN切片-任务调度联合优化
输入:各基站内总物理资源以及全局内车辆、任务信息.
输出:每个切片窗口内的RAN切片决策和任务调度决策.
1.初始化A(0).
2.Repeat:
3. 给定A(w-1)求解P3,得到C(w),S(w);
4. 确定调度时隙集合;
5. 给定C(w),S(w)求解P5,得到调度时隙t内的A(t);
7.Untilw为最后一个切片窗口.
首先,系统根据历史数据中的任务信息划分切片窗口的长度.切片窗口确定后,将第w-1个切片窗口内的任务调度决策A(w-1)作为求解问题P3的已知条件,并求解出RAN切片决策C(w),S(w).第一个切片窗口的任务调度决策A(0)由历史数据给出.将切片窗口w划分为多个同等大小的调度时隙t∈Tw.在每个调度时隙内,将RAN切片决策C(w),S(w)作为求解问题P5的已知条件,得到每个调度时隙内的任务调度决策.各个基站按照任务调度决策处理任务.在最后一个调度时隙结束时,系统将每个调度时隙内的任务调度决策整合为切片窗口w的任务调度决策A(w),并记录为历史数据供第w+1个切片窗口使用.
联合优化策略实现了RAN切片和任务调度的交替和长期运行.利用相邻时间段车流量的相似性,将上个切片窗口的任务调度决策作为已知条件,得到RAN切片决策.不仅减少了系统的计算任务,也可以提升切片决策的适用性.
本节通过一系列的仿真实验验证本文方案的有效性.实验的硬件环境中,CPU使用AMD Ryzen5 3500X,其包含6核6线程;GPU使NVIDIA GeForce GTX 1660 SUPER.实验环境使用Python 3.6.8和PyTorch 1.7.1实现.本文使用PyTorch搭建卷积神经网络,在训练模型时,原始神经网络和目标神经网络使用相同的架构.神经网络隐藏层间均用全连接层,全连接隐藏层都使用ReLu函数作为激活函数,最后一层网络采用softmax函数激活函数.神经网络训练中超参数的设置通过多次对比实验确定.首先,依据大量实验结果确定各个超参数的合理取值范围.然后,在取值范围内对各个超参数进行排列组合.最后,针对各个候选的超参数组合进行对比实验,选定最佳的超参数组合.具体的超参数设置如表1所示.
表1 实验参数Table 1 Experimental parameters
为了模拟交通路网环境,考虑一个由5条道路交叉而形成两个方格的路网场景(与图1中相似),方格的边长为1000m.其中包含5个覆盖半径为500m的宏基站,每个宏基站的发射功率同为40dBm.MEC控制器放置在5个宏基站的中心位置处,控制器与宏基站通过有线连接.为了让仿真贴近现实环境,本文实验选取的车流量数据来源为OpenITS开放数据平台.车辆产生任务的到达率服从泊松分布.延迟敏感型任务为智能汽车控制指令,延迟约束的范围在50ms-1s;延迟容忍型任务为车载设备高清地图下载,延迟约束的范围在3s-10s.为了保证仿真实验中任务信息的多样性,每个任务的延迟约束在限制范围内按概率随机给出.其他参数如表2所示.
表2 仿真参数Table 2 Simulation parameters
为了客观地评估性能,本文选取3种代表性的任务卸载策略用于对比,包括:
·基于最大信干噪比的任务卸载方法(Max-SINR)[23]:RAN切片比例按照平均划分,控制器进行任务调度时,选择与车辆连接最大信干噪比的基站.
·随机的任务调度方法(Random)[24]:RAN切片比率随机分配,控制器进行任务调度时,随机选择基站.
·距离优先的车辆关联方法 (RSE-online)[25]:RAN切片比例按照平均划分,控制器进行任务调度时,优先选择距离车辆最近的基站.
首先,评估可用资源块(频谱资源块和计算资源块)增加对任务完成率的影响.图5(a)展示了计算资源数固定为15的情况下,频谱资源增加对任务完成率的影响.各方案的任务完成率不断提高.在频谱资源块增加到15之后,各方案的任务完成率逐渐趋于稳定.充足的频谱资源使得控制器有更大的决策空间,是性能提升必要条件,但不是唯一条件.接下来考察当子信道数量固定为15时,计算资源的增加对性能的影响.如图5(b)所示,任务成功率在初始阶段快速上升,但当计算资源块增加到16后,性能不再有明显提升.这是因为系统处理能力的上限由两种资源共同决定,当任务数量饱和后,单纯增加计算或频谱资源都难以提升系统性能.
图5 可用资源块数量对任务完成率的影响Fig.5 Impact of the number of available resource blocks on task success rate
图6展示了本文方案在频谱和计算资源块各固定为15块,延迟敏感型任务占比为40%时,成功完成的任务延迟对应的概率分布.从图6可以看出,任务延迟低于1s的比例大约有30%,而低于1s至低于3s的比例没有任何变化.这是因为低于1s延迟完成的任务属于延迟敏感型,而延迟容忍型任务完成的时延高于3s.任务延迟时间在区间3.5s~5s内的累积概率由44.3%增加至88.6%,这验证了在本文方案下的延迟容忍型任务大概率在5s内就可以被处理完成.任务延迟时间低于7s的比例共有98.9%.
图6 成功完成的任务延迟时间累积分布图Fig.6 Cumulative distribution function of latency for completed tasks
图7评估了车流量的变化对全局资源利用率的影响.车辆密度越高,车流量越大.当车辆密度为0.1辆/m2时,四种方案的全局资源利用率都在50%以下.这是因为网络中的任务稀疏,有些基站处于空闲状态,系统中的资源不能全部利用.另外,可以看出随着车辆密度的增加,全局资源利用率不断升高.与Max-SINR和RSE-online相比,本方案的资源利用率分别增加了29%和10%.在车辆密度增加到0.3辆/m2之后,RSE-online和本方案的资源利用率明显高于其它方案.这是因为车辆密度的增加导致任务数量变多,深度强化学习能在综合考虑各个因素的条件下,更快地做出最优调度决策,降低任务的处理时延,并使得系统资源利用率增加.然而,资源的利用率无法增加至100%.这是因为车辆必须要在基站的覆盖范围内才能与其连接并卸载任务,远离车辆的基站无法为其提供服务.
图7 车辆密度对全局资源利用率的影响Fig.7 Impact of AV density on resource utilization
图8评估了延迟敏感型任务占比增加对任务完成率的影响.随着延迟敏感型任务占比的增加,任务完成率不断降低.这是因为延迟敏感型任务的QoS限制导致任务处理需要更多的资源.增加延迟敏感型任务的占比,是对系统的处理能力进行压力测试.相较于其他方案,所提方法通过感知环境信息做出合适的任务调度决策,提升了任务完成率,特别是在面对极端条件时具有更强的鲁棒性.
图8 延迟敏感型任务占比对任务完成率的影响Fig.8 Impact of the percentage of delay-sensitive tasks on task success rate
本文提出了一种面向任务卸载的动态RAN切片框架,不仅实现了服务QoS的隔离,也提升了系统处理的鲁棒性.针对任务调度,本文设计了一种协作式任务卸载策略,并引入深度强化学习进行决策,提升了车载用户的任务完成率.仿真结果表明,本文提出的方案相较于现有方案,有效增加了任务完成数量,提升了系统资源利用率,实现了网络服务的公平性.后续拟加入对未来流量变化的预测.系统可以根据热点预测信息提前部署资源,灵活地应对网络环境变化.在任务调度上,引入基于DQN的改进算法,有望进一步降低系统的计算负担,提升系统性能.