亓伟敬,宋清洋,郭磊
(重庆邮电大学通信与信息工程学院智能通信与网络安全研究院,重庆 400065)
5G 低时延特点为车联网发展提供了先决条件,车联网从车载信息服务阶段逐渐迈向基于智能网联的驾驶辅助阶段和自动驾驶阶段。近年来,具有不同的用户体验质量(QoE,quality of experience)、服务质量(QoS,quality of service)等级需求的新型车载应用不断涌现,对车联网功能、系统性能、安全性等也提出了不同的要求[1]。多媒体、在线会议和增强现实/虚拟现实等信息娱乐服务通常占用大网络带宽,以保证较高的网络吞吐量。相反,支撑智能驾驶的安全信息服务通常需要通过协作感知消息(CAM,cooperative awareness message)、分散环境通知消息(DENM,decentralized environment notification message)等承载驾驶环境状态,由于环境状态信息的高动态性,在这些情况下应保证低时延且高可靠性的网络连接。为每项业务提供专用网络可以满足其相应的需求,但绝大多数服务提供商无法承担专用网络建设和维护成本。软件定义网络(SDN,software defined network)技术将网络设备的控制面与数据面分离,从而摆脱硬件对网络架构的限制,对网络流量进行灵活控制。SDN 是构建全维可定义开放网络架构、实现多模态网络的基础[2]。文献[3]明确提出城市交通是全维可定义多模态智慧网络的一个典型垂直应用,近年来,针对软件定义多模态车联网的研究也在不断开展[4-5]。网络切片可以通过网络功能虚拟化(NFV,network function virtualization)将网络资源虚拟化并聚合为资源池,并由支持SDN 的切片管理控制器集中管理,实现更细粒度的资源编排,在通用物理基础设施上按需定制虚拟网络,实现软件定义的多模态网络,为不同类型的车联网业务提供差异化QoS 保障。例如,增强型移动宽带(eMBB,enhanced mobile broadband)切片可以承载信息娱乐等大带宽业务,超可靠低时延通信(URLLC,ultra-reliable and low-latency communication)切片可以承载实时路况监测、实时路况更新、导航准确度提升、安全自动驾驶等低时延、高可靠业务[6]。在车联网这样的高动态网络中,网络切片在无线接入网(RAN,radio access network)侧的功能实现简称为RAN 切片,其可以显著提高网络的灵活性和资源的利用效率,从而提高网络在连接性、端到端时延、数据传输速率等方面的性能。
在实际的RAN 切片实现和部署中,其资源分配根据对资源使用的动态性和弹性程度,可划分为以下三大类:静态预留、半静态预留、动态共享[7]。其中,动态共享方式基于用户QoS 在每个时隙灵活为切片分配资源,相应资源就会通过网络下层信令的方式进行动态调整,实现资源快速回收或增配。RAN 切片资源动态共享方式具有较高的资源利用率,因此被广泛采用。然而,车联网拓扑和数据流量的高动态性对RAN 切片资源分配提出了巨大挑战。如何有效利用网络的动态异构资源以满足不同服务的多维QoS 需求成为发挥RAN 切片潜在优势的关键。因此,从用户QoS和网络资源利用的角度来看,开发高效的RAN切片资源分配方案势在必行。
近年来,针对车联网环境中的RAN 切片资源分配已有很多成果,主要解决车联网中用户的QoS 需求保证问题。文献[8]中较早提出了支持各种车载服务的RAN 切片概念。文献[9]针对车联网场景提出了一种动态RAN 切片框架,通过均衡网络负载和分配网络资源,实现在任务卸载最大时延和排队稳定性约束下的系统通信、计算成本最小化。文献[10]描述了一个针对RAN 切片的资源分配和计算卸载联合优化问题,以实现通信、计算资源利用率最大化为目标。考虑到2 个优化问题之间的耦合作用,文献[10]提出分层优化框架,基于协作多智能体DDQN(double deep Q-learning network)框架来学习卸载策略,基于凸优化实现RAN 切片资源分配。文献[11]基于深度强化学习提出了适用于智能车联网和智慧城市系统的切片方案,智能体可以通过与环境的密切交互来自适应地学习最佳网络切片策略。针对车联网中的关键任务和非关键任务需求,文献[12]通过端到端切片对整体带宽资源进行隔离,研究表明,基于人工智能(AI,artificial intelligence)的切片管理系统可以智能调配RAN 切片资源,解决业务需求高动态对服务质量带来的影响。文献[13]提出了基于交叉熵的蒙特卡罗树搜索-快速动作价值估计算法来设计智能切片资源分配方案,此方案不需要任何动态数据流相关的先验知识。为权衡车联网中视频流传输质量与资源消耗代价,文献[14]提出了一种新颖的RAN 切片资源分配和视频质量选择联合优化算法。文献[15]设计了一种基于深度确定性策略梯度的动态RAN 切片方案,其奖励由车到车(V2V,vehicle-to-vehicle)用户的效用总和与QoS 度量组成。综上所述,现有工作大多侧重于RAN 切片分配通信和计算资源,很少考虑将缓存策略视为切片资源分配的一个因素,由于无线资源分配和缓存放置之间的密切关系,将缓存策略和资源分配联合考虑至关重要。但是由于缓存内容更新产生的高传输代价导致缓存决策不可能频繁执行,这与无线资源分配需要在每个时隙内快速决策的特点不同,因此需要考虑两类决策时间尺度的差异。此外,车联网运行在高动态环境中,车载服务请求在时空域随机到达,未来网络状态难以预测,这使长期稳定的系统性能尤为重要。本文工作旨在对现有研究的上述缺陷进行一定程度的弥补。
本文考虑软件定义车联网中同时存在eMBB和URLLC 两类RAN 切片,提出一种双时间尺度的RAN 切片资源分配算法,本文主要贡献如下。
1) 建立了软件定义车联网中URLLC 和eMBB的RAN 切片缓存、频谱、功率资源分配优化问题。最大化长期累积时间下的URLLC 切片用户的平均时延,并满足eMBB 切片用户最小速率约束、V2V链路可靠性约束、节点最大功率约束、资源块(RB,resource block)约束等。该问题是一个非凸、非线性、多变量耦合的NP-hard 问题,很难直接获得解析解。
2) 提出了一种双时间尺度求解算法。将原NP-hard 问题转换为2 个子问题:大时间尺度内用户关联和缓存放置子问题、小时间尺度内RB 分配和复用子问题。针对第一个子问题,基于拉格朗日对偶原理将其分解,并基于匈牙利算法、线性整数规划方法获得最优解;针对第二个子问题,基于DDQN 算法求解。
3) 开展了广泛的仿真验证。仿真结果表明,所提资源分配算法在保证不同切片用户QoS 需求和提高频谱利用率方面优于传统算法,验证了本文算法的有效性。
本文考虑一个基站(BS,base station)覆盖的道路区域,其中部署了若干个路边单元(RSU,road side unit),RSU 功率较低,覆盖范围有限。在此区域内的车辆用户根据业务需求连接到BS 或RSU,组成如图1 所示的基于网络切片的车联网。其包含三类链路:BS 到车辆(B2V,BS-to-vehicle)下行链路、RSU 到车辆(R2V,RSU-to-vehicle)下行链路以及V2V 链路。
图1 基于网络切片的车联网架构
设该车联网架构中具有N个RSU,其集合表示为N={1,2,…,N},K个具有eMBB 切片需求的车辆用户B2V-eUE 通过高容量的B2V 链路传输数据,U个具有URLLC 切片需求的车辆用户R2V-uUE 通过低时延的R2V 链路传输数据,M对具有URLLC切片需求的车辆用户V2V-uUE 通过V2V 链路交换数据。K={1,2,…,K}、U={K+1,K+2,…,K+U}、M={1,2,…,M}分别表示B2V-eUE、R2V-uUE 和V2V-uUE 三类用户的集合。需要注意的是,对于V2V-uUE 成对计入,即集合M中的第m个元素表示第m个V2V-uUE 用户对。B2V-eUE 和R2V-uUE 下行用户集合表示为Q=K∪U={1,2,…,Q},Q=K+U。假设内容服务器中共有F个用户感兴趣的内容文件,其集合表示为F={1,2,…,F},第f个文件的大小为Cf。如果某个R2V-uUE 用户请求的文件缓存在某个RSU 中,则直接从该RSU 获取其请求的文件,否则需要向BS 请求该文件。在时分双工(TDD,time division duplexing)-正交频分复用(OFDM,orthogonal frequency-division multiplexing)技术支持下的5G 网络通信系统中,在频域中以12个子载波为一组进行调度,子载波组称为新空口(NR,new radio)RB。RB 带宽取决于子载波间隔。假设系统只能将一个RB 分配给集合Q中的一个下行用户B2V-eUE 或者R2V-uUE,S={1,2,…,S}表示系统中的RB 集合。为了提高频谱利用效率,V2V-uUE 用户对复用了正交分配给B2V-eUE 或者R2V-uUE 的下行频谱。
1.2.1 通信模型
考虑信道衰落,当占用第s个RB 时,BS 到第k个B2V-eUE 的信道增益为
其中,hk,s是快速衰落分量,αk,s是路径损耗和阴影衰落分量。
类似地,占用第s个RB 时,第n个RSU 到第u个R2V-uUE 的信道增益为gn,u,s。对于第m个V2V-uUE 用户对,当其复用第q个下行用户(B2V-eUE 或者R2V-uUE)占用的RB 时,其信道增益为gm,q,且其对第q个用户带来的干扰为g~m,q,第q个B2V-eUE 对第m个V2V-uUE 带来的干扰为。假设基站作为该系统的决策控制器可以实时获得所有链路的信道状态信息。
定义ρm,q∈{0,1}为一个二进制变量,表示第m个V2V-uUE 对是(ρm,q=1)否(ρm,q=0)复用第q个用户的频谱。因此频谱复用配对策略矩阵可以表示为
第k个B2V-eUE 占用第s个RB 时接收的瞬时信噪比(SINR,signal noise ratio)为
第k个B2V-eUE 占用第s个RB 时可达到的传输数据速率由香农方程计算,即
定义δq,s∈{0,1}为二进制变量,表示是(δq,s=1)否(δq,s=0)将第s个RB 分配给第q个用户。因此,频谱分配策略集合可表示为
第k个B2V-eUE 可达到的传输数据速率为
第u个R2V-uUE 与第n个RSU 连接所接收到的瞬时下行SINR 为
第u个R2V-uUE 与第n个RSU 连接可达到的传输数据速率为
定义αn,u∈{0,1}为一个二进制变量,表示第u个R2V-uUE 是(αn,u=1)否(αn,u=0)与第n个RSU建立连接。因此,R2V-uUE 与RSU 的关联策略矩阵为
第u个R2V-uUE 可达到的传输数据速率为
当第m个V2V-uUE 对共享第q个下行用户的RB 时,第m个V2V-uUE 的SINR 为
第m个V2V-uUE 对共享第q个下行用户的RB可达到的传输数据速率为
第m个V2V-uUE 的传输数据速率为
1.2.2 缓存模型
定义βf,n∈{0,1}为一个二进制变量,表示第f个文件是(βf,n=1)否(βf,n=0)缓存在第n个RSU中。因此,缓存放置策略矩阵为
同时,第u个R2V-uUE 用户的文件请求偏好用请求概率Pu,f来表示,且满足。如果关联第n个RSU 的第u个R2V-uUE 请求的第f个文件缓存在此RSU中,则第u个R2V-uUE直接从该RSU获取其请求的文件,其无线传输时延部分为
其中,Cf是第f个文件的大小。
如果文件未缓存在用户关联的RSU 中,则通过光纤链路从云服务器中获取文件。除了无线传输时延,还需要考虑增加的光纤传输时延。为简化起见,假设光纤传输时延为固定值LF,那么总时延为。
因此,关联第n个RSU 的第u个R2V-uUE 请求的第f个文件的时延为
利用eMBB切片承载的车载应用需要高数据传输速率,因此B2V 链路的数据传输速率需要满足阈值,BS 到第k个B2V-eUE 的数据传输速率满足
对于R2V-uUE 来说,其向RSU 或者云服务器请求的文件利用URLLC 切片承载,从系统最优的角度来考虑,需要保证所有R2V-uUE 的平均时延最小化,R2V-uUE 平均时延为
对于V2V-uUE 来说,假设车辆之间交换短消息,一旦建立可靠链路,其传输时延可以保证。但是在车辆高速运动的过程中,需要保证V2V 链路的可靠性,即V2V 链路中断概率小于阈值,第m个V2V-uUE 的中断概率满足
为了优化两类切片中用户不同的性能指标,一种常见的方法是将多个指标组合成一个统一的优化目标,例如定义系统数据传输速率与能耗比率为能量效率[16],定义系统数据传输速率与通信信道带宽比率为频谱效率[17]。但是,目前速率与时延的比率尚未定义,没有实际意义。因此,本文优化R2V-uUE 的URLLC切片的时延性能,同时保证B2V-mUE 的eMBB 切片传输速率需求和V2V-uUE 的URLLC 切片链路可靠性需求。本文提出了一个联合频谱资源分配及复用、缓存内容放置及R2V-uUE 用户关联的优化问题,以最小化在URLLC切片中R2V-uUE的长期累积平均时延,同时OFDMA 载波正交性、载波允许复用数量、用户接入容量、用户最大发射功率、缓存容量以及不同用户QoS 需求(即B2V-mUE 的数据传输速率和V2V-uUE 的链路可靠性)被视为约束。令ρ={ρm,q:为频谱复用关联矩阵、RB 分配矩阵、R2V-uUE 与RSU关联矩阵、RSU 中文件缓存状态矩阵和V2V-uUE 发射功率矩阵。该问题可以表示为
其中,优化目标是最小化URLLC 切片中R2V-uUE的平均时延。约束式(21a)限制 eMBB 切片中B2V-eUE 的数据传输速率不低于阈值;约束式(21b)限制URLLC 切片中V2V-uUE 的链路中断概率不大于阈值;约束式(21c)限制RSU 中缓存的所有文件大小不超过其缓存空间;约束式(21d)限制每个V2V-uUE 必须且只能复用一个 B2V-eUE 或者R2V-uUE 的RB;约束式(21e)限制一个B2V-eUE 或者R2V-uUE 的RB 最多提供给一个V2V-uUE 复用;约束式(21f)限制必须且只能给每个B2V-eUE 和R2V-uUE 分配一个RB;约束式(21g)限制每个RB 最多分配给一个B2V-eUE 或者R2V-uUE;约束式(21h)限制每个R2V-uUE 必须且只能关联一个RSU;约束式(21i)限制每个RSU 最多接入的R2V-uUE 数量;约束式(21j)限制V2V-uUE 的最大功率不超过阈值PV;约束式(21k)~式(21n)为二进制变量约束。
优化问题P1 是一个混合整数非线性组合优化问题,是典型的NP-hard 问题。由于该网络中有大量的内容文件、车辆和RB,因此P1 无法在多项式时间内解决。获得最优解的直接方法是将问题分解为多个子问题并进行穷举搜索。然而,在这样一个高度动态的车载网络中,应该实时做出优化决策。
为了解决P1 的计算复杂性,本节提出了一种有效的双时间尺度资源分配算法来优化网络切片的子载波分配、用户关联和缓存放置。假设网络系统在一个时间窗口上工作,该时间窗口被划分为由t∈T={1,2,…,T}表示的离散时隙。假设基站作为该系统的决策控制器,其在每个时间窗开始进行用户关联和缓存放置决策,在每个时隙开始时为发送数据传输请求的车辆用户分配(包括复用匹配)RB 和功率。
基于给定的RB 分配和复用策略,P1 目标函数中的传输速率Rn,u变为已知,记作,P1 简化为只包含用户关联和缓存放置策略的优化问题P2,即
由于存在αn,u与βf,n这2 个变量相乘项,P2 为整数非线性规划问题,利用McCormick 包络将该问题松弛。定义χf,n,u=α n,uβf,n并引入上述目标函数,可将P2 转化为P3。
为了简化P3 的约束,本文利用拉格朗日松弛乘子法转换该问题。定义拉格朗日乘子φf,n,u,γf,n,u,ηf,n,u≥ 0,拉格朗日函数表示为
因此,P3 可以转化为P4。
分解后,联合优化问题变成了单独的优化问题。子问题P4_1 是一个典型的赋值问题,可以用匈牙利算法解决。子问题P4_2 和P4_3 都是线性整数优化问题,可以用线性整数规划方法求解。
在大时间尺度内进行用户关联和缓存放置决策后,优化问题P1 可以简化为RB 分配和功率控制问题,在每个小时间尺度-时隙内求解。优化问题为
不考虑上述优化问题目标函数中的固定值,P5等价于
本文提出了一种基于多智能体DDQN 的RB 分配和功率控制算法,并对算法在训练阶段和推理阶段的执行流程和工作方式分别进行了介绍。该算法能够学习用户所处的状态,做出最佳的决策,使一个时间窗内所有R2V-uUE 的累积传输速率和最高,同时保证B2V-eUE 和V2V-uUE 的QoS 需求。由于时间相关特性,决策被建模为马尔可夫决策过程。
3.2.1 马尔可夫决策过程
在马尔可夫决策过程中,在每个时隙t,智能体通过识别当前状态来感知环境,然后选择一个动作并在环境中执行。随后环境回应智能体的动作at,反馈回奖励,同时以概率过渡到下一个状态。
1) 状态空间
因此,第t个时隙网络状态集合可表示为
2) 动作空间
车联网切片资源调度归结为频谱RB 选择和传输功率控制。系统中频谱被分为S个不相交的RB,每个RB 都由一个B2V 或者R2V 链路占据,同时每个V2V 链路采用一定的发射功率复用B2V 或者R2V 链路的RB。定义网络中每个用户为一个智能体,每个B2V-eUE 和R2V-uUE 在每个时隙采取的动作为RB 选择,其动作空间维度为S。
V2V-uUE 在每个时隙采取的动作为RB 复用配对及发射功率选择。为了简化动作空间,本文将功率控制选项限制为4 个级别,即[23,10,5,-100]dBm。需要注意的是,-100 dBm 意味着发射功率为0。因此,动作空间的维度为4×S,每个动作对应于RB分配选择和功率选择组合。
3) 奖励
智能体通过未来一段时间内奖励的期望值来表示对当前状态下执行该动作的满意程度。考虑到P5的优化目标为最大化R2V-uUE的平均传输速率,定义奖励rt=r(,at)为用户在状态下采取行动at时所获得的R2V-uUE 的平均传输速率,这有利于实现优化目标。本文使那些导致更高能源效率的行动获得更高的相应奖励。此外,还需要考虑约束条件式(21a)和式(21b)。为了保证用户的公平性,对不能满足B2V-eUE 最低通信速率和B2V-uUE 最低链路可靠性要求的动作进行惩罚。因此,设定奖励函数包含两部分,一是对R2V-uUE 平均传输速率的贡献,二是当传输速率和链路可靠性不能满足用户需求时的惩罚。用户在第t个时隙获得的奖励为
其中,w1为贡献对应的权重,w2和w3为2 个惩罚对应的权重;ξ(·) 为一个函数,且当·为真时,ξ(·) =1。
3.2.2 基于DDQN 的RB 分配和功率控制
根据上述定义,便可基于多智能体DDQN 实现车辆用户分配RB 和功率的决策。在多智能体DDQN算法中,智能体将每一步的状态、功率分配决策、网络能量效率奖励和下一状态作为经验存储到经验重放器。在每次的迭代训练中,神经网络从经验重放器中随机选择一部分样本来训练。多智能体DDQN 使用损失函数评估其性能,并采用反向传播算法实现目标Q 网络和原Q 网络权值的更新。
多智能体DDQN 算法通过值函数来评价当前资源分配策略的好坏,其中,值函数表示智能体在某个状态下执行某个分配决策获得的长期回报。在策略π下,智能体的动作值函数为
其中,θ为DDQN 网络参数,E[]为期望运算。
首先,在当前Q 网络中找到最大Q值对应的动作,表示为amax,如式(34)所示。
然后,利用amax计算目标Q 网络的Q值,如式(35)所示。
其中,yt是目标网络的Q值。
将式(34)代入式(35),结果如式(36)所示。
DDQN 的损失函数为
DDQN 采用随机梯度下降法训练θ,最终得到最优的θ,以逼近动作价值函数。其中,参数θ的更新式为
其中,η是学习率。
综上所述,本文所提的双时间尺度智能资源分配算法流程如算法1 所示。
算法1双时间尺度智能资源分配算法
本文设计了双时间尺度RAN 切片资源智能分配算法,该算法融合匈牙利算法、线性整数规划方法和DDQN 算法,在满足eMBB 切片用户最小传输速率需求和V2V 链路可靠性的前提下,最小化URLLC 切片用户的平均传输速率。本节使用Python语言基于开源深度学习平台TensorFlow 对本文算法进行仿真和性能验证。
默认情况下,本文考虑一个包含一个基站、5 个B2V-eUE、5个RSU、12个R2V-uUE和2个V2V-uUE的车联网系统,系统中可分配的RB 数量为20,每个RB 的带宽为15 kHz。为了验证算法性能,本文调节网络规模、网络中各节点和RB 数量。实验中共传输10 个文件,每个文件的大小为 1 kbit。每个RSU 可以缓存3 个文件。前传时延为0.5 s。智能体DDQN 由3 个完全连接的隐藏层组成,分别包含500、250、120 个神经元。采用ReLU 为激活函数,RMSProp 优化器以0.01 的学习率更新网络参数。训练探索率从0.4 下降到0.001,然后保持不变。具体参数设置如表1 所示。
表1 仿真参数设置
为验证本文所提的双时间尺度资源分配算法的性能,将其与以下3 种算法进行对比。
1) 随机算法,在满足约束的情况下随机进行缓存、频谱和功率资源分配。
2) 贪婪算法,当前状态下最好或最优(即最有利)的选择。
3) 基于Q-Learning 的双时间尺度算法,即在大时间尺度内与本文所提算法相同,采用基于匈牙利算法、线性整数规划方法求解;在小时间尺度内则基于Q-Learning 算法进行频谱和功率资源的分配。
损失函数值随训练迭代次数的变化如图2 所示,展现了本文所提的小时间尺度下基于DDQN通信资源分配算法的收敛过程。从图2 中可以看出,随着训练迭代次数的增加,损失函数值不断减小,当训练迭代次数达到400 时,损失函数值已经收敛到0.5 左右;当训练迭代次数达到2 000 时,损失函数值已经达到0.17。基于此,在接下来评估算法性能时,本文将DDQN 模型训练了2 000 次,以保障其收敛性。
图2 损失函数值随训练迭代次数的变化
图3为4种不同的切片资源分配算法下R2V-uUE平均时延随R2V-uUE 数量的变化曲线。从图3 可以看出,4 种分配算法的R2V-uUE 平均时延都随R2V-uUE 数量的增加而增加。其中,随机算法曲线具有更大的波动性,网络性能不稳定。贪婪算法和基于Q-Learning 的双时间尺度算法在网络规模较小(即网络中R2V-uUE 数量较少)时与本文所提算法表现相当。但是,随着网络中R2V-uUE 数量的增加,本文所提算法的平均时延低于其他3 种算法。基于DDQN的算法解决了Q-Learning 中的维数灾难问题并克服了DQN 中Q 值过估计的缺点,可以通过学习得到适用于环境的资源分配策略,实现最小化R2V-uUE 平均时延的目标。
图3 R2V-uUE 平均时延随R2V-uUE 数量的变化
图 4 为 4 种不同的切片资源分配算法下R2V-uUE 平均时延随V2V-uUE 对数的变化曲线。从图4 可以看出,4 种分配算法的R2V-uUE 平均时延都随V2V-uUE 对数的增加而增加。这是由于过多的V2V-uUE 用户对复用R2V-uUE 的频谱对其R2V 链路的传输速率产生了影响。但是本文所提算法最大限度地克服了这种影响。
图4 R2V-uUE 平均时延随V2V-uUE 对数的变化
不同RSU 缓存容量下R2V-uUE 平均时延随系统文件数量的变化如图5 所示。从图5 可以看出,平均时延会随着RSU 缓存容量的增加而减少。但当文件总数远大于容量时,下降趋势不明显。由于RSU 具有缓存能力,R2V-uUE 可以直接从关联的RSU 获取缓存文件,而没有前传时延。
图5 R2V-uUE 平均时延随系统文件数量的变化
本文所提算法下用户满意度随RB 数量的变化如图6 所示。从图6 可以看出,系统采用相同RB 数量的前提下,允许频谱共享具有更高的用户满意度,从而容纳更多用户,提高了频谱资源利用率。
针对软件定义多模态车联网,本文设计了双时间尺度RAN 切片资源缓存、频谱、功率智能分配算法。该算法在大时间尺度内基于匈牙利算法、线性整数规划方法解决用户关联和缓存放置决策子问题,在小时间尺度内基于DDQN 算法解决RB 分配和功率控制子问题。在满足eMBB 切片用户最小传输速率需求和V2V 链路可靠性的前提下,算法通过不断学习车辆用户信道状态变化,最终最小化URLLC 切片用户的平均传输速率。仿真结果表明,本文所提算法在保证不同切片用户QoS 需求和提高频谱利用率方面优于传统算法。