王 萍 陆 岩 王 帅 姚汪鼎
(东华大学信息科学与技术学院 上海 201600)
为了支持5G高可靠低时延通信(Ultra Reliable Low Latency Communication, URLLC),第3代合作伙伴计划(3rd Generation Partnership Project,3GPP)为蜂窝车联网(Cellular Vehicle to Everything,C-V2X)定义了新的传输模式4(Mode 4)[1]。模式4使用PC5接口上的侧链通道,支持直连通信[2]。C-V2X可以利用蜂窝基础设施和表1中的新型5G网络技术来提升通信质量,有望成为无人驾驶、自动驾驶的关键技术[3,4]。
表1 5G网络技术及优势
C-V2X中车辆具有高速移动性,会频繁地加入或离开车辆的通信范围。网络为了及时跟踪信道状态和车辆位置信息,需要提高控制信令的发送速率。为了减少信令开销,模式4允许车辆自主感知和资源重复使用,利用基于感测的半持续调度(Semi Persistent Scheduling, SPS)算法进行资源分配[5]。然而SPS算法采用固定的资源选择方式,在信道拥塞时会发生严重的分组碰撞问题,无法适应动态变化的网络拓扑和网络负载。分组碰撞是导致传输中断的主要原因[6],严重影响C-V2X安全类应用的可靠性。本文重点研究高负载业务速率变化导致的V2X通信性能下降问题,针对动态业务流量环境提出灵活高效的资源分配算法,提升分组接收率和降低数据包更新时延。
近来,不少研究者改进了SPS算法的资源选择方式。文献[7]提出基于SPS的资源交替选择(Resource Alternative Selection, RAS)算法,采用2个预留资源进行交替分配,能够缓解连续碰撞。文献[8]提出了使用Lookahead的半持续调度(Lookahead based Semi Persistent Scheduling, Lookahead-SPS)算法,在广播消息的控制字段增加车辆的SPS参数信息,减少由于缺少邻居车辆预留信息而产生的碰撞,但需要额外的信令开销[9,10]。文献[11]提出基于行车方向的SPS算法,可以减少反方向车辆的潜在干扰。此外,文献[12]提出一种基于深度强化学习的联合资源分配和功率控制方法,提升高密度场景下的分组接收率。在上述方法中,资源的预留和重用是固定的,不能有效反映信道质量动态变化的影响。当V2X网络业务流量动态变化时,SPS算法容易加剧分组冲突,无法满足高可靠低时延的要求。
本文提出一种预留-重用联合的Q学习型半持续调度(Reservation and Reuse Combined Q-learning Semi Persistent Scheduling, RRC-QSPS)算法,通过建立动态预留和重用的联合Q学习模型,求解当前V2X网络环境下资源的最佳预留概率和重选计数器。本文主要贡献如下:(1)通过高负载情况下分组碰撞的理论建模,研究资源的预留概率和重选计数器对分组碰撞的影响;(2)引入强化学习方法,建立预留-重用动作和Q目标函数,通过ε-贪心策略探索得到当前环境下的最优资源分配方案;(3)通过不同业务速率下的仿真,对比所提算法在分组接收率和更新时延方面获得的性能增益。
本节介绍了V2X中用于周期性消息传输的SPS算法模型,并建立了使用SPS算法进行资源分配的传输碰撞模型,得到了高负载情况下的数据包碰撞函数。
在车联网安全类业务中,协作感知消息(Cooperative Awareness Messages, CAM)是车辆之间周期性交换的一种基本信息[13]。为支持CAM通信,车辆采用SPS算法分配无线资源。图1为标准的SPS过程[14],包括信道感测和资源重选两个步骤。由于没有基站集中调度,车辆需要先感知无线资源的质量,然后从可用资源列表LA中随机选择一个CAM资源(CAM Resource, CAMR)进行预留,并多次使用[5]。图1给出两个无线资源(红和蓝),n为当前子帧,资源选择窗口为[n+T1,n+T2],时长小于100 ms。RRI为资源预留间隔。SPS算法实现了资源的1次预留多次使用,从而减少控制信令开销,缓解端到端时延。
图1 标准SPS算法的资源预留过程
在感测过程中,车辆检测过去1 s内无线资源的接收信号强度指示(Received Signal Strength Indication, RSSI),并依据式(1)创建可用资源列表LA
下面通过对SPS算法中碰撞概率的理论建模,研究参数RP和RC对分组碰撞的影响。
分组碰撞是影响可靠通信的主要原因[6]。在资源选择过程中,如果多个节点同时选择了相同的CAMR,将会导致分组碰撞问题。同时满足RC=0的车辆越多,则碰撞概率越大[14]。
定义信道繁忙比(Channel Busy Ratio, CBR)为信道的利用率[15]
本节提出将最小化碰撞概率作为V2X网络可靠性的优化目标。假设网络车辆数目为K,使用SPS算法为周期性CAM消息调度资源。结合式(12),优化问题可以表示为
本节提出RRC-QSPS算法,将强化Q学习用于V2X动态业务流量环境下的CAMR分配问题。车辆与环境实时交互,智能决策当前环境下最优的RP和RC。该算法能使车辆适应动态流量的网络环境,并降低碰撞概率。
强化学习具备自主决策且学习速度快等特点。<A,S,R,P >是强化学习中经典的元组,A代表代理的动作空间;S为代理所能感知的状态空间;R代表奖励或惩罚。代理根据与环境交互所获得的奖励或惩罚,不断地学习知识调整动作,使自身更加适应环境。P为状态转移概率矩阵。依据马尔可夫决策过程理论,P仅与当前状态和动作有关。强化学习通过试错学习获得最优策略,无需先验知识,因此适用于解决V2X网络复杂环境中分布式资源分配问题。
图2 强化学习原理图
RRC-QSPS算法使用Q学习来获得最优的RP和RC值,使得资源选择适应网络负载的动态变化。算法实现如图3所示,CAM在网络中周期生成,由SPS调度器为其分配时频资源。SPS调度器以概率RP保持当前使用资源,以概率1–RP重新选择资源,且选中的资源将重复使用RC次。车辆观察到t时刻的一个状态st, 并选择一个动作at,即选择一个合适的RP和RC值。车辆根据动作的执行从状态st更新到st+1。最后,车辆将当前状态采取动作所得到的回报记录在Q表中,以便再次达到相同状态时能采取最优的动作。RRC-QSPS算法的伪代码在表2中进行了描述。
表2 算法1 RRC-QSPS
图3 RRC-QSPS算法结构图
本节在仿真中模拟动态变化的网络负载,对比RCC-QSPS算法与现有的SPS算法和Lookahead-SPS算法的各个性能指标。
实验使用了LTEV2Vsim仿真器[19],模拟高速公路场景下安全类业务CAM的传输。车辆移动模型被建模为泊松点过程,用于描述仿真中位置的动态性。实验中的路径损耗和阴影衰落都根据WINNER+信道模型进行计算。本文设置CAM业务的发包率(packets per second, pps)为5~100 pps。表3给出了仿真参数和配置。
表3 仿真参数和配置
为了评估不同网络负载下的系统性能,本文使用了如式(20)–式(23)指标
首先,本文评估了碰撞概率CR在不同网络负载下的表现。如图4所示,随着业务速率的增加,RRCQSPS的CR始终保持较低水平1%以内,而SPS和Lookahead-SPS的CR均呈指数增长。由于RRCQSPS采用了Q学习模型,令车辆与变化的网络环境实时交互,并决策出与当前环境最匹配的SPS动作策略,重选CAMR和调整重复使用次数,从而避免了分组同时传输造成的碰撞。因此RRC-QSPS可以在高负载状态下实现低碰撞率。
图4 碰撞概率与发包率的关系
图5和图6分别展示了分组接收率PRR和数据包更新时延UD随业务速率的变化情况。图5中3种算法的PRR均随发包率的增大而减小。RRC-QSPS的PRR下降幅度最小,基本保持在92%以上。与Lookahead-SPS相比,RRC-QSPS在高负载情况下的PRR提升了7%。图6中,UD随着发包速率的增加而减小,RRC-QSPS的UD最低。与Lookahead-SPS相比,RRC-QSPS在高负载情况下的UD降低了10%。RRC-QSPS在PRR和UD上具有明显优势,这是因为它利用Q学习方法有效抑制了数据包碰撞。
图5 分组接收率与发包率的关系
图6 数据包更新时延与发包率的关系
在图7中,3种调度算法的平均吞吐量随着业务速率的增加而上升,最后趋于饱和。与Lookahead-SPS相比,RRC-QSPS在高负载情况下的吞吐量提升了50%。虽然传统SPS的吞吐量最高,但高负载情况下PRR和UD性能明显恶化。而RRC-QSPS能在动态业务速率环境下明显改善PRR和UD性能,且保持较好的吞吐量水平,更加适用于URLLC场景,支持安全类车联网业务。
图7 平均吞吐量与发包率的关系
本文首先建立了动态C-V2X网络中使用SPS调度算法的分组碰撞模型,研究参数RP和RC对高负载下分组碰撞的影响。其次,提出了预留和重用联合的RRC-QSPS算法。该算法将时延和碰撞概率作为瞬时回报进行强化学习,智能决策RP和RC值,使得资源选择能适应网络的动态变化。最后,仿真对比了不同业务速率下的算法性能。结果表明RRCQSPS算法在高速高负载网络下明显提高分组接收率,降低数据包更新时延,更加适用于动态网络下高可靠低时延的车联网应用。此外,与已有Lookahead-SPS优化算法相比,RRC-QSPS算法的吞吐量有所提升。未来的工作可以考虑更复杂的信道状态和干扰信息,结合SPS资源选择和功率控制,采用深度Q学习来处理高维复杂的映射关系,进一步改善吞吐量。