一种基于预留-重用联合的C-V2X通信Q学习型半持续调度算法

2022-08-19 02:54姚汪鼎

电子与信息学报 2022年8期

王萍陆岩王帅姚汪鼎

(东华大学信息科学与技术学院上海 201600)

1 引言

为了支持5G高可靠低时延通信(Ultra Reliable Low Latency Communication， URLLC)，第3代合作伙伴计划(3rd Generation Partnership Project，3GPP)为蜂窝车联网(Cellular Vehicle to Everything，C-V2X)定义了新的传输模式4(Mode 4)[1]。模式4使用PC5接口上的侧链通道，支持直连通信[2]。C-V2X可以利用蜂窝基础设施和表1中的新型5G网络技术来提升通信质量，有望成为无人驾驶、自动驾驶的关键技术[3，4]。

表1 5G网络技术及优势

C-V2X中车辆具有高速移动性，会频繁地加入或离开车辆的通信范围。网络为了及时跟踪信道状态和车辆位置信息，需要提高控制信令的发送速率。为了减少信令开销，模式4允许车辆自主感知和资源重复使用，利用基于感测的半持续调度(Semi Persistent Scheduling， SPS)算法进行资源分配[5]。然而SPS算法采用固定的资源选择方式，在信道拥塞时会发生严重的分组碰撞问题，无法适应动态变化的网络拓扑和网络负载。分组碰撞是导致传输中断的主要原因[6]，严重影响C-V2X安全类应用的可靠性。本文重点研究高负载业务速率变化导致的V2X通信性能下降问题，针对动态业务流量环境提出灵活高效的资源分配算法，提升分组接收率和降低数据包更新时延。

近来，不少研究者改进了SPS算法的资源选择方式。文献[7]提出基于SPS的资源交替选择(Resource Alternative Selection， RAS)算法，采用2个预留资源进行交替分配，能够缓解连续碰撞。文献[8]提出了使用Lookahead的半持续调度(Lookahead based Semi Persistent Scheduling， Lookahead-SPS)算法，在广播消息的控制字段增加车辆的SPS参数信息，减少由于缺少邻居车辆预留信息而产生的碰撞，但需要额外的信令开销[9，10]。文献[11]提出基于行车方向的SPS算法，可以减少反方向车辆的潜在干扰。此外，文献[12]提出一种基于深度强化学习的联合资源分配和功率控制方法，提升高密度场景下的分组接收率。在上述方法中，资源的预留和重用是固定的，不能有效反映信道质量动态变化的影响。当V2X网络业务流量动态变化时，SPS算法容易加剧分组冲突，无法满足高可靠低时延的要求。

本文提出一种预留-重用联合的Q学习型半持续调度(Reservation and Reuse Combined Q-learning Semi Persistent Scheduling， RRC-QSPS)算法，通过建立动态预留和重用的联合Q学习模型，求解当前V2X网络环境下资源的最佳预留概率和重选计数器。本文主要贡献如下：(1)通过高负载情况下分组碰撞的理论建模，研究资源的预留概率和重选计数器对分组碰撞的影响；(2)引入强化学习方法，建立预留-重用动作和Q目标函数，通过ε-贪心策略探索得到当前环境下的最优资源分配方案；(3)通过不同业务速率下的仿真，对比所提算法在分组接收率和更新时延方面获得的性能增益。

2 SPS资源调度模型

本节介绍了V2X中用于周期性消息传输的SPS算法模型，并建立了使用SPS算法进行资源分配的传输碰撞模型，得到了高负载情况下的数据包碰撞函数。

2.1 SPS算法模型

在车联网安全类业务中，协作感知消息(Cooperative Awareness Messages， CAM)是车辆之间周期性交换的一种基本信息[13]。为支持CAM通信，车辆采用SPS算法分配无线资源。图1为标准的SPS过程[14]，包括信道感测和资源重选两个步骤。由于没有基站集中调度，车辆需要先感知无线资源的质量，然后从可用资源列表LA中随机选择一个CAM资源(CAM Resource， CAMR)进行预留，并多次使用[5]。图1给出两个无线资源(红和蓝)，n为当前子帧，资源选择窗口为[n+T1，n+T2]，时长小于100 ms。RRI为资源预留间隔。SPS算法实现了资源的1次预留多次使用，从而减少控制信令开销，缓解端到端时延。

图1 标准SPS算法的资源预留过程

在感测过程中，车辆检测过去1 s内无线资源的接收信号强度指示(Received Signal Strength Indication， RSSI)，并依据式(1)创建可用资源列表LA

下面通过对SPS算法中碰撞概率的理论建模，研究参数RP和RC对分组碰撞的影响。

2.2 分组碰撞模型

分组碰撞是影响可靠通信的主要原因[6]。在资源选择过程中，如果多个节点同时选择了相同的CAMR，将会导致分组碰撞问题。同时满足RC=0的车辆越多，则碰撞概率越大[14]。

定义信道繁忙比(Channel Busy Ratio， CBR)为信道的利用率[15]

2.3 问题描述

本节提出将最小化碰撞概率作为V2X网络可靠性的优化目标。假设网络车辆数目为K，使用SPS算法为周期性CAM消息调度资源。结合式(12)，优化问题可以表示为

3 基于强化学习的半持续调度算法

本节提出RRC-QSPS算法，将强化Q学习用于V2X动态业务流量环境下的CAMR分配问题。车辆与环境实时交互，智能决策当前环境下最优的RP和RC。该算法能使车辆适应动态流量的网络环境，并降低碰撞概率。

3.1 强化学习原理

强化学习具备自主决策且学习速度快等特点。＜A，S，R，P ＞是强化学习中经典的元组，A代表代理的动作空间；S为代理所能感知的状态空间；R代表奖励或惩罚。代理根据与环境交互所获得的奖励或惩罚，不断地学习知识调整动作，使自身更加适应环境。P为状态转移概率矩阵。依据马尔可夫决策过程理论，P仅与当前状态和动作有关。强化学习通过试错学习获得最优策略，无需先验知识，因此适用于解决V2X网络复杂环境中分布式资源分配问题。

3.2 RRC-QSPS算法模型

图2 强化学习原理图

3.3 RRC-QSPS算法实现

RRC-QSPS算法使用Q学习来获得最优的RP和RC值，使得资源选择适应网络负载的动态变化。算法实现如图3所示，CAM在网络中周期生成，由SPS调度器为其分配时频资源。SPS调度器以概率RP保持当前使用资源，以概率1–RP重新选择资源，且选中的资源将重复使用RC次。车辆观察到t时刻的一个状态st，并选择一个动作at，即选择一个合适的RP和RC值。车辆根据动作的执行从状态st更新到st+1。最后，车辆将当前状态采取动作所得到的回报记录在Q表中，以便再次达到相同状态时能采取最优的动作。RRC-QSPS算法的伪代码在表2中进行了描述。

表2 算法1 RRC-QSPS

图3 RRC-QSPS算法结构图

4 仿真结果与分析

本节在仿真中模拟动态变化的网络负载，对比RCC-QSPS算法与现有的SPS算法和Lookahead-SPS算法的各个性能指标。

4.1 仿真参数

实验使用了LTEV2Vsim仿真器[19]，模拟高速公路场景下安全类业务CAM的传输。车辆移动模型被建模为泊松点过程，用于描述仿真中位置的动态性。实验中的路径损耗和阴影衰落都根据WINNER+信道模型进行计算。本文设置CAM业务的发包率(packets per second， pps)为5～100 pps。表3给出了仿真参数和配置。

表3 仿真参数和配置

为了评估不同网络负载下的系统性能，本文使用了如式(20)–式(23)指标

4.2 仿真结果

首先，本文评估了碰撞概率CR在不同网络负载下的表现。如图4所示，随着业务速率的增加，RRCQSPS的CR始终保持较低水平1%以内，而SPS和Lookahead-SPS的CR均呈指数增长。由于RRCQSPS采用了Q学习模型，令车辆与变化的网络环境实时交互，并决策出与当前环境最匹配的SPS动作策略，重选CAMR和调整重复使用次数，从而避免了分组同时传输造成的碰撞。因此RRC-QSPS可以在高负载状态下实现低碰撞率。

图4 碰撞概率与发包率的关系

图5和图6分别展示了分组接收率PRR和数据包更新时延UD随业务速率的变化情况。图5中3种算法的PRR均随发包率的增大而减小。RRC-QSPS的PRR下降幅度最小，基本保持在92%以上。与Lookahead-SPS相比，RRC-QSPS在高负载情况下的PRR提升了7%。图6中，UD随着发包速率的增加而减小，RRC-QSPS的UD最低。与Lookahead-SPS相比，RRC-QSPS在高负载情况下的UD降低了10%。RRC-QSPS在PRR和UD上具有明显优势，这是因为它利用Q学习方法有效抑制了数据包碰撞。

图5 分组接收率与发包率的关系

图6 数据包更新时延与发包率的关系

在图7中，3种调度算法的平均吞吐量随着业务速率的增加而上升，最后趋于饱和。与Lookahead-SPS相比，RRC-QSPS在高负载情况下的吞吐量提升了50%。虽然传统SPS的吞吐量最高，但高负载情况下PRR和UD性能明显恶化。而RRC-QSPS能在动态业务速率环境下明显改善PRR和UD性能，且保持较好的吞吐量水平，更加适用于URLLC场景，支持安全类车联网业务。

图7 平均吞吐量与发包率的关系

5 结束语

本文首先建立了动态C-V2X网络中使用SPS调度算法的分组碰撞模型，研究参数RP和RC对高负载下分组碰撞的影响。其次，提出了预留和重用联合的RRC-QSPS算法。该算法将时延和碰撞概率作为瞬时回报进行强化学习，智能决策RP和RC值，使得资源选择能适应网络的动态变化。最后，仿真对比了不同业务速率下的算法性能。结果表明RRCQSPS算法在高速高负载网络下明显提高分组接收率，降低数据包更新时延，更加适用于动态网络下高可靠低时延的车联网应用。此外，与已有Lookahead-SPS优化算法相比，RRC-QSPS算法的吞吐量有所提升。未来的工作可以考虑更复杂的信道状态和干扰信息，结合SPS资源选择和功率控制，采用深度Q学习来处理高维复杂的映射关系，进一步改善吞吐量。