苏畅,叶亮,陈舒怡,孟维晓,王德昊
(1.哈尔滨工业大学电子与信息工程学院,黑龙江 哈尔滨 150001;2.中国运载火箭技术研究院研究发展中心,北京 100076)
近年来,多媒体服务呈指数级增长,其需求每天都在增加。流量的巨大增长是下一代移动服务(6G)背后的众多驱动力之一,该服务有望通过多种用例为各种连接的设备提供服务。车辆是继手机和平板电脑之后增长最快的连接设备类型。由于其在实现更安全的运输方面的潜力,V2X(Vehicle to Vehicle,车辆到车辆)通信[1-2]的广泛应用将通过密集的V2V、V2I(Vehicle to Infrastructure,车辆到基础设施)和V2P 通信连接车辆、基础设施和行人,实现改善道路安全、提高交通效率和增强道路舒适性的目标[3]。根据不同的业务需求,V2X可分为以下三种主要的业务类型:
交通安全与效率服务:这类服务是V2X 技术的关键应用领域,通过车辆之间和车辆与基础设施之间的智能互联和通信,提供了一系列功能和服务[4],旨在提高道路交通系统的安全性和运行效率。低延迟和高可靠性被认为是对此类服务的高要求。
车载互联网和信息娱乐服务:这类服务是现代车辆技术中的重要组成部分,通过将车辆与互联网连接起来,为车内乘客提供多样化的信息和娱乐体验[5]。使车内变成一个智能化、互联互通的空间。此类服务对吞吐量、数据传输速率有较高的要求。
自动驾驶相关服务:这类服务是基于先进的自动驾驶技术,为车辆乘客和道路用户提供多种便利和安全功能。这些服务包括自动驾驶功能,使车辆能够自主感知和决策,实现自动行驶和自动停车;自动跟车功能,车辆可以在高速公路上跟随前车并保持安全的距离和速度;交通拥堵自动驾驶,车辆可以自动处理交通拥堵情况,减少驾驶者的压力和疲劳;以及远程监控和远程控制等功能。自动驾驶相关服务与安全服务相比要求超低时延和超高可靠性。
根据上面的服务类型可以看出,车联网中不同的服务对服务质量(QoS,Quality of Service)的要求不同。尽管LTE 技术已经结合了V2X 通信及其增强版(eV2X),但其仍然无法有效地支持V2X 服务的各种QoS 要求[6]。为了实现这一目标,不得不去采用一些新兴的技术。网络软件化和智能化是5G 网络V2X 服务配置的最独特和最关键的方面。网络软件化是软件定义网络(SDN,Software-Defined Networking)与网络功能虚拟化(NFV,Network Functions Virtualization)的融合[7]。SDN 可以提供网络和可编程网络控制的全局视图。另一方面,通过NFV,网络功能和资源不限于专用的物理网络基础设施。基于网络软件化,移动网络运营商可以定制自己的逻辑(虚拟)网络,这可以更好地满足服务的需求QoS,即“一切即服务”或“X 即服务(XaaS)”。这些逻辑网络被称为网络切片[8-9],期望它们利用无线网络中的任何可用类型的物理或虚拟资源。网络切片是核心网(CN)和无线电接入网(RAN)功能的集合,其设置被配置为满足服务的各种要求。因此,通过网络切片,运营商可以灵活地组成切片,以保证不同V2X 服务的多样化需求。
为了给V2X 服务提供稳定的QoS,考虑动态的车辆环境,在接入网层面将车联网资源需求划分为两个切片,即要求低时延高可靠性的V2V 链路的服务切片和要求高数据传输速率的V2I 链路的切片。
考虑在实际的车联网环境中,时延和可靠性往往和车辆安全相关,所以切片1 的时延约束应当优先满足。通过控制资源块在两种服务之间的分配情况,使切片1的时延约束能够满足的前提下,最大化切片2 的数据传输速率,以此建立资源分配问题,并进行求解得到最佳资源分配方案。
本文考虑动态车联网场景,车联网系统由基站(BS)和车辆构成。将车辆通信网络划分为两个网络切片。切片1 为低时延要求的车辆安全类服务,切片1 中车辆V2V通信方式;切片2 为对传输速率有较高要求的互联网娱乐类服务,切片2 中车辆采用V2I 的通信方式。车联网网络切片资源分配系统模型如图1 所示:
图1 车联网网络切片资源分配系统模型
在所建立的通信网络中,包含N个V2V 用户,和M个V2I 用户,其中V2V 链路用来共享道路安全信息,通信指标要求低延迟和高可靠性;V2I 链路用来满足用户的信息娱乐类服务需求,通信指标要求高数据传输速率。为了与实际车联网环境更加贴近,假设V2I 与V2V 链路的上行链路频谱能够共享,这样就使得上行链路的信息拥挤得到缓和,同时也使得V2I 链路和V2V 链路之间的干扰更加可控。第m个V2I 用户的SINR 可以表示为:
则第m个V2I 用户的信道容量表示为:
其中W是带宽。
第n个V2V 用户的SINR 可以用以下式子来表示:
其中:
Gc是重用频谱的第m个V2I 用户对第n个V2V 用户的干扰。
V2V 通信在车辆安全保护中扮演着重要的角色,因此V2V 链路的延迟和可靠性在车联网通信系统设计中是一个需要仔细考量的重要因素,而数据传输速率在此场景下相比于前两个因素则较为次要。在深度强化学习中,将延迟和可靠性约束条件映射为奖励函数,更低的延迟和高可靠性会获得更高的奖励,反之则获得较低的奖励甚至负奖励。而以蜂窝用户为主的V2I链路中则对延迟要求不太严格,因此在V2I 链路中最大化吞吐量是本文追求的目标,所以将其作为影响获得奖励的一个因素。本文的目标是在满足V2V 链路的延迟约束下,最小化V2V 链路对V2I 链路的干扰。在本文构建的车联网网络切片资源分配场景中,V2V 链路将通过强化学习算法经过训练得出的资源分配方案来选择资源块和传输功率。
在构建V2V 资源分配框架中,智能体的任务是能够最小化对其他V2I 链路和V2V 链路的干扰[10-11],这就要求智能体选择合适的频带和传输功率,与此同时,还要保证该V2V 链路满足时延约束的要求。首先,V2I 链路的容量部分可以用于衡量特定V2V 链路对V2I 链路的干扰程度。这可以帮助智能体选择能够最小化对V2I 链路干扰的频带和传输功率电平。其次,V2V 链路的容量部分用于衡量特定V2V 链路对其他V2V 链路的干扰程度。通过考虑这一因素,智能体可以选择在资源分配中避免过多地干扰其他V2V 链路。最后,延迟条件部分表示对时延约束的考虑[12]。智能体需要保留足够的资源来满足时延约束的要求,以确保通信过程中的时延控制。综上所述,通过定义奖励函数的这三个组成部分,智能体可以在资源分配中平衡V2I 链路和V2V 链路之间的干扰,同时确保满足时延约束。
综上所述,奖励函数被表达为:
其中等式右边三部分分别表示V2I 链路的容量,V2V 链路的容量、延迟约束,λc、λd、λp是三部分的权重因子,T0表示允许的最大延迟时间,Ut表示剩余传输时间。对于智能体而言,奖励包括当前奖励和未来奖励,为了获得长期的绩效,智能体会综合考虑两种奖励,以获得最大累计折扣奖励。累计折扣奖励可以用以下式子来表述:
式(9) 说明,要找到的动作是使Q值最大的动作,Q值的更新方程由式(10)给出:
其中,α是学习率,β是折扣因子。Q 网络在每次迭代时会更新权重Θ,将旧权重与更新之后的权重进行比较就可以得到损失函数Loss(θ),损失函数表达式如下:
其中:
其中,rt是相应的奖励。
在基于DDQN 的车联网网络切片资源分配算法中包含训练和测试两个阶段。在训练阶段,使用深度Q 网络来优化,并通过与环境模拟器的交互生成训练样本,每个样本包含当前状态st、下一个状态st+1、动作at和即时奖励rt。环境模拟器模拟了V2V 链路和V2I 链路的通信信道,并根据随机生成的车辆位置为V2V 和V2I 链路生成信道状态信息。然后智能体采取动作,模拟器再将下一个状态st+1和奖励rt提供给智能体。
在训练阶段,系统会将训练的每次数据存储在一个数据库中。在之后的迭代过程中,每次系统会从数据库中抽取一小批数据用来训练深度Q 网络,以此来更新深度Q 网络的权重,这样就会避免重复训练时前后数据相关对结果造成的影响。在训练的初期,智能体选择动作的策略是随机的,随着训练的进行,策略会随着智能体每次得到的奖励进行改进,最终会得到最优的资源分配策略。在测试阶段,系统采用已经训练完成的网络进行测试,测试的过程与训练类似,但是系统会在每次智能体采取动作之后对智能体采取的动作进行评估,并且不断更新评估结果。
在仿真过程中,仿真场景仅包括一个单小区系统。仿真环境依据3GPP TR 36.885 中的车联网场景进行设置,场景中的车辆通过算法随机生成在道路中,每辆车可以和周围的三辆车进行通信。本文构建的深度强化学习网络包含两个深度Q 网络,其中一个为主网络,另一个为目标网络,它们均使用Relu 的激活函数,定义为:
在训练的开始,将学习率设置为0.01,随着训练的进行逐渐降低学习率的值。训练的详细参数见表1。
表1 仿真参数取值
为了做对比实验,除了本文提到的方法,本节还仿真了随机资源分配的方法,并且将其结果一同绘在图中,仿真结果如下所示。
图2 表示模型训练过程中,损失函数随训练轮次的变化。可以看出,当仿真轮次达到3 000 轮左右时,训练模型的损失开始收敛,并且在后面的训练中始终保持稳定。
图2 损失函数
图3 表示随机资源分配和基于深度强化学习的资源分配两种方法的V2I 链路总的数据传输速率与车辆数目之间的关系。可以看出,随着车辆数目的增加,两种方法的数据传输速率都会下降,这是因为随着车辆数目增加,就会产生更多的V2V 链路,从而导致V2I 链路受到更多的信号干扰,所以导致V2I 链路的数据传输速率下降。但是,通过两种方法的曲线对比,可以发现:(1)采用深度强化学习方法时,V2I链路的数据传输速率更高,这说明基于深度强化学习的资源分配方法可以在车联网网络切片资源分配场景中提高信息娱乐服务切片(V2I 链路)的数据传输速率;(2)随着车辆数目增多,两种曲线的差距越来越大。这说明基于深度学习的资源分配方法可以在V2V 链路增多时,有效降低V2V 链路对V2I 链路的干扰。
图3 V2I链路数据传输速率与车辆数目的关系
图4 表示满足V2V 链路时延要求的概率与车辆数目之间的关系。通过图4 可以看出,随着车辆数目增加,满足V2V 链路时延要求的概率会逐渐下降,这是因为车辆数目增加导致V2V 链路大量增加,满足所有V2V 链路的时延要求的难度会增大,所以满足V2V 链路时延要求的概率也会下降。但是可以看到,当环境中车辆数目为100(V2V链路的数目为300)时,满足V2V 链路时延要求的概率仍然在90%以上,这样的时延稳定概率是可以接受的。
图4 V2V链路满足时延约束的概率
本文对车联网中网络切片的资源分配问题进行了展开研究,构建了基于深度强化学习的车联网网络切片资源分配模型,将车联网资源分配场景映射到强化学习的智能体与环境交互的训练场景中,根据构建好的模型进行训练和测试,设计出车联网网络切片资源分配方案,并通过仿真分析证明所提出的方案能够在稳定保证V2V链路的时延约束条件下,提高V2I 链路的数据传输速率。在将来的工作中,将对所提出的资源分配方案进行优化,进一步提高车联网通信场景资源分配效率。