基于强化学习的MTC随机接入和异构网络资源分配方法研究

2024-12-20 00:00张迎

电脑知识与技术 2024年30期

关键词：MTC随机接入；异构网络；资源分配；强化学习；联合资源分配

无线通信技术的新发展，以及无线基础设施的广泛铺设，正逐步与工业自动化、互联汽车和智能电网等物联网应用深度融合，共同构筑未来智能化、网络化的社会基础平台。据IHS Markit预测，到2030年，全球智能设备数量将激增至1 250亿台，这些设备将极大地促进产业流程的智能化、人员与社会的协同整合，从而全面提升人们的日常生活品质。

面对无线电资源有限的挑战，MTC（机器类型通信）的核心任务在于支持庞大设备群体的通信需求。在此过程中，我们必须妥善应对一系列非传统难题，包括但不限于无线接入网络（Radio Access Network，简称RAN）的拥塞问题、流量的高度动态性和零星分散性，以及庞大的信令开销。网络拥塞现象可能出现在基于LTE/LTE-A技术的蜂窝网络的各个环节，涵盖RAN、核心网络以及信令网络。由于接入端可用的无线电资源有限，而大量的MTCD（机器类型通信设备）接入请求又持续涌入，这使得RAN拥塞问题在蜂窝物联网网络中变得尤为突出。因此，设计一种更为高效的随机接入方案成为当务之急。

1 基于强化学习的随机接入拥塞控制方法

1.1 系统模型

本文考虑了其中描述的两步无连接数据包传输过程。在这个过程中，MTCD（机器类型通信设备）会在收到RAR（随机接入响应）报文时，将其报文连同有关装置识别、包数据网络识别和安全性的全部必要信息一起发送出去。这样，当gNB（下一代节点B）收到分组时，就会将分组发送给非连接接入网关，由网关对报文内容头部进行检查，验证其完整性，并执行解密操作，然后按照所保存的状态信息将分组发送给指定的网络节点。该方法的主要缺陷在于，当数据包被发送以后，无论成功与否，终端都要将信息发送出去。针对这一问题，本文提出了一种改进的免连接二步法RA（随机接入）处理方法，使MTCD能够在Msg2（第二条消息）后发送具有上下文信息的报文。

为了克服无论接入尝试是否成功都发送数据包的问题，采用了其中提出的早期前导冲突检测技术，其中gNB可以在Msg1（第一条消息）中检测前导码是否发生冲突。具体来说，每个设备从可用于基于竞争的过程的前导码中随机选择一个前导码并发送，该前导码由所选前导和标签序列组成。通过接收到的标记前导码，gNB可以针对每个接收到的前导码检测是否发生冲突，方法是推断与其关联的标签并验证是否已发送多个标签。

另外，由于计算机类通信数据的数量是很少的，所以假定每一个传送请求都有同样的上界值，通过广播进行传送。在Msg2中，gNB将所需的PUSCH（物理上行共享信道）资源分配给每一次成功访问尝试，以达到最大的数据传送量。

这样，从gNB收到报文应答的MTCD进入WRAR （等待随机接入响应）窗口，并在下一RA 周期的PUSCH中发送它的数据。设定WRAR=5 ms，使数据能在下一个RA周期内进行发送，这段时间足够保障有标志前置码的发送（包含循环前缀与发送时延）、gNB端的处理时延、RAR报文的发送、1 ms的应答时间。反之，如果在WRAR窗口中没有收到来自gNB的信息，则只有在这个时候才会进行重试。

在RA处理开始前，基站定期地广播包含若干关键参数、前置信息以及预配置资源的系统信息块。MTCD在一个RA槽中传输一个包含报头和相应的标记信息的分组，该分组共有Pds个正交前导。通过接收到的有标签的前导，gNB能够判断出每一个前导是否发生碰撞。若在当前的RA时隙中，MTCD未从gNB 收到RAR报文，且当前的重发数目低于最大重发数目，则MTCD会在下一时隙再进行随机接入[1]。

由于延迟需求，每台设备最多有MA 次重试访问、传送数据的机会，即，在槽t 新到达的设备最迟要在t至t+MA 之间的时间间隔内完成数据传送，否则，该任务将被丢弃，导致任务失败。在RA时间间隔t 内，参与RA进程的MTCD数目为：该码元是指在RA槽t 内新有效MTCD的指数集合。符号被认为是RA时隙t-1中冲突MTCD的索引集，满足条件：

在时间槽t 终止之后，在时间槽t+1至（t+MA）内，未能进行内部存取的装置将被再次存取。假定新活化的MTCD数目满足Poisson分布，且其速率参数>1）。在此基础上，我们提出了一种新的方法，该方法可以有效防止前同步码的碰撞，并且在有限的延迟预算下保证接入的可靠性。

本文用Dk表示第k 个前导码被0个设备、1个设备、多个设备选中，第k 个前导码只被一个设备选中的概率为p（Dk = 1| Ni = n），可以表示为：

由式（4）可以得到最优值，当可用前导数为Pds=32 时，成功传输前导的设备数和尝试接入当前时隙的设备数的曲线图。

当横轴坐标为31.49时，有一个极值11.96。由于设备数是整数，所以取Ni=32。也就是说，如果每个时隙内尝试接入的设备数量控制为32，如果当前接入时隙内尝试接入的设备数量Ni<=32，那么这些设备都可以尝试接入，当Ni>32.设备根据其剩余的任务重传次数选择主动退避，保证当前时隙内尝试接入的设备数量为32个，充分利用前导码，降低冲突概率。基于这一思想，本文提出了一种基于强化学习的接入控制策略。接入成功率：模拟周期内成功连接的设备总数与设备总数的比值，则接入成功率表达式为：

1.2 基于强化学习的接入控制

基于模型驱动的强化学习算法的思想是使用模型来解决问题。为了建立MDP，我们将无线资源分配问题建模为一个马尔可夫决策过程，即使用一个状态空间和一个动作空间来表示资源分配问题。为了便于分析，将MDP建模为包含用户状态、无线资源和网络状态的马尔可夫决策过程。因此，需要一个奖励函数来奖励成功的用户接入尝试和成功的网络状态。为了解决这个问题，首先使用深度神经网络（DNN）模型来训练MDP。DNN模型的优势在于它可以通过端到端的训练过程来处理多个输入数据，这意味着DNN 模型可以通过提供高质量的输入来提高网络性能。另外，DNN可以解决大规模问题。DNN可以通过学习一个有向图来表示用户和网络之间的关系，因此它可以用来训练强化学习算法[2]。

在基站覆盖下，对时延灵敏的MTCD可以通过观测当前随机存取时隙的状态来判断是否先存或暂存，然后采取相应行动。当基站接收到访问请求时，通过广播方式向MTCD发送前同步码冲突信息以及当前时隙试图访问MTCD的次数，并在接收到该请求后进行回报，从而实现自身网络的更新。该算法采用多次重复的方法，使每一个试图访问的终端具有32个时隙，从而减少了前同步序列发生碰撞的可能性[3]。

1.3 性能仿真

在这一部分中，给出了基于pytroch的模拟实验，通过修改γ 和pds的数值，证明了该算法的可行性，同时也说明了其它算法与传统算法相比的优势。本文设定学习速率为8x10-4，对500个情景进行训练，每一情景包含5 000个时隙。折让系数设为0.9。

在每个场景中，每个场景所得到的接入成功率和训练场景数量的关系。当取不同的参数时，接入成功率随事件个数的增大而增大，而后收敛（趋稳）。实验结果表明，该强化学习算法具有良好的收敛性。另外，在收敛过程中，接入成功率随时间的增大而下降。其原因在于，在同一前导资源的情况下，竞争前导资源的有效MTCD数目更少，使得在有限时间预算下，MTCD被拒绝的可能性很小。

访问成功率被表达为Pds的恒定值为γ=7，不管是哪一种，访问成功率都随有效前置导数法的增大而提高，但是相对其他两个方案，本发明的访问成功率更高。实验结果显示，该方法具有较大的可扩展性[4]。

对3个方案为达到99x10-2的访问成功率所需要的最低Pds数目进行比较。与已有的方法比较，本项目所设计的方法能够显著降低系统所需要的前置码数目，节约系统的资源，并能在一定的时延预算下保障多个移动终端的访问可靠性。比如，为了实现预定的访问成功率99×10-2，传统的方法要求Pds=36。相对文献中要求Pds=31的要求，我们的方法仅需Pds=10。也就是说，该方法比常规方法节约72%的Pds和67%的能源[5]。

2 基于强化学习的异构网络资源分配

2.1 基于模型驱动的强化学习资源分配仿真分析

本文给出了基于模型驱动的强化学习的性能仿真结果，假定用户以1m/s的速率在蜂窝中以1m/s的速度移动，其中MBS、PBS、FBS各一台，功耗极限分别为38 dbm、36 dbm、35 dbm。该方法适用于小规模、异质网络。

对所提出的算法在不同QoS情况下的谱效率进行比较。结果表明，当用户数目增多时，频谱效率会提高，但在无QoS约束的情况下，某些用户会出现较低的传输速率，这会降低系统的频谱利用率。

2.2 基于多智能体强化学习的联合资源分配仿真分析

本文提出多智能体强化学习资源分配算法在异构网络下行链路中的性能表现，并给出了本文算法与其他RL算法及贪婪算法的对比结果。采用Tensor⁃Flow平台进行实验仿真，仿真设置中宏基站数量为2，微基站数量为8，毫微基站数量为12，用户数N∈{20，25， 30， 35， 40}，并将各用户随机分配到各小区[7]。毫微基站的覆盖范围为30m，最大功率为20dBm，最大能量为38dBm，两个基站之间的路径损耗为34+40dB，因此，两个基站之间存在较大的信道损耗。该信道的频宽为180 千赫，噪声与能量密度为0 牛顿每赫为-174 dBm/赫。再现内存D的大小为500，抽样批次的长度为32，学习率参数为0.00005。把每个情景设置为500次，训练500个情景。该算法仅利用了用户自身的信道状态，适用于更大范围的异质网络环境[8]。

算法在不同学习率下的训练效率表现如下：在学习初期，由于智能体缺乏以往的学习经验，难以找到符合服务质量需求的方法，且在到达预定的最大循环次数后仍无法收敛；但是，随着事件数量的增加，智能体的收敛速度会变快。在不同学习率下，当学习速率为0.00005时，仅需10步以内即可收敛，而在0.001时则会缓慢收敛。这是因为当网络的学习率过高时，会影响收敛速度，只有适当的学习率才能加快收敛。

3 结束语

随着物联网的快速发展，移动终端数量日益增多，这对移动通信系统提出了新的技术挑战。为适应高时延、高可靠性的多层传输系统，研究更高级的多层随机接入技术显得尤为重要。本项目针对移动终端移动通信系统中存在的接入问题，结合增强学习理论，研究了具有低时延容忍特性的移动终端多用户接入机制，并在此基础上研究了面向多用户移动终端的多用户移动通信系统。

电脑知识与技术2024年30期

电脑知识与技术的其它文章: 基于NeRF算法的三维模型重建系统发展现状; 基于改进MobileNetV3的隐匿性房室旁路心电图识别模型; 基于北斗定位的森林火灾报警系统设计; 基于改进YOLOv8的交通标志检测与识别算法研究; 基于YOLOv5的吸烟行为识别检测系统分析与实现; 基于改进RRT算法的无人车路径规划研究