融合深度学习和强化学习的5G无线资源管理*

2021-08-03 08:33:46陈慧敏

移动通信 2021年4期

陈慧敏

（广东邮电职业技术学院，广东广州 510630）

0 引言

5G时代的到来，超密集组网技术不仅解决小基站密集部署应对热点区域流量负载分流问题，还解决宏基站的弱覆盖问题。由于热点区域上下行业务具有很强突发性，传统资源配置方法容易产生网络拥塞问题，不满足现有网络无线资源分配需求。因此，面向5G超密集组网的无线资源管理技术备受学者青睐，如：Huang等人[1]通过动态调整小基站的发射功率实现小区级无线网络资源动态管理；Zhang等人[2]引入遗传算法实现小区负载均衡和能耗双目标优化；Tian等人[3]采用遗传算法实现动态业务子信道和功率分配；刘海燕[4]通过提高边缘用户优先级来实现无线资源调度；张月莹[5]提出了一种基于多优先级信道接入特性的QoE接入控制机制来实现网络效能优化；杨宁[6]采用深度学习方法来管理多智能体频谱接入和制定功率分配策略，实现分布式联合用户关联、信道接入和时间帧策略选择。

综上所述，无线资源管理策略的研究成果可以归纳为两方面：（1）最大资源利用率准则无线资源管理策略，以系统最大吞吐量、频谱资源为目标将资源分配给用户；（2）公平准则无线资源管理策略，兼顾用户获得资源机会的概率和系统性能。在参考学者研究基础上，本文探讨面向5G超密集组网的无线资源管理技术，在保证用户QoS的情况下，以系统吞吐量最大化为目标，结合信道状态信息采用强化学习选择合适信道资源，降低信道资源开销，有效利用无线网络频谱资源。

1 5G超密集组网部署场景及无线资源管理思路

小小区（称为小基站）是小型低功率节点统称，发射功率一般在30 dBm左右，其覆盖范围在100～1 000 m之间，部署灵活、网络效率高，特别适用于解决宏基站弱覆盖的场景，也适用于密集区域热点分流的场景。小基站密集化部署作为5G超密集组网的重要部署方式，不仅能够弥补宏基站弱覆盖场景的覆盖空洞缺陷，还能分流热点区域的数据流量，提升整个网络容量，提高用户传输速率。小基站在3GPP标准化R12中有4种典型的5G超密集组网部署场景，分别是：小基站与宏基站同频部署、小基站（室外）与宏基站异频部署、小基站（室内）与宏基站异频部署以及小基站单独部署。

超密集组网部署方式给无线资源的管理带来了新的挑战：不同回程链路的选择会影响网络速率和时延性能，如何根据用户业务使用需求选择可靠的回程链路，提升网络性能；如何在有效利用小基站资源实现宏基站业务的卸载的情况下降低小基站之间的频繁切换，提升用户服务体验；如何实现宏站和小基站的有效协同，实现无线网络的负载均衡，合理分流网络流量，并保障用户的服务体验；如何根据用户业务使用的潮汐效应，对小基站进行动态的开启和关闭，降低小基站的运营和维护成本；如何在结合业务上下行的使用情况降低宏基站和小基站同频部署干扰。

本文面向5G超密集组网重点研究以用户为中心的无线资源管理技术，重点关注信道状态动态变化情况下如何实现可用信道的有效选择，确保满足用户QoS情况下实现系统吞吐量最大化。

2 基于深度学习的网络信道状态感知算法

5G超密集组网架构会利用大规模MIMO技术实现空间复用增益、分集增益以及波束成形的能力，通过在发射端配置多根天线实现多收和多发，能巩固在不增加频谱资源的前提下成倍提升信道容量[7]。而实现空间复用增益、分级增益是建立在基站能够准确、实时掌握上行链路和下行链路信道状态信息基础上，一般来说，上行链路可以通过手机端发送训练导频来获得，基站基于手机发送的训练导频信息来估计终端侧的信道状态；下行链路首先是基站以恒定的功率发送一个下行导频给终端侧，终端侧根据基站下发的导频信息估计下行链路的信道相关矩阵，终端侧基于信道矩阵的空频域向量来进行基站下行链路信道状态的估计，并将信道状态估计信息通过反馈链路上报到基站，基站根据终端的评估结果来实现传输信道资源分配。

由于上述信道状态估计的假设是终端侧获取信道状态数据与基站传输数据的时间间隔很小，因此，基于上述假设信道相关调度和链路自适应在低移动性的场景下可以获得很好的效果，一旦终端侧发生高速移动，那么从终端侧获得的信道状态已经过时，基于先验信道结构特征的信号状态估计值将会失效，其次，终端侧通过反馈链路将CSI矩阵中的相关参数反馈给基站，在实际中将会消耗大量资源，增加信道的开销。因此，相关的研究[8-10]更倾向于提取信道状态时空相关性特征的思路来反映时变信道状态。

图1 基于深度学习的网络信道特征提取算法图

3 基于强化学习的信道接入策略选择算法

3.1 无线资源选择问题建模

强化学习模型是由Agent、environment、action三部分组成，Agent是一个自主感知信道状态和学习信道环境能力的系统，在本文中我们定义Agent为用户终端侧，environment是指终端侧能够感受到基站的信道状态以及同一小区其他用户信道反馈参数；action信道接入的策略；reward是成功接入某个信道并且满足业务所需要的最小QoE所获得的奖励；state表示系统当前时刻T的信道状态。基于强化学习的信道接入策略选择示例图如图2所示。

图2 基于强化学习的信道接入策略选择示例图

强化学习的算法主要包括两种：策略空间搜索和值函数估计，策略空间搜索适用于环境变化比较小的情况；值函数估计的核心是环境状态的估计。由于本文的信道状态是一个动态的变量，因此本文采用值函数估计的方法来解决用户终端接入信道的问题。

考虑到终端侧在接入信道时，定义信道状态为1（即“信道空闲”），而当信道被其他终端占用，定义信道状态为1（即“信道忙”），那么在信道状态估计的情况下，t时刻终端侧的瞬间吞吐量（或者称为瞬间回报率）为：

那么基于强化学习的方法终端侧对信道进行有限探索之后，截至到t时刻某个小区内海量终端侧选择某一个信道i的次数为Ni(t)后，系统得到的平均吞吐量为：

那么，在特定时间周期T内，基于业务QoS约束下吞吐量最大化目标为：

式(4)的第一部分是在特定时间周期T内手机信道选择各个信道后，系统得到的平均吞吐量；第二部分是指选择信道i后的业务I的平均时延要小于业务I设定的时延阈值；第三部分是指选择信道i后的业务I的平均带宽要大于业务I设定的带宽阈值；第四部分是指选择信道i后的业务I的平均速率要大于业务I设定的速度阈值。

系统基于当前信道状态估计和系统得到的瞬间回报基础上，结合（式(4)）选择“合适”的信道让终端侧接入无线环境。

3.2 基Q学习无线资源管理方法

本文采用将每一个终端视为一个agent，通过采集信道状态信息以及相邻基站信道状态，然后选择一种最大化系统吞吐量来实现信道接入。为了实现全局最优，本文定义一个统一管理的资源分配策略表，一旦某一个终端实现无线资源接入，该策略表通过集中控制器进行更新，从而每个终端将会感知到基站的资源分配情况。基于Q学习无线资源管理方法为：

Agent：每个基站作为一个agent；

Action：在t时刻下系统的策略集a[t]；

Reward：系统奖励为系统的最大吞吐量之和，也就是满足当前用户QoE约束下agentk选择空闲信道i的平均吞吐量r[t]。

基于上述定义，Q函数学习的更新过程如下：

β表示上一时刻策略选择对下一时刻策略选择的影响系数。每一个agent在信道进行探索，决定继续探索还是直接接入该信道。首次的信道分配是随机选择的，QoEm的实时测量是用于后续无线终端接入中资源分配的标准。在无线终端接入扩张过程中，系统选择Q值最大的方案进行信道资源的分配，然后结合学习概率不断迭代，寻找全局最优方案。系统在完成最优策略后，Q表根据当前的状态以及策略的选择进行Q值更新；然后每一个Agent将开始观察观察下一个状态，进入下一次无线资源接入策略的选择，如此不断迭代。

4 实验分析

本文在一个空旷小区搭建实验环境，设置基站数量为3，天线数量为32，子载波数量为256，信道状态矩阵维度为32×256维。假设终端接入请求服从泊松分布，终端接入数量为0～5 000个，具体仿真参数如表1所示。为了验证5G超密集组网接入拥塞问题，本文在仿真过程中没有考虑信道衰落和损耗，而将拥塞的原因归结为由于信道资源分配不合理导致的接入冲突或者碰撞。为了对信道状态进行有效估计，本文使用30个批次数据进行多次训练，其中包括5 000个正常信号样本和3 000个噪音样本，最后采用1 000个测试样本对信道状态感知算法进行测试。下面将随机高斯测量矩阵与本文算法在NRSE（归一化根平均误差）进行对比，以此来对比采用更少的测量值情况下信道状态矩阵的恢复精度。

表1 仿真参数

高斯测量矩阵是假设信道数据结构特征满足高斯分布，而本文算法的测量矩阵是基于空频域特征和时延域特征进行学习后，引入注意力机制对空频域特征和时延域特征进行融合后得到的信道数据结构特征。从图3可知，本文的算法能够采用更少的测量实现相同水平的恢复精度，在实际中相当于需要更少的资源开销就能实现信道状态的估计。

图3 不同测量矩阵的NRSE性能对比图

基站侧获取已经成功接入的请求数量以及接入前导的资源情况，但无法获取其覆盖范围下即将接入的请求数量，为了求解接入成功率，我们通常采用随机前导序列的使用情况来确定当前基站请求的规模。因此，接入成功率=成功接入的请求数量/前导序列请求数量。

当终端侧发出无线接入请求时，每个基站/小基站设置信道资源，信道资源数量决定了接入终端设备的数量。海量的终端请求在短时间内发出，但是信道资源分配是有限的，为了简化计算，本文设置基站分配信道的大小等同于信道的数量。因此，系统平均吞吐量是在一段时间内网络成功传输的信道数量平均值。

在获取信道状态特征的基础上，本文采用强化学习的方法实现信道选择，将传统的随机信道接入算法与本文提出的算法在接入成功率和系统平均吞吐量两方面进行比较。

从图4可知，终端接入成功率随着接入数量的增加呈现下降的趋势，这是因为空闲信道的数量是有限的，当等待接入的终端越多时，随机分配算法很可能将用户终端分配到同一个信道上，最终导致接入失败。而本文算法会结合基站的信道状态以及同一小区其他用户反馈参数合理分配信道资源，除此之外，本文的信道分配是基于业务QoS约束下进行分配的，因此在一定程度上降低了数据传输的失败率。

图4 不同算法接入成功率的对比图

从图5可知，本文提出算法比现有随机接入信道算法拥有更高的平均吞吐量，这是因为本文算法是基于业务QoS约束下以吞吐量最大化为目标对可用信道进行选择，而随机接入仅仅考虑信道的可用性，没有结合业务本身的需求以及系统吞吐量等条件的约束，因此在同等条件下，随机接入信道算法需要更高的频谱资源才能实现系统平均吞吐量的快速提升。

图5 不同算法平均吞吐量的对比图

5 结束语

本文提出一种面向5G超密集组网的无线资源管理策略，通过深度学习的方法获取信道状态信息，该方法无需要获取先验的信道数据特征，引入注意力机制对空频域特征和时延域特征进行有效融合，能够采用更少的测量值实现相同水平的恢复精度，大大降低了信道的资源开销。除此之外，采用强化学习的方法选择可用信道，基于现

道状态估计和在有限探索的基础上，在业务QoS约束下以系统吞吐量最大化为目标实现可用信道的选择，会在很大程度上提升了终端侧的接入成功率和系统平均吞吐量。实验表明，本文无线资源管理策略不仅能够节省信道资源开销，还能提升频谱利用的效率，提升用户满意度。