基于强化学习的LTE与WiFi异构网络共存机制

2021-06-19 06:46:50林粤伟

电子科技大学学报 2021年3期

林粤伟

(1.青岛科技大学信息科学技术学院山东青岛266061；2.海尔集团博士后工作站山东青岛266000)

随着无线通信技术的发展，LTE、5G、WiFi等技术方兴未艾，8K视频、VR、AR等新颖的高吞吐率、低时延业务需要更大的频谱带宽支持。现有频谱资源分为授权和非授权频带，仅仅依靠授权频带已无法充分保证未来4.5G、5G高吞吐量业务的带宽QoS要求[1]。载波聚合(carrier aggregation,CA)或频谱聚合是LTE-Advanced标准R10的一个重要特性，通过将多个连续或非连续的载波(频谱)聚合成更大的带宽(最大100 MHz)，能够实现在100 MHz的带宽内，提供下行1 Gbit/s、上行500 Mbit/s的速率[2]。LTE早期只专注于授权频段的聚合，在4.5G、5G研究领域，聚焦于授权与非授权频段的频谱聚合技术也被提出并得到广泛研究，其中将LTE部署在非授权频段的技术称为LTE-U(unlicensed)[3-4]，使用的是低于6 GHz的非授权频段。毫米波频段(如60 GHz)不在LTE-U的研究范围内，有专门的技术对LTE在毫米波频段部署进行研究[5]。

LTE-U使用的6 GHz以内的非授权频段主要指2.4 GHz和5.8 GHz两个频段，在这两个频段已经部署有WiFi、蓝牙、雷达等无线通信系统，LTE-U作为后来者，需要解决好LTE与现有无线通信网络(尤其是WiFi网络)之间的共存与干扰问题。主要有两种技术来解决非授权频段中的已有无线通信系统与LTE-U的共存干扰问题，分别是：基于listen-before-talk(LBT)[6−7]和不基于LBT(non-LBT)[8]的两类技术。LBT类似于WiFi的(carrier sense multiple access)CSMA/CA(载波侦听多址接入/冲突回避)多址接入协议，采用基于竞争的接入策略。LTE-U在发送数据前需要先探测信道是否空闲以决定是否接入，以降低LTE-U与WiFi的冲突概率。文献[9]使用基于LBT的方法处理多个RAT之间和RAT内部由于LTE-U与WiFi共存带来的干扰问题。在美国、中国、韩国、印度等国家，并没有强制要求LTE-U必须实现LBT机制，并且在LBT机制下两种无线通信系统都要检测信道，频谱利用率降低。non-LBT机制中，LTE-U会周期性地静默一段时间，在该段时间内不发送或几乎不发送数据，从而使WiFi有更多机会发送数据。

文献[10-11]基于non-LBT方法处理了LTE-U和WiFi系统间的共存与干扰问题。文献[10-12]分别使用了基于空白子帧、duty-cycle、上行链路功率控制的方法，都没有触及ABS空白子帧的比例问题。基于几乎空白子帧(almost blank subframe,ABS)(下面简称空白子帧)的方法是一种典型的non-LBT的LTE-U与WiFi在非授权频段的共存机制，该机制最为重要的是如何确定空白子帧所占无线帧的比例，以确保系统的公平性和性能。文献[13]使用频谱侦听的方法对一定区域内WiFi AP的数目进行估算，进而提出了一种根据LTE基站周围WiFi热点的强度调整空白子帧数目的方法。文献[14]基于排队论模型研究了数据包的到达对LTE-U和WiFi的平均数据包时延的影响，但没有提出具体的异构网络共存机制，只是为WiFi和LTE-U的共存提供了一个指导准则。文献[15-16]研究了如何决定ABS空白子帧的比例以确保公平性，但是没有考虑无线网络的业务量负载情况。文献[17]考虑了业务量负载情况，但只研究了单一的业务(FTP)和吞吐量QoS指标，没有考虑多业务场景和时延等技术指标。

本文针对基于ABS空白子帧的LTE-U小基站(small BS/SBS)与WiFi AP共存的场景，提出了基于强化学习算法的智能化LTE-U与WiFi的共存机制，考虑了无线网络的业务量负载情况，能够提高不同无线网络的时延性能，进而提高系统的用户满意度。较已有的动态配置ABS空白子帧的算法，提出的基于强化学习的QL-ABS算法能够较好地利用以往学习经验(具有更好的在线性能)，后续决策可以利用先前学到的经验，从而做出更为合理的配置决策，提升系统的时延、在线性能及用户满意度。

1 系统模型

考虑由一个宏基站(macro BS)、一个LTEU小基站(small BS/SBS)、一个WiFi AP组成的网络模型，如图1所示。分别有Nl个SBS用户设备(user equipment, UE)和Nw个WiFi终端(STA)，LTE基站可与WiFi AP进行协作式信息交互。在较低的授权频带，UE的控制数据由宏基站发送，UE的业务数据由小基站发送。小基站和AP共享公共的非授权频带，由小基站配置空白子帧。LTE帧长10 ms，包括10个1 ms的子帧，不允许小基站在空白子帧期间发送数据。此时，相应信道将为空闲状态，并且可以被WiFi AP访问。本机制专注于确定空白子帧的数量，当多个空白子帧为时间连续时，WiFi可以获得更多的传输时间，一旦确定了空白子帧的数量，n帧的连续子帧就被指定为空白子帧。

图1 网络模型

对于非授权共享频带(信道)，在时间域WiFi AP基于CSMA/CA的讲前先听(LBT)的接入方式进行访问，LTE-U小基站则使用ABS空白子帧的方式降低与WiFi的冲突概率。使用排队论对上述WiFi AP和LTE-U小基站的共享非授权无线频率的行为进行建模[14,18]。WiFi AP和LTE-U小基站可以被看做两个互相独立的M/G/1队列，接收到的数据包被放入队列。如图2所示，数据包的到达率服从强度为λi(i∈{w,l})的泊松分布，其中λi表示LTE-U或WiFi无线网络的业务负载强度。每个节点S的数据包服务时间互相独立，服从一般分布。以Si,o表示进行包传输的信道占用时间，Si,o服从强度为µi的指数分布，E[Si,o]=1/µi。以Si,v表示占用业务信道之前数据包在队列中的等待时间。Si,o和Si,v这两个时间之和即为数据包服务时间(以Si表示)，即：

使用平均包时延Di作为衡量系统性能的指示参数。参数Di与包到达率λi和LTE帧中空白子帧的数量n有关。

图2 LTE-U与WiFi共存系统的M/G/1排队模型

2 基于强化学习的LTE-U与WiFi共存机制

前文排队论中的时间参数可以映射为无线通信系统的数据包从到达基站(或AP)到被UE(或STA)终端接收两个时间点之间的总时间，即数据包传输时延。考查WiFi和LTE-U无线通信网络的时延，并将其作为定量评估不同无线通信网络性能的指标参数。对于LTE-U所采取的基于ABS空白子帧的非授权频带的共享访问方式，如果一个LTE无线帧总共含有N个子帧，其中空白子帧的数量为n。考虑第一种情况，LTE-U在信道空闲状态下可随时接入信道，那么LTE接入信道的概率为1−n/N。此时，LTE-U系统的数据包服务时间Sl,case1=Sl,o。考虑第二种情况，在系统恰好处于ABS空白子帧时间段的时候，LTE-U不能访问共享非授权频率，产生该情形的概率是n/N，LTE-U只有等待剩余的空白子帧时间段结束，才能马上接入无线共享信道并发送数据包，此时，LTE-U的数据包服务时间：

式中，Rw服从均匀分布，该参数是除去已经在时间上流逝掉的，剩余的需要LTE-U小基站等待的空白子帧的时间。综合考虑前文描述的两种情形，得出LTE-U系统的数据包服务对应的平均时间：

式中，Rw和Sl,o彼此独立，得出Sl的数学期望和方差分别为：

然后，由Pollaczek-Khinchin (P-K)公式计算得出LTE-U系统的平均包时延的算式：

WiFi AP的MAC层使用CSMA/CA协议接入无线信道。AP发送数据包前先对信道进行监听，如果监听到信道在一段时间间隔(分布式帧间间隔(DIFS))内处于空闲状态，则AP将产生一个随机退避(back-off)间隔，该退避间隔服从0～CWmax的均匀分布，其中CWmax表示竞争窗口最大值。只要信道空闲就开始倒计时，每流逝1个WiFi时隙的时间倒计时计数器减1。当计数器达到零时，AP发起一次数据传输。否则，如果在倒计时过程中信道被其他设备占用，AP必须重新启动DIFS并继承先前剩余的退避计数。对于WiFi系统而言，WiFi AP对于共享非授权无线信道的占用受到LTE-U小基站的影响。当LTE-U小基站没有接入无线信道时，AP基于前文描述的侦听协议发起接入信道的操作，只有在计数器的值减少到0时才可接入信道，这时WiFi数据包服务时间：

此外，对WiFi系统来说，如果其数据包在非空白子帧时刻到达，那么AP只有等到LTE-U的非空白子帧时间，即数据传输时间结束后才被允许访问占用信道。此时AP的数据包服务时间：

式中，Rl服从均匀分布，该参数表示剩余的非空白子帧时间段，式中各项彼此独立。根据前文分析，得到AP的数据包服务时间：

式中，Sback服从0～CWmax的均匀分布；常数SDIFS是分布式帧间间隔(DIFS)。进而分别得到AP的数据包服务时间的均值与方差：

根据式(11)～(12)可以得到：

由P-K公式，得到WiFi系统的平均包时延的算式：

下面介绍基于强化学习中的Q学习的智能空白子帧配置算法(QL-ABS)，该算法可以提升异构无线网络在非注册频带的时延性能。对于动作的选择，探索策略采用ε贪婪算法。为LTE-U预先定义一个时延性能目标Ptar。LTE-U的SBS小基站可以自主地动态调整空白子帧的数量，这里多个空白子帧时间上连续挨在一起而不是离散分隔开，使得性能尽可能地接近Ptar。SBS的动作集合为A={a1,a2,···,am}，状态集合为S={s1,s2,···,sn}，ak和sj分别代表SBS可能的动作和状态。在Q学习中，SBS小基站(agent)会维护一个Q值表，该表存有每一对状态sj∈S(1≤j≤n)和动作ak∈A(1≤k≤m)对应的Q值Q(sj,ak)，该值表示当SBS在状态sj选择执行动作ak时对未来代价的预测。

SBS小基站在某一状态sj选择并执行动作ak，基于来自环境的反馈，用代价值c表示该反馈，该代价值定义为在前一空白子帧配置周期中的LTE数据发送时间里得到的LTE-U的性能P与目标性能Ptar差值的绝对值。进而得到SBS小基站的下一状态sj′∈S(1≤j′≤n)。然后，基于得到的下一状态sj′和计算出的代价值c，更新当前状态动作对sj和ak对应的Q值：

式中，α,γ分别为学习率和折扣因子(仿真中取值为0.5)。学习率 α(0≤α≤1)决定学习的速度，如果α过小，学习过程的时间会很长；如果α过大，算法可能会不收敛；折扣因子 γ(0≤γ≤1)控制未来代价的价值，体现了未来代价相对当前代价的重要性。γ越小，学习将越依赖于当前代价；γ越大，学习将越依赖于未来代价。合理的选择这两个参数的值，可以有效控制Q学习算法的学习过程。

选择动作时，需要考虑“探索−利用”的折中问题，即在给定状态条件下，是尝试新的动作以获得更多的经验，还是根据已有的学习经验来选择动作。尝试更多新的动作将获得更为全面、丰富的经验，进而达到更好的优化目标，但相应消耗的学习时间也更多；更多依赖以往经验可以令算法的学习过程收敛并较快稳定，但也可能陷入局部最优解。一旦当前状态动作对sj和ak的Q值得到更新，为下一状态sj′选择一个动作ak′∈A(1≤k′≤m)。采用ε−贪婪算法，首先生成随机数r∈U(0,1)，并与ε贪婪参数比较，该参数通常取值很小(如0 .01≤ε≤0.05)。如果r值小于ε贪婪参数的值，则随机选择一个动作。否则，在得到的下一状态sj′中选择使Q值最小的动作，即：

将LTE-U SBS小基站的动作、状态、代价定义如下。

动作：

式中，ak∈A(0≤ak≤1)表示一个LTE帧(含10个子帧)内所有空白子帧所占的时间比例。比如0.1表示每10个子帧中有1个LTE空白子帧，9个LTE数据发送子帧。

状态：

式中，P为系统总体实验性能(反映了用户对时延性能的满意度)；Pi为第i个用户的用户满意度；Dj为前文推导过的LTE-U SBS小基站或WiFi AP的平均包时延；di为每一用户对应业务(假定每一用户在任一时刻只有一种业务)的时延QoS要求。VoIP业务的时延要求为di=2 ms，Video Streaming业务的时延要求为di=5 ms，FTP业务的时延要求为di=20 ms[19]，设置Ptar=0.9。

QL-ABS算法流程的伪代码如下所示，LTEU与WiFi以协作模式共存，可以彼此进行信息交互。LTE-U的SBS小基站在每次数据传输阶段开始前，先获取WiFi与LTE-U网络接下来的业务负载强度λw与λl。

3 仿真结果

仿真考虑在非授权频段竞争频谱资源的场景，WiFi与LTE-U都只对非授权频段的频谱资源使用。用户终端的移动速率为3 km/h，分布服从均匀分布。其他的相关仿真参数如表1所示。两类系统的信道占用服务时间都是0.9163 ms。为了计算前文提到的系统总体实验性能P，基于服务类型得到每一用户的数据包时延要求，假定每一用户在任一时刻只有一种业务。

表1 仿真参数配置

对不采用共享接入算法(without-ABS)、传统的空白子帧数量固定的共享接入算法(ABS)、以及本文提出的基于强化学习的空白子帧数量动态配置的共享接入算法(QL-ABS)的性能进行了仿真对比，如图3所示。其中LTE-U的包到达率为λl=150 packets/s。在WiFi系统的包到达率λw增大时，不使用任何共享接入算法时，等待队列中积聚的被阻塞的WiFi数据包逐步增多，进而使平均包时延增加。使用空白子帧共享接入算法可以有效的减少系统时延。在高负载时，QL-ABS算法的WiFi系统的时延性能较ABS算法可以提升50%左右；在低负载时，WiFi时延性能可以提升20%左右。这是由于相比于空白子帧数量固定算法，基于Q学习的空白子帧数量配置算法可以根据系统业务强度智能的动态调整空白子帧数目，可以更好的保证WiFi与LTE-U两种系统在非授权频段共享接入的公平性。另一方面，使用QLABS算法后，LTE-U的时延只有微小的增大。相比空白子帧数量固定算法LTE-U时延大约增加了0.2 ms，相比不使用空白子帧的算法LTE-U时延增加了0.7 ms左右。如图4所示，λl=150 packets/s时，在不同的用户数情况下，QL-ABS算法都具有较好的平均包时延性能。用户数较多时，LTEU和WiFi的平均包时延都有一定程度的增加。低负载时，WiFi的时延性能增加5%左右；高负载时，WiFi的时延性能增加2%左右。

图3 平均包时延性能分析

图4 不同用户数的平均包时延性能分析

图5展示了在不同的空白子帧数量配置条件下，在采用QL-ABS动态空白子帧配置算法时，WiFi和LTE-U的时延性能变化，其中λl=150 packets/s，λw=100 packets/s。与空白子帧数量固定配置算法相比，QL-ABS在提供了较好的WiFi时延性能(低于5 ms，能够满足VideoStreaming业务的时延QoS要求)的同时，能够保证LTE-U的时延性能只有微小的下降(低于2 ms，可以满足时延QoS苛刻的VoIP语音业务要求)。QL-ABS更适合WiFi和LTE-U异构网络的整体时延性能优化，在高负载情况下QL-ABS的这种优势会更加明显。WiFi时延性能增加的原因是当SBS小基站考虑性能目标Ptar，基于突发的业务强度动态调整空白子帧数量时，WiFi获得了更为公平的接入共享非授权频谱的机会。

图5 ABS配置与时延

图6显示了动态的WiFi和LTE-U数据包总到达率，图7显示了对应系统总体时延性能P(用户满意度)的结果，并对比了QL-ABS和基于效用函数的动态自适应ABS配置算法(A-ABS)[17]的在线性能。可以看出系统第二天的性能明显好于第一天，且QL-ABS较A-ABS算法具有更好的在线性能，这是因为QL-ABS算法第二天的决策可以利用第一天学到的经验，从而做出更合理的动作。随着在线性能的提高，用户满意度也会相应得到提升。

图6 连续两天动态变化业务量

图7 QL-ABS算法在线性能

4 结束语

本文提出基于Q学习的LTE-U的空白子帧配置机制，使用排队论对LTE-U与WiFi共存的5G异构网络进行建模。仿真结果表明，通过自主学习过程，本算法可在不同的负载条件下为LTE-U产生较为合理的空白子帧配置策略，具有较好的在线学习性能。较传统方法，本机制更好地解决了5G异构网络中LTE-U与现有WiFi网络在非授权频带的共存问题，提升了网络的总体时延性能和用户满意度，具有更好的在线性能。在未来的工作中，将把所提出的方案扩展到更为复杂的多个LTE-U SBS和WiFi AP共存的场景。

本文研究工作得到泛网无线通信教育部重点实验室(北京邮电大学)开放课题(KFKT-2018107)的资助，在此表示感谢！