薛 青 来 东 徐勇军 闫 莉
①(重庆邮电大学通信与信息工程学院 重庆 400065)
②(澳门大学智慧城市物联网国家重点实验室 澳门 999078)
③(西南交通大学信息科学与技术学院 成都 610031)
近年来毫米波通信作为提升5G网络性能的关键技术之一被广泛关注,同时也面临着诸多挑战。挑战1,毫米波传输容易受到外界环境的干扰,存在较高的路径损耗,导致其网络覆盖范围有限。解决此问题的一种可行的方案是超密集组网技术。通过密集部署大量的毫米波基站(millimeter wave Base Station, mBS)提升网络覆盖范围,并利用波束成型技术产生定向波束解决毫米波传播距离有限的问题。挑战2,毫米波通信链路在通过固体障碍物时会遭受严重的穿透衰减或信道阻塞,极大地影响了毫米波通信的鲁棒性。目前的研究中,解决此类问题的主要方法有多连接技术、智能反射面辅助[1]的毫米波通信等。本文利用多连接技术维护来自不同mBS的多个可能的信号路径,以免造成因某条通信链路中断而导致的用户服务质量大幅受损。超密集组网和多连接技术的同时使用会使得波束管理问题[2-4]相较传统网络更加复杂。
传统的波束管理方法存在很多问题,包括复杂度高、训练开销大、访问延迟等,很难满足智能化时代的发展。已有研究表明,机器学习技术(Machine Learning, ML)是毫米波通信系统中实现波束管理智能化的有效工具[5],特别是在动态环境中。针对超密集组网的毫米波通信系统,文献[6]提出了一种基于深度Q网络(Deep Q-Network, DQN)的用户关联方案,为移动用户提供可靠的连接和高可实现的数据速率。现有的ML算法虽然可以解决部分波束管理存在的问题[7],但也暴露了一些潜在的风险,特别是在用户数据的隐私保护方面。传统集中式ML通常需要由一个中心控制节点进行数据的收集和处理,数据流动性较大,用户安全隐私得不到保障。全分布式ML虽然能够保证用户的隐私安全,但其节点之间没有信息共享,存在数据孤岛问题。作为一种新的机器学习范式,联邦学习[8](Federated Learning, FL)可以很好地解决这些问题。文献[9]提出了一种基于FL架构的大规模波束管理模型,在一定程度上克服了集中式与全分布式ML的不足。但是,传统FL的中心控制节点是单一的,存在单点故障的隐患,而且各个节点可能无法同时信任一个中心控制节点。为此,文献[10,11]提出一种分布式联邦学习 (Distributed FL, DFL)下的波束管理模型,将双DQN算法(Double DQN,DDQN)应用于超密集组网[12]下的波束配置,以实现基站侧波束的自适应管理。
本文的主要贡献如下:(1)与传统的基于波束训练和波束跟踪的波束管理方法不同,本文提出一种基于周期性感知用户分布完成mBS侧波束动态配置方法,旨在利用有限的波束实现最大化用户覆盖率,提升波束利用效率。(2)在前期工作基础上,提出了一种基于DFL的波束配置方法(Beam management Method based on DFL, BMDFL),目的是实现用户隐私安全保护,同时关注全局性能提升。相较于传统的联邦学习架构,BMDFL可降低固定中心控制节点的开销,并提升网络部署的灵活性。(3)将系统吞吐量的长期优化问题建模为马尔可夫决策过程(Markov Decision Processes,MDP),并利用DDQN进行本地模型训练,实现智能化的波束配置。(4)仿真结果表明,本算法在网络吞吐量和用户覆盖率方面有较好的性能。同时,与全分布式ML和集中式ML算法对比,验证了本文算法的有效性。
如图1所示,本文系统模型主要由3部分组成,分别是临时中心控制节点、mBS和用户,此处的临时中心控制节点是指承担全局模型聚合任务的mBS。假设M个mBS密集部署在某一集群(小区)覆盖范围内,用集合M={1,2,...,M}表示,而用户随机分布在这M个mBS周围,并用U={1,2,...,U}表示用户集合。在此网络框架中,利用地理位置的不同将mBS分为若干个集群,集群内部的mBS之间通过X2接口相连接。同一集群内的多个mBS通过DFL的方式进行模型共享,而多个集群之间也可通过类似的方法实现模型的共享。
图1 系统模型
假设mBS的发射波束是通过波束成形技术形成的多个空间正交的窄波束,且每个波束的覆盖范围有限,要想实现基站区域全覆盖,就必须有足够多的发射波束支持。然而,实际的无线通信系统中,mBS能同时支持的并行波束数量有限,可能无法达到预期的效果。因此,如何利用有限的波束资源实现基站覆盖范围最大化是本文关注的重点。假设mBS m(m ∈M)的覆盖区域可以划分成sm个可用的扇区,不同的扇区表示不同的波束发射方向,而且每个mBS最多支持bm个波束并行传输,其中0≤bm ≤sm。为了防止因某一条链路发生中断而导致的用户服务质量受损,引入多连接技术来确保用户可以同时关联多个mBS,增强通信的鲁棒性。本文用一个二进制的关联参数={0,1}表示用户u(u ∈U)和mBS m(m ∈M)之间的关联关系,其中=1表示在t时刻用户u与mBS m相关联,=0表示未关联。当用户与多个mBS相关联时,用Mc(Mc ⊆M)表示t时刻该用户关联的mBS集合,用户u 关联基站数目为≤M。与传统的波束管理不同,本文旨在通过基站侧的波束配置来最大化系统级性能,而非单个链路的质量。假设每个波束管配置周期内的波束是静态的,其周期长度一般与用户移动性和波束扇区的范围有关。
其中,du,m为用户u到mBS m的距离,单位为m,α和β分别表示测量距离上的浮动截距和斜率的最小二乘拟合,σ2为对数正态阴影方差。
用户与mBS m相关联时的信干噪比(Signal to Interference plus Noise Ratio, SINR)可以表示为
其中,Pu,m表示mBS m分配给用户u的发射功率,和分别表示发射天线增益和接收天线增益,Pnoise为噪声功率。基于多连接技术,用户u可以同时关联多个mBS,则用户u在t时刻的接收和速率为其中Wu,m表示mBS m分配给用户u的带宽。因此,t时刻系统的网络吞吐量可表示
为了实现波束资源的充分利用,本文提出一种基于周期性获取瞬时用户分布的波束配置策略。将t时刻波束配置策略表示为t时刻所有mBS覆盖的扇区集合,即系统的波束管理策略C(t) ={C1(t),C2(t),...,CM(t)},其中Cm(t)表示t时刻mBS m覆盖的扇区集合,1≤m ≤M。本文通过执行C(t)完成基站测的波束配置,进而提升基站的用户覆盖率,实现长期优化系统的网络吞吐量,即
其中,T表示整个通信的过程,即mBS完成所有波束配置的时间,τ表示mBS进行1次波束配置的周期,ω表示用户可以正常接收和解码信息的SINR阈值。在优化问题P1中,C1用于约束mBS的发射波束数量,C2用于保证通信链路质量,C3和C4用于约束用户可关联mBS的上限。由于C(t)为一个离散的时间变量集合,P1在本质上属于一个非凸的动态规划问题,难以使用传统的方法进行求解,引入DDQN是现阶段处理此类问题的有效方法之一。同时,考虑到用户隐私保护问题,本文基于DFL框架进行波束配置模型训练。
P1可以转化为一个离散时间随机系统在不确定的情况下进行的顺序决策问题进行求解,即马尔可夫决策过程 MDP={S,A,P,R,γ},其中,S和A分别表示状态空间和动作空间,P表示从当前状态St转变到下一状态St+1的状态转移概率,R表示奖励函数,γ表示折合因子,γ ∈[0,1]。各部分具体定义如下:⑴状态:mBS m在t时刻的系统状态表示为St={Um(t),Cm(t),Dk(t)},其中Um(t)为该mBS在t时刻服务的用户集合,Dk(t)={Ck(t)}k=1,2,...,M,k̸=m为t 时刻除了m B S m 覆盖的扇区Cm(t)外所有mBS的覆盖扇区集合。⑵动作:At表示时间t内该mBS m的动作,At={Cm(t)},表示t时刻mBS m服务于用户集合Um(t)的波束扇区集合Cm(t),即t时刻最佳的波束配置策略。⑶转移概率:将mBS m的网络状态从St转到St+1的概率定义为本问题的转移概率,Pm=Pr(St+1|St)。⑷奖励函数:为了最大化系统的吞吐量,将P1中的优化目标作为此次的奖励,即Rt=R(t)。
正如Zelt等(2003)提倡的,合理地进行初至波层析成像可以提供最小结构的速度模型。因此,初至波层析成像的结果对检验更复杂方法的结果是至关重要的。初至波层析成像中呈现的结构,也应该在用其他方法得出的模型中呈现,包括利用续至波的方法。
传统的强化学习算法解决上述MDP问题时,会产生大量的状态空间和动作空间,导致算法的时间开销过大,而且特定mBS产生的状态变化还会影响其他mBS的状态和动作,导致无法直接获得状态转移概率。为此,引入DDQN算法,利用神经网络来估计价值函数,以学习器的部分收敛速率作为代价,提高学习的精度。同时,利用DFL框架,分布式地训练mBS的本地模型,充分利用每个mBS的计算资源,以此提升学习效率。
本文所提BMDFL是一种基于DFL框架开发的毫米波通信系统波束配置算法。在BMDFL中,每个mBS内都包含一套完整的训练程序,即可实现局部(本地)模型训练和全局模型聚合两种功能。基站集群内部的mBS可以通过共享模型参数来参与全局模型的训练,集群之间也可以通过相同的方式进行模型共享。DFL框架的使用能够消除单点故障的隐患,最大化利用mBS的计算资源。如图2所示,BMDFL算法的执行过程大致分为3步:模型初始化,局部模型训练和全局模型聚合。
图2 基于DDQN的BMDFL框架
(1) 模型初始化:通信开始时,每个mBS从临时中心控制节点处下载全局模型,以进行模型初始化。此处的临时中心控制节点是指承担全局模型聚合任务的mBS。假设每个mBS的通信都由τ个时隙组成,在此基础上建立Q-learning模型,ϑt,m表示t时刻第m个基站需要更新的局部模型,G表示上轮通信完成后系统输出的全局模型。对于ϑt,m的更新可表示为
其中,ρ为学习率,L(ϑt,m)表示第m个mBS的损失函数,∇表示梯度运算,nm表示第m个mBS的训练量,初始化模型是全局模型和局部模型进行联邦平均之后的结果。每个mBS根据初始化的参数进行基站侧的波束配置,以完成与用户的通信。在此过程中,mBS会收集用户的信息,以完成局部模型训练。
(2) 局部模型训练:模型训练开始之前,mBS通常会对收集到的用户信息进行一次筛选,选择更为合适的用户参加训练。为了保证通信的质量,可选择处于该mBS覆盖半径Φm以内的用户作为本次交互的对象,即du,m ≤Φm。同时统计各用户参与模型训练的频率ku,m/kU,m,其中ku,m表示用户u参与训练的次数,kU,m表示mBS m的总训练次数。下次训练时优先选择那些参与训练频率低于κ的用户,以保证训练样本的多样性。
mBS筛选完用户样本之后,开始根据其覆盖范围内的用户位置信息进行波束配置模型的训练。本文使用DDQN算法来训练每个mBS的局部模型,它与DQN算法的框架基本一致,不同的是目标函数的选择
其中,Rt+1为t+1时刻的奖励函数,Q是该时刻得到的状态-动作值如式(6)所示,ϑt,m为训练Q网络的权重参数,为目标Q网络的权重参数
模型训练结束后,根据DDQN算法的特性,将训练的模型利用类似于梯度下降的方法进行整合,从而得到训练之后的模型
其中,λ为步长。定义算法的损失为两个Q网络之间的误差函数
完成局部模型训练的mBS会将自己所训练的模型参数上传至临时中心控制节点进行模型的聚合。关于临时中心控制节点的选择,本文考虑如下方法:通过基站的执行时间来进行临时中心控制节点的选择,即Tm= min(T1,T2,...,TM),其中Tm指mBS m完成本地训练任务所需要的时间(执行时间),选择mBS集群中执行时间最少的mBS m作为承担全局模型聚合任务的临时中心控制节点。临时中心控制节点选择完成后,集群内的其他基站发送本地模型参数到mBS m,以参与全局模型的更新。这种方法可以最大化mBS的计算资源分配,减少不必要的浪费。
(3) 全局模型聚合:承担临时中心控制节点任务的mBS将所接收到的M个模型进行联邦平均,重新训练出一个更符合此小区的基站侧波束配置模型,并将此模型作为下一轮通信的初始化模型分发给参与协作的mBS,以此来最大化系统吞吐量。模型聚合将通过式(9)的方式进行
其中,ϑt,m表示第m个mBS上传的模型参数,n表示集群内所有参与训练的mBS的总训练量。本文使用联邦平均算法进行全局模型的聚合,所传输的参数也只是更新特定模型所需要的最少信息量,并没有原始数据的参与,在一定程度上可以更好地保护用户的隐私。
本文所提BMDFL实现过程如算法1所示。本地mBS完成初始化操作后,开始根据有效的用户样本对深度神经网络进行训练,训练得到的Q值用于指导DDQN框架中的行动决策(即判定波束覆盖哪些扇区)。每轮局部训练结束后,mBS将训练好的神经网络权重参数发送给临时中心控制节点以参与全局模型的更新,并将更新之后的全局模型作为新的初始化模型分发给参与协作的mBS。记J为通信轮次,本算法的时间复杂度为OBMDFL=O((|U|·|M| +τ)·J)。BMDFL的局部训练过程可以近似为全分布式的ML过程,每个mBS通过本地数据训练波束模型,避免了用户数据的流通,从根本上解决了用户隐私安全问题。相较于传统FL, BMDFL采用DFL框架,利用临时中心控制节点进行全局模型聚合,节省了中心控制基站的开销,提升毫米波组网的灵活性。
算法1 基于分布式联邦的毫米波通信系统波束配置算法
假设M个mBS均匀分布于100 m×100 m的正方形区域中,并用一组随机生成的坐标值来模拟用户位置的变化,M的具体设置详见后续的性能仿真实验。在仿真实验中,假设mBS的带宽和发射功率平均分配给所服务的用户,其具体的参数设置如下:工作频率为28 GHz,可用带宽为2 GHz,发射功率为37 dBm, mBS的发射天线增益和用户的接收天线增益分别为12 dB和10 dB,路损模型PL(du,m)的参数分别设置为α=61.3,β=2.1和ξ~N(0,4)。考虑到本文提出的波束管理策略与波束扇区的关系,将每个mBS的覆盖范围统一划分为8个扇区,即每个扇区负责45°的覆盖区域。假设每个mBS最多支持3个波束并行传输,且每个用户最多可关联3个mBS。此外,本文利用Pytorch中的Sequential模块搭建了一个4层全连接的神经网络作为mBS的学习器参与本地训练,其具体设置见表1。
表1 神经网络结构设置
4.2.1 算法收敛性
为了验证本文算法的有效性,进行了BMDFL的收敛性测试。如图3所示,将训练过程中DDQN算法的平均损失作为测量BMDFL性能的指标,以探究算法的收敛性能。其中Lavg(ϑ)表示系统的平均损失,LDDQN(ϑ)表示1次迭代中DDQN算法的损失,iters表示迭代次数。从图3可以看出算法的平均损失函数值在开始阶段呈急剧下降的趋势,而在达到一定迭代次数之后趋于平稳。其主要原因是BMDFL采用随机梯度下降的方式进行局部模型更新,而DDQN算法的平均损失主要与两个Q网络之间的预测差值有关。由于随机梯度下降的特性,开始的曲线下降趋势较为剧烈,随着迭代次数的增加,两个Q网络之间的预测差值逐步减小,曲线逐步趋于平稳。本仿真其余的参数设置如下:目标网络更新步长为4,经验回访池容量为400,批处理大小为36,折扣因子为0.8。后续性能仿真中,神经网络参数设置与本仿真相同,且选择学习率为0.05的神经网络作为最终的学习器参与训练。本文设置的超参数可能不是最优的,但它们可以使BMDFL算法获得较好的收敛性能。
图3 BMDFL算法收敛性
4.2.2 算法性能
以下实验围绕毫米波系统的网络吞吐量和用户覆盖率进行所提算法的性能评估。
网络吞吐量:图4(a)所示为用户密度对系统吞吐量的影响,并以其为例进行临时中心控制节点选择的说明。实际的仿真实验中,将集群内的基站进行编号,即M={1,2,3,4,5,6},并利用代码的运行时间来模拟3.3节中基站的执行时间,以进行临时中心控制节点的选择。图4(a)中随着用户密度的增加,其承担临时中心控制节点任务的mBS编号分别是2,2,1,2,2,6,5,6,6,2(即代码运行时间最短的基站)。定义用户密度Du为用户个数U与实验区域面积area之间的比值,即Du=U/area。仿真结果表明,系统的网络吞吐量随着用户密度的增加而增加,但是当用户密度增加到一定程度时,曲线开始趋于平稳。如图4(b)所示,考虑了SINR阈值对系统的网络吞吐量的影响。结果表明,SINR阈值过大或者过小都有可能影响系统的网络吞吐量。
图4 BMDFL性能随用户密度和SINR阈值的变化
图5所示为BMDFL在不同mBS密度下系统的网络吞吐量性能,此处数据为多次运行仿真之后的平均结果。m B S 密度的定义同用户密度,即Dm=M/area,其中M表示基站的个数。如正常预期的那样,不同基站密度下系统的网络吞吐量均随着用户密度的增加而增加,但是当用户密度增加到一定程度上时,系统的网络吞吐量开始趋于平稳。这可能是因为超密集组网下mBS所设置的最大连接数、可用带宽、发射功率等资源有限,从而导致用户密度过大时,系统的网络吞吐量存在瓶颈。用户密度固定时,随着基站密度的增加,可用的波束资源越来越充足,系统的网络吞吐量也就越大。
图5 BMDFL在不同基站密度下的网络吞吐量性能
为了进一步证明BMDFL算法的性能,将其与以下两种波束管理方案进行比较:⑴基于全分布式ML的波束配置方法(Fully Distributed Beam management Method, FDBM):mBS执行DDQN算法训练本地模型,并独立地进行波束配置。⑵基于集中式ML的波束配置方法(Centralized Beam management Method, CBM):中心控制节点执行DDQN算法进行全局模型训练,mBS只参与用户数据的收集与上传。
图6和图7评估了BMDFL与两种对比算法的网络吞吐量性能和用户覆盖性能与用户密度的关系。mBS个数M=6,信干噪比阈值ω=-20 dB,其余参数与算法收敛性验证中设置相同。图6所示结果表明,对于相对较低的用户密度,3种方案的网络吞吐量基本一致。但对于用户密度较高的情况,FDBM展现的性能最优,BMDFL次之,CBM的性能最差。如图7所示,用户覆盖率的性能与网络吞吐量类似。随着用户密度的增加,CBM的用户覆盖最少,而BMDFL与FDBM的性能接近。本算法对比FDBM的优势是通过多智能体的协作来提高模型训练的准确性和学习的收敛速度,由于仿真使用的用户数据集较小,本算法的优势还不明显。对于CBM的结果,可能的原因是算法收敛到次优解,导致结果普遍偏低。ML算法的特点就决定了它无法保证每次的结果都是最优解,这是一个迭代的过程。
图6 BMDFL,FDBM和CBM网络吞吐量性能对比
图7 BMDFL,FDBM和CBM用户覆盖率性能对比
针对超密集组网中毫米波基站侧的波束配置问题,本文提出一种基于DFL的自适应波束配置方法BMDFL,旨在利用有限的波束资源实现最大化波束覆盖率,提升波束利用效率。相较传统集中式和全分布式机器学习架构,所提BMDFL算法在提升网络吞吐量和用户覆盖率方面有着较大的优势,并在同等条件下确定了最优的基站波束配置。