基于随机学习的异构蜂窝网络离散功率控制机制①

2016-12-06 05:11王园园周一青李永会石晶林钱蔓藜

高技术通讯 2016年5期

王园园周一青李永会石晶林田霖钱蔓藜

(*中国科学院计算技术研究所北京 100190) (**中国科学院大学北京 100049) (***移动计算与新型终端北京市重点实验室北京 100080) (****悉尼大学电子与信息工程学院悉尼 NSW2006)

王园园②**********周一青③******李永会****石晶林******田霖****钱蔓藜****

针对宏基站和低功率小基站重叠覆盖共享频谱的异构网络中干扰抑制问题，提出了一种基于随机学习理论的基站下行离散功率控制机制，以便在保证宏基站传输的最低传输质量要求下，最大化网络满足传输质量要求的小基站传输个数。该方法将每个小基站作为随机学习自动机，维持一个概率向量用于传输功率选择。算法迭代过程中，小基站独立地基于自身选择的传输功率以及网络反馈的信息，即满足传输质量要求的小基站传输的个数，来更新概率向量，调整传输功率，直到系统达到均衡状态。仿真结果表明，基于随机学习的离散功率控制方法具有很好的收敛性和寻优性能，能有效提高系统可支持的满足传输质量要求的小基站传输数量，适用实际系统。

异构网络，干扰抑制，随机学习，离散功率控制

0 引言

在移动互联应用、智能终端的日益普及下，蜂窝网络整体容量亟需大的提升，热点和盲点亟需灵活的部署方案来完善覆盖。宏基站和低功率小基站重叠覆盖的异构网络成为一种提升蜂窝网络容量和覆盖的最为有效的解决方案[1，2]。为了有效利用频谱和提升频谱效率，小基站通常与宏基站使用相同的授权频谱[3]，这种部署方式使得异构蜂窝网络的干扰场景更加复杂。系统干扰包括同层干扰如小基站间干扰，以及跨层干扰如小基站同宏基站间干扰等，如果不能有效控制，干扰将极大地降低异构蜂窝网络的性能[3，4]。因此干扰抑制是部署异构蜂窝网络亟需解决的问题。

功率控制是频谱共享的异构蜂窝网络中抑制干扰的一个重要机制，现有文献表明该机制已得到广泛研究[5-9]。文献[5]提出了小基站自适应功率控制机制，小基站通过调节自己的传输功率抑制对宏基站用户的干扰，以满足宏基站用户的最低信号与干扰加噪声比(signal-to-interference-noise ratio, SINR)要求(本文中将以“SINR要求”表示一个用户的最低传输质量要求)。但上述研究并没有考虑小基站传输之间的干扰。在小基站密集部署的情况下，该机制无法保证小基站传输的SINR要求[3]。文献[6-9]综合考虑了小基站之间及小基站与宏基站之间的传输干扰，提出了基于非合作博弈的小基站功率调节机制。小基站调节传输功率以最大化个人效用，个人效用定义为小基站获得的传输容量减去传输对其他基站的干扰，进一步给出了不同的算法找到系统的纳什均衡点。文献[6，7]提出的机制最终不能完全保证宏基站用户的质量要求，文献[8，9]提出的机制需要小基站与宏基站共享大量信息，增加了系统传输负担。进一步分析发现，文献[5-9]中提出的功率控制机制均会导致小基站的低效传输，这是因为使用文献[5-9]中提出的功率控制机制，无论小基站用户接收到的SINR是否满足其要求，小基站会持续以选定的功率进行传输。当小基站用户接收到的SINR显著低于最低传输质量要求时，这些传输对小基站用户的数据传输无益，反而对其他数据传输造成了额外干扰[3，10]。此外，文献[5-9]中均假设传输功率为连续值，而实际系统中传输功率为离散值[11]。因此本文综合考虑了宏基站与小基站的离散传输功率限制、用户传输质量要求以及整个网络的干扰状态，首先给出了网络中满足用户传输质量要求的可行传输功率解的必要条件，在此分析基础上定义了系统的优化目标为在保证宏基站用户的SINR要求下，最大化网络中满足SINR要求的同时传输的小基站传输的个数，并提出了基于随机学习机制的离散功率控制(stochastic learning based discrete power control, SLPC)机制[12，13]。该机制将小基站作为学习机，通过对选择的传输功率和网络反馈信息的学习不断调整传输功率，以实现系统目标最大化。仿真结果表明，在网络密集部署情况下，使用SLPC算法的网络支持的满足传输质量要求的小基站传输数目达到了使用现有功率控制算法支持数目的两倍。

1 系统模型及优化问题定义

1.1 系统模型描述

考虑一个由宏基站及小基站构成的异构蜂窝网络区域。宏基站B0处于宏小区中心，为宏小区内用户提供接入服务。宏小区内有一个热点地区，N个小基站Bi(1≤i≤N)部署在热点地区内为地区内用户提供接入服务。小基站与宏基站可以通过光纤回程链路通信[1]。小基站与宏基站使用相同的频谱。宏基站用户及小基站用户均匀分布在对应区域内。网络模型如图1所示。本系统中，假设在一个传输单元上(一个传输单元为一块时频资源)，每个基站最多只向一个用户进行数据传输。

图1 异构蜂窝网络系统模型

(1)

其中，σ2表示系统热噪声功率；gi, j(0≤i, j≤N)表示用户Ui与基站Bj间信道增益。此处我们假设信道增益仅考虑信道的慢衰落特性[14]，包括路径损耗和阴影衰落。

以Γi(0≤i≤N)表示用户Ui的SINR要求，为保证传输质量，用户Ui接收到的SINRγi需要满足

γi≥Γi

(2)

1.2 可行传输功率解分析

考虑用户接收信号SINR要求，我们需要分析系统是否存在可行的传输功率解，即所有基站在规定的范围内选择传输功率是否存在传输功率组合，使得∀Ui(0≤i≤N)均满足式(2)。为方便分析，做如下定义：

• 矩阵G为归一化的信道增益矩阵，G中共有(N+1)×(N+1)个元素，元素Gi, j定义为

(3)

• 向量η=(η0,η1,…,ηN)为归一化的噪声向量，其元素定义为ηi=Γi·σ2/gi,i；

• 对角矩阵Γ=diag(Γ0,Γ1,…,ΓN)表示系统基站的SINR要求矩阵。

基于以上的定义，式(2)可以表示为如下矩阵-向量形式：

qT≥ΓGqT+ηT

(4)

定义1 当传输功率向量q∈Q且使得式(4)成立，则该传输功率向量q为系统的可行传输功率解。

定理1 以下条件是该系统存在可行的传输功率解的必要条件：

(1) ρ(ΓG)<1;

证明：根据无线系统基站与用户间的信道增益关系，可以合理认定ΓG为非负不可约矩阵[8,15]，进一步，根据Perron-Frobenius定理[16]，文献[15]给出了当系统中基站传输功率可取大于0的任意连续值的情况下，系统中存在满足式(4)的非负的传输功率解的充分必要条件为ρ(ΓG)<1(文献[15]引理1.1与定理2.1)。本文系统中，基站传输功率为离散值，因此，ρ(ΓG)<1是本系统存在可行传输功率解的必要条件。

基于以上的分析，本定理得证。

1.3 优化问题定义

考虑用户接收信号的SINR要求，定理1给出了系统存在可行传输功率解的必要条件。当定理1中的两个条件不能被同时满足时，系统仅可以支持部分传输满足用户的最小SINR要求。基于以上分析，我们定义系统的最优化问题为在满足宏基站用户的传输质量要求的前提下，通过优化小基站的传输功率，最大化系统能够支持的满足传输质量要求的小基站传输的个数。最优化函数定义如下：

(4a)

s.t. qi∈Qs, ∀1≤i≤N

(4b)

其中Ii指示用户Ui接收信号是否可以满足其SINR要求Γi，∀i (0≤i≤N)，Ii定义如下：

(5)

条件(式(4b))表示小基站的传输功率需要在离散功率值集合Qs中选择。从优化目标(式(4a))可以看到，仅有当宏用户U0接收SINR满足质量要求，即I0=1且至少一个小基站用户接收SINR满足质量要求时，(式(4a))才为正值。

系统最优化函数(式(4))的最优解可以通过穷尽搜索方法获得。尝试小基站传输功率的所有组合，可以获得使系统目标最优的传输功率组合。

2 基于随机学习的离散功率控制

尽管穷尽搜索可以找到系统最优化问题的最优解，但穷尽搜索需要集中式控制，具有(Ls)N的计算复杂度且要求基站之间交互大量控制信息，因此不适用于实际系统。考虑到大量小基站部署的随机性，受文献[12，13]中随机学习机制的启发，本文中我们提出一个基于随机学习机制的小基站功率控制算法。

2.1 算法描述

随机学习体是自适应的决策制定实体，能够通过对个体动作与环境交互结果的学习找到对个体最优的动作[17]。将随机学习应用于本系统中，每一个小基站Bi(1≤i≤N)作为一个独立学习体，定义其动作集合，动作选择概率向量，奖励函数及概率更新机制如下：

(1) 动作集合：本系统中定义小基站Bi的动作为选择一个传输功率，因此小基站有Ls个可选的动作，动作集合为Qs。

(3) 奖励：基于系统的最优化目标(式(4))，我们定义在时刻k，小基站Bi获得的动作奖励如下：

(6)

其中，Ij(k)的定义如式(5)所示。在时刻k，当U0接收到的γ0不能满足其SINR要求Γ0，即γ0(k)<Γ0时，I0(k)=0，则小基站得到的奖励为0；当U0接收SINR要求得到满足，即γ0(k)≥Γ0时，I0(k)=1，则小基站得到的奖励同系统中满足传输SINR要求的小基站的个数成正比。

小基站通过调节下行发射功率以获得最大的奖励，从而使得：(i)宏用户的SINR要求得到满足；(ii)在(i)得到满足的情况下，系统中满足传输的SINR要求的小基站传输的个数最大化。式(6)的定义同系统最优化目标(式(4))是一致的。式(6)中的归一化操作是由随机学习机制决定的，学习体奖励取值需在0到1之间[17,18]。

(4) 概率更新机制：本系统中，小基站Bi传输功率概率更新机制定义如下：

pi(k+1)=pi(k)+λri(k)(eli-pi(k))

(7)

其中，0<λ<1为学习速率，ri(k)为小基站获得的奖励，eli为具有Ls个元素且第li个元素为1的单位向量，其中li表示小基站Bi在时刻k选择的功率为传输功率集合Qs中的第li个传输功率。概率更新机制(式(7))是线性动作奖励机制(LR-I)[17，18]，该机制的特点为：对小基站而言，当选择的传输功率获得正奖励时，即ri(k)>0，则在下一时刻选择该传输功率的概率将增加，相应地，选择其他传输功率的概率将减小；而当选择的传输功率获得奖励为零时，即ri(k)=0，则在下一时刻选择传输功率的概率保持不变。LR-I是ε-最优的并且具有好的收敛特性[17，18]。

具体地，在一个传输单元上，本文提出的离散功率控制(SLPC)算法步骤如下：

(1) 初始化：时刻k为0，小基站Bi的传输功率概率分布为均匀分布，即pi,l(0)=1/Ls，∀1≤i≤N, 1≤l≤Ls；

(2) 在时刻k(k>0)，每个小基站Bi根据其当前时刻的传输功率选择概率向量pi(k)选择传输功率qi(k)，并使用该功率进行数据传输；

(3) 所有调度用户Ui(0≤i≤N)，基于接收到的SINR及自身SINR要求根据式(5)计算其Ii，完成计算后小基站用户将其Ii反馈给小基站并转发给宏基站B0。B0根据式(6)计算系统奖励并广播给所有小基站；

(4) 每个小基站根据式(7)中的概率更新机制更新其传输功率选择概率向量pi(k)；

(5) 对小基站Bi(1≤i≤N)，其传输功率选择概率向量pi(k)中有一个元素pi,l(1≤l≤Ls)趋近于1，如大于0.99[12,18]，则该算法停止；否则，重复步骤(2)-(5);

(6) 当前述学习过程停止后，∀Bi(1≤i≤N)，如果Bi传输功率不为0但Ii=0，则该小基站本次选择不进行传输，此步骤可以进一步降低不必要的传输，提高其他满足传输要求用户的速率。

2.2 算法收敛性分析

本节将分析文中提出的SLPC算法的收敛性。文献[18]中作者对基于线性动作奖励机制(LR-I)的随机学习算法的收敛性进行了分析，指出如果随机学习系统中的学习体获得的奖励值相同，且用户采取的动作选择概率更新机制为线性动作奖励机制(LR-I)，则随机学习系统最终会收敛到系统的纳什均衡点(定理3.2及定理4.1)。

在本系统中，由式(6)定义可知，在时刻k，每个小基站用户将获得相同的奖励值，即ri(k)=rj(k), ∀1≤i, j≤N，该奖励值由系统中宏基站用户及所有小基站用户的信号接收质量情况共同决定。同时SLPC算法中小基站使用的概率更新机制为线性动作奖励机制LR-I(式(7))。基于前面的分析可得，提出的SLPC算法总是可以收敛到系统的一个纳什均衡点。

3 实验结果及性能分析

本节通过仿真实验评价提出的SLPC算法的收敛性以及算法的寻优性能，以及算法的收敛速度。算法性能将与文献[8]中提出的保护宏基站传输的分布式功率控制(cellular protected distributed power control, CDPC)机制以及穷尽搜索机制进行比对。其中穷尽搜索机制为系统性能的最高限。

3.1 仿真场景

图2 仿真系统模型

系统仿真参数如表1所示。假设小基站用户的最小SINR要求可以取[5, 20]dB中的任意值。

3.2 SLPC算法收敛性

我们首先考虑一个简单的场景，假设热点区域内只有4个小基站传输数据，且仅有4个可选的传输功率，功率集合为{0, 333.33mW, 666.66mW, 1000mW}，设小基站顺次编号为1，2，3，4。使用穷尽搜索方法可得最优化问题(式(4))的最优传输功率解为q={666.66mW, 0, 333.33mW, 0}，即在满足宏基站用户SINR要求下，系统中还可以支持2个小基站同时传输，且满足小基站用户的SINR要求。图3给出了算法执行过程中任意一个小基站传输功率选择概率的变化曲线。可以看到该基站的传输功率选择概率向量经过约180次迭代从{1/4,1/4,1/4,1/4}演变为{0,0,1,0}，也就是该基站最终将以666.66mW传输。仿真中，其他小基站也有类似的概率向量演进结果。同时，基于小基站的编号顺序，小基站的功率传输向量最终收敛到最优解q={666.66mW, 0, 333.33mW, 0}。

表1 仿真参数配置

图3 算法执行过程中任一用户传输功率选择概率变化曲线(N=4, L=4)

图4给出了算法执行过程中小基站接收到的奖励值的变化曲线。奖励值最终收敛到1/2。由式(6)中奖励值的定义可知，小基站传输功率满足了宏基站用户及2个小基站用户传输的SINR要求，同最优解一致。

图4 算法执行过程中小基站收到的奖励值变化曲线(N=4, L=4)

3.3 SLPC算法性能

图5给出了随着小基站部署密度增大，不同算法下系统中支持的满足最低服务质量要求的小基站传输的平均个数。平均值是通过更改小基站用户在小基站覆盖范围内的位置来计算的。

图5显示，提出的SLPC算法性能优于CDPC算法，并且随着部署小基站数目增加性能增益更大。这是因为使用CDPC算法，当算法收敛时，不管小基站的传输功率是否满足用户质量需求，小基站都将以收敛到的功率持续传输。当小基站用户的最低传输质量要求无法满足时，传输对小基站用户无益，且会造成对系统其他用户的额外干扰，从而造成更多的传输不能满足最低质量传输要求。小基站部署越密集，基站间干扰越严重，CDPC算法性能越低。

图5 不同算法下，满足最低传输质量要求的小基站传输平均个数对比(L=8)

图5同样显示，当小基站个数较少时，SLPC算法性能接近穷尽搜索算法性能，随着小基站个数增多，性能差距增大。这种性能表现同2.3节中的算法收敛性分析是相对应的，SLPC算法在执行过程中会收敛到系统的本地最优，不一定能找到系统全局最优解。

图6比较了在不同小基站数目，以及不同传输功率数目下，SLPC算法收敛时所需迭代次数。从图中我们可以看出，对给定的基站数目，可选的传输功率数目越多，算法收敛所需的迭代次数对应增加。因为功率传输数目越多，基站传输功率组合越多，算法执行过程中基站学习的样本空间越大，因此算法收敛所需的迭代次数也增大。同样，给定传输功率数目，随着区域内部署小基站数目增加，算法收敛所需的迭代次数也增大。

图6 不同小基站数目，不同传输功率数目下， SLPC算法收敛所需迭代次数比较

4 结论

本文提出了一种新型频谱共享的异构蜂窝网络的下行功率控制机制。本文首先基于网络中宏蜂窝及小蜂窝用户的传输功率限制和传输SINR要求，分析了给出异构蜂窝网络中存在可行传输功率解的必要条件。进而定义了系统的最优化目标为在满足宏基站传输的SINR要求的前提下，最大化网络中满足传输SINR要求的可同时传输的小基站个数。文中提出一种基于随机学习技术的离散功率控制机制。每个小基站基于自己选择的传输功率，以及网络给予的指示宏基站及小基站用户传输质量要求的满意度的反馈信息，调整传输功率直到系统达到均衡状态。仿真结果验证了提出算法的收敛性与寻优性。当小基站部署密度大时，SLPC算法可以支持的满足最低传输质量要求的小基站传输个数是其他算法支持的2倍。

随机学习机制可以应对变化的环境，在不断的动作-反馈过程中学习，调整自己的行为以最大化自己的奖励。同时带来的缺点是收敛速度较慢。下一步研究考虑，修正概率更新函数，并且概率更新考虑历史奖励信息，以提高算法收敛性能。同时针对本场景，可以进一步分析系统离散功率个数对系统性能的影响，从而指导实际系统规划。

[1] Hoydis J, Kobayashi M, Debbah M. Green small-cell networks.IEEEVehicularTechnologyMagazine, 2011, 6(1): 37-43

[2] Zhou Y, Liu H, Pan Z, et al. Two-stage cooperative multicast transmission with optimized power consumption and guaranteed coverage.IEEEJSAConSEED, 2014,32(2):274-284

[3] Zhou Y, Liu L, Du H, et al. An overview on intercell interference management in mobile cellular networks: from 2G to 5G. In: Proceedings of the 14th IEEE International Conference on Communication System, Macau, China, 2014. 217-221

[4] Zhou Y, Liu H, Pan Z, et al. Spectral and energy efficient two-stage cooperative multicast for LTE-A and beyond.IEEEWirelessMagazine, 2014, 4(4): 34-41

[5] Morita M, Matsunaga Y, Hamabe K. Adaptive power level setting of femtocell base stations for mitigating interference with macrocells. In: Proceedings of the IEEE Vehicular Technology Conference, Ottawa, Canada, 2010. 1-5

[6] Zhang J, Hong P, Xue K. A novel power control scheme for femtocell in heterogeneous networks. In: Proceedings of the IEEE Consumer Communications and Networking Conference, Las Vegas, USA, 2012. 802-806

[7] Tai M H, Tran N H, Do C T, et al. Power control for interference management and QoS guarantee in heterogeneous networks.IEEECommunicationsLetters, 2015, 19(8):1402-1405

[8] Chandrasekhar V, Andrews J G, Muharemovic T, et al. Power control in two-tier femtocell networks.IEEETransactiononWirelessCommunication. 2009, 8(8): 4316-4328

[9] Wang H, Wang J, Ding Z. Distributed power control in a two-tier heterogeneous network.IEEETransactiononWirelessCommunication, 2015, 14(12): 6509-6523

[10] Garcia V, Zhou Y, Shi J L. Coordinated multipoint transmission in dense cellular networks with user-centric adaptive clustering.IEEETransactiononWirelessCommunication, 2014, 13(8): 4297-4308

[11] The 3rd Generation Partnership Project (3GPP). Technical Report 36.814 V 9.0.0. Further advancements for E-UTRA physical layer aspects. 2010

[12] Tseng L, Chien F, Zhang D, et al. Network selection in cognitive heterogeneous networks using stochastic learning.IEEECommunicationsLetters, 2013, 17(17):2304-2307

[13] Xu Y, Wang J, Wu Q, et.al. Opportunistic spectrum access in unknown dynamic environment: a game-theoretic stochastic learning solution.IEEETransactiononWirelessCommunication, 2012, 11(4):1380-1391

[14] Han Z, Niyato D, Saad W, et al. Game Theory in Wireless and Communication Networks: Theory, Models and Applications. UK: Cambridge University Press, 2011. 202-245

[15] Chiang M, Han P, Lan T, et al. Power control in wireless cellular networks.FoundationandTrendsinNetworking, 2007, 2(4): 381-533

[16] Horn R, Johnson C. Matrix Analysis. UK: Cambridge University Press. 1985. 517-547

[17] Narendra K S, Thathachar M A L. Learning automata - a survey.IEEETranactionsonSystemsManandCybernetics, 1974, 4(4):323-334

[18] Sastry P S, Phansalkar V. Decentralized learning of Nash equilibria in multi-person stochastic games with incomplete information.IEEETransSystManandCybern, 1994, 24(5): 769-777

[19] International Telecommunications Union-Radio (ITU-R). M.2135. Guidelines for evaluation of radio interface technologies for IMT Advanced. 2008

A stochastic learning based discrete power control scheme for heterogeneous cellular networks

Wang Yuanyuan**********, Zhou Yiqing******, Li Yonghui****, Shi Jinglin******, Tian Lin****, Qian Manli****

(*Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190) (**University of Chinese Academy of Sciences, Beijing 100049) (***Beijing Key Laboratory of Mobile Computing and Pervasive Device, Beijing 100080) (****School of Electrical and Information Engineering, University of Sydney, Sydney NSW2006)

To mitigate the interference in the heterogeneous cellular networks (HetNets) with a large number of low power small cells sharing the same frequency spectrum with the macrocells, a stochastic learning technique based downlink discrete power control (SLPC) scheme was proposed to maximize the number of simultaneous small cell transmissions satisfying the transmission quality requirements under the circumstance of guaranteeing the transmission quality requirements of macrocell users. The SLPC scheme regards each small cell base station as a stochastic learning automaton and maintains a probability vector to select the transmitting power. During the learning process, each small cell base station independently updates its probability vector and transmitting power to adjust its transmit power towards a Nash equilibrium point according to its selected transmit power and the feedback from the network, which indicates the number of simultaneous small cell transmissions satisfying the transmission quality requirements. The simulation results show that the proposed scheme has the excellent performance in convergence and optimization and can greatly increase the number of simultaneous small cell transmissions that can be supported in the networks. It is suitable for practical systems.

heterogeneous networks, interference mitigation, stochastic learning, discrete power control

10.3772/j.issn.1002-0470.2016.05.002

①863计划(2015AA01A705)和国家自然科学基金(61571425)资助项目。

2016-01-29)

②女，1986年生，博士生；研究方向：无线资源管理，异构网络等；E-mail: wangyuanyuan@ict.ac.cn

③通讯作者，E-mail: zhouyiqing@ict.ac.cn

基于随机学习的异构蜂窝网络离散功率控制机制①

0 引 言

1 系统模型及优化问题定义

2 基于随机学习的离散功率控制

3 实验结果及性能分析

4 结 论

0 引言

4 结论