基于能效和服务质量保障的动态资源分配机制

2018-12-29 03:07杨健,张晶

无线电通信技术 2018年1期

杨健,张晶

(中国电子科技集团公司第五十四研究所，河北石家庄 050081)

10.3969/j.issn.1003-3114.2018.01.16

杨健，张晶.基于能效和服务质量保障的动态资源分配机制[J].无线电通信技术,2018,44(1):78-81.

[YANG Jian，ZHANG Jing.Power Efficient Resource Allocation with QoS Guaranteed [J].Radio Communications Technology,2018,44(1):78-81.]

基于能效和服务质量保障的动态资源分配机制

杨健,张晶

(中国电子科技集团公司第五十四研究所，河北石家庄 050081)

以最小化平均消耗功率为目标，提出了一种具有服务质量保障的用户调度和功率分配机制。每个用户维持一个用于存储随机到达业务的数据队列，用户的服务质量要求被刻画成平均排队时延。基于无线信道和数据队列长度的动态变化，将用户调度和功率分配刻画成一个带有约束条件的马尔可夫决策问题。为了应对系统难以精确获取信道和数据到达过程分布参数的情况，采用Q学习算法求解马尔科夫决策问题，进而提出了一种在线学习的用户调度和功率控制算法。系统通过在线学习进行用户调度和功率分配，以实现平均消耗功率的最小化目标。

用户调度；功率控制；服务质量要求；马尔可夫决策；Q学习

TN911.7

1003-3114(2018)01-78-4

2017-10-11

河北自然科学基金项目(F2014210123)

PowerEfficientResourceAllocationwithQoSGuaranteed

YANG Jian，ZHANG Jing

(The 54th Research Institute of CECT,Shijiazhuang 050081,China)

In this paper,a joint user scheduling and power control scheme is investigated for systems with quality of service (QoS) requirements to minimize the time-averaged power consumption.Each user maintains a buffer to store random arrival data,and the QoS requirements are characterized by the time-averaged queuing delay.The joint user scheduling and power control is formulated as a constrained Markov decision problem (CMDP) according to the dynamics of the wireless channels and the length of data buffers.An on-line learning based algorithm is proposed by solving the CMDP with the aid of Q-learning approach,based on which the system,without prior knowledge of the distributions of wireless channels and data arrivals,can make a user scheduling and power control decision to minimize the time-averaged power consumption.

user scheduling；power control；QoS requirement；Markov decision；Q-learning

0 引言

随着无线通信技术的高速发展和移动设备的大规模应用，无线网络承载了种类繁多的业务，但是无线通信中的能耗已成为不容忽视的问题[1]。同时，业务数据在无线网络传输过程中有其所需的服务质量，业务数据的服务质量保障面临着严重的挑战[2]。而无线信道的时变特性和有限的网络承载能力对网络的能效和业务的服务质量保障产生严重影响。因此如何设计有效的资源动态分配算法和用户调度策略用以保障服务质量是一个永恒的挑战[3-6]。

文献[7]将服务质量要求量化为实时传输速率限制条件，以最小化传输功率为目标，提出了一种功率和用户调度机制。文献[8]将服务质量要求量化为用户之间的实时传输速率比例限制条件，并提出了一种能量有效的功率控制和用户调度算法。针对服务质量要求用户和无服务质量要求用户共存的无线网络，文献[9]提出了一种优先保障用户服务质量要求的资源分配和用户调度算法。

尽管文献[7-9]提出的算法在相应场景下都能实现相应系统效能的最优化，并能很好的保障用户服务质量要求。但文献[7-9]提出的算法都是基于信道状态信息，通过传统的凸优化理论实现的。然而，在实际系统中，每个用户在数据链路层都维持着一个用于存储随机到达业务的数据队列。因此，在面向实际系统设计具有服务质量保障的资源分配算法时，必须同时考虑信道状态信息和用户数据队列状态信息。

从保障实际系统服务质量的角度出发，以最小化平均消耗功率为目标，提出了一种基于信道状态信息和用户数据队列状态信息的用户调度和功率控制算法。首先将服务质量保障问题刻画成一个有约束条件的马尔可夫决策问题。考虑在实际系统中很难获取信道分布和随机到达分布，采用Q学习算法求解马尔科夫决策问题，进而提出了一种在线学习的用户调度和功率控制算法，从而在保障用户服务质量要求的前提下最小化系统平均消耗功率。

1 系统模型和问题描述

如图1所示，考虑一个时分多址上行系统，系统包含一个基站和K个用户。K个用户通过无线信道向基站传输数据。每个用户维持一个数据队列以储存没有被及时发送的数据包。若用Qk(t)表示用户k在时隙t开始时刻数据队列中数据包数量，则Qk(t)满足

Qk(t+1)=[Qk(t)-Rk(t)]++ak(t)

(1)

式中，Rk(t)表示在时隙t用户k到基站的传输速度，单位为数据包/s；ak(t)为随机到达速率，用以刻画业务到达的随机性；[x]+表示max{x,0}。

图1 系统模型

定义hk(t)为用户k与基站之间在时隙t的信道增益，则基站在以速度Rk(t)服务用户k的情况下需要消耗的功率为：

(2)

式中，N0和B分别代表白噪声功率和系统带宽。假定信道增益hk(t)在每个时隙内保持不变，但是在不同时隙间是独立同分布的。为衡量用户到基站的端到端时延，用平均队列时延来刻画用户的服务质量要求，即

(3)

本文的目标是在满足所有用户服务质量要求的前提下，最小化系统总的平均功率消耗。相应的问题可以表述为

(4)

式(4)包含一个时间平均的目标函数，K个时间平均的约束条件和一个线性功率约束条件。不能使用传统的线性/非线性优化方法解决上述优化问题。文中，采用马尔可夫决策描述式(4)，并提出一种基于在线Q学习的用户调度和功率控制算法以适用实际系统不知道信道参数分布的情况。

使用K-Means算法需要预先确定K的值，故本文利用最小生成树算法估计K值，再利用K-Means算法将数据进行分类，以达到划分脑区或ROI的效果。

2 用户调度和功率分配机制

2.1 马尔科夫决策问题

定义H(t)={hk(t),∀k}和Q(t)={Qk(t),∀k}分别为系统在时隙t的全局信道状态信息和全局队列状态信息。若系统在时隙t的状态信息表示为X(t)=(H(t),Q(t))，由于不同用户的信道增益在不同时隙间是独立同分布的，因此{X(t)}是一个马尔可夫过程，则系统状态的转移概率可以表示为：

Pr(X(t+1)|X(t))=
Pr(H(t+1))Pr(Q(t+1)|X(t),Q(t))。

(5)

由以上分析可知，式(4)是一个有约束条件的马尔科夫决策问题。基于动态优化理论[10]，可将带有约束条件的马尔可夫决策式(4)转变为无约束的马尔科夫决策式(6)：

(6)

(7)

式中，s和s'分别表示相邻时隙的系统状态，V(s)称之为系统在状态s的值函数。

(8)

(9)

在实际系统中，很难精确获取信道增益和随机到达过程的分布参数，因此很难直接用传统值函数迭代的方式求解贝尔曼方程(7)。下面将介绍在道信道增益分布函数和随机到达过程分布未知的情况下，系统如何采用基于Q学习的值函数迭代算法来求解贝尔曼方程式(7)。

2.2 基于Q学习的用户调度和功率控制

由式(7)、式(8)、式(9)可知，系统最优的用户调度和功率控制策略由每个用户的值函数Vk(sk)决定，而值函数的更新则决定于系统状态的转移。因此，利用Q学习算法[10]近似逼近值函数Vk(sk)和与之相对应的拉格朗日乘子μk，具体计算公式为

Vk(X(t+1))];

(10)

Vk(Xk(t+1))=(1-ft)Vk(Xk(t))+ft{P(t)+

(11)

μk,t+1=μk,t+et(I(Qk(t)=0)-εk)。

(12)

式中，ft和et称为步长，并且满足以下条件：

(13)

2.3 算法流程

根据以上分析，提出一种基于Q学习的用户调度和功率控制算法。具体算法流程如下所示:

④ 利用式(11)在线更新值函数Vk(Xk(t+1))；

⑤ 利用式(12)在新更新拉格朗日乘子μk,t+1；

⑥ 重复步骤②～⑤直至传输结束。

3 仿真结果分析

本节验证提出的用户调度和功率控制算法。仿真场景中，用户随机分布在基站覆盖区域内，且假定用户与基站的最小距离为40 m，最大距离为300 m。用户最大发射功率为4 J/s，系统白噪声功率为-174 dBm/Hz[11]。假定用户到基站之间的信道增益同时包含路径损耗和小尺度衰落。路径损耗由用户与基站之间的距离d决定且路径损耗系数为3[10]，即d-3；小尺度衰落采用瑞利衰落模型f(x)=1/αexp(-x/α),其中参数α和文献[10]中一致。数据包的长度为4 000 bits，系统时隙长度为1 ms。所有用户能够容忍的平均队列时延为5个数据包长度，用户的随机达到过程为平均速率为0.5数据包/时隙的泊松到达过程。系统采用实际的BPSK、QPSK、8-QAM、16-QAM、32-QAM、64-QAM、128-QAM、256-QAM调制方式。为突出本文提出算法性能，将其与文献[7]中的算法进行对比。文献[7]中的算法不能根据队列状态信息调整传输速率，因此用户被调度时的传输速率固定为用户到达速率乘以用户个数。

图2描述了在一个拥有3个用户的系统中，拉格朗日乘子的收敛性曲线。从图2可以看出，拉格朗日乘子收敛速度比较快，大概迭代300次(时隙)就能收敛。在仿真中，系统带宽B=4 MHz，设定时隙长度为1 ms，即本文提出的基于Q学习的用户调度和功率控制算法收敛时间大概为0.3 s。一般情况下用户的业务传输时间单位以或计算，远远大于本文提出的算法的收敛时间。因此，本文所提算法能很容易的应用于实际无线网络。

图3描述了在不同用户数的场景中，系统带宽B为4 MHz时系统平均消耗的功率情况。从图3中可以清楚地看出，与文献[7]中的算法相比，本文提出的功率控制和用户调度算法的性能更好，即消耗的平均功率更小。这是因为文献[7]中的算法只考虑了信道状态信息对功率消耗的影响，而本文提出的算法同时考虑了信道状态信息和数据队列状态信息对功率消耗的影响。同时，随着用户的增加，系统消耗的平均功率也会增加。这种现象是合理的，因为随着用户数的增加，用户竞争信道的概率增加，即在单个时隙内需消耗更多的功率发送数据包。

图2 拉格朗日乘子收敛性

图3 用户数不同时平均消耗功率

4 结束语

针对时间平均质量保障的需求，以最小化平均功率消耗为目标，考虑实际系统很难精确获取信道分布参数和随机到达过程参数的情况，提出了一种基于Q学习的用户调度和功率控制算法，从而在保障用户服务质量要求的前提下实现系统平均消耗功率的最小化目标。仿真结果表明提出的在线学习算法在信道分布和到达过程先验知识未知的情况下仍能取得明显的性能提升。

[1] 吴凡，毛玉明，黄晓燕.OFDMA系统中最优能效功率分配[J].电子与信息学报，2014，36(7)：1673-1679.

[2] 吴冀衍，乔秀全，程渤.延迟敏感的移动多媒体会议端到端服务质量保障[J].计算机学报，2013,36(7)：1399-1412.

[3] 刘贺，张陆勇，陈明刚，等．无线Mesh网络集中式信道分配算法设计[J]．无线电工程，2011,41(5)：4-6.

[4] 程静，秘建宁，刘科科．一种认知网络中的带宽分配方法研究[J]．无线电工程，2013，43(2)：5-9.

[5] 宋蒙，范斌，孙雷．LTE系统小数据包业务无线资源优化研究[J]．移动通信，2014，38(15)：85-90.

[6] 赵希鹏，张欣，杨大成，等．基于QoE的无线网络资源调度优化研究[J]．移动通信，2014,38(22):8-13.

[7] Kivanc D,Li G,Liu H.Computationally Efficient Bandwidth Allocation and Power Control for OFDMA [J]IEEE Transactions on Wireless Communications,2003,2(5):940-947.

[8] Girici T,Zhu C,Agre J.Proportional Fair Scheduling Algorithm in OFDMA-Based Wireless Systems with QoS Constraints[J].Journal on Communications and Networking,208,12(1)：30-32.

[9] Ren Z,Chen S,Hu B.Energy-Efficient Resource Allocation in Downlink OFDM Wireless Systems with Proportional Rate Constraints [J]IEEE Transaction on Vehicular Technology,2010,53(4):2108-2110.

[10] Salodkar N,Bhorka A,Karandikar A.An On Line Learning Algorithm for Energy Efficient Delay Constrained Scheduling over a Fading Channel [J].IEEE Journal on Selected Areas in Communications,2008,26(4):732-742.

[11] Perez D,Xiao C,Vasilakos A.Power Minimization Based Resource Allocation for Interference Mitigation in OFDMA Femtocell Networks [J].IEEE Journal on Selected Areas in Communications,2014,32(2):333-344.

杨健(1989—)，男，博士，工程师，主要研究方向：无人机/弹群数据链动态组网协议、面用服务质量的跨层资源配置;

张晶(1989—)，女，硕士，助理工程师，主要研究方向：通信数据链、面用服务质量的跨层资源配置。