能量收集通信系统中功率和调制方式的在线联合优化策略

2022-03-30 09:13雷维嘉孙嘉琳谢显中雷宏江

电子与信息学报 2022年3期

关键词：传输速率时隙最大化

雷维嘉孙嘉琳* 谢显中雷宏江

①(重庆邮电大学通信与信息工程学院重庆 400065)

②(移动通信技术重庆市重点实验室重庆 400065)

③(重庆邮电大学光电工程学院重庆 400065)

1 引言

随着无线通信技术的迅猛发展，网络用户数急剧增加，能量消耗问题日益严峻。以开源、节流为理念的绿色通信技术是目前学术界和产业界研究的热点技术之一[1]。能量收集是“开源”的重要技术手段，通信网络中的节点从自然环境中收集能量并转化为电能用于信息的传输[2]，可降低化石能源的消耗，保护环境，同时也是解决电网供电或电池更换不便设备供电问题的有效途径。由于环境能量源具有不稳定性和随机波动特性，再加上无线信道的随机衰落，需要对信号发送功率和信息传输速率进行动态的控制，以高效地利用收集的能量和信道资源[3]。

在已有的相关研究文献中，根据传输过程中能量到达、信道状态是否可提前获知，可将能量收集通信系统的能量管理策略分为离线和在线两类。离线管理策略应用于事先知道收集的能量、信道状态等信息的情况。虽然这一假设缺乏合理性，但离线策略能获得优越的性能，因而常被作为评估其他策略性能的上界。文献[4–6]针对不同场景下的离线能量管理策略进行了研究。文献[4]考虑具有连续能量和数据到达的能量收集通信系统，给出了一个三步最优能量调度算法以实现单用户在有限时隙数量下吞吐量最大化。Ozel等人[5]针对衰落信道条件下的能量收集系统，提出了一种定向注水算法，对每时隙发送功率进行控制，在有限传输时间内最大化信息传输量，或在一定传输数据量要求下最小化传输时间。定向注水指当前时隙收集的能量只可供以后的时隙进行功率注水，而不可供之前的时隙使用，即收集的能量只能定向流动。文献[6]研究能量收集的多用户多址接入系统中的能量调度算法，在已知多个时隙的信道状态和能量收集状态下，采用迭代动态注水算法，最大化每个时隙的和速率。离线注水算法性能优越，但仅限于有限时隙数量下的优化，且实际的系统中，能量收集量、数据流量和信道状态都是随机变化的，事先能获得它们的具体数值并不现实，因此离线算法并不实用。与离线算法不同，在线算法主要依赖能量和数据到达、信道衰落等的统计信息，以及当前和过去的系统状态进行决策。在发射机能获得反映能量和数据到达过程、信道衰落过程的统计信息的条件下，将功率控制过程建模为马尔科夫决策过程(Markov Decision Process, MDP)，并应用动态规划(Dynamic Programming, DP)求解是相关文献中研究较多的在线功率控制解决方案。文献[7]针对最大发送功率约束的点对点通信系统，用分段线性拟合函数描述电池状态，将随机信道条件下的发送功率分配问题构造成一个MDP，并利用DP求解该优化问题。文献[8]使用了一种策略迭代(Policy Iteration ,PI)算法来求解与文献[7]相同系统模型下的功率控制问题。算法首先将电池电量划分为有限个状态，并用马尔科夫链来描述电池状态的变化。通过对不同发送功率策略下系统传输性能的变化进行评测，并以吞吐量最大化为目标进行策略迭代获得最优的功率传输策略。为了对系统状态有较准确的描述并获得较好的性能，基于MDP的方案中需要有较大状态和动作空间，算法的计算复杂度通常很高。Lyapunov优化技术是一种在控制论中被广泛应用的优化方法，该方法在应用中不需要知道系统状态的统计特性，而是根据当前的系统状态做出决策，是一种非常具有实用性的优化方法。该算法特别适合于解决排队问题，队列积压最小化是其基本的目标和特征。用Lyapunov方法求解包含约束的优化问题时，可根据约束条件构造虚队列，通过使虚队列漂移最小化来保持虚队列长期时间意义上的稳定，间接地满足约束条件；而优化的目标则作为惩罚项，将其与队列漂移一起构造“队列漂移加惩罚”作为优化的目标函数，通过最小化该目标函数，在达到长期时间平均意义下队列的稳定的同时实现目标的优化。该方法将长期时间平均的优化问题转化成单时隙优化问题，并可减少约束条件，优化问题求解的复杂度大大降低。近几年来已有学者利用Lyapunov优化框架解决通信网络中的资源分配问题[9]、能量收集通信系统中的功率控制问题[10,11]。文献[10]针对源节点由能量收集装置供电的点对点通信系统，提出一种利用Lyapunov优化框架的在线功率控制算法最大化长期平均速率。将电池电量约束转化为虚队列稳定，需要最大化的传输速率的负数作为惩罚项，构建“漂移加惩罚”，通过最小化其上界，在保持电池电量稳定的同时最大化传输速率。文献[11]研究了利用Lyapunov优化框架求解能量收集两跳放大转发中继网络的传输速率最大化问题。依据源和中继节点的电池电量状态和两跳信道的衰落状态，对源节点和中继节点的发送功率进行联合优化控制。

在关于能量收集通信系统中传输速率或吞吐量最大化，或传输时间最小化的文献中，一般都以香农公式计算得到的信道容量作为系统的传输速率(包括以上介绍的文献)。在实际的系统中，需要根据信道状态和发送功率，选择合适的信道编码(包括编码的类型、码长、码率)和调制方式[12]，最大化传输速率(或吞吐量)。目前仅有很少量的文献针对能量收集通信系统中的功率控制和调制方式选择进行了研究。文献[13]针对点对点能量收集无线通信系统，根据接收端用1 bit表示的信道状态与阈值的比较结果，构造MDP问题并采用后向迭代算法寻求最优调制方式与传输功率组合，最大化有限长的时隙内系统平均吞吐量。由于采用了后向迭代算法，计算复杂度很高，且只使用1 bit表示信道状态，无法准确反映信道状态的随机性与多样性。文献[14]提出了一种基于深度强化学习的算法，在满足系统要求的误码性能的前提下，以最大化实际传输速率为目标优化每时隙发送功率，并采用当前的信道质量和发送功率下可支持的最高阶调制方式。但机器学习算法需要不断与环境交互积累大量数据样本进行训练，在某些情况下不适用，如信道和能量到达不具有平稳性时。文献[15]提出了一种利用Lyapunov优化框架最大化长期平均净比特速率的功率及调制方式联合优化算法。算法给定QPSK,8PSK, 16QAM 3种可选调制方式，先优化每种调制方式下的发送功率，然后从中选择使漂移与惩罚项最小的调制方式。该算法中数据包的长度固定，没有考虑数据包中如包头、校验位等开销，且可用的调制方式较少，阶数最高仅为16，限制了数据的传输速率，在信道质量较好和可用能量较多时不能充分利用信道和能量资源。

本文研究点对点能量收集无线通信系统中，以最大化系统长期平均吞吐量为目标的功率和传输速率的优化控制问题。源节点配备有能量收集装置和可充电电池，每时隙发送信号的能量来自从周围环境中收集的能量。在电池容量有限条件下，考虑数据帧中存在校验位等开销，利用Lyapunov框架求解发送功率、调制方式、帧长的联合优化问题，最大化长期时间平均传输速率。比较现有的相关文献，本文的特点在于：(1) 本文提出的算法采用Lyapunov优化框架将长期时间平均的优化问题转化成单时隙优化问题，将能量约束转化为队列稳定性要求，仅依赖当前的电池状态和信道状态，不需要获得能量到达和信道衰落变化的统计信息，是一种在线的、低复杂度的控制算法；(2) 相较同是采用Lyapunov方法的功率控制的相关文献，如文献[10,11]，本文提出的算法在优化发送功率的同时优化调制方式、数据帧长，最大化的目标不是理论上传输速率的极限，而是实际可实现的传输速率，仿真结果表明，本文实际可实现的速率要高于文献[10]的算法；(3) 相比较文献[15]中固定帧长、优化发送功率与调制方式的方案，本文提出的算法中考虑了实际的数据帧中必需的校验位等开销，同时对发送功率、调制方式、帧长进行联合优化，可用调制方式更多，且还可推广到更多调制方式的场景，性能更好，更具有实用性。

2 系统模型

本文的系统模型如图1所示，包括1个发送节点S与1个目的节点D。发送节点配备能量收集设备和容量有限的充电电池，向目的节点发送数据的能量来自收集的能量。传输过程中，发送节点收集的能量及无线信道是随机变化的，发送节点根据瞬时的信道状态信息以及能量收集情况，动态地调整发送功率、调制方式以及数据帧长，最大化长期时间平均系统速率。

图1 系统模型

3 优化问题的构造和求解

3.1 优化问题构造和转换

由式(10)可知，信息传输速率与发送功率、调制方式和帧长有关。对于调制方式，若采用较高阶调制方式，每个符号可携带更多信息比特，但误比特率较高，误帧率也较高；而采用较低价调制方式时，虽然错误率较低，但相同的时间内传输的比特数较少。因此，需根据发送功率和信道衰落情况选择一个合适的调制阶数使信息传输速率最大。而帧长的选择也要影响信息传输速率，采用较长的帧进行传输时，校验比特所占比重较小，开销较小，但在相同的误比特率下，帧错误概率较高；反之，帧长较小时，帧错误概率较低，但校验比特等开销较大。由此可见，系统实际可达到的信息传输速率不是调制阶数、帧长的单调函数，最优的调制阶数、帧长与发送功率和信道状态有关，而发送功率又受到可用的能量的约束，优化问题是对每个时隙的发送功率P(t)、调制阶数M和帧长N进行联合优化，最大化系统的长期平均信息传输速率：

本文采用Lyapunov优化框架来解决优化问题P2，其中的约束条件转化为保持虚队列稳定问题，并将长期平均优化问题转换为单时隙优化问题。首先构造发送节点的电池能量虚队列

其中，A为偏移量。根据电池电量更新公式(6)易得能量虚队列的更新公式为

其中，V是漂移和惩罚项之间的权重，为正数，用于在队列稳定性和系统传输速率最大化间进行权衡。若能使“漂移加惩罚”最小化，则在保持虚队列(即电池电量)稳定的同时，最大化信息传输速率。“漂移加惩罚”存在一个上界，将优化改为最小化上界可进一步降低优化问题求解的复杂度。由式(16)—式(18)可得

通过保持能量虚队列稳定，即电池的电量在一个有限的范围内波动，而不会随时间趋于无穷大或趋于0，则从长期来看收集的能量与用于信息传输的能量是相等的，P2中的约束条件式(14)得到满足，就可将其移除。进一步去除“漂移加惩罚”上界中与P(t), M, N无关的项，再乘以–1，相应将最小化改为最大化，同时由于当前的信道状态和电池状态已知，上界中的均值运算可以去掉，优化问题转化为单时隙的优化问题

式(25)已将式(15)中的约束条件式(3)，式(4)进行了改写。

3.2 优化问题求解

令J(P(t),M,N)=P(t)X(t)+V Rb(t)为优化目标函数，其中Rb(t)与调制方式(调制阶数)、帧长和发送功率有关。优化问题P3是一个3变量联合优化问题，其中可选用的调制方式为BPSK, QPSK,8PSK, 16QAM, 32QAM, 64QAM中的一种，也即M只能选有限几种值。由于不能直接联合优化这3个变量，但调制方式数量有限，可以改为在给定的调制方式下以最大化J(P(t),N|M)为目标优化发送功率P(t)和帧长N，然后选择使J(P(t),N|M)最大的M及其对应的P(t),N为最优解。下面先分析在给定M下最优P(t),N的求解。

首先目标函数对N的偏导为

式中的K恒大于0，为

将优化算法总结如表1所示。

本算法在推广到更多调制方式的应用场景时，需要在式(7)中扩充新增调制方式的误比特率公式，并在优化问题求解过程中增加搜索新增调制方式下的最优功率。如新增的是矩形星座的128QAM, 256QAM, 512QAM, 1024QAM等更高阶的MQAM调制方式，则误比特率可直接使用式(7)中的最后一行。

3.3 复杂度分析

表1首先对每个调制方式执行步骤(3)～步骤(12)，优化给定调制方式下的{P(t),N}。当X(t)≥0时，需计算1次误比特率Peb和帧长N；当X(t)<0时，在搜索最优功率时需要在每个功率点处计算1次误比特率Peb和帧长N，在可用功率范围内共需搜索Pd,max/δ次。由于X(t)≥0时的计算复杂度远小于X(t)<0时，作为计算复杂度上限的估计，假设X(t)<0。下面分析1次搜索的计算量。观察式(7)可知，M=16，32，64时的误比特率计算量最高，因此以这几种调制方式的计算量为据进行算法复杂度分析。每个功率搜索点处需先根据式(7)计算误比特率，再根据式(30)计算帧长。计算误比特率的过程包括1次加(减)法运算、3次乘(除)法运算、1次开方运算、1次Q函数查表运算；计算帧长的过程包括2次加(减)法运算、4次乘(除)法运算、1次开方运算、1次对数运算。所以1次搜索需进行3次加(减)法运算、7次乘(除)法运算、2次开方运算、1次对数运算、1次Q函数查表运算。在一个调制方式下需搜索Pd,max/δ个功率点，共6种调制方式，总共需搜索6Pd,max/δ个功率点。一般而言，在可用功率范围内选择100～1000个功率点的精度已经足够，由于算法主要是基础的代数运算，因此算法的复杂度很低。

表1 算法实现流程

4 仿真结果

4.1 与对比算法的性能比较

为比较本文算法的性能，将其与贪婪算法、半贪婪算法、文献[10]提出的优化算法3种在线算法以及离线注水算法进行性能比较。(1) 贪婪算法(Greedy Algorithm, GA)：每个时隙发送节点根据电池中可用电量的最大值设置发送功率，即PGA=min(Pd,max,ES(t)/Δt)。(2) 半功率算法(Half Power Algorithm, HPA)：每个时隙发送节点以电池中可用电量的一半设置发送功率，即PHGA=min(Pd,max,ES(t)/2Δt)。(3) 文献[10]提出的在线功率控制算法：该文献以香农公式得到的信道容量作为传输速率，利用Lyapunov框架对发送功率进行优化最大化系统长期平均传输速率。文献[10]算法在仿真时权重V=4，虚队列偏移量A=30，此时能获得最佳性能。(4) 离线注水算法：发送端在传输前已获得整个传输过程中信道变化情况和能量收集的情况，根据传输过程中收集到的总能量得到信号平均发送功率。在此平均功率的约束下，以最大化平均信道容量为目标，采用注水算法得到各时隙发送功率。此算法不考虑数据和能量的因果性，也不考虑电池的溢出。

仿真对比算法实际可达到的传输速率时，先根据算法得到发送功率，然后计算6种调制方式的误比特率Peb，再根据式(30)计算得到不同调制方式下最优的帧长N，以及能达到的信息传输速率Rb(t)，选择其中的最大值作为该算法能达到的信息传输速率。

图2(a)是10000个时隙的仿真过程中，不同算法平均信息传输速率随着时间变化的轨迹图。每时隙的平均信息传输速率为从仿真开始到当前时隙各时隙传输速率的平均值。图中虚线为在相同的发送功率下的信道容量；实线为在6种可选调制方式下实际能达到的最高传输速率。从仿真结果可以看到，本文算法的性能明显高于贪婪算法及半功率算法，其中本文算法实际可达平均传输速率比半功率算法高21.3%，比贪婪算法高52.9%。贪婪算法和半功率算法仅依据当前时隙的电池状态做出发送功率的决策，因此性能较差。贪婪算法每时隙的发送功率决定于前一时隙收集的能量，完全无时隙间的能量调度，所以性能最差；半功率算法保留了当前电池中一半的能量供后面时隙使用，在一定程度上平均了不同时隙的发送功率，所以性能比贪婪算法要好。离线注水算法在传输前就已知信道状态和能量收集情况，根据信道状态以最大化理论传输速率为目标进行全局功率分配，且不受能量和数据达到因果性限制，因此其能获得的理论传输速率最高，相比较本文算法的理论最高传输速率约有5.7%的性能优势。文献[10]的算法以信道容量为目标函数进行优化，其能达到的理论最高传输速率也要高于本文算法，约有5.0%的性能优势。但若考虑实际可用的调制方式和数据帧中的开销，离线注水算法及文献[10]算法确定的发送功率并不是最优的。本文算法在确定发送功率时已经同时考虑了调制方式和数据帧中的开销，联合优化发送功率、调制方式和帧长，因此实际能达到的传输速率反而要高于离线注水算法(高8.1%)与文献[10]的算法(高10.8%)。

图2 与对比算法性能比较

图2(b)是仿真过程中4种在线算法电池电量随着时间变化的轨迹图，离线注水算法中发送功率的选择不受收集能量因果性约束，电池电量变化无实际意义，因此这里没有给出。仿真结果显示，本文算法及文献[10]算法的电池电量能在一定水平上上下波动，能保证有足够的电量和剩余存储空间。而贪婪算法、半功率算法在很短时间内消耗完事先存储电量，随后电量稳定在一个很低的水平。

4.2 系统参数变化对系统性能的影响

本节分析算法和电池参数对系统性能的影响。仿真图中给出的结果是10000个时隙仿真结果的平均值。

图3给出了能量到达率λ变化对实际传输速率的影响，同时给出了文献[15]算法在500 bit, 1000 bit和2000 bit 3种传输帧长下的平均传输速率。可见，随着能量到达率λ的增大，平均传输功率增大，因此本文算法和文献[15]算法的传输速率都相应增大。相比较文献[15]算法，本文算法由于同时对数据帧长进行了优化，且可用调制方式更多，因此能获得更高的传输速率，且能量到达率λ越大，本文算法的性能优势越大。

图3 能量到达率λ 对实际传输速率的影响

图4给出了能量虚队列偏移量变化对系统的性能影响。偏移量A可控制电池中的平均电量水平，保证电池中有足够的能量和存储空间，适应信道状态和能量收集量的随机变化。从图中可以看出，当A增大时，电池存储电量的平均水平提高，系统传输速率则先增大后轻微下降。这是因为A增大时，电池的平均电量水平上升，各时隙根据信道状态调整发送功率的范围更大，在信道条件好时能支持更高的传输速率，对信道利用更充分，因此平均传输速率增大。但A过大后，电池的平均剩余存储空间减少，出现电池电量溢出、收集能量部分损失的概率增大，从而导致传输速率轻微下降。

图4 虚队列偏移量A变化对系统性能的影响

图5给出了漂移加惩罚函数中权重V变化对系统性能的影响。权重V用于在目标函数的最大化与能量虚队列稳定性之间进行折中。电池电量的稳定性

图5 惩罚项权重V对系统性能的影响

5 结束语

本文针对发送端由能量收集设备供电的无线通信系统，在能量收集和信道状态先验信息未知的条件下，利用Lyapunov优化框架求解以最大化实际可达传输速率的发送功率、调制方式和数据帧长的联合优化问题。将收集能量使用的长期约束转换为能量虚队列的稳定性要求，将长期时间平均实际可达传输速率最大化问题转化为单时隙的、仅依赖当前信道状态和电池状态的“漂移加惩罚”项上界的最小化问题。由于可用调制方式集合为离散集，而发送功率和帧长可连续取值，该联合优化问题不能直接求解。本文首先在给定调制方式下优化发送功率与帧长。求解时，最优帧长通过解析求解方式得到，而最优发送功率只能采用数值方式求解。在获得每种调制方式下的最优发送功率和帧长后，选择能使漂移加惩罚最小化的调制方式作为最优调制方式，与其对应的最优发送功率和帧长一起作为问题的最优解。仿真结果表明，本文提出的算法能够有效利用收集的能量，适应信道变化，长期平均实际可达的信息传输速率明显优于贪婪和半功率算法；相较于以最大化信道容量为目标的离线注水算法及文献[10]中的功率控制优化算法，在实际可达的信息传输速率上本文算法也有优势；传输速率也高于未优化帧长、可用调制方式较少的文献[15]算法。但仿真结果显示，实际可达传输速率与理论上最高传输速率还有较大的差距，这是因为在传输中没有使用信道编码。要获得接近于信道容量的传输速率，信道编码是必不可少的。联合优化发送功率、调制方式和信道编码的码长、码率等参数将是下一步研究中需要解决的问题。