强化学习无人机通信系统中的信息年龄优化

2022-03-30 04:18李新民尹宝林魏李莉张晓强
电子科技大学学报 2022年2期
关键词:新鲜度轨迹年龄

李新民,尹宝林,魏李莉,张晓强

(西南科技大学信息工程学院 四川 绵阳 621000)

无人机空中基站具有部署灵活、自主可控和低成本的优点,能够满足未来6G 移动通信系统的广覆盖、低时延、大连接和智能化部署的需求[1],因此无人机通信技术成为构建未来6G 移动通信系统的关键技术之一。

目前,无人机通信系统中性能分析和轨迹设计成为研究热点[2-3]。无人机轨迹不仅影响通信链路质量,还影响无人机能耗,因此针对不同场景和需求设计有效的飞行轨迹成为无人机通信网络中的重要研究工作[4-5]。文献[6]在单个无人机和两个地面用户组成的无线能量传输系统中,通过优化无人机飞行轨迹以提升地面用户接收能量。文献[7]考虑了一种圆形飞行轨迹的无人机信息采集系统,基于二分法和循环迭代法优化无人机飞行轨迹,分别得到最小化系统能耗和地面用户能耗的飞行方案。然而多无人机集群通信系统中,多无人机轨迹优化和干扰控制是现有研究的工作难点。文献[8]通过联合优化通信链路的带宽和无人机飞行轨迹,实现最大化地面用户速率性能。文献[9]针对上行两用户干扰信道的无人机通信系统,通过分析无人机位置和地面用户功率对速率性能的影响,获得发送功率闭式和无人机位置的范围,实现无人机通信和速率最优。针对通信系统智能化需求,文献[10] 提出一种深度强化学习方法优化无人机飞行轨迹以实现最大化传输速率性能。文献[11] 提出了一种新的基于门控循环单元和自编码器的深度学习算法,实现无人机轨迹预测和姿态评估,保证无人机通信系统的可靠性。总体而言,当前研究主要以提升无人机通信速率、降低能耗和增强可靠性等性能需求为主,忽略了信息新鲜度的性能需求。

在6G 系统的实时性需求场景下,系统获取的新鲜信息才能被有效使用[12-13]。为满足6G 通信系统多方位设计需求,信息新鲜度优化成为移动通信系统中亟需解决的问题。在文献[14] 中,信息年龄(age of information, AoI)首先被用来表征信息新鲜度,具体定义为数据包从源节点生成,并到达目的节点所经历的时间。文献[15] 在局域网络中基于不同调度策略验证了信息年龄表征的信息新鲜度性能。文献[16] 在信息年龄约束下优化传感器的动作,从而最小化传感器网络发射功率。文献[17]在单用户衰落信道中,考虑AoI 需求提出了基于动态规划的功率优化策略。文献[18] 提出了有效信息年龄的概念,分析了系统吞吐量与平均有效信息年龄的关系。然而,上述所提信息年龄优化方法不适用于能耗约束下的无人机通信系统中的信息年龄优化研究。

本文针对无人机通信系统中信息新鲜度的性能需求,首先基于信息年龄建模单无人机通信系统的信息新鲜度,并形成能耗约束下的最小化信息年龄的优化问题。针对复杂的非凸优化问题提出基于强化学习的无人机轨迹优化方法,该方法将构建与信息年龄相关的奖励函数以实现智能化无人机轨迹决策。

1 系统模型和问题形成

1.1 无人机能耗建模

定义传输带宽为B,因此在t时刻无人机接收第n个用户的数据速率为:

1.2 AoI 建模

式中, ∂n是一个二进制数,当∂n=1时,表示第n个地面用户与无人机基站间数据包的传输已经完成,∂n=0表示还未传输完成。在有限观察时间内,AoI 变化趋势如图1 所示,其中τ1=1。在 μ1时刻用户开始向无人机发送数据包,若数据包未发送完成,AoI 会持续增加,直到 μ2时发送完毕,并在μ3时开始服务下一个用户。

图1 AoI 的变化趋势

式中,能耗约束表示无人机的剩余能量不小于无人机的最低工作能量。由于能耗约束十分复杂,且离散优化目标与通信速率相关,因此该非凸优化问题通常难以求得最优解。

2 基于Q-Learning 的AoI 优化方案

为求解上述复杂AoI 优化问题,实现无人机飞行轨迹自主决策,本文采用Q-Learning 算法通过奖励策略设计无人机飞行轨迹。Q-Learning 是一个无模型的强化学习算法,也可以被看作是异步动态规划方法。它为智能体与环境的信息交互提供经验以提升在有限马尔可夫模型<S,A,P,R,γ >中获取最佳动作决策的学习能力。该马尔可夫模型具有有限的状态空间S、动作空间A、 状态转移概率P、奖励函数R以 及折扣因子 γ,折扣因子用于表征处于当前状态下未来奖励的重要程度。定义 α为学习率,决定新经验值与历史经验值的利用程度。定义贪婪系数ϵ ∈(0,1)以平衡算法探索和利用关系,无人机将基于ϵ-greedy策略选择动作。

1) 状态空间:无人机在服务用户过程中,状态空间仅由无人机位置决定,无人机的飞行高度恒定为H,将无人机在子帧u的位置坐标b(u)=(x(μ),y(μ),H)作为无人机的状态,从而构建了无人机的状态空间s(μ)∈S={b(μ)}。

2) 动作空间:动作空间为无人机在服务过程中可执行动作的集合,无人机的飞行高度恒定。受限于无人机的计算能力和能量,本文考虑在子帧μ可执行的动作包括东、南、西、北、东北、东南、西北、西南8 个典型动作,从而构成无人机的动作空间,a(μ)∈A={′E′,′S′,′W′,′N′,′EN′,′ES′,′WN′,′WS′}。高维动作空间将导致训练次数增加,也会增加计算时间,消耗无人机有限能量。而本文所提典型动作空间可为高维动作空间研究提供基础。无人机的动作空间为当无人机在任意状态下,可通过执行动作空间中的任意动作到达下一个状态。

3) 奖励规则:为使无人机能够自主求解最佳路径,将无人机所采集每个用户AoI 经过一定的运算规则后将计算结果作为奖励反馈给无人机,无人机可根据该奖励决策是否在该状态下执行该动作。通过多次训练使无人机在每个状态下都能选取长期收益最大的动作,即获得最佳动作策略。定义 Φ和λ ∈[0,1]为奖励相关的参数,以保证奖励与AoI 之间为负相关, ωn表示当前服务用户最后时刻的τn值,则无人机服务第n个用户的奖励Ψn为:

3 仿真结果与分析

为验证本文方案性能的优越性,将贪婪方案与随机方案作为基准方案,在不同参数配置下验证所提方案。为减少数据包重传带来额外的能量开销,考虑无人机飞至用户的正上方才开始数据接收。无人机成功接收所有数据包或者停止服务后,不再计算AoI。仿真平台为Python3.9,CPU 为Intel i5-5350U@ 1.80 GHz,详细仿真参数如表1 所示。φn为第n个用户的其他路损,则LoS 路损和NLoS 路损分别表示为:

表1 仿真参数

在单个无人机数据收集场景下,基于Q-Learning算法训练无人机多次后的飞行轨迹如图2 所示。无人机收集每个用户的信息后,根据设计的奖励机制向无人机反馈奖励,然后更新剩余能量Er和Q表,从而自主决策无人机飞行轨迹。

图2 无人机飞行轨迹

图3 仿真了用户发射功率与平均AoI 的关系。仿真表明随着发射功率增加平均AoI 呈现下降趋势,意味着平均AoI 与用户发射功率负相关。当发射功率增大时,接收端信噪比增大增加了通信速率,因此传输数据包所占子帧数减少,从而使得系统AoI 减小。与基准方案相比,在相同发射功率下,本文无人机轨迹设计方案能够降低信息平均AoI,具体地,发射功率p=20 dBm时,相较于随机方案和贪婪方案,本文方案平均AoI 减少16.13%以上。

图3 发射功率与AoI 的关系

图4 仿真了无人机服务半径与AoI 之间关系,不难发现无人机服务半径增加,飞行时间变长,系统AoI 快速增加。通过与基准方案对比发现:在相同服务半径情况下,所提无人机轨迹设计方案能够有效降低系统AoI。特别地,在Ru=300 m时,相较于随机方案,本文方案的平均AoI 降低20.40%,相较于贪婪方案,本文方案的平均AoI降低15.26%。

图4 无人机服务半径与AoI 的关系

图5 仿真了3 种方案下信息年龄与训练次数的关系。在固定信道下训练无人机Nr次,本文方案AoI 结果随着训练轮次增加而逐渐降低,表明此方案能够实现无人机自主决策飞行轨迹,提高信息新鲜度。与基准方案相比,此方案具有更优的收敛性:相比于随机方案,能提升无人机通信系统21.82%的信息新鲜度性能,相比于贪婪方案,提高了8.51%的信息新鲜度性能。

图5 信息年龄与训练次数的关系

4 结 束 语

本文基于信息年龄建模无人机通信系统的信息新鲜度并形成能耗约束下的最小化信息年龄的优化问题,提出了基于强化学习的无人机轨迹优化方法,构建与信息年龄相关的奖励函数,使无人机自适应地改进飞行轨迹设计策略。仿真结果表明,此方案与基准方案相比,能有效提高系统的信息新鲜度,同时,所提无人机轨迹设计方案具有更优的收敛性。此研究工作为无人机集群通信系统中增强信息新鲜度提供了优化方法。

本文的研究得到了西南科技大学博士基金(18zx7142, 19zx7123)的支持,在此表示感谢!

猜你喜欢
新鲜度轨迹年龄
变小的年龄
解析几何中的轨迹方程的常用求法
轨迹
轨迹
傅里叶变换近红外光谱技术快速检测金枪鱼新鲜度
基于电子鼻技术的秋刀鱼新鲜度评价
年龄歧视
算年龄
应用挥发胺/氧化三甲胺摩尔比值评价大菱鲆的新鲜程度
你在异性眼中的“新鲜度”