基于博弈论的多无人机覆盖策略研究

2022-11-03 12:30谢祥洲罗一欣
电光与控制 2022年10期
关键词:纳什效用功率

谢祥洲, 谢 玲, 罗一欣

(1.电子科技大学机械与电气工程学院,成都 611000; 2.重庆城市管理职业学院,重庆 401000;3.吉林省教育学院,长春 130000)

0 引言

无人机(UAV)以其体积小、机动性强、通信成本低等特点在军事和民用领域得到了广泛应用,然而单架UAV往往不能满足复杂任务的需要[1-2]。为了解决这一问题,需要组建一个多UAV协作小组来提高效率,特别是在信息收集和处理方面,UAV之间的协作已成为UAV网络发展的关键技术之一[3-4]。

目前UAV研究热点主要集中在区域覆盖问题上,目的是使UAV更好地完成侦察、通信、测绘等任务[5]。文献[6]提出了一种无人机网络覆盖优化算法,通过对最少无人机节点数目和热点区域覆盖范围进行估计,并应用改进的布谷鸟算法重构优化目标函数,从而实现热点区域覆盖概率的重点优化;文献[7]提出了一种基于相对距离的无人机基站传感器网络部署方法,通过感知地面的未覆盖区域,以及覆盖边界或障碍物的位置实现按需覆盖,并在3个相对距离的影响下保持稳定的无线电覆盖,有效提高无人机网络覆盖效率。但上述方法难以最大程度地提高覆盖质量以及覆盖区域,并难以最小化发射功率,不能实现无人机辅助的无缝覆盖。文献[8]提出了一种基于飞行时间约束的无人机无线通信性能优化策略,通过使用最佳运输理论数学框架,提出了一种基于梯度的优化算法,用于根据用户的分布、飞行时间和无人机的位置对地理区域进行最佳划分,从而最大程度地提高覆盖质量、覆盖区域;文献[9]提出了一种用于无人机基站(UAV-BS)的最佳放置算法,在垂直和水平方向上解耦UAV-BS的部署问题,并将UAV-BS在水平维度上的部署建模为圆形放置问题,从而使用最小发射功率达到最大化用户覆盖数量;文献[10]提出一种无人机蜂群中紫外光隐秘通信能耗均衡路由算法,在保持UAV编队的基础上,根据无线紫外光散射通信的优点,在网络选择过程中结合通信链路损耗和节点剩余能量构建权值函数,从而平衡无人机蜂群节点的能耗,有效延长无人机蜂群的生命周期。但上述研究仅对发射功率进行了优化,未考虑无人机在推进过程中的能量消耗,与无人机网络通信的实际服务时间存在较大偏差,实用性较差。

为更好地解决在节能通信场景下UAV区域覆盖的问题,本文提出了一种基于博弈论的多无人机覆盖部署策略。

1 系统模型构建

图1所示为本文所探讨的多UAV合作覆盖示意图。对于任务单元i,假设某个给定UAVj的覆盖概率为qj,i,则采用软覆盖的概念计算网络中任务单元i的覆盖概率qi为qi=1-(1-q1,i)×(1-q2,i)×(1-q3,i),该式表明探测到的UAV越多,任务单元的覆盖概率qi越高。

图1 任务区多UAV覆盖示意图

考虑到天线增益和路径损耗等因素,如何准确地描述任务点的覆盖效用是一个值得思考的问题。本文建立了由多UAV组成的空对地网络,连续区域I∈R2被均匀地划分成离散单元。UAVn的状态定义为sn={ln,pn},其中,ln和pn分别表示UAVn的水平位置(xn,yn)和载波传输功率。假设固定翼UAV在固定的低空平台上水平飞行,UAV的定向天线波束宽度用θ表示,与均匀平面阵列(Uniform Planar Array,UPA)下的天线方向图相对应,从而得到了UAV的天线增益为

(1)

式中:Gm为主瓣增益;N0为天线元数。覆盖概率由路径损耗、位置、载波传输功率和环境等因素综合决定。此时,空对地通信的路径损耗LdB为

(2)

式中:n0为路径损耗指数;fc为UAV的载频;c为电磁波速度;di,n为UAVn与任务单元i之间的距离。

无线网络传输存在有视距和无视距链路。具体来说,UAVn的有视距概率表示为PLoS,n,而无视距概率表示为PNLoS,n。单架UAVn相对任务单元i覆盖概率qi(Sn)可表示为

(3)

式中:pn为UAVn的载机传输功率;pmin为成功检测时最小功率要求;μLoS,σLoS和μNLoS,σNLoS分别为有视距和无视距链路阴影衰减的均值和方差。

为了研究整个任务区的总覆盖率影响程度,本文引入了任务区重要性的概念。据此,任务单元i的UAV网络覆盖能力gi,N可表示为

(4)

式中:N表示无人机集合;σi表示任务单元i的重要性。因此,进一步推导出UAV全局覆盖效用U0为

(5)

载波传输能力和能量消耗是多UAV是否能完成任务的关键,受UAV通信能效设计的启发[11],UAV网络的总能量效率G0为

(6)

式中:τ为给定任务要求的覆盖阈值;G0表示覆盖效用的单位功率,G0值越高,表示传输功率越小,覆盖效用越高。因此,该模型可优化为寻找UAV的最优状态Sopt,即

P∶Sopt=arg maxG0。

(7)

2 合作博弈论框架

文献[12]中建立了一个小型网络集中分布式优化体系结构,并将物理小区网络映射为云中的虚拟决策网络,受该方案的启示,本文采用降维的方法来求解该模型。首先,将任务区的环境参数和所有UAV的位置、机载发射功率等信息报告给地面中心,由地面中心负责将UAV网络映射到虚拟决策网络;然后,设计了一种优化方法来解决该问题;最后,将得到的决策结果Sopt分发给UAV,它将根据Sopt调整载波传输功率并传输到指定位置。

2.1 降维求解过程

由于多维策略(位置和传输功率)的存在,求解问题P具有挑战性,通过将P划分为P1和P2来降低策略选择的复杂性,具体降维方法如下。

(8)

(9)

2.2 UAV覆盖最大化中的合作博弈

问题P1和P2是离散优化问题和NP-hard问题,传统集中式算法不能有效解决这些问题,特别是当任务单元的数量很大时更困难。为了应对这一挑战,本文采用博弈论这一有效的分布式多决策问题解决方法,来消除个体决定带来的相互影响。

在节能多UAV覆盖部署模型的博弈论框架中,覆盖问题被建模为R(N,{Sn,n∈N},{Un,n∈N}),其中,Sn为UAVn的状态。为方便起见,将位置ln和传输功率pn设置为S1,n和S2,n,即S1,n⊗S2,n=SnS,其中,S1,n和S2,n分别为ln和pn的集合,⊗表示笛卡尔积。UAVn的覆盖效用函数Un可以表示为Un=U1,n⊗U2,n,其中,U1,n和U2,n分别为覆盖最大化和功率控制的效用函数。

另外,sn,u1,n和u2,n分别表示Sn,U1,n和U2,n的一个单元。同时,将s-n定义为一组除了第n架UAV外的所有UAV的操作配置文件。因此,提出的节能型多UAV覆盖部署模型是一个合作博弈模型,在该模型中,参与者(UAVn)的效用属于网络中参与者和其他UAV的状态。

根据势博弈的基本定义,势博弈要求参与者在分布式多主体系统中进行合作控制,使每个参与者的局部效用与全局效用相互关联。以下定义用来分析所建立的博弈论框架的性质。

定义1(纳什均衡(NE))。

(10)

定义2(严格势博弈)。

对于效用函数u(sn,s-n),如果存在一个势函数φ,当任意策略的选择从sn变为s′n时,存在如下关系

μ(sn,s-n)-μ(s′n,s′-n)=φ(sn,s-n)-φ(s′n,s′-n)

(11)

那么这个博弈称为严格势博弈(Exact Potential Game,EPG),它至少有一个NE点。

在覆盖最大化阶段,假设该模型主要针对合作型UAV,那么存在重叠检测区域的UAV往往具有合作行为。

定义In为UAVn的可探测区域,若In∩Jn≠0,则Jn为UAVn的邻居的集合。同时定义J′n为经过n次新位置选择后的UAVn的新邻居。需要注意的是,所有UAV都有其最大的发射功率,覆盖最大化中基于合作覆盖博弈的效用函数为

(12)

G1:maxu1,n(Sn,SJn) ∀n∈N

(13)

式中,根据目标G1,UAVn的最优局部效用由其水平位置确定。

定理1将多UAV覆盖问题描述为一个合作覆盖博弈问题,参与者采用式(12)的效用函数。合作覆盖博弈G1是一个EPG,并至少有一个纯策略纳什均衡点。另外,覆盖最大化的最优解P1是G1的纯策略纳什均衡点。

证明 首先,将整个覆盖效用构造为势函数,即

(14)

假设任意一架UAVn的状态从sn变为s′n,则由个体策略选择引起的势函数变化如下

φe(Sn,S-n)-φe(S′n,S-n)=

(15)

直观地说,当UAV不在J1,n集合时,其完全不受上述策略变化的影响。那么式(15)中最后两项的结果等于零。此时,根据式(12)和式(15)可得

u1,n(sn,sJn)-u1,n(s′n,sJn)=φe(sn,s-n)-φe(s′n,s-n) 。

(16)

由式(16)可知,当任意UAV改变其行动策略时,其局部效用函数和势函数的变化值是相同的。由此证明了局部利他博弈G1是一个EPG,并且根据定义2具有至少一个纯策略纳什均衡点。而且,设计的势函数对全局覆盖都具有效用,它保证了每个参与者当前的局部效用与全局覆盖效用相互进行关联,因此P1的最优解变为G1的纯策略纳什均衡点。

2.3 UAV功率控制中的势博弈

从式(3)中可以看出,地面单元的覆盖概率不仅由UAV的位置决定,还与载波传输功率有关。图2为给定UAV地面任务单元的覆盖概率与发射功率之间的关系,从图2比较两个不同位置的UAV可知,地面单元的覆盖概率随着UAV发射功率增加而增加,且随着传输功率的增加,覆盖概率将一直接近峰值并逐渐平缓。

图2 覆盖概率随发射功率的变化

注意在当前固定的UAV部署下,一架UAV的功率选择会影响其可探测的任务区域单元的覆盖概率。因此,功率控制问题是一个潜在的博弈问题。为此构建了UAVn的个体效用函数,以捕获最优传输功率分配,即

(17)

式(17)表示UAVn在固定的最优位置下的最佳能效,其由UAVn的载波传输功率决定;在这个过程中,效用函数也满足势博弈的特点,其使每一架UAV的本地效用与全局效用相关联。式中,In为UAVn的探测区域。因此,设计的UAV功率控制模型可以建立一个势博弈模型目标,即

G2:maxu2,n(pn,p-n) ∀n∈N。

(18)

定理2针对UAV最优功率控制问题,以式(15)作为其单独效用函数,那么UAV势博弈G2是一个EPG,并至少有一个纳什均衡点。此外,问题P2的最优解是G2的纯策略纳什均衡点。

证明 首先能量效率效用可以表示为势函数,即

(19)

式中,对于任意传输功率选择从pn变为p′n,计算出的势函数变化如下

(20)

应该指出的是,任务区域不在UAV探测范围内,其完全不受上述策略变化的影响。因此可得

(21)

注意在式(20)和式(21)中,对于任一架UAVn,其势函数和个体效用函数之间的变化值与UAVn的变化一样,其传输功率策略可表示为

φ(pn,p-n)-φ(p′n,p-n)=u2,n(pn,p-n) -u2,n(p′n,p-n)。

(22)

由式(22)可以看出,G2是根据定义1得出的EPG,并且至少有一个纯策略纳什均衡点。另外,设计的势函数针对的是整个覆盖效用,它保证了每个参与的UAV的当前个体效用与整体覆盖效用相关联。因此,问题P2的最优解是G2的纯策略纳什均衡点。

2.4 空间自适应博弈的多UAV节能覆盖部署算法

由于多UAV节能覆盖部署问题被描述为一个EPG问题,因此需要应用学习算法来探索博弈的纳什均衡,以防止UAV策略陷入局部最优状态。基于空间自适应博弈(Spatial Adaptive Play,SAP)的多UAV节能覆盖部署算法的实现过程如下。

算法1:基于SAP的多无人机节能覆盖部署算法。

目标:在覆盖效用限制下最大限度地减少工作功率建立UAV状态剖面的参数,Sn={ln,pn},n∈N,和任务区域I的状态(σ),设置合理的迭代次数。

/*步骤1:在最大载波传输功率下的最大覆盖部署*/

While:未达到预定的最大迭代次数 do

随机选择一架UAVj,将其工作功率调至最大。

从受约束位置S1,n中选择一个位置状态lj(t),产生sj(t)的变化。

选定的UAVj计算任务区域的当前本地覆盖效用u1,j(sj(t),sJj(t))和期望效用u1,j(s′j(t),sJj(t))

UAVj根据式(23)选择一个状态,并更新其状态sj(t+1)。

t=t+1。

End while

计算当前UAV网络的全局覆盖效用U0,如果U0>τ,则保存并利用UAV更新后的状态数据Sn,将Sn输入到以下算法中;否则,结束程序并返回。

/*步骤2:在最大覆盖下的最优功率控制*/

While:未达到预定的最大迭代次数 do

在每次迭代中随机选择一架UAVn。

所有其他UAV重复先前的功率选择,即pk(t+1)=pk(t),k∈Jn。

为选择UAVn,计算其效用函数

u2,n(p′n(t),p-n(t)),不同功率选择p′n∈S2,n/pn,以及电流效用函数u2,n(pn(t),p-n(t)) 。

UAVn根据式(24)更新其功率选择策略。t=t+1。

End While

二进制对数线性学习被证明能保证收敛到最优纳什均衡,用于探索UAV的最优覆盖部署[13]。UAV的行动选择概率函数为

(23)

式中,t表示迭代次数。考虑到多智能体决策的复杂性,采用了一种分布式学习算法用于功率控制。因此,采用空间自适应博弈方法可将传输功率收敛到稳定的分配状态,UAVn的功率选择概率函数为

qn(t)=

(24)

式中,β为学习参数,β>0。

3 实验结果与分析

本章将进行模拟实验以评估所提出方法的有效性。实验中,将UAV通信网络的载波频率设置为2000 MHz,其中,μLoS=1 dB,μNLoS=20 dB,n0=2.5。此外,假设每架UAV都配备了16根天线,即N0=16。考虑到四旋翼UAV的实际需求[13],设置了一些合理的离散传输功率选择,即pn∈{32,34,36,38,40,42,44,46,48,50}(单位为dBm),n∈N。另外,设置覆盖阈值τ=0.6,即在不确定策略下的全局覆盖效用必须大于或等于0.6以满足通信要求,根据算法设计模拟过程将其分为两个步骤进行计算。

3.1 覆盖效用分析

假设任务区的信息已知,在此将任务区统一划分为50×50个单元(每个单元的长度为200 m),任务区的设计概率密度函数服从正态分布。图3所示为不同的UAV数量时的全局覆盖效用U0的变化。当部署5架或更多UAV时,结果可以最终收敛到稳定状态。但当部署4架UAV时,覆盖概率小于0.6,不能满足通信需求,无法进行功率控制。

图3 不同的UAV数量时的总覆盖效用

3.2 基于SAP算法最优覆盖部署分析

前文的计算都是在UAV的数量预先给定的情况下进行的,为了更好地评价所提出方法的效果,将UAV的数量设置为8来验证仿真的有效性,结果见图4。

图4 8架无人机最优覆盖部署

图4(a)为8架UAV在最大载波传输功率下最优覆盖部署的覆盖概率分布图。从图中可以看出,单架UAV离某一特定区域越近,其覆盖性能就越高,而且UAV重叠检测区域的颜色较深,表明多UAV协同检测可以提高检测概率。同时,如果没有紧密部署不同类型的UAV,会导致覆盖效用不足。图4(b)是计算全局覆盖效用U0的收敛性随着迭代次数的变化。为了消除偶然性影响,本文在步骤1中进行了10次计算(见图4(b)中opt.1~opt.10)。从图4(b)中曲线可以看出,总覆盖效用总会收敛到某个特定值,该结果表明此方法至少存在一个纳什均衡点。

3.3 基于SAP算法的最优功率控制分析

由于仿真结果满足通信要求,接下来对UAV高效节能的输电功率分配进行了研究。从图4(b)的放大图中可以看出,选择算法中执行步骤2得到的第10条曲线,其结果也收敛于一个稳定的解τ=0.6。这表明根据上述理论分析,提出的SAP算法可以将结果收敛到纳什均衡点。图5(a)给出了最优部署下最优功率控制覆盖概率分布图。同时,图5(b)给出了UAV发射功率选择的收敛状态,其中每条曲线代表UAV选择的不同发射功率。从图5(b)可以看出,在大约110次迭代之后,每条曲线都收敛于稳定状态,证明了提出的功率控制方法至少有一个纳什均衡点。

图5 SAP算法的最优功率控制分析

图6为所有UAV的传输功率收敛情况,图7为迭代过程中UAV总能量效率G0的变化情况。图6和图7的结果说明了SAP算法的正确性、有效性和收敛性。更重要的是,在探索最优功率选择策略以使UAV网络总能量效率最大化的同时,UAV的总传输功率也趋向于收敛到最小的结果。

图6 所有UAV载波传输功率的收敛图

图7 在迭代过程中UAV总能量效率的变化

4 结论

针对UAV协同覆盖和节能通信技术方面存在的问题,本文提出了一种基于博弈论的多UAV覆盖部署策略,通过计算得到如下结论:

1) 通过准确描述UAV之间的协作关系,构建了一个多UAV协同覆盖部署模型,通过仿真模拟实验验证了该方法的有效性和模型的可靠性;

2) 采用集中分布式优化体系结构,将多维策略问题分为覆盖最大化和功率控制两个步骤,并采用基于空间自适应博弈的多UAV节能覆盖部署算法证明了纳什均衡点的存在;

3) 通过引入能量效率,构建了UAV覆盖场景来解决能量短缺问题,可使覆盖场景更加可靠和有效,在实际的多UAV协同通信场景中具有很大的应用潜力。

猜你喜欢
纳什效用功率
锐词宝典
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
破冰船推进功率与破冰能力的匹配性分析
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
中医特色护理技术在老年高血压患者中的应用效用观察
博弈论在环境问题中的应用
“功率”练习
功和功率的常用计算方法
爱,纳什博弈人生的真理
化解功和功率疑问