赵旭 李智
摘 要:为了提高面向频域的多无人机(UAV)协同区域搜索效率,提出了一种基于分布式模型预测控制(DMPC)的多UAV多维决策协同区域搜索策略优化方法。首先,基于电磁目标信号检测模型设计了频域数字信息素图及其与空间区域信息图的融合机制;其次,由于多UAV面临在航行路径、频域覆盖和波束机动上多维决策协同目标搜索问题,基于DMPC框架,提出了多维决策协同搜索(MDCS)算法,建立多维决策空间模型,设计了分层搜索决策机制及其效能函数,最后结合滚动时域优化求解各UAV的搜索决策。仿真实验结果表明,MDCS算法能够实现时空频多维在线决策协同区域搜索策略,引导UAV对未知区域进行最大化覆盖搜索,并且有效降低了多维决策造成的优化求解规模,提升搜索决策的实时性。
关键词:多无人机协同;区域搜索;目标检测;分布式;多维决策
中图分类号:TP39;V279 文献标识码:A 文章编号:2096-4706(2023)11-0015-07
Multi-UAV Multidimensional Decision-Making Collaborative Regional Search Based on DMPC
ZHAO Xu, LI Zhi
(College of Electronics and Information Engineering, Sichuan University, Chengdu 610065, China)
Abstract: In order to improve the efficiency of multi-UAV cooperative regional search in frequency domain, a multi-UAV multidimensional decision-making cooperative regional search strategy optimization method based on Distributed Model Predictive Control (DMPC) is proposed. Firstly, the frequency domain digital pheromone map and its fusion mechanism with the spatial regional information map are designed based on the electromagnetic target signal detection model. Secondly, since the multi-UAV faces the problems of multidimensional decision-making cooperative target search on navigation path, frequency domain coverage and beam maneuver, the Multidimensional Decision Cooperative Search (MDCS) algorithm is proposed based on the DMPC framework to establish the multidimensional decision-making space model and design the hierarchical search decision-making mechanism and its effectiveness function. Finally, the search decision-making of each UAV is solved by combining rolling time domain optimization. The simulation experimental results show that the MDCS algorithm can realize the spatio-temporal-frequency multidimensional online decision-making collaborative regional search strategy, guide the UAV to maximize the coverage search of the unknown area, and effectively reduce the size of the optimization solution caused by multidimensional decision-making and improve the real-time of the search decision-making.
Keywords: multi-UAV collaboration; regional search; target detection; distributed; multidimensional decision-making
0 引 言
多無人机协同系统凭借其高效灵活等特质成为现代战场中的重要作战手段,其中区域目标搜索技术是获取战场信息情报的重要途径,是作战任务的基础。在军事领域,尤其是海域侦察场景,其搜索任务具有区域范围大、环境特征均匀不突出、待侦察电磁目标状态不确定性等特点。相比单架无人机,多无人机可有效提高任务效能,弥补单无人机的搜索能力不足,而且即使部分无人机遭到威胁或发生故障,仍有其余无人机继续执行任务。虽然当前无人机已结合人工智能技术具备了一定的自主决策能力,但多无人机系统面临无人机之间的协同决策问题,如果多无人机系统没有科学、有效的协同策略,可能达到适得其反的效果,因此在区域搜索任务中,研究多无人机的协同策略具有重要意义。
从集中化的角度,以规划出覆盖区域的航迹以达到目标发现概率最大化,由集中终端提前计算路径,并使多架无人机固定执行[1],这导致无人机任务群无法适应动态复杂的环境,多无人机系统的分布式优势利用率低。于是文献[2]建立了一种目标分布概率图(TPM)以描述目标位于任务区域中的一定位置的可能性,TPM随搜索过程动态更新,使得无人机对环境信息动态可知,并作出决策,但TPM可能会造成多架无人机同时搜索同一节点,适用于单目标协同搜索场景。同样地,对任务环境建模方式层出不穷,主要还有数字信息素图[3-6]和确定度图[7,8]等,其中数字信息素图模拟蚁群信息素的分泌、挥发、传播等特性,引导无人机搜索高价值区域。这些环境信息建模方式有效记录实时搜索信息,使无人机能根据环境信息做出决策,但需要搭配高效的无人机控制策略才能保证搜索效率。对于协同搜索策略,为了让UAV能够根据动态环境进行实时决策,文献[9]提出基于分布式MPC的多UAV协同搜索方法,将多UAV系统的大规模优化决策分解为各UAV子系统的分布式优化决策,减少决策优化的规模,以缩短在线优化决策的时间,提高UAV应对复杂动态环境的能力。文献[10]主要面向多UAV间存在通信不确定性的情况,引入MPC思想充分考虑UAV决策的长短期收益,提高搜索效能。文献[11,12]基于MPC提出分布式搜索意图交互机制,提高多无人机协同效能,文献[13]提出利用生物启发神经网络描述环境动态性,并建立激励函数,再基于分布式MPC采用差分进化算法进行优化求解,该算法能够高效引导多机器人搜索未知区域。
综上可见,分布式MPC框架适用于在线搜索决策机制,提升无人机应对未知动态环境的能力,但其研究大多主要针对无人机的空间航行路径规划,忽略真实战场中对目标信号频率的检测需求,因此,本文面向频域目标检测,提出了一种基于分布式模型预测控制(DMPC)的多UAV多维决策协同区域搜索策略优化方法,实现时空频多维在线决策协同区域搜索策略。
1 问题描述
多UAV协同区域搜索是指多架UAV搭载探测设备载荷侦察指定任务区域,并通过通信网络共享探测信息,从而协作完成对任务目标的捕获[14]。在协同区域搜索任务中,实现对区域的最大化覆盖搜索,以捕获尽可能多的电磁目标,为整体作战提供相对全面和准确的战场态势信息。
1.1 UAV搭载传感载荷模型
在每个UAV上搭载传感载荷,控制载荷工作模式参数,以及载荷数据的接收,主要可完成信号检测、参数测量以及目标定位功能。基本工作参数主要包括灵敏度、频段、带宽、天线波束宽度等,灵敏度表现为载荷检测目标信号的能力,工作频段和带宽用于对目标信号频率的检测,天线波束宽度是载荷检测目标的空间范围。UAV搭载传感载荷模型如图1所示。
无人机搭载的传感模块有机械转动能力,以机头为基准,有五个传感波位,如图2所示,同样的,传感载荷天线中心轴方位角θ满足[-33°,33°]区间范围,随着波束的机械转动,传感覆盖范围相当于增加了近五倍,相应探测范围也是动态可控的,在搜索任务过程中,无人机在每个决策周期可对波束方向进行选择,同时需要有合适的决策策略,以达到良好的搜索效率和目标发现概率。
设定传感器探测模型与距离有关,在一定距离范围内,探测概率为pk,随着距离增加,探测效率随之下降,如式:
其中d为栅格单元到传感器的距离,Rlos为传感器的视距,当覆盖位置相对其传感器视距的距离越远,探测概率越小且趋近于零。如当pk = 0.992,α = 0.1时,其探测效率如图3所示。
1.2 信号检测功能模型
在目标搜索过程中,检测是否有信号,需要同时满足以下几个条件:
1)空域条件。在天线波束的覆盖范围内,并且同时在视距范围内。目标在天线波束覆盖范围内判定条件为:目标与传感载荷天线中心轴方位角θ满足[-33°,33°]区间范围。目标在视距范围内判定条件为:目标与传感载荷的几何距离R小于视距Rlos,即R≤Rlos。
2)頻域条件。传感载荷当前工作的频段(如200 MHz带宽)覆盖目标所在的频点,即:
其中,f1为传感载荷的当前工作的中心频率,f0为目标工作的频率。
3)功率条件。目标信号到达传感载荷接收机的功率Pr不小于载荷接收灵敏度Smin,即:
其中,信号到达载荷的功率Pr的计算公式为:
其中,Pt为目标发射功率,单位为dBm;Gt为目标发射天线的增益,为天线的旁瓣增益,单位为dB;L为空间传播损耗,单位为dB;Gr为传感载荷接收天线的增益,单位为dB;Lx为其他损耗,单位为dB。
空间传播损耗L的计算公式为:
其中,f为信号载频,单位为MHz,R为目标到接收载荷的距离,单位为km。
2 综合环境信息图及其更新机制
2.1 搜索区域栅格模型
无人机在区域执行搜索任务中,为方便存储区域的数据信息,将区域进行离散化处理,即搜索区域栅格化。将Mx×My大小的矩形区域划分为若干大小为Δx×Δy的离散栅格单元,如图4所示。每个单元的位置坐标表示为:
搜索任务以最大化覆盖区域以检测更多信号源为目的,采用环境不确定度Sxy (k)∈[0,1]为k时刻UAV对区域的搜索状态,实时描述未知区域的搜索认知情况,Sxy (k)越小,表示对该栅格区域的认知越完全。所有离散矩阵单元的不确定度集合称为环境信息图,即:
2.2 频域数字信息素
将区域栅格化之后,每个离散栅格单元利用矩阵单元可存储环境信息。在本文目标搜索任务中,无人机需搭载电子侦察载荷对目标频率进行扫描,只有当无人机的传感载荷频域带宽覆盖目标频率时,才能检测到目标,所以在目标频率未知的情况下,对空间栅格单元的搜索不仅仅只是在空域上的覆盖,还需要对频域上的多个频点进行扫描。
采用数字信息素来表示对频域上各个工作频率的扫描状态。信息素来源于自然界蚂蚁个体通过跟踪自身及蚁群成员共同分泌的化学信息素来寻找和获取食物源[15],表明信息素机制对行为决策的引導,借鉴其机理构建频域数字信息素,模拟生物信息素,具备分泌、传播、挥发等仿生特性,可动态表现对目标信息的检测情况。
如图5所示坐标为(x,y)的栅格单元,假设工作频段0~12 GHz,工作带宽200 MHz,则其扫描频点共59个,对每一个频点赋予数字信息素浓度Pf (k)∈[0,1],将其定义为频率信息素,扫描过的频点将分泌数字信息素,浓度越高表明频点扫描次数越多,未扫描过的频点则不会产生信息素。
本文频域数字信息素采用排斥信息素,排斥信息素只在无人机扫描过的频点中释放,排斥信息素浓度越高,无人机越拒绝扫描该频率,通过排斥信息素,无人机趋向于扫描未被扫描过的频率,对扫描过的频率则减少重视,实现对全频域的快速扫描覆盖。针对目标动态性,在曾经扫描过的地方目标存在移动再次出现或变更频率的可能性,利用信息素的挥发特性,以挥发率衰减信息素,挥发会设定最小值,当挥发到一定程度则停止挥发,让没搜索过的频率优先级最高。
利用频率信息素的分泌特性和挥发特性,每一次的载荷扫描其频率信息素可根据如下规则更新:
式中,二值变量为信息素分泌开关因子,当在栅格单元(x,y)扫描频率fi时,使 开始分泌排斥信息素, 为排斥信息素的分泌量; 为信息素挥发开关因子,当前频率如果存在信息素,则打开挥发开关,以挥发系数g衰减信息素,当达到信息素的最小值Pmin,则停止挥发。
若无人平台的传感载荷覆盖该栅格单元,则其频率信息素更新为:
其中p为探测概率,是携带的传感载荷精度决定,n(k+1)为截止到k + 1时刻当前频率的扫描次数,随着扫描频数的增加,其信息素分泌变化量减少,避免因多次扫描使信息素过多而造成长时间对该频点的忽略。
2.3 环境信息融合地图更新机制
面向频域的区域搜索主要取决于无人机搭载载荷对目标频率的探测以及传感范围的覆盖,每个栅格单元不仅考虑传感范围的覆盖,还需考虑其频域的探测情况,即每个栅格有多个频率扫描产生的多维探测信息。为了方便环境信息地图的存储和更新,基于频域数字信息素来表征对环境区域不确定度:
式中可见,环境区域不确定度只取决于频域数字信息素浓度Pf (k),所以当频率信息素随探测任务更新时,环境区域不确定度随之更新,不用设定单独的更新机制,使多维探测任务的环境信息地图的存储和更新变得简单。并且将环境信息地图赋予了频率信息素的挥发特性,在整个任务进行的过程中,对环境的认知程度也会随时间动态变化。
3 UAV搜索决策机制
基于DMPC的思想,可以建立如图6所示的UAV搜索决策过程,并提出了多维决策协同搜索(Multidimensional Decision-making Cooperative Search, MDCS)算法,首先建立多维决策空间模型,其次通过分层搜索机制及其效能函数以降低多维决策优化计算量,最后结合滚动时域优化(Receding Horizon Optimization, RHO)求解各无人机的搜索决策。
在每个离散决策时刻k,UAV基于当前的状态和运动约束对未来N个时刻的状态进行预测,预测状态为:
然后基于预测状态,以搜索效能函数为目标得到最优化的控制序列:
将 作为最优决策输出给UAV控制模块,UAV根据收到的控制决策执行相应状态转移。随着搜索过程的进行,UAV状态不断更新,上述过程采用滚动时域的方式迭代进行。
3.1 状态空间模型
在k时刻,记第i架UAV的多维状态空间为:
控制输入为:
则UAV的状态转移方程为:
式中:F为状态转移函数; 为UAV在区域内的坐标位置,?i (k)为k时刻UAV的航向,Vi (k)为波位方向,fi (k)为工作频率;vi (k)为UAV的速度,Δ?i (k)为UAV的航向偏转角度,Δdi (k)为波束转换角度。
于是在区域欧几里得坐标平面上,第i架UAV的状态转移过程表示为:
式中:。当UAV收到控制输入,则会根据上式进行状态转移,同时受到UAV飞行约束,即:
根据上述机制,从k时刻开始经过多个阶段的预测决策,针对航向决策,UAV在未来N(N = 3)个时刻的位置状态如图7所示,优化的控制输入为最终UAV移动的位置。
3.2 分层搜索效能函数
由于UAV在航行路径、频域覆盖和波束机动的决策是耦合的,波束机动方向是在航行路径的基础上决策,而频域覆盖范围取决于波束方向,这使得在预测状态阶段,UAV决策维度爆炸式增长,使UAV实时决策变得困难,针对该问题,建立UAV分层搜索效能函数:
式中,、 分别为路径状态预测和路径控制输入,、 分别为波位及其频率状态预测和其控制输入。
同时构建分层决策框架,如图8所示。
两层的搜索效能如下式:
上式中:κ、λ为权重系数。各子收益目标的具体定义如下:
航行环境探索收益JL描述为无人机航行路径对环境的探索状态的变化,即环境信息图的更新情况,基于环境信息地图将JL定义为:
分配区域环境探索收益JA描述为分配区域后,无人机对自己负责的区域进行环境探索得到的收益,以引导无人机更偏向探索自己负责的区域,将其代价JA定义为:
波束覆盖环境探索收益JD描述为当前路径预测位置波束所有覆盖范围对环境的探索状态的变化,基于环境信息地图将JD定义为:
频率信息素收益JP描述为当前频率和波位使扫描区域的频率信息素更新的变化量,引导对区域内未知的目标频率进行扫描,同时提高对区域频域的覆盖率,基于频域数字信息素将JP定义为:
波位轉换损失代价JV描述为优化探索效率的同时考虑波位转换带来的机械消耗和一定程度的时间代价,降低波位改变对决策带来的负面影响,将其代价JV定义为:
其中Ti, V为第i个UAV的波位改变消耗的时间。
3.3 滚动时域优化
根据UAV状态方程和搜索效能函数,多UAV系统搜索效能为所有无人机搜索效能总和:
对于第i个UAV子系统,以最大化搜索效能为目的,局部滚动优化决策模型如下:
式中:、 分别为其他UAV的N步状态预测和控制输入;Θ为UAV的可输入集,Ξ为UAV的可行状态集。采用粒子群优化算法(PSO)求解,并将最优控制输入的第1项作为k时刻系统的任务决策,即u(k) = u*(k | k)。
4 仿真实验与分析
在22 km×22 km搜索区域内,将其均匀划分为大小为2 km×2 km的离散栅格。假定区域范围内分布有若干目标,现派遣4架无人机搭载传感载荷进行搜索,以覆盖全区域尽可能搜索到更多的目标作为搜索任务。表1、2、3给出了UAV、搭载传感载荷以及目标的仿真参数。初始化环境不确定度为1。每次仿真运行1 000 s,决策时间间隔为30 s,规划时间窗N = 3。
基于以上设定参数的搜索区域,开展随机搜索算法、DMPC算法和MDCS算法的仿真对比实验,单次仿真算法搜索轨迹如图9、图10和图11所示,空心小圆点代表各架UAV,星点是10个电磁目标,栅格单元颜色深浅表示环境不确定度的大小,颜色越深不确定度越大,表示对环境的认知程度越低:
通过仿真,在同一多维决策场景下对比DMPC和MDCS,两种方法的控制有所差异,但搜索效能均高于随机搜索策略,任务结束时,DMPC方法搜索到所有目标,在此场景下平均发现目标时间为136.8 s,而MDCS方法同样能搜索到所有目标,在此场景下平均发现目标时间为113.3 s。由于目标分布随机性,发现目标数量不足以说明MDCS算法的特点及优势,以区域覆盖率和决策优化时间为指标进行比较,实验结果指标对比如图12、13所示。
结果表示,两种算法都有较高的搜索覆盖率,相比MDCS算法,虽然DMPC在搜索效能指标上稍显优势,但DMPC算法单步决策的平均时间高达23.058 6 s,而MDCS的单步决策平均时间为7.358 9 s,仅为DMPC算法的31.9%,因为MDCS在决策优化时牺牲了最优化策略,执行了可行的次优决策,其很大程度提升了决策优化的效率,在多维决策场景下,MDCS算法牺牲较小的搜索效能,能在较快的时间内获得次优决策,提升了决策实时性,这对于战场在线快速决策有实质参考意义。
5 结 论
本文基于分布式模型预测控制,提出了多UAV多维决策协同区域搜索策略优化方法。由于DMPC框架使UAV拥有在线动态决策的能力,所以广泛适用于动态复杂的任务,在未知区域搜索任务中表现良好,但当面向多维决策场景时,其状态空间维度的增长使其优化计算量增加,使决策实时性受到严重影响,针对该问题,基于DMPC思想提出了多维决策协同搜索(MDCS)算法,并设计了分层决策机制及各层搜索效能函数,以降低优化决策负担。仿真结果表明,MDCS算法能够实现多维在线决策协同区域搜索策略,并且有效降低了多维决策造成的大规模优化求解计算量,提升搜索决策的实时性。在未来研究方向,可以考虑UAV之间的通信限制,研究在有限通信条件下的多UAV分布式预测控制和协调方法。
参考文献:
[1] YU H,MEIER K,ARGYLE M,et al. Cooperative pathplanning for target tracking in urban environments using unmannedair and ground vehicles [J].IEEE/ASME Transactions on Mechatronics,2014,20(2):541-552.
[2] DUAN H,ZHAO J,DENG Y,et al. Dynamic discrete pigeon-inspired optimization for multi-UAV cooperative search-attack mission planning [J].IEEE Transactions on Aerospace and Electronic Systems,2020,57(1):706-720.
[3] 沈东,魏瑞轩,祁晓明,等.基于MTPM和DPM的多无人机协同广域目标搜索滚动时域决策 [J].自动化学报,2014,40(7):1391-1403.
[4] RU C J ,QI X M ,GUAN X N . Distributed Cooperative Search Control Method of Multiple UAVs for Moving Target [J].International Journal of Aerospace Engineering,2015:(2015-06-17).https://doi.org/10.1155/2015/317953.
[5] 吴傲,杨任农,梁晓龙,等.基于信息素决策的无人机集群协同搜索算法 [J].北京航空航天大学学报,2021,47(4):814-827.
[6] 周志坚. 城市环境中多无人机协同搜索问题研究 [D].长沙:国防科技大学,2021.
[7] 楼传炜,葛泉波,刘华平,等.无人机群目标搜索的主动感知方法 [J].智能系统学报,2021,16(3):575-583.
[8] SAADAOUI H,BOUANANI F E. Information sharing based on local PSO for UAVs cooperative search of unmoved targets [C]//2018 International Conference on Advanced Communication Technologies and Networking(CommNet).Marrakech:IEEE,2018:1-6.
[9] TRODDEN P,RICHARDS A. Multi-vehicle cooperative search using distributed model predictive control [C]//AIAA Guidance,Navigation and Control Conference and Exhibit.Honolulu:AIAA,2008:1-11.
[10] 符小卫,魏广伟,高晓光.不确定环境下多无人机协同区域搜索算法 [J].系统工程与电子技术,2016,38(4):821-827.
[11] 王宁,李哲,梁晓龙,等.基于搜索意图交互的无人机集群协同搜索算法 [J].北京航空航天大学学报,2022,48(3):454-463.
[12] YAO P,WEI X. Multi-UAV information fusion and cooperative trajectory optimization in target search [J].IEEE Systems Journal,2021,16(3):4325-4333.
[13] 张方方,陈波,班旋旋,等.基于生物启发神经网络和DMPC的多机器人协同搜索算法[J].控制与决策,2021,36(11):2699-2706.
[14] 张哲璇,龙腾,徐广通,等.重访机制驱动的多无人机协同动目标搜索方法 [J].航空学报,2020,41(5):220-232.
[15] SHELOKAR P S,JAYARAMAN V K,KULKARNI B D. An ant colony approach for clustering [J].Analytica Chimica Acta,2004,509(2):187-195.
作者簡介:赵旭(1998—),女,汉族,贵州遵义人,硕士研究
生在读,研究方向:多无人机协同控制;通讯作者:李智(1974—),男,汉族,四川成都人,教授,博士,研究方向:物联网与边缘计算、压缩感知与频谱感知、群体智能。