刘翔 吕丽红 费立刚 刘佳玥
摘要:针对空间目标监视任务具有环境复杂性、目标动态随机性以及任务高度机动性等特点,建立了一种能够体现监视资源设备个体智能和群体智能的多智能体(Multi-Agent)任务资源调度模型,为了能够快速、准确求解任务资源调度决策方案,通过在基本粒子群算法结合多智能体间的相互引导,分析了基于多智能体模型的粒子群算法。仿真结果表明,针对随机设定的任务要求,所提算法可以计算得到合理有效的调度分配方案。
关键词:空间监视;粒子群算法;多智能体系统;资源调度
中图分类号:TP273文献标志码:A文章编号:1008-1739(2023)05-46-6
空间目标监视具有环境复杂性、资源高度动态性、目标动态随机性、任务高度机动性等特点。如何将有限的资源进行科学合理的分配,达到充分、合理利用资源和最大化满足监视需求,已成为目前亟待解决的问题。由于低轨星座低轨目标监视资源所监视目标具有高速运动及空间广域分布、多探测目标全球随机出现且时空跨度大等原因,通常少量的低轨目标监视资源不可能完成对目标的全程跟踪。系统需要较多低轨目标监视资源之间的彼此协同[1]、相互接力才能完成对多目标的全程持续跟踪,而解决跟踪交接问题的关键是低轨目标监视资源调度技术。
用于空间监视的主要监视子系统(光学、雷达)本身已经是一个较为复杂的系统设备,在当前技术发展过程中个体设备已经具备了系统内的资源分配与调度的智能处理。本文提出基于多智能体(Multi-Agent)的资源调度技术,对用于满足低轨目标综合监视所需的多种监视设备(智能体)进行调度建模,设计智能体之间的通信协商机制,构建基于多智能体的低轨目标监视任务调度系统结构模型,用于提升在个体智能基础上进行协同调度的群体智能优化。
目前,国外在资源管理调度领域的研究已经较为成熟,主要分为2类方法:一类是静态预先指派方法,主要针对资源和目标有一方静止的情况[2];另一類是动态实时调度方法,主要针对资源和目标均为运动的情况[3]。常用的资源调度方法包括基于规划论的方法[4]、基于信息论的方法[5]、基于协方差控制的方法以及各种基于人工智能理论的方法[6]等。这些方法的研究侧重点各不相同,规划论方法侧重于构建低轨目标监视资源调度的规划数学模型;控制论和信息论的方法侧重于优化量化的目标函数;人工智能理论的方法侧重于求解低轨目标监视资源调度的智能化模型。
空间目标监视任务通常具有一定程度的可预测性。因为根据动力学可以粗略地预测目标的飞行轨迹,依据星座中各卫星的星历,可预测监视对目标的可视时间窗口,这些数据为低轨目标监视任务的调度和空间低轨目标监视资源的分配提供决策依据。同时,低轨目标监视任务的执行过程也面临诸多动态和不确定因素,当这些动态和不确定性因素的影响超过一定界限时,通常需要对低轨目标监视任务进行动态重调度。
本文在引入人工智能领域多智能体技术的同时,在基本粒子群进化算法[7]的基础上,结合多智能体之间的合作和竞争机制,提出一种多智能体粒子群算法来求解空间目标调度决策问题,以此来提高调度决策方案的求解效率。
智能体(Agent)的概念是从分布式人工智能技术发展起来的。多Agent系统是指由多个具有自主性、交互性、反应性的高度自治的Agent组成的系统,它是为了解决单个Agent不能解决的复杂问题,由多个Agent协调合作形成的问题求解网络[8]。在任务调度系统中应用多智能体技术,主要是针对不确定的和不断变化的系统环境下比较复杂的调度问题,特别是那些短期的、敏捷性要求较高的动态调度问题。基于多智能体的调度系统通过在一系列分散的自治Agent间进行协调和合作来解决问题,具有自治、分布、动态等一些自然特性,可以满足复杂的和动态的系统任务调度的需要。基于多智能体的面向任务的空间目标资源调度模型整体设计如图1所示。该模型主要包括资源Agent、任务Agent、调度Agent以及通信Agent。该模型工作流程为:地基或天基监视系统探测到可疑目标向任务获取Agent发送信息,任务获取Agent整合收到的信息形成监视任务并将任务发送给任务管理Agent。任务管理Agent通过任务分解Agent将针对可疑目标的监视任务分解成多个不同层级的子任务Agent。调度Agent综合考虑各层级子任务Agent的任务需求、资源Agent的工作状态和工作适应度以及历史调度经验等多重因素选择合适的调度算法计算出当前任务的最优调度方案,并通过通信Agent传递给相应的资源Agent完成任务。
1.1资源Agent
资源Agent实际上是目标监视任务的最终完成者,主要建立电磁篱笆、大口径望远镜、精密跟踪雷达、相控阵雷达和阵列望远镜这5种监视资源的资源Agent。资源Agent是通过将监视资源进行软件封装并模块化处理后的框架模型。资源Agent结构图如图2所示,主要包括管理模块、信息处理模块以及通信模块。管理模块登记、更新以及储存监视资源的各类信息,主要负责储存监视资源完成任务需要的条件以及监视资源能够进行的各种操作和所能够完成的任务。信息处理模块负责与外部Agent进行信息交互并处理本Agent的任务执行,调度Agent分配任务后由信息处理模块从监视资源库中找出能够完成任务的监视资源与之匹配,并将该任务进行指派。通信模块负责与外部Agent进行通信。
1.2任务Agent
任务Agent负责管理任务的生成、分解以及执行,并随着任务的产生和完成而自动生成和消除。任务Agent結构如图3所示,主要包括任务获取Agent、多任务管理模块、任务分解模块以及任务发布Agent。监视任务由任务获取Agent生成,当多个任务被同时发布时,由多任务管理模块按照任务优先级、资源Agent使用情况和任务难易度综合考虑后排序;任务分解Agent按照分解策略和分解经验将任务分解为多个不同层次的子任务;任务发布Agent按照预先设定的规则发布任务。
1.3任务分配与调度Agent
调度Agent负责调用相应的调度模型以及算法对每个子任务进行合理的规划和调度,使之满足预定目标要求,并将优化后的调度序列信息和资源分配方案信息反馈给任务Agent和资源Agent,由资源Agent执行相应的子任务。调度Agent还实现对任务执行过程的监控,如果出现新目标和资源故障等突发的动态事件,进行任务重调度,重新制定调度方案,或者寻求替代资源Agent,或者与其他资源Agent协商完成任务。调度Agent结构如图4所示。
2.1多智能体粒子的表示方法
空间目标监视系统运行需要完成任务计划和传感器监视中心根据编目需求,为传感器生成观测目标的清单及观测频度等要求,并给出观测优先级。传感器调度是指传感器为完成观测任务而进行的资源调度,随着空间目标数的增加、跟踪更小目标需求的出现,轨道编目的规模也越来越大,进而加重了空间监视网的负担。
资源调度为了监视设备更好地完成空间目标监视中心分配的任务和日常监视任务进行传感器空域、时间、功率等资源的优化分配和使用。由于用于空间监视资源有限、空间目标众多,监视资源分配调度是指在符合监视任务分配原则和性能约束条件下,根据任务目标的空间位置和目标属性合理地分配监视资源,以使空间监视资源使用效率达到最大,总体的观测收益最大。
对目标的监视资源调度方案可以描述为:对于给定的监视设备,以及监视任务,寻找一个合适的任务目标分配方案,使监视资源的总体观测收益最大。在算法中粒子进化时涉及到粒子位置和速度,位置体现了粒子所代表的解在解空间的位置,适应度函数用该向量来评估粒子的优劣,是评估解质量的基础[9]。
对于多智能体协作的粒子来说,一个问题的解由协作智能体的解共同组合而成,则粒子的位置也是由各个智能体的位置组合而成。定义第个设备的第个状态对目标在时段的任务剖面为一个粒子的位置,1部设备在2个可控观测状态中选择合适状态,同时在3个可观测时段对目标实现的任务分配综合构建为粒子群。通过粒子群的进化处理实现对任务分配与调度的优化。
定义变量表示第个设备的第个状态对目标在时段的监视能力,监视能力可以看作是雷达对目标在一定检测状态下的检测综合能力。检测的综合能力不仅与雷达设备状态有关,还与监测环境以及目标属性有关。
2.2目标决策函数的建立
决策的主要目标是使各设备承担的监视任务基本均等,并且尽可能处于较低功率状态以节省能源,同时要实现对视场内目标的监视任务尽可能地全部完成,从而实现监视任务效益最大化。
2.3约束条件
①一个设备一个状态在某一个时段只能监视一个目标。
②当周边设备发现目标后可以提升当前设备的一个检测状态。
③各个设备的总负担基本相同。
④当前设备的状态与目标的环境关联因子的综合应满足探测要求。
2.4粒子群算法流程
本文将多智能体技术与粒子群优化算法相结合用于空间目标监视的任务调度分析。
粒子群优化(Particle Swarm Optimization,PSO)是一种仿生优化算法,具有原理明确、算法结构简单易实现、性能稳定且参数少的特点。PSO的基本原理是模拟鸟群的觅食过程。该方法将鸟群中个体也就是“粒子”的位置作为寻找最优位置过程的解。而“粒子”位置的更新即“速度”通过综合考虑群体中最优粒子位置和个体最优粒子位置而获得。因此,该算法通过粒子在解空间按照位置和速度来追随最优的粒子进行搜索从而找到最优解。
监视设备智能体在任务分配过程中能够通过交互和粒子群进化策略实现群体的智能进化从而实现对智能体个体智能体现的同时实现群体智能[10]。智能体能够充分利用粒子群算法的信息共享和记忆保存机制,不断从其自身经验和邻域智能体获取知识,并以此来指导自身下一步的进化,使算法具有良好的自适应搜索能力和鲁棒性,能够完成在具有不确定性的复杂空间中搜索得到全局最优解的任务。算法流程如下:
①参数初始化,包括粒子个数、算法迭代次数、粒子的初始位置、初始速度、初始群体中的最优位置。
②将初代粒子代入式(1)计算当前粒子的目标函数值即适应度值。
步骤⑥达到结束条件或迭代次数,结束程序执行;否则返回步骤②继续循环。本文算法设置了结束条件以避免陷入局部最优解。
为了验证本文所建立的空间监视调度模型以及多智能体粒子群优化算法的可行性,设计一种典型的空间目标监视需求进行仿真实验。为简化分析,做以下假定:用于监视的雷达共有4部,每部雷达可实现的9个观测状态(以等效发射功率因子=(-4,-3,-2,-1,0,1,2,3,4)代替,每部雷达有8个有效观测时段;需监测的空间目标有8个(随机分配在8个时段),在仿真中设置了9個等级来区分目标的反射强度。目标关联因子简化为(-4,-3,-2,-1,0,1,2,3,4),随机设置各目标对雷达的关联因子。采用多智能体粒子群算法求解目标调度决策方案,将初始粒子规模数设定为50,迭代次数400。
假定简化的目标与监视雷达资源的关联因子关系数据如表1所示,表示目标相对雷达检测的信号反射等效相对强度数据。
假定被监视目标相对各雷达出现的可检测时段如表2所示,在仿真中设置了8个可检测时段。
针对上述目标与雷达状况,采用多智能体粒子群算法求解目标决策方案,多智能体种群规模设为50,迭代次数为80,则计算所得到的最优粒子编码如表3所示,适应度函数收敛曲线如图5所示。
由表3可以看出,设置的8个目标均有雷达可以观测,并且在同时段单个雷达只针对1个目标完成观测。该结果符合表1和表2中的目标观测设计要求。经过粒子群优化的目标分配调度方案符合空间目标监视所提出的约束条件,可以在各监视设备任务均衡的前提下,实现总能耗达到最小,同时兼顾雷达观测目标的时段分配要求。说明本文方法能够求解得到合理、有效的目标监视任务调度与分配方案。
本文针对复杂的空间目标监视任务,建立了一种能够体现监视资源设备个体智能和群体智能的多智能体任务资源调度模型,为了能够快速、准确求解任务资源调度决策方案,通过在基本粒子群算法结合多智能体间的相互引导,分析了基于多智能体模型的粒子群算法。仿真结果表明,针对随机设定的任务要求,本文方法能够得到合理、有效的空间目标任务分配调度决策方案,并且具有良好的实时性。
参考文献
[1]陆震.美国空间态势感知能力的过去和现状[J].兵器装备工程学报,2016,37(1):1-8.
[2]宋宇鲲,韦龙龙,张多利.多核系统静态任务调度的启发式算法[J].电子测量与仪器学报,2018,32(5):134-141.
[3]庄树峰.跟踪与数据中继卫星系统资源调度技术研究[D].哈尔滨:哈尔滨工业大学,2017.
[4] CHHETRI A S,MORRELL D,PAPANDREOU-UPPAPPOLA A. SOn the Use of Binary Programming for Sensor Scheduling[J].IEEE Transactions on Signal Processing: A Publication of the IEEE Signal Processing Society,2007,55(6):2826-2839.
[5]张耀中,姚康佳,郭操.基于HMM和信息熵的分布式传感器协同任务规划研究[J].电光与控制, 2018,25(12):5-10.
[6] LOPEZ J M M,HERRERO J G,RODRIGUEZ F J J,et al. Cooperative Management of a Net of Intelligent Surveillance Agent Sensors[J].Internation Journal of Intelligent Systems. 2003,18(3):279-307.
[7]潘军军,冯柯,李焕良,等.改进多目标粒子群算法的火箭雷弹弹道求解方法[J].火力与指挥控制,2018,43(2):157-161.
[8]刘闻,王晓路,昇汪宏,等.基于Agent的低轨预警卫星星座探测仿真分析[J].系统仿真学报,2019,31(11):2413-2421.
[9]刘昊,宋敬峰,陈超.基于进化粒子群算法的联合火力打击任务规划方法[J].舰船电子工程,2020,40(4):21-26.
[10]付跃文,王元诚,陈珍,等.基于多智能体粒子群的协同空战目标决策研究[J].系统仿真学报,2018,30(11):4151-4157.