徐友春 郭宏达 娄静涛 叶 鹏 苏致远
(陆军军事交通学院 天津 300161)
集群是一种仿生学概念,从自然界中的自发组织如鸟群、鱼群[1]、蚁群[2]和狼群[3]等集群中获取灵感。集群不是传统人工智能中的模仿个体结构,而是对群体结构和交互方式的模仿。在集群中,个体视为具有简单和单一功能的智能体,而某些个体具备自我进化的能力,以实现更好的兼容性,为集群行为奠定基础。
在过去的20年里,随着无人车技术的迅猛发展,多辆无人车之间可以通过无线通信或车载传感器感知的方式进行信息交流和行动协同,从而形成多种形式的多无人车联合运用,展现出比单车更强大的能力,实现更多的功能。这种系统被称为无人车集群系统或多无人车系统[4]。
无人车集群运用是智能无人领域未来发展的主要方向,原因如下:
一是技术的快速发展为无人车集群运用提供了基础支持。通信技术,特别是高性能的自组网通信技术,保证了集群系统之间可靠的信息交互。芯片和软件技术的进步提升了无人车的环境感知和认知能力,使其更适应复杂的集群协同要求。大型模型(如chatGPT)的应用提高了人工智能(Artificial Intelligence, AI)的推理决策能力,满足了战场快速集群协同的需求。
二是无人车成本的快速下降使得大规模集群运用在经济上成为可能。随着自动化控制技术的成熟和完善,无人车的制造、装配、维护保养以及机器学习算法的开发维护等成本逐渐降低。尤其是近年来机器学习技术的进步,有效地降低了人工参与的成本。
此外,追求战场人员零伤亡是推动无人车集群运用的重要动力。未来战争可能面临高强度的军事行动,因此保障人员生命安全成为重要目标。无人车集群的应用可以实现军事任务的自动化和智能化,降低对人员的依赖性和风险。例如,无人车集群可以自主完成侦察、探测、攻击等任务,为士兵提供更安全的环境,避免不必要的人员伤亡。另外,无人车集群还可以提供精确的军事物流支持,包括弹药和补给物资的运输以及伤员的运送等。
目前无人车集群系统研究领域异常活跃。从仿生角度研究集群系统组织形式[5],从鲁棒高效通信角度研究集群中车间信息交互方式[6],从车车关系角度研究集群系统架构特点[7]等等,均进行了深入研究。另外联合制图、协同搜索[8]、协同任务分配、协同路径规划、协同控制[9]等多个研究方向也进展明显。
无人车集群在国防军事上应用非常广泛。主要应用场景包括监视[10]、搜索和探索[11]、协同侦察[12]、环境监测[13]、协同操控[14]、协同围捕等等。
在监视及侦察任务过程中,通过搭载各种传感设备(红外相机、雷达等),无人车集群可实现对目标区域高精度、高分辨率的观测;另外,无人车集群与其他军事技术(无人机、卫星等)相配合,实现对目标区域的全面覆盖和多角度观测。在环境监测任务中,无人车集群能够监控和分析目标区域的环境因素(大气环境、水质环境、地质环境等),并可在复杂和危险环境中执行任务,提高军事情报获取的时效性和准确性。协同操控是无人车集群通过网络连接实现对系统中各无人车的实时监控和控制,包括无人车的动作、角度、速度等实时状态调整,确保无人车协同运行。协同操控是无人车集群完成各种任务的基础。
协同围捕是搜索、侦察、操控等应用的集成,旨在通过各无人车协同实现对目标的围捕和控制。协同围捕通过先进的自主控制技术,对集群中各无人车的状态进行实时监测及控制;通过搭载的各传感设备,无人车对目标进行侦察及监视,确定目标的位置和行动路线,实现对目标的追踪和围堵。协同围捕的具体应用包括打击、拦截敌方战术车辆和零散人员等,可以显著提高军事作战的效率和准确性,减少人员伤亡,大幅度提升安全性能。
本文从无人车集群的架构入手,重点讨论围捕过程中的策略机理以及所采用的方法策略,总结现阶段围捕所面临的挑战及发展方向。
无人车集群算法主要发展方向有两个,一是设计优化算法。集群优化算法的本质是寻找最优解,例如粒子群优化[15]和蚁群优化[16]。这些算法最初是一种模仿群体迭代寻找最佳食物来源的策略,随后被广泛应用于寻找最优路径[17]、多目标优化[18]和任务分配决策[19]等领域。二是建立集群框架。许多研究人员试图直接模仿昆虫分工机制,建立集群框架,并将其应用于多智能体协同。当处理大规模智能体协同的复杂任务时,以生物为启发的协同模型架构显示出巨大的优势。例如,文献[20]提出了一种结合多智能体强化学习的改进型人工蜂群算法,通过集中式训练过程和 Q 学习机制,结合人工蜂群构建训练及测试架构,解决了大规模实值优化的问题。
协同围捕作为无人车集群的主要应用,所使用的系统架构与无人车集群完全一致。本节从无人车集群入手,对系统架构进行整体分析。下面从协同结构、协同机制和协同任务3个方面对系统架构进行分类。
从协同结构的角度看,系统架构可以分为3种类型:集中式、分布式和分层式。
在集中式结构的无人车集群中,系统中存在一个领航无人车,其负责分配和管理集群内其他跟随无人车的任务[21]。领航无人车通过专用信息传输通道(车间通信)与其他车辆共享实时信息。这种系统结构的优点在于系统内部信息一致,管理和调度相对简单。缺点是系统的鲁棒性较低,如果领航无人车发生故障,整个系统可能无法运行。同时,随着无人车输出的动态特性越来越复杂,系统的控制会变得越来越困难。集中式结构如图1所示。
图1 无人车集群集中式结构
分布式结构中,每个无人车拥有平等的地位,不分主次[22]。该系统中包含车间通信系统,为一定范围内的协同无人车提供交互保证。结构的主要缺点在于系统内部信息一致性方面存在挑战,即各无人车只能获取有限范围内的信息,对距离较远的无人车及环境信息则难以及时更新。该结构的优点是显著提高了无人车集群系统的稳定性和可靠性,同时降低了控制复杂系统的难度。分布式结构示意图如图2所示。
图2 无人车集群分布式结构
无人车集群采用分层式结构,将集中式结构和分布式结构进行有机结合。系统根据任务要求,在不同阶段或不同部分采用不同的结构[23]。系统中的大部分无人车是平等的,彼此之间没有明显的等级差别。但是,也存在少量管理型无人车负责管理其他无人车,参与解决系统内任务分工和配置,并共享所有资源信息和任务管理、冲突协同等。这种方法能够平衡集中式结构和分布式结构的优缺点,但如何平衡这两种结构仍然是一个亟待解决的难题。系统的分层式结构如图3所示。
图3 无人车集群分层式结构
从协同机制的角度来看,系统架构可以分为两种类型:无意识系统和有意识系统[24]。
无意识系统主要模仿生物群落(蚁群、蜂群及鱼群等)的运行机制[25]。系统主要特点是分布式控制,即每辆无人车都是一个完全自主的实体,不需要任何集中的控制器来协调其他自主无人车的行动。与生物群落中的个体类似,各无人车只是在某种程度上间接地受到其他无人车或环境的影响。因此,每辆无人车能够快速、灵活地应对动态变化的环境,而不需要等待集中控制信号。尽管这种个体行为似乎没有整体目的,但在同一环境中,许多个体行为的组合可以产生一个群体的协同行为。
无意识系统可以进一步分为突发集群系统和重配置集群系统[26]。突发集群系统指的是在特定情况下,无人车集群能够迅速组成一个临时的群体,以完成特定任务。而重配置集群系统则需要通过联合特定模块来形成一定的配置,以实现所需的功能。无意识系统的分布和自主特性使其能够应对较大规模的协同任务,如对未知环境的侦察、监测和搜索。尽管近年来计算机计算速度的提高使集中控制变得相对容易实现,但对于基于仿生学的无意识系统的研究仍在不断深化,成为解决无人车集群问题的有效方法之一。
有意识系统,也可以称为基于规划的系统,每个无人车在这种系统中都具备自己的“大脑”,拥有感知、规划和运动控制的结构[27]。整个系统本质上由各个无人车独立驱动,每个无人车被视为一个独立的智能体,通过特定的架构实现协同控制。有意识系统通常由相对较小且可能是异构的无人车组成,个体智能化水平较高,对环境、任务和其他无人车的认知相对全面。同时,每个无人车都有一个全局目标,并根据目标规划自己的行为,以更直接、更有效地执行任务。
有意识系统主要通过系统框架来确定各无人车之间的信息流关系和逻辑拓扑结构,以及任务分解、角色分配、规划和执行等运行机制[28]。同时,框架也提供了无人车活动和交互的平台。选择适合的框架结构是无人车集群正常高效运行的关键,也是构建系统的首要问题。
在军事作战中,无人车集群已渗透到作战各个方面,图4为集群在军事任务中的主要表现形式。
图4 无人车集群表现形式
(1) 无人车编队。多无人车编队是指一组无人车在无人干预的情况下,利用产生的规划控制信号,通过相互协作协调,引导后续无人车按照一定规则排列,形成特定的队形,高效完成既定任务[29]。因此,在多无人车编队中,控制机制和规划算法是非常重要的两个方面。文献[30]研究非全局轮式无人车的分布式领航-跟随编队控制机制,开发了一个分布式估计器,利用自身信息和邻近无人车信息来估计领航者的状态,并利用反步法为每个跟随无人车制定单独的编队跟踪控制策略,另外还利用生物启发神经动力学的反步控制器解决了速度跳变的问题。文献[31]提出了一个考虑环行的卡车编队路径规划优化算法,将每个运输任务能否通过路网中的弧段作为决策变量,通过优化得到的结果反映弧段上卡车编队的构成情况,规划运输任务中具体路径,以达到减少能源消耗、降低环境污染、保障交通安全的目的。
(2) 无人车分散。分散是指对人员、装备和物资等进行分散隐蔽配置的行动,军语中称为“疏散”。在无人车集群中,分散表示在特定区域内,多个无人车在不与障碍物和其他无人车碰撞的前提下,自主地移动到预先规划的目标点[32]。
多无人车分散通常被抽象为多起点多终点的路径规划问题。为了解决该问题,文献[33]提出了基于领域知识的遗传算法,引入了4个新算子增强传统遗传算法能力,参考多个独立目标为多个无人车规划路径。避碰是研究多起点多终点路径规划不可或缺的因素。文献[34]提出了一种未知动态环境中多无人车多目标导航问题的进化方案,在确保不与障碍物发生碰撞的前提下,结合蜂群邻域搜索规划及进化过程生成平滑可行驶路径。
解决分散问题包括目标点分配和路径规划两个过程。目标点分配是指根据目标位置、速度、优先级等因素,基于无人车间冲突和干扰最小前提,将多个无人车分配到不同的目标点上。文献[35]首先使用拍卖算法对多目标任务进行分配,提出区间一致性算法,实现多无人车在不确定信息下到达多个目标的时间趋于一致。为了统筹两个过程,文献[36]提出一种包含两层的基于分支和约束的分布式算法,上层以整数线性规划问题为模型,根据目标构建分配子集,降低该问题的组合复杂性;下层以混合整数非线性规划问题为模型,在满足规定的任务时限和约束条件下,按照特定顺序与子集中的目标规划可行驶路径。
(3) 无人车集结。多无人车集结是指由多个无人车组成的集群,在给定区域内通过协同行动,从不同方向集结到特定任务区域的过程[37]。
与分散相同,多无人车在集结过程中,需要综合考虑探测雷达、威胁武器、静止或运动障碍物以及无人车自身性能约束,实时动态地规划每个无人车的运动轨迹。文献[38]提出了一种动态路径规划策略,基于图论和后退时域控制,将动态路线规划问题形式化为动态多重广义旅行推销员问题,采用启发式方法,以后退方式优化求解每个控制步,解决长期任务中定期在不同地点会合的多无人车路径规划问题。
车间协同交互[39]、运动规划和路径规划[40]、运动控制和传感器融合[41]等是无人车集结的关键问题,决定着系统从感知到规划决策,再到控制的各个模块,对于实现高效、精确的集结行动具有重要意义。
(4) 无人车围捕。无人车协同围捕是指多无人车之间进行的一种协同行动,每个无人车根据自身位置和目标的运动状态制定具体的追捕策略,旨在捕获或围困一个或多个目标对象,防止目标发生逃逸[42]。
在协同围捕过程中,无人车的决策规划和控制协调是至关重要的关键环节。近年来,针对这两个环节的研究已经取得了显著进展。在决策规划方面,主要基于建立协同框架,生成围捕策略。如基于多智能体近端策略优化算法构建的马尔可夫决策过程框架,解决对逃逸目标的围捕问题[3];基于一致性主导的目标搜索和围捕框架,将反蚁群算法进行改进,通过引入多种信息素协助机器人协同探索环境,解决在未知环境信息和通信受限的情况下动态目标搜索和围捕问题[43]。控制协调主要基于无人车之间位置、距离等关系,对无人车的角速度、航向角速度进行调整,在不发生碰撞的前提下,完成围捕任务。一是利用简化的虚拟受力模型,多无人车在未知动态障碍物环境中保持围捕队形,具备良好的避障性和灵活性[44,45];二是利用简化虚拟速度和基于航向避障的自主控制规则,解决避障和环境适应性问题[46]。
协同围捕的目的是,在多无人车协同条件下,通过不断优化规划策略和控制规律,适应不同环境和约束条件,提高目标的成功率和效率,对多无人车的协同性和灵活性均具有非常高的要求。
无人车集群协同围捕问题可以描述为:在一个边界受限的区域内存在围捕者和目标两种类型的无人车,围捕者(黑色)的任务是追捕目标(蓝色)并控制目标运动;目标具有一定的运动能力,在察觉到围捕者的存在后会尽可能地逃离追捕,如图5所示。每个无人车都配备有激光雷达等传感器,用于感知目标、障碍物或威胁区域(铁丝网、高墙、深沟)的相对位置,黑色虚线圆圈表示感知范围。无人车的速度和位置信息由导航定位设备提供,通过车间通信系统进行共享。当围捕者分布在目标周围并且限制了目标逃逸,协同围捕任务视为成功。
图5 无人车集群围捕示意图
解决无人车集群协同围捕问题的关键在于设计有效的规划策略和控制规律,使围捕者能够高效地追踪目标并控制其运动。由于目标的运动情况不同,围捕难度也不尽形同,围捕者需要根据目标的感知能力和逃逸能力,灵活调整策略,增加围捕的成功率和效率。从协同围捕难度来看,可以将其划分为3个等级:
(1) 固定目标围捕:围捕难度最低等级,主要适用于包围战场上的损坏装备等。在这个等级中,围捕者只需要完成目标的搜索并运动到目标附近即可。
(2) 无逃逸功能运动目标围捕:围捕难度中等,主要适用于战场上距离感知较近的目标,也就是围捕者可以感知到目标,但目标不能感知到围捕者。在这个等级中,围捕者需要具备搜索目标、预测目标运动轨迹和围捕动态目标的功能。
(3) 有逃逸功能运动目标围捕:围捕难度最高等级,主要适用于战场上具有强大感知能力和智能化程度较高的目标。该等级中围捕者不仅需要完成对目标的搜索和围捕动态目标,还需要实时预测目标运动轨迹,以及具备较强灵活性和反应能力。
以上3个等级围捕难度逐级增加,等级不同,要求围捕者具备的感知、预测和控制能力不同,采取的规划策略和控制规律也存在差异,因此需要根据目标的特点确定难度等级,选择合适的策略方法。同时,等级划分为评估围捕系统的性能提供了基准,通过比较不同等级下的围捕成功率和效率,可以准确地评估围捕系统的优劣。
围捕成功时的状态主要有3种:
(1) 利用障碍物进行围堵,目标最终被迫处于静止状态(如图6(a)所示)。无人车通过围捕策略将目标控制在障碍物旁,限制目标运动空间,最终使目标无法继续移动。
图6 围捕成功示意图
(2) 无人车均匀分布在目标周围,形成一个封闭的区域,使目标无法运动(如图6(b)所示)。这种情况下,无人车通过布局和控制算法,使目标无法找到逃逸空间,达到围捕目的。
(3) 无人车在目标周围环行,目标可以运动但无法逃离无人车的包围(如图6(c)所示)。在这种情况下,无人车通过精确的控制算法,使目标无法突破无人车的包围圈,实现对目标的有效围堵和控制。
围捕成功状态的选择取决于具体环境和目标特点,无人车集群需要根据各自情况进行选择和调整,确保围捕的成功。
本文主要研究对象是具有逃逸功能目标的围捕。目前,针对运动目标的协同围捕通常遵循环境感知、目标检测及追踪、任务分配、路径规划和动作执行等几个流程,将协同围捕视为一个整体任务进行综合考虑。这种策略的优势在于算法的实现相对容易,且具有较高的适应性。然而,这种方法存在一些缺点,例如围捕成功率较低以及信息不对称问题,导致整体效果较差。
为弥补上述短板,本文首先对任务进行了分配,按照围捕的流程,把围捕分为搜索及定位目标、追踪目标和围堵目标3个过程,分别对应程序中的协同搜索、协同追踪和协同围堵3个模块。通常情况下,无人车集群接收到围捕命令,开始搜索目标,发现目标后进行定位,并与其他无人车共享搜索结果。然后系统转换到追踪模式,根据预定的追踪策略,各无人车运动到目标附近。最后系统切换为围堵模式,无人车分布于目标周围,控制目标运动,防止目标逃逸。如果在搜索过程中发现目标已在无人车周围,可以直接切换到围堵模式。如果在围堵过程中目标逃逸,若无人车能够定位到目标,系统将切换到追踪模式;若无人车无法定位到目标,系统需切换回搜索模式。系统各个模式的切换如图7所示。通过无人车集群的协同和信息共享,切换策略实现了围捕中各模式的有序切换,对提高协同围捕的成功率和效率,具有非常重要的现实意义。
图7 围捕模式切换
由于无人车自身的识别精度、探测范围和机动能力等方面的限制,单个无人车无法在短时间内对大范围区域进行完整的搜索覆盖。因此,为了发现更多的目标,需要集群中多个无人车同时进行搜索。为了有效实施对敌目标的围捕,无人车集群需要进行协同,以最短的时间完成任务区域的搜索侦察,提高搜索覆盖率,并降低环境的未知性。
无人车集群搜索的目标是将多辆无人车快速覆盖探索区域,通过利用各自传感器感知周围环境,并按照预定的协同策略,自主完成导航、地图构建和探测等任务。近期研究人员已提出了一些方法来实现无人车集群的协同搜索。文献[2]改进了反蚁群算法,利用多种信息素辅助多无人车协同探索未知环境,并生成信息素地图,完成对动态目标搜索的任务。为解决搜索鲁棒性差的问题,文献[47]提出基于快速扩展随机树-贪婪边界搜索的协同空间探索方法,通过改进市场机制的任务分配方式来动态分配目标点,大幅度提高搜索的鲁棒性。适应性是评价搜索性能的重要指标,文献[48]基于协同进化粒子群优化算法将目标位置作为路径点,结合旅行商问题,规划封闭路径,实现协同搜索覆盖,提高了搜索效率和适应性。这些研究成果通过对协同搜索算法和策略的优化,使无人车集群更好地应对未知环境,提高了搜索效率和准确率。
无人车集群协同追踪是一个动态博弈的过程,需要在仅知道自身状态和目标有限状态的情况下规划最佳行为,以完成围捕任务。这个过程涉及到最优控制和动态博弈的深度融合,不仅要对抗目标,还需要集群中各无人车的协同,因此比单无人车的场景更加复杂,对抗性更强。
协同追踪在围捕任务中扮演着至关重要的角色,为了克服追踪过程中的难题提高围捕能力,启发式算法和神经网络等方法被广泛应用于解决协同追踪问题。为了解决掌握目标信息有限的问题,文献[49]提出了基于约束智能体扩散的增强追踪方法,采用蒙特卡洛扩散模型估计轨迹生成概率,基于稀疏状态信息生成目标位置的综合预测。协同追踪中的一个重要方向是多目标追踪,文献[50]提出一种分散式多智能体深度强化学习方法,利用最大互惠奖励学习协同追踪策略,正则化每个无人车奖励,各依赖关系直接通过神经网络捕捉,无需复杂的聚合统计,解决了未知环境中多目标追踪的问题。此外,在无人车集群按照预设的几何路径追踪过程中,保持所需队形也是协同追踪问题的关键。为了解决纯追踪算法中路径跟踪精度差、队形保持难的问题,文献[51]提出一种改进的纯追踪算法,该算法通过设计自适应预瞄距离调整规则来选择临时预瞄点,并根据转向角和航向角的变化自动调整预瞄距离。此外,算法还构建了两个切向圆来调整追踪路径,以更好地规划运动轨迹,提高追踪精度。
围堵(又称为包围)是一种战术行动,通过与正面部队协同作战,对敌军的侧翼或后方进行突袭,切断逃离路线,为迅速消灭敌军创造有利条件。
在无人车集群中实施协同围堵行动时,需要多个无人车按照事先设定的策略进行分布,以有效围堵目标,防止目标逃逸。这些策略包括环绕目标运动、形成固定位置阵型等。协同围堵的实施面临多个挑战,如队形控制、通信协调、规避碰撞等方面,是一个NP难(Non-deterministic Polynomia hard, NP-hard)问题。
为了解决协同围堵中队形控制的问题,文献[52]采用合作控制法形成了一个圆形队形,严格控制规划路径与实际路径间的误差,使围堵性能达到最优。针对多目标围堵的控制问题,文献[53]提出了一种混合动态任务分配算法,算法分配一个与其他无人车进行协商的“管理者”无人车,基于一种鲁棒控制策略,确保任意数量无人车以任意角间距形成围堵。当然,协同围堵轨迹并非全是圆形,也可能是椭圆。文献[54]开发了一种能够增强环行导航性能的标准时间椭圆环行控制规则,使无人车能够在预定时间内沿着指定椭圆路径运动,使围堵更灵活、更高效。
通过对创新方法和算法的研究,有效解决了多无人车协同围堵问题,提高了围堵行动的实用性和可靠性,对于协同围捕技术的发展和应用具有积极的推动作用。
无人车集群协同围捕在军事领域具有重要的应用前景,围捕与反围捕的较量已经成为一个尤为关键的课题,因此备受关注。协同围捕重点研究围捕者和目标这两类智能体,以及围捕者如何协同有效的算法捕获目标。目前,针对无人车集群围捕问题的研究主要有以下4种方法。
20世纪90年代,文献[55]首次提出了基于反馈控制率控制多个机器人运动,通过编队矢量维持队形,实现围捕目标的目的。在协同围捕中,无人车集群需要在基本队形控制的基础上增加更多的约束,问题更加复杂。协同控制的思想解决了这个问题,无人车集群可以通过交互功能,共享环境信息,进行全局规划控制,以此保持一定队形限制目标运动范围,实现对目标的围捕,如图8所示。
图8 围捕过程示意图
目前,常见的方法包括领航-跟随法、虚拟结构法和基于行为的方法等,算法各有优缺点,具体如表1所示。
表1 无人车集群围捕常规方法
在领航-跟随方法中,一个无人车被视为领航者,具有全局导航信息;其他无人车以领航者为参考,以期望的相对距离和方向跟随领航无人车,实现期望队形,如图1所示。为了解决无人车编队轨迹规划中位置约束的问题,文献[65]对领航-跟随结构进行改进,为编队中的每个无人车生成一条轨迹,并采用包含无人车编队误差的性能指标进一步优化规划参数,将编队误差降至最低。为了降低协同围捕的复杂性,文献[66]提出了一种替代广播通信的方法,通过构建环形拓扑网络和领航-跟随线形拓扑网络,在追捕者之间共享信息,从而降低了系统的复杂性,并节省了通信和计算资源。
虚拟结构法的基本思想是将整个编队视为一个刚性体的虚拟结构,每个编队成员将刚体上的结构点作为自己跟踪的参考点,如图9所示。当整个刚体按照预设的路径行进时,编队成员会跟踪各自的参考点。为了解决编队在避障时灵活性不佳的问题,文献[44]利用人工势场方法,在虚拟结构中的虚拟点之间引入引力,控制无人车编队的形状并实现避障后重新编队;文献[67]通过将变换矩阵与虚拟结构相结合,提高了编队结构的灵活性,使集群能够更稳定地保持期望队形。
图9 虚拟结构法
基于行为的方法是一种通过定义和规划无人车的具体行为来实现协同围捕的方法。通过对每个期望行为进行加权平均,进而可以得到整个集群的行为,如图10所示。在实际任务中,集群可能有多个控制行为,如保持队形、搜索目标和避障等。无人车的行为是各控制行为加权叠加的结果,协同动作是各个行为的折中。这种方法能够使无人车集群在围捕任务中灵活地适应不同的环境和目标,具有较强的鲁棒性和灵活性。通过合理调整各个行为的权重,可以平衡不同控制行为之间的关系,实现更为高效的协同围捕。文献[68]通过实时检测无人车周围的环境和编队状态,为每个无人车设计了不同的行为包括导航、避障、跟踪和等待,并采用了合适的选择策略。同时,他们还考虑了编队避障和队形保持的问题,解决了无人车编队在未知环境中难以有效避障和队形保持的问题。
图10 基于行为法
博弈论实际上是一种竞争机制,本质上是一种数学理论方法,用于利益或目标有冲突的多个参与者在对抗和协同的条件下寻找最优策略。在解决围捕问题方面,博弈论在两个方面得到应用:一是在围捕者队伍中建立竞争机制,通过围捕者之间的相互竞争来捕捉不同的目标,以优化围捕者的整体表现;二是建立围捕者和目标之间的竞争机制,用非博弈理论研究围捕和逃逸的最佳策略。例如,文献[69]提出了一种结合博弈论和改进脊柱神经系统的编队搜索控制算法,通过在协同搜索阶段采用分区和列式并行策略,在协同追踪阶段采用双向协商策略的动态联盟方法,改进基于遗传算法的追踪方位分配方法,有效地实现了追踪任务,如图11所示。文献[70]提出了一种基于博弈论和Q学习的多智能体协同围捕算法,通过对目标策略选择的学习,建立有限Step-T累积奖励运动轨迹,将运动轨迹调整到围捕者的策略集中,解决了对具有学习能力单目标追捕的问题。
图11 基于博弈论围捕
博弈论在解决追捕问题中具有重要的应用价值,通过建立围捕者之间的竞争机制或围捕者与目标之间的竞争机制来寻找最优策略,为解决追捕问题提供了新的思路和方法。
概率分析算法是另一种常用的解决围捕问题的方法,主要利用信息空间和贝叶斯理论来处理围捕问题。无人车集群可以通过各种传感器收集到的数据,基于贝叶斯法则来推断目标和障碍物的位置。
文献[71]基于搜索信息地图模型,描述了搜索过程中环境和目标的状态变化,并利用马尔可夫链来表示目标的隐藏运动。通过对目标位置的预测,以及基于贪婪迭代决策方法选择最佳决策方案,较好地解决了区域协同搜索问题。为了提高障碍物预测的准确性,文献[72]基于概率假设密度表示法来表征未被观察到的物体,并对已经观察到物体的预期数量进行优化,每个无人车以连续的方式最大化搜索新目标,同时考虑由于自身运动而漏检物体的概率和已经检测到物体的概率,进一步明确障碍物的位置。
通过概率分析算法,由于将不确定性因素考虑在内,并采用贝叶斯推断的方法进行目标和障碍物位置预测,提高了感知系统的准确性,为围捕者提供了更全面的信息支持。
多智能体机器学习是分布式人工智能的关键技术之一,旨在降低单个智能体对整体任务的影响,促使智能体集群共同实现既定目标。为了对每个智能体行为进行最优规划,深度强化学习被广泛应用于集群系统,马尔可夫博弈已成为多智能体深度强化学习的通用模型[73]。多智能体深度强化学习通过与环境不断交互学习和适应,最大化总折扣奖励,以便在具有不确定性和复杂性的环境中做出最优决策,实现最优规划。主要特点是,在模型未知的情况下,能够较好地处理复杂的转移函数和奖励函数。优势在于能够自主地学习和改进,无需依赖人为设计规则或先验知识,通过不断的试错和优化,逐渐提高决策能力和性能。
深度强化学习在协同控制中已初见成效。文献[74]提出了一种创新蜂群强化学习方法,方法将区块链技术和去中心化深度强化学习进行有机结合,每个无人车使用actor-critic策略优化算法控制自身行为,并通过区块链网络共享学习经验,以传递成熟的策略模型参数给其他无人车,实现多个相同类型无人车的协同控制。
此外,还有一些研究人员将人工势场法作为预定义规则整合到学习过程中,以提高处理数据的效率和概括能力[75]。文献[76]基于多智能体近端策略优化算法,建立马尔可夫决策过程框架,采用集中式训练分布式执行的架构,通过训练围捕策略来提高围捕任务的成功率和时效性。即使某些节点受损,其他个体仍具备继续执行围捕任务的能力,从而增强了系统的鲁棒性和可靠性。
虽然无人车集群协同围捕的研究已经取得了一些进展,但仍存在一些挑战和需要解决的问题。首先,现有研究缺乏对3维环境和突发因素的考虑。在现实世界中,无人车围捕任务一般发生在复杂的3维环境中,如建筑物、山地或水域等。这些环境因素会对围捕策略和行动产生较大影响,因此需要进一步研究如何在3维环境中进行协同围捕。其次,目前的研究主要集中在仿真环境中使用车载传感器执行围捕任务。然而,在实际应用中,随着无人车数量的增加和环境的复杂性,仅依靠车载传感器的性能可能无法满足协同围捕的需求。因此,需要进一步研究无人车和无人机之间的协同,以及无人车与道路基础设施之间的协同,以实现高效的围捕任务。在实际应用中,面临的挑战是处理具有逃逸能力的智能目标。然而,目前的围捕算法主要针对简单目标进行研究。因此,需要加大对追击高智能目标的围捕算法的研究力度。这可能涉及对目标行为进行建模和预测,并开发相应的对抗策略。表2是无人车集群围捕优化方法的相关信息列表。
表2 无人车集群围捕优化方法探微
本文总结了无人车集群现状,并对协同围捕的策略机理和研究方法进行了深入全面剖析。首先研究了无人车集群协同围捕在结构、机制、任务3个方面的架构,然后,梳理了围捕算法的策略机理及重要方法,如基于博弈论、概率分析和机器学习等等。本节针对无人车集群协同围捕存在的问题挑战,探讨其发展方向,从不同角度分析未来研究的主要内容。
尽管现阶段在多无人车控制和协同领域已经取得了诸多进展,但仍然面临重大挑战。这些挑战主要体现在以下两个方面:
(1) 协同围捕策略方面,需考虑多方面因素以选择合适的算法。首先,通信带宽是一个重要的考虑因素,因为通信是无人车协同的基础,带宽的大小会直接影响网络中数据流的大小,从而决定围捕策略的选取。其次,还需要考虑集群中协同感知、协同控制和协同规划的算法,以确保每个模块都能发挥最佳效能,最大程度地实现任务目标。总之,对于不同的协同围捕条件及约束,需要进行针对性的研究,以开发出可以更好地实现预期任务并灵活应对异常情况的策略。
(2) 协同围捕性能方面,需具备简单易行、鲁棒性强、可靠性高、容错性好。简单性意味着易于实施和维护,鲁棒性要求适应各种环境变化和任务需求,可靠性是确保集群的稳定运行,容错性为能够较好处理多车之间通信或个别无人车机械、软件等故障情况。此外,还需要考虑集群的时效性,及时响应环境和需求的变化,使无人车之间能够有效协同工作。在设计过程中,需要充分考虑各种性能均衡,以保证协同围捕的正常运行。
综上所述,在协同围捕策略方面,未来的研究方向具体总结为以下3个方面:
(1) 更高层次决策。特别是在分布式系统中,更高层次的决策是对整个协同围捕任务进行全局规划和决策的过程,以实现整体目标的最优化。在协同围捕实践中,更高层次决策涉及到对多个无人车的行为和动作进行协同和调度,分别从目标确定、任务分配、路径规划、动作协调以及异常处理等几个方面进行优化,提高整个多无人车协同围捕系统的效率,使系统能够充分应对复杂、动态的环境和任务需求。
高层次决策起源于单智能体领域,起初将时间抽象为层次结构来简化长期奖励分配。由于较低层次只包含高层次的部分信息,抽象程度越低,学习任务也就越简单。如在解决协同围捕的通信问题过程中,以高层控制器为基础,指导分布式系统中无人车之间的信息交流,即各无人车在每个时间步长内只与部分无人车通信[91],不仅减少了网络中的数据量,而且能更有针对性控制无人车,提高系统灵活性。
(2) 复杂环境规划。在具有不确定性和多样性的复杂环境中,无人车集群需要全面考虑多种障碍物、地形情况并能够适应障碍物的变化,以规划出安全、高效的路径。因此,在多无人车协同围捕任务中,对无人车的感知能力、地图构建能力、决策协调能力以及路径规划能力提出了更高的要求,同时对算法的速度、精确性和鲁棒性也要求较高。
在复杂环境中,无人车无法观察到环境的整体状态,也很难获取其他所有无人车的信息,只能感知部分观察结果,此种情况称为部分可观察性。部分可观察性是复杂环境规划所要解决的首要问题。近期提出的部分可观察马尔可夫博弈模型[92]具有大规模、分散化、部分可观察和非通信等特点,利用分布式算法—模糊自组织协同进化解决多目标围捕中的3个难题:分布式自组织搜索、分布式任务分配和分布式单目标追踪,并在单目标追踪中采用进化原理来协同分布式追捕者,缓解部分可观察性。
(3) 混合控制算法。在多无人车协同围捕中,混合控制算法是指将不同类型的控制方法、规划策略和决策算法结合起来,以实现无人车之间的协同。混合控制算法具有非常好的发展潜力,如多层控制算法可以将控制划分为多个层级,从低层的运动控制到高层的规划决策,不同层级的控制策略相互配合。另外,还需进行适应性调整,根据任务和环境的变化,自动调整控制策略和算法参数,适应不同的情况和需求。方法上主要通过机器学习和自适应控制算法来实现,如基于学习模型预测控制[93,94],提高系统的适应性、鲁棒性。
在提升协同围捕性能方面,未来研究方向主要有:
(1) 系统架构适配。多无人车协同围捕通常涉及到不同的任务和应用场景,因此系统架构需要根据具体的任务和环境进行适配和调整。系统架构适配具体指根据任务的要求和特点,设计和调整多无人车协同系统的整体架构,以实现任务的高效完成。涉及到模块设计、通信机制、算法选择、系统优化等多个方面,通常采用模糊逻辑[95]、模糊神经网络[96]等算法,适应不同特点和约束的任务,提高系统的灵活性、鲁棒性以及可靠性。
(2) 集群可扩展性。随着多无人车协同围捕在民用和军用领域的普及,提高集群的可扩展性变得非常重要。课程学习是解决集群可扩展性的一种方法,其将学习过程分为若干阶段,从少量开始,在学习过程中逐渐扩大无人车的数量,从而使大规模训练变得可行[97]。另外,也可以利用课程学习来创建不同的难度阶段,让无人车在开始时面临相对简单的任务,随着难度的提高,逐渐面临更为复杂的任务。除此之外,课程学习还可用于研究无人车的行为,根据其它无人车的策略变化调整自己的行为。课程学习的诸多优势,使智能无人装备军备竞赛成为可能。
当然,可扩展性不仅仅是简单的无人车数量的增加,还需考虑规模适应性(无论是只有几个无人车还是数百个无人车,系统都能够有效地进行任务分配、通信和协同)、功能适应性(系统能够适应不同类型和功能的无人车参与协同)、网络适应性(系统适应不同的网络拓扑和通信方式,以及无人车数量增加时的带宽要求)。集群的发展将不只局限于地面的无人车,空中的无人机、水面的无人舰艇、水下的无人潜艇也可进行协同,共同完成作战任务,成为未来无人作战的重要发展方向。