自主水下航行器协同控制研究现状与发展趋势

2023-03-17 13:03陈天明关新平罗小元
水下无人系统学报 2023年1期
关键词:编队控制器协同

闫 敬 ,陈天明 ,关新平 ,杨 晛 ,罗小元

(1.燕山大学 电气工程学院,河北 秦皇岛,066099;2.上海交通大学 电子信息与电气工程学院,上海,200240)

0 引言

自主水下航行器(autonomous undersea vehicle,AUV)是一种由推进系统驱动、由电池或燃料电池提供动力、由机载计算机控制和驾驶的水下航行器,其发展对深海生态系统的勘探、开发和利用产生了重大影响。在深海环境中,人类停留和执行探索、采样、侦察和目标探测等任务是十分危险的,AUV 耐高压的特点使其在深海环境中的应用越来越广泛[1-3]。虽然近年来AUV 的技术研究取得了重大进展,但在许多情况下,由于复杂洋流对AUV 的控制存在扰动,海洋生物可能附着表面干扰传感器等设备的工作,有限的电源供应也可能会延迟任务的完成,单个AUV 很难在未知的水下环境中完成复杂任务[4]。因此,应用多AUV 系统,以更高的效率、更低的成本来完成任务就显得尤为迫切。图1 给出了多AUV 协同控制场景。

图1 多AUV 协同控制场景Fig.1 Scenario of the cooperation control for multi-AUVs

从研究多机器人系统开始,协同控制问题就一直是学者们常讨论的话题之一。作为多机器人系统的延伸,自从Thomas 等[5]提出利用多水下机器人建立自主海洋水文采样网络(autonomous oceanographic sampling network,AOSN)的概念以来,以美国海军研究办公室(Office of Naval Research,ONR)为代表的政府机构就资助了一系列的海洋数据采集与监测项目,后续应用于路径规划、协同采样和协同导航[6]。鉴于多AUV 协同控制在海军防御方面的巨大潜力,美国、欧盟、日本和加拿大等国家和地区都斥巨资开展相关研究。需要强调的是,2007 年美国国防部发布了《2007—2032 年无人系统发展路线图》,首次提出地面、水下、空中一体化的无人系统总体发展战略规划,力图将水下/水面/空中通信系统、信息系统、武器系统等联接在一起,实现水下态势信息共享,缩短决策周期,提高指挥速度和协同作战能力。2019 年,美国国会研究处(Congressional Research Service,CRS)发布了《海军大型水面无人艇和无人水下航行器: 背景及相关考虑的问题》,计划于2021 年及以后研发并采购大型AUV,为水下集群提供能源补给、平台发射、环境评估等作战保障。图2[7]为各版美国防部无人系统发展路线图封面,可看出从最早的陆海空割裂图片(2007)到共处同一画面(2009、2011)、再到协同案例(2013)、组网协同(2017),表征了美军对AUV 协同控制在不同时期理解和重视程度。

图2 美国防部无人系统发展路线图部分封面Fig.2 Partial covers of the unmanned system development roadmaps of US department of defense

相较于国外AUV 协同控制的发展,我国在该领域起步较晚,但发展迅速。国家基金委以及国防科工局对水下监测网络尤其是多AUV 协同控制的资助力度也在逐年增加,其中2022 年11 月公布的《国家自然科学基金“十四五”发展规划》,明确指出将“水下无人装置与水面船舶互联基础理论为代表的空天地海协同信息网络”作为“十四五”优先发展领域[8]。国内众多高校与研究所也开展了多AUV 协同控制的理论与应用研究,并取得了一定的成果。其中,2019 年2 月,中科院沈阳自动化所研制的“潜龙三号”AUV 在大西洋开展了首次应用下潜,完成了约40 km2的热液异常区域探测;2020 年9 月,南方海洋科学与工程实验室陈大可院士牵头的“智能敏捷海洋立体观测系统”,利用空、海、潜等智能无人装备进行多潜器跨域协同,完成了首次系统级演示验证。国内已取得的研究成果对进一步开展多潜器协同控制技术研究意义重大。

由此可见,国内外对多AUV 技术的研究方兴未艾,其协同控制理论体系尚处于构建之中,相关研究正面临诸多亟待解决的难题。为此,文中通过对协同控制领域研究成果的全面梳理,进而进行对多AUV 协同控制的未来趋势和研究方向的总结与展望。

1 多AUV 协同控制研究现状

多AUV 系统具有分布式和自主式等特点,在个体层次上,单个AUV 只需要有有限的采集信息能力、计算能力和通信能力即可,而在群体层次上,多AUV 系统可以表现一些复杂的智能行为,并能够完成困难、危险或者高精度的任务。因此,多AUV 协同综合了编队控制、协同导航和定位、路径规划、任务分配以及目标围捕。

1.1 编队控制

编队的目的是控制AUV 的相对位置、速度和方向,以便在群体移动的同时执行任务。为了实现编队控制,AUV 之间需要通过无线通信交换一些关键信息。

1) 编队控制架构

AUV 编队的架构可以分为集中式架构和分散式架构。分散式架构包括分布式架构和分层式架构(见图3),其主要区别在于决策过程,可看作是动作选择的过程[9]。在集中式架构中,1 个中央控制器可以获得AUV 和环境的全局信息(例如AUV位置、速度以及障碍位置等),这些信息由AUV 携带传感器进行收集。为了使多AUV 保持预定的编队队形避开障碍物并到达目的地,需要1 个集中式控制器对全局信息进行处理并决策[10]。进而,集中控制器会向每个AUV 发送命令信号,而每个AUV 将其状态信息作为反馈发送给集中控制器[11](例如,领导者AUV)。集中式架构的主要优点是易于实现,但其缺点包括: 对于控制器故障的鲁棒性较弱;需要高带宽的通信环境,通信资源消耗大。在分布式架构中,AUV 之间可以交换环境和AUV 状态信息。为了实现分布式控制,每个AUV需要与整群的1 个子集AUV 共享其信息。每个AUV 都有1 个控制器,可以基于AUV 群的局部信息进行独立决策[12-13]。例如,AUV 根据其邻居提供速度和位置信息,与其邻居AUV 保持相同速度和恒定距离[14]。分布式体系结构优点包括: 具有更好的鲁棒性和灵活性;具有更小的通信负担。在分层式架构中,存在1 个或多个子控制器,将AUV组织成集群。分层式架构可以看作是集中式体系结构的扩展。集中式控制器会做出决策,并向子控制器发出命令。然后,子控制器处理来自集中式控制器的命令,并将新的命令传输到集群中。每个集群中的AUV 执行命令并给其子控制器提供反馈,而子控制器也给集中式控制器提供反馈[15]。分层体系结构的优点包括: 高可伸缩性;与子控制器共享计算和通信负担。分层式架构的缺点是对集中式控制器的故障缺乏鲁棒性。然而,上述的缺点是相对的,可以通过良好的补偿方案来克服。

图3 AUV 编队控制架构图Fig.3 Architecture diagram of AUV formation control

2) 编队控制策略

目前,AUV 编队控制策略大致可分为基于领导者—跟随者策略、基于行为策略、基于虚拟结构策略、基于图论策略以及基于人工势场策略。

在基于领导者—跟随者的策略中,1 个或多个AUV 作为领导者,其他AUV 充当跟随者。跟随者通过跟踪领导者的位置和方向来实现编队[16]。学者们提出了多种基于领导者—跟随者的策略,如单领导者策略[12]、多领导者策略[17]、虚拟领导者策略[18]等。单一领导者的策略只有1 个领导者,且该领导者有1 个或多个跟随者。多领导者策略有2 个或2 个以上的领导者,每个领导者至少有1 个跟随者。与单一领导者相比,多个领导者可以实现良好的编队性能[12]。而虚拟领导者策略则允许AUV 跟随虚拟的领导者[17],虚拟领导者可以看作是整个编队的移动参考点,虚拟领导者有1 个预定义的轨迹,这也是整个编队的期望轨迹。为了保持编队,当AUV 编队移动到目的地时,其他AUV与虚拟领导者保持恒定的距离。基于领导者—跟随者策略的优点是控制器的设计很简单,因为整个编队的运动是由领导者决定的;缺点是,上述策略均不够鲁棒,因为追随者之间不能相互交流,如果领导者失败,整个编队就会失败。

在基于行为的策略中,需为每个AUV 设计一些期望的行为。每种行为都有自己的目的,如移动到目标、躲避障碍、躲避AUV 和保持编队[19-20]。基于行为的控制器作为这些行为的结构化网络来运行,并决定哪些行为应该一起运行[20]。基于行为策略的优点是AUV 之间需要交换的信息很少;缺点是基本行为的控制器设计和局部控制规划有难度,且不能保证编队控制的良好稳定性。

在基于虚拟结构的策略中,一组AUV 被视为一个刚性结构,使AUV 之间保持为一个具有固定相对范围的几何形状[21]。实现虚拟结构策略需要3 个步骤: 首先,定义虚拟结构的期望动态行为;其次,将虚拟结构的期望行为转化为每个AUV 的期望运动;最后,根据每个AUV 的期望运动,设计AUV的跟踪控制器。虚拟结构策略的优点包括: AUV的协同行为易于描述;刚性结构具有良好的维持编队的性能,其缺点是适应性和灵活性较差。

基于图论的策略包括无向图和有向图[22]。在该策略中,每个节点为1 个AUV。在无向图中,一条边的长度为2 个AUV 间距离;在有向图中,如果某个AUV 对另一个AUV 有影响(例如,一个AUV 的状态取决于另一个AUV 的状态),那么它们之间就存在一条具有方向性的边。在这2 个图中,节点的编队形状可表示AUV 的编队形成形状。基于图论策略的优点是,图论可以为编队控制提供足够的理论支持;缺点在于,设计和求解基于图论的策略比其他策略更为复杂。

基于人工势场的策略是假设AUV 在一个抽象的人工势场中移动,其中包括一个排斥势场和一个吸引势场。在势场中,AUV 的运动依赖于一个潜在的力,期望的位置会产生一个有吸引力的潜在力,使AUV 朝向期望的位置运动;而障碍会产生一个排斥力,它与AUV 和障碍物之间的距离成反比,使AUV 远离障碍。势能是系统的一种特性,它取决于2 个物体(如障碍物和AUV)之间的相对位置。势力和势能之间的关系类似于重力和重力势能之间的关系,如果势力使AUV 移动,势能就会减小。AUV 的运动可看作将一个编队从高值能量状态移动到低值能量状态。一个场的势能可以表示为人工势函数,包括吸引势函数和排斥势函数。人工势函数策略具有计算简单、易于实现和实时控制等优点,缺点是很难找到全局最小值。

3) 面临的约束

为实现AUV 的编队,需要通过无线通信交换一些关键信息。由于水下特殊的环境,水声传输的过程中往往会面临着众多的约束条件。因此,在编队控制中应考虑复杂环境因素,如通信时滞、动态不确定性、有限带宽和弹性控制等因素。

在水下环境中,传播延迟主要是由缓慢和可变的传播速度引起的[23-24]。大多数研究假设声波在水下环境中的传播速度约为1 500 m/s(通常在1 450~1 550 m/s 之间)[25],比电磁波在空气中的传播速度低5 个数量级。现有研究中,考虑的通信延迟有些是时变的[26],而有些是固定的[27]。获取通信延迟的方法之一是在发送每个数据包时加上时间戳[27],从而在同步的系统中获得延迟信息。基于二次规划等优化理论,Suryendu 等[27]为领导者AUV 在具有状态延迟的情况下设计了一种自适应控制器,该研究成果在开放水域的实验中采用基于优化的方法有效地补偿了时变延迟。Yan 等[26]利用李亚普诺夫—克拉索夫斯基泛函理论和代数图论构造并证明了多AUV 系统在具有时滞的场景下的充分一致条件。如何容忍大而时变的延迟来实现更好的AUV 编队是一个重要的问题,但是这个问题目前仍然没有完全解决。

洋流以及AUV 模型参数不确定等因素会给AUV 运动带来诸多外部以及内部的扰动,从而影响整个AUV 编队的稳定性。这些扰动通常可以建立为一个随机的非线性函数或一些具有控制输入项的动态模型。在大多数情况下洋流是未知的,并被视为一种外部扰动。现有研究通常采用观测器来解决在扰动、不确定性和噪声条件下的编队控制问题。Wei 等[28]采用扩展状态观测器估计未知扰动。Gao 等[29]设计了固定时间收敛的扰动观测器,可在一个与初始估计误差无关的有限时间上限内实现精确估计。Liang 等[30]使用模糊逻辑系统来近似未知时变海洋扰动下的不确定动力学。Jian 等[31]采用分布式自适应技术构建了非奇异快速终端滑模控制器来估计外部干扰和内部不确定性。

在水下环境中,水声网络通道的可用带宽是有限的。为了完成各种作业任务,AUV 通常需要交换大量自身和周围环境的数据信息,如传感器数据、控制数据和导航数据等。事实上,在采用周期内采样机制的多AUV 编队系统稳定过程中仍存在不必要的信息传输,不仅消耗通信资源,而且产生能量浪费,特别是电池供电的AUV 系统。因此,作为可以有效解决信息冗余和高通信压力等问题的工具,事件触发控制[32]被提出,只有当预设阈值函数满足时AUV 才会通过水声网络交换数据信息。现有的事件触发机制主要包括静态事件触发、动态事件触发、自触发、周期性事件触发以及混杂事件触发。事件触发控制技术在多AUV 编队系统中进行了研究,并取得了一些成果: Kim 等[33]提出了分布式事件触发的自适应编队控制策略,用于三维空间中的网络化不确定非线性AUV;Gao 等[34]设计了具有事件触发声通信的多AUV系统固定时间领导跟随编队控制方法,可以实现系统中所有信号的全局固定时间稳定;Xu 等[35]研究了具有固定拓扑的多AUV 系统事件触发分布式自适应二部共识控制。

恶意的网络攻击、剧烈的电流冲击以及意外碰撞等事故的出现也会严重影响AUV 编队的性能。与AUV 编队系统的不确定性不同,此类严重事故会导致AUV 节点的通信故障甚至是机体破坏,从而影响到整个编队。对于AUV 这类安全至上的系统,如何设计在恶意干扰攻击或严重故障情况下的弹性控制器变得尤为重要。现有的网络攻击主要有拒绝服务(denial of service,DoS)攻击和欺骗攻击,前者通过恶意占用或屏蔽通信链路的方式阻止AUV 节点之间数据信息的交互,而后者则通过篡改AUV 的传感器、执行器或者通信链路中的数据信息达到破坏AUV 编队稳定性的目的。作为最有害的攻击之一,DoS 攻击已经得到了广泛的研究。从防御者的角度来看,DoS 攻击的过程通常会用一些策略来描述,如伯努利过程[36]和马尔可夫过程[37]。由于描述攻击者的信号是随机且不可预测的,描述攻击者的基本策略有限。从攻击者的角度来看,当其发起DoS 攻击时希望不会被发现,并且拥有无穷无尽的能量。然而,攻击者的能量往往是有限且最终会消耗殆尽的。随着高通滤波技术的发展,学者们建立了基于DoS 攻击的频率和持续时间能量约束攻击模型[38]。Tang 等[39-40]采用混杂系统工具针对网络攻击下的弹性事件触发控制问题做出了一系列研究,如针对DoS 攻击和混合网络攻击的弹性编队控制等。

1.2 协同导航和定位

任何控制系统都需要载体自身的位置信息,以实现闭环反馈。多AUV 协同导航和定位是指一组AUV 实现信息交换和资源共享,并利用水下声通信观察未知的水下环境,然后通过信息融合和状态估计的方法获得比单一AUV 更准确的估计[41]。使用一组AUV 协同进行定位,可以承担复杂任务,如广泛的水下目标探测和海洋环境的综合调查。此外,可使导航系统具有更好的容错能力、鲁棒性和稳定性。与多传感器信息融合结构分类的方法类似,从算法的角度分类,协同导航和定位方法也可以分为基于滤波器的方法和基于优化的方法。

1) 基于滤波器的方法

基于滤波器的协同导航和定位方法主要包括卡尔曼滤波器及其变体。当状态噪声和测量噪声均为高斯分布时,卡尔曼滤波器是一个在最小均方误差意义上的最优估计器。在此基础上,提出了一些著名的高斯近似滤波器,如扩展卡尔曼滤波器[42]和无迹卡尔曼滤波器[43-45]。标准卡尔曼滤波器及其变量是基于最大后验估计的,通过状态预测和状态更新2 个过程得到的线性最小均方偏差和无偏估计方程。这些方法可以解决从线性高斯系统到非线性非高斯系统的大部分状态估计问题。在实际应用中,真实状态噪声和测量噪声可以交替成为高斯噪声和非高斯噪声,这给传统的高斯近似滤波方法带来了挑战。当系统正常运行,水下环境未受异常干扰时,状态噪声和测量噪声均为高斯分布[46]。然而,当系统受到脉冲干扰、传感器异常值和水声通道多径效应的侵蚀时,状态噪声和测量噪声可能分别是重尾噪声和倾斜噪声[47]。

针对非高斯噪声,学者们提出了许多鲁棒估计器。为了处理倾斜分布噪声,Huang 等[48]构建了基于卡尔曼滤波的通用高斯尺度混合分布框架,为了处理对称重尾分布噪声,通过最小化预测误差和创新误差的代价函数。Karlgaard 等[49]提出了Huber 卡尔曼滤波。Karlgaard 等[50]将非线性回归Huber 卡尔曼滤波应用于AUV 的协同定位,以减轻离群值对污染噪声的影响。另一种目前出现的鲁棒估计器称为最大相关熵卡尔曼滤波,也被用来增强AUV 协同定位的鲁棒性[51],其核心原理是最大化预测误差和残差的相关熵代价函数。利用非高斯噪声中隐藏的重尾统计特征,Huang 等[52]提出了一类基于学生t 分布的卡尔曼滤波,其中包括一步预测和测量似然概率密度函数,其被建模为学生t 分布,模型参数由变分贝叶斯方法推断。学生t 分布的卡尔曼滤波优于现有的Huber 卡尔曼滤波和最大相关熵卡尔曼滤波,因为估计状态中固有的随机性被充分利用[52]。尽管如此,上述所有的算法都是基于噪声是平稳的假设而构造的。当状态噪声和测量噪声非平稳非高斯分布时,精度会下降。

2) 基于优化的方法

传统基于滤波器的迭代滤波算法在多AUV协同定位时有很大的非线性观测方程条件下的线性误差,并且由于是基于准确的观测信息实现的,当观测信息不准确时,容易引起滤波不稳定问题。基于优化的方法将系统状态作为变量,通过引入运动方程和观测方程约束,来构造用以优化的误差函数。利用优化技术实现的算法通常会将全局函数的优化问题转化为局部函数优化问题。

现有定位优化技术大致可分为距离相关技术和距离无关技术两类。前者主要利用主/被动声呐、前视/侧扫声呐以及测深仪等探测设备进行定位,其定位精度较高、受制因素较少。目前,一些学者已经对距离相关定位技术进行了研究,并从不同角度出发设计了协同定位算法。这些算法大多利用信号到达时间差(time difference of arrival,TDOA)、信号到达时间(time of arrival,TOA)、信号飞行时间(time of flight,TOF)以及信号到达角度(angle-of-arrival,AOA)进行距离测量。例如,Zhou等[53]为减小网络通信能耗,考虑AUV 与传感器位置的时空相关性,提出了基于移动预测与TOA 的协同定位算法;Luo 等[54]对传感器节点的被动移动进行分析,提出了混合网络下的协同定位算法;Liu 等[55]同时考虑异步时钟与声线弯曲效应,设计了多阶段同步定位算法,然而存在定位延迟长、算法复杂度高的不足;为此,Mortazavi 等[56]对时钟同步与定位进行联合求解,并在此基础上进行声线补偿,该方法克服了定位延迟长、算法复杂度高的不足。

需要指出的是,流速场与水声弱通信约束,以及移动目标自身高机动特性,导致现有最小二乘定位估计器易陷入局部最优解,而基于凸优化策略的定位估计器求解过程复杂甚至无解。针对上述问题,作者团队[57-59]探讨了流速场与水声弱通信约束下的网络自定位与移动目标定位问题,系统地提出基于深度学习的定位优化估计器,采用值迭代方式对增量进行更新,以快速收敛到全局最优解,并严格刻画了收敛到全局最优值。

1.3 路径规划

多AUV 的协同路径规划研究主要以智能算法为主,因为智能算法在解决复杂动态环境中的路径规划问题上具有重要而有效的作用。目前主流的协同路径规划算法包括: 粒子群优化算法、差分进化算法以及人工神经网络算法等。

粒子群优化算法是一种基于鸟类种群捕食和返回的启发式算法[56]。寻找最优路径的基本思想是通过群体中的个体合作机制,在鸟类运动过程中采用迭代的方法。Yang 等[60]提出了基于改进的粒子群优化算法的3 次样条优化算法来解决多AUV 路径规划问题。由于中心路径是由一个3 次样条来描述的,因此路径规划等价于一个特定的3 次样条的参数优化。Yan 等[61]建立了一个具有复杂水下环境的多AUV 动态形成模型,该模型结合了人工势场算法和粒子群优化算法,可变大小的粒子群优化作用是通过动态调整路径节点的数量和分布来找到一个优化的路径来实现的。

差分进化算法的原理与遗传算法非常相似,即在突变操作中利用种群中个体间的差向量对个体进行扰动以实现个体变异。差分进化算法的鲁棒性优于遗传算法,在AUV 协同路径规划问题上取得了令人满意的结果,其中Li 等[62]采用差分进化算法解决了AUV 三维路径搜索中的避障问题。

人工神经网络是一种模拟人脑思维能力,利用大量模拟神经元实现非线性算法功能的网络。该算法的泛化性能较差,处理速度较慢。但由于其强大的学习能力、自适应能力和较强的鲁棒性,在避碰的AUV 路径搜索中应用广泛[63-64]。Zhu 等[65]提出了一个嵌入在自组织图神经网络中的生物启发式神经网络。在这种方法中,自组织图神经网络将多AUV 群分配到水下环境中的多个目标位置。然后,为了避免每个AUV 访问相应目标位置的障碍和速度跳跃,使用生物启发式神经网络更新自组织图获胜者的权重,实现多AUV协同路径规划和有效导航。此外,人工神经网络易与其他算法相结合,其改进后的算法及与其他算法的结合已成为路径规划领域的一个热点。Cao 等[66]提出了一种结合人工神经网络和速度合成的多AUV算法,以消除多机器人协同路径规划中电流的影响。随后混合了生物启发式自组织图算法,以确保环境建模的稳定性[67]。

1.4 任务分配

根据分配方式,任务分配可以分为集中式分配方法和分布式分配方法。其中,集中式分配方法是控制中心在整体任务发布之前确定任务的分配方案,然后移交给AUV 子任务执行。这意味着AUV 只承担系统中的执行步骤,而不参与决策步骤。分布式分配方法的不同之处在于,AUV 相互通信,相互协商,提出一个分配计划然后执行。其优点是可以保证单个AUV 的最大效益,并充分利用AUV 的智能元素。考虑到大型智能水下系统的通信负担与建立集中控制中心的高昂成本,目前的水声通信技术还不能满足集中式方法对水下大量信息交互的需要。因此,分布式分配方法更适合于水下系统[68]。分布式分配方法主要包括合同网算法、市场拍卖算法以及本身适用于多智能信息通信的算法,如自组织映射算法。

1) 合同网算法

合同网算法是模仿经济行为的“招投标中标”机制实现任务分配的谈判协调方法。该技术是分布式任务分配的一种常见协商策略,已成功应用于基于服务的网络架构[69]。在合同网算法模型中,假设每个AUV 都独立存在,将AUV 分为邀请者、投标人和获胜者(图4所示)。其中,邀请者是任务管理者,负责任务分配;投标人的基本要求是能够完成该任务;获胜者是中标人,即被指定为任务执行人。由于AUV本身的特点,AUV 可以承担多种角色,无论时间、条件或状态是否发生变化,它们都可以独立处理投标。然而,其局限性体现在投标过程中多个投标人共存,不易产生有效投标人;在投标过程中,潜在投标人增加了无效投标的数量和投标人评估投标结果的负担,极易发生不合理分配。为了解决这2 个问题,Li 等[70]提出了异构多AUV 任务分配合同网算法,结合任务负载比指数和令牌环网络概念,有效解决了投标人及其任务选择不合理的问题。

图4 合同网算法原理图Fig.4 Schematic diagram of contract network algorithm

2) 市场拍卖算法

为了解决多项式时间算法对单个任务的最优分配问题,Bertsekas 等[71]提出了市场拍卖算法,该算法可以找到近似最优解。Michael 等[72]据此提出了分布式拍卖算法,该算法可应用于拓扑变量的情况,并能保证收敛性和最优性。Qtte 等[73]通过考虑投标人和拍卖人的各种评估函数,包括利润最大化、成本最小化等,解决了通信受限环境下的任务分配问题。李鑫滨等[74]建立了异构多AUV任务分配分布式拍卖模型,利用任务奖励反馈机制来解决现有的拍卖算法忽略了拍卖人的利益问题,最后通过多轮试验拍卖市场,确保AUV 用低成本的任务分配系统完成任务,从而促进任务分配系统参与拍卖,更符合市场规律,并提高了多AUV 系统的任务分配系统应对复杂水下环境的能力。市场拍卖算法实现了多AUV 协同任务分配问题的最优解决方案[75]。

3) 自组织映射算法

自组织映射(self-organizing maps,SOM)神经网络最初由Kohonen[76]提出,后来被学者们广泛使用。该算法的相关研究较多,但大多只强调解决二维机器人系统的任务分配问题,而解决多AUV系统的任务分配问题的研究较少。与二维工作空间相比,对三维工作空间的研究更具有相关性[77],特别是AUV 受到水流甚至水中障碍的影响,对任务分配提出了更高的要求。

Zhu 等[78]提出了将SOM 应用于多AUV 系统的任务分配和路径规划方案,同时提出了一种基于SOM 神经网络的多AUV 系统任务分配算法。考虑到SOM 神经网络的自组织特性,该方法不仅适用于静态环境,而且可以充分应用于动态环境中的任务分配,并将机器人的运动规划集成到任务分配中,使多个AUV 能够根据环境的变化,自组织任务分配,并实时动态调整运动规划。Zhu等[79]考虑了AUV 的安全距离,并将获胜邻域更新规则加入速度合成算法,有效消除了洋流对AUV的影响。虽然三维空间中的任务分配问题得到了有效解决,但没有考虑到障碍,因此朱大奇等[80]引入了栅格置信函数的概念,给出了一种改进的栅格置信自组织算法,旨在确保AUV 到达目标位置的同时,能够自动避开障碍物。Zhang 等[81]使用向量方向的自组织算法任务分配的多机器人系统使机器人能够访问每个目标位置,整个过程包括神经元的选择、邻居函数的确定以及修改权重。后续研究,大多从路径规划角度优化自组织映射[82-83]。

1.5 目标围捕控制

目标围捕是指在多AUV 协同的动态过程中多个捕食者捕获多个逃离者,其中包括多个协同技术领域的交叉问题,如协同搜索、协同路径规划、分布式协同与控制以及任务分配等。

Zhu 等[84]集成了仿生神经网络和协商机制来捕获目标,在狩猎目标的过程中,为了避免AUV之间的碰撞,AUV 在移动前会与其他AUV 进行协商。为了进一步提高AUV 之间的协作能力,Cao等[85]不仅将神经网络改进为Glasius 生物启发神经网络,而且还引入了自组织映射任务分配算法,提高了目标狩猎的效率,缩短了各AUV 的狩猎距离。在未知的深海三维复杂环境中,Ni 等[86]将深海中异构机器人的协同围捕分为搜索和追踪2 个子任务,提出了一种基于脊髓神经系统的新方法,将基于改进的脊髓神经系统编队控制算法应用于搜索阶段,并采用并行划分的策略,在协同追逐阶段,提出了基于改进遗传算法的双向协商策略和协同追逐方向分配方法,有效地实现了深海协同围捕。Chen 等[87]提出了一种时间竞争机制,建立了有效的动态联盟,解决了异质水下航行器最大航行速度性能差异的影响。狩猎队的速度越高,越适用于广泛的水下环境。同时为了防止目标的逃逸,提出了一种高斯分布启发式神经网络模型和一种信念函数作为路径规划方法。Cao 等[88]研究了目标速度不低于AUV 速度时的多AUV 协同目标围捕策略,同时提出了一种基于动态预测的基于移动目标轨迹的围捕策略。

2 未来展望

21 世纪是海洋的世纪,海洋资源、海上权利以及海洋经济将成为区域竞争的主要焦点。美国、日本、欧盟等国家和地区竞相制定海洋战略,以抢占海洋科技竞争与未来发展制高点。我国拥有3.2 万公里海岸线、300 万平方公里管辖海域,深耕这片蓝色国土必须以强大的海洋探测能力,尤其是多AUV 协同控制能力作为技术支撑。目前,多AUV 协同控制技术已有长足发展,但其中仍有众多重要且尚需解决的问题值得深入探究。

1) 基于通信交互的AUV 中继

在复杂多变的水下环境中,保持多AUV 系统持续的通信链接是一个重要的指标。当通信链接正常时,每个AUV 都是相同的类型并且能够执行任务。而当通信质量恶化时,为了提高水声传输信道的质量,一些AUV 可以作为专门的信号中继,为其他机器人建立通信链路。在水下对抗环境中,可以部署多个AUV 作为中继,以确保AUV 之间的通信连通性,实现通信能力提升。作者前期工作[89-90]尝试将水声信道建模引入AUV 路径规划与编队控制,同时采用水声信噪比进行优化迭代,为后续进一步研究提供了一定理论依据。

2) 结合人工智能学习算法

由于很难对各种环境条件进行建模,水下环境的多变性成为了多AUV 协同控制中的一个复杂问题。此外,AUV 的动作会使环境不断变化,从而导致高度动态的问题空间。因此,很难采用高度依赖数据的监督学习和无监督学习方法。而强化学习不需要已有知识或数据,是一种解决大规模复杂问题的有效技术。此外,在对抗环境中,干扰者的智能水平会随着AUV 的智能水平不断提高而提高,从而使得AUV 总是面临新的环境。强化学习通过接受AUV 所采取行动上的奖励或惩罚来训练模型,这样它就能够通过学习策略来应对不可预见的环境。强化学习方法可以分为无模型方法和基于模型方法。在无模型方法中,AUV 需要通过反复试验与环境保持交互,以便了解行为后果。然而,无论是无模型方法还是基于模型方法都缺乏可伸缩性,只适合于相当低维的问题。如今,随着计算机性能和数据处理能力的不断提高,强化学习与深度学习相结合更适合用于解决大规模复杂问题。

3) 虚拟仿真环境构建

水下环境是高度动态的,难以精确预测。为了使AUV 适应持续变化的新环境,一种有效的方法是在各种场景下训练每个AUV。然而,构建许多现实场景的成本过高会造成很大的负担,并且训练的过程通常是低效的。因此,在虚拟的仿真环境中训练AUV 可能是一个很好的选择。对于每个AUV,其训练结果的最优性在很大程度上取决于虚拟环境的保真度,例如,深度学习需要通过与环境的交互获得反馈来调整AUV的动作策略,然而,建立一个现实的水下洋流和各类地理场景可能会成为一个重大挑战。近年来,一些人工智能公司与游戏公司合作开发了深度学习模拟平台,如“宇宙”、“SC2LE”等。游戏地理场景的生成可以为虚拟地理环境的构建提供重要参考。此外,计算机图形学结合深度学习在现实地理场景生成方面做了大量工作,包括大型室外场景[91]和小型室内场景[92],都是虚拟仿真环境构建技术的有益尝试。

4) 软件框架设计

实际应用中,每一种多AUV 协同控制技术都是由嵌入在软件中的特定算法实现的。AUV 软件架构设计具有需要与不确定和动态环境交互的特点。为了适应这种情况,架构设计应该遵循模块化和层次化的原则,这促使AUV 系统被设计为基于分布式组件的系统。在基于组件的体系结构中,每个组件都具有对应于一类算法的独立功能。目前,AUV 系统变得越来越复杂,这使得系统需要更多的组件来完成一个特定的任务。如何根据各种组件的功能对其进行模块化,以及如何设计高效的组件管理和调度机制来应对水下环境中的情况变化都是值得解决的问题。

5) 多AUV 探测—通信—控制一体化设计

现有多AUV 系统的探测、通信、控制系统通常是相互独立的。具体来说,探测系统主要关注如何利用主/被动声呐来接收目标辐射噪声或者散射回波,同时结合波束成形、方位估计等信号处理技术,以测定目标形状与距离信息;通信系统主要关注如何针对多径干扰、多普勒频移、窄带宽、高能耗等水声信道特性,设计信息收发协议以实现水下数据的可靠传输;控制系统主要关注如何利用岸基中心的前馈信息与传感器/AUV 的反馈信息,设计高性能控制器以确保AUV 稳定操纵。可以看出,探测与通信系统在工作原理与信号处理上具有一定的重叠性,如果两者分离设计和使用,那么在带宽利用和能量消耗上将相互竞争;此外,控制系统设计通常独立于探测和通信系统,即假设探测与通信是完美实现的,然而水下目标强机动性与水声弱通信特性,一方面使得上述假设在水下环境很难实现,另一方面使得探测和通信系统缺乏有效的反馈控制机制,阻碍了水下监测网络整体性能的提升。因此,亟需开展多AUV 系统探测—通信—控制协同设计研究(见图5),以通过水下目标探测、通信组网和协同控制的融合,最大限度地把信息优势转化为决策优势,实现水下监测网络整体性能的提升。目前作者团队[93-94]针对多AUV 探测—通信—控制一体化设计提出了一些理论方法,但是距离在真实海洋环境中的推广和应用,尚需进一步探索与研究。

图5 多AUV 探测—通信—控制一体化设计Fig.5 Co-design of detection,communication and control for multi-AUVs

3 结束语

文中梳理了近年来国内外有关AUV 协同控制关键技术的最新研究工作,概述了多 AUV 编队控制、协同导航和定位、协同路径规划、任务分配以及围捕等问题的研究近况以及代表性算法的技术细节,讨论了未来研究的重点方向,同时总结归纳了诸多亟待解决的难题。

作为一种跨学科技术,AUV 在未来应用中应注重在基于通信交互的AUV 中继、结合人工智能学习算法、虚拟仿真环境构建、软件框架设计、多AUV 探测—通信—控制一体化设计等方面的提升,解决复杂水下环境带来的技术挑战,提高多AUV操作能力,使其在未来发挥更重要的作用。

猜你喜欢
编队控制器协同
2023年1月25日,美军一次演习期间,空军正在进行编队飞行
蜀道难:车与路的协同进化
“四化”协同才有出路
基于事件驱动的多飞行器编队协同控制
三医联动 协同创新
基于预测控制的无人机编队内部避碰
多弹编队飞行控制技术研究
协同进化
模糊PID控制器设计及MATLAB仿真
MOXA RTU控制器ioPAC 5542系列