优先级分布式模型预测控制的多智能体系统

2024-01-05 12:05任凯龙薛斌强

电子设计工程 2024年1期

任凯龙，薛斌强

（青岛大学自动化学院，山东青岛 266071）

多智能体网络控制系统是通过多个智能体子系统控制及通信的相互作用，来部署共享网络进行数据交换的大规模回路系统，多智能体系统具有一定的网络计算能力和控制水平，可以自主地通过对智能体子系统的状态和通信进行分析，从而对整个系统或者单个子系统做出控制决策，提升智能体之间的协作能力。因此，多智能体系统也在航天器系统[1]、智能体网络编队[2]、同步发电机多智能体系统[3]等诸多领域被广泛运用。根据多智能体系统的拓扑结构分类可以将其分为集中式和分布式。其中，集中式类似于领导与被领导者的关系：由一个控制器负责处理所有的通信信息和决策信息。集中式的拓扑结构虽然具备较为良好的稳定性和协调能力，但对网络计算能力和网络复杂性要求较高，并且当负责决策的控制器出现问题时，容易引发整个多智能体系统的安全隐患[4]。因此近年来，分布式的拓扑结构逐渐成为了学者们的研究热点[5-7]，在分布式的拓扑结构中，智能体之间没有管理与被管理的关系，每个智能体都有自己的控制目标，具备集中式没有的灵活性和自治性，同时大大降低了所需的网络计算能力，但分布式拓扑结构的缺点是可控性较差[8]。

在分布式多智能体系统的研究中，文献[9]提出了一种模型预测控制方法，利用多智能体之间的信息来解决控制问题，但该文献中考虑了多智能体系统之间的约束和耦合关系。基于这一缺陷，文献[10]引入子系统与相邻子系统之间局部状态的误差最小最大函数，给出了具有终端代价和终端控制器等各种约束条件的DMPC 算法。但该类型的分布式预测控制算法需要对每个子系统求解局部优化问题导致控制器的在线计算量较大[11]。针对DMPC 的缺点，该文在DMPC 算法的基础上引入优先级调度机制，避免了在采样时刻对每个子系统的性能优化，从而既保留了DMPC 处理多约束、多变量、不确定性问题的能力，又降低了控制器的在线计算量。

1 系统描述

该文多智能体系统中的单个智能体考虑以下离散时间线性系统：

其中，xi(k|k)∈Xc,ui(k|k)∈Uc，Xc∈Rn,Uc∈Rm，xi(k|k)为智能体i在k时刻的状态信息，ui(k|k)为智能体i在k时刻的输入信息，Xc、Uc分别为包含任意时刻状态和控制输入的可行凸集。

为了分析上述多智能体系统的稳定性，给出如下引理：

引理[12]：对于系统标称模型1，在反馈率κi的作用下，集合Ξi(εi) 为控制不变集，则存在常数a∈[0,1]，使得集合Ξi(aεi)也为控制不变集。

2 优先级调度算法设计

2.1 传统分布式预测控制算法（DPC）

传统的分布式模型预测控制算法需要每个子系统都对优化问题进行计算求解。在优化求解过程中，往往由于子系统之间交互信息的复杂性和优化变量的多维数特点，使得智能体之间的通信变得繁重，从而导致智能体之间有可能出现Zeno 现象。

针对上述离散时间线性系统，单个智能体的代价函数描述如下：

在DPC 多智能体系统中，每个智能体都有自己独立的控制器，每个控制器都在采样时刻解决相应的优化问题，并在解决优化问题之后发送至相邻的智能体。不同于传统的分布式拓扑结构，该文设计了基于优先级的分布式拓扑结构，以省去具有冗余信息的分布式预测控制优化问题，只有当子系统满足优先级条件时才进行信息交互，并进行优化计算。因此在传统分布式预测控制的基础上，该文引入优先级调度的分布式预测控制方法来减少子系统之间信息交互的次数，提高了通信网络的利用率。

2.2 基于优先级的分布式预测控制（PB-DPC）

多智能体系统采用分布式拓扑结构，使得每个智能体只需要单独求解自身的优化问题，然后将求出的优化控制序列传输给耦合智能体。近年来学者们的研究表明，分布式拓扑结构比集中式拓扑结构对通信资源的利用率更少，且具备更好的容错性[15]。但是随着分布式拓扑结构的日益成熟，对多智能体系统网络通信资源的合理分配成为一个难点。基于此，在分布式拓扑结构的基础上，引入优先级概念，为每个智能体分配不同的优先级。优先级算法与传统周期性调度算法相比，每个智能体提前分配到合理的固定优先级。由于具有较高优先级的智能体不考虑和较低优先级智能体的耦合关系，也就是说系统能根据智能体间的优先级来决定智能体之间是否需要通信，大大减小了整个多智能体系统的通信压力。

以智能体i低于智能体j的优先级为例，智能体i的预测控制性能指标函数为：

在基于优先级的分布式事件触发模型预测算法中，子系统优先级的分配成为上述优化算法的关键所在。在不同的优先级组合中，最优的优先级算法除了具有比传统事件触发算法低的事件触发率，同时也应该兼顾多智能体系统的性能指标，因此，该文将多智能体系统的最小性能指标即作为子系统优先级的分配准则，进而将该最佳优先级排序用于上述分布式事件触发预测控制算法。

由上述算法分析给出PB-TDPC 算法的具体步骤如下：

Step1：根据优先级分配准则得到多智能体系统中每个智能体的优先级，这样如果在k时刻智能体i和智能体j探测到对方时，进行优先级比较；

Step2：若智能体i的优先级低于j，跳转至step3。反之，则智能体i不进行优化求解，并采用k-1时刻求出的k时刻预测控制量进行计算；

Step3：若智能体i的优先级低于智能体j的优先级，则智能体i在k时刻求解带有耦合信息的优化问题；

Step4：在k+1 时刻重复step1。

3 PB-DPC算法的稳定性与一致性分析

对于多智能体i的控制系统，假设子系统在k时刻解决优化问题并与邻近智能体进行信息交互，获得控制序列为ui(k+l|k) 及对应的状态轨迹xi(k+l|k)，该文选取系统性能指标函数构造李雅普诺夫函数，则考虑k+1 时刻和k时刻的李雅普诺夫函数之差，以智能体i为例证明系统的稳定性。

假设[16]：存在常数β、α1i、α2i、εi和矩阵Pi，其中，常数满足0 ＜α1i＜α2i＜1,εi＞0 。矩阵Pi为子系统i终端项的惩罚权矩阵，且可以通过求解一个黎卡提方程Pi=得出。

由ISS 稳定定理可推出，若系统满足：

则ΔJi(k+1)≤0，系统ISS 稳定。

4 仿真实验

该文采用四个智能体组成的控制系统对PDPC算法进行仿真，单个智能体的系统选取如下：

部分参数选取如下：α1i=0.7,α2i=0.9,εi=1，权重矩阵设定为Qi=I2×2,Ri=0.1，Qij=I2×2，时间步长T=30，仿真结果如图1～4 所示。

图1 四个智能体的状态值x1

如图1～4 所示，其中图1 和图2 为四个智能体的状态值曲线，图3 为智能体的输入值曲线，从图中可以看出智能体系统的状态和输入最终都得到收敛。图4 为基于优先级的分布式多智能体系统的信息交互时刻图，图4 给出了分配了最优优先级（P1）、可行优先级（P2）、未分配优先级（P3）和传统分布式多智能体系统（P4）的触发率柱状图，其中可以看出传统分布式多智能体系统的触发率为1，而被分配了最优优先级的多智能体系统相较于未分配优先级的多智能体系统，事件触发率得到了明显降低，有效地节省了计算资源。

图2 四个智能体的状态值x2

图3 四个智能体的输入值u

图4 不同优先级分配的信息交换率对比

5 结论

该文对分布式模型拓扑结构的多智能体系统进行了研究，设计了基于优先级分配的分布式模型预测控制算法。由于该算法降低了各智能体之间的信息交互次数[17-18]，从而降低了网络控制系统的通信压力，并提高了网络资源的利用率。其次，利用状态-输入稳定性定理证明了该控制算法的稳定性。最后，通过Matlab 对多智能体系统进行了仿真实验，实验结果表明，该算法能够有效降低子系统之间的信息交互。下一步将针对非线性多智能体系统领域开展降低在线计算量的研究。