弓镇宇, 李庆奎
(北京信息科技大学自动化学院,北京 100192)
由于多智能体系统应用的广泛性,其相关研究在数学、生物、经济、控制科学等众多学科领域获得了长足的发展. 其中多智能体系统的一致性问题一直是研究热点,它在飞行器编队控制[1-2]、机器人协作[3-4]和网络系统同步[5-6]等实际问题中起着重要作用. 解决一致性问题的关键在于设计合理的控制策略或控制协议,使得各个智能体与邻居能够进行特定的信息交换,并最终实现状态的统一.
二人零和博弈最早由冯-诺依曼归纳提出[7],它是指博弈中双方参与者的收益和为零或常数,二人零和博弈问题可转化为最大最小优化问题[8]. 从控制角度来看,控制输入和干扰输入是一种“对抗”关系,设计一个指标函数来量化系统性能,控制输入的目标就是使得指标函数最小,而干扰的目标是最大化指标函数. 求解二人零和博弈问题依赖于求解Hamilton-Jacobi-Isaacs(HJI)方程. 由于HJI方程仍然难以直接求解,因此针对这个难题,文献[9]中引入了离线策略迭代算法,通过迭代收敛获得HJI方程的解. 随着强化学习和神经网络学科的发展,与Actor-Critic神经网络结合的在线策略迭代算法[10-12]和值迭代算法[13]也受到了众多关注. 在多智能体框架下,文献[14]研究了二人零和图博弈问题,并给出了与Actor-Critic 神经网络结合的双环策略迭代算法进行求解;文献[15]研究了多智能体系统存在输入饱和以及输出限制时的二人零和博弈问题,并且结合了自适应动态规划方法.
随着研究深入,外部干扰和模型不确定性存在时的一致性问题受到了越来越多的关注,文献[16]中引入了H∞控制理论,将其转化为多智能体系统的H∞一致性问题. 目前大多数针对H∞一致性问题的研究基于求解线性矩阵不等式[17-20],而文献[14,21-22]中引入了二人零和博弈框架对H∞一致性问题展开讨论,这为H∞一致性打开了新的思路. 文献[21]中讨论了设计输出状态反馈控制策略实现多智能体系统的同步性,并给出了解耦HJI方程的方法;文献[14]将H∞一致性问题转化为二人零和图博弈问题,并引入策略迭代算法进行求解;文献[22]中考虑了异质多智能体模型的H∞一致性问题.
目前在博弈论框架中,国内外求解H∞一致性问题的文献主要针对有领导者时的情形,即各个智能体状态最终与领导者的状态同步. 领导者的引入可以保证拓扑图的拉普拉斯矩阵是非奇异的,从而有助于分析和计算,而系统中没有领导者时的一致性研究较少,针对这种研究现状,可以考虑多智能体系统的平均一致性问题. 当智能体与全局平均状态的误差趋于零时,多智能体系统实现一致性. 此时需要考虑到误差系统中存在奇异系数矩阵的问题. 本文研究了离散时间多智能体系统存在外部干扰时的平均一致性问题,不同于传统的求解线性矩阵不等式实现H∞控制做法,此处将设计一致性协议问题转化为寻找二人零和博弈的纳什均衡点的问题,通过纳什均衡点可以得出最优的控制协议设计. 针对二人零和博弈产生的耦合HJI方程设计了解耦方法,并使用了双环策略迭代算法寻求最坏情形干扰下的最优一致性协议,最后通过一个算例仿真证明了提出方法的可行性.
对称图的拉普拉斯矩阵是对称矩阵,本文考虑的图是对称图且不包含自环.
考虑由N个智能体组成的多智能体系统,第i个智能体的动力学方程如下所示:
式中A 和B 都是适当维度的系统矩阵,xi(k)∈Rn代表智能体i 的状态变量,ui(k)∈Rn代表其控制输入,ωi(k)∈Rn代表外部扰动.
因此,包含N个智能体的多智能体系统的动力学方程可整合成如下形式:
式中IN为N×N 维的单位阵,并且有:
定义1 对于包含N个智能体的系统(3)而言,若系统中智能体i在任意初始状态xi(0)下都满足以下条件:
则称该系统达成了一致性.
为实现多智能体系统一致性,我们需要根据智能体i和它邻居的状态合理设计一致性协议,考虑具有如下形式的一致性协议:
其中K1表示分布式一致性增益,进一步整理可得:
进一步整理可得系统误差动力学方程:
其中In为n×n 维的单位阵,并且有:
注意到矩阵M 是奇异矩阵,不妨令:
则有:
式中z(k)为系统输出,此外根据式(5)可得:
因此H∞一致性问题可以转化为设计一致性协议问题,该协议能够让误差系统在外部扰动ϖ(k)=0 时实现渐进稳定,且满足下述条件.
定义2[23]对于非零外部干扰ϖ(k)∈l2[0,∞)以及有界函数β,给定一个正标量γ,若系统(7)满足以下条件:
则称该系统是l2增益有界的. 令γ*为干扰抑制水平γ 的下界,则对于任意的γ >γ*而言式(9)都成立.
首先对系统(7)定义一个性能函数:
式中Q >0,R >0,T >0 是对称的权重矩阵. 对于控制输入和外部干扰定义如下值函数:
H∞一致性问题可看作是一个零和博弈问题,其中参与者包含一致性协议和外部干扰,控制输入的目标是减小指标函数,而干扰的目标是增大指标函数. 因此,这个过程可表示为:
它等价于下面的纳什均衡条件:
由贝尔曼最优原理和式(11)可得贝尔曼方程:
考虑二次型形式的值函数:
式中P为正半定对称矩阵. 将式(16)代入(15)式可得到:
进一步定义哈密尔顿函数为:
通过一阶条件∂H ∂uˉ=0,∂H ∂ϖ=0 可得最优控制策略和最坏情形的干扰策略:
式中:
基于误差状态的反馈控制律结构由式(8)给出,因此最优控制策略可由最优控制增益-(L ⊗K*1)给出.假设R=R1⊗R2,并且P=P1⊗P2,结合式(8)可得:
假设T=T1⊗T2,并且最坏情形下干扰满足以下形式:
进一步通过如下定理对耦合HJI方程(21)进行解耦.
定理1 考虑如(7)中所示的多智能体误差系统,如果R1=T1=IN,P1=L,且矩阵Q满足:
因此HJI方程(21)等价于:
式中
如果权重矩阵Q 满足:
式中Q1=≥0. 将其代入耦合HJI方程可得到:
式中Ak=(In+BK1-K2) . 最终可以得到:
因此P2可以通过求解式(25)得出,并进一步得到P,该定理证毕.
本节将讨论误差状态系统存在外部扰动时,在最优一致性协议uˉ*(k)的作用下是满足l2增益有界条件的. 首先介绍以下引理.
引理1[24]假设HJI方程存在正定解V*( )
δ(k) ,那么下式成立:
定理2 假设γ >γ*,并且HJI方程存在光滑的正定解V*,那么在控制策略uˉ*(k)下,当ϖ(k)=0 时系统(7)能实现渐进稳定,并且对于任意ϖ(k)∈l2[0,∞]系统都满足l2增益有界条件.
证明 假设HJI方程存在解V*,同时把uˉ*(k),ϖ*(k)代入到式(18)中可得:
式中
当ϖ(k)=0 时,下述不等式成立:
所以根据Lyapunov定理可知系统在最优控制策略下能够实现渐近稳定. 考虑干扰抑制条件和引理1,对式(29)进行级数运算可得:
因此该系统满足在γ 水平上l2增益有界,该定理证毕. 由此可知多智能体系统(3)可实现H∞一致性.
因为HJI方程解耦之后仍然难以直接求解,所以我们采用了双环策略迭代算法来求解Lyapunov方程形式的HJI方程(25),并获得最优控制策略. 该算法包括内环迭代和外环迭代,其中内环执行策略评估,将控制策略固定,对干扰策略进行迭代;外环执行策略更新,改进控制策略. 算法具体步骤如表1所示.
表1 双环策略迭代算法Tab.1 Double-loop policy iteration algorithm
进一步可通过式(22)和式(24)分别得到最优控制策略和最坏情形干扰策略.
假设一个多智能体系统中包含3个智能体,它们通过图1所示的通信拓扑进行信息交互,每个智能体的动力学方程为:
所以图1的拉普拉斯矩阵为:
图1 通信拓扑图Fig.1 Communication topology
选择合适的权重矩阵Q1、R2和T2,选定γ=0.45,通过算法1计算得出P2为:
进一步可得出针对最坏情形扰动设计的最优一致性协议. 给定智能体状态初始值为:
图2和图3展现了三个智能体的状态响应曲线,三个智能体的状态在0.5 s处趋于一致. 图4和图5展现了各个智能体的状态与整体平均状态间的误差响应曲线,误差值在0.5 s处趋近于0. 因此可以推断出,考虑外部扰动影响时的多智能体系统在文中提出方法下最终可以达成一致性.
图2 状态xi1 的响应曲线Fig.2 Response curve of state xi1
图3 状态xi2 的响应曲线Fig.3 Response curve of state xi2
图4 误差δi1 的响应曲线Fig.4 Response curve of error δi1
图5 误差δi2 的响应曲线Fig.5 Response curve of error δi2
本文利用二人零和博弈思想代替传统的线性矩阵不等式方法,解决了离散多智能体系统存在外部干扰时的H∞平均一致性问题,设计解耦方法和引入双环策略迭代算法求出最优控制策略和最坏情形扰动策略,使得系统在最坏干扰下能够实现H∞平均一致性. 仿真结果验证了该方法行之有效,考虑时滞和切换系统会更加贴切实际情形,可以作为下一步的研究方向.