雷琪,文安格
(中南大学 自动化学院,湖南 长沙,410083)
多智能体系统通过本地控制器相互通信形成一种新的控制方式来完成人们期望的任务,有助于合理分配资源,简化复杂的操作指令,更快更方便地完成控制任务,通过智能体之间的合作解决单个智能体难以解决的复杂问题。多智能体系统一致性是指随着时间演化,一个多智能体系统中所有智能体的某一个状态趋于一致[1]。一致性协议用于描述各个智能体之间的信息交互过程,智能体通过网络交换数据获得相邻智能体的状态信息,然后每个智能体相应地更新其当前状态以达到一致。
线性多智能体系统相比于其他系统,具有易于控制的优点,被广泛应用于编队控制[2]、分布式传感器网络[3]、机器人控制[4]、故障分析[5]等。在实际的应用中,由于通信宽带的限制,控制器以及传感器往往只能获取离散时间相邻的智能体之间的状态信息,因此,在通常情况下,将离散线性多智能体作为研究对象具有重要的现实意义[6-8]。
智能体在通信网络进行交互的过程中,网络有限的宽带和传播速度会不可避免地产生网络时滞,网络时滞不仅使得系统的设计与分析变得困难,还会使系统的控制性能变差,甚至引起系统的不稳定。为了在实际的应用中提高系统可靠性,有必要考虑网络时滞对系统的影响。OLFATISABER 等[9]研究了具有时滞的多智能体系统一致性问题。MUNZ 等[10]给出了同时存在传输时滞和输入时滞的一阶多智能体是否能达到一致的判定条件。JIANG 等[11]认为时滞离散多智能体系统能否达到一致性与传输时滞无关,只与输入时滞相关。文献[12]对微网系统中分布式控制算法进行了扩展,采用基于特征值的分析方法,计算了通信延迟的最大允许上界。但是以上研究都是针对定长时滞的情况,而在实际的应用系统中,时滞往往是以时变形式存在的。考虑一类有上下界且变化规律已知的时变时滞,文献[13]给出了在有界通信时变时滞下平均一致性存在的充分条件;在此基础上,针对相同形式的时变时滞,刘忠信等[14]提出一种基于观测器的一致性控制算法以实现系统状态不可测和时变时延下的多智能体一致性。但以上研究都是针对具有一定变化形式的时变时滞,没有考虑到随机变化的时变时滞。
同时,上述时滞处理方法大部分只考虑了时滞对于系统的影响,但不能很好地消除或者补偿时滞的消极作用,并且对于时滞都以最大上界处理,而实际时滞往往远远小于时滞上界,统一为上界的处理方式具有极大的保守性。因此,学者们对时滞的主动补偿方面进行了深入研究,探讨消除时滞消极影响的方法。文献[15-16]中设计了模糊滑模控制器以主动消除时滞的消极影响,但需要提前获得时滞的准确值。ZHANG等[17]针对输入时滞设计了一个主动补偿时延的输出反馈控制器。预测控制策略在主动补偿网络引起的时滞方面有较好效果。佟世文等[18-20]提出网络预测控制策略对时滞进行主动补偿,ZHANG等[21]提出了一种预测控制器主动补偿通信通道中存在的时滞问题,有效地减少了时滞对于系统的影响。文献[22]就时滞和丢包问题提出了新的预测控制算法,并给出了稳定性分析条件。LIU等[23]针对系统存在定常时滞的情况,给出了预测系统的稳定性判据。
此外,传统的周期采样控制方法需要智能体之间进行持续的更新和通信,但系统里的控制器应该尽可能地减少控制更新的频率,以减少通信时间和设备磨损成本[24-25]。由此,DING 等[26]提出了事件触发机制。相比于周期采样控制,事件触发机制主要基于如下思想:只有满足预先定义的事件触发条件时,智能体之间才会发生控制的更新和通信,可以在减少通信次数的基础上达到与周期采样控制相同的控制效果。在系统广泛存在网络时滞问题的情况下,CHENG等[27]提出了一种基于局部信息的时滞事件触发策略并保证了系统的鲁棒性。此外,对于时变时滞,WANG 等[28]提出了一个基于事件触发的平均一致性协议以减少控制器之间的通信次数,并且构造Lyapunov-Krasovskii 泛函得到充分条件。MIAO 等[29]提出了针对时滞的一阶多智能体系统的事件触发算法以减少控制更新。
本文针对通信中存在随机时变时滞的离散线性多智能体系统,将预测控制的思想应用于多智能体时滞问题上,设计一种时变时滞离散线性多智能体系统一致性算法。该一致性算法最大的特点是:一方面,设计一种基于预测控制的分段时变时滞主动补偿方法,用预测输出信息替代原本受时滞影响的输出信息,以主动补偿随机时变时滞对系统的影响;另一方面,引入事件触发机制替代传统的时间触发机制,有效地减少控制器更新和通信的次数,在尽可能少的通信次数下使得多智能体系统达到稳定。然后,利用基于延迟划分的Lyapunov-Krasovskii泛函稳定性分析方法,分析在事件触发框架下的具有时变时滞的多智能体系统的稳定性与一致性。最后,进行仿真实验,以验证所提方法的有效性和优越性。
对于由n个智能体组成的系统,其拓扑结构可以用图G=(V,E,A)表示。其中,V={1,…,n},为多 智 能 体 系 统 的 节 点 集;E={(i,j)|i,j=1,…,n;i≠j}⊆V×V,为 智 能 体 的 边 集 合;若(i,j)∈E,则 节 点i被 称 为 节 点j的 邻 节 点。A=[aij]n×n,为邻接矩阵;若智能体i和智能体j之间能进行信息传输,则aij>0;反之,则aij=0;L=[lij]n×n,为G的拉普拉斯矩阵,其中:
对于无向图来说,其L是对称的,如果图G中所有的节点都存在路径,即aij=aji,则称图G是连通的。若图是连通的,则拉普拉斯矩阵L仅有一个零特征值,除此之外其余特征值均大于零,rank(L) =n-1。
考虑一类由N个离散线性智能体组成的多智能体系统,智能体i的离散模型序列可表示为
式中:k为离散采样时刻;k+1 为下一采样时刻;yi(k)和ui(k)分别为智能体i在k时刻的输出和控制输入信息;z-1为滞后时间;T为采样周期。
系统离散模型系数的多项式可表示为
式中:nui和nyi分别为智能体i的输入阶次和输出阶次, 也是多项式Ai(z-1) 和Bi(z-1) 的阶次;ai1,ai2,…,ainyi和bi1,bi2,…,binyi为智能体模型系数。
每个智能体都有自己的控制器以使多智能体系统保持稳定,可以根据控制领域内的多种经典控制方法设计控制器。记智能体的局部控制器为Gi(z-1) =Di(z-1)/Ci(z-1),离散模型序列可表示为
控制器离散模型系数的多项式可表示为
式中:nci和ndi分别为控制器的输入阶次和输出阶次;ci1,ci2,…,cinci和di0,di1,…,dindi为 控 制 器 模 型系数。
假设1离散线性多智能体系统的网络通信拓扑结构采用无向图G表示,图G是连通的且无权重的。
假设2离散线性多智能体系统通信网络中存在通信时滞,记为τ(k),且通信网络中的时滞是变化未知的随机时变时滞,有上下界,满足h1≤τ(k)≤h2。
为了尽可能地减少控制器的更新次数和传输信息次数,并考虑多智能体系统通信通道中时变时滞,本文设计一种仅取决于智能体自身输出信息和邻居智能体输出信息的事件触发阈值函数fi(k):
在事件触发机制下,智能体只需根据输出信息判断是否满足事件触发阈值函数,当满足fi(k)>0时,控制器才会控制更新和进行信息传输;否则,控制器不会进行任何动作。因此,智能体的下一个触发时刻定义为
由式(7)知,当智能体i执行事件触发指令时,ei(k)会被清零,且触发时刻之间至少相差一个采样周期T。
基于上述讨论,本文提出基于事件触发时滞补偿的一致性控制协议:
式中:Ki为调节参数,表示智能体之间的联系的强弱程度,且Ki>0;为已知的外部参考输入,只有部分智能体可以接收;Γ为带有外部参考输入的智能体集合;Ω为不带有外部参考输入的智能 体 集 合;为邻居智能体预测输出信息;。
注1本文给定一个外部的参考输入,最终多智能体系统能够达到外部一致性。外部一致性与以往的平均一致性问题不同,其收敛值由给定的外部参考输入决定,而与智能体的初始值无关。因此,对于初始值可能为零的智能体系统,外部一致性协议也适用,尤其是在实际控制系统中,研究与初始值相关的一致性控制问题并不合适,外部一致性的研究显得更有现实意义并且其适用性更广。
注2与之前的一致性控制协议相比,引入事件触发机制以减少不必要的控制器更新与通信,并且离散系统触发时刻之间至少相差一个采样周期,有效地避免了Zeno 行为的发生。在此基础上,本文设计的基于时滞补偿的一致性控制算法(式(8))采用邻居智能体预测输出信息替代原来受时变时滞影响的信息,主动补偿时变时滞对系统的影响。
在实际通信中,由网络延迟导致的时滞具有较强的随机性,且大多时候远远小于其上界,将随机时变时滞统一处理为其上界,显然具有较强的保守性。基于延迟划分的思想,对随机时变时滞进行分段处理,相比于统一处理为时滞最大上界的情况,可以更灵活地应对时变时滞对于系统的影响,减少计算量,处理也更精确。
当智能体i满足fi(k)>0,智能体i会更新信息并将信息发送给邻居智能体。为了减少时变时滞的影响,设计一种基于事件触发机制的分段时滞补偿方法,将时滞区间分成M份(M为正整数),用于分段预测智能体时刻k-τ(k)+1 到时刻k的输出序列。
本文考虑将时变时滞等分为M份的情况,即[h1,h12], (h12,h13],…, (h1M,h2],时变时滞τ(k)在某一时刻的值均在这M份中。考虑在τ(k)∈[h1,h12]时刻,预测的输出为从k-h12+1到时刻k的序列。为了简便,令
结合式(2)、(8)和式(9),可得向前预测一步的输出值的计算式:
由(13)可知,智能体向前预测一步的输出信息可由当前时刻信息与过去时刻可得信息计算得到。由式(10)~(13)继续递推,能够得到智能体向前预测p步的计算公式(其中p=1,2,…,h12):
由式(14)~(16)可以得到智能体向前预测p步的输出方程(式(17)),该方程一部分是由预测信息序列组成,一部分是由过去可得信息序列组成。也就是说,对于智能体下一步的预测行为信息的决策不仅基于当前可得的信息,也基于未来时刻的预测信息。
经过上述步骤能得到智能体i的预测输出序列:
依此类推,通过网络接收到智能体j的信息:
为了主动补偿时变时滞所带来的负面影响,需要从预测序列中分段选择相对应的预测输出信息。
式中:S为选择器,,预测输出序列通过通讯网络传导给其他智能体。
依此类推,可以采用同样的方法得到余下(M-1)份时变时滞部分对应的的预测输出信息并选择对应的预测输出值。
针对在事件触发框架下的具有时变时滞的多智能体系统的稳定性与一致性进行研究。为了方便讨论,首先提出如下假设。
假设3只有智能体i=1与外部参考输入相连。
Lyapunov-Krasovskii稳定性判据推导需要用到的相关引理如下。
引理1[30]对于任意的正定常数矩阵ψ、常数∂≥∂0≥1和向量函数ϑ(i),下面的不等式均成立:
基于Lyapunov-Krasovskii稳定性判据推导,提出如下定理:
注4时滞所分的区间越多,获得的理论结果中能保证系统稳定的时滞最大值也越大[32],所推导出的结论保守性越低,即所得结论的保守性随着分段数增大而降低。然而,这会增大计算量,从计算量和结论保守性之间综合考虑,把时滞区间分成二段或三段是比较恰当的,这同时保证了计算量的简洁性和结论的较低保守性。
注5对于时变时滞τ(k) ∈[h1,h2],为了简便起见,仿真实验中将时变时滞等分为两段(M=2),即[h1,h12]和(h12,h2]。另外,对于不分段的情况,对于本文构造的泛函V(k),令h12=h13…=h1M=0 即可。推导过程以及证明过程与上文同理。
注6对于选定的h1和h2,若对于任一τ(k)∈[h1,h1+1,…,h12,h12+1,…,h2],都 有ΔV(k)<0,则τ(k)≤h2,选取满足此条件的最大的h2,即为选择时变时滞多智能体系统所能容忍的最大时滞上界。
本文针对离散线性多智能体系统通信中存在的随机时变时滞问题,提出基于预测控制的分段时滞弥补一致性控制算法,减少时变时滞对多智能体系统的影响,并采用事件触发机制以减少通信资源的浪费。为了验证所提方法的有效性与可行性,本节利用Matlab/Simulink 平台进行模型搭建与仿真。
用于仿真实验的多智能体系统包含4 个智能体,分别命名为智能体1、智能体2、智能体3 和智能体4。各个智能体的离散线性模型以及保证无网络时滞系统能达到稳定的局部控制器的离散线性模型分别如下。
智能体1,
智能体2,
智能体3,
智能体4,
根据式(8)所提的一致性控制算法,给定一个外部输入,使得多智能体系统能够达到外部一致性,其中只有部分多智能体能够接收到外部参考信息的输入,在本节的仿真实验中假设只有智能体1与外部参考输入相连,并且各个智能体之间相互通信的示意图如图1所示。由图1可见通信拓扑是无向且不加权的。
图1 多智能体系统通信示意图Fig. 1 Communication diagram of multi-agent system
本文设计的基于事件触发的一致性控制算法中的参数Ki为大于零的正调节系数,用于调节智能体之间联系的强弱程度。在满足系统稳定性的要求下,应选择合适的Ki参数即(K1,K2,K3,K4)=(0.1,4.2,3.0,4.5)。
此外,智能体的触发时刻取决于参数γi,过低的γi将会使得触发条件变得苛刻,系统很难满足事件触发的条件,过高的γi则不能达到本文所提的尽可能减少通信次数的目的;此外,选择参数时还需要保证系统的稳定,基于此,选择参数γ1=γ2=γ3=γ4=0.002,采样周期T=0.1 s。
为了验证所提方法的有效性,取时变时滞τ(k)为随机时变时滞,且满足上下界要求,但是时变时滞的变化率是未知且随机的,给定的随机时变时滞τ(k)的形式如图2所示。
图2 随机时滞形式Fig. 2 Form of time-varying delay
为了测试时滞对系统的影响,经过计算和仿真,在不考虑时滞补偿的一般形式的一致性控制算法下,系统的最大容许时滞上界h2为5T,即系统在通信随机时变时滞τ(k)∈[0, 5T]时能够达到渐近稳定,如图3 所示。当τ(k)≥5T时,系统开始产生明显的震荡。图4所示为时滞为h2=6T时多智能体系统的输出。由此可见,在没有时滞补偿的情况下,系统可容许的最大时滞为5T,时滞增大会使得系统产生诸多不稳定的情况,甚至可能会造成系统的不稳定。因此,考虑时滞的主动补偿,有必要消除时滞对于系统的影响。
图3 随机时变时滞最大上界h2=5T时无时滞补偿多智能体系统的输出Fig. 3 Output of multi-agent system without delay compensation when the maximum bound of time-varying delay h2=5T
图4 随机时变时滞最大上界h2=6T时无时滞补偿多智能体系统的输出Fig. 4 Output of multi-agent system without delay compensation when the maximum bound of time-varying delay h2=6T
图5所示为系统最大时滞上界h2=6T时,加入预测控制的时滞补偿方法后的输出。由图5 可见:对被时变时滞影响的输出信息进行提前预测,可消除随机时变时滞对系统的震荡影响,相比无时滞情况系统收敛速度有所下降,但是系统对于时滞的控制效果得到改善,系统不仅能够达到外部一致性,实现零稳态误差跟踪,而且几乎接近无网络时滞时的控制效果。
图5 随机时变时滞最大上界h2=6T时有时滞补偿多智能体系统的输出Fig. 5 Output of multi-agent system with delay compensation when the maximum bound of time-varying delay h2=6T
基于时间延迟划分的思想,本文综合考虑计算量和保守性,将时变时滞等分为两部分,即选取M=2,在此基础上构造基于延迟划分的Lyapunov-Krasovskii 泛函,选取时变时滞下界h1=0,求解线性矩阵不等式,当时变时滞不分段时,最大容许时滞上界h2=40T,时滞分段后得到的最大容许时滞上界更大,h2=50T,即系统的保守性更小。通过仿真进行比较,当未进行时滞分段,系统时滞最大上界h2=50T时,多智能体系统无法达到一致性,无法实现零误差跟踪,波动较大,如图6所示。进行时滞分段后,多智能体系统的输出如图7所示。由图7可见:在同样的随机时变时滞情况下,多智能体系统虽然有一定的波动,但是系统在经过适当时间的调整后,仍然可以实现稳定性与一致性,并实现零误差跟踪,验证了所提方法在保守性方面的优势。
图6 随机时滞最大上界h2=50T时未分段的时滞方法补偿多智能体系统的输出Fig. 6 Output of multi-agent system with unsegmented delay compensation when the maximum bound of timevarying delay h2=50T
图7 随机时滞最大上界h2=50T时分段的时滞补偿方法多智能体系统的输出Fig. 7 Output of multi-agent system with segmented delay compensation when the maximum bound of timevarying delay h2=50T
此外,为了减少设备的损耗以及通信更新的次数,本文采用事件触发机制。在仿真过程中采用基于周期采样框架下的一致性控制算法与基于事件触发机制下的一致性控制算法进行对比实验,各个控制器的动作次数如表1所示,事件触发机制的时间间隔如图8 所示。由表1 和图8 可见,在周期采样下,控制器总共触发了4 000次,它在每个采样周期都进行控制器的更新与通信,而在事件触发机制下,智能体控制器仅在满足触发条件时才有所动作,控制器的更新次数明显低于周期采样下的控制器更新次数,这样能以更少的控制器更新与通信次数使系统达到稳定。由此可见,事件触发机制可以有效地提高资源利用率,减少设备的损耗,在应用上具有更大的优越性。
表1 触发次数Table 1 Trigger times
图8 事件触发机制下的时间间隔Fig. 8 Time interval under event triggered mechanism
1) 基于延迟划分思想,设计基于预测控制的时滞分段主动补偿的方法,消除了随机时变时滞的不良影响,并且相比于仅根据时滞最大上界进行时滞处理的方法,其可以更加灵活地处理随机时滞问题。
2) 结合事件触发机制设计一致性协议,能够提高资源利用率,减少设备的损耗。
3) 将多智能体系统一致性分析转化为稳定性分析,采用基于延迟划分的Lyapunov-Krasovskii泛函稳定性分析方法,得到多智能体系统实现稳定性和一致性的充分条件,相比于未进行延迟划分的情况,系统保守性降低。
4) 通过Matlab/Simulink 平台进行仿真实验,验证了所提方法的有效性和优越性。