肖 星,罗毅平,蔡 聪,姚月杰
(湖南工程学院 电气与信息工程学院,湘潭 411104)
多智能体系统是人工智能领域的一项重要内容,是属于计算机、军事、通信与控制等多个领域的交叉学科,自然界和社会中的很多复杂系统都可以看作是多智能体系统[1].研究多智能体系统,一方面可以加深人们对大自然现象的了解和认识,另一方面可以为各行各业的发展奠定理论基础.目前,多智能体系统在实际中有着非常广泛的应用,例如编队控制[2]、智能交通[3]、传感器网络[4]和航天器的交会对接问题.多智能体系统已经成为一种对现实中的复杂系统进行分析、设计和建模的有效方法和工具.通过多智能体间协作机制的引入,一个大规模的复杂任务便能由多个简单的智能体完成,与高度智能的个体相比,这可以更大限度地节省成本,减少资源浪费.
其中,一致性问题是多智能体系统中每个智能体之间进行相互作用所涌现的动力学行为,是研究多智能体系统合作与协调控制的关键[5].随着经济与科技的发展,无人机群控制、机器人群编队以及无线传感网控制等研究领域,都是基于多智能体系统一致性的概念来进行控制的.对多智能体系统一致性控制的研究热度不断增长,其影响力也越来越大,已经成为控制领域的研究热点.
在已有的一些文献中,多智能体系统内部的信息交互方式大多都依赖于各个智能体状态信息的连续交换.随着数字化网络的不断发展,网络带宽和网络节点也不断增长,从节省资源的角度来看,时间触发的采样方式有一定的局限.学者们提出用事件触发策略的方式以节约通信资源.事件触发策略在减少不必要的采样和传输方面具有优越性,越来越多的研究人员采用事件触发策略来解决多智能体系统的一致性问题[6-7].到目前为止,事件触发策略的研究已经取得一定的成果.例如,Jian Liu[8]研究了不确定非线性多智能体系统的固定时间事件触发一致性问题,可以让智能体间不需要持续通信就能实现一致.接下来,本文将从多个角度对多智能体系统事件触发一致性问题进行概述.
多智能体系统一致性,即随着时间变化,多智能体系统中的所有智能体在相互的耦合作用之下,最终的状态(如位置、速度等)趋向于一致.已有文献主要采用三种形式研究不同的多智能体系统的一致性问题.
对于无领导者的多智能体系统,一般在控制协议作用下,使得智能体i和智能体j的状态最终达到同一运动状态[9],这种一致性方式具有普适性,同时适用于有向连通图和无向连通图.具体可以描述为‖xi(t )-xj(t)‖=0,∀i,j=1,···,N,其中,xi(t)表示智能体i的状态.
文献[10]中的平均一致性可以使多智能体系统中的每个智能体在控制协议作用下的最终状态都可以达到Ave( )x()0.平均一致性的最终状态与所有智能体状态的初始值都有关,是一个相对固定的数值,但是并不是所有的多智能体系统都能够实现平均一致性.平均一致性只适用于无向连通图或强连通平衡图.平均一致性[10]的表达形式为
对于有领导者的多智能体系统,如文献[11]所述,除领导者外的其他智能体的最终状态在一致性控制协议作用下均与领导者保持一致.领导者在领导跟随系统中地位非常重要,其他智能体需要与领导 者保持通信.表示为‖xi(t )-x0(t)‖ =0,∀i=1,···,N,其中,x0(t)表示智能体领导者的状态.领导跟随系统其实就是无领导者系统中xi(t)与xj(t)达到一致的特殊情况.
多智能体系统能够实现一致的前提是智能体具有动力学行为,智能体之间存在通信拓扑结构,能够进行信息交换,并且存在一致性协议.更进一步地,事件触发策略的提出能够有效的减少控制器的更新和资源损耗.本小节将从动力学行为、控制协议以及事件触发条件等角度出发,分析现阶段连续多智能体系统的事件触发一致性研究进展.
现如今,由于多智能体在人工智能及机器人等领域的应用越来越深入,对多智能体系统一致性的研究热度只增不减,而根据不同的实际情况,建立的动力学模型也越来越丰富.
2.1.1 不同阶的多智能体模型
已经有很多文献针对各种各样的实际系统提出了合适的多智能体系统模型,例如一阶、二阶和高阶系统模型.一阶系统模型相对简单,计算简便,处理复杂问题的时候一般会先从一阶系统入手,然后推广至高阶系统;二阶系统模型在工程应用和生活中比较普遍,应用性更广;而高阶系统相对复杂,已有文献一般将高阶系统转化为二阶系统进行处理.在文献[12][13][14]分别提出了这三种动力学行为的典型表示形式.
2.1.2 含干扰的多智能体模型
在实际的系统中,总是会受到噪声和通信时滞等干扰的影响,需要使用更加复杂的模型解决问题.Yang Liu[15]采用了一种含时滞的非线性模型研究有限时间的多智能体系统保性能问题,其智能体i的动力学行为表示如下:
其中,i=1,2,···,N,xi(t)∈Rn表示系统的状态;xi(t -d)∈Rn表示节点状态时滞;ui(t)∈Rm表示控制输入;f(xi(t))表示智能体i的非线性函数.
同时,实际系统中可能会出现一些不确定的干扰因素,Yiwen Qi[16]采用了一种含有不确定项的多智能体系统模型研究多智能体系统的H∞控制问题,其智能体i的动力学行为表示如下:
其中,i=1,2,···,N,A∈ Rn×n和 B ∈ Rn×m表示适当维数的已知常数矩阵,ΔA和ΔB是适当维数的不确定矩阵.
对于非线性系统和不确定系统,文献[15][16]分别对非线性项和不确定项进行了转化处理,很好地对实际系统中的干扰因素进行了模拟处理,但是其转化过程并不是完全等价的,不能完全排除干扰因素的影响.
2.2.1 连续时间控制协议
至今,已经有很多的文献对多智能体系统的连续控制协议进行了研究,设计的是一种经典的分布式控制协议[17-18],即
其中,K表示状态反馈控制增益.
2.2.2 事件触发控制协议
上述的连续时间控制协议中,每个智能体需要不断的获取其邻居的当前状态,控制协议需要不断更新,需要消耗大量的能量和资源.文献[19][20]提出一种新的事件触发控制协议,能够有效的减少不必要的信息传输和控制协议更新.
xi(tik)是智能体i在事件触发时刻tik的状态.
文献[17]-[20]中的分布式协议比传统的集中式控制协议控制效果更好,每个智能体的控制协议都不一样.而事件触发控制协议[19-20]相比连续时间控制协议[17-18]在节省能量和资源方面存在一定的优势,是多智能体系统一致性研究的热点问题.
为了便于描述,首先定义
2.3.1 集中式事件触发策略(Centralized ETS)
文献[16][21]给出的是一种集中式的事件触发通信方案,为多智能体系统中的所有智能体设计了一个通用的事件触发条件,可以确定智能体何时与邻居进行信息交换.集中式事件触发策略的特点是需要多智能体系统中所有智能体的信息来确定下一个触发瞬间.与时间触发方案相比,在该事件触发策略下,可以显著降低智能体的通信频率.集中式事件触发策略为:
其中,智能体i当前时刻与最后事件时刻之间的估计误差为ei(t)=xi(tk)-xi(t),∀t∈[tk, tk+1).M,N是合适维数的正定对称矩阵;L表示拉普拉斯矩阵.ρ∈[0,1]是给定的事件触发策略的一个正向阈值.
2.3.2 集群式事件触发策略(Clustered ETS)
当网络规模较大时,集中式事件触发策略难以应用,采用一种新的集群式事件触发策略.在文献[22][23]中,集群式事件触发策略的特点是它不再需要收集所有智能体的状态来确定下一个触发时刻.一般把智能体划分成不同的集群,只有同一集群中的智能体共享一个公共事件触发条件,同一集群中智能体的触发时刻是相同的.但是,不同集群中的智能体的触发时刻可能不同.首先,利用初等矩阵U对多智能体系统矩阵进行排序:
将图划分成了κ个连通分量.且χσ(t)=Uxσ(t)表示集群智能体的状态.
其中,智能体i当前时刻与最后事件时刻之间的估 计 误 差 为ei(t)=χi()-χi(t),∀t∈ [).ρσ∈[0 ,1]是给定的事件触发策略的一个正向阈值.
2.3.3 分布式事件触发策略(Distributed ETS)
相比较而言,分布式事件触发策略不需要收集所有智能体的状态信息,能够更好地节省通信资源.从文献[24][25]可以看出,分布式事件触发策略具有如下特点:系统中的每个智能体都能够独立地确定自己的行为,并且其事件触发条件仅使用本地信息进行设计,每一个智能体都有它自己的事件触发时间序列.文献[24][25]提出一种简单的分布式事件触发策略:
注意到文献[24][25]提出的事件触发条件能够减少控制器更新的频率,其重点是事件触发采样,仍然需要智能体之间进行连续通信.与文献[8]相比,文献[24][25]的事件触发函数较保守,需要的采样时间以及触发次数更少.当然,文献[8]中提出的间断通信下的事件触发函数能够很好克服连续通信的局限,减少通信资源的浪费,将成为未来研究的重点.
目前,对多智能体系统事件触发一致性的研究仍然存在以下两个问题.
上述分布式事件触发策略在文献[24][25]中,每个智能体都有自己的事件触发时间序列,能够有效地减少不必要的采样和信息传输,提高资源利用率.然而,只是单纯的保证系统稳定性已经很难满足实际需求,系统性能优化的问题尚待解决.如何有效地保证控制效果,使系统的保性能函数满足要求将成为学者们以后的研究重点.如何在理论上明确揭示约束目标函数与资源利用之间的关系,在确保事件触发策略合理性的前提下,实现多智能体系统的一致性优化问题,是需要着重考虑的一个问题.
据了解,许多文献中所得到的多智能体系统一致性的性能优化的结果往往是次优的[26],仅仅只能够保证其满足某一特定的性能指标;在实际需求中,工程应用上往往希望系统性能达到最优或者是接近最优.从本质上讲,在多智能体优化问题中,明确揭示约束目标函数与资源利用之间的关系具有挑战性,吸引了大量的研究者.这些年,学者们纷纷提出一些优化方法来解决多智能体系统的最优化问题,但是这些方法[27-28]一般只是针对某一方面提出,还有很多问题尚未考虑.例如,在确保系统能够实现一致的情况下,怎样通过减少采样次数、优化性能使其达到最优一致.此外,基于事件触发策略作用下的二阶或高阶多智能体系统以及网络攻击下的多智能体系统的保性能一致性问题均尚未涉及,对基于事件触发策略作用下的含不确定参数、随机干扰或者时滞的多智能体系统的保性能一致性问题也尚未见文献报导,而现实中这些都是有意义的.由此可见,对多智能体系统保性能一致问题的研究任重而道远.
上述文献[21]-[25]大多通过状态反馈控制方法研究多智能体系统的事件触发一致性问题,没有考虑某些状态变量未知或工业仪表无法测量的情况.在大多数实际系统中,内部状态通常是不可能全部得到,有些状态变量甚至根本无法检测.在多智能体一致性问题的研究中需要进一步考虑输出反馈控制方法.
当没有智能体的状态信息时,用智能体输出信息代替一致性协议的设计引起了广泛关注.对于不稳定且状态未知的运行系统,通常情况下将通过观测器来得到系统的状态估计.如文献[29]和文献[30]基于观测器分别研究了一般线性多智能体系统的事件触发一致性问题和多智能体系统在事件触发策略下的领导跟随一致性问题.基于事件触发策略下的多智能体系统的输出反馈一致还有许多问题尚待解决.其一,多智能体系统模型需要考虑非线性因素以及扰动,并具体探究多智能体系统动力学扰动的来源;其二,需要设计复杂度较低且在实际系统中易于实现的控制器;其三,需要进一步解决基于输出反馈的无连续通信的多智能体系统的事件触发一致性问题.
文中对多智能体事件触发一致性问题的研究都是在有一定的图论、矩阵论以及控制论等知识储备的基础上进行的.从动力学行为、控制协议以及事件触发条件等角度出发,详细阐述了多智能体系统事件触发一致性的研究进展.在多智能体系统一致性问题中,事件触发控制协议以及分布式事件触发策略能够有效地减少不必要的信息传输和能量的消耗,已经成为研究的重点.最后,提出了值得思考的两个问题,优化问题和输出反馈一致性问题也将成为未来的重点研究方向.