段绪彭 李永振
摘 要:本文对于系统模态不匹配的异步切换多智能体系统的输出调节问题进行了分析与探讨,结合粒子群算法等多智能体系统的优化算法对于分布式输出反馈控制协议进行了设计,从而能夠有效地做好输出调节的工作,为其进一步发展打下了坚实的基础。
关键词:异步切换多智能体系统;输出调节问题;分析;探讨
输出调节问题近年来已经取得了很多成果, 输出调节的目标是为不确定受控系统设计控制律使得闭环系统渐近稳定, 且在存在扰动时闭环系统的输出可以渐近地跟踪参考输入或渐近地抑制干扰信号。多智能体系统一致性问题受到了很多学者的关注,一致性问题可以看作输出调节的一类特殊问题, 同理, 多智能体的一致性问题也可看作多智能体协同输出调节问题的一类特殊问题。
1 多智能体系统的优化算法分析
粒子群算法,缩写为 PSO。PSO 算法属于进化算法的一种,和模拟退火算法相似,它也是从随机解出发,通过迭代寻找最优解,它也是通过适应度来评价解的品质,但它比遗传算法规则更为简单,它没有遗传算法的“交叉”和“变异”操作,它通过追随当前搜索到的最优值来寻找全局最优。这种算法以其实现容易、精度高、收敛快等优点引起了学术界的重视,并且在解决实际问题中展示了其优越性,粒子群算法是一种并行算法,其源于对鸟群捕食的行为研究 目前很多学者都对多智能体系统生成进行了深入研究,取得的研究成果也是众多的。在本文中对于个体适应值以多智能体系统数据进行有效模拟,以此方式使得程序运行时间得以有效控制,故此,进行多智能体系统数据生成时,仅需利用较为基本的方法即可,由于在被测程序中,所对应的目标路径并不是唯一的,而每次算法运行,仅能够对其中的一种路径进行测试,由此得到对应路径的多智能体系统数据,因此路径数量对应着算法需要进行的次数。首先,要求能够得到一定的多智能体系统数据,可将程序进行插装以获得真实适应值,由此得到实验需要的样本数据。随后,通过样本使得多智能体系统数据得到训练,当训练完成之后以这些多智能体系统数据来对个体适应值进行大致评估,从中选择优秀的个体,即那些具有较好适应值的,随后进行程序运行以此方式从中得到实际的适应值水平。此外,因为在本文方法中对于个体适应值是以多智能体系统数据进行的评估,故此,如果目标路径是相同的,只需要在初始阶段对多智能体系统数据进行训练,在后期的运行中是无须对其进行更新的。
2 分布式输出反馈控制协议设计
一般在这样的框架下,可以实现较好的优化功能,主要包括评价模型和执行三个部分,这三个部分主要在于能够实现完整的评价改善循环,评价模块可以评估执行模块的实际效能,对于代价函数进行优化与修正,执行模块可以产生实际的动作来对所改进的策略进行执行,同时也能有效的对于被控对象的情况进行反应,将其进行运行之后,可以通过不同的反馈,来对实际评价与运行的情况进行确定,同时,利用相关的神经网络、强化学习等算法,来实现函数的近似与优化,这样就能对于系统的内部参数进行实时的更新,这里主要是采用贝尔曼的优化方式来进行更新的。效用函数可以对于函数输入在系统内产生的效果,进行合理有效的评估,主要有以下这些方式:通过代价函数的定义情况,我们可以对效用函数做出一定的评价,我们可以看出,当到时候,效用函数的重要性是一样的,当折扣因子减小的时候,这个自适应系统就可以在越短的时间内进行收敛,得到一个更加优化的结果,但是当折扣因子如果过大的时候,系统的幅度就很难进行控制,所以这个时候,我们应当尽量的提高学习率。学习率一般是在0到1之间的,学习率可以直接反映这个系统的学习速度,但是学习率如果太大的话,就可能会导致整个系统的震荡过于严重,但是学习律太低又使得它的收敛的速度太慢了,导致整个的训练时间太长,无法满足实际的要求,因此在符合实际要求的情况下,尽量增大学习率,这样就可以提升学习的速度,同时避免出现严重的震荡情况。
分布式输出反馈控制协议方法是通过强化学习,来对传统的动态规划进行优化,然后可以有效的解决离散系统和非线性系统中出现的问题,主要包括策略迭代和直接在两种形式,策略迭代主要是通过策略评价与改进的方法,对每一步的策略进行评估,来不断的寻找优化的策略,同时对其进行改良和优化,得到新的权值,生成新的优化函数进行计算,在这个过程当中,评估和改进是循环进行的,最后将会得到一个最优的控制策略。但是需要注意的是,在最好的运行模式下,相关的一些外部参数条件应当是稳定的,这是非常重要的,如果没有这个条件,就会导致整个策略评估,出现一些意外的情况。值迭代的算法主要是针对于一些方程式的计算,通过最优函数的寻找与控制计算,就能计算出最优的值,它不需要进行控制策略的稳定化,在我们的使用当中必须要注意,无论是迭代策略还是值迭代,都需要对于被控对象的相关特性,尤其是内部特性进行研究,这也是分布式输出反馈控制协议的核心特点。
策略迭代的算法可以根据每一步的执行情况,来对策略进行迭代性的优化,主要是通过每一步的代价函数来对于当前情况的优化情况进行分析,根据目前策略下系统的运行方式,来对于新的代价函数进行求解,进行不断的迭代,最终得到最优化的全局的结果。
3 总结
在每次处理更新中对于最优的控制函数进行重新的计算,通过求函数最小值的方法来尽量得到优化的控制方案。主要可以通过对于贝尔曼方程进行求导而得到最优解,同时每次迭代算法几乎都是一样的,需要通过对计算对象的内部动态特性来进行有效的控制与计算,这样才能使得最终的结果符合于实际的优化情况。
参考文献:
[1]王传锐.多智能体系统分布式跟踪控制问题研究[D].中国科学技术大学,2014.
[2]丁磊.不同数据触发机制下的多智能体系统一致性及H_∞滤波[D].大连海事大学,2014.
[3]金元日.不确定通信下多智能体系统的一致性[D].浙江大学,2013.
[4]刘学良.多智能体系统协调控制中的若干问题研究[D].华南理工大学,2012.