非线性多输入系统的近似动态规划H∞控制

2021-11-20 09:11吕永峰田建艳任雪梅
控制理论与应用 2021年10期
关键词:性能指标权值动态

吕永峰 ,田建艳 ,菅 垄 ,任雪梅

(1.太原理工大学电气与动力工程学院,山西太原 030024;2.北京理工大学自动化学院,北京 100081)

1 引言

近似动态规划方法(approximate dynamic programming,ADP)作为一种新型有效的最优控制求解方法,已经得到了广泛的研究[1–2].在强化学习(reinforcement learning,RL)算法的基础上,Werbos[3]首次提出近似动态规划方法用于求解离散时间系统的最优控制问题.近年来,这种方法得到进一步的发展,可以近似地求解连续系统的动态规划最优控制问题,为未知非线性系统实时在线的最优控制求解提供了一种有效的解决方案[4–6].但是现有基于近似动态规划的研究大多只用于求解无扰动系统的最优控制[7–10]或最优跟踪控制问题[11–15],也得到许多推广应用研究[16–17],比如制导[16],电网能源管理控制[18]等.

在实际工程中,系统通常会受到未知干扰,需要设计H∞控制器,它可以看作是一个两人零和博弈模型[19–21],这一问题在过去几年得到广泛的研究[22].学者们提出许多控制方案[19,23–24]通过获得预定性能指标的鞍点获得线性和非线性系统的H∞控制.一般来说,H∞控制器需要求解非线性系统的Hamilton–Jacobi–Isaacs(HJI)方程和线性系统的代数黎卡提方程[25].然而,由非线性系统导出的HJI方程是一个非线性偏微分方程,当系统较大时会出现“维数灾难”问题而难以求解[26].为了解决这一难题,学者们应用近似动态规划方法学习H∞控制[27].张等[28]、Abu Khalaf等[29]利用离线迭代强化学习算法得到H∞控制器;文献[19]提出在线同步强化学习算法解决这一问题.然而,这些方法要求系统动态完全已知,李等在文献[30]中使用积分强化学习算法学习动态未知线性系统HJI方程的解.文献[29]进一步提出高效的异步策略强化学习算法学习HJI方程的解.

但是上述H∞控制大部分只涉及单输入系统,并未考虑多输入系统.现有针对多输入系统的研究大部分仅仅基于非零和博弈求解最优控制,并未考虑系统外部干扰[4,31].少数涉及多输入系统或者多智能体H∞控制的研究成果[32–33],文献[32]求解多智能体的H∞控制,其中每个智能体涉及一个外部扰动;文献[33]虽然求解混合博弈下多输入系统的均衡解,却只考虑最后一个输入的抗干扰性能;文献[24]应用Q学习方法设计线性多输入系统的H∞控制,但未考虑非线性多输入系统.非线性多输入系统的抗干扰控制具有许多工程应用,比如多驱动负载系统,机械臂系统和许多其他的工控系统[24].因此针对多输入非线性系统的H∞控制研究具有重要意义.总之,先前研究成果大部分使用标准的执行–评价ADP结构,而且并未考虑多输入系统的H∞控制器设计.因此针对受外部干扰的多输入非线性系统,ADP方法的实现仍然会面对很大挑战.

针对以上所述现存关于多输入受干扰非线性系统的H∞控制问题,本文提出一种改进的在线ADP方法求解动态部分未知多输入非线性连续系统的H∞控制.在该方案中,避免了文献[8]中的执行神经网络,从而简化ADP框架.此外,还应用一种新的自适应律[28]在线更神经网络权重.引入评价神经网络在线学习HJI方程的解(即最优的性能指标函数),利用逼近的神经网络计算多输入系统H∞控制.最后,证明在所设计H∞控制作用下闭环系统的稳定性,并保证近似的H∞控制收敛到最优策略附近的紧集.仿真结果验证了所提方法的有效性.

2 多输入系统H∞控制问题描述

考虑以下带干扰的多输入非线性系统:

其中:x ∈Rn为系统状态,ui ∈Rmi(i=1,···,N)表示N个系统输入,d ∈Rq为系统有界未知的外部干扰.f(x)∈Rn系统非线性动态,gi(x)∈Rn×mi和k(x)∈Rn×q分别表示系统输入动态和干扰动态.假设f(0)=0,且f(x)+gi(x)ui(t)+k(x)d(t)在实数集Ω上Lipschitz连续且稳定.

本文结合二人零和微分博弈理论[18]求解多输入非线性系统的H∞控制,其中求解的控制ui(t)要最小化给定多输入系统的性能指标,求解的干扰d(t)为使性能指标最坏的情况下的外部干扰,即控制对()满足零和博弈下的鞍点平衡条件.在求解到最坏的干扰之后,多输入系统的H∞控制器ui(t)各参数已经调整到相应的值,在之后系统受到未知的外部干扰,能使性能指标的值更小,从而更加满足H∞性能指标条件.多输入非线性系统的H∞性能指标定义为

需要指出,本文所提方法适用于多输入系统具有一个H∞性能指标的情况.当多输入系统每个输入都具有一个H∞性能指标时,需要应用更加复杂的方法进行求解.

最优的性能指标函数表示为[34–35]

假设以上性能指标的鞍点存在,则系统(1)存在唯一的一组H∞控制[36].为了获得H∞控制器,哈密尔顿函数给定为

给出以下引理[34–35].

引理11)如果衰减因子γ >0,V(x):Rn →R光滑连续,则V *(x)≥0是HJI方程(8)的最优解.2)如果系统(1)状态可观,则所求得的最优H∞控制(t)和d*(t)满足性能指标函数(4),且()为在[L2,∞)上的鞍点,能使多输入非线性系统(1)稳定.

注1不同于一般的最优控制,H∞控制要求在鞍点存在的情况下得到性能指标函数的鞍点,在系统受到其他外部干扰时,能够使系统状态稳定且满足H∞性能指标,具有较强的抗干扰能力.为了避免直接求解HJI方程,本文使用神经网络逼近性能指标函数,避免了文献[27]中的执行结构,优化了近似动态规划方法.

3 多输入系统H∞控制设计

先前研究成果[37]应用执行–评价神经网络结构求解非线性系统的H∞控制对(u*,d*),d*表示使给定性能指标表现情况最坏的外部扰动,如伺服系统运行过程中使给定性能指标函数最大的外部力矩,飞行器飞行过程中的风力扰动和机械臂运行过程中的未知外部阻力等,其中神经网络权值使用最小二乘法或迭代自适应算法更新.本文提出一种新的自适应神经网络逼近最优性能指标函数,直接用于多输入系统H∞控制的求解,避免了在设计H∞控制器过程中使用执行神经网络结构.并利用基于估计误差的自适应律估计性能指标的神经网络权值,在线计算出多输入系统最优H∞控制().

3.1 近似动态规划神经网络设计

为了设计H∞控制式(6)和式(7),需要求解非线性的HJI方程(8)获得最优的值函数V *(x).因为非线性HJI方程(8)难以求解,所以使用神经网络逼近最优的性能指标函数V *(x).假设性能指标函数V *(x)在实数集Ω上光滑连续,则可用单层神经网络逼近为

其关于x的偏微分可以表示为

其中:W ∈Rl指逼近性能指标后的神经网络权重,φ(x)∈Rl×n是激活函数,εv为神经网络逼近误差,l指神经网络节点数.分别表示激活函数φ和逼近误差εv关于x的偏微分.为了进行稳定性分析,给出以下关于神经网络逼近方法的假设[38].

假设1理想的神经网络权重W,激活函数φ及其偏微分∇φ,逼近误差εv及其偏微分∇εv有界,即满足‖W‖≤WN,‖∇φ‖≤φM,‖∇εv‖≤φε.

在实际应用中选择激活函数φ(x)为独立基函数,使用假设1和万能逼近定理[39],应用式(9)–(10)能够逼近性能指标函数V *(x)及其偏微分,且当l →+∞时,如文献[8,38]所示逼近误差εv,∇εv→0.

则根据式(6)–(7)和式(11),可以得到近似的H∞控制(u1,···,uN,d)为

现有大多数H∞控制器只考虑单输入系统,并未考虑多输入系统和给出多输入系统具体的H∞控制器设计方法.虽然文献[24]设计了H∞控制器,但是只考虑了线性系统.本文应用近似动态规划方法解决多输入非线性系统的H∞控制器设计问题,为多输入受干扰系统的H∞控制设计提出一种新而有效的解决方案.

最后设计自适应律更新神经网络权值ˆW,使其收敛于真值W附近.由于逼近的神经网络要使HJI方程趋近于零,可根据HJI方程设计权值W的自适应律.则HJI方程可用神经网络结构(10)重新表述为

则HJI方程(14)可以简化为

由式(15)可知,应用简化的HJI方程将神经网络权重W表示成线性化的形式,因此可以用Θ和Ξ设计自适应律更新神经网络权值,首先设计滤波辅助矩阵P ∈Rl×l和Q ∈Rl为

其中:ℓ为滤波因子,P和Q分别为ΞΞ和ΞΘ的滤波矩阵.可以得到

设计另一个辅助矩阵M ∈Rl为

由式(15)和式(17)可得

且存在正实数ευ满足‖υ‖≤ευ.根据式(16)–(18)可得

其中Γ是学习增益.

为了进行收敛性分析,引入以下引理[15].

引理2如果式(20)中的回归向量Ξ持续激励,则矩阵式(16)中的滤波矩P正定,即存在σ >0满足λmin(P)>σ >0.

下面给出被估神经网络权值的收敛性证明.

定理1针对逼近性能指标的神经网络(11),应用自适应律(20),如果式(15)中的回归向量Ξ持续激励,那么神经网络权值估计误差收敛于零附近的紧集,收敛到其真值W附近.

注2文献[28]应用迭代方法解决了两人零和博弈的最优解,迭代值函数使其上界满足<ε,下界满足<ε,同时上下界满足<ε则停止迭代得出对应的H∞控制对.而本文直接用HJI方程的数据信息设计自适应律,更新性能指标神经网络权值使HJI方程趋近于零,得出最优的值函数用于求解多输入非线性系统的H∞控制.相比文献[28]中的迭代算法,简化了程序设计步骤.

3.2 稳定性分析

为了分析系统的稳定性,将H∞控制式(12)–(13)代入系统(1)可以得到

给出以下关于系统动态有界的假设[40–41].

假设2[40–41]非线性多输入系统(1)中各动态满足‖f(x)‖≤bf‖x‖,‖gi(x)‖≤bgi,‖k(x)‖≤bk,其中bf>0,bg>0,bk >0.

总结全文可以得出以下定理.

定理2针对多输入带干扰的非线性系统(1),使用H∞控制式(12)–(13),权值自适应律(20),如果回归向量φ和Ξ持续激励,则神经网络权值估计误差~W一致最终有界,式(12)中的H∞控制ui收敛到式(6)中的真值附近,式(13)中的最坏干扰d收敛到式(7)中的真值d*附近,即存在正实数ςui,ςd满足‖ui-≤ςui,‖d-d*‖≤ςd.

证考虑以下李雅普诺夫函数

最后可以得到最优H∞控制和近似值之间的误差为

其中:ςui >0,ςd>0是由神经网络逼近误差和权值估计误差导致的误差因子,当神经网络节点l →∞,误差因子将收敛到零,非线性多输入系统的近似H∞控制收敛到最优值. 证毕.

4 仿真验证

考虑以下非线性系统[36]

其中γ=8为衰减因子.

仿真中,设置系统初值为[4-4]T,应用性能指标函数的逼近神经网络(11),激活函数设置为φ(x)=,使用权值自适应律(20),自适应律中各参数设置为=0,Q=diag{[1 1]},R1=R2=1,ℓ=1,Γ=diag{[30 30 30]}.图1为神经网络权值ˆW的收敛效果,根据式(12)–(13),可得图2的H∞控制,图3为系统状态.可以看出,应用所设计的H∞控制能够使多输入系统性能指标收敛,且系统稳定.

图1 近似神经网络权重Fig.1 Approximate NN weights

图2 H∞控制u1,u2和最坏干扰dFig.2 H∞controls u1,u2 and d

图3 系统状态Fig.3 System states

为了验证本文所设计H∞控制器的有效性,在仿真时间为t=15 s时,加入一个常值d=0.1 s的外部干扰.H∞控制的变化结果和系统状态如图4所示;另外在t=15 s时加入另一个有界时变扰动d=0.1 sint,H∞控制的运行结果和系统状态如图5所示.

图4 d=0.1下的H∞控制和系统状态Fig.4 H∞controls and system states with d=0.1

图5 d=0.1 sin t下的H∞控制和系统状态Fig.5 H∞controls and system states with d=0.1 sin t

可以看出,在多输入系统H∞控制求解出来以后,系统再收到其他外部常值或者有界时变干扰,能够以更加满足H∞性能指标的形式稳定运行.

5 结论

针对多输入带干扰的非线性系统,提出应用近似动态规划方法解决其H∞控制.首先给出多输入系统H∞控制问题的描述,定义纳什均衡解.由于非线性的HJI方程难以求解,应用神经网络逼近最优解,引进一种新的自适应律更新神经网络权值,直接用于H∞控制器的设计.对权值的收敛性和在所设计H∞控制作用下的系统稳定性进行分析和证明.最后用一个非线性多输入仿例证明所提出方法的正确性和有效性.未来工作笔者会将这种H∞控制方法应用于非晶薄带的制造过程.

猜你喜欢
性能指标权值动态
国内动态
一种融合时间权值和用户行为序列的电影推荐模型
国内动态
国内动态
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
动态
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
自动控制系统的优劣评价分析
基于Ganglia和Nagios的云计算平台智能监控系统