具有噪声干扰的非线性时变系统多维泰勒网辨识和控制

2020-03-27 11:21孙启鸣

控制理论与应用 2020年1期

张超 ,孙启鸣

(1.河南工学院电气工程与自动化学院,河南新乡 453003;2.南京林业大学信息科学技术学院,江苏南京 210037)

1 引言

非线性控制领域的发展涉及3个主要问题[1]:需要处理越来越复杂的系统,涉及被控对象的噪声、时变和不确定非线性等特性;需要在缺少被控对象及其环境精确先验知识的情况下达到控制要求;需要满足日益增长的高实时性应用要求.尽管在非线性系统控制领域取得了一些成果,但它们并没有综合考虑系统的不确定性、时变特性以及测量噪声.同时,所采用的控制算法和结构应足够简单且易于实现.设计的控制方案应具有非线性、鲁棒性、灵活性和学习能力.此外,如果不做处理,对象噪声和随机干扰就会不受抑制地出现在前馈控制器的输入端,这将大大降低自适应过程的稳定性以及严重影响控制精度.因此,如何在确保实时性能的前提下将随机因素、时变特性和不确定非线性的影响一同最小化是具有重要意义的.

随着未知参数增加带来的复杂度激增、初始状态不稳定、未考虑测量噪声等随机因素以及一般不适合高实时性应用场合,这些自适应控制方法的不足[2-4]迫使工程师寻求其他解决方案.同时,随着解决被控对象不确定性和复杂性的智能控制技术的迅速发展,神经网络计算架构的大规模并行计算、自然容错性和隐式编程规则,都表明其可能是实现实时自适应控制器的选择之一[5].在过去的20年里,一些神经网络模型和神经网络训练方案被应用于系统控制器的设计.然而,神经网络仍然存在学习速度慢、泛化能力弱和鲁棒性不强等缺点[6].此外,在解决噪声和干扰问题时,通常采用固定的低通滤波器来消除系统测量和其他部分的高频干扰,由于滤波器参数在整个消噪过程中保持不变[7],噪声消除算法不适应系统的时间变化,容易出现过调.可见,具有噪声干扰的不确定非线性时变系统控制问题需更好地解决和处理.

多维泰勒网(multi-dimensional Taylor network,MTN)及其最优控制思想是由东南大学严洪森教授于2010年提出的[8],如图1所示.该模型可以很好地代替传统神经网络进行动态系统建模和控制,其本质上是多项式型的非线性自回归滑动平均模型,借助于抽头延迟映射来表示动态系统.目前一些学者正对该模型在模型预测[9]、系统辨识[10]、灾害预测[11]、电机控制[12]以及非线性控制[13-15]等领域的应用进行研究,但并未考虑不确定性、时变特性及测量噪声等综合因素.MTN具有结构简单、运算速度快的优点.同时,研究发现PID控制器是MTN控制器的特殊形式,其参数可作为后者的初始参数,详细说明见第4节.

文献[16]强调不应该把所有问题都孤注一掷地寄托在“反馈”环节上.在大多数情况下,一个最佳的控制结构应该是每次只给反馈部分较小的改变.基于此考虑,本文研究工作在以下方面展开:1)对于系统辨识,辨识器所需参数越少越好,因为参数越多,对模型的随机影响越大.并且由于实时性是控制系统应用的关键,MTN辨识器(multi-dimensional Taylor network identifier,MTNI)需要在相对较少的节点数下收敛.为此,采用改进的灵敏度计算方法[17]来剪除网络冗余输入项和冗余中间层回归项;2)由于被控对象一般都是未知的,控制器训练所需的动力学特性信息通常是不可取的.许多应用中只是简单地使用对象响应符号变化.由于已可通过MTNI得到被控对象精确的模型更新信息,故MTN控制器(multi-dimensional Taylor network identifier controller,MTNC)的权值调整相对于无法得到动力学特性的情况就变得更加平滑;3)引入MTN滤波器(multi-dimensional Taylor network identifier filter,MTNF)并利用自适应噪声消除[18]来消除控制干扰和测量噪声,以获得期望的控制精度和稳定性.更加重要的是,基于MTN控制方案的收敛性需严格证明.对于MTNI和MTNC,过高的学习率会导致系统不稳定,而较低的学习率又可能会减慢学习过程.因此,本文采用稳定的自适应学习率来保证收敛性,即根据Lyapunov稳定性理论寻找学习率边界,进而获得最优学习率.此外,为了确保MTNF的稳定性,推导出滤波器步长的约束条件.

综上所述,3个多维泰勒网模型分别用来构造MTNI,MTNC和MTNF.首先,基于被控对象的开环输入输出数据,离线设计并训练MTNI和MTNC.当训练完成时,其初始权值和网络结构可同时确定.然后,通过MTNI实现不确定非线性时变系统辨识,提供模型信息在线更新MTNC.而后,设计用于消除随机干扰的MTNF以实现精确控制,其权值通过改进的归一化最小均方算法(least mean square,LMS)算法进行调整.最终,将自适应控制方案应用于具有噪声干扰的不确定非线性时变系统,整体MTN控制方案具有学习和适应能力.

2 问题描述

考虑不确定非线性时变离散系统,可用输入输出差分方程表示为

其中:f(·)为非线性标量函数;y(k)∈R为系统输出;u(k)∈R为系统输入;k=1,2,···;dy和du为相应的最大延迟.

如果被控对象所处的环境存在噪声干扰,也就是被控对象受到噪声的作用,或者说被控对象受到噪声的污染,那么在式(1)中应加入相应的项,可得到

其中噪声干扰为不能用时间函数明确表示的一种随机过程.根据其来源[19],可分为如下几类:1)声音噪声;2)热噪声和散粒噪声;3)电磁噪声;4)静电噪声;5)信道失真、回波和衰落等. v(k)为噪声,可以是模型噪声,也可以是测量噪声.为了更好地模拟未知的真实噪音,v(k)取高斯白噪声.具有噪声干扰的非线性时变系统就是其扰动可用随机过程表示的受控动力学时变系统,为描述方便,具有噪声干扰的非线性时变系统简称成含噪声非线性时变系统.因此,式(2)被称为含噪声非线性时变系统.

3 多维泰勒网

本文提出了一种通用的多维泰勒网模型,如图1所示.根据多元泰勒公式的原理,如果某函数在某点邻域处m+1阶可导,则该函数在该点展开式为变量幂级数不大于m次的形式.因此,基于多维泰勒网模型,可将n维系统的一般动力学方程表示为

其中:f(·)表示用MTN模型描述的非线性函数,其基本思想是用简单函数逼近复杂函数;wt是第t个变量乘积项之前的权值;N(n,m)是该展开式的总项数;λt,i是第t个变量乘积项中变量xi的幂次,且≥m,即f是由其各变量的幂次之和小于等于m的变量乘积项加权之和组成的.

正如所见,多维泰勒网采用前向单中间层结构,包括输入层、中间层和输出层.只要N(n,m)足够大,它就能够以足够的精度逼近任意模型[11,20].尽管式(3)是系统输入输出的非线性函数,但模型参数是线性关系的.通过抽头延迟将系统的动力学特性引入到网络输入端,可形成动态的网络化控制器.

4 自适应MTN辨识

4.1 自适应辨识算法

本部分利用网络学习策略,通过改进的梯度下降学习算法实现MTN辨识器权值快速更新.

目标函数为

其中:eI(k)=ye(k)−yI(k),ye(k)和yI(k)分别表示系统输出和MTN模型输出,可调参数wI代表MTN模型权值.将相对于可调参数wI的目标函数最小化:

更新方程为

其中ηI为MTNI的学习率.

为追求更快的收敛速度,满足时变系统建模要求,解决采用步长固定的梯度下降法时收敛速度慢的缺陷,引入增量梯度法[21]用于系统辨识,在每步学习时都寻求最优步长.

由于

其中u(k)为MTN辨识器输入向量.

从而

权值修正后的yI(k+1)可展开为一阶泰勒级数

将式(8)(∆wI(k)的修正公式)代入式(10),有

最优步长为

4.2 灵敏度计算方法

精简的MTNI和MTNC将大大减少迭代学习时间并简化网络结构,这有助于工程实践和硬件实现.对于任意复杂的非线性函数,10个左右的中间层分量足以,因此在离线阶段的网络规模简化十分必要[10].

灵敏度计算方法是一种获取最佳泛化能力和最小结构的剪枝算法.在网络训练时,计算节点(输入变量和中间节点)对网络误差的贡献(灵敏度),删除那些贡献最小的节点和权值.该方法不仅可以剪除冗余的中间节点,还可以计算每个输入的灵敏度估计(也能剪除不重要的输入变量).文献[22]提出以下测度:

其中E为网络对训练样本集的误差.

式(13)是一种直接的相关性测度.但是,当删除某个输入/中间节点时,需对整个网络重新训练,这要很大的计算量.因此,应设计快速计算ρi的方法.基于此考虑,本部分对每个输入变量或中间节点都引入一个系数αi,αi表示对第i个节点的输出进行惩罚,即节点的重视程度为

其中:oi表示第i个中间节点的输出,oj表示第j个输出节点的输出,wji表示第i个中间节点到第j个输出节点的连接权值.

如果αi=0,节点i对网络的其余部分没有影响,相当于删除了该中间节点;如果αi=1,节点i就是一个传统的节点.于是式(13)可改写为

利用误差目标函数对αi的导数信息来逼近ρi:

对式(16)做工程近似,即当γ=0时依然成立,则

于是便可得ρi的逼近表达式

步骤1使用一阶惯性滤波,即

步骤2使用归一化灵敏度计算方法.令当前时刻同一层(输入层或中间层)内各节点灵敏度的绝对和为S(k)=,则归一化灵敏度为

归一化后,各节点灵敏度值将介于−1 ∼1.

步骤3采用稳态时的灵敏度值.在一段时间内某节点归一化灵敏度的均值和标准差为

注1αi并不是MTN的参数,只是为方便表示而引入.由于计算ρi时αi=1,因此αi和ρi的计算并不会影响网络权值调整.

5 自适应MTN控制

如图2所示,随着调节MTNI参数wI使得辨识模型输出yI(k)准确描述对象输出ye(k),自适应控制的目标函数JC为调节MTNC参数wC以使系统输出ye(k)实时跟踪期望轨迹yd(k).由此,MTNI向MTNC提供模型更新信息,使其“光滑”自适应.

5.1 初始化控制器

为了保证初始状态下自适应控制系统稳定,离线MTNC设计(离线逆建模)是在线MTNC重要且必不可少的阶段.离线实验需要大量的训练样本,以确保自适应MTNC能覆盖整个工作范围.

离线MTNC设计采用直接逆方法[23],如图3所示,即利用对象的输入输出数据直接建立对象的逆模型.具体来说,该方法将对象的输出作为MTN的输入,使得MTN的输出逼近对象的输入.它的原理很简单,但其训练不是以目标为导向的,所以这种结构只能用于离线训练.

注2因离线阶段无实时性的要求,为了理想的实时性能,在训练阶段引入灵敏度计算方法以确保MTNC具有最佳泛化能力和最小网络结构.

图2 基于MTN的控制系统结构图Fig.2 Block diagram of MTN based control system

图3 离线逆建模结构图Fig.3 Schema of off-line inverse modeling

权值可通过最小化以下瞬时目标函数来训练:

其中m(k)为第k时刻的建模信号.

在MTNC离线学习过程,wC的调整式为

其中∆wC-off=−可通过梯度下降法获得,利用由式(18)-(21)表示的灵敏度计算方法来剪除冗余的输入和权值.训练结束后,可得精简的MTNC网络及初始权值.

5.2 控制器设计

众所周知,典型的离散PID控制器可表示为

由于式(24)采用全量输出,所以每次输出均与过去的状态有关,计算时要对e(k)进行累加,控制量u(k)对应的是执行机构的实际位置偏差,如果位置传感器出现故障,u(k)可能会出现大幅度变化,进而引起执行结构位置的剧烈变化.为避免这种情况,式(24)可转化成增量式的形式:

由图1得,MTN可作为前馈控制器.当n=3,m=1,且MTNC的输入为

那么,MTNC的输出可表示为

对比式(25)-(26),PID控制器恰为输入为3、幂次为1的MTN控制器的一种特殊形式.在工业应用中,如果选择的参数(kP,kI和kD)是最优的,那么就可得到满意的跟踪性能.然而,当系统具有强非线性、随机因素和时变特性时,选择这些参数是困难的.针对此问题,本文通过在线学习MTN控制器来更新其与PID控制器参数对应的权值.

5.3 自适应控制算法

自适应MTNC的权值沿给定误差函数的负梯度方向进行更新.

通常,M=1且权值修正与负梯度成正比,即

利用梯度下降学习算法,获得权值自适应律

由MTNI和MTNC的输入输出关系,可得

可进一步推导出以下递归形式:

其中:ds表示MTNI和MTNC的第s个输入延迟;xi和xt分别表示MTNI的输入和中间层输出;UI和YI分别表示MTNI输入变量u和ye的集合;qi和qt分别表示MTNC的输入和中间层输出;UC表示MTNC控制变量u的集合.

此外,针对被控对象的时变特性,需对在线学习算法进行深入的研究.当采用固定步长的梯度下降法时,可能会出现:收敛速度慢和易陷入局部极小值.因此,本部分通过设计线性再励的自适应变步长算法来改善这些缺陷.线性再励的自适应变步长算法的基本思想是利用强化学习的理论[24],寻求自适应变步长算法,实现步长的自动选择,加快算法的收敛速度,减少迭代次数.该算法的实现步骤如下:1)如果连续两次迭代,使得梯度方向∆EC的符号相反,意味着下降过头,步长太大,应减少步长;2)如果连续两次迭代,梯度方向∆EC的符号相同,意味着下降慢了,还没有到达极小点,应增加步长.该算法可表示为

其中ξ为常数,其范围是0.001∼0.003.本质上讲,该算法是利用并记忆梯度方向∆EC的符号变化信息,方向相反时对其罚,方向相同时对其奖.

6 自适应MTN滤波

在噪声相关信息未知时,自适应滤波器可利用有用信号之间的相关性以及噪声信号之间的不相关性来达到噪声消除的目的,其基本原理如图4所示.这是因为噪声在每个采样点都是不相关的,自适应MTN滤波器不能对白噪声进行估计,所以MTNF的输出ye是对有用信号最好的估计.

图4 参考噪声未知的自适应噪声消除Fig.4 Adaptive noise cancellation with unknown reference noise

非线性自适应MTNF可表示为

推导LMS算法的标准方法是利用瞬时平方误差作为均方误差(mean square error,MSE)的估计值.

采用LMS算法使目标函数最小化,即

如果提高LMS算法的收敛速度而不利用输入信号相关矩阵的估计值,采用可变收敛因子就成为合适的选择方案.

其中µ(k)的选取必须实现更快收敛的目标.

此外,在更新方程中为了控制失调量,需要引入一个固定收敛因子µ0,这是因为所有推导过程都是基于瞬时平方误差而不是MSE得到的.同时,为了避免当(k)yv(k)很小时出现很大的步长,还应该增加一个参数φ.最后,式(38)可改写为

式(39)表示的算法称为改进的归一化LMS算法.

7 稳定性与收敛性分析

离散Lyapunov函数可表示为

于是,训练过程中Lyapunov函数的变化可由下式计算:

训练的误差差值为

其中∆w表示任意权值向量的变化.

1)MTNI的稳定性分析.

由式(6)和式(12)的更新规则,可得

其中wI和ηI分别表示MTNI的权值和对应学习率.

定理1令MTNI权值的学习率为ηI,定义

其中αI(k)=且‖·‖为常规欧几里得范数.如果ηI的边界条件由式(44)确定,则由式(3)及更新规则(6)和(12)所组成的关于系统(2)的辨识方案是稳定的.

证由式(40)-(42),可得

因为在所有时刻k都有V(k)>0,只要满足式(44),学习算法收敛性∆V(k)<0可以保证,即ηI(2−ηI0)>0 或>0.这意味着对于任何ηI0,0<ηI0<1都能保证收敛.进而,保证最快收敛的最大学习率为ηI0=1,即,这对应于式(44)的上界,这表明任何大于的学习率并不能保证更快的收敛速度.

2)MTNC的稳定性分析.

根据式(28)和式(33)的更新规则,则

定理2令MTNC权值的学习率为ηC,定义

其中αC(k)=且ξmax=maxk‖yu(k)‖.如果ηC的边界条件由式(49)确定,则由系统(2)、控制律(26)及更新规则(28)和(33)所构成的闭环控制系统是稳定的.

证由式(40)-(42),可得

比较式(46)和式(51)表明,除了需要在MTNC中加入灵敏度yu(k),这两个条件是相似的.由式(29)可得

其中ξmax是灵敏度函数的上限,由式(32)和估计.

由MTNI的情况可见,式(49)可以保证MTNC学习算法的收敛性.同时,最优学习率为

显见,定理1与定理2描述的稳定性为大范围渐近稳定.由式(44)和式(49),选取适当的学习率可获得训练过程中快速收敛和稳定收敛之间的平衡.

3)MTNF的收敛性分析.

除非严格的条件限制滤波器步长µ,否则由式(39)表示的MTN 滤波器更新方程并不能确保稳定收敛.

定理3令MTNF权值的学习率为µ.如果µ的边界条件由式(53)确定,则滤波器收敛可以保证.

证关于MTNF,对式(35)进行关于wF(k)求导,则可得

将式(54)代入到式(39)中,可得

其中IN是N ×N单位矩阵.则基于NLMS算法的MTNF更新方程可改写为

根据文献[26],可得wopt,F(k)=R−1P,其中

其中Ryvyv=由于可被看作一个正交映射操作到由yv(k)衍生的线性空间上,因此,矩阵IN−µ·的特征为

从而,均方收敛的必要条件是|1−µ|<1,即0<µ<2.

8 仿真算例

本节通过对由式(60)表示的含噪声非线性时变系统的仿真实验,来验证所提方法的有效性.

其中v(k)为均值为0、标准差为0.05的高斯白噪声.

1)基于MTN的系统辨识.

在实际工程应用中,通常并不知道模型的阶次,因此不仅要确定MTN的中间节点规模,还要同时完成非线性系统的定阶,即选择合适的模型输入,这在模型辨识领域也是极为重要的问题.

对于式(61)的非线性系统辨识问题,假定预先不知道模型阶次,因而选择u(k−1),y(k−1),u(k−2),y(k−2),u(k−3)和y(k−3)作为模型输入并且m=3,于是得到初始结构为6-84-1的MTN.显见,这是一个庞大的网络,因此必须精简网络规模,以满足期望的实时性要求.

训练和测试样本:输入信号u(k)取[−1,1]内均匀分布的随机值;设定输出信号初始值yv(0)=0,按式(60)生成300个样本,前200个样本用于学习,后100个样本用于测试.

MTNI学习参数设置如下:初始权值为[−0.1,0.1]内均匀分布的随机值,最大训练次数为10000,初始学习率为0.0005,当训练误差小于4.5时开始剪枝,L=50,判断中间节点和输入变量的剪枝条件分别为β1=0.02和β2=0.005.说明:由于MTN 为自回归网络,其输入变量比中间节点敏感的多,故需设定β1>>β2.

图5为一次剪枝过程中去除冗余中间节点的学习曲线,图6为各输入单元的输入灵敏度变化曲线.通过式(6)(12)以及式(18)-(21)的充分训练,可获得结构为4-10-1的精简MTN.网络的训练误差为1.5534,测试误差2.6013.

由图5可见,当使用灵敏度计算方法精简MTN网络(剪除冗余输入变量和中间节点)时训练误差不会发生较大波动.

图6记录了学习过程中6个输入变量的灵敏度变化情况.可见在训练误差较大或删除冗余中间节点时,各输入变量灵敏度波动很大;随着网络权值和训练误差逐渐稳定,各输入变量灵敏度也逐渐平缓.剪枝结束后,只留下4个输入变量(u(k−1),y(k−1),u(k−2)和y(k−2)),其中2 个重要输入u(k−1)和y(k−1)的灵敏度值变得较大.测试误差验证了该方法的有效性.

图5 剪除中间节点的学习曲线(MSE)Fig.5 Learning curve of removing redundant middle nodes

图6 各输入变量的灵敏度变化曲线Fig.6 Sensitivity change curve of each input nodes

2)基于MTN控制系统性能.

在系统辨识完成后,由式(28)(30)(32)-(33)和式(39),利用自适应MTN来实现含噪声不确定非线性时变系统控制.

MTNC参数设置如下:输入层变量数、中间层节点数和输出层节点数分为4,8(通过式(18)-(21)和式(22)-(23)学习后确定)和1.初始学习因子为0.05.

图7给出了自适应MTN控制跟踪阶跃信号的跟踪性能和误差,并与RBF-PID控制方法[28]进行性能比较.图8比较了两种控制方法跟踪正弦信号的响应和误差.

图7 两种控制方法跟踪阶跃信号响应和误差比较Fig.7 Comparison of step signal tracking by different control methods

图8 两种控制方法跟踪正弦信号响应和误差比较Fig.8 Comparison of sinusoidal signal tracking by different control methods

显见,基于MTN的自适应控制是快速且稳定的,与RBF-PID方法相比对跟踪信号变化有更强的适应性,而且在稳态运行时几乎无静态误差,它可实现复杂被控对象精确控制.

图9比较了含噪声的原始反馈信号和自适应MTN滤波器输出,结果表明MTNF在基于MTN的自适应控制方案中起着重要作用,其中MTNF权值由NLMS算法训练,µ0=0.005.

图9 含噪声的原始反馈信号和MTN滤波器输出比较Fig.9 Comparison between original feedback signal with noise and adaptive MTNF output

9 结论

本文提出了一种自适应MTN控制方案,其中3个MTN分别被用来实现系统辨识、自适应控制和非线性滤波.MTN模型不仅具有动态映射能力,还比传统神经网络需更少权系数,泛化能力更强.在控制方案中,MTN滤波器用于消除测量噪声等随机干扰,MTN辨识器提供被控对象动态特性的实时信息给MTN控制器使其“光滑”自适应控制.结果表明,基于MTN的综合控制方案可显著提高具有噪声干扰的不确定非线性时变系统控制性能.