唐志国,张富尧,马 彦
(1.吉林大学通信工程学院,吉林长春 130022;2.吉林大学机械与航天工程学院,吉林长春 130022)
随着现代战争信息化的快速发展,战术打击速度不断提升,战争进程急剧缩短,因此现代战争除了对导弹自身参数提出严格要求外,对导弹的补给,即装填速度同样也提出了更高的要求[1].然而对于质量大、体积大的常规导弹,以往通常是采用人工指挥吊车的方法完成导弹装载工作,会产生准确性低、实时性差、费效比低等问题,不利于现代化战争的进程[2–3].为了适应国防现代化发展的需要,将机械臂安装在汽车类移动平台上,实现了通过一个机械臂系统一次性完成吊装导弹与运输转载两种任务的目的.该类机械臂系统因其具有功能多、效率高、平稳性强、快速性好及作用范围大等优点,受到越来越多国内外学者的密切关注[4–8].
考虑到大型移动机械臂是一个高度非线性、强耦合的时变系统,而为了确保装载的平稳性和精确性,装载机械臂的移动平台通常情况下会呈现出质量大、动力学响应速度慢的特性,这些均增加了系统建模与控制的难度.文献[9–11]在微分同胚和非线性输入变换基础上,将移动机械臂的动力学模型降阶分解为4个低维子系统.在不加装关节力/力矩传感器的情况下,分别采用滑模和二阶滑模控制算法设计了鲁棒跟踪控制器.虽然采用滑模控制可以克服系统的不确定性、提高系统的抗干扰性,但输出力矩可能会产生抖振.文献[12]利用模糊控制来改善滑模趋近律,有效抑制了控制力矩的抖振.文献[13]对已经整合了四轮移动平台和三自由度机械臂的系统分别设计出了滑模和非奇异端滑模控制器.此外,文献[14]在对移动机械臂的动力模型简化处理后,在参考坐标系下,研究了包含电机驱动动力学的滑模控制问题.为确保系统在不确定性和外部扰动的作用下仍能正常工作,文献[15]研究了非完整约束轮式移动机械臂滑模轨迹跟踪控制问题,利用反步法保证了速度跟踪性能.基于串级控制思想,设计了考虑控制饱和的最小范数运动学控制器及动力学补偿器.
当大型移动机械臂系统受到模型参数不确定性、未建模动态及外界干扰等多种不确定性因素的影响时,特别是当系统不确定性难以测量,且上界未知的情况下,传统的滑模控制方法难以应对.自适应动态规划(adaptive dynamic programming,ADP)是一种综合了动态规划、神经网络和强化学习的近似智能控制方法,可以有效处理动态规划中的“维数灾”难题,对复杂非线性系统的控制具有重要意义[16].近年来该算法已在高超声速飞行器[17]、轮式机器人控制[18]、导弹制导律[19]、随机系统[20]等领域得到大量应用,逐渐成为利用最优性原理控制高度非线性、强耦合时变系统的一种非常有用的工具.
因此,本文针对移动装弹机械臂系统,基于自适应动态规划方法,提出了仅包含评价网络结构的轨迹跟踪控制方法,在保证轨迹跟踪误差最终一致有界的前提下,有效提高了系统的实时性.首先,建立了移动装弹机械臂的动力学模型,并定义了总体不确定性函数.然后,利用单网络评价结构策略迭代计算的自适应动态规划算法,求解哈密顿–雅可比–贝尔曼(Hamilton–Jacob–Behrman,HJB)方程,完成近似最优控制方法设计.最后,仿真实验验证了本文所设计控制方法的有效性.
移动装弹机械臂由连杆、套筒、3个伸缩关节、3个旋转关节和两个回转关节组成,共计8个自由度,且其驱动力由液压系统提供,与传统机械臂相比更为复杂.移动装弹机械臂示意图如图1所示.
图1 移动装弹机械臂示意图Fig.1 Schematic diagram of mobile missile-loading manipulator
机械臂的基座定义为自由度1,调整末端姿态的关节定义为自由度8,二者皆为回转关节,可以通过控制回转的角度,调节机械臂抓取导弹的空间位置指向;机械臂的两个旋转关节分别定义为自由度2和3;机械臂的伸缩关节具有三段式同步伸缩功能,定义为自由度4,5和6,该结构可以让机械臂末端达到更远的位置;此外,机械臂还有一个腕关节,定义为自由度7,该关节的作用是在导弹质量过重的情况下减小末端重物产生的附加力矩,从而保证负载的方向始终垂直向下.
移动装弹机械臂各关节坐标系建立情况如图2所示.规定连杆i的轴线方向为Zi轴,Xi轴在垂直于Zi轴的方向上,Yi轴是XiOZi平面的法线方向且满足右手法则,规定逆时针为正.定义参考坐标系{0},且其固定于移动装弹机械臂的基座上,当回转关节θ1为0时,坐标系{0}与坐标系{1}重合,且Z0轴与连杆1轴线重合.
图2 各关节坐标系示意图Fig.2 Schematic diagram of each joint coordinate system
拉格朗日方程是基于功–能平衡法构建系统动力学模型.首先,分别求取机械臂系统各连杆的动能和势能,以连杆2和连杆4为例.
连杆2上任一点在参考坐标系下表示为
伸缩杆可视为连杆4,其上面任一点在参考坐标系下表示为
由于伸缩关节坐标建立在伸缩杆末端,在计算该部分的动能和势能时需考虑该关节及下一关节的动能和势能.设三个伸缩杆中每段的最大伸缩长度均为ΔD,当伸缩杆全部缩回时的长度为固定在连杆3中的长度D.由于伸缩部分采用套筒式同步结构,且为等速伸缩,即当一个伸缩杆伸出Δx,则三段伸缩杆总伸缩长度为d3Δx;根据多级伸缩结构可知,伸缩部分整体伸出长度为D+如图3所示.
图3 伸缩连杆示意图Fig.3 Schematic diagram of telescopic connecting rod
伸缩杆部分的动能和势能分别为
伸缩杆后模拟手腕功能的连杆用连杆7描述,矩形刚体夹具用连杆8描述,以及连杆1和连杆3,它们动能与势能的计算步骤、计算方法与连杆2类似.将所求的所有动能与势能代入到拉格朗日方程
其中:LT −V;T为系统总动能;V为系统总势能;q为广义坐标;Q为广义力;n为连杆个数.
推导、整理可得系统动力学方程为
其中:M(q)为惯性矩阵;C为离心力与哥氏力项;G(q)为重力项;u[u1u2u3u4u7u8]T为广义力,即机械臂的控制力矩,由液压驱动系统提供;q[θ1θ2θ3d θ7θ8]T为广义坐标,包含回转角度、旋转角度及伸缩长度.
动力学方程中具体变量含义为:J1和J2分别为连杆1和关节2的转动惯量;ρ1为连杆1的面密度;A1为连杆1的微元面积;ρ2,ρ3,ρ7和ρ8分别为连杆2、连杆3、连杆7和矩形刚体夹具的线密度;m2,m3和m8分别为关节2、关节3和末端回转关节的质量;M4为伸缩杆的总质量;l1,l2,l3,l7和l8分别为连杆1、连杆2、连杆3、连杆7和矩形刚体夹具的长度;θ1和θ8为回转关节的回转角度;θ2,θ3和θ7为旋转关节的旋转角度;d为伸缩关节的伸缩长度;g为重力加速度.此外,si及cijk等均为正弦和余弦的简写形式,如:c237cos(θ2+θ3+θ7),s3sinθ3等.
移动装弹机械臂的动力学方程是一个非线性、强耦合、时变的复杂系统,考虑到实际系统中会存在参数不确定性和外部干扰等影响,将系统动力学方程整理为
其中:ψ表示机械臂系统的总体不确定性;ΔM(q),ΔC(q,˙q)和ΔG(q)为系统参数中的不确定性;d∗为外部干扰项;和为系统模型的标称参数.下文中会将简写成其他类似.
假设1不确定性ψ具有未知上界ψ∗,即有
在经典的ADP控制结构中,既包含了执行网络,又包含了评价网络,最优反馈控制律将由二者共同求得.而本文将执行网络舍弃,仅保留评价网络,构成单网络评价结构ADP控制,其最优反馈控制仅依赖于评价网络输出的最优性能指标函数的梯度,通过在线迭代求得[21–22].不但简化了训练过程,而且消除了两网络间的近似误差.移动装弹机械臂轨迹控制系统结构框图如图4所示,具体设计如下.
图4 移动装弹机械臂系统控制结构框图Fig.4 Block diagram of mobile missile-loading manipulator control system
假设2期望关节角度、角速度及角加速度皆具有上界,显然,f(x)和g(x)亦有界.
令xd表示系统的期望轨迹,x表示系统的实际轨迹,则系统的轨迹跟踪误差为
定义性能指标如下:
其中N(e(τ),u(e(τ)))eTQe+uTRu为效应函数.有N(0,0)0,对所有的e和u均有N(e,u)>0成立.且Q ∈Rn×n,R ∈Rm×m为正定矩阵.
令ud表示期望控制律,则
因此
系统控制律u包含期望控制律ud和最优控制律uv两部分,即
因此
最优控制律uv可以保证系统的轨迹跟踪误差以最优方式收敛于系统的稳定状态.
式(14)可改写为
其中:N(e,uv)eTQe+为效应函数,且N(0,0)0,对所有的e和uv都有N(e,uv)>0成立.Φ(Ω)为一组容许控制序列.
定理1针对移动装弹机械臂控制系统(18),对∀e ∈Ω,若存在一组容许控制u(e)∈Φ(Ω),且在Ω上连续,并满足u(e)0,则u(e)即可保证机械臂系统在紧集Ω ∈Rn上收敛,且性能指标函数Ω ∈Rn有限.
若性能指标(19)连续可微,则其无穷小的形式可表示为
其中:J(0)0,N(0,0)0,∇J(e)为J(e)的关于e的偏导数,即∇J(e)
定义哈密顿函数及最优性能指标分别为
显然,J∗(e)满足
若J∗(e)存在,且连续可微,则可以通过单网络评价结构策略迭代算法,循环迭代求解出最优反馈控制律为
综合式(21)和式(24),有
单网络评价结构策略迭代流程如图5所示,在算法中,使用式(21)进行控制策略评价,基于评价结果利用式(25)求取最优反馈控制律,提升系统调节效果,性能指标函数J(e)采用神经网络近似,有
图5 单网络评价结构策略迭代算法流程图Fig.5 Flowchart of critic-only policy iteration algorithm
其中:wτ ∈Rl为理想神经网络的权值;l为隐含层神经元个数;στ(e)为神经网络激活函数;ετ为评价网络的近似误差.则J(e)的梯度可表示成
将式(28)代入式(21),可得哈密顿函数为
其中ePH为逼近神经网络的残余误差.
近似的哈密顿函数为
神经网络训练过程需要最小化的性能准则[21]为
权值则采用梯度下降法来更新,有
其中ηατ >0为评价网络的学习率.
由于
所以有
因此,权值估计误差更新率为
故,理想最优反馈控制律及相应迭代控制律分别为
假设3期望控制律ud与η均有未知上界,即
定理2在假设1–3的条件下,若基于神经网络的方程的解存在,考虑移动装弹机械臂系统状态空间模型(12)与评价网络权值更新率(37),若系统轨迹跟踪最优控制律选为
即可保证权值近似误差与系统轨迹跟踪误差均为最终一致有界.
证定义Lyapunov函数为
对时间求导,得
因为f(x)是Lipschitz函数,则一定存在Lf>0,使得不等式‖fe‖≤Lf‖e‖成立,根据假设1,可知g(x)及g(xd)均有界,不妨设
进而得
利用三角不等式,有
之外,且需满足
条件时,有
由此可见,根据Lyapunov稳定性定理,神经网络权值近似误差与移动装弹机械臂系统轨迹跟踪误差均最终一致有界. 证毕.
为验证系统建模的准确性及所设计控制方法的有效性,以军事工程中某型号移动装弹机械臂系统为研究对象,利用MATLAB仿真平台进行控制效果验证.机械臂系统参数如表1所示,关节角期望轨迹如表2所示.
表1 移动装弹机械臂系统参数Table 1 Parameters of mobile missile-loading manipu-_lator system
表2 关节角期望轨迹Table 2 Desired trajectories of joints
在自适应动态规划控制方法中,评价网络采用12–10–1结构的神经网络,其权重初值选为[30 30 20 45 20 40 30 45 50 40]T,激活函数选为S型函数,其余参数分别为:Qi5I4,Ri2I2,αi0.001,这里I4和I2分别为4阶和2阶的单位对角矩阵.
对比的自适应滑模控制(adaptive sliding mode control,ASMC)方法为
为解决抖振问题,用饱和函数sats代替式(53)中符号函数sgns,边界层Δ选为0.01,其他控制参数选取为
仿真时间为5 s,仿真结果曲线如图6–8所示,系统轨迹跟踪平均绝对误差如表3所示.
表3 关节角轨迹跟踪平均绝对误差Table 3 Trajectory tracking mean absolute errors of joints
图6中每个窗口上图为轨迹跟踪实时曲线,下图为轨迹跟踪误差曲线.在ASMC作用下,移动装弹机械臂的回转关节θ1和旋转关节θ2至少需要3 s才可跟踪上期望轨迹;而在ADP作用下,旋转关节θ2和关节θ3跟踪上期望轨迹最多只需2 s.由于关节θ1和关节θ8均为回转关节,关节d实为套筒伸缩部分,在ADP作用下,它们的跟踪时间与旋转关节相比更短,仅0.5 s.此外,从表3中两种控制方法作用下轨迹跟踪平均绝对误差数据分析,ADP的控制精度也是高于ASMC.
图6 关节角轨迹跟踪曲线与跟踪误差Fig.6 Trajectory tracking curves and tracking errors of joints
图7和图8分别为移动装弹机械臂在ADP与AS MC两种控制作用下控制力矩输出曲线,其中不同控制作用下同一关节的输出力矩用同一颜色表征.在ASMC控制过程中,回转关节θ8的控制力矩u8因饱和函数代替了符号函数,虽仍有波动趋势,但已无抖振,其他各关节控制力矩与ADP相类似,均比较平滑.
图7 ADP控制力矩Fig.7 Control torques with ADP
图8 ASMC控制力矩Fig.8 Control torques with ASMC
综合比较ADP控制作用下的各关节输出力矩,最大值为4×106Nm,即4 MNm,有多种型号的液压缸可满足该输出力矩需求,以合丰大吨位液压油缸为例[23],部分型号如表4所示.
表4 合丰大吨位液压油缸参数Table 4 Parameters of Hefeng large tonnage hydraulic cylinder
液压驱动系统中液压缸输出力矩u与压强P、内径ϕD的近似关系为
其中:按经验值选取负荷率β为0.8;连杆长度L取表1中最短连杆长度0.8 m;选择QF630型号液压油缸,做简单估算有
综上所述,当系统存在未知上界不确定性和外部干扰时,相对于ASMC,ADP的控制性能更好.由于ADP的控制过程包含神经网络学习过程,在控制初期部分关节的实际轨迹并没有跟踪上期望轨迹.在ASMC和ADP作用下,当实际轨迹均跟踪上期望轨迹后,ADP作用下的控制精度更高.此外,本文设计的控制方法在工程上有液压油缸可保障其实现.
本文应用拉格朗日方程建立了移动装弹机械臂系统的动力学模型.当系统存在外界干扰和参数不确定性时,通过定义总体不确定项,设计了自适应动态规划轨迹控制器.仿真结果表明,文中所设计的基于单网络评价结构的控制器可以很好地跟踪上系统的期望轨迹.与自适应滑模控制器相比,自适应动态规划控制在保证系统稳定性的前提下,缩短了系统的响应时间,减小了跟踪误差,使系统控制力矩更加平滑,提高了系统的控制精度,达到了更好的调节效果.