基于非零和博弈的自适应人机协作系统设计①

2023-12-16 11:30禹鑫燚罗惠珍史栓武欧林林

高技术通讯 2023年11期

禹鑫燚罗惠珍史栓武魏岩欧林林

(浙江工业大学信息工程学院杭州 310023)

0 引言

随着机器人越来越广泛地应用于装配、搬运、康复等物理协作任务[1-3]中,机器人在非结构化环境中的人机协作技术发挥着越来越重要的作用,因而人机协作得到了越来越多的关注。机器人适合做重复、高精度且具有一定危险性的工作,而人在面对突发事件时的灵活性和对未知环境的适应能力弥补了机器人的不足。为了在人机协作中充分利用机器人和人的优点,需要提高人和机器人协作的自适应性。

在人机协作控制领域,通常有阻抗控制[4]和导纳控制[5]2 种有效控制方法。阻抗控制通过阻尼-弹簧-质量模型表示人和机器人的动态位置关系[6],测量机器人空间位置以及选取合适的阻抗参数,获得机器人输入力。因此,模型阻抗参数的选择至关重要,对于不同工作环境和操作人员需要不同的模型参数。由于环境的复杂性,难以获取合适的模型参数。文献[7]建立了阻抗模型的刚度系数与人机交互力的关系,通过自适应律调整刚度系数大小。文献[8]提出了一种辅助-对抗的方法,根据人在任务中的参与程度自适应调整阻抗参数。为了提高自适应性,变阻抗的方法被引入机器人领域,可以通过强化学习(reinforcement learning,RL)方法在线自适应调整阻抗参数[9]。文献[10]在每个关节上设计独立的RL 输入补偿器。文献[11]利用输入输出数据重新构造状态,解决了未知环境动力学的最优阻抗控制问题。但现有的人机协作控制方法所设计的控制策略通常适用于某特定任务,缺乏多用途的系统方法。

在执行一些复杂多变的任务时,为了实现柔顺控制,人和机器人力的灵活调配起到关键作用。而在工业机器人的实际应用中,通常要考虑到任务的多样性,如车间装配在不同的阶段要完成不同的任务。因此需要设计通用的人机协作策略来完成人和机器人之间不同的协作任务,以适应任务变化。以往的研究设计了人机协作的自适应框架[12-14]。文献[15]根据人和机器人之间的差异程度在基于模型和无模型策略之间动态选择。这些研究指出,机器人需要根据人的意图做出判断,根据任务自适应调整引导或者跟随任务的角色。博弈论(game theory,GT)适用于分析多智能体系统[16-25],能够用来构建通用的方法描述人机协作的双智能体博弈。非零和博弈(non-zero-sum games)是一种合作下的博弈[17],适用于人机协作,可以通过给定目标函数和人机协作任务目标进行建模。文献[18]在已知线性系统目标函数的博弈中,通过求解黎卡提方程的方法获得最优控制。然而,该方法是针对确定目标函数生成的固定控制策略,在协作过程中可能无法达到平衡。因此通过评估交互性能,文献[19]采用策略迭代的方法降低计算成本并不断更新控制策略。策略迭代的方法被证明适用于已知模型或未知模型的线性系统[20-22],且应用于已知或未知动态的博弈[23]。然而,在实际的人机协作场景中,机器人通常事先不知道人机协作的任务目标。

为了解决人机协作时人和机器人自动切换引导或跟随角色的问题,使得人和机器人能够根据任务相互协调,本文设计了自适应人机协作系统,系统由互相解耦的内外环构成。外环通过非零和博弈描述人机协作系统,并通过求解纳什均衡获得人机协作系统最优控制策略。首先对系统的阻抗模型重新建模,再构建关于人力和机器人控制输入的能量函数;针对能量函数中的不确定参数,采用神经网络拟合估计器更新,并自适应调整刚度系数,实现人机柔顺协调;设计神经网络函数的中心值保证控制方法的跟踪性。此外,在内环中设计径向基神经网络控制器,利用实时更新的机器人输入输出数据逼近机器人动力学模型,提高跟踪精度。

1 人机协作系统结构设计

人机协作系统由人和机器人组成。当没有外力干扰时,机器人会重复执行预定任务,如果人对机器人施加一个外力,那么机器人会服从人力沿着新的目标轨迹运动。通常,人施加的力是随机且多变的,需要完成的任务轨迹也不同。

本文设计的人机协作系统总体结构如图1 所示,包括内环和外环。外环和内环的作用分别为平衡人机控制策略和提高跟踪精度。在外环中,通过引入非零和博弈论的方法,对人和机器人的交互行为进行博弈。此外利用神经网络拟合能量函数中的参数,确定阻抗模型中的刚度系数值。在内环回路中,设计了一个自适应神经网络控制器,利用神经网络补偿机器人动力学模型中的未知项。机器人将跟踪阻抗模型中求得的参考轨迹xr,而参考轨迹将跟踪实际期望轨迹xd,实现内外环互不干扰。

图1 人机协作系统结构图

考虑如下机器人的笛卡尔空间动力学模型:

假设机器人的笛卡尔空间阻抗模型为

其中,xr分别为虚拟参考轨迹、速度和加速度;Md∈Rm×m和Cd∈Rm×m分别为期望的惯性矩阵和阻尼矩阵;u(t) ∈Rm为笛卡尔空间的控制输入力。

当机器人在协作过程中跟踪固定的期望轨迹xd时,把阻抗模型改写成以下形式:

其中为了便于控制器的设计,把式(3)中的阻抗模型改写成状态空间方程的形式:

其中,0m和Im分别代表m×m维的零矩阵和单位矩阵;xr和是阻抗模型的输出参考轨迹和速度,用来跟踪期望轨迹xd,同时在内环中使机器人真实的轨迹x跟踪xr。

将人和机器人作为2 个智能体,利用非零和博弈论的方法描述人和机器人之间的协作,达到最优的合作关系。根据增广的状态z,人机协作系统的能量函数可以写成如下形式:

Q1、Q2分别为轨迹跟踪误差和速度的权值矩阵,R1和R2分别为机器人和人控制力的权值矩阵。通过调节这些权值矩阵的大小,来确定控制目标。

如果能量函数式(6)已知,那么通过最小化能量函数,可以设计机器人控制器来实现人机协调[23]。然而,在实际的人机协作过程中,人的意图会时刻变化且不可预知,所以能量函数V的参数随时间变化,无法确定。因此,本文将在控制外环中引入神经网络估计器确定非零和博弈中人和机器人的控制律,从而更新阻抗模型中的刚度系数达到柔顺人机协作的目的。在内环中,针对未知非线性机器人模型参数,设计了自适应神经网络控制器,并提高跟踪精度。

2 外环中的非零和博弈控制方法

本节拟给出基于非零和博弈的外环控制方法,根据式(6),该系统中机器人和人的能量函数分别定义为

其中,ci(z,u,f)=zTQz+uTRi1u+fTRi2f,Ri1和Ri2分别为机器人和人的正定权值矩阵。为了最小化能量函数Vi,可以利用求解纳什均衡的方法,得到最优的u、f控制策略。

定理1[26]机器人和人博弈的纳什均衡策略u∗、f∗满足以下不等式:

从纳什均衡的定义中不难看出,机器人和人都有自己的能量函数,并且不能通过单方面改变控制策略来提高其性能。在非零和博弈过程中,无论对方的策略如何,人和机器人都会选择某个确定的策略,不受影响。如果在另外一方选择确定的情况下,该选择的策略达到最优,则为纳什均衡。

从式(8)中看出,机器人和人的控制策略相互耦合,所以本文通过强化学习中策略迭代[27]的方式来求解人机协作中的纳什均衡。假设能量函数式(8)连续且可微,分别对两边求导,结合式(4)则可被改写为以下非线性李雅普诺夫方程的形式:

为了便于表示,令u1=u,u2=f。根据稳定性条件[23],当哈密顿函数关于控制策略的偏导数=0 时,最优反馈控制策略满足:

如果对于能量函数已知的系统,可以直接利用策略迭代求解纳什均衡得到机器人和人的控制策略。然而,由于人的控制策略是无规则变化的,故能量函数Vi中的参数Ri1和Ri2无法确定。神经网络具有强大的拟合非线性曲线的能力,常用于未知的机器人控制系统[28]。因此引入神经网络估计器利用在线自适应的方法来确定适合的参数,从而得到人和机器人的控制律。

假设人和机器人有相同的能量函数V(z),如式(6)所示,且连续可微,那么V(z) 可以通过神经网络被近似为

其中W是未知的期望权值矩阵,S(z) 是神经网络激活函数,ε(z) 是神经网络的近似误差。V(z) 关于z的导数如下:

其中∇S(z) 和∇ε(z) 分别为神经网络激活函数和近似误差的有界梯度。神经网络的权值矩阵W是未知的,能量函数的估计形式表示为

由于人和机器人有相同的能量函数,则式(11)中的哈密顿方程可以写成:

在人机协作的任务中,c(z,u,f) 中的权值矩阵Q、R1和R2未知,又因为矩阵R1和R2是相互关联的,所以先令R2为一个固定值,则c(z,u,f) 的估计值表示为

那么,将哈密顿方程的近似值表示为

令式(18)中的c(z,u,f) +WTσ+εH=0,联合式(20)可将估计误差e表示为

因此,结合式(18)和式(21),估计误差改写成如下形式:

为了能达到拟合效果,设计了一个二次残差函数E[27],通过设计合适的和来最小化E。

在式(14)神经网络的设计中,采用了径向基函数。其中,径向基函数为S(z)=[s1,…,sN]T,N代表神经节点的数量,激活函数选择了高斯函数的形式:

其中μi=[μi,1,μi,2,…,μi,2m] 为激活函数的中心位置,ηi为高斯函数的宽度(i=1,…,N)。对径向基函数的梯度表示为∇S(z)=[∇s1,…,∇sN]T,其中,

为了保证控制方法的跟踪性,式(34)中激活函数的中心位置μi被设计为

其中,k是大于0 的常数。通过设计激活函数的中心位置,可以获得机器人控制律u与误差跟踪的关系u=K(xd-xr)。结合式(5)中的z(t) 和B1,把∇S(z) 代入式(30)可以得到:

K代表机器人的刚度系数,当K比较大的时候,可以较快地修正轨迹跟踪误差,相应地人拖动机器人也较为困难。由式(37)可知,通过更新迭代参数和来改变K值从而实现变阻抗控制。通过该方法,当需要跟踪预定轨迹时增大K来达到好的跟踪效果,当有人力存在时减小K值达到轻松协作的目的。机器人在完成任务时有自己的运动目标,但当人干预时,会把人的目标作为新目标,实现了协调的目的。

具体的自适应算法如下。

3 内环控制器设计

内环控制器的目的是设计力矩,在运动过程中,使机器人真实轨迹x跟踪外环中的参考轨迹xr,模型跟踪误差定义如下:

甘肃省位于我国西北内陆地区，经济不发达，主要收入来源于种植业。因为独特的自然环境和地理环境，甘肃省经常遭受多种自然灾害，且受灾范围广、程度深。正因为上述原因，甘肃省一直积极发行各种惠农政策和相应的保险险种力争将农户的损失最小化。农业保险是一项民生政策，在政策性农业保险发展初期，甘肃省只对部分农产品进行试点保险，具体如表1。

为了使模型跟踪误差项er最小,引入比例微分误差函数项s,

其中Λ=ΛT>0,Λ为常数矩阵。对式(38)求导代入式(39)可得:

再对式(40)求导可得:

把式(40)和(41)代入动力学方程式(1),可得:

将式(42)中的M(q)转换成如下的形式:

式(44)中包含了未知的动力学模型参数M(q)、C(q,) 和G(q),在设计控制器的过程中,这些参数会影响人机协作的柔顺度。为了使机器人与人更好地配合,利用神经网络拟合动力学模型中不确定参数。(z) 代表神经网络估计项,表示如下:

其中Wn为神经网络权值矩阵,εn为神经网络拟合误差。在图1 的内环结构中,自适应神经网络控制器被设计为如下形式:

其中Kv为控制增益。

基于文献[29]的研究结果,将神经网络权值矩阵的更新率设计成如下形式:

定理2针对式(47)中设计的自适应神经网络控制器,采用式(48)的更新率且‖‖F满足条件式(49),则控制器式(47)能够使系统稳定,且能保证式(39)中的模型跟踪误差er有界。

证明首先,定义李雅普诺夫函数为

对式(50)求导可得:

将式(43)中M(q)代入式(51),再将式(46)、(47)代入其中得:

把式(53)代入式(52)得:

其中,Kvmin为矩阵Kv的最小特征根。把式(49)代入式(55)可得,李亚普诺夫函数的导数<0,从而证明所设计的控制器能够保证系统是稳定的。

4 仿真

为了验证所提出方法的有效性,本节以二连杆机器人为仿真对象进行了仿真,如图2 所示。本文的仿真平台为CoppeliaSim (4.1.0,Windows),联合Matlab (R2020a)进行仿真。在仿真过程中,移动最左侧的小球被认为施加力,从其初始位置到当前位置的向量表示人在二连杆末端小球上施加的力,其大小与长度成正比。黑色的圆和直线分别为二连杆机器人末端的期望路径。机器人按照预设的路径进行运动,当人给机器人一个外力时,机器人会改变原来的目标去跟随新的轨迹。同时,为了使人能更加容易拖动机器人,机器人的刚度系数也会自适应减小。为了说明本文方法的可行性,设置2 组仿真,让机器人分别跟踪均匀水平直线和曲线路径。相关的控制参数设置如下:式(34)中的ηi=100,式(36)中的k=10,式(3)中的阻抗参数为Md=3I2kg,Cd=30I2N/m。二连杆机器人参数为:连杆质量m1=m2=0.5 kg,连杆长度l1=l2=0.3 m,I1=I2=1 kg·m2。式(19)估计权值中的2 个矩阵的初始值设为=100I2m-2=I2s2/m2,其中和分别为Q1和Q2的估计值,==10-3I2N-2。关于神经网络,初始值设为W=40,节点数为6,更新率参数式(32)、(33)设为α1=0.1,α2=10-4,β=10-3。更新率参数α1和α2的值会影响神经网络的更新速率,越大更新越快,同时也会使得刚度系数变化更快。

图2 CoppeliaSim 二连杆仿真场景图

把参考路径设置为均匀水平直线,在不设置外力的情况下,机器人将沿着水平运动。在仿真的第2 s 左右时,拖动小球施加外力,使机器人跟踪人的目标。施加的外力如图3(a),分别表示x方向和y方向力的大小,在7 s 左右释放。刚度系数K变化曲线图如3(b)所示,当人施加力时,机器人会改变其预期的轨迹,同时刚度系数会适应人力逐渐减小,再趋于稳定。二连杆机器人的运动轨迹以及x和y两个方向关于时间的轨迹跟踪分别如图3(c)、(d)和(e)所示。由图可知,在人不施加力时,能较好跟踪期望轨迹执行目标。

图3 轨迹为均匀水平直线的仿真图

同样,当机器人沿着圆弧曲线轨迹运动时,图4(a)为x和y两个方向力的变化曲线,在1 s 左右施加外力,4 s 左右释放。图4(b)为刚度系数K的变化曲线,且在施加外力后,刚度系数K也自适应减小。图4(c)为二连杆机器人的曲线运动轨迹。由图可得,机器人先跟踪黑色曲线的部分,再跟随外力的方向,当外力释放后会继续跟踪原目标轨迹,K的变化使人能更容易拖动机器人。图4(d)和(e)分别为x和y两个方向关于时间的轨迹跟踪曲线。在不施加外力时,机器人能很好地跟踪目标轨迹。当机器人占据主导地位时,能较好地跟踪期望目标执行任务,当人加入任务中时,则人将成为为任务主导者。2 次仿真验证了本文方法的可行性和准确性。

图4 轨迹为曲线的仿真图

5 结论

本文提出了一种基于非零博弈论的人机协作的自适应系统,通过切换人和机器人在协作中的主导位置来提高协作的协调性。该系统由互相解耦的内外环构成。在外环中,引入了基于非零和博弈,构建关于人力和机器人控制输入的能量函数,求解人机交互力的纳什均衡以得到最优控制。能量函数中的不确定参数通过神经网络估计器迭代更新,在更新过程中自适应调整刚度系数,使其能够灵活地在人机协作或者仅机器人的情况下进行任务转换。通过设计径向基函数中心值,保证控制方法的跟踪性。在内环中,设计了神经网络控制器,采用径向基神经网络,机器人系统的输入输出数据被实时采集来逼近机器人动力学模型同时提高跟踪精度。仿真结果验证了本文所提方法的有效性。