力反馈遥操作系统中的在线环境参数辨识研究

2017-10-18 11:25:26丁宇堃宋荆洲尚志豪韩亮亮

载人航天 2017年5期

丁宇堃，宋荆洲，尚志豪，韩亮亮

丁宇堃1，宋荆洲1，尚志豪1，韩亮亮2

（1.北京邮电大学自动化学院，北京100876；2.上海宇航系统工程研究所，上海201108）

力反馈遥操作系统是载人航天工程中的重要技术组成部分，而环境的在线参数辨识是实现大时延下反馈力的本地实时预测的关键技术。使用交叉验证分析了不同建模方法的准确性和适用条件；对常用的在线参数辨识算法进行实验验证，从参数收敛性和对时变环境的跟踪性等方面进行对比分析。实验结果表明，Hunt-Crossley模型以高复杂获得了更高的建模精度，适宜在数据充分的离线条件下采用；同时，在参数辨识算法方面，相比于同类算法，自扰动递归最小二乘法在参数辨识的收敛性和对时变环境的跟踪性上都有较好的表现，是实际应用中的首选方法。该结果可为环境动力学模型的在线参数辨识技术的工程应用提供参考。

遥操作；环境模型；参数辨识

Abstract：Force feedback teleoperation system is an important part of the manned space flight project，and the on-line parameter identification of environment is the key technology to realize the local real-time prediction of the feedback force under large time delay.In this paper，the method of online environment parameter identification in force feedback teleoperation system was studied.The accuracy of different modeling methods and applicable conditions were analyzed through cross validation；then the commonly used online parameter identification algorithms were experimentally verified.The convergence of the environment parameters and the tracking of the time-varying environment were analyzed.The experimental results showed that the Hunt-Crossley model achieved higher modeling accuracy with high complexity and was suitable for use under sufficient offline conditions.At the same time， compared to similar parameter identification algorithms， the tracking of dynamic recursive least squares method had better performancein parameter identification of self convergence and time-varying environment and was the preferred method for practical application.This paper provides a reference for engineering application of technology for online parameter identification of dynamic model of environment.

Key words：teleoperation； environment model； parameter estimation

1 引言

随着空间站建设和运营的深入，机器人天地遥操作装配任务的需求越来越多。如果本地端操作设备能够实时提供准确的反馈力信息，将有助于增强操作者对工作环境的感知，提高操作效率，改善操作者的操作体验。因而采用力预测的方法，构造力预测模型，解算出与显示的仿真环境同步的反馈力，通过力反馈手控器施加给操作者，使操作者感受到操作中的反馈力，能够带来更好的临场感。

环境模型建模及参数辨识是实现接触力预测的关键。通常将与机器人系统末端执行器发生接触的物体称为“环境”，将环境的接触动力学特性建模为环境动力学模型。在接触阶段，可以通过传感器获得从端执行器和环境的相对位置、速度和接触力等信息，从而对动力学模型中在线参数辨识进行修正。参数辨识结果可以输入自适应阻抗控制器或模型参考自适应控制器来实现稳定的接触。此外，基于预测模型的力反馈遥操作系统也依赖在线环境参数辨识力修正主端预测模型的动力学参数，为操作者提供准确的力觉临场感。

对于环境的几何特征辨识，国内外的研究者也开展了相当多的研究：Xu Xiao等基于飞行时间的立体相机，进行距离测定从而进行环境几何参数辨识［1］。李会军等使用力和位置信息的综合处理来对环境的位置信息进行辨识［2］，Velanas等使用递归最小二乘法对环境进行曲率辨识［3］。Willaert等则研究了利用视觉信息辨识接触点的位置和法线方向［4-5］。

相关研究应用中采用的环境动力学模型主要包括纯刚度模型和Kelvin-Voigt模型［6］。近年来，学者开始关注准确性更高的Hunt-Crossley模型，然而它的非线性增加了对其进行参数辨识的难度，导致它目前还难以实现实际应用［7］。在不同模型的比较方面，Yamamoto等首先使用了交叉验证的方法比较了不同环境模型的建模精度［8］。

在环境的动力学参数辨识方面，Haddadi等研究了基于梯度下降的最小二次均方算法（BLMS），并与基于窗函数的最小二乘法（BLS）做了比较［6-9］。Love等较早使用了递归最小二乘法来辨识环境刚度，并用于调整从端阻抗控制器的参数，改善接触性能［10］。Colton等则使用了指数加权递归最小二乘法（EWRLS）进行参数辨识［11］。Achhammer等使用了自扰动递归最小二乘法（SPRLS）进行了混合模型的参数辨识，并取得了较好的效果［12］。虽然研究者探索了多种参数辨识方法，递归最小二乘法类算法凭借其简单有效和鲁棒性强的特点得到了最广泛的应用。

本文对机器人系统中的环境动力学模型建模和参数辨识技术进行比较验证研究，比较分析不同建模方法的准确性和适用范围，首次使用交叉验证的方法衡量在线参数辨识过程中模型准确性的变化，以期为环境模型参数在线辨识技术在机器人空间装配中的应用提供指导。

2 动力学模型建模

首先分析现有的环境动力学模型建模方法，在大范围实验条件下对其进行实验验证，使用交叉验证的方法更完整地分析其建模准确性。

2.1 接触动力学模型

纯刚度模型（以下简称K模型）只有一个参数，即环境刚度k，在接触阶段，接触力f按环境刚度正比于侵入深度［7］，如公式（1）所示。

其中，x表示侵入物体简化的代理点位置，xe为环境位置。kK和fK的下标表示对应K模型的参数，以下类似。

Kelvin-Voigt模型（以下简称KV模型）考虑了阻尼项bKV［7］，如公式（2）所示。

Hunt-Crossley模型（以下简称HC模型）具有3个参数，通过阻尼项与位置的耦合，解决了KV模型的反向力问题，更接近实际环境物理性质。指数n的存在使其更好地描述接触力随侵入深度的非线性变化［8］，模型如公式（3）所示。

相同输入信号下，典型的KV模型和HC模型的接触力与侵入深度的磁滞回线如图1所示。对于KV模型，当（x-xe）→0而且x·＜0时，fKV为负值，而实际接触时，接触力始终为正值。为负值的接触力会造成力反馈遥操作中的“黏附感”，影响操作者对环境的认知和正确操作。而HC模型则不存在负值力的问题，整个接触过程中fHC始终为正值。

另一方面，KV模型的不连续问题也给系统稳定性带来不利影响。由于直接相关，在接触的开始和结束阶段，的突变会导致的突变，也导致了系统能量的突变。而实际的接触中，即使考虑碰撞效应，实际接触力也在连续变化。

图1 KV模型与HC模型的磁滞回线Fig.1 Hysteresis loops of KV model and HC model

2.2 模型准确性分析

根据上述3种模型参数数量的依次递增和实验结果验证，K、KV和HC模型的复杂度和准确性依次递增，通常在实际应用中根据不同情况选取合适的建模方法。为了研究不同的模型在实际环境建模中的效果，首先比较不同模型在离线辨识中对不同刚度的环境的建模准确性。实验构造了刚度依次递增的4种典型的接触环境，分别为图2中海绵、覆盖于海绵上的橡胶垫、橡胶垫、金属盖板，并将其依次记为A、B、C、D。其刚度分别约为400 N／m、2000 N／m、8000 N／m和18 000 N／m。使用末端腕部装有ATI mini40力传感器的三自由度平动机械臂与环境进行接触，机械臂末端位置和接触力的采样频率为170 Hz。判断发生接触的力阈值设为0.05 N。

图2 实验接触环境Fig.2 Contact environments in experiment

控制机械臂末端与不同环境发生接触，并记录接触过程中机械臂末端位置和接触力信息。每种接触环境进行5次接触实验，共得到20组数据。每次接触实验中，机械臂位置由操作者手动控制，并在5次实验中采用不同的动作模式来尽可能覆盖可能的接触情况，例如侵入深度偏大和偏小，速度较快和较慢。图3为4种环境的典型力／位曲线图。

使用最小二乘法根据得到的数据对各个模型选取最优参数，比较其理论上的最高准确度。对于线性模型［14］，预测力可根据公式（4）进行计算。

其中，f（t）为t时刻的预测力，θ为未知参数，φ为回归向量。可直接按照式（5）计算θ。

其中，X＝[φ1，φ2，…，φn]Τ，Y＝[f1，f2，…，fn]Τ。对于非线性的HC模型，本文采用信赖域算法进行迭代计算，当目标函数变化小于10-6时停止迭代。以环境B的第一组数据为例，根据所得参数计算得到的接触力fp与实际接触力fs的比较如图4所示。可见，各环境模型建模都基本准确，K模型和KV模型具有明显的力误差，而HC模型的力误差较小。

使用平均标准均方根误差量化衡量模型准确性。相比于平均力误差，标准均方根误差使用误差的二次项，对较大的误差更敏感，并考虑原始数据的变化范围，能够更好地衡量模型的准确性。对误差估计量y，标准均方根误差的计算公式如式（6）：

实验结果如表1所示。由表可见，对于各种环境，HC模型都具有最低的力误差，且对于中等刚度的对象优势较为明显。KV模型相比于K模型，虽然具有更高的复杂度，但是准确性只有微小的提高。

图3 不同环境力／位曲线图Fig.3 Force and position profiles of different environments

图4 模型力误差Fig.4 Force error of different models

表1 环境模型自验证误差Table 1 Self-validation error of different models

2.3 模型准确性交叉验证

常用的自验证方法是使用同一数据集进行参数辨识和准确性验证，而交叉验证则使用重复实验的多次数据分别进行参数辨识和准确性验证。相比于自验证，交叉验证的结果具有更强的通用性和鲁棒性。为了更好地衡量辨识得到的模型对位置等状态信息的鲁棒性，综合体现模型在实际应用中的准确性，使用交叉验证的方法对模型准确性进行分析。对每组数据所得参数，使用相同环境下的其它4组数据进行准确性检验，并取平均标准均方根误差。实验结果如表2所示。

表2 环境模型交叉验证误差Table 2 Cross-validation error of different models

由实验结果可见，HC模型在交叉验证中仍具有较小的预测误差，体现出针对期望的实际物理特征具有更高的准确性。但是相比于自验证误差，其在交叉验证中相对于其他模型的优势有所降低。尤其是在与海绵的接触实验中，误差明显超过了K和KV模型，其原因是包括海绵在内的低刚度柔性环境的接触动力学特征具有较强的非线性，在辨识过程中，拟合能力较强的HC模型容易产生过拟合现象。过拟合的模型虽然在当前数据下具有较小的误差，但是整体模型准确性却明显降低。

总体而言，相比于K模型，KV模型在准确性上仅有微小提高，但是由于参数数量却为K模型的2倍，所以在存储空间、计算能力和通信带宽等方面几乎具有双倍的占用。HC模型虽然具有更高的复杂度和资源占用，但是对中等刚度的环境的建模具有明显提高的准确性。同时，HC模型对低刚度柔性环境建模效果较差，对高刚度环境的建模没有改善。

3 环境参数在线辨识

在环境模型建模的基础上，模型参数决定了模型准确性。由于往往不能事先获得准确的模型参数，需要在实际任务过程中，根据实时传感信息，对环境参数进行在线辨识。从参数收敛性和对模型变化的快速响应特性等方面对最新的参数辨识算法进行比较分析，首次使用交叉验证的方法衡量不同参数辨识算法在在线参数辨识过程中对模型准确性的影响。得到参数辨识过程中模型准确性的变化过程，更好地衡量参数辨识算法的实际效果。

3.1 环境参数的在线参数辨识方法

BLS算法取最近一段时间内的数据求解具有最小二次误差的参数。该方法的主要优点在于简单有效，但缺点在于难以取得合适的窗口大小W，较大的W收敛性较好，但是对变化系统的响应较慢，较小的W虽然能迅速反映系统变化，但是容易波动剧烈，收敛性较差。

基于梯度下降的算法利用目标函数的梯度进行迭代计算来搜索最优参数。在BLMS算法中，目标函数定义为预测误差的二次函数如式（7）［13］：

未知参数的迭代公式如式（8）：

其中，λk为迭代步长，为与梯度方向相反的单位向量，

EWRLS是环境参数辨识中一种常用的参数辨识算法，其迭代公式如式（9）所示［7］：

其中，P为协方差矩阵，η为遗忘因子。当η＝1时，算法等效于标准的递归最小二乘法。通常取η为小于但接近1的数值来使算法对新数据赋予更高的权值。

上述参数辨识算法的缺点在于通常难以兼具收敛性和跟踪性，即在实际环境不变时得到收敛的辨识结果，并在环境发生变化时及时反应环境变化。

SPRLS的核心思想是在在线辨识的过程中检测前向预测误差，当前向预测误差超出预设阈值时，认为待辨识系统发生了变化，并按前向预测误差大小增大协方差矩阵，提高算法对新数据的敏感性，使算法具有快速响应特性。同时，当前向预测误差预设阈值时，算法等效于标准的递归最小二乘法，具有良好的收敛性。因此，SPRLS兼具良好的收敛性和对变化系统的快速跟踪性能。算法递归方程如式（10）所示［12］：

其中β和γ分别为扰动增益和误差增益，取整函数NINT（）的表达式如式（11）所示：

3.2 环境参数的在线参数辨识实验分析

对2.2节中设计的4种接触环境各取2000个连续采样数据，在K模型上应用上述方法进行参数辨识实验。使用试错法人工调节各算法的参数设置至最好的效果，实验结果如图5所示。

图5 辨识算法比较图Fig.5 Comparison of different estimation algorithms

由图5（a）可见，4种辨识算法总体上都能够辨识出环境刚度并能及时反映环境的变化，但在收敛性和跟踪速度上有差异。图5中（b）为环境B切换到环境C的过渡阶段的放大图。可见，SPRLS和BLMS算法对采样编号为4000时发生的环境变化具有较快的反应速度，而EWRLS和BLS则响应较慢。图5中（c）为环境C的平稳阶段的放大图，可见，只有SPRLS表现出了良好的收敛性，其余3种算法都有一定程度的波动。可见，相比于其余算法，SPRLS兼顾了良好的参数收敛性和对环境变化的快速跟踪特性。在此基础上，使用交叉验证的方式衡量参数辨识过程中模型准确性的变化。即使用4种接触环境的五组采样数据中的一组数据进行参数辨识，然后取参数辨识过程中各个时刻的参数辨识值，并使用其余四组数据进行交叉验证计算相应的误差。实验结果如图6所示。

图6中，各条曲线在采样编号为2000、4000和6000处的尖峰表明环境的突变导致环境模型的误差突然增大，但是各个参数辨识算法都能够通过在线辨识修正模型参数，有效降低模型误差，即获得了较高的模型准确性。其中，SPRLS算法在环境突变后既能够较快地降低误差，又能在误差降低后保持很好的稳定性。各个算法的模型误差曲线与图5中的模型参数变化规律相一致。SPRLS算法在采样编号为2000的环境突变过程中保持了一小段时间的较高误差之后才迅速降低误差，其原因是该时刻主端位置较小，环境突变并没有使预测力产生明显误差，没有触发SPRLS中的自扰动项。它表明SPRLS算法的快速跟踪特性依赖于明显的前向预测误差，在缺乏特定输入条件的情况下可能会导致参数收敛速度过慢。

4 结论

本文通过理论分析和实验验证对力反馈遥操作系统中环境动力学模型的建模和在线参数辨识方法进行了深入的比较分析，得到如下结论：

1）交叉验证的结果说明：纯刚度模型能以较低的复杂度得到一般的建模精度，Kelvin-Voigt模型相比于纯刚度模型并没有明显优势；Hunt-Crossley模型以高复杂度获得了更高的建模精度，适宜在数据充分的离线条件下采用。

2）在参数辨识算法方面，相比于同类算法，自扰动递归最小二乘法在参数辨识的收敛性和对时变环境的跟踪性上都有较好的表现，是实际应用中的首选方法，但是需要注意其快速跟踪特性对较大前向误差的依赖问题。

图6 模型准确性变化图Fig.6 Model accuracy profile during online estimation

（References）

［1］ Xu X， Cizmeci B， Al-Nuaimi A， et al.Point cloud-based model-mediated teleoperation with dynamic andperceptionbased model updating［J］.Instrumentation and Measurement，IEEE Transactions on， 2014， 63（11）： 2558-2569.

［2］ Liu H J， Aiguo S.Virtual-environment modeling and correction for force-reflecting teleoperation with time delay［J］.Industrial Electronics， IEEE Transactions on， 2007， 54（2）：1227-1233.

［3］ Velanas S V，Tzafestas C S.Model-mediated telehaptic perception of delayed curvature［C］／／RO-MAN， 2012 IEEE.IEEE，2012：941-947.

［4］ Willaert B， Bohg J， Van Brussel H， et al.Towards multi-DOF model mediated teleoperation：using vision to augment feedback［C］／／Haptic Audio Visual Environments and Games（HAVE）， 2012 IEEE International Workshop on.IEEE，2012：25-31.

［5］徐效农，宋爱国，朱澄澄，等.基于环境建模与修正的视觉／力觉辅助遥操作系统［J］.载人航天，2016，22（1）：55-61.XU Xioanong， SONG Aiguo， ZHU Chengcheng， et al.Visualhaptic aid teleoperation system based on environment modeling and updating［J］.Manned Spaceflight， 2016， 22（1）：55-61.（in Chinese）

［6］ Haddadi A，Hashtrudi-Zaad K.Online contact impedance identification for robotic systems［C］／／Haddadi A.2008 IEEE／RSJ International Conference on Intelligent Robots and Systems.Piscataway， NJ： IEEE， 2008：974-980.

［7］ Haddadi A， Hashtrudi-Zaad K.Real-time identification of Hunt-Crossley dynamic models of contactenvironments［J］.Robotics， IEEE Transactions on， 2012， 28（3）： 555-566.

［8］ Yamamoto T，Vagvolgyi B，Balaji K，et al.Tissue property estimation and graphical display for teleoperatedrobot-assisted surgery［C］／／Yamamoto T.IEEE International Conference on Robotics and Automation， 2009.Piscataway， NJ： IEEE，2009：4239-4245.

［9］ Haddadi A，Hashtrudi-Zaad K.A new fast online identification method for linear time-varying systems［C］／／Haddadi A.2008 American Control Conference.Piscataway， NJ： IEEE，2008：1322-1328.

［10］ Love L J， Book W J.Environment estimation for enhanced impedance control［C］／／Love L J.1995 IEEEInternational Conference on Robotics and Automation.Piscataway， NJ：IEEE，1995，2：1854-1859.

［11］ Colton M B， Hollerbach J M.Identification of nonlinear passive devices for haptic simulations［C］／／Colton M B.2005 First Joint Eurohaptics Conference and Symposium on Haptic Interfaces for Virtual Environment andTeleoperator Systems.］／／Piscataway， NJ： IEEE， 2005： 363-368.

［12］ Achhammer A， Weber C， Peer A， et al.Improvement of model-mediated teleoperation using a new hybridenvironment estimation technique［C］／／Achhammer A.2010 IEEE International Conference on Robotics andAutomation.Piscataway，NJ： IEEE，2010： 5358-5363.

［13］ Haddadi A.Stability， performance， and implementation issues in bilateral teleoperation control and haptic simulation systems［J］.2012.

［14］ Yamamoto T， Bernhardt M， Peer A， et al.Techniques for environment parameterestimation duringtelemanipulation［C］／／IEEE Ras＆ Embs International Conference on Biomedical Robotics and Biomechatronics.IEEE， 2008：217-223.

（责任编辑：康金兰）

Online Environment Parameter Estimation for Force Feedback Teleoperation System

DING Yukun1， SONG Jingzhou1，SHANG Zhihao1，HAN Liangliang2
（1.Automation School in Beijing University of Posts and Telecommunications， Beijing 100876， China；2.Aerospace System Engineering Shanghai， Shanghai 201108， China）

V11

1674-5825（2017）05-0704-07

2017-03-06；

2017-08-05

载人航天预先研究项目（030401）

丁宇堃，男，硕士研究生，研究方向为机器人遥操作。E-mail：dingyukun1994＠126.com