一种用于工业机器人定位的局部优化控制与学习成本函数
最近的强化学习方法使得迭代线性二次高斯控制理论能够处理未知动态下的高维度的机器人任务。这些算法基于通过与环境交互收集的数据构建动态的局部时变线性模型。在这样的任务中,成本函数通常以状态和控制变量的形式直接表示,以实现对其进行局部二次化运算。如果成本用其他变量表示,则另需要一个模型从所操作的变量中计算成本函数。
文中提出一种直接从数据中学习成本函数的方法,与动态相同。这样,成本函数可以根据任何可测量的数量来定义,因此可以更好地选择要执行的任务。使用文中的方法,可以使用任何传感器信息来设计成本函数。文中通过使用V-REP软件仿真展示了该方法的效率。实验对具有不同特征的几个工业机器人进行笛卡尔定位任务学习,其中机器人在联合空间中被控制,且没有提供模型。
将本文的结果与另一种免费模型进行比较,该技术包括将成本函数作为状态变量编写。尽管模拟验证中所需的样本数量可以被认为是很高的,我们希望强调已经在其他工作中存在并使用用于减少样本数量和优化回归的工具。本文的目的是说明在没有任何系统的几何模型的情况下,绘制一个成本函数用于所有可测量数据解决最佳控制问题是可以实现的。
刊名:IOP(英)
刊期:2017年1期
作者:Joris Guérin et al
编译:张帅