人工智能开启机器人编程新模式：机器人操作技能学习

2021-05-25 02:42吴鸿敏徐智浩周雪峰

广东科技 2021年5期

文/吴鸿敏徐智浩周雪峰

机器人被誉为“制造业皇冠顶端的明珠”，是衡量一个国家创新能力和产业竞争力的重要标志，已经成为全球新一轮科技和产业革命的重要切入点。随着工业4.0和智能制造业的智能化和柔性化发展，机器人在智能化发展过程中也面临较大的挑战。一方面，产品生产方式呈现多样化、小批量和定制化特征，需要更短的制造系统迭代周期，迫使机器人具备快速编程与对不同场景的高效适应能力。另一方面，机器人正逐渐从工业环境的独立操作转化为与人类进行人机协作，这就要求机器人具备类人的灵巧操作能力。

现有依赖于人为干预与反复调试的机器人编程方式只适用于特定任务，当遇到相近任务或不同环境时，需要重新进行编程，从而无法汲取过往的操作经验，存在效率低、适应性差、灵巧性不足等问题。当前，新一代人工智能技术研发取得了重大进步，产品应用也日益广泛，随着机器人应用广度与深度的不断提升，探索如何利用人工智能技术让机器人系统具备一定的自主决策和学习能力，进而使机器人能够学习到适应于不同任务和环境的操作技能，避免对每个任务的繁琐编程，是未来机器人研究和发展的重要趋势。

人工智能技术促进机器人智能化与自主化发展

2017年7月，国务院发布了《新一代人工智能发展规划》，将人工智能定位为国家战略，明确提出了三步走战略目标，即到2020年人工智能技术应用成为改善民生的新途径；到2025年人工智能成为带动我国产业升级和经济转型的主要动力，智能社会建设取得积极进展；到2030年人工智能理论、技术与应用总体达到世界领先水平。国家和各省份都高度重视人工智能与机器人技术融合发展等方面的研究工作，部署实施了一批重大重点科技攻关项目，如，2018年科技部发布科技创新2030“新一代人工智能”重大项目，明确指出开展自主智能体灵巧精准操作学习；2020年广东省重点领域研发计划“新一代人工智能”重大专项也明确提出开展多自由度智能体复杂技能的自主学习研究及应用等。由此可见，随着人工智能与互联网、大数据、云平台等深度融合，在跨媒体感知、自主协同控制和优化决策、机器学习、类脑智能计算等技术的支撑下，机器人的智能化与自主化水平将进一步提升，未来的机器人将具有更多的感知与决策认知能力，变得更加灵活、灵巧与通用，能够高效适用于复杂多变的应用场景。

如今，人们提出了借助人工智能技术让机器人进行自主决策与学习的方法，从而使机器人适应于灵活多样化的应用需求。其中，机器人操作技能学习被认为是最为有效的解决方案，主要是通过机器人与人类和环境交互的方式获得操作技能。具体包括两方面的内容：一是使机器人从与人类交互的经验数据中进行高效率模仿学习，充分利用人类的操作经验，实现人-机器人操作技能传授，目的是赋予机器人具备“举一反三”的能力；二是使机器人从与环境交互的经验数据中进行可持续增强学习，并根据实际环境的变化构建出自主操作策略模型，目的是赋予机器人具备“熟能生巧”的能力。特别是，模仿学习是增强学习初始化和提高技能学习效率的重要方式。

机器人操作技能的高效率模仿学习

2018年8月，中国工程院院刊刊载的文章《走向新一代智能制造》中明确指出，新一代智能制造技术机理是人-信息-物理系统，其典型特征是人将部分认知转移给信息系统，使系统具有认知与学习能力。在人-信息-物理系统中将人的操作经验与灵巧性迁移到机器人系统，使其获得高度类人化操作能力，是机器人操作技能学习的一种重要方式，其实现过程有着不同的称谓，如示教编程（programming by demonstration, PbD）、示教学习（learning from demonstration,LfD）、模仿学习（imitation learning），以及学徒学习（apprenticeship learning）等。特别地，根据该类机器人操作技能学习方法的特点以及实现过程，我们在此表述为机器人操作技能的高效率模仿学习。在实际应用中，一般让熟练的工人根据自身操作经验通过拖动示教、远程示教或虚拟示教等方式对机器人系统进行示教，进而通过人工智能技术，从经验数据中获得机器人运动策略，最终实现机器人操作技能学习，当面临相近的操作任务应用需求时，机器人可以高效地对所习得的操作技能进行泛化处理，以生成新的操作技能来完成新的任务，从而极大增加了机器人系统编程的效率及灵活性。

机器人操作技能的高效率模仿学习过程包括三个阶段：

第一阶段是人类对机器人进行示教阶段。一般以在线示教为主，在示教过程中机器人跟随示教者进行运动，并同步采集到机器人本体、机器人与操作对象，以及环境的状态信息，包括位姿、速度、力矩、刚度、相对位姿关系等。

第二阶段是机器人操作技能的建模与学习阶段。通过非线性动态系统或轨迹编码算法对经验数据进行封装，形成技能模型，并通过技能学习获得模型参数。

第三阶段是机器人操作技能的实例化与泛化应用阶段。通过智能感知技术对新任务的目标进行识别与定位，将学习到的技能模型适应于环境的变化，并根据任务的需求选择合适的机器人控制模式。其实现过程如图1所示。

总体而言，机器人操作技能模仿学习是通过构建“感知-动作”的学习机制，赋予机器人“举一反三”的操作能力，显著提升机器人操作的编程效率与灵巧性，实现复杂任务下多样化技能的高效习得。

图1 机器人操作技能的模仿学习过程

机器人操作技能的可持续增强学习

增强学习（Reinforcement Learning）被认为是人类通往通用人工智能（artif cial general intelligence, AGI）的有效途径。在基于增强学习的机器人操作技能学习中，机器人以试错的机制与环境进行交互，并通过给定当前状态及其回报优化下一步动作，以最大化从环境获得的预期回报进行最优操作技能策略学习。相比于玩电脑游戏、围棋的增强学习问题，机器人操作技能的增强学习主要面临着三个方面的挑战：一是需要对机器人的高维连续状态与动作空间进行优化；二是真实机器人与环境交互的数据采集成本高昂且安全性低；三是策略模型训练效率低。

为了应对增强学习在机器人操作技能学习方面面临的挑战，目前机器人操作技能增强学习方法主要有两类：一是将机器人感知与控制模块融合进策略模型中，形成端到端的机器人操作技能策略模型，进而可以直接将传感器原始观察作为输入，并将底层执行器的驱动指令作为输出。由于这一学习过程是对机器人完成任务的每一步动作进行优化，也被称为基于步骤的机器人操作技能增强学习方法，如图2所示。

二是针对增强学习样本利用率低和学习效率低的瓶颈问题，在模仿学习的基础上，提出了一种基于运动基元表征（movement representation）的机器人操作技能增强学习方法，即将机器人完成任务的运动基元，例如，模仿学习中常用的动态运动原语（Dynamic movement primitives, DMP ）、概率运动基元（probabilistic movement primitives, ProMP）和核化运动基元（kernelized movement primitives,KMP）等，进行参数化后对这些运动基元的参数进行学习与优化，得到满足任务需求的运动基元参数配置。具体技术方案如图3所示。

通过结合模仿学习与增强学习的优势，将人类的操作经验进行知识化表达后再进行学习，具有较好的样本利用率和学习效率，这也是近年来机器人操作技能学习的主要研究方向。

由此可见，机器人操作技能的增强学习方法是通过构建“感知+控制”一体的机器人操作技能增强学习机制，不断从与环境交互中进行操作策略学习与持续优化，赋予机器人“熟能生巧”的操作能力。

机器人操作技能学习的相关研究

图2 机器人装配技能的增强学习方法

图3 融合模仿学习与增强学习的机器人操作技能学习过程

目前，国内外学者通过效仿人类进行操作技能学习的内在机制，将机器人操作技能学习系统划分为四个功能模块：机器人本体、感知与控制、技能模型与技能学习。其中，感知与控制是机器人本体与技能模型之间的中介层，通过视觉、触觉、听觉等传感器实现对操作对象和环境的状态感知，并由控制模块实现机器人本体的运动控制与执行。技能模型用于对经验数据进行封装，且不依赖于具体的机器人平台，可以由一定的参数配置实例化为具体的技能，其参数通常由技能学习实现。下面将针对技能模型与技能学习方法的不同，对目前机器人操作技能学习的相关研究进行阐述。

1.“举一反三”

为了赋予机器人“举一反三”的操作能力，学界提出了机器人操作技能的高效率模仿学习方法，包括基于非线性动态系统和轨迹编码两种技能模型。该方法能够充分利用人类的操作经验，将人类的操作技能传递给机器人，具有高效率、低成本等优点。

在动态系统方面，德国马普研究所的智能自主系统研究团队通过利用一系列线性可微方程，对人类示教的机器人运动进行建模，提出了基于动态系统的操作技能模仿学习方法，命名为动态运动原语（DMP）。该方法继承了非线性动态系统的条件收敛、对外界扰动的鲁棒性和时间独立性等优点，无论受到何种外界干扰，模型都将收敛于目标点。在此基础上，瑞士联邦理工学院的学习算法与系统实验室通过将机器人动力学与创新学习算法相结合，提出了一种基于非线性动态系统全局稳定估计（stable estimator of dynamical systems,SEDS）的机器人操作技能模仿学习方法，将动态系统与概率统计模型相结合，给出全局稳定性的约束条件，将参数估计问题转化为最优化问题对未知参数进行学习，实现了动态性很强的机器人复杂操作技能模仿学习，具有较强的抗干扰性和全局稳定性。国内，哈尔滨工业大学采用动态运动原语与高斯回归模型（Gaussian mixture regression, GMR）进行人机技能迁移学习，提出了基于阈值的启发式机器人操作任务分割算法，并在人机协作任务上进行泛化应用。华南理工大学提出了基于动态运动原语与模糊高斯混合回归模型的人机技能传递系统，并利用径向基神经网络进行机器人运动学估计，有效提升技能泛化的精度。广东省科学院针对已有操作技能模型在未知环境下感知能力不足的问题，提出了基于动态运动原语的机器人自感知操作技能模型(introspective movement primitives, IMPs)，不仅具备传统机器人操作技能的运动特性，还兼备了外界的感知能力，并结合有限状态机在机器人装配及物流装箱任务中进行了验证，实现了机器人复杂多步操作任务的增长式表征。

在轨迹编码方面，瑞士Idiap研究所通过高斯混合模型（Gaussian mixture model, GMM ）和高斯回归模型（Gaussian mixture regression, GMR），对人类示教的经验数据进行轨迹编码，构建了操作空间的机器人操作技能模仿学习框架，且利用相对熵作为轨迹泛化性能的指标，保证了技能的稳定性。德国达姆施塔特工业大学提出了概率运动基元（ProMP）对示范数据在时间和空间两个维度的不确定性进行联合建模，使技能模型具有运动预测及增加中间过渡节点的能力。英国利兹大学在GMM/GMR模型的基础上采用了核函数对回归函数进行建模，提出了核化运动基元（KMP）的机器人操作技能模仿学习方法，适用于高维输入变量的情况。国内，华中科技大学针对人机技能模仿学习中任务约束的不确定性问题，提出了基于GMM/GMR模型的闭环式人机技能传递方法，有效提升技能模型泛化应用的精度和鲁棒性。中国科学院自动化所提出了基于GMM/GMR的机器人微装配技能模仿学习方法，实现了毫米级零件微米级精度的微装配技能学习，实现人机高精度装配技能的迁移。

2.“熟能生巧”

为了赋予机器人“熟能生巧”的操作能力，学界提出了机器人操作技能的可持续增强学习方法，让机器人以试错的机制与环境进行交互，通过最大化累计奖赏的方式学习得到最优操作技能策略。相比于模仿学习，该方法主要适用于人类难以示教，甚至不能示教，以及具有较高不确定性因素影响的操作任务，如打乒乓球、平底锅翻饼、物体抓取等。

美国加州大学伯克利分校的机器人人工智能与学习实验室提出了针对机器人操作任务的端到端深度视觉策略（visuomotor policy），将感知与控制融合于策略模型中，实现了直接由原始的观测状态，包括机器人关节角、关节速度、末端位姿、末端速度和RGB图像作为策略模型输入，输出机器人关节力矩。该方法不仅实现了较为复杂的操作技能，而且避免技能学习对相机标定、机器人动力学模型、视觉特征提取算法的依赖，展现较强的通用泛化能力，并在需要视觉和控制之间密切协调的拧盖子任务进行了验证。谷歌大脑耗时4个月采集了14台真实机器人总共随机进行80万次抓取物体的数据进行抓取技能学习，成功率为82%；在此基础上，为了提高效率，提出了一种off-policy的增强学习算法QT-Opt，并通过7台真实机器人收集超过58万次的抓取数据进行训练，实现了对未知物体抓取成功率达96%。谷歌大脑联合剑桥大学在4台真实机器人上采集视觉、惯性测量单元、关节编码器等多模异构信息融合的操作经验数据，并基于深度增强学习算法进行机器人随机目标点到达和开门技能的学习，平均成功率达90%。DeepMind提出了基于数据驱动的技能学习框架，在常见物体的抓放、堆叠等2种技能应用中的成功率分别为80%和60%，而该框架依赖于人工的偏好进行新技能的学习，需要重新设计网络及经历8小时～12小时的调试后才能实现一个简单的插入技能应用。

国内，清华大学针对人类示教数据量不够和质量不高的问题，提出了基于示教的操作技能增强学习方法，将技能建模成一个带约束的优化问题，实现了在专家示教附近寻找最优的技能策略，大幅度提升了技能学习效率。山东大学将机器人装配任务划分为两个阶段，先由视觉引导进行精定位，再通过深度确定性策略网络进行精装配，提出了基于力/力矩和机器人本体运动量等多模信息描述的机器人柔性装配技能学习方法，并在卡扣式装配任务进行了验证。腾讯机器人实验室采用最小化操作技能逆动力学差异的方法，分析了由观测和牵引示教两种方式进行多自由度智能体技能学习的性能，并将相关方法在虚拟场景下进行了验证。英特尔中国研究院提出了基于动态运动单元的机器人学习系统，通过DMP对机器人操作技能进行表达后，采用增强学习算法实现投掷、做菜等任务。

机器人操作技能学习的未来发展趋势

机器人操作技能学习作为人工智能与机器人学的交叉领域，通过让机器人从人类示教或与环境交互的经验数据中进行操作技能的自主获取与优化，并扩展应用于未知环境或任务，是实现机器人快速编程、高效适应和灵巧操作的有效途径。由于算法、算力、算据作为人工智能技术发展的三大支柱，同样也直接决定了机器人操作技能学习的上限。

一方面，利用深度学习已经部分解决机器人通过视觉、触觉、听觉等传感器进行外界感知的问题，并且基于模仿学习和增强学习理论框架，机器人操作技能已取得初步的成效，让机器人具备一定的自主决策与学习能力，但目前大部分工作尚处于理论研究阶段，机器人所实现的操作技能相对简单，与人类相比还有较大的差距。在这个问题上，麻省理工学院机器人专家Leslie Pack Kaebl ing于2020在Science上发表一篇名为“The Foundation of Eff cient Robot Learning”的文章，指出要想实现下一代机器人学习的技术革新，必须综合考虑工程原理、生物学灵感、系统设计阶段学习以及最终的在线学习，才能打造出类人的智能机器人。

另一方面，目前机器人操作技能学习主要集中在单个机器人对单个任务的学习，缺乏从多个机器人、多个任务以及不同任务之间进行学习。为实现这一目标，需要对过往的操作经验进行知识化表达，让机器人学习到任务和环境的不变量并存储起来，以便在学习新任务时利用它们，这就需要算力超强的“云端大脑”提供支撑，形成“云-边-端”协同计算架构的机器人操作技能学习与应用平台。

最后，在面临算据不足的问题上，目前已提出了少样本学习、迁移学习等理论框架，以及通过高逼真度的机器人物理仿真引擎，实现机器人操作技能的“虚-实”迁移，但都将难以消除“虚-实”之间的差异性。对此，构建具备硬件无关、传感共享、技能派生和群体智能特征的云机器人平台，将促进机器人操作技能学习技术更好落地应用。

机器人操作技能学习作为人工智能加持下的机器人编程新模式，已受到了社会各界的广泛关注与认可，随着人工智能与机器人技术的不断突破，我们有理由相信，机器人将成为人类日常生活的一部分，在工业、服务、医疗、教育和军工等领域提供帮助，并逐渐改变原有的产业模式，甚至是人类的生存模式。