如今,科学家们提出了各种方法学习应用于机器人上的视觉运动策略。其中常用的就是在模拟环境中进行学习,然后将其迁移到现实世界中。在本文中,澳大利亚机器人视觉中心(ACRV)、昆士兰科技大学(QUT)和莫纳什大学(Monash University)的科学家们提出了一种对抗鉴别式迁移方法,用于将视觉运动策略以更低的成本从模拟迁移到真实世界中。
现如今,人们已经提出了各种方法来学习用于现实世界机器人应用的视觉运动策略。其中一种解决方案是:首先在模拟中进行学习,然后将其迁移到真实世界。在迁移的过程中,大多数现有方法需要带有标记的真实图像。然而,在许多机器人应用中,标记的过程通常是昂贵甚至是不切实际的。在本文中,我们提出了一种对抗鉴别式的从模拟到真实的迁移方法,以降低标记真实数据的成本。该方法的有效性通过一个桌面物体抓取任务的模块化网络得以演示。在该任务中,一个具有7个自由度的手臂被控制在速度模式下,以通過视觉观察抓取杂乱环境中的一个蓝色长方体。该对抗性迁移方法将对标记实际数据的需求降低了50%。策略可以通过仅使用93个标记和186个未标记的真实图像迁移到真实环境中。这种迁移的视觉运动策略对于杂乱环境中的全新(在训练中未见过的)对象甚至是移动目标是具有鲁棒性的,达到了97.8%的成功率和1.8厘米的控制精确度。
近年来,大型数据集和复杂的机器学习模型(通常称为深度学习)的出现创造了一种趋势,即从手动的解决方案转向更多由数据驱动的解决方案。自早期研究(Krizhevsky等人于2012年提出)以来,学习技术在鲁棒性和性能方面取得了显着提高,特别是在计算机视觉领域。
传统的基于机器人视觉的抓取方法是基于手动的控制器的。这些控制器将(启发式)运动规划器与手动操作的特征相结合,以可视化地定位目标。最近,人们提出了解决这个问题的学习方法,但是大多数方法面临的一致问题是依赖大量数据来训练这些模型。而泛化则形成了另一个挑战:当学习模型被应用于与训练中所使用的不同的机器人配置或场景时,许多当前系统都是非常脆弱的。这就引出了一个问题:如何更好地学习和迁移机器人的视觉运动策略以完成诸如抓取的任务?
人们已经提出了各种方法来解决这个问题。一些研究试图直接从大规模真实世界数据集中学习(Levine等人于2016年;Pinto和Gupta于2016年提出)。然而,在机器人应用中收集大量真实数据可能会十分昂贵。例如,一个拥有6到14个物理机器人的“手臂农场”被开发用以并行收集数据,以学习机器人抓取(Levine等人于2016年提出)。因此,人们提出了一些方法,通过使用模拟或合成数据来降低收集大量真实世界数据的成本(Bateux等人于2018年;D'Innocente等人于2017年;Tobin等人于2017年;James等人于2017年提出)。
还有一些人试图利用模拟和真实数据来获得更加平衡的解决方案(Fitzgerald等人于2015年;Tzeng等人于2016年提出)。一种特殊的方法是模块化的深度Q网络,用于在模拟中学习平面抓取任务,然后将其迁移到具有少量已标记的真实图像的真实环境中(Zhang 等人于2017年提出)。
在这项研究中,我们扩展了模块化方法(Zhang等人于2017年提出),并专注于同时利用模拟和真实数据来学习机器人技能。在模块化的深度Q网络中,已标记的真实图像是先前使用过的。虽然其数量很少,但标记数据的成本很重要。相比之下,图像本身对于基于视觉的机器人系统来说是便宜的。为了获得更多的数据有效学习,人们提出了一种类似于GAN的对抗式方法(Goodfellow等人于2014年提出),以学习使用已标记的合成数据和未标记的真实数据来进行抓取的分类器(Bousmalis等人于2018年提出)。然而,大多数现有研究都使用对抗式方法进行分类任务,例如对可行驶路径分割进行增量式的对抗式域自适应(Wulfmeier等人于2018年提出)。据我们所知,目前还没有使用对抗式方法来对回归任务进行迁移的研究。
在本文中,我们提出了一种用于回归迁移的对抗鉴别式方法,并研究了其从模拟到真实世界学习视觉运动策略的有效性。该方法通过视觉化引导的桌面物体抓取任务中用于具有7个自由度的机械臂的模块化网络进行了验证(图1)。通过引入对抗时损失,仅使用93个已标记的和186个未标记的真实图像,就可以成功地将视觉运动策略从模拟(图1A)迁移到真实(图1B)环境。受益于模块化结构和加权的端到端微调,经过学习的视觉运动策略实现了1.8厘米的抓取精度,且仅有333条轨迹(在模拟中所收集的30225个状态速度对)。经过学习的视觉运动策略不仅能够在可见的杂乱干扰物中抓取到目标对象,而且在全新的(在训练中未见过的)干扰物乃至在目标对象移动的情况下也能够实现抓取。特别地,本文有三个主要贡献:
·在半监督方式中引入对抗鉴别式方法,以便从模拟到真实世界实现更高数据效率的感知迁移,用减少了50%的已标记真实数据实现较高的精确度(2.7 厘米),以及用减少了75%的已标记真实数据实现稍差一些的精确度(3.0 厘米)(与监督自适应相比:2.8厘米)。
·进一步验证模块化神经网络(Zhang等人于2017年提出),在更逼真的机器人抓取任务中实现视觉运动策略从模拟到真实的迁移:桌面物体在速度模式下使用一个具有7个自由度的臂在杂乱中实现抓取,成功率达到97.8%,精确度达到1.8厘米。
·通过综合比较实验和详细分析,对我们的对抗鉴别式方法中的重要因素所进行的研究显示出了它对未来研究的益处和局限性。
相关研究
数据驱动的学习方法在计算机视觉中越来越普遍,并开始取代机器人应用中的手动解决方案(Sünderhauf等人于2018年提出)。特别是人们对机器人视觉任务(直接基于真实图像数据的机器人任务)的兴趣越来越大,例如物体抓取和操纵(Levine等人于2016年;Pinto和Gupta于2016年;Lenz等人于2015年提出)。数据驱动的机器人学习方法中的一个重要因素是来自真实世界或模拟中的大规模数据集。
从真实数据集中学习
在真实世界中,许多并行操作机器人的使用提升了收集深度学习所需的数据集的速度(Levine等人于2016年提出)。使用所记录的超过80万次抓握尝试,对一个深度网络进行训练以预测一系列动作的成功率。这些动作的目的在于使用带有双指抓手的具有7个自由度的机械臂进行抓取。结合简单的无导数优化算法,该抓取系统的成功率达到80%。另一个用于抓取的数据集收集样本是在真实世界中进行自监督抓取的学习方法,其中,力传感器用于自主标记样本(Pinto和Gupta于2016年提出)。在使用分阶段倾斜方法对5万个真实世界的试验进行训练后,深度卷积神经网络(CNN)获得了70%左右的抓取成功率。
上述结果令人印象深刻,但在费用、空间和时间(数周至数月)方面的成本很高。为了降低成本,Levine等人引入了基于CNN的策略表征架构,增加了引导式策略搜索(GPS)以学习视觉运动策略(将关节角度和相机图像映射到关节力矩)(Levine等人于2016年提出)。这可以通过提供oracle(或专家的初始条件来开始学习)减少真实世界训练样本的数量。它在复杂的任务中已经取得了令人印象深刻的结果,例如悬挂衣架、将块插入玩具以及拧紧瓶盖。
从模拟中学习
模拟是另一种降低收集真实数据集成本的资源。通过域随机化,使用真实的RGB相机观察操作任务中的真实场景,在模拟中学习到的策略具有強大的鲁棒性,足以直接用于真实机器人(Tobin等人于2017年;James等人于2017年提出)。最近也有人提出了模拟深度图像来学习,然后直接将抓取技能迁移到真实世界的机器人手臂(Viereck等人于2017年提出)。
也有一些负面结果表明,在低保真度的模拟器中所学习到的视觉运动策略不会通过真实相机观察真实场景而直接迁移到真实机器人上(Zhang等人于2015年提出)。实际上,在模拟环境中,非常小的图像失真(小的平移、高斯噪声和RGB颜色通道的缩放)会导致系统的性能急剧下降。引入真实相机来观察游戏屏幕甚至更糟(Tow等人于2016年提出)。然而,如果采用少量真实图像,在低保真度的模拟器中学习的视觉运动策略可以很好地迁移到机器人平面抓取任务的真实场景中(Zhang等人于2017年提出)。
迁移学习
迁移学习尝试开发在不同任务(场景)之间迁移知识的方法(Pan和Yang于2010年;Taylor和Stone于2009年提出)。为了减少真实世界中收集的数据量(昂贵),将技能从模拟迁移到真实世界是一种很有吸引力的选择。对于模拟中的预训练而言,使用非常少的真实样本进行自适应需要合适的迁移学习方法。
为了减少学习视觉运动策略所需的真实世界图像的数量,人们提出了一种从模拟到真实环境的自适应视觉表征方法,在“钩环”任务中实现了79.2%的成功率,只用了真实世界图像的数量的十分之一(Tzeng等人于2016年提出)。另一个基于视觉的策略迁移的例子是渐进式神经网络(progressive neural networks),它被提出用于在学习复杂的任务序列时改善迁移并避免灾难性的遗忘(Rusu等人于2016年提出)。它们的有效性已经在强化学习任务上得到验证,例如Atari、3D迷宫游戏以及模拟机器人操作(Rusu等人于2017年提出)。
与GAN类似,Goodfellow等人于2014年人们也提出了在分类背景下用于域自适应的对抗式方法,例如手写数字识别(Tzeng等人于2017年;Luo等人于2017年;Ge等人于2017年提出)、地点分类和分割(Wulfmeier等人于2017年,2018年提出)。另一种类似的方法是域混淆,其可行性已经在目标识别(Tzeng等人于2015年提出)和细粒度识别(Gebru等人于2017年提出)中得到验证。还提出了一种提高学习分类器效率的对抗式适应方法,以确定抓取命令是否成功(Bousmalis等人于2018年提出)。这些方法使用于分类任务的数据有效的域自适应成为可能,但是,我们还没有找到任何使用对抗式方法进行回归任务的研究。
在我们之前的研究中(Zhang等人于2017年提出),提出了一种模块化结构和它的训练方法,以便以低成本的方式将视觉运动策略从模拟迁移到真实世界。通过使用1418个已标记的真实图像对在模拟中已预训练的感知模块进行微调从而实现迁移。本文提出了一种半监督的迁移方法来减少所需的已标记真实图像的数量。我们将这种半监督方法称为对抗鉴别式迁移(Adversarial Discriminative Transfer,ADT),其主要受益于对抗式损失的引入(Tzeng等人于2017年提出)。
在本文中,我们提出了一种对抗鉴别式迁移方法,用于将视觉运动策略以更低的成本从模拟迁移到真实世界。其可行性是通过任务中的模块化方法证明的,该任务是在速度模式下使用一个具有7 个自由度的机械臂在杂乱环境中抓取一个桌面物体。我们的对抗式迁移方法将对已标记的真实数据的需求降低了50%。仅使用93个已标记和186个未标记的真实图像即可成功完成迁移。通过使用加权损失,以端到端的方式对组合网络进行微调,其抓取精确度得到显著提高(比进行微调前提高了37.9%),成功率为97.8%,中间控制误差为1.8厘米。该经过学习的策略对于杂乱环境甚至移动目标中的新型干扰物对象具有强大的鲁棒性。对抗鉴别式迁移以及模块化方法有望实现更为有效的视觉运动策略从模拟到真实世界的迁移。