基于未知物体三维点云特征的机器人六自由度抓取

2022-07-29 10:24:24李会军瞿孝昌

控制理论与应用 2022年6期

李会军,瞿孝昌,叶宾

(中国矿业大学信息与控制工程学院,江苏徐州 221116)

1 引言

在真实的非结构化环境中,如何确定形态各异的未知物体的六自由度(6–DOF)抓取位姿是机器人抓取动作的关键,其受到夹爪模型、抓取目标信息、环境感知和抓取规划等多方面因素的制约.现有抓取检测方法根据对数据操作的不同通常分为两大类:基于模型驱动的方法和基于数据驱动的方法[1].这些方法的最终目标都是在给定一个对象(或一堆不同对象)以及基本的环境约束条件下,寻找一个抓取位姿,使其抓取性能最大化[2].经典的模型驱动抓取检测方法十分依赖于已知的对象模型、接触信息和物理属性等先验知识[1].文献[3]首次提出了力封闭(force closure)约束条件的概念.在此基础上,发展出力平衡(force balance)[4]等其他判断抓取稳定性的指标.这些方法的目标大都是找到一组稳定的力封闭来抓住已知的对象[5],由于给出了对象的模型,抓取方法主要是基于目标检测和物体的位姿估计[6–7].但这种方法在确定抓取位姿时计算量较大,很难应用到实际生产中[8].针对上述问题,文献[9–12]采用了基于单阶段(one stage)思想的数据驱动抓取检测方法,对未知物体的视觉数据执行单阶段回归操作,拟合出抓取矩形框的参数.但是相比于处理回归问题,CNN在处理分类问题方面性能更优[13],因此文献[14–18]采用了基于双阶段(two stage)思想的抓取检测方法,即遵循“先采样,后评估”的原则,对采样到的抓取候选利用CNN等方法分类评估.这些方法主要以2D的RGB图像或2.5D的深度图作为输入,几乎没有模型考虑3D几何信息[19],因此这些方法只能将抓取约束为与图像平面平行的3–DOF定向矩形框,限制了抓取的多样性.

最近出现的一些方法开始考虑利用3D数据(如,体素、点云等)实现完整的6–DOF抓取操作[20–21].文献[1]提出了一种体素卷积神经网络(3D CNN)用于对24种预定义的6–DOF抓取位姿进行分类评估,但耗时较长.文献[20]提出了一种基于点云的抓取检测方法(grasp pose detection in point clouds,GPD),GPD根据点云局部表面法线和主曲率方向构建了一个Darboux框架,完成更加密集的采样,并通过将点云投影到2D平面上再输入到CNN中评估抓取性能,当输入点云总体稀疏时,GPD会出现严重的过拟合和性能下降现象[21].此外这种采样方式依赖表面法线,由于当采样点位于点云的边缘时,估计表面法线具有一定的难度,因此GPD无法沿着诸如杯子、盘子或碗的边缘之类的薄壁结构生成稳定的抓取候选[22].

为了解决直接从点云中获取未知物体抓取位姿的难题,本文提出了一种基于点云特征的6–DOF抓取位姿检测方法.算法流程如图1所示,主要包括抓取位姿采样、优化和评估3个模块.采样模块根据未知物体点云的基本几何信息(例如,表面法线、曲率和主轴等)生成丰富的抓取候选.优化模块利用力平衡等方法沿3个方向优化这些候选,实现高质量采样.评估模块采用可直接处理点云的ConvPoint模型评估样本,得分最高的抓取将被执行.仿真和实际抓取实验表明,该方法抓取成功率高、鲁棒性强,并且可以有效地拓展到真实环境中其他形状的未知物体.

图1 抓取检测流程Fig.1 Process of grasp detection

本文的主要贡献包括:

1) 抓取位姿采样相比于先前的方法[6,22],不需要对物体精确分割或识别,并且可以沿薄壁结构的边缘生成GPD[20]无法发现的力封闭抓取候选.此外针对GPD方法中样本冗余、计算量大等缺点,采用力平衡等优化方法代替局部网格搜索,实现高质量采样.

2) 抓取位姿评估网络是以3D点云作为输入,相比于以往的方法,不需要将点云投影到2D平面[20]或者转换成3D体素[1],可以充分利用物体的3D几何信息.

2 抓取位姿采样

给定一个任意位姿的未知对象(或一堆不同对象)和基本的环境约束条件下,抓取位姿采样算法的目的是找到一组抓取位姿候选集合G,使其均匀地分布在物体表面的可抓住部分.本文根据不同情况共使用了两种不同的采样方式:基于法线的采样方法和基于曲率的采样方法.

2.1 抓取位姿表示

为了方便分析,将所有的空间量都设定在相机坐标系Fc中.这里令由相机感知到关于未知物体的一组原始点云数据为C∈R3×n,其中n为C中点的个数.令机械臂末端夹爪坐标系为Fg,则6–DOF抓取位姿,即夹爪在Fc下的位姿可以表示为g=(d,r)∈R6,其中d=(x,y,z)∈R3和r=(rx,ry,rz)∈R3分别代表夹爪坐标系Fg相对于相机坐标系Fc发生的3–DOF位移和3–DOF旋转,x,y和z为沿对应轴位移距离,rx,ry和rz为绕对应轴旋转的欧拉角.抓取位姿候选集合G={g0,g1,g2,···,go−1},其中o为样本个数.抓取位姿g对应的抓取性能指标为Q(g,C).

本文仅考虑平行两指夹爪,为了方便分析夹爪与物体之间接触区域的复杂几何结构特征,需要简化模型.如图2所示,以夹爪底部中心点(即抓取点)为坐标原点O,夹爪与物体的接近方向为X轴正方向,夹指张开方向为Y轴正方向,Z轴正方向可通过右手坐标系法则确定,从而建立夹爪坐标系Fg来表示6–DOF抓取,则抓取位姿检测问题就转换为Fg的建立问题.其中夹爪闭合区域(夹爪的两夹指从完全张开位置移到完全闭合位置所扫过的区域)的长宽高分别为l,w和h.

图2 6–DOF抓取表示Fig.2 6–DOF grasp representation

2.2 基于法线的抓取位姿采样

基于法线的抓取位姿采样方法步骤如下:

步骤1获取点云表面采样点.首先通过点云预处理的方法去除C中的背景和噪声,令预处理之后的点云为C′ ∈R3×n′,其中n′为C′中点的个数.之后随机均匀采样m个点.m与生成的抓取位姿候选数量成正比,选取较大的m可以提高样本数量,但也会增加计算量,本文选取m=0.1n′.

步骤2计算每个采样点对应的法线和主轴向量.然后利用基于八叉树空间划分的半径内近邻搜索算法(neighbors within radius search)找到每个采样点的近邻点,从而获取每个采样点对应的局部邻域点云.对于每个局部邻域点云,使用主元分析(principal component analysis,PCA)来提取其几何信息.构建点云协方差矩阵Mc(p)如下:

其中:Br(p)代表采样点p对应的局部邻域点云,b为其中一点,k和pc分别为局部邻域点云Br(p)的点的个数和3D中心坐标.然后计算矩阵Mc(p)最小、最大特征值对应的特征向量n和s.则向量n和s分别为点云Br(p)在点p处的法线和主轴向量的平滑估计.令相机视角点的空间坐标为pv,通过转换n方向满足条件

使其统一指向相机视角点的反方向.

步骤3确定夹爪坐标系X轴和原点O.夹爪在实现抓取的过程中需要避免与物体发生碰撞,因此需要考虑夹爪的模型约束.如图2所示,以点p处表面法线向量n的方向为X轴正方向,并设置距离点p的X轴反方向d处为坐标原点O.其中d ∈(0,l),即偏移距离不超过夹爪的长,这里默认d=0.25l,第3节执行抓取位姿优化时会根据不同情况修改d值.

步骤4确定夹爪坐标系Y轴和Z轴.由于与物体主轴正交的抓取比随机采样的抓取更稳定[25],因此根据点p处的主轴向量s来确定Y轴.主轴向量s与X轴向量n之间的外积为其公垂向量,并以该公垂向量方向为Y轴正方向,最后Z轴可以根据右手坐标系法则确定.令ex,ey和ez分别为X轴、Y轴和Z轴正方向上的单位向量,则

从而构建采样点p所对应的第1类夹爪坐标系Fg(p),并以此作为夹爪的初始位姿,如图3(a)所示.

2.3 基于曲率的抓取位姿采样

基于物体表面法线的抓取位姿采样方法可以生成大量稳定的抓取候选.但是当采样点位于点云的边缘时,估计表面法线具有一定的难度,因此这种采样方式无法沿着诸如杯子、盘子或碗的边缘之类的薄壁结构生成稳定的抓取候选.本文提出的基于曲率的抓取采样方法以最小曲率轴向量为夹爪的接近方向,且不依赖于法线信息,可以在点云边缘处生成稳定抓取候选.

基于曲率的抓取位姿采样与基于法线的方法类似.首先对于每个局部邻域点云Br(p)构建矩阵Mn(p)如下:

其中n(b)表示在点b处的表面法线向量,并根据式(2)使其统一指向规定的正方向.然后计算矩阵Mn(p)最大特征值对应的特征向量v.则向量v为采样点p处的较小主曲率轴的平滑估计.最后与基于法线的采样算法不同的是,该方法以最小曲率轴向量v的方向为X轴正方向,此时夹爪夹指与抓取物体接触面的拟合程度最高,夹指对物体施加的作用力能够最大程度地均匀作用在物体上.坐标原点O,Y轴和Z轴方向的确定与第2.1节的方法相同,从而构建采样点p所对应的第2类夹爪坐标系Fg(p),如图3(b)所示.

图3 抓取位姿采样Fig.3 Grasp pose sampling

3 抓取位姿优化

对于任意位姿的未知物体,虽然上述抓取位姿采样算法生成了大量的抓取候选,但是由于在采样过程中并没有考虑到评估抓取性能的指标,因此每一个采样点对应的稳定抓取候选只是良好的抓取,而非该点对应的局部最优抓取.此外,抓取候选中也包含了少数的不稳定抓取,这些不稳定抓取可能接近稳定抓取[22].因此需要使用一种优化方法优化原始的抓取候选,从而提高抓取鲁棒性,实现高质量采样.具体来说,在给定采样点p对应的抓取位姿g和抓取物体点云数据C的条件下,在点p邻域内寻找一个齐次变换矩阵T∈R4×4,使得Q(g∗,C)>Q(g,C),其中g∗=gT∈R6代表g经过T变换之后的抓取位姿.

对于第2节获取的每一个抓取位姿候选,本文使对应的夹爪坐标系Fg(p)按顺序分别沿其X轴方向、Z轴方向和绕X轴方向优化,根据不同的抓取性能指标确定变换矩阵,将变换之后的抓取位姿作为原始候选的优化结果.

3.1 基于力平衡的抓取位姿优化

力平衡是一种由力封闭[3]发展而来新的抓取检测算法,在力封闭的基础上,该方法根据夹爪与物体接触面轮廓分析评估抓取的稳定性[4].由于夹爪坐标系Fg(p)的X轴方向点云因遮挡无法反映完整轮廓信息,因此选择Fg(p)的Y OZ平面进行力平衡分析,利用这种评估指标沿Fg(p)的Z轴方向细化原始的抓取位姿,优化步骤如下:

步骤1生成Fg(p)邻域内新的抓取候选.首先以第2节中获取的Fg(p)作为初始搜索位置,并沿着其Z轴方向以∆z的步长位移,生成新的抓取候选,如图4所示.令Tz∈R4×4为对应的齐次变换矩阵,则新的夹爪坐标系可表示为Fg(p)Tz,且

图4 邻域内新的抓取候选生成Fig.4 Generation of new grasps in the neighborhood

其中n ∈{0,±1,±2,···}.令在Fg(p)领域内生成抓取候选集为G(p).这里∆z反映了沿Z轴方向优化精度,n反映了生成新的抓取候选数量,本文选取∆z=h,n={0,±1,±2}.

步骤2提取投影点云的轮廓.然后将相机坐标系中的点云转换到获取的坐标系Fg(p)Tz中.利用直通率波的方法保留夹爪闭合区域内点云Ce,如图4中的品红色的点云所示.将点云Ce投影到Fg(p)Tz的Y OZ平面上,获取投影点云.采用基于凹包(concave hull)的边缘检测算法提取投影点云的轮廓,图5中蓝色点为提取结果.

步骤3拟合轮廓直线.使用最小二乘法对投影点云轮廓左右两边的抓取接触边界分别进行直线拟合,获取的拟合直线用z=Ky+B表示,K和B值可以通过下式求出:x

其中n为需要拟合的点的个数,图5中红色直线为拟合结果.根据K值求出两条拟合直线之间的夹角δ.

图5 Y OZ平面力平衡计算Fig.5 Computation of the force balance on Y OZ plane

步骤4计算Y OZ平面上的力平衡.在力平衡方法中[4],抓取接触边界拟合直线之间的夹角越小,即δ越小,抓取稳定性越高,最优的抓取应该在两条平行的直线上,因此选择δ最小的抓取作为原始抓取位姿的优化结果.具体地,根据式(6)求出领域候选集G(p)中每个抓取对应的δ,并求出其中最小值δ∗=min{δ0,δ1,δ2,···,δo−1},其中o为G(p)中抓取候选的个数.令为δ∗对应的变换矩阵,则Fg(p)沿其Z轴方向的优化结果为.

如图6(a)展示了钳子抓取候选使用该优化方法前后的效果对比.优化之前Fg(p)位于钳子的尖端,此时δ约为30°,当夹爪闭合时物体很容易脱落.优化之后Fg(p)沿其Z轴位移,当移动到6(a)中右图所示的位置时,δ约为0°,抓取稳定性更高.

3.2 基于目标函数的抓取位姿优化

绕夹爪坐标系Fg(p)的X轴优化步骤如下:

步骤1抓取接触建模.本文使用的执器为平行二指夹爪,根据对心抓取(antipodal grasp)[3]约束条件可知,当夹爪与物体的两接触点连线(即夹指作用力所在直线)位于对应的摩擦圆锥(friction cone)内部时,满足力封闭约束条件,夹爪可以稳定抓取物体.如图5所示为接触点之间的简化力封闭,其中A1和A2分别为夹指与物体表面的接触点,a1和a2分别为对应的摩擦圆锥.但是满足对心抓取条件的抓取方式有多种,每个抓取的鲁棒性并不相同.在实际应用中由于机械臂定位和传感器检测的误差,导致鲁棒性较小的抓取候选可能会转化为不稳定抓取,例如图5直线A1A2虽然在摩擦圆锥内,但与摩擦圆锥a1中心轴(即接触点的表面法线)夹角较大,当外界存在一定的干扰时,抓取极有可能会失败.

步骤2构建目标函数.为了提高抓取候选的鲁棒性,通过最小化夹指作用力与法线夹角绝对值之和的方的方法绕Fg(p)的X轴方向来对原始的抓取候选进行优化,从而使每个夹指作用力尽可能沿其对应的法线方向.构建目标函数如下:

其中:α为将原始夹爪坐标系Fg(p)按照右手法则绕X其轴旋转的角度,M为接触点个数,θ(α)为夹指作用力与表面法线的夹角,且θ ∈(−90°,90°].根据几何分析可知,θ(α)也等于第3.1节获取的抓取接触边界拟合直线与夹爪坐标系Z轴的夹角.

步骤3计算变换矩阵.令Tα ∈R4×4为抓取候选绕Fg(p)的X轴方向优化的齐次变换矩阵,则

如图6(b)中左右两部分分别为喷雾瓶抓取候选优化前后的效果对比.优化之前每个θ(α)大小约为15°,当存在定位或检测误差时,该抓取可能会转化为不稳定抓取.经过优化之后Fg(p)绕其X轴方向旋转,当外界存在干扰时,作用力很难偏移到摩擦圆锥外,抓取鲁棒性更高.

此外对于碰撞(包括夹爪指尖与桌面背景的碰撞),将Fg(p)沿其X轴的反方向位移(即增大d),直到碰撞消失.如果在夹爪闭合区域中点的个数为0,或者运动距离超过设定的阈值(本文根据初始的d=0.25l设定阈值为0.75l),则中止此过程,如图6(c)中左右两部分分别为多个纸盒抓取候选优化前后的效果对比.优化之前由于设定的偏移d较小,导致了抓取候选与另一个纸盒发生碰撞.优化之后该碰撞消失.

图6 抓取位姿优化Fig.6 Grasp pose optimization

对每一个抓取候选使用上述的抓取优化方法,则经过优化之后的抓取候选集合可以表示为

4 抓取候选性能评估

为了获取抓取候选集G∗中最优的抓取位姿,需要一个端对端的抓取性能评估网络,使其可以在给定抓取位姿g和抓取物体点云数据C的条件下根据一个性能指标Qε(g,C)∈{0,1}评估抓取性能,其中ε为该评估网络的参数,0和1代表抓取标签.由于机器人需要与3D空间中的物体进行交互,因此精确和精细的3D视觉分析对于成功抓取至关重要.受CNN在各种3D计算机视觉任务中成功应用的启发,采用了可以直接处理3D点云的卷积神经网络ConvPoint[23]来评估抓取候选.最后从模型库YCB[24]中生成大规模抓取数据集来训练该评估网络.YCB所有对象模型都是由现实世界中的物体经过相机扫描生成的.通过使用现实的对象模型,表明该抓取检测方法可以拓展到实际抓取中.

4.1 抓取数据集

为了生成抓取数据集,需要执行采样和标注两个步骤.从模型库YCB中选择不同类别共180个对象,包括盒子、圆柱体、碗、和杯子等,并生成不同单视角下的观测点云.根据第2节与第3节的方法从观测点云中采样以获取抓取样本.然后在实际的机器人抓取实验中验证抓取的可行性来标注样本,机器人根据抓取样本对物体执行抓取操作,并根据抓取是否成功来为样本分配标签.将抓取性能指标定义为

其中:γ(单位:m)为机器人在1 min之内将物体抓起的最大高度,t(单位:s)为抓取之后执行预先设置的夹爪摇摆动作,物体未从夹爪中脱落所持续的时间.

4.2 网络结构

与RGB图像相反,3D点云是无序且没有结构的数据.因此大多数为图像开发的机器学习方法无法直接移植到点云上.ConvPoint通过将连续卷积核替代离散卷积核,用于直接处理点云.该卷积运算与离散卷积类似,但与其他点云CNN只输入点云空间域值不同的是,该模型综合考虑了空间域和特征域值.如图7所示为基于ConvPoint的抓取性能评估网络,Cin和Cout分别为输入和输出通道.最终的卷积运算输出u可以表示为

图7 基于ConvPoint的抓取性能评估网络结构Fig.7 Architecture of grasp quality evaluation network based on ConvPoint

其中:β为偏移量,X={(pj,xj)}为点云输入,K={(ci,wi)}为卷积核,pj和ci代表空间域值,xj和wi为特征域值,|X|和|K|分别为X和K的基数,且|X|=|K|.φ为几何权重函数,将φ函数应用于{pj −ci},即空间点与卷积核元素之间相对位置的集合,来满足点云的变换不变性,并利用一个简单的多层感知机(multilayer perceptron,MLP)学习获取权重函数φ.最后采用求和函数作为对称函数提取特征,以满足点云的排列不变性.整个卷积层包括:输入点云采样,对每个采样点使用k-d树获取其局部领域点云,并输入到上述卷积操作提取点云特征.

为了将抓取位姿g和抓取物体点云数据C相关联,将夹爪封闭区域内部的点云Ce作为评估网络的输入,从而将点云转换到统一的夹爪坐标系中,消除由不同相机引起的歧义[21].在输入到网络之前,还需要对Ce预处理,包括:舍弃其中点的数量少于50的样本、上采样/下采样为750个点、归一化和中心化.通过网络的传递,点云Ce在经过5层上述连续卷积操作之后,逐渐减少点云输出点的数量,增加输出通道数,最后将提取的点云特征输入到全连接层(fully connected layers,FC)中用于对抓取候选性能进行分类评估.

4.3 网络训练

使用第4.2节获得的抓取数据集来训练抓取性能评估网络,每批训练数据都包含50%的成功抓取样本与50%的失败抓取样本.为了扩充数据,向点云Ce添加随机偏移,但仍将所有点保持在夹爪封闭区域内.使用修正线性单元(rectified linear unit,ReLU)作为神经元的激活函数,并在每个激活函数之前插入批归一化层(batch normalization,BN)加速网络的收敛,减小过拟合.利用2分类交叉熵损失函数L优化整个评估网络

其中:y为样本的2进制标签,表示抓取是否成功,q代表模型预测样本属于对应标签的概率.

5 实验验证

为评估提出的抓取位姿检测算法的有效性,分别在仿真和机器人实际抓取实验中进行测试.仿真实验中,从力封闭率和鲁棒性[26]两个指标定量评估本文的抓取候选采样方法,并通过消融实验探究抓取优化算法的效果.实际抓取实验中,在两种抓取条件下验证本文方法能否有效推广到实际环境中任意位姿的未知物体.实验所用硬件配置如表1所示.

表1 硬件配置Table 1 Hardware configuration

5.1 仿真实验

利用力封闭率和鲁棒性两个指标定量评估抓取采样方法,其中力封闭率Rf=,n0与n1分别为原始样本和力封闭抓取总数.此外,在实际应用中,机械臂定位和相机感知的不准确可能会影响最终的抓取成功率,因此引入一个鲁棒性得分来评估生成抓取候选的鲁棒性.对于抓取候选集中每一个力封闭抓取,通过将3–DOF 随机位移∆d和3–DOF随机旋转∆r应用于该抓取模拟非结构化环境中的不准确,创建错误抓取样本.考虑到夹爪的静摩擦系数和抓取对象的平均尺寸,本文选取∆d ∈[−8°,8°],∆r ∈[−10 mm,10 mm],则鲁棒性得分Rr=,其中n2与n3分别为添加随机变换之后样本和力封闭抓取总数.

消融实验中,从YCB模型库中选择13个常见物体并在不同视角下生成共92个的观测点云,其中也包括完整的模型点云.测试结果如图8所示,可以看出,在使用抓取优化技术之后,生成的抓取候选集相比于不使用样本优化,其力封闭率提高了13.14%,鲁棒性得分提高了12.92%.这主要是由于在对抓取候选进行优化时,使每个夹指作用力方向与对应的摩擦圆锥中心轴夹角尽可能小,当外界存在干扰时,作用力很难偏移到圆锥外,这验证了提出的抓取优化算法能够有效提高抓取样本的整体性能.与GPD方法相比,优化之前本文的抓取候选集鲁棒得分有所降低,这主要是由于GPD为了提高抓取候选的覆盖率,对符合条件的样本绕对应Fg的X轴执行局部网格搜索,一定程度上提高了鲁棒性抓取所占比例,但计算量较大.本文使用第3节的优化方法替代这种搜索,如图8所示在使用抓取优化之后其抓取候选集力封闭率提高了14.33%,鲁棒性得分提高了10.44%,这表明本文生成的抓取样本性能更高.用真实的机器人执行这些抓取将会有更高的抓取性能,因为感知和抓取定位的不准确仍将导致成功的抓取.

图8 抓取位姿采样对比Fig.8 Comparison of grasp pose sampling

5.2 实际实验

为了验证提出的抓取方法能否有效推广到抓取非结构化环境中的未知物体,综合评估抓取方法的性能,在两种抓取条件下进行实验:单物体抓取和多物体抓取.所有的实验都是使用一个桌面级机械臂7bot来完成的,该机械臂配有一个平行两指夹爪.此外,由于使用的中科行智3D结构光相机是单一且固定式的,因此实验输入的点云为单视角点云,这对于抓取更具挑战性.抓取对象中除了盒子、螺丝刀和喷雾瓶等结构简单且主轴明显的物体外,还包括外形复杂且不规则的常用物品,例如钳子、碗和马克杯等,且训练集中不包含这些物体的实际点云信息,即为未知物体.整个抓取环境和抓取对象如图9所示.

图9 机器人实验配置Fig.9 Settings of robotic experiments

考虑到不同的实验环境可能会带来不同的实验结果,分别在单物体和多物体抓取两种不同的实验条件下对不同位姿的对象或对象集进行抓取检测.对于硬件配置,该实验适用于任意可以生成3D数据的深度传感器(如Kinect)以及多自由度机械臂(如ABB/IRB-120),但不适用于除二指夹爪以外的执行器.

单物体抓取:对于如图9所示中的每个抓取对象,以任意位姿放置在机器人有效工作区域内,使相机能够无障碍地观察到物体.每个物体进行10轮抓取测试,根据式(13)判断抓取是否成功.该实验考虑最终的抓取成功率Rs=,即成功抓取数量n5占总抓取数量n4的百分比.此外,为了检验本文方法的执行效率,对于GPD和本文方法都能成功抓取的上述一组实验,分别记录其检测算法运行时间,并取平均值作为实验结果.这里的运行时间指从抓取候选生成到分类获取最优抓取所用时间,不包括数据加载和预处理时间.如表2所示展示了两种不同的方法对单个物体的抓取结果.从表中可以看出,在抓取成功率方面,相比于GPD,本文方法平均成功率更高,这种优势在马克杯等外形复杂的物体上更加明显,其中一个主要原因是本文的抓取采样方法生成了更多类型的抓取候选.如图10所示展示了两种方法在真实环境中马克杯上生成的抓取候选(两种方法均匀采样点的个数均为200),本文的方法在马克杯边缘处生成了GPD 无法发现的抓取样本.在执行效率方面,本文方法的检测效率相比于GPD有了显著的提升,约为0.72 s.这主要是由于GPD对符合条件的样本被动地执行一个局部二维网格搜索,虽然提高了抓取候选数量(几千个),但计算量较大.本文以第3节优化方法代替这种搜索生成少而优的样本(几百个).机器人部分单物体抓取结果如图11所示,其中左图表示检测到的最优抓取位姿,右图表示机器人实际执行最优抓取动作.

图10 生成抓取可视化Fig.10 Visualization of generated grasps

图11 机器人单目标抓取Fig.11 CRobotic grasp for single object

表2 单物体抓取实验对比Table 2 Comparison of single object grasping experiments

多物体抓取:从如图9所示的抓取物体中随机选择2–4个物体作为抓取对象集,并将这些物体以随机位姿放到机器人工作区域内.共选择4 组不同的抓取对象集,每组进行5 次抓取实验.为了检验抓取方法对多物体的适用性,使用成功率和完成率作为评估指标,其中完成率Rc=,即机器人从对象集中成功移除物体数量n7占对象集物体总数量n6的比例.由于抓取对象集中物体的数量会影响最终的抓取时间,并且不同机器人执行抓取动作效率也不相同,因此多物体抓取实验不考虑最终执行时间.如表3所示展示了两种不同的抓取方法对多物体的抓取结果,从表中可以看出本文的抓取方法与GPD相比,成功率提高了10.83%,完成率提高了18.75%,表明本文提出的抓取检测方法对于抓取真实环境中的多物体具有更高的适用性.

6 结论

本文针对非结构化环境中任意位姿的未知物体,提出了一种基于点云特征的机器人6–DOF抓取位姿检测方法.该方法首先根据点云的基本几何信息生成抓取候选,并利用力平衡等方法优化样本,提高了候选的多样性和鲁棒性,实现了高质量采样.然后采用可直接处理点云的CNN评估抓取候选,相比于以往的方法,不需要将点云投影到2D平面或者转换成3D体素,有效地避免了当点云稀疏时CNN出现的过拟合和性能下降等问题.通过仿真和实际抓取实验表明,该方法抓取成功率高、鲁棒性强,对于真实环境中任意位姿的单物体和多物体均具有实用性.

相比于以往的抓取检测方法,本文方法存在2个缺点:首先该方法由于不需要执行目标检测,因此可能会将多个物体视为单个对象进行抓取检测,这种现象对于堆叠物体和大口径的执行器来说更加常见.在未来的工作中可以利用目标分割与推移等方法防止机器人同时抓取多个物体.其次该方法以3D点云作为输入,数据量较大,还不能完全做到目标的实时抓取,减少抓取候选生成时间以及点云CNN的轻量化是本文需要进一步研究的工作.