孙铮 ,姜涛 ,2
(1.长春理工大学 机电工程学院,长春 130022;2.长春理工大学 重庆研究院,重庆 401135)
工业领域的快速发展对生产自动化水平提出了更高的要求。作为视觉SLAM领域与Bin Picking领域的基础与核心,复杂工业应用场景中多目标物体精确定位与姿态估计问题得到了学术界的极大关注。
以LineMode[1]为代表的基于模板匹配的位姿估计方法由于模型投影数据库大小的限制,在应对遮挡等复杂场景时准确度较低。而基于深度学习理论的位姿检测方法由于其在光照变化以及场景混叠下的优异性能得以广泛应用,这类方法依据输入数据形式的不同分为:基于点云配准的位姿估计和基于RGB图像匹配的位姿估计[2]。基于点云配准的位姿估计方法依赖于所获场景点云精度,在采集信息丰富的条件下可获得较好的位姿估计结果。JOHNSON等人[3]提出利用3D点云空间分布进行特征描述进而进行位姿匹配的方法Spin Images,该方法将定区域点云转换为2D的旋转图像,度量匹配场景与模型中的2D旋转图像相似性。WANG C[4]提出的DenseFusion方法通过特征融合的方法将RGB图像与深度图像进行了统一处理,利用二维信息增强每个三维点的信息,该方法在高度混乱的场景具有较高的运算速度。但是,基于点云匹配的位姿估计方法由于点云性质,难以对场景中存在严重遮挡的多目标物体产生良好的位姿评估结果,而基于RGB图像匹配的位姿估计算法由于RGB图像较小的数据处理量以及相较而言较为稳定的信息表征能力在6Dof刚体位姿检测领域有着较好的表现。RAD等人[5]提出的BB8算法通过两次分割的方法预测对象3D边界框角点对应的2D投影进而整体性的回归3D姿态,训练过程中使用受限范围内旋转对象作为输入图片,巧妙地解决了“近似对称”问题。相较于通过单视角图片预测评估位姿,融合多视点信息进而评估物体位姿的方法对遮挡场景敏感性更低。SU等人[6]提出的MVCNN利用三维模型在环形12视角下的二维渲染图融合提取三维形状描述子实现对三维图像的分类识别。
综上所述,针对工业遮挡场景中物体位姿难识别问题,提出了一种基于关键点数量及分布的融合多视角位姿评估结果的多视角位姿检测方法。通过相机与UR10机械臂组合所构建的手眼系统采集场景RGB图像。利用机械臂的移动特性,在根据关键点分布生成的观测位点组下对待检测物体进行观测,并融合位姿结果。经实验验证,在强遮挡场景下,多视角位姿检测结果较单视角位姿检测结果更加可靠。
图1为提出的基于手眼系统的多视角位姿检测方法,三维视觉测量系统有三个主要任务:(1)利用手眼系统获取场景RGB信息,并基于像素投票理论采用深度学习的方式生成关键点假设;(2)根据关键点数量,选择视角检测模式,依据关键点分布选择多视角观测位点组,控制手眼系统移至观测位点组拍摄当前帧;(3)利用PnP算法求解目标物体各视点下位姿,并将各位姿统一还原至手眼系统基坐标系下通过回归算法实现位姿融合。
图1 基于手眼系统的二次位姿检测方法
在遮挡场景下推断具有良好空间表述性能关键点的基本思路是:利用深度残差网络构建像素级向量场表示并对场景进行语义分割,利用随机采样一致性剔除离群值,通过投票得到关键点假设。该方法利用刚体局部特征与刚体整体之间的空间关系,使得算法在遮挡下仍可推断非可视区域的关键点分布,鲁棒性较高。
首先,通过最远点采样法在异形物体三维模型表面选择良好空间结构表征能力的关键点,在模型点云Ωα选择初始点及距其最远点后,可根据欧式距离比较选择第m点,计算公式如下:
通过递推的形式减少迭代过程中的重复计算:
为检测二维场景图像中目标物体关键点,在像素投票网络[7]的基础上,选择 ResNext[8]网络作为backbone,在保持精度的同时以降低原网络的复杂度。
网络对场景图像进行语义分割,为使其达到像素级精度,对逐个像素计算Softmax分类,使用带有权重形式的多分类交叉熵损失函数训练,使得网络更加针对工业场景检测。
式中,y为网络输出结果;class为实际类别的索引值,其并不直接参与计算;weight[class]为设置的类别权重。
构建像素级向量场,以向量归一化的形式τk(xi)表示二维图像中具有特定语义标签的像素点xi指向具有相同语义的第k个关键点xk的方向:
式中,||·||2为2-范数运算符,表述两像素间的欧式距离。
选择对离群点不敏感的smoothl1损失函数来学习单位向量,进一步防止由离群点可能造成的梯度爆炸问题。
在同语义分割区域随机选取两个像素,并将二者对应归一化向量交点作为关键点位置假设,重复n次构建关键点假设数据集利用随机采样一致性[9]剔除离群预测,得到关键点分布,并得到第j次所得关键点假设投票得分,其定义为:
式中,Ι为指示函数,表示元素从属关系;θ为判别阈值。选择投票得分最高的K个点作为通过图像检测的关键点。
为降低遮挡造成的影响,BB8、Segmentationdriven[10]与 Oberweger[11]等 算法 通 过 对 输 入 图 像网格划分完成区域分割,根据分割结果推断表述目标物体关键点,实现了从场景到物体局部特征的表述。
受其启发,期待通过物体局部特征表述其所处场景空间信息,提出了一种根据可视关键点数量及分布推断空间视角信息丰富程度的方法,并以此来指导手眼系统的移动采集。
设经初始观测位点下经1.1节评估所得可视关键点数量为Nk,根据可视关键点数量判断视角空间信息丰富度情况,将位姿评估策略分为四种情况:
情况一:目标物体本身存在结构自遮挡,当可视关键点数量Nk≥6,属于单视角无遮挡观测,直接调用1.3节位姿回归算法进行位姿估计。
情况二:6>Nk≥4,其至少包含某一视角下全部信息,属于单视角观测弱遮挡观测,利用可视关键点位置判别法为其分配观测位点组。
情况三:4>Nk>0,其于该视角下所得目标物体结构几何信息过少,属于单视角观测强遮挡观测,利用可视关键点位置判别法为其分配观测位点组。
情况四:Nk=0,依据FPS算法中最远距视界信息思想为其分配观测位点组D2中视点P3,2,重新拍摄计算其中关键点并对比情况二与情况三判定其观测模式。若皆不属于此二类,则判定该场景下无待检测对象。
针对第二、三、四种情况下二次观测需求,融合MVCNN中提出的12个全视角观测模式以及物体多视图表示中使用的空间正十二面体投影模式,在空间三维球坐标系下构建三层错位五边形视点作为观测位点组,如图2(b)所示。记第i层第j个视点为Pi,j。由于考虑到机械臂移动位移极限及视点分布结构特性,舍弃了远视点P2,3、P2,4、P3,3,P4,3,图2为手眼系统观测位点投影分布。
图2 观测视点投影分布
观测位点可由图2(c)所示的无向图G(V,E)表示,共分四组:第一组D1={P2,1,P2,2,P3,1,P4,1};第二组D2={P2,2,P3,2,P4,2};第三组D3={P2,5,P3,4,P4,4};第四组D4={P2,5,P2,1,P3,5,P4,5};D1与D4在形状上构成内心四点视角,D2与D3由于视点限制构成均分内心三点视角,其视角盲区由空间三维球坐标系渐变特性弥补。
将目标物体根据1.1节所得可视关键点与不可视关键点像素坐标(uk,vk)拟合形成边框包围盒:
定义ℐγ为网格分割后的包围区域,以矩阵的形式表示包围盒各网格元素值。将ℐγ中关键点顺序连接,构造粗略拟合物体形貌的网格分割单元图像ℐϕ。对ℐϕ中单目标物体可视关键点单元、可视网格单元、不可视网格单元、不可视关键点单元以及ℐγ中另包含的无效单元赋不同的矩阵A元素值,如图3所示。
图3 目标物体网格单元分割
分别判别粗拟合网格分割单元像素横坐标uc,k与检测场景位置分割中线关系,判别公式如下:
式中,Δs为中线右侧网格单元投票分数Nr与左侧网格单元投票分数Nl数值差值;λc为网格单元性质权重;W为观测区像素宽度。
当两侧差值Δs>0时,判定物体于空间右侧具有更充分可视信息,选择右视位点组Dr={D1,D2}。反之选择左视位点组Dl={D3,D4}。
根据网格单元图像中不可视关键点与1.1节中检测所得其他物体语义分割图像像素位置关系,判别其遮挡情况:
式中,ℐϕ为粗拟合网格包围区域;δs为互遮挡判别阈值;ηc为网格单元性质权重;so(ℐϕ)为粗拟合类别差 异;分别 为某点下神经网络对区域ℐϕ中真实可视物体OT与待检测目标物体Op所输出的归一化类别概率。
若不满足判别条件则判定其为结构自遮挡,初视角下结构信息充足,无需考虑其视点深度造成的位点选择影响,选择前置观测位点组Df={D1,D4}。反之待检测目标物体存在互遮挡,初始视角下结构信息不足,选择后置观测位点组Db={D2,D3}。
选择左右位点判别与前后位点判别交集Dς=[Dr∨Dl]∩[Df∨Db]为所选观测位点组,控制手眼系统采集所选位点组下各视点场景信息,对二次观测下各视角场景采集图像使用1.1节中方法分别评估关键点。
对1.2节所获二维关键点使用EPnP算法构建其与三维关键点间的映射关系,完成对各视点下位姿的求解,得到物体坐标系Oobj到相机坐标系Oc间的变换Tobj2c。为保证后续优化过程中数据的一致性,将各视点下位姿求解结果转换至统一的机械臂基坐标系下进行表示。
在空间变换过程中,通过Kalibr标定相机内参,获取相机坐标系与像素坐标系变换关系;通过easy_handeye进行手眼标定,获取末端执行器坐标系Oe与相机坐标系Oc间变换关系Tc2e。通过对ROS系统下的直接访问,获取末端执行器坐标系Oe与机械臂基坐标系Ob关系Te2b。通过链式传递完成关系变换:
对转换至统一的机械臂基坐标系下表示的多视角位姿估计结果进行融合,将多视角位姿融合问题拆分为由向量空间描述的位置回归融合与由特殊正交群表述的姿态回归融合。
设位置向量͂∈ℝ3,向量描述的位置回归融合可表示为:
对比黎曼距离与Frobenius标准范数对两个SO(3)元素之间距离的表述,选择几何表述更自然的黎曼距离衡量最短测地线弧长,将姿态回归融合问题表述为:
式中,Q∈SO(3)为各视角下姿态表示;Qp为姿态回归值;ωi为各距离值权重;d(Q,Qi)为黎曼距离;log(Q)为旋转矩阵主对数函数,可表示为:
使用Manton算法[12]将各位姿观测偏差的so(3)均值作为更新量,迭代求解数值解。
将Karcher均值Qp赋初值:
计算其切空间均值:
更新当前姿态:
式中,exp为矩阵指数函数,表示SO(3)与所对应的so(3)间的指数映射。
重复求解式(16)与式(17),直至切空间均值q的低于初始设定迭代止断容差ε,并将最终所得Karcher均值Qp作为姿态回归结果[13]。对比通过SE(3)直接对多重估计结果回归的方法,将位姿融合问题先分解后回归的方法在面对扰动时回归值与真实值均方根误差变化更小。
图4 均方根误差对比
为验证网络在单视角遮挡场景下位姿检测结果精度,设计验证实验。网络部署在Ubuntu16.04操作环境,使用i7-10700K CPU以及NVIDIA GeForce RTX 3060(12G)显卡。利用Pytorch框架运行深度学习检测算法,主要采用OpenCV计算机视觉库,Eigen矩阵运算库等开源视觉库实现算法。在公开数据集LINEMOD与自建数据集上进行单次位姿检测网络训练,通过TensorboardX实现训练数据可视化。
网络训练过程输入图片尺寸640×480,选择RAdam算法作为优化器,并利用其对初始学习率不敏感的特性,设置初始学习率为0.01,迭代轮次设置为240,训练批大小设置为8。图5(a)显示网络训练过程中损失值变化,随迭代增加,训练损失迅速下降。图5(b)与图5(c)显示了位姿测试精度在训练过程中的变化,分别度量的是位姿真值与位姿估值下模型点云间的平均距离,符合设定阈值的点数占比和位置姿态估值与真值符合容差5 cm与5°间占比[14]。观察可知,训练图片空间表征信息充足,所得网络在无遮挡场景下位姿评估误差较低。
图5 网络训练损失及位姿度量变化
使用训练后的模型在Occluded LINEMOD遮挡数据集与上述数据集上分别测试位姿检测结果,使用边框包围盒的方式显示标注位姿真值与位姿估值,如图6所示。
图6 单视角遮挡场景下位姿可视化结果
表1给出了测试过程中各数据集下多种目标检测物体位姿精度评估均值,观察可知在无遮挡条件下位姿检测结果精度较高,在场景遮挡的情况下,仅通过单一视角图片对位姿进行预估与真实位姿存在较大误差。
表1 各数据集下位姿评估结果
表2给出了在Occluded LINEMOD遮挡数据集下测试过程中不同关键点表示方式对位姿评估精度ADD(-S)与图片处理速度的影响。BBX-8、FPS-4与FPS-8分别表示8点边框包围法、4点最远采样法与8点最远采样法三种关键点表征方法。实验结果表明,不同关键点检测与表征方式对算法运行速度并无明显影响,同时通过8点最远点采样法所得遮挡位姿评估结果具有更高精度,即该关键点检测法具有更强的空间信息表征能力。
表2 不同关键点表示方式下位姿评估结果
为验证基于关键点数量及分布的融合多视角位姿评估结果的二次位姿预估方法相较于单视角位姿检测方法的精度提升,构建机械臂手眼系统实验平台。硬件部分主要由:UR10机械臂、Intel Realsense D435i深度相机组成。系统框架基于ROS机器人控制系统搭建。
图7展示了二次位姿检测策略下单组实验中关键点检测、观测策略下视点拍摄、位姿结果可视化的过程。如图7(a)所示,对存在互遮挡与自遮挡的场景物体通过手眼系统进行检测。将初始视点拍摄结果图7(b)作为1.1节构建的网络输入,所输出关键点分布情况如图7(c),可知过少的可视关键点无法充分表征物体空间信息。
图7 实验场景及结果
基于其关键点数量及分布检测结果,依据1.2节所述理论为其分配观测位点组D3,进而控制手眼系统在P2,5、P3,4、P4,4视点下拍摄,对所采集的图像进行位姿评估。图7(d)、图7(e)、图7(f)为多视角位姿评估中多视点下位姿评估可视化结果。由图7(f)可知,截断情况下位姿评估可视化边框包围盒与真值包围盒没有较好的重合,单视角位姿评估结果存在一定误差。对多视角下各位姿评估结果进行融合,并与单次位姿识别结果进行对比,精度误差对比结果如表3所示。
表3 位姿检测精度对比
表3展示了两种位姿评估模式所得位置姿态与ArUco码标定真值间偏差绝对值,以及通过ADD、ADD-S评估所得位姿准确性。
对比多视角位姿融合结果与初始视点单视角位姿评估结果,同组实验中位置度量精度提升了0.069 m,姿态误差降低了0.155 rad,平均距离度量提高了66.63%。可知,多视角位姿融合策略对强遮挡场景中位置与姿态修正效果明显。
对比多视角位姿融合结果与多视角观测模式下P3,4单视点位姿评估结果,采用位姿融合策略后位置度量精度提升了0.004 m,姿态误差降低了0.008 rad。对比结果表明,位姿融合策略对于弱互遮挡场景中位姿结果仍有不错的修正效果。
在相同的实验平台下,改变检测物体的种类及位置姿态,进行20组(8类物体)实验,实验结果如表4所示。数据表明,位姿评估过程中姿态平均偏差相较于位置平均偏差对遮挡更为敏感,所采用的二次位姿检测方法相较于单视点检测对姿态偏差修正效果更为明显。
表4 位姿检测精度偏差均值对比
上述检测实验验证了基于关键点分布的融合多视角位姿评估结果的二次位姿预估方法在遮挡场景下的算法有效性。在测量操作方面,提出的方法集成于ROS框架下,各检测移动步骤皆通过手眼系统实现,自动化程度及测量效率更高。
提出了一种基于关键点数量及分布的融合多视角位姿评估结果的多视角位姿检测方法,通过在关键点检测步骤后引入二次网格分割思想,根据其于分割网格上的位置数量及分布选择手眼系统多视角观测位点组,并对手眼系统各视点下位姿检测结果进行融合作为位姿检测最终结果。相较于传统的单视角位姿检测方法,利用手眼系统进行多视角位姿检测所得结果在复杂场景下算法鲁棒性更高。经实验验证,在强遮挡场景下,融合多视角位姿检测结果所得位姿检测较单视角下位姿检测结果精度更高。