基于注意力机制的实时性抓取检测算法*

2022-01-21 00:32李洪芹
传感器与微系统 2022年1期
关键词:池化卷积注意力

郝 宸, 田 瑾, 韩 华, 吴 飞, 李洪芹

(上海工程技术大学 电子电气工程学院,上海 201620)

0 引 言

近年来,深度神经网络在机器人抓取检测的应用研究取得了重大进展。美国康奈尔大学Lenz I等人[1]借鉴深度学习在图像处理中的成功经验,提出了基于深度学习的抓取检测方法。与传统的人工经验抽取样本点特征相比,基于深度学习的机器人抓取检测方法可以自动学习识别和提取抓取点位姿和抓取角度[2]。目前的研究方向是如何将深度学习方法用来学习不同物体的姿态和角度,预测出多个抓取位姿来找到最佳抓取点的位置和抓取角度[3]。

基于深度学习的方法,Lenz I等人[1]首先采用滑动窗口的方法搜索抓取框用于抓取检测中,在Cornell数据集上达到73.9 %的检测准确率,但由于类似随机列举法的搜索方式,使得重复计算,因此,模型运行缓慢,无法实时抓取检测。

Redmon J等人[4]摒弃了滑动窗口的方法进行抓取预测,使用单阶段网络应用于图像块的计算中,直接预测抓取点位姿坐标,并同一时间预测多个抓取角度,但这种方法由于卷积神经网络(convolutional neural networks,CNN)结构的复杂性存在模型较大的缺陷。Kumra S等人[5]将整个图像输入到CNN中进行抓取预测,并使用预训练模型ResNet50提取抓取特征,可以达到较好的检测准确性,但是由于需要大量模型学习的参数,导致网络模型与计算量都很大。

Chu F J等人[6]提出了一种多物体抓取场景模型,首次使用ResNet50对输入图像提取抓取特征,使得物体检测中Faster_RCNN、YOLO等可以用于机器人抓取场景中,模型准确率达到96 %,运行速度比之前的方法快,由于模型较深导致模型较大。

Morrison D等人[7]提出一种轻量级抓取模型,抓取姿态是以像素为单位的图像,与之前模型相比,速度快,但准确性不高;Woo S等人[8]提出一个通用的注意力模块,在空间和通道上进行特征提取,防止细节信息的丢失。

综上所述,目前基于CNN的抓取位姿预测方法主要集中在结合CNN模型,如AlexNet[9],ResNet[10]等提高抓取检测准确性,训练网络需要许多参数,难以满足实时性要求[11,12]。受Morrison等人启发,使用易于训练和快速反应的轻量级网络模型处理抓取问题。

为了提高模型的灵敏性和预测的准确性,本文设计了一个轻量级的网络模型,并将一种新注意力机制即双注意力模型(double attention model,DAM)与轻量级网络相结合,提升抓取性能。

1 注意力机制的实时抓取算法

1.1 抓取问题

如图1所示,图像g={p,θ,w,q},其中,p为抓取中心的直角坐标的位置(x,y,z),θ为抓取绕Z轴的旋转角度,w为抓手,q为抓取的质量,代表抓取成功的机会。假设输入的是RGB图像,需要计算抓取g图像,根据相机的固有参数和手眼校准后,抓取g计算,由等式(1)表示

图1 抓取图

(1)

式中Mco为对象像素的变换坐标转换为相机坐标,MRC为从相机坐标转换为机器人坐标。

1.2 抓取网络模型结构

本文的网络模型采用编码与解码的网络结构进行卷积提取特征,如图2所示。

图2 抓取网络模型结构

编码层进行卷积操作提取特征,解码层由卷积层和反卷积层构成进行特征恢复,网络模型中使用两次注意力机制,改善网络性能。主要过程是通过正向卷积层提取图像网络,捕获足够大的感知领域,并整合注意力机制去抑制反卷积层中相应的无关背景区域层,扩大了显著性和改善网络的性能。

1.3 DAM

为了提升模型性能,本文设计了一种轻量级的网络模型并将DAM融合到网络模型中,在防止细节信息的丢失的同时提升特征表示能力。在特征提取时,分别沿着空间与通道维度对输入的特征图G进行注意力权重分配得到新特征Gc,Gs进行特征融合之后输出新特征G′。

如图3所示,在上部分是通道注意力(channel attention)模块,将输入特征图,首先基于宽度和高度全局最大池化和平均池化得到两个通道结果,并将这两个通道结果拼接在一起,在经过卷积层之后,使用Sigmoid激活函数得到权重系数Fc与特征图G做乘法,得到缩放后的新特征Gc。公式如下

图3 DAM结构

Fc(G)=σ(φ(Avgpool(G)+Maxpool(G)))

(2)

Gc=Fc(G)G

(3)

式中σ为Sigmoid激活函数,φ为卷积层,Avgpool为平均池化,Maxpool为最大池化。

在下部分是空间注意力模块,将输入特征图G(feature G),首先经过一个通道维度的全局最大池化和平均池化得到两个通道结果,在经过一个卷积层后,使用Sigmoid激活函数得到权重系数Fs与特征图G做乘法,得到缩放后的新特征Gs。上部分与下部分进行加和操作。公式如下

Fs(G)=σ(φ(Avgpool(Maxpool(G))))

(4)

Gs=Fs(G)G

(5)

式中σ为Sigmoid激活函数,φ为卷积层,Avgpool为平均池化,Maxpool为最大池化。

最后,将两个维度缩放后的新特征进行特征融合得到新特征G′,公式如下

G′=Gs+Gc

(6)

2 实验与评估

本文选用的是Cornell数据集作为训练数据,该数据集有885张图片,其中244种不同种类物体,每种物体都有不同的位置和姿态的图片。数据集对每张图片标记目标物体的抓取位置,共标记5 110个抓取矩形框和2 909个不可用与抓取的矩形框,每张图像都标有多个抓取狂,适合本文逐像素的抓取表示。

2.1 数据处理

Cornell数据集有多个种类物体,但数据量较小,为了评估完整的抓取图,将一个图像代表一种抓取,并使用随机裁剪、缩放和旋转的方法来处理数据集去生成关联的抓取图,使得每个RGB图像对应三个抓取特征图:质量图、宽度图、角度图。

1)质量图:抓取质量q设置为0~1,对的抓取表示为1和其他像素值为0,在每个像素中,计算每个像素的抓取质量。质量越高,抓取成功率越高。

3)角度图:每个抓取矩形的角度范围[-π/2,π/2],绕Z轴真实抓取角度是[-π/2,π/2],模型预测出图像旋转坐标的抓取角度,则可以计算出旋转角度θ。

2.2 评估指标

先前工作有两种常用的评价方法评估网络模型对Cornell数据集的抓取检测效果:点度量[13]和矩形度量[14]。点度量是计算到中心的距离预测到每个基本事实的中心抓取,若距离小于某个阈值,则被认为成功抓取。而点度量没有考虑到角度,因此本文使用矩形度量指标,当预测的矩形框满足以下两个条件时,则该抓取框可用于抓取物体:

1)抓取角度与标注框的抓取角度在30°以内;

2)预测的抓取和Jaccard系数大于25 %,公式如下

(7)

2.3 模型训练

本文模型方法不使用预训练模型,在该模型上学习的参数很少,增加了模型的灵敏性。本文实验是在11 GB内存的NVIDIA GTX2080Ti上运行,数据集分为两部分,训练集是90 %,交叉验证集是10 %。Batch size设置为8,epoch设置为30,使用Adam_GC方法[15],学习率设置为0.001来优化模型。

为了取得良好效果,模型融合了注意力机制,最终生成质量图、宽度图、角度图,根据这三个图计算出抓取框图(如图4所示)。经过融合注意力机制的模型输出的特征图细节信息更为清晰,生成的抓取框图准确性高。

图4 模型训练结果抓取

如图5所示,为了说明模型融合注意力机制的效果,本次实验在数据集上进行有无注意力机制模型的比较,在训练损失方面,本文使用注意力机制的模型方法下降更快,没有注意力机制模型容易过拟合。在IoU上,注意力机制模型的IoU都高于0.6,融合注意力机制大大提高了模型的精确度。

图5 不同方法训练结果对比

图5训练结果中,灰色线表示模型没有融合注意力机制,黑色线表示模型融合注意力机制。

2.4 实验结果与分析

2.4.1 注意力模块性能分析实验

本文的Baseline是基于FCN[16]的网络模型,其中:L1表示空洞卷积,L2表示DAM。对比结果如表1所示,在Conrnell数据集上,可以看出同时使用空洞卷积与DAM的效果最佳。

表1 不同方法在Conrnell数据集上的准确率

2.4.2 与其他算法的不同阈值的性能对比实验

由于Jaccard阈值对准确率有影响,本文模型方法与其他阈值进行比较,结果如表2所示,可以看出随着阈值的提高,准确率是下降趋势。相比于Morrison的模型,即使在阈值为0.45时,也能达到82.3 %。

表2 不同方法和阈值不同在Cornell数据集上的准确率

2.4.3 与其他算法的性能对比

针对工业环境的实时要求,不仅需要较高的准确性而且需要较快的响应时间,结果如表3所示。在Cornell Gras-ping数据集上,阈值为0.25时,与其他模型相比,本文模型的准确率达到97.7 %,响应速度的每秒处理帧数(fps)达到46.43。

表3 不同方法与本文方法在Cornell数据集中的结果

3 结束语

针对在工业环境中,机器人实时性抓取目标物体[17],本文提出了一种基于轻量级神经网络,进行逐像素预测物体的抓取点位置及抓取角度。在抓取检测中,将DAM与轻量级网络相结合,防止细节信息的丢失和提升特征表示能力;在训练损失上是下降更快以及不容易过拟合。在Cornell数据集上实验证明:相比于使用AlexNet和ResNet的网络模型,本文网络结构更加简单,检测算法的实时性更好的同时,保持较高的检测准确率。在接下来的研究方向是如何使用小样本学习与强化学习做抓取检测。

猜你喜欢
池化卷积注意力
基于高斯函数的池化算法
基于全卷积神经网络的猪背膘厚快速准确测定
让注意力“飞”回来
卷积神经网络中的自适应加权池化
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
用于手写汉字识别的文本分割方法
A Beautiful Way Of Looking At Things
阅读理解两则