基于多模态融合的RGB—D物体识别

2018-11-01 05:19孙逊之王月海

电脑知识与技术 2018年18期

孙逊之　王月海

摘要：针对现有的RGB-D物体识别方法存在特征学习不全面导致物体识别准确率不高的问题，结合分层匹配追踪算法（Hierarchical matching pursuit，HMP）和特征级融合提出一种改进的物体识别算法。该算法首先利用稀疏编码和池化技术分别从RGB-D图像（RGB图像和深度图像两种模态）中提取RGB特征和深度特征，然后根据不同模态的特征对物体识别率的贡献进行特征级融合得到多模态融合特征，最后送入SVM分类器进行分类识别，并调整融合参数寻求最优识别率。在RGB-D数据集上进行分类识别实验，结果表明该方法的物体分类识别率能够达到83.6%，比其他方法提高了1%-2%。

关键词：分层匹配追踪；特征级融合；多模态融合；SVM分类器；识别率

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2018）18-0180-03

RGB-D Object recognition based on Multimodal Fusion

SUN Xun-zhi，WANG Yue-hai

（The Academy of Electronic Information Engineering， North China University of Technology， Beijing 100144， China）

Abstract： For the problem that insufficient feature learning lead to lower accuracy of object recognition for the existing RGB-D object recognition methods， an improved object recognition method base on a combination of hierarchical pursuit pursuit algorithm （HMP） and feature level fusion was proposed. The algorithm firstly combines sparse coding with pooling techniques to extract distinctive RGB feature and depth feature from RGB-D images （two modes of RGB image and depth image ）， and then adopt feature level fusion method to obtain multimodal fusion feature according to the contribution of different modal feature to object recognition rate. Finally， send the multimodal fusion feature to SVM classifier for classification recognition， and adjust the fusion parameters for the best recognition rate. The classification recognition experiment on RGB-D dataset shows that the object recognition rate of this method can reach 83.6%， which is 1%-2% higher than other methods.

Key words： HMP；feature level fusion；multimodal fusion；SVM classifier；recognition accuracy

1 引言

物体识别是计算机视觉领域的重要研究课题之一，在家庭服務机器人、智能监控、工业生产和军事侦察等领域具有广泛的应用，研究物体识别的准确率提升问题具有很大的学术意义和应用价值。

物体识别按照数据的来源进行分类，可以分为两大类：基于二维图像的物体识别和基于三维信息的物体识别，RGB-D物体识别就属于基于三维信息的物体识别。微软研发的Kinect摄像机，可以同时获取物体的RGB图像和深度图像（RGB-D图像），弥补了基于二维图像的识别方法缺少空间位置等信息的不足，对于物体识别的研究具有里程碑的意义。

近年来，研究者们提出了很多基于RGB-D的物体识别算法，如深度核描述子方法[1]、卷积K均值描述子方法[2]、原始HMP算法[3]、HMP算法[4]、卷积递归神经网络（CNN-RNNs）深度学习算法[5]和多层卷积神经网络（CNN）深度学习模型[6]等。上述方法中，文献[1][2][3]方法仅仅使用彩色信息和深度信息，未能充分利用物体的全部特征，存在一定局限。文献[3]方法能够充分利用RGB-D信息（RGB、灰度、深度和曲面法线），而且不仅提取底层特征，还提取高层特征，在特征提取方面具有较大优势，但在提取到RGB特征和深度特征后，没有对这些不同模态的特征区别对待，而直接进行级联得到最后特征，忽略了不同模态特征对物体识别的贡献差异性，存在一定局限。文献[5][6]方法结构相对复杂，计算复杂度高，耗时长。以上方法虽然可以有效提升物体识别准确率，但仍然存在局限性。

本文针对物体的特征信息利用不全面、得到不同模态特征后不加区分而直接级联的缺陷，提出了一种基于HMP和特征级融合的RGB-D物体识别改进算法，实验验证表明了该算法的有效性。

2算法描述

本文算法的框架图如图1所示，主要包括特征提取、特征融合和特征识别三个重要过程。特征提取过程运用HMP算法从RGB图像和深度图像中分别提取出RGB特征和深度特征。特征融合过程采用特征级融合方法将RGB特征和深度特征进行融合得到高效的融合特征。分类识别过程运用SVM分类器对融合特征进行训练和识别，得到最终识别率。

2.1 特征提取

特征提取的关键算法是文献[4]中的两层HMP算法，该算法能够充分利用物体的RGB-D信息：先从RGB图像和深度图像生成灰度图像和曲面法线，然后分别提取对应的底层特征向量和高层特征向量。HMP算法提取过程简述如下：

（1）首先輸入图像，然后采用滑窗对图像进行采样得到采样数据，再通过KSVD算法[7]得到第一层的特征字典，接着利用OMP算法[8]得到字典特征图，随后通过最大值池化得到图像的池化表示。

（2）对第一层的字典特征图进行采样得到采样数据，再通过KSVD算法得到第二层的特征字典，接着利用OMP算法得到字典特征图，随后通过空间金字塔最大池化得到图像的最终特征表示。

2.2 特征融合与分类识别

特征融合阶段采用了一种特征级加权融合算法，将经过特征提取过程得到的不同模态的RGB特征和深度特征区别对待，根据它们对物体识别的贡献差异性将RGB特征和深度特征进行加权融合。该算法首先采用SVM分类器分别对RGB特征和深度特征进行分类实验，得到每个类别中不同实例物体的RGB特征识别准确率ARi及其对应的深度特征识别准确率ADi，然后通过比较同一实例物体的ARi和ADi调整该实例物体在融合特征中的权重参数WRi和WDi，控制每个实例物体中各种特征之间的相对重要性。

（1）融合形式

假设RGB特征向量和深度特征向量分别表示为Rgbfea和 Depthfea，赋予它们的权重参数分别为WR和WD。将RGB特征和深度特征融合后得到综合特征RgbDfea：

[RgbDfea=WR*Rgbfea+WD*Depthfea]

其中，[WR=（wR1，...，wRi，...，wRn）]

[WD=（wD1，...，wDi，...，wDn）]

[Rgbfea=（Rgbfea1，...，Rgbfeai，...，Rgbfean）] （1）

[Depthfea=（Depthfea1，...，Depthfeai，...，Depthfean）]

[1≤i≤n]

n表示实例物体的个数；

Rgbdfeai和Depthfeai分别表示第i个实例物体的彩色特征和深度特征。

wRi和wDi分别表示第i个实例物体的彩色特征和深度特征的权重参数，代表其对最终识别结果的贡献程度。

（2）权重参数求解

根据RGB特征和深度特征对最终识别结果的贡献差异性为其权重参数wRi和wDi赋予不同的值，贡献差异性由每个实例物体的识别准确率来体现。假设每个实例物体的RGB特征的识别准确率和深度特征的识别准确率分别为aRi和aDi（[1≤i≤n]）。

对于某一个例的物体而言，若基于RGB图像的识别准确率aRi高于基于深度图像的识别准确率aDi，则说明对于此种物体，RGB特征比深度特征更有区别力，在特征融合时给予RGB特征对应的权值参数wRi一个较大的值，给予深度特征对应的权值参数wDi一个较小的值。同样，如果某一个例的物体基于深度图像的识别准确率aDi高于基于RGB图像的识别准确率aRi，说明对于此类物体，深度特征比RGB特征有区别力，给wDi一个较大的值，给wRi一个较小的值。

由此，引入参数s（[s≥0.5]），使识别率较高的特征对应的权重较大。根据公式（2）调整权重参数WR和WD，寻求最优的分类识别结果。

[wRi=s] [wDi=1-s]， [aRi≥aDi] （2）

[wRi=1-s] [wDi=s]， [aRi

（3）参数s确定与分类识别

自动调整参数s的值，让s分别为[0.5，0.6，0.7，0.8，0.9，1]（以0.1递增），将融合特征后的综合特征RgbDfea分别送入SVM分类器进行分类识别，取识别结果的最大值为次优分类识别结果。在RGB-D数据集上进行的20次实验发现，识别率accuracy随着参数s的增加而先增大后减小。

参数s确定方法如下：假设[s=s1]时，accuracy的值最大。则accuracy的实际最大值应该在区间[[s1-0.1，s1+0.1]]内。自动调整参数s，让s在区间[[s1-0.1，s1+0.1]]以0.01递增，将融合特征后的综合特征RgbDfea再次分别送入SVM分类器进行分类识别，取accuracy的最大值为最终分类识别结果。实际上，后续还可以在更小精度（0.001，0.0001，......）的区间范围里进行实验，但是综合衡量实验时间代价和识别率，0.01的精度最为合适。

2.3 算法详细步骤及形式化描述

本文算法的实现过程如图1所示，其详细步骤介绍如下：

（1）从数据库中获取RGB图像和深度图像，分别生成灰度图像和曲面法线，分别记为原始数据向量[Irgb]、[Igray]、[Idepth]、[Inor]。

（2）将[Irgb]和[Igray]通过HMP算法提取出RGB特征向量Rgbfea。

（3）将Rgbfea作为特征输入，送入到SVM分类器进行预分类，得到每个实例物体RGB特征的识别准确率aRi。

（4）将[Idepth]和[Inor]通过HMP算法提取出深度特征向量Depthfea。

（5）将Depthfea作为特征输入，送入到SVM分类器进行预分类，得到每个实例物体深度特征的识别准确率aDi。

（6）通过特征级融合算法，将RGB特征和深度特征进行有效融合，得到综合特征RgbDfea。

（7）将融合特征RgbDfea作为输入向量，送入SVM分类器进行分类识别，并实时调整融合参数，寻求最优的最终识别率。

算法的形式化描述如表1所示：

3 实验及结果分析

为了验证本文所提出的RGB-D物体识别算法的有效性，本文采用数据库RGB-D Object Dataset来进行实验验证。

3.1 实验设置

本文重点研究物體的分类识别问题，选取RGB-D Object Dataset中水果和蔬菜的14个类别进行实验。这14个类别的物体一共有72个实例，9952张RGB图像和相应的深度图像。如图2所示，为RGB-D Object Dataset中用于实验的部分物体的RGB图像和深度图像。

为了与其他方法的实验结果进行对比，本文的实验设置与文献[4 ]相同。每次实验，将实验数据集随机地分为训练样本和测试样本。划分规则为随机地从每个类别中选择1个实例物体作为测试样本，剩下的作为训练样本。如此重复实验10次，取10次实验结果的平均值作为最终结果。

3.2 实验结果与分析

实验中依照2.2节所述，自动调整参数s的值，先让s分别为0.5，0.6，0.7，0.8，0.9，1（以0.1递增），后让s在区间[[s1-0.1，s1+0.1]]以0.01递增，可以得到s为不同值时对应的识别准确率accuracy。

当[s=0.78]时，[accuracy=83.5%]有最大值，即最优识别率。

表2列出了本文方法与先前常规方法在RGB-D数据集上的识别结果比较。可以看出，本文方法比常规方法的识别准确率约高1%～2%，在一定程度上提高了物体分类识别的准确性，确认了该方法的有效性。

4 结语

本文针对RGB-D物体识别中特征学习不全面导致识别准确率不高的问题，提出了一种基于HMP和特征级融合的RGB-D物体识别改进方法。该方法能够充分利用RGB-D物体的多模态信息，获取更有表达能力的融合特征。在RGB-D数据集上进行实验，结果表明该方法的物体分类识别率能够达到83.6%，较其他方法高1%-2%，能够在一定程度上提高RGB-D物体的识别准确率。在以后的研究中，将对文中的特征级融合算法进行优化，进一步提高RGB-D物体的识别准确率。

参考文献：

[1] Blum M， Springenberg J T， Wulfing J， et al. A learned feature descriptor for object recognition in RGB-D data[C]// IEEE International Conference on Robotics and Automation. IEEE， 2012：1298-1303.

[2] Bo L， Ren X， Fox D. Depth kernel descriptors for object recognition[C]// Ieee/rsj International Conference on Intelligent Robots and Systems. IEEE， 2011：821-826.

[3] Bo L， Ren X， Fox D. Hierarchical matching pursuit for image classification： architecture and fast algorithms[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2011：2115-2123.

[4] Bo L， Ren X， Fox D. Unsupervised Feature Learning for RGB-D Based Object Recognition[M]// Experimental Robotics. Springer International Publishing， 2013：387-402.

[5] Richard Socher， Brody Huval， Bharath Bath， Christopher D Manning， and Andrew Y Ng. Convolutional-recursive deep learning for 3d object classification. In Advances in Neural Information Processing Systems， 2012： 665-673， .

[6] Schwarz M， Schulz H， Behnke S. RGB-D object recognition and pose estimation based on pre-trained convolutional neural network features[C]// IEEE International Conference on Robotics and Automation. IEEE， 2015：1329-1335.

[7] Aharon M， Elad M， Bruckstein A. K-SVD： An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation[J]. IEEE Transactions on Signal Processing， 2006， 54（11）：4311-4322.

[8] Rubinstein R， Zibulevsky M， Elad M. Efficient Implementation of the K-SVD Algorithm Using Batch Orthogonal Matching Pursuit[J]. Cs Technion， 2008， 40.

[9] Deng J， Zhang Z， Marchi E， et al. Sparse Autoencoder-Based Feature Transfer Learning for Speech Emotion Recognition[C]// Affective Computing and Intelligent Interaction. IEEE， 2013：511-516.