姚立健等
摘要:提出了一种基于尺度不变特征变换和随机抽样一致算法的立体匹配方法。首先采用SIFT算法提取左右草莓图像的特征向量,再运用RANSAC和极线约束法对两幅图像进行特征点匹配,以降低特征点对之间的错配率,提高图像匹配精度。最后利用双目立体视觉原理对图像各目标进行匹配试验。结果表明,该算法较传统方法平均匹配精度提高50%,算法时间缩短66%,可满足草莓收获机器人视觉系统在自然采摘作业环境下的工作要求。
关键词:双目立体视觉;草莓图像;特征匹配;RANSAC-SIFT算法
中图分类号:S668.4;TP391.41 文献标识码:A 文章编号:0439-8114(2015)17-4297-03
DOI:10.14088/j.cnki.issn0439-8114.2015.17.050
双目立体视觉技术被广泛应用于智慧农业生产中,如自动化收获作业中的农产品目标识别[1,2]、定位[3,4]、农产品的三维重建[5,6]、农产品测量[7,8]等。该技术是通过两台摄像机从不同视角获取同一目标图像,并通过视差及几何测量方法获得目标深度信息[9]。左右图像的特征匹配为双目立体视觉系统中的关键技术之一,文献[10-13]介绍了极线扫描法、动态规划法、图形切割法、置信传递法等多种立体匹配方法。无论哪种方法,都需要挖掘待匹配图像中合适的特征以建立正确的匹配关系。
尺度不变特征变换算法(Scale invariant feature transform,SIFT)具有提取局部特征的功能,其特征点定位准确,具有很好的尺度、旋转、视角和光照不变性,优于其他局部特征提取算子。目前SIFT算法已成功应用于立体视觉匹配等领域。如赵钦君等[14]用该算子为每个特征点定义主方向,将特征描述子的坐标旋转到与特征点的主方向一致,计算出每个特征点的特征向量描述子。许钢等[15]以左、右两幅图像中特征向量较多的图像作为基准匹配图像,另一幅图像作为待匹配图像,再由二者的特征向量之间的余弦相似度所建立的匹配规则进行立体匹配。李盛辉等[16]使用多线程技术采集多目视觉图像,并用改进SIFT算法进行特征点提取与匹配,检测运动障碍目标。张凯等[17]用改进型SIFT算法进行图像特征匹配,实现了温室环境下红掌图像的拼接。SIFT算法在提取匹配点的过程中,存在匹配时间长、误匹配率高的缺点。本试验以温室环境中的草莓图像为研究对象,对上述匹配算法进行改进和优化,可有效缩短匹配时间,提高匹配精度。
1 试验仪器与工作原理
本研究采用平行式双目视觉系统,图像采集平台采用一对松下WV-CP480/CH摄像头、精工SSV0358镜头、大恒DH-CG300图像采集卡,PC机配置为P4 2.4 GHz、内存2 G。采集的图像尺寸为768×576像素。图像分析软件为MATLAB 7.0。图像采集于杭州建德红群草莓专业合作社立体种植的草莓大棚。左右摄像机采集的图像如图1所示。
立体视觉系统工作原理如图2所示,由完全相同的两个摄像机从不同位置拍摄同一景物,两幅图像位于同一平面上,两个摄像机坐标系的坐标轴相互平行,且其x轴重合;两摄像机在x轴方向上的间距为基线的距离2a,焦距为f。假设坐标系原点和左摄像机光心重合,场景点P(X,Y,Z)在左右图像平面中的投影点分别为PL、PR。(ul,vl)、(ur,vr)表示点P在左右图像上的像素坐标;(uol,vol)、(uor,vor)表示左右摄像机光心。由△OLPL和△OMP相似、△ORRPR和△ORNP相似可得目标P的深度信息Z如下。
Z=■ (1)
式(1)中,xl=ul-uol;xr=ur-uor。
则|xr-xl|表示投影点P在左右图像中的水平视差。若yl=vl-vol,yr=vr-vor,则|yr-yl|表示投影点垂直视差。因此,各种场景点的深度恢复可以通过计算水平视差来实现。
2 匹配算法
2.1 SIFT提取图像特征向量
SIFT算法可在尺度空间中寻找图像的局部性特征,其计算过程可以分为4步:①检测尺度空间极值点;②精确定位特征点;③特征点方向分配;④特征点描述子的生成。具体算法可参考文献[18]。最终为每个特征点形成一个四维的SIFT特征向量,该向量分别涵盖特征点的位置、向量的方向和长度信息。此SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响,再继续将特征向量的长度归一化,则可以进一步去除光照变化的影响。图1经过SIFT算法提取的特征向量如图3所示。图中箭头方向的长度分别表示特征向量的方向和大小。
2.2 RANSAC算法剔除错误的匹配点
当左右两幅图像的SIFT特征点特征向量生成后,采用特征向量的欧氏距离寻找两幅图像之间的匹配点。根据极线几何约束理论[19],左右两幅图像特征点位置应只存在横向的偏差,其纵向坐标不可能出现较大偏差,因此这里对左图某个特征点,仅在其对应的右图中与其纵坐标相差±10像素的范围内搜寻,这样缩小搜索范围,匹配时间将极大缩短。可采用随机抽样一致(random sampzing consensus,RANSAC)算法进一步降低特征点对之间的错配率,RANSAC基本思想描述如下。
Step1:根据两幅图像的投影变换关系,即在图3a与图3b所有特征点的投影变换矩阵,如式(2)所示。
x′y′1=h11 h12 h13h21 h22 h23h31 h32 1xy1=H×A (2)
式(2)中,(x,y)(x,y)分别表示左右图像的待匹配点坐标。
Step2:设初始最佳内点数Ni为0,重复N次随机采样。本试验的矩阵H估计需要的匹配点为4对,根据4对匹配点计算出变换矩阵;计算每个匹配点经过矩阵变换后到对应匹配点的欧式距离D。
D=d(A′i,HAi)2 (3)
Step3:设定一距离阈值T,把满足D Step4:经过若干次随机抽样计算后(此时内点数量基本保持不变),选择内点最多、误差函数最小的变换矩阵参数为图像间的投影变换矩阵,此时的内点即为左右图像的匹配点。 3 试验与分析 采用上述RANSAC-SIFT方法对采集好的图像(图1a、1b)进行匹配。在左图中共提取2 168个特征点,在右图中共提取2 232个特征点,通过传统的欧氏距离方法可得匹配点298个,经过RANSAC和极线约束法进行优化处理后,获得正确匹配点149个。图4中“*”、“o”分别表示左右两图匹配点的位置,匹配结果如图5及表1所示。 由图5可以看出,大棚立体种植的草莓图像大致由草莓目标、草莓花、草莓藤叶、栽培盆和大棚背景等5部分组成,传统的匹配方法常基于目标单一形心进行匹配,这里对5部分分别进行多像素匹配,结果如表2所示。 由图4、图5和表1、表2可得: 1)本试验是对图像中各类目标整体进行匹配,较传统匹配方法匹配精度提高50%,很好地提高了立体匹配效果; 2)本试验算法的匹配时间为2.54 s,较传统方法缩短4.95 s,匹配时间缩短66%,匹配实时性显著提高; 3)草莓图像中距离摄像机较近的草莓目标、草莓花误匹配的像素相对较少,较远的藤叶、栽培盆和大棚背景误匹配像素较多,这可能是由于摄像机对于较远背景的细节提取不够所致。 4 小结 本试验提出了一种基于RANSAC-SIFT算法的立体视觉匹配方法,该方法可有效提高匹配正确率和匹配的实时性。与单纯基于目标形心匹配的方法相比较,由于该方法是基于图像各类目标内所有像素进行立体匹配,所以匹配结果具有更好的一致性和鲁棒性。在后续研究中,应结合图像分割的方法,并充分利用图像的色彩、纹理等信息,对不同目标分别进行匹配,以进一步提高精度和实时性。 参考文献: [1] 孙 俊, 芦 兵,毛罕平.基于双目识别技术的复杂背景中果实识别试验[J].江苏大学学报(工学版),2011,32(4):423-427. [2] YAMAMOTO S,KOBAYASHI K,KOHNO Y.Evaluation of a strawberry-harvesting robot in a field test[J]. Biosystems Engineering,2010,15(2):160-171. [3] 项 荣,应义斌,蒋焕煜,等.基于双目立体视觉的番茄定位[J].农业工程学报,2012,28(5):161-167. [4] 彭 辉,吴鹏飞,翟瑞芳.基于视差图像的重叠果实图像分割算法[J].农业机械学报,2012,43(6):167-173. [5] 殷小舟,淮永建,黄冬辉.基于双目立体视觉的花卉三维重建[J].扬州大学学报(农业与生命科学版),2012,33(3):91-94. [6] 赵春江,杨 亮,郭新宇,等.基于立体视觉的玉米植株三维骨架重建[J].农业机械学报,2010,41(4):157-162. [7] 王传宇,赵 明,阎建河.基于双目立体视觉的苗期玉米株形测量[J].农业机械学报,2012,43(6):167-173. [8] 袁 挺,李 伟,谭豫之,等.温室环境下黄瓜采摘机器人信息获取[J].农业机械学报,2009,40(10):151-155. [9] BARNARD S T. Stochastic stereo matching over scale[J]. International Journal of Computer Vision,2009,3(1):17-32. [10] ROY S, COX I J. A maximum-flow formulation of the N-camera stereo correspondence problem[A]. Sixth International Conference on Computer Vision[C]. Bombay,India,2011:492-499. [11] KOLMOGOROV V, ZABIH R. Computing Visual Correspondence with occlusions using graph cuts[A]. Eighth International Conference on Computer Vision[C].Vancouver, Canada, 2012: 508-515. [12] YANG Q X. Stereo matching with color-weighted correlation, hierarchical belief propagation and occlusion handling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(3):492-504. [13] CAI J. Integration of optical flow and dynamic programming for stereo matching[J]. Image Processing, IET, 2012, 6(3):205-212. [14] 赵钦君,赵东标,韦 虎.Harris-SIFT算法及其在双目立体视觉中的应用[J].电子科技大学学报,2010,39(4):546-550. [15] 许 钢,林园胜,江娟娟,等.改进型SIFT立体匹配算法研究[J].计算机工程与应用,2015,51(6):134-138. [16] 李盛辉,周 俊,姬长英,等.基于全景视觉的智能农业车辆运动障碍目标检测[J].农业机械学报,2013,44(12):239-244. [17] 张 凯,耿长兴,张二鹏,等.温室环境下红掌图像拼接算法[J].农业机械学报,2013,44(4):223-227. [18] LOWE D G.Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004, 60(2):91-110. [19] MARR D.Vision. A Computational Investigation into the Human Representation and Processing of Visual Information[M]. San Francisco: Freeman W H, 1982.