吴丽娜,邱 钧,刘 畅
(北京信息科技大学 应用数学研究所,北京 100101)
图像特征检测技术是计算机视觉领域中的一项关键技术,是解决图像配准、场景重构以及目标识别与分类等问题的基础.
尺度不变特征转换(Scale-Invariant Feature Transform,SIFT)方法对图像的平移、缩放、旋转等变换具有不变性,是常用的特征检测方法之一[1-2].由于缺失场景表面的三维结构信息,基于RGB图像的SIFT方法无法检测表征物体本质属性的特征.深度图像(Depth map)记录了场景各点与相机之间的距离,相对稳定地反映了场景表面的三维结构信息,是对RGB图像的有效补充,也促使越来越多的学者开始研究基于颜色-深度图像(RGB-D)的三维特征.Karpushin等[3]给出了RGB-D图像的一种多尺度表示方法,并实现了特征检测.Mirdanies等[4]将RGB图像和深度图像的SIFT与SURF(Speeded Up Robust Features)特征进行融合,实现了较理想的三维目标识别效果.现有的RGB-D图像特征检测方法大部分是将RGB特征和深度特征简单连接,并没有有效地融合物体表面的颜色和结构信息.因此,如何基于RGB-D图像提取稳定的三维特征是一个重要的研究内容.
本文利用透视投影,建立物点的三维保结构模型.基于扩散方程与尺度空间的联系,将深度信息融入图像的尺度空间中,给出RGB-D尺度空间的一种表示方法,并在RGB-D尺度空间中检测三维特征点.
图像尺度空间是图像在多个尺度下的描述,尺度空间的构建主要包括:① 利用低通滤波器平滑图像;② 对平滑后的图像进行降采样.
Lindeberg证明了高斯核是生成尺度空间的唯一线性变换核[5].假设I0表示输入图像,则I0的尺度空间L(x,y,σ)表示为高斯函数G(x,y,σ)与I0(x,y)的卷积,即
L(x,y,σ)=G(x,y,σ)*I(x,y),
(1)
SIFT是David Lowe于1999年提出,2004年完善的图像特征点检测与匹配方法[1-2].特征检测阶段主要包括尺度空间的极值检测与特征点的精确定位.
1.2.1 尺度空间的极值检测
Mikolajczyk K等[6-7]在实验中发现高斯拉普拉斯函数σ2G2的极值同其他特征提取函数(如Hessian[6-7]、Harris角点[8]和Morevec[9])相比,能够产生更稳定的图像特征.早在1994年,Lindeberg发现高斯差分函数(Difference-of-Guassian,DOG)与高斯拉普拉斯函数近似[5].因此,高斯差分函数的极值点对应图像的稳定特征点.高斯差分函数D(x,y,σ)的定义为
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*
I0(x,y)=L(x,y,kσ)-L(x,y,σ),
(2)
式中:k为尺度空间中相邻图像的尺度比.
由尺度空间的描述可知,D(x,y,σ)表示尺度空间中相邻图像的差值,则由D(x,y,σ)建立的尺度空间称为高斯差分尺度空间.在此尺度空间上检测极值,即可提取出图像的特征点.
1.2.2 特征点的精确定位
为精确定位特征点,需要利用子像元插值法获取连续空间中的极值点.假设检测到的极值点为X0=(x0,y0,σ0),在X0处将D(x,y,σ)泰勒展开为
(3)
对式(3)求导,并令导函数为零,得
(4)
式中:δ为X与X0的偏移量,由偏移量δ中分量的大小可以精确定位特征点的位置,即δ=X0+X.
透视投影将场景从三维空间映射到二维像平面,实现场景降维.类似于物点在相机坐标系中的参数化模型[3],基于透视投影,可以建立物点在像平面上的参数化模型.
(5)
图 1 基于透视投影的物点参数化模型示意图Fig.1 Parametric model diagram of object point based on perspective projection
基于透视投影的物点参数化模型刻画了物体从三维坐标系变换到二维坐标系的过程.在不考虑遮挡的情况下,三维物体表面的颜色和结构信息完全蕴含在RGB-D图像中,则此模型是物点的三维保结构模型.
由尺度空间的描述可知,图像的尺度空间可以表示为
(6)
用步长h对图像I0的支撑域Ω进行离散,得到离散形式的支撑域Ωd.基于有限差分理论,引入差分量
(7)
(8)
(9)
(10)
同理,∂yyf有类似的表示形式,即
(11)
由上述引入的差分量,得到扩散方程式(6)的差分形式为
(12)
式中:L=∂xx+∂yy.
将上述方程写成矩阵形式,令Lf=Af;由导数的定义可知,式(12)近似于
(13)
式中:τ为图像间的尺度差,即τ=σn+1=σn.给定图像I0,迭代求解式(13),即可得到RGB-D图像的多尺度表示,即RGB-D尺度空间.因为融入了表征物体表面结构信息的深度图像,则RGB-D尺度空间是三维保结构的.
令采样步长趋于零,得∂xxf和∂yyf,即式(10)和式(11)的连续形式
Dxxf=fxx‖rx‖-2-fx‖rx‖-4(rx,rxx),
(14)
Dyyf=fyy‖ry‖-2-fy‖ry‖-4(ry,ryy),
(15)
式中:fx和fy分别为函数f关于x与y的一阶偏导,rx和fy分别为函数r关于x与y的一阶偏导,fxx和fyy分别为函数f关于x与y的二阶偏导,rxx和ryy分别为函数r关于x与y的二阶偏导.式(12)的连续形式为
(16)
如果D(x,y)为常数,则有rx=ry≡const和rxx=ryy≡0,上式等价于扩散方程式(6).因此,在深度值恒定的情况下,RGB-D尺度空间对应二维图像的尺度空间.
本节基于保结构的RGB-D尺度空间提出一种三维特征点检测方法.检测过程包括初始特征点的选择;特征点的精确定位;特征点的筛选.
2.3.1 初始特征点的选择
因高斯拉普拉斯函数的极值点对应图像的稳定特征,则在RGB-D尺度空间上检测极值,即可初步定位RGB-D图像的三维特征点.值得注意的是,RGB-D尺度空间中的尺度为场景的实际尺度,而非场景在成像面上的尺度.所以检测极值时,只需寻找每个尺度下图像的极值,而不考虑尺度间图像极值的大小关系.
2.3.2 特征点的精确定位
为精确定位特征点,利用子像元插值法获取连续空间中的极值点.假设检测到的极值点为(x1,y1,σ1),因不考虑尺度变量σ1,故可将(x1,y1,σ1)视为(x1,y1).令F(x,y)=Af(x,y),X1=(x1,y1), 将F(x,y)在X1处泰勒展开为
F(x,y)=F|X1+(Fx,Fy)|X1δ1+
(17)
式中:δ1=(x-x1,y-y1)T为偏移量,Fx和Fy分别为函数F关于x与y的一阶偏导,Fxx和Fyy分别为关于x与y的二阶偏导,Fxy为关于x与y的混合偏导.
对上式求导,并令导函数为零,则有
(18)
根据偏移量δ1中分量的大小可以确定连续空间中的极值点,即三维特征点的位置X=X1+δ1.
2.3.3 特征点的筛选
为获取稳定的三维特征点,需要对特征点进行筛选.将上述精确定位的特征点X代入式(17),得特征点X处的函数值为
(19)
给定一个阈值λ1,若|F(X)|<λ1,说明F(X) 与周围像素点的函数值相差不大,即X为低对比度的特征点,其易受噪声干扰而不稳定,需要删除.
函数F(x,y)有较强的边缘响应,使得位于边缘的特征点不稳定,需要删除.当特征点位于边缘时,对应的函数F(x,y)在横跨边缘的方向上有较大主曲率,而在其垂直方向上有较小主曲率.因此,可以利用主曲率之比筛选特征点.F(x,y)的主曲率可由Hessian矩阵HF来计算
(20)
F(x,y)的主曲率与HF的特征值成正比,则主曲率之比可转化为HF矩阵的特征值之比.为简便计算,假设矩阵HF的两特征值之比为λ,根据矩阵的迹和行列式与特征值之间的关系可知,
(21)
给定阈值λ2,若
(22)
则认为特征点位于图像边缘,需要删除.特征点的精确定位与筛选之后,保留下来包含位置信息(x,y)和尺度信息σ的特征点,即为RGB-D图像的保结构三维特征点.
本节采用Heidelberg图像处理合作实验室(HCI)[10]公开的两组标准光场数据验证本文提出的检测方法.实验通过比较SIFT和本文提出的特征点检测和匹配结果,给出新方法的性能分析.
具体实验设计如下:第一组实验从Table场景的RGB-D图像中截取两个含有公共区域的图像,将它们分别视为基准图像和待匹配图像;第二组实验将Dino场景的RGB-D图像视为基准图像,截取基准图像中心区域并将扩大二倍后的图像视为待匹配图像.
图 2 给出了SIFT和新方法在两组HCI标准光场数据实验中的特征点检测结果.图中(a1)~(a4)为待检测的RGB图像,(b1)~(b4)为对应的深度图像,(c1)~(c4)为SIFT方法的特征点检测结果,(d1)~(d4)为新方法的特征点检测结果.从图中可以发现:相比SIFT方法,融入深度信息的新方法能够检测到更多的图像特征点,且在某些纹理相似的区域检测结果更好.
图 3 是SIFT和新方法在两组HCI标准光场数据实验中的特征点匹配结果.图中(a1),(b1),(a3),(b3)为实现匹配的特征点;(a2),(b2),(a4)、(b4)为局部区域的特征点匹配结果.由图 3 可知,相比SIFT特征点的匹配结果,三维特征点的匹配结果更好,验证了三维特征点保结构检测方法的有效性与可行性.
表 1 给出了SIFT和新方法的特征点检测数(Total of Feature Detection,TFD)、特征点匹配数(Total of Feature Matching,TFM)、特征点匹配率(Rate of Feature Matching,RFM)和程序的运行时间(Running Time,RT).定义特征点匹配率为
(23)
式中:TFD1和TFD2分别为基准图像和待匹配图像的特征点检测数.
图 2 Table和Dino的特征检测结果Fig.2 Feature detection results of Table and Dino
图 3 Table和Dino的特征匹配结果Fig.3 Feature matching results of Table and Dino
表 1 特征点的检测数、匹配数、匹配率与运行时间
与SIFT方法利用高斯差分函数近似高斯拉普拉斯函数不同,新方法直接建立高斯拉普拉斯函数的计算模型.由表1可知,融合RGB和深度信息的三维特征点保结构检测方法能够检测并匹配更多稳定的图像特征点.同时,对比二维SIFT方法,新方法的特征匹配率相对较低、运行时间较长,说明该方法检测出的特征点中有噪点存在.进一步针对噪点误差消除以及匹配计算优化的改进,可以提高特征点匹配率和计算的实时性,使算法具有更好的适用性.因此,如何去除三维特征点中的噪点,是后续研究的重要方面.
本文基于透视投影与尺度空间,提出了一种RGB-D图像三维特征点的保结构检测方法.该方法利用透视投影,建立了物点的三维保结构模型;基于扩散方程和尺度空间的联系,将深度信息融入图像的尺度空间中,给出了RGB-D尺度空间的一种表示方法,并检测出包含颜色和结构信息的三维特征点.由于RGB-D图像是三维点云在固定视角下的场景深度表示,新方法可应用于三维点云的特征检测,并且在高精度三维图像配准、大视野三维场景拼接、目标识别与跟踪等领域有着广泛应用.