李宝平,靳聪
(中国传媒大学媒介音视频教育部重点实验室,北京 100024)
基于AD-CESUS联和测度的立体匹配算法
李宝平,靳聪
(中国传媒大学媒介音视频教育部重点实验室,北京 100024)
双目图像深度估计是许多现代立体视觉技术的重要基础。由于受到光线、纹理结构变化,前后遮挡,图像噪声等因素的影响,基于单特征的匹配算法缺乏鲁棒性。本文将基于像素点的AD测度函数与基于区域的Census测度函数,依据匹配置信程度实现自适应加权融合,形成联和测度函数。该联和测度函数可以将AD的单调性与Census的区域性有效结合,提升立体匹配算法的鲁棒性。通过实验测试,证明采用该联测度函数可以有效提高局部和全局匹配算法的匹配准确度,尤其是局部匹配算法。
深度估计;立体匹配;联和测度函数;权值树消息传递算法;代价初始化
平面图像深度估计是计算机立体视觉研究的一个热点问题,也是虚拟现实、三维重建、无人驾驶等领域技术研究的基础。单目图像深度估计主要基于从图像自身提取的深度线索[1]。在摄像机标定的基础上,双目图像深度估计问题就转换为立体匹配问题。双目图像深度估计流程主要包括以下步骤(如图1所示)[2]:图像获取、摄像机标定、图像矫正、立体匹配、生成深度图像。立体匹配是立体视觉中物体景深估计的基础,其匹配效果的好坏对场景深度估计会产生很大的影响。近几年,随着立体视觉,机器人,虚拟现实等研究的不断升温,立体匹配算法的研究也得到越来越多的重视。
图1 双目图像深度估计流程
立体匹配算法流程如图2所示。立体匹配算法可以简单的分为全局和局部算法。由于单一像素点自身特征的缺乏,因此必须借助于周边像素点来实现正确匹配。局部匹配算法是利用支持窗口内像素点的区域特征来完成匹配的,不需要全局平滑假设;全局匹配算法则需要进行平滑假设[3-5],构造全局能量函数,将立体匹配的标签优化问题转化为能量最小化问题,通过能量最小化方法来求解[6,7]。一般情况下,局部匹配算法计算复杂度低,通常应用于实时或需要硬件实现的情况;全局算法由于采用迭代的方式进行匹配代价聚合,实现能量最小化,通常匹配准确度要比局部算法高一些,但计算复杂度也会比较高。
图2 立体匹配算法流程
匹配问题的基础是参考图像与目标图像之间像素点的特征度量。在一幅图像中,存在不同的纹理结构区域,同时各区域噪声,遮挡情况等也不尽相同。不同的测度函数在不同区域的立体匹配效果也不相同。本文在对AD,Census测度函数性能分析的基础上,将AD-Census联和测度函数应用于图割全局算法,通过实验证明该方法可以有效提高立体匹配的准确度。
文章其余部分安排如下:第2部分介绍AD,Census测度函数;第3部分介绍AD-Census联和测度函数;第4部分介绍顺序权值树消息传递(Sequential Tree-Reweighted message passing,TRW-S) 匹配算法;实验结果及评价在第5部分介绍;第6部分对全文进行总结。
立体匹配的基础是通过对参考图像中的兴趣像素点(或所在区域)的特征与目标图像在视差限制范围内的像素点(或区域)特征,进行相似度比对来实现的。因此选择什么样的图像特征,采用什么样的测度方式是立体匹配的基础,也是影响立体匹配效果的重要因素。图像匹配方法与图像特征的选取有密切的关系。目前,还没有建立起一套完整的图像匹配所适用的特征提取理论,由此导致了图像匹配特征的多样性。通常相似度测度方式可以分为两大类:一类是基于像素点的,比如AD,Gradient等;另一类是基于无参变换的,比如Rank,Census,NCC等。本文选取两类中的典型代表AD及Census对其性能进行分析。
2.1 AD测度函数
绝对差值(Absolute Difference,AD)[8]是立体匹配过程中应用最广泛的测度函数。AD测度函数计算参考图像I和目标图像I′之间的色彩强度差异。
(1)
AD测度函数的优点是计算复杂度低,运算效率高;缺点是对异值点的分辨力差,且容易受到图像噪声的干扰。另外由于只有单个像素点参与到相似度计算,因此AD测度不能提供匹配区域中的任何纹理结构信息。
2.2 Census测度函数
Census测度函数是利用无参Census变换[9]来实现相似度度量的。Census变换是通过给像素点p邻域N(p)内强度值小于I(p)的像素点p′打标签的方式来实现的。如果I(p′)
CT(p)={p′∈N(p)|I(p′)
Census测度函数通过计算参考图像与目标图像间Census变换的Hamming距离得到。
CCensus(p,d)
Census考虑了纹理的空间分布信息,因此具有更好的鲁棒性和抗噪性,但是计算复杂度比较高。
依据Hirschmuller等[10]的评估,Census测度函数在局部和全局匹配算法中都表现最好。在局部匹配算法中,Census测度相较于像素自身的强度值,更依赖于周边像素序列。因此,Census算法对光照变化和图像噪声产生的异值点有很好的抑制作用。但同时,Census算法对图像中具有类似结构的重复区域匹配效果不是很好,容易产生混淆(如图3上图所示)[11]。为解决这个问题,需要引入更多的细节信息参与到匹配计算中,色彩强度信息(AD)可以有助于消除这种模糊性。但是对于低纹理区域(或具有相同颜色分布区域),Census相较于基于像素点强度的测度方式来说,就比较有优势,如图3所示。
结构重复区域
低纹理区域图3 特殊区域的代价匹配结果
图4 AD,Census归一化匹配代价
采用AD-Census联和测度的方式,可以将AD的单调性(如图4所示)与Census的区域性相结合,提升匹配准确度[11]。我们采用加权融合的方式实现联和匹配。该方法是一种自适应融合策略,在代价初始化后,依据置信程度加权融合:
C(p,d)=wADCAD(p,d)+wCensusCCensus(p,d)
(4)
其中,S表示置信度,这里采用简单的朴素峰值比(Naive Peak Ratio,NPR)置信度评测方法。NPR仅需要利用参考图像的匹配代价:
(5)
NPR是通过观测像素点最小及第二小的相似度匹配代价c1,c2实现的。比值越大,则认为置信度越高;反之,则置信度较低。ε为小正数,是为了避免出现分母为零的情况。
图5所示为采用不同测度函数时的立体匹配结果对比。该测试是基于Middlebury数据测试集[12]。滤波窗口大小为3*3。从对比情况,我们可以看到采用AD-Census联和测度函数,可以明显改善匹配效果,与AD和Census相比,分别下降18.3%,2.7%。
图5 不同测度函数错数视差百分比
图6 TRW-S状态更新方式
在马尔科夫随机场模型中,基于能量最小化算法的全局能量可以表示为:
(6)
其中,p∈V表示图像中所有像素点构成的点集,(p,q)∈E表示图像中像素点间连线构成的边集,整个图集可以表示为G=〈V,E〉。式中Cp为一元势能函数,表示p点在视差为dp时的匹配代价,Vp,q为二元势能函数,表示p,q点间相互影响关系。
(7)
(8)
这里,我们设定λ1=2.5,λ2=0.2,λ3=0.1,θ1=8,θ2=20。
TRW算法可以近似能量函数的最大下边界,“置信”消息在各个树之间的传播。与传统BP相比,TRW更新速度更快,但需要比BP更多的迭代次数。TRW算法并不能保证总是收敛。TRW-S[13]算法中消息采用顺序传递的方式T1→T6(如图6所示),保证算法收敛,相较于传统BP算法可以节省一半的运行内存。
(9)
(10)
(11)
本文所有测试都是基于Middlebury数据测试集,采用的匹配窗口大小为3*3,如图7所示。该测试集除了提供真实的视差图以外,同时还可以对图像的非遮挡区域(Non-Occlusion)和视差不连续区域(Discontinues)进行特别分析(如图8所示)。
分别采用AD,Census及AD-Census测度函数代价初始化后,利用TRW-S方法代价聚合,匹配结果如表1所示。通过对比分析,证明使用AD-Census联和测度函数可以提升立体匹配准确度,与AD,Census相比视差错误率分别下降7.9%,0.6%。而在局部算法中,采用AD-Census联和测度函数要比AD、Census算法分别低18.3%,2.7%。我们分析其主要原因是:在全局算法中引入了平滑假设,在迭代过程中,存在代价聚合过程,因此初始化结果对立体匹配的影响被缩小。基于AD-Census联和测度函数的TRW-S匹配结果如图9所示。
原图
真实视差图像图7 Middlebury立体匹配标准测试图像
原图 真实视差图像 无遮挡区域 视差不连续区域图8 Tsukuba图像(注:白色区域为有效区域)
全局算法局部算法nonoccalldiscnonoccalldiscAD13.117.227.030.534.033.5Census5.49.917.513.018.423.5Proposed5.09.315.910.615.720.4
本文将AD(基于像素点的)、Census(基于区域的)两种立体匹配中常用的典型的测度函数,依据立体匹配的置信度大小,进行加权融合,形成新的测度函数。并将新的测度函数应用于立体匹配算法的代价初始化过程中。通过实验测试,说明AD-Census联和测度函数可以将AD的单调性与Census的区域性相结合,提高整体匹配效果。通过对比分析,证明了AD-Census联和测度函数应用于局部和全局匹配算法的有效性,尤其是局部匹配算法。该方法同时也可以扩展应用到其它立体匹配算法中去。
原图
真实视差图像
TRW-S视差图像图9 TRW-S立体匹配结果
[1]Baoping Li,Long Ye,etc.Multi-cue Fusion Based Depth Map Generation from 2D Video Frames[J].Journal of Information and Computational Science,2015,12(16):6131-6143.
[2]赵小川.Matlab图像处理程序实现与模块仿真[M].北京:北京航空航天大学出版社,2014.
[3]Veksler O.Stereo correspondence with compact windows via minimum ratio cycle[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(12):1654-1660.
[4]Xu Y,Wang D,Feng T,et al.,Stereo computation using radial adaptive windows[C].Pattern Recognition,2002 16th International Conference,Proceedings,2002,3:595-598.
[5]K.-J.Yoon,I.-S.Kweon.Locally adaptive support-weight approach for visual correspondence search[C].Computer Vision and Pattern Recognition,2005(CVPR 2005),IEEE Computer Society Conference,2005,2:924-931.
[6]Altantawy D,Obbaya M,Kishk S.A fast non-local based stereo matching algorithm using graph cuts[C].Computer Engineering & Systems (ICCES),2014 9th International Conference,2014:130-135.
[7]Yu T,R S Lin,Super B,Tang B.Efficient message representations for belief propagation[C].Computer Vision,2007(ICCV 2007),IEEE 11th International Conference,2007:1-8.
[8]Jian Sun,Nan Ning Zheng,Heung Yeung Shum.Stereo matching using belief propagation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(7):787- 800.
[9]Zabih R,Woodfill J.Non-parametric Local Transforms for Computing Visual Correspondence[C].European Conference on Computer Vision,Stockholm,Sweden,May 1994:151-158.
[10]Hirschmuller H,Scharstein D.Evaluation of stereo matching costs on images with radiometric differences[C].PAMI 31 (2009):1582-1599.
[11]Mei X,Sun X,Zhou M,et al.On building an accurate stereo matching system on graphics hardware[C].ICCV Workshops,2011:467-474.
[12]http://vision.middlebury.edu/stereo/[DB/OL].
[13]Kolmogorov V.Convergent tree-reweighted message passing for energy minimization[J].IEEE Trans Pattern Anal Mach Intell,2006,28(10):1568-1583.
(责任编辑:王谦)
Stereo-Matching Algorithm Based on AD-Census Joint Measure
LI Bao-ping,JIN Cong
(Key Laboratory Media Audio & Video Ministry of Education,Communication University of China,Beijing 100024,China)
Depth estimation for binocular images is an important foundation of many current stereo vision application technologies.Depth estimation based on single image feature is lack of robustness,due to the affection of such factors as variances in texture and light,occlusion,image noise,etc.In this paper,the AD similarity measure based on pixels and the Census measure based on regions are weighted fusion according to their stereo-matching confidence,and formed a joint measure function.Monotonicity feature of the AD measure and region feature of the Census measure are effectively combined together,which can help to ascend the robustness of stereo-matching algorithms.Experimental results demonstrate the effectiveness of the joint measure function by used in global method and local method,especially in the local stereo-matching algorithm.
depth estimation;stereo-matching;joint measure function;TRW-S;cost initialization
2016-4-14
国家自然科学基金项目(61371191,6120123)
李宝平(1981-),男(汉族),河南济源人,中国传媒大学博士研究生.E-mail:Libaoping 2003@126.com
TP37
A
1673-4793(2016)06-0046-07