石松婷
摘要:目前,三维模型在各个领域都得到了广泛的应用,例如现有的地理模型和医学模型等。此外,从理论上说基于图像三维重建实际上是计算机图形学的逆问题。如何根据受干扰或者不完整的二维信息来恢复三维信息是这项技术的一大难点,也是计算机视觉的一大难点。对基于图像重建技术相关专利的深入研究可以促进对这些问题的理解和研究,推动三维模型获得更为广泛的应用。本文主要以国外巨头飞利浦公司的几项专利为例,品析基于单目视觉的三维重建的几项创新技术。
关键词:单目视觉 飞利浦 三维重建
前言
基于视觉的三维重建技术,即采用计算机视觉方法进行物体的三维模型重建,是指利用数字摄像机作为图像传感器,综合运用图像处理、视觉计算等技术进行非接触三维测量,用计算机程序获取物体的三维信息。其优势在于不受物体形状限制,重建速度较快,可以实现全自动或半自动建模等,是三维重建的一个重要发展方向,能广泛应用于包括移动机器人自主导航系统、航空及遥感测量、工业自动化系统等在内的各个领域,由此项技术产生的经济效益极为可观。
飞利浦公司是全球最大的三维重建技术的研发者。飞利浦该公司创立于1891年,其是世界上最大的电子公司之一,在欧洲名列榜首。飞利浦是个综合性大集团,通过以下三个交叉部门为专业市场和消费市场提供服务:医疗保健、照明和优质生活。2002年其在华营业额和出口创汇额在全国外商投资企业中双双排名第一位。通过上述数据,可以看出要占领市场,核心研发技术不能少。下面我们就来揭开该飞利浦公司公司在单目视觉三维重建领域的神秘面纱。
一.飞利浦公司基于单目视觉的三维重建的技术分类
作为计算机视觉技术的一个重要分支,基于视觉的三维重建技术以Marr 的视觉理论框架为基础,形成了多种理论方法。例如,根据摄像机数目的不同,可分为单目视觉法、双目视觉法、三目视觉或多目视觉法。此处,我们着重分析单目视觉方法。
单目视觉方法( monocular vision) 是指使用一台摄像机进行三维重建的方法。所使用的图像可以是单视点的单幅或多幅图像,也可以是多视点的多幅图像。下面将介绍几种主要的单目视觉方法。
下面以飞利浦公司作为主要的分析对象来查看其在三维重建领域的技术发展脉络。主要分析以下该领域中常用的几种方法:
从图1中可以看出,运动法占四种核心方法中的主导地位,其次是轮廓法。下面将针对这三种算法分析进行详尽的分析。
1.1轮廓法
轮廓法是轮廓恢复形状法( shape from silhouettes/contours)的简称。这种方法通过多个角度物体的轮廓图像得到物体的三维模型。轮廓法可以分为基于体素、基于视壳和基于锥素三种方法。
基于体素的方法
这种方法将物体所在的三维空间离散化为体素( voxel) ,再将图像分割为前景( 物体) 和背景,通过投影测试判定一个体素点的投影是在前景还是背景中。如果一个体素点在不同视角都投影到了前景内,那么就认为它是物体的一部分,将所有这样的体素点集合起来就可以重构出物体的三维形状。这种方法简单且鲁棒性较好。
飞利浦公司于2007年3月14日在华申请了一篇名为建立深度图的专利,如图7所示,申请号为CN200580007733,该申请同时在韩国,日本,美国等多个国家具有同族。该申请的发明点在于提供一种可由静止图像来产生深度图的方法,基于图像像素值来确定包括邻近点的集合的轮廓;且基于多个点处的曲率向量计算来分配与第一像素对应的第一深度值。
该专利采用了点的曲率相邻来合理分配深度值,曲率计算该技术手段虽然很常规,但用在计算点的深度值该领域上,却显得构思极为巧妙。
1.2纹理法
纹理法的基本理论为: 对于一个具有光滑表面并覆盖了重复纹理单元的物体,当被投影在二维图像上时,其上的纹理单元会发生变形,这种变形分为投影变形( projective distortion) 和透视收缩变形( foreshortening distortion) 。投影变形使离图像平面越远的纹理单元看上去越小,透视收缩变形使与图像平面角度越大的纹理单元看上去越短。由于这两种变形都可以从图像中测量得到,因此就可以分析变形后的纹理单元,反向求取物体表面法向和深度信息,进行三维重建。
飞利浦公司于2003年12月10日在华申请了一篇名为全深度采集的专利,如图3所示,申请号为CN 200380108833,该申请同时具有美国,韩国,日本,台湾等多个同族专利。该申请基于人体具有对于亮度本身和它的空间/时间导数的传感器的理解。用于直接亮度传感器的事实是即使缺少任何纹理(空间导数为零,例如当由纸盖住我们的眼睛时),我们仍能看见是亮还是暗的原理来实现。
该专利一反常规专利的思路,另辟蹊径,从反面来研究当缺少纹理时,如何求取图像深度。
1.3运动法
运动法,即基于运动的建模( structure from motion,SFM) ,是通过在多幅未标定图像中检测匹配特征点集,使用数值方法恢复摄像机参数与三维信息的一种方法。
运动法对图像的要求非常低,可以采用视频甚至是随意拍摄的图像序列进行三维重建。同时可以使用图像序列在重建过程中实现摄像机的自标定,省去了预先对摄像机进行标定的步骤。
飞利浦公司于2004年12月7日在华申请了一篇名为全深度采集的专利,如图4所示,申请号为CN 200480037342,该申请同时具有美国,韩国,日本等多个同族专利。该申请中步骤34主要借助三维重构在世界空间(world space)中通过对感兴趣的点进行重构来完成。这可按照基于分割的深度估计来进行,即采用了基于运动的建模方法的优选方式来进行。
该专利是提取的相互关联的视频图像帧,以此来分析运动中接合点处投影的投影重构点,并将其彼此链接以获得一组链接,进行组合后编码图像。技术手段是一环扣一环,但却能达到获取深度的目的。
总结
通过以上分析,我们已经品析了飞利浦公司在单目视觉三维重建的几项关键技术,也正是由于其在三维重建领域的稳固发展,才使得该公司已经在国际上占有相当一部分市场,其市场地位十分牢固。
依据飞利浦公司的发展经历,站在技术的前沿,才能更好的占据市场,和大企业抗衡。未来的路还很远,需要不断实践,我国企业也应该加大研发重视度,力求创新,提高企业核心竞争力。
参考文献
[1]张涛.基于单目视觉的三维重建[J].中国优秀硕士学位论文全文数据库信息科技辑,15-22.
[2]贾松敏等. 基于变分模型的单目视觉三维重建方法[J].光学学报,2014(4):162-168.
[3]魏保志. 做好专利审查要有法律思维[J]. 审查业务通讯,2014,20 (1):1-6.