李浩铭,付战平,胡文婷,苏 锋,邢 祎
(海军航空大学青岛校区, 山东 青岛 266041)
随着虚拟现实技术日新月异的发展,Virtual Reality (VR)由于视场角有限、易晕眩、安全性不高等限制难以满足越来越严格的仿真应用要求,扩展现实(extended reality,XR)技术应运而起。其中,增强现实(augmented reality,AR)、混合现实(mixed reality,MR)技术都能够通过实现虚实融合达到更好的仿真效果。VR沉浸性、逼真度较强,适合应用于游戏,但由于VR看不到现实场景,如果应用于航空航天模拟器或者工业装配,佩戴者的感知与视觉系统不同步易产生眩晕感;AR都是在现实可见的基础上,增加虚拟物体或者虚拟提示,应用于工业装配等操作时,避免了看不见现实场景时危险设备可能造成的伤害,但虚拟物体与现实之间的遮挡和光照一致性很难处理好,适用于对虚拟显示要求相对不是很高,但对安全性要求较高的应用;MR巧妙将现实和虚拟场景融合在一起,能够满足对逼真度、真实性、实时度同时要求较高的应用,特别是应用于模拟系统仿真时,提高了模拟系统的实用性,同时避免了眩晕和光照不一致的问题。
MR技术近些年在教育培训、娱乐传媒、军事、航天航空、医疗健康等方面都取得了重大的突破,特别在军用模拟训练方面。据中国航空工业发展研究中心何晓骁在《空天防务观察》发文称美军于2020年1月开启了视频透视技术在模拟训练中的探索研究。国内在这个方向上的探索也早已开始。经过调研交流,在工业制造方面,601所、615所和118厂都在大力研究视频透视式虚实融合系统在虚拟仿真领域的应用。
MR技术研究重点包括虚拟环境的实景高清视频流的显示、定位处理、自然交互及虚实融合技术等。通过研究解决视觉传感器标定校准技术、头显式高清视频流透视的位姿追踪及虚实配准技术、视口同步技术、高精度人工标识定位技术、视频流绿幕抠像技术及全景拼接算法,能够构建高精度、高沉浸感、低成本的MR应用系统,实现虚实融合的人机自然交互。其中视频透视技术(video see through,VST) 以及光学透视技术(optical see through,OST)能够实现虚拟场景与实物的无缝融合交互。
VST是指头戴显示器通过安装在眼镜/头盔上的微型摄像头采集真实场景的图像,如图1所示,计算机通过场景理解和分析将所要添加的信息和图像信号叠加在摄像机的视频信号上,同时将计算机生成的虚拟场景与真实场景进行融合,最后通过头戴式头盔/大显示器等显示载体呈现给用户。
图1 视频透视原理框图
OST的特点是让用户能够直接看到真实的环境,如图2所示,在用户眼睛前面放置部分透明的光学合成器,用户透过它可以直接看到真实世界。合成器又是部分反射的,用户同时可以看到从头戴显示器反射到合成器上产生的虚拟图像。
图2 光学透视原理框图
VST相较于传统OST的半透明显示效果更加逼真,对混合现实的实时响应性要求不高,计算机算法实时渲染的影像呈现视角更大,且叠加的图像与现实场景融合得更好。
VST头盔显示器应用时,由于人眼的视点与摄像机在物理上不可能完全一致,因而可能导致用户看到的景象与实际的真实景象之间存在误差;但视频透视式头盔显示器沉浸性好、实时响应速度高以及虚实光照较为一致,在模拟仿真和交互式游戏应用较多。
OST头盔显示器应用的一个主要问题就是由于前方的光学融合器既允许真实环境中的光线通过,又允许虚拟环境中的光线通过,因此由计算机生成的虚拟物体不能够完全遮挡住真实场景中的物体,使得虚实融合的真实感较差,但OST头盔显示器具有结构简单、价格低廉、安全性好、分辨率高以及不需要视觉偏差补偿等优点,在机械装配和维修系统应用较多。
视频透视技术属于头戴式MR技术,从头盔制备到交互应用,可以将VST涉及的关键技术分为:VST头盔的制备、跟踪注册算法、虚实遮挡的优化以及人机交互的方法。
针对VST的应用,VST显示器分为自制和商用2种。早期VST显示器根据不同的应用需要,由实验室根据VST显示原理制备,效果主要根据应用需要判定;后期由于MR游戏的兴起,商用VST显示器不断络绎不绝,并不断更新换代中。
..自制VST显示器
2011年,任超宏基于虚拟相机位置的立体图像生成方法得到虚拟模型的立体显示,采用了一种新型头盔显示器显示虚实融合图像,如图3,头盔显示装置可对两个摄像头之间的距离进行调整,缓解了现有的双目VST头盔容易让佩戴者感到头晕等不良症状;2012年,徐刚强对可控畸变鱼眼镜头相机的建模、标定和成像校正进行了研究,针对可控畸变鱼眼镜头的实例—椭圆全景镜头在视频监控中的应用,研究了镜头成像畸变的多视角漫游校正,通过并行处理提高了畸变校正算法的效率;2017年,张汉军针对双目头盔显示器关键技术进行了研究:结合双目视场匹配特性,通过研究得到双目镜片安装的相对位置要求,并通过对头盔显示系统的设计,实现了一个初步的双目头盔信息显示系统;2018年,吴智敏采用双目校正以及摄像机参数调整的方法对VST头戴显示器视觉效果进行了优化,建立了由图4所示的VST头戴显示器、混合跟踪模块、三维注册算法、虚实遮挡处理等软硬件构成的装配训练系统操作平台。
图3 任超宏自制VST显示器
图4 吴智敏自制VST显示器
自制VST头盔相较于商用头盔,能更好得符合实际应用要求,但分辨率、视场角(field of view,FOV)、实时性等仍有待于从硬件上进行优化。目前自制VST显示器的研究主要在提高显示分辨率、还原大视角、增强跟踪实时性和改善光照一致性等方向。
..商用VST显示器
2015年,在巴塞罗拉世界移动通信大会上,HTC和VALVE合作推出了一款虚拟现实头戴式显示器——HTC Vive系列,具备手势追踪功能,如图5所示为HTC Vive Pro。图6中的Hololens是微软公司2015年发布的一种MR头显,通过追踪佩戴者的移动和视线,生成适当的虚拟对象,并支持手势交互;2016年11月,亮风台发布第二代AR眼镜HiAR Glasses,如图7所示。这款眼镜采用骁龙820处理器,支持手势识别,可实现视觉交互、空间感知较好的AR体验。Magic Leap One于2018年开始在美国售卖,如图8,ML One外形奇特,视觉效果清晰生动,但其视场角让人不够满意,无法满足大视角沉浸。
图5 HTC Vive Pro
图6 微软Hololens
图7 HiAR Glasses
图8 Magic Leap One
表1统计了市场上主流VST显示器的相关参数,可见商用VST显示器视场角和分辨率差强人意,多应用于进一步工业开发或者VR游戏中,外观精致,佩戴较自制显示器舒适,功能多样化,普遍带有多传感器,便于人机交互。
表1 商用VST显示器参数Table 1 Commercial VST display parameters comparison
跟踪注册是实现虚拟环境与现实环境空间位置映射转换的算法,是实现VST最为重要的一部分。目前视觉跟踪领域中主要算法有TLD(tracking-learning-detection,跟踪-学习-检测算法)、Struck(structured output tracking with kernel,核结构化输出跟踪算法)、CT(compressive tracking,压缩跟踪算法)以及KCF(kernel correlation filter,核相关滤波算法)等,但是跟踪速度和跟踪效果都存在很大的改进空间。
2010年,陈靖等根据圆明园大水法景观的特点,提出基于关键帧匹配的增强现实跟踪注册算法,采用随机树的特征识别分类方法实现图像间的特征匹配,据此构建了基于VST头盔显示器的移动增强现实系统。2014年,孙洪兴针对目标的跟踪精度和实时性要求不能同时满足的情况下,设计了一种基于自然特征实时跟踪的新方法,由基于人脸识别和自然特征的跟踪技术实现,构建了一种虚拟眼镜试戴系统的原型。2015年,严玉若对基于自然特征的三维注册进行了深入研究,提出了一种基于非线性尺度空间的无标记注册方法。2018年,Yu-Kai Chen等利用商用相机和无边框LED面板实现了一个色彩调节系统,通过提出的HDR和颜色映射技术,有效地获取了真实场景的三维信息。2019年,林思源等针对人工标识注册的局限性与自然特征注册的速度限制,通过引入黑色边框,结合自然特征设计了一种新的标识物注册方法,利用视频帧中标识物的边缘特征完成了标识的初定位与快速跟踪。同年,Peng-Xia Cao等提出了一种结合检测器和跟踪器的有效的无标记跟踪配准算法,采用LK(Lucas-Kanade)光流跟踪器实时跟踪被检测目标,提高了跟踪精度和速度。2020年,杨靖帆等针对KLT(kanade-lucas-tomasi)跟踪稳定性较低、抗遮挡性较差以及直接使用特征点注册精度较低等问题,提出一种使用局部特征描述改进的LK跟踪注册方法(DF-LK),提高了光照变化、轻微运动模糊和较大透视变化等情况下的跟踪稳定性和精度。
跟踪注册算法作为实现VST虚实融合技术的最关键算法,主要技术体现在对图像处理的标识交互。比较常用的3种注册手段有:基于人工标识、基于自然特征,和基于无标识。基于人工标识的方法计算量小,算法相对成熟,在恶劣光照下鲁棒性高,但存在视觉污染和操作复杂等问题。基于自然特征的方法对无纹理目标鲁棒性较好,但点云数据量庞大,对硬件运算能力要求较高。基于无标识的方法不需要手动初始化位姿,具有良好的实时性和鲁棒性,避免了因特征点少引起的位姿抖动,但跟踪精度低、算法相对复杂。目前较为主流的研究方向是结合人工标识的优点,将人工标识融汇于自然标识或无标识算法中,跟踪注册效果得到了显著提高。
在XR系统中,当虚拟场景被真实场景错误遮挡时,容易产生空间位置错乱和用户感官迷失的问题,如图9所示。所以利用计算机视觉和图像处理等原理,处理好虚实遮挡问题,尤为关键。
图9 虚实遮挡图
2010年,Amir H.Behzadan等提出了一种基于深度感知算法和帧缓冲处理算法的AR遮挡处理系统,能够在实时动态增强现实环境中解决堵塞错误的发生。2010年,田元以基于轮廓跟踪的虚实遮挡处理方法为出发点,引入计算机视觉、数字图像处理、算法的复杂性分析和非线性优化等相关理论,围绕半自动实时虚实遮挡处理方法、自动实时虚实遮挡处理方法和非刚性物体虚实遮挡处理方法等技术内容展开了深入的研究与实践。2015年,严玉若对AR系统虚实融合一致性方面进行深入的研究,提出了一种基于视频透视AR系统的虚实融合运动一致性模拟方法。2018年,铃木伸介等针对双目头盔显示器的遮挡矛盾问题,结合计算机图形学进行了心理物理实验,发现在重叠区域垂直边缘深度不能绝对确定的情况下,会产生感知不稳定,导致双目对抗的问题。
国内外对于虚实遮挡方面的研究不够系统,相关理论有待于根据实际实验需求进一步探索。
2011年,Gun A.Lee和Mark Billinghurst提出了一种Snap-To-Feature的交互方法,通过吸引用户输入点到AR场景中的图像特征帮助用户进行更精确的触摸屏交互。2014年,刘铁良着重研究了手势图像分割、指尖定位检测等关键技术,通过人手与虚拟模型进行交互的手指检测识别等算法,实现了一种更加自然和智能的人机交互方式。2015年,何贞毅针对三维交互界面、以手势为主的交互手段以及应用性广泛的徒手三维建模场景进行了研究与评估,设计并实现了徒手三维建模的应用场景。2016年,李玄基开发并实现了一种基于HoloLens增强现实的检测定位交互系统,可检测识别设备并定位其物理位置,并能通过Gaze、Gesture、Voice等方式,与叠加的3D模型进行移动、旋转、分解等多种交互动作。2017年,李佳宁研究了基于RGB-D摄像机的增强现实系统中的关键技术,提出了一种新的基于Frame-to-Model的SLAM系统框架,设计了一套用户能够直接用手触控的增强现实人机交互系统。
现在的人机交互主要体现在手势交互、手持标识交互、声音交互等方式,在增强现实和混合现实方面都大大增加了系统的虚实融合效果。
1) 分析了头盔显示器、跟踪注册、虚实遮挡、人机交互的国内外发展现状和技术难点,提出了这四项技术目前的发展瓶颈和应用优势,可为VST在虚拟仿真领域的应用提供参考。
2) 针对VST视场角小的问题,一方面可以对鱼眼镜头和360°镜头的拉伸还原进行研究,另一方面可以对摄像头与头盔视场角不相等产生的黑色缝隙进行虚拟填充;
3) 针对VST分辨率不高的问题,可以在高分辨率摄像头与头盔实时响应能力之间进行调节;
4) 针对跟踪注册效果不稳定,可以结合绿幕算法、人工标识、无标识、自然标识算法的原理和优势,对跟踪注册算法进行优化;
5) 针对虚实融合和虚实遮挡问题,可以尝试结合机器学习算法进行优化。
6) 视频透视技术在驾驶、飞行、航空、军事训练模拟系统中都可以发挥其优势,但在交互游戏的制作上造价高于VR游戏,在旅游业、博物馆展览时可以充分发挥其优势,在成本可以接受的范围内充分应用视频透视技术,增加应用的安全性和逼真度。