[武娟 刘晓军 庞涛 钱锋 陈学亮]
虚拟现实现状综述和关键技术研究
[武娟 刘晓军 庞涛 钱锋 陈学亮]
虚拟现实(VR)以其沉浸式体验带来了全新的人机交互革命,被认为是继电脑和智能手机后下一代计算平台。概述了VR技术的发展历程、产品形态、组成结构等,并深入研究其技术架构及关键技术等,为科技人员全面了解VR技术发展和选取研究方向提供参考和借鉴。
虚拟现实 图形渲染 定位技术
武娟
硕士,中国电信股份有限公司广州研究院,高级工程师,主任,主要研究方向为云计算、互联网及电信网络技术、互动新媒体技术等。
刘晓军
硕士,中国电信股份有限公司广州研究院,工程师,主要研究方向为云计算、互动媒体技术、应用虚拟化技术、虚拟现实等。
庞涛
硕士,中国电信股份有限公司广州研究院,工程师,主要研究方向为业务承载网络技术、互联网应用技术、云计算等。
钱锋
硕士,中国电信股份有限公司广州研究院,工程师,主要研究方向为互动新媒体技术、云游戏、虚拟现实技术在游戏领域的应用等。
陈学亮
中国电信股份有限公司广州研究院。
虚拟现实技术(Virtual Reality,简称VR),综合利用了图形渲染技术、仿真技术、多媒体技术、并行处理技术、屏显技术和定位技术等,生成具备真实模拟现实的三维互动沉浸式环境。
VR概念由来已久,早在1960年就开始萌芽,1989年美国JaronLanier正式提出虚拟现实概念。1980至1990年代,NASA推出了实验性头盔、耳机、手套等VR初级设备,但受制于当时芯片技术和加工工艺,需要采用昂贵的专业设备实现,无法面向民用市场普及,主要应用于军事训练、飞机制造、航空航天等专业领域。
2014年以来,随着芯片技术发展和制造工艺水准提升,消费级GPU图形渲染能力突飞猛进,而且具备基于GPU底层的编程能力,奠定了VR进入民用市场的基础。2014年3月26日,Facebook以 20亿美元收购了Oculus,成为行业的助推器和引爆点。全球VR设备公司犹如雨后春笋般层出不穷,资本市场亿元投资与并购异常火热。近2年来,国内涌现了数百家VR公司,先后推出了不下20~30款的VR设备产品,涵盖了PC主机+头盔、手机+头盔和一体机等3种主流产品形态。
VR技术深受GPU巨头、PC服务器厂商追捧,作为继鼠标+键盘、触屏人机交互后,又一次跨时代革新,被寄予厚望成为新一代的计算平台。在PC市场低迷、智能手机平稳的背景下,视为重塑IT行业全新的产品形态和发展领域。
本文基于作者多年来对VR技术的追踪和研究,从技术角度全面剖析其产品形态、功能架构、关键技术等。其中第2节VR产品与现状,讲述VR产品组成、形态和性能参数等;第3节VR技术流程与框架,讲述VR技术流程和技术框架;第4节VR关键技术研究,讲述VR渲染、屏显、定位等关键技术;第5节最后小结全文,分析技术走向和未来趋势。
图1 VR产品组成
2.1 VR产品组成
VR产品包括计算设备、展示终端和辅助设备等3部分。计算设备,作为VR的计算核心,实现VR应用逻辑运算、图形渲染、数据存储与处理等,基于GPU/CPU硬件和虚拟现实软件体系,实现VR应用图形化计算输出;展示终端,一般以头盔模式呈现,包括显示屏幕、光学镜片、陀螺仪等,实现将计算设备输出的VR应用在用户面前显示出来;辅助设备,包括各种动作捕捉、手势识别、定位感应等设备,通过对用户位置锁定,位置和手势判断等,完成沉浸式用户操控。
VR的产品形态,主要根据其各自计算设备组成来划分,一般包括PC/游戏主机、手机/PAD+头盔、一体机等。
(1)PC/游戏主机+头盔:作为当前最主流的VR产品形式,依靠外接PC/游戏主机作为计算设备,头盔主要完成图像显示、光学处理以及辅助设备链接等。相应的PC主机,主要是指配置了高端消费级显卡和CPU的电脑主机;游戏主机是指用于链接电视运行视频游戏的运行设备,包括PS 4和XBOX等。该种产品形态具有如下的优缺点:
① 优点:基于成熟的计算平台(PC主机、游戏主机),计算能力较强、应用开发难度较低,VR设备(主要头盔部分)不用考虑计算部分。
② 不足:价格较高,一台满足要求的PC主机动辄上万元,加上头盔+辅助设备,总共突破1.4万元以上,尚未达到市场普及的价位;受限于必须有线连接模式,局限于固定使用场景,无法移动化也影响到其灵活性。
③ 代表产品:Oculus、HTC VIVE、3Gclass、PS VR等
(2)手机/PAD+头盔:借助手机/PAD作为计算设备,并应用手机/PAD内置陀螺仪定位和屏幕显示,头盔仅内置光学镜片、用于手机/PAD固定装置和其他效果增强系统等。该种产品形态具有如下的优缺点:
① 优点:具有移动属性,价格相对较低,一般介于30~1000元,适合作为高端移动设备附属产品,具有普及优势。
② 不足:受限于手机/PAD处理能力,VR应用效果较差、无法提供精准定位和优质手势控制等操控。
③ 代表产品:三星Gear VR、暴风魔镜等。
(3)一体机:将计算设备内置于VR头盔中,直接由头盔完成从逻辑运算、3D图形渲染到屏幕展示的一体化功能。头盔不仅需要内置显示屏幕、光学镜片、陀螺仪等感应设备,而且需要内置计算芯片。该种产品形态具有如下的优缺点:
① 优点:具有移动属性,价格相对较为合理,一般3000元左右,达到市场可接受的程度。
② 不足:受限内置芯片能力、电池耗电和发热等因素,显示效果相对PC主机+头盔有所欠缺,用户佩戴体验存在不足,使用时长有所局限。
③ 代表产品:灵境小黑、暴风魔王、星轮等。
一体机模式,是采用PC/主机+头盔和手机/PAD+头盔折中的方法,一般基于主流的移动芯片,相对而言存在处理能力上的缺陷与不足,目前主要是国内数十家厂商在尝试;国外厂商主要集中于PC/游戏主机+头盔模式。
国外市场,尤其欧美市场受众于视频游戏爱好者,而且价格敏感性不高,PC/主机+头盔模式将成为主要产品形态;国内市场,价格敏感性较高,未来很可能需要高端手机免费赠送VR设备的模式加以普及。
2.2 VR产品性能参数
VR本质是构建一个模拟真实环境的虚拟3D世界,并给予用户沉浸式(手势、声音、眼球)等操控的创新人机交互过程。计算部分,不管是PC/游戏主机、手机终端或自带芯片,都是采用市面常见的固网或移动通用芯片,并主要由Intel、Nvidia、高通、海思等提供,并非是VR厂商及VR产品主要侧重的领域。相反作为显示能力展现的VR头盔,则成为VR厂商体现能力和技术水平的主战场。因此VR产品性能评价参数,也主要是集中于显示部分,不过某种程度上也体现了相应VR计算设备的计算能力。
(1)分辨率:分辨率是衡量显示屏幕最重要参数之一,不过存在屏幕尺寸大小不一的现象,因此该参数无法单一准确展现显示效果优劣,需要考虑屏幕尺寸等其他因素。目前常见的VR头盔1080P是最低配置,一般都要达到2K,甚至4K水准。
(2)刷新率:作为电子束对屏幕上的图像重复扫描的次数的指标,直接影响模拟环境的代入感,60Hz是最低要求,优秀的产品达到75~100Hz。
(3)延迟:是指从用户头部移动开始,一直到显示的光学信号映射到人眼,并被用户感知的等待时间(latency time)。延迟会影响用户注意力,较大时会产生眩晕。≤20ms即为行业最低的要求,也是不产生眩晕感的基本要求。
(4)PPI (Pixels Per Inch):每英寸所拥有的像素数量,数值越高,拟真度就越高。图像拟真度,是用户大脑通过视觉体现认可的虚拟真实性主要基础。如其数值不高,虚拟场景没有代入感,加上大脑对人体位置、动作等失配判断,就很难实现沉浸效果。
表1给出了市面上具有代表性的VR设备的相关参数对比及芯片的主要组成。其中Oculus Rift DK2是PC主机+头盔的产品形态,PS VR是游戏主机+头盔的产品形态,三星 Gear VR是典型的手机+头盔的产品形态,灵境小黑是VR一体机的产品形态。
表1 主流VR产品性能参数属性
VR设备相关参数能力的提升,除了必须依赖于底层芯片计算设备的能力外,还需要屏显、定位等关键技术发展,该部分内容将在后续章节展开。
3.1 VR技术流程
VR的技术实现过程,是以用户角度展开,从发起VR服务请求开始,到完成沉浸式互动,并将虚拟环境在用户面前展现成功为结束。
整个VR技术实现过程,主要包括如下主要节点:
(1)监测与传感:对用户发起VR请求的事件进行反馈,通过陀螺仪、定位传感器等设备感知用户头部当前位置和视觉范围等,为实现与显示出来的虚拟环境对应提供依据。
图2 VR技术实现流程
(2)虚拟环境生成:该部分主要由VR PC/游戏主机、手机等计算设备完成。为了达到比较优质的VR虚拟环境,渲染的图像是一般游戏的8倍以上,因此需要预先处理。首先通过图形模块间的逻辑关系和对应算法,初步完成建模;接着主要基于GPU并行能力完成图形的渲染;最后根据用户视觉范围,对应生成适合用户要求的虚拟世界。
(3)虚拟环境展示:主要由显示头盔完成,借助头盔屏幕或手机屏幕实现将渲染出来的虚拟环境显示出来,依靠内置光学镜头和相应光学算法,实现二维图像的三维化和广角立体化。该部分实现的用户视觉广度、刷新率以及显示延迟等,都直接影响到用户的感知,避免用户眩晕是关键所在。
(4)多元互动模式:构建了现实世界与虚拟世界之间的人机交互机制,包括各种智能化的传感器、定位机制和普通的操控手柄等。传感器中陀螺仪是较为核心的部件,内置头盔中实时监测用户头部运动和姿态变化,以便实现虚拟画面与用户视角的一致性;用于手势识别、动作捕捉的各种传感器及操控手柄等,用于采集用户操控,并与虚拟环境完成交互。
上述四大节点,除了第2点虚拟环境生成主要由VR计算设备实现外,其他主要环节均由VR头显实现,因此对于国内外VR厂商而言,其研发的重点和主要的产品形态也是集中于VR头显部分。
3.2 VR技术框架
VR技术实现是以现有的机器计算、图像渲染能力为基础,当前VR产业爆发也是基于消费级芯片,尤其是GPU处理能力成倍提升;借助OLED、LCD等屏幕技术发展,并辅助光学立体成像技术和算法,实现三维立体化输出;依靠激光定位技术、人体追踪等技术,实现现实世界和虚拟世界的互动交互。VR整体技术框架如图3所示。
图3 VR技术框架
(1)计算设备:基于智能化操作系统、底层芯片能力访问的驱动接口,采用Unity3D、Unreal等支持VR渲染的中间件,实现虚拟现实场景的逻辑计算和图像渲染。
① 逻辑运算:处理VR计算过程中各种逻辑关系和算法,包括应用启动、图形拼接关系、数值属性、操控反馈逻辑、眼球聚焦运算等,为VR奠定逻辑基础。
② 图形渲染:随着GPU核心数量、显存能力不断提升,其图形渲染成倍增长,具备了支撑8*4K图形的同时渲染运算能力,为VR发展奠定了基础。该部分是计算设备的核心部分,也是VR得以发展的技术保证。
(2)展示设备:依托高清屏显技术发展,将渲染出来的虚拟场景清晰化输出,并依靠立体光学成像实现三维立体化,借助陀螺仪等设备追踪用户头部位置变化实现视野范围和角度更新。
① 屏显技术:业界分为OLED、LCD两大不同阵营,其中国际大厂主推OLED,国内主流厂商倾向于LCD。两种材质各有所长,后续章节中将重点剖析。
② 头部定位:该部分技术较为成熟,直接来源于智能手机陀螺仪技术延伸,只不过相关刷新率要求达到1kHz以上。
③ 立体光学成像:一般采用双面立体成像法,采用两个非球面镜片和两眼分离机制,并辅助相应的光学算法实现虚拟场景的立体三维化,并具有空间感。
(3)辅助设备:即包括传统手柄方式力反馈输入,又包括各种光学传感器智能化定位和手眼追踪等。
① 位置定位:包括采用摄像头+感应光点的可视光定位和采用激光+激光感应器的定位等多种方法,实现对采用VR活动的人体前后左右上下的全维度肢体跟踪和动作扫描。
② 手眼跟踪:手势跟踪部分,一般采用Xbox Kinnet等体感相似的处理技术实现对用户手势变化实时判断,并转化成为VR应用操控方法。人眼跟踪主要是通过对人眼球转动精确获取,从而判断用户的操控意图,该技术目前还在发展过程中,尚未成熟。
③ 触觉、力反馈:该部分属于VR应用对操控输入反馈输出部分,普通包括手柄上力反馈;以及与骑行、飞行等应用相关的触觉、人体位置的反馈等。
下一章将集中针对VR渲染技术、屏显技术和定位技术等关键技术进行研究和剖析。
VR技术呈现以渲染能力提升和技术发展为基础,屏显技术完善为展现依托,丰富的智能定位技术为互动保证,虚化了虚拟世界和真实世界的界限,使之达到某种程度上的融合。
4.1 VR渲染技术
虽然GPU处理能力得到了迅猛提升,但还存在处理能力和价格高企的普及瓶颈。当前主要的技术研究方向,都集中在降低GPU消耗的基础上,确保更多的计算平台具有支持VR的能力。Nvidia推出了MRS(multi-resolution shading),即多重分辨率着色渲染技术,采用分区域差别分辨率的方法,降低消耗;为了提升精确度,国内外厂商分别提出相似的解决方案,其中典型代表为国内某公司研发的焦点渲染(Foveated rendering)技术。
(1)多重分辨率着色渲染技术:采用将将整体渲染画面分区域模式,按照从中央到两边采用不同的分辨率方法,降低GPU渲染压力。
① 技术原理:MRS技术不再将整个画面以相同的分辨率渲染,而是分区域采用差异化处理,人眼看到的主要中央区域,以完整的高分辨率,边缘则以更低质量进行渲染。
② 硬件支持:使用Nvidia Maxwell架构的显卡,包括GeForce Titan X和GTX 900等系列
③ 应用效果:据称效率提高大概50%左右,如原来渲染90帧/秒,采用MRS技术可以做到140帧/秒左右
(2)焦点渲染技术:主要针对多重分辨率着色渲染技术渲染区域划分较为粗糙,采用眼球追踪技术使之精细化。
① 技术原理:在MRS基础之上,使用眼球追踪技术开发出以人眼关注的焦点区域采用高分辨率,其他区域逐步从焦点向外递减的渲染技术,进一步缩小高清渲染的范围,并且提升用户体验
② 应用效果:据称可以将渲染像素降低到MRS方案的10%左右,将当前可以支撑VR的PC设备从当前仅有的10%提升至30%
③ 其他相似技术: Tobii、SMI、FOVE和Eyefluence等。
4.2 VR屏显技术
VR显示屏幕主要包括OLED、LCD两种类型,其中OLED采用有源阵列有机发光能够做到低余晖,不过在每个像素间存在分割网格的问题;LCD采用背投光源显示,每个像素都被动发光,相对较为容易产生严重余晖现象。从业界选择趋势来看,似乎OLED是主流,不过国内厂商可能受制于订货量和价格因素,还有很多采用LCD屏。
(1)LCD
① 屏显原理:普通的液晶显示屏(LCD)是一种介于固态与液态之间的物质,本身是不发光的,需借助要背光灯才行。因其无法控制到每个像素,当每一帧像素都在发光时,就会出现余晖,所以,LCD也被称为“全余晖”显示。
② 优点:整体显示无网格,场景亮点较高。
③ 缺点:余辉严重,延迟长。
(2)OLED
① 屏显原理:无需背光灯,具有自发光的特性,所以OLED可以做到低余晖显示,并且它的响应时间是LCD的千分之一,显示运动画面不会有拖影等现象。
② 优点:低余辉,显示延迟短。
③ 缺点:每个像素间都会有网格,需调低显示亮度。
虽然OLED属于低余晖显示,但为了达到更好地显示效果,实现VR虚拟环境与真实人眼看到的实际环境在亮度、参考物体无限接近,还是需要进行低余晖处理,当前主要包括如下技术解决办法:
(1)提高刷新率:将刷新率提升到100Hz,让虚拟物品运动更加接近真实世界;
(2)设置参照系:模拟人脑预测扫视的物品位置时,需要参照物的特点,在虚拟场景中设置相对比较静止的参照物,能够让人脑便于接受虚拟实际中的运动变化;
(3)双屏显示:采用两个屏幕,采用更接近现实的光场模式,双眼各自通过不同屏幕看到场景,能让用户的眼睛可以随意对焦在视野中任一焦点,避免单屏幕双眼观看同一场景在叠加过程中,场景无差别造成的大脑不适的现象。
目前在VR显示方面,远未达到理想的状态,一般使用者需每隔10分钟中止休息,未来依然是业界主要研究的重点方向。
4.3 VR定位技术
VR沉浸式体验主要来自于立体化显示和精准的定位技术,使得用户产生的自身身体运动融入VR虚拟环境中,主要定位技术有:红外定位、激光定位、可见光定位、低功耗蓝牙定位等。
(1)红外定位
① 技术原理:利用多个红外发射摄像头、覆盖室内定位空间,在被追踪物体上放置红外反光点,通过捕捉反光点红外反射影像,确定用户在空间中的位置。
② 优点:定位精度高,如果采用帧率很高的摄像头,延迟也很低,具有较好的效果
③ 缺点:造价较为昂贵,一个120帧的摄像头,造价超过1000美元
④ 应用情况:VR影视制作、动画录制等商用方向
(2)激光定位
① 技术原理:利用激光发射器(定位光塔),发射横竖两个方向的激光,被定位物体上安置多个激光感应接收器,通过计算两束光线到达定位物体的角度差,计算出待测定位节点在定位空间中的坐标。
② 优点:成本低,定位精度高(mm级)
③ 缺点:需要一定封闭空间,例如HTC Vive的Lighthouse需要5*5m空间,而且会有多人遮挡的问题
④ 应用情况:HTC Vive的Lighthouse和G-Wearables的Step VR等
(3)可见光定位
① 技术原理:用摄像头拍摄室内场景,追踪主动发光的标记点(类似小灯泡),通过实时获取针对不同位置不同颜色的标记点位置,实现物体定位
② 优点:算法简单、价格便宜、容易扩展
③ 缺点:精度方面不如激光和红外方式
④ 应用情况:The Void,Zero Latency 和很多国内的线下VR体验店等
(4)低功耗蓝牙定位
① 技术原理:通过接收低功耗蓝牙通信功能的设备发送特有ID,利用算法软件计算跟踪物体的位置
② 优点:移动性强,高端手机支持
③ 缺点:精度低、对终端有一定要求
④ 应用领域:在VR领域很少被应用
此外还有一些定位技术,比如Wifi定位、射频识别技术、UWB技术、ZigBee技术等等,但都存在精度有限的问题,在VR领域很少被应用。
本文简要概括了虚拟现实(VR)技术发展历程、产品构成、产品形态和产品性能参数等相关内容;随后分析和研究了技术实现流程、总体技术框架等;最后重点研究了VR渲染、屏显和定位等关键技术。VR行业未来,还需在图形渲染技术、屏显低余晖技术和精确便捷定位技术等方面不断完善,才能最终达到VR产品的公众消费市场的普及。
1 C.Guger,G.Edlinger,W.Harkam,I.Niedermayer,andG.Pf urtscheller,“Howmanypeopleareabletooperatean EEG-basedbrain-computerinterface(BCI)?,”IEEETrans.NeuralSyst.Rehabil.Eng.,vol.11,no.2,pp.145-147,Jun.2003
2 H.GürkökandA.Nijholt,“Brain-computerinterfacesformultimodal interaction:Asurveyandprinciples,”Int.J.Human-Comput.Interac-tion,vol.28,no.5,pp.292-307,2012
3 A.Lécuyer,F.Lotte,R.Reilly,R.Leeb,M.Hirose,andM.Slater,“Brain-computerinterfaces,virtualreality,andvideogames,”Com-puter,vol.41,no.10,pp.66-72,2008
4 R.Scherer,M.Proll,B.Allison,andG.Muller-Putz,“Newinput modalitiesformoderngamedesignandvirtualembodiment,”inProc.IEEEVirtualRealityWorkshop,Mar.2012,pp.163-164
5 吴家铸、党岗、刘华峰等.视景仿真技术及应用.西安: 西安电子科技大学出版社2001年
6 宋志明,康凤举.Vega开发环境的扩展研究,系统仿真学报,2004年 16(1),2004.01 :178-179
表3 布吉片区仿真数据
图4 布吉站点数与均值关系
由图4可知,随着区域内站点数增多,RSRP均值逐步上升,SINR达到峰值8.41dB后开始下降,此时区域内站点数为120个,平均站间距为342米。
(3)小结
本次选取东门和布吉作为密集城区和一般城区的样本,通过仿真验证及分析可知:当某一片区内站点数持续增加时,该片区内RSRP指标会持续上升,但SINR指标增加到某一阈值后边开始下降,这意味着该片区内重叠覆盖增多、干扰增加,用户感知开始下降,因此可将SINR阈值所对应的站点数和站间距作为该类型区域所能容纳的最大站点数和极限站间距。综合上述分析,针对深圳建筑特点,建议密集市区FDD LTE网络站间距不小于280米,一般市区FDD LTE网络站间距不小于350米。
在国内,LTE网络采用同频组网方式,在频谱资源相同的情况下,决定最终用户体验差异的是网络的频谱效率,频谱效率在很大程度上取决于网络内中高端SINR的占比。从上述仿真中可知,区域内站点数持续增加后,SINR最终会下降,即网络频谱效率最终下降,影响用户体验。因此,严格控制站间距,结合合理取值的站点下倾角和方位角,减小系统间干扰,是提升网络性能的关键。
(收稿日期:2016-07-19)
10.3969/j.issn.1006-6403.2016.08.011
2016-07-20)