浅析VR技术及其视频端到端的过程

2021-04-14 13:19
数字传媒研究 2021年2期
关键词:全景虚拟现实编码

李 强

内蒙古广播电视台 内蒙古 呼和浩特市 010050

1 VR技术概要

VR 技术是计算机技术、传感技术、机器人技术、人工智能、仿生学、物理学等众多学科飞速发展的结果。主要依赖于三维图形实时显示、三维定位追踪、触觉传感技术、人工智能技术、高速计算与并行计算技术,以及人的行为学研究等多项关键技术的发展。虚拟现实技术有以下几个特点:

第一,交互性(Interactivity)是指使用者与虚拟场景中各种对象相互作用的能力,它既包括场景中对象的可操作程度,又包括使用者从环境中得到反馈的自然程度。用户通过专门的设备来实现对模拟环境的作用,同时实现对设备的操控,它是人机和谐的关键性因素。

第二,构想性(Imagination)是指借助虚拟现实技术,实现抽象概念的具象化。在虚拟现实系统中,人们不仅可以直观的体验到虚拟世界里各种对象带给的新奇感受,而且还能通过人类的思想意识,发挥主观能动性,去积极构想和创造新的事物。可以说VR 是启发人的创造性思维的活动。

第三,沉浸感(Illusion of Immersion)是指使用者通过借助各种设备使其意识完全进入到计算机创建的虚拟环境中,他的各种感知(包括视觉、听觉、触觉、嗅觉等)如同在现实环境中的感受一样真实。VR技术利用计算机生成的模拟环境,通过多源信息融合交互、三维动态视景和实体行为的系统仿真,能使用户得到真正的沉浸式体验。

其中VR 视频是指全景视频,用专业的VR 摄影设备将现场环境真实地记录下来,再通过计算机进行后期处理,所形成的可以实现三维空间展示功能的视频。如水平360°x 垂直360°全景视频,用户可借助VR虚拟现实设备观看全景视频,并获得身临其境的感受。

图1 观看VR视频典型流程

2 用户交互

什么样的技术才能做到真正的VR 沉浸感呢?其实VR 沉浸感,最终表现为用户交互。而对于用户交互,有几种技术方案选择。

2.1 头部追踪

VR 头戴式设备中的头部跟踪系统可跟踪你的头部向侧面移动的角度。它为方向和运动分配X,Y,Z 轴,并涉及诸如加速度计、陀螺仪、光学捕捉设备。头部跟踪要求低等待时间,即50 毫秒或更短,否则用户将感觉到头部运动和模拟之间的延时。

2.2 眼动追踪

某些头戴设备包含红外控制器,该控制器可在虚拟环境中跟踪眼睛方向。这项技术的主要好处是可以获得更真实,更深入的视野。

2.3 运动追踪

事实上,没有运动跟踪,VR 将受限制,无法四处张望和四处走动,而运动追踪将把VR提升到一个全新的水平。6DoF是六自由度的简称,分别指代虚拟世界中的位置坐标和姿态坐标。6DoF 产品不仅可以感知到使用者的头部转动,还可以获取到使用者在虚拟世界中空间位移和身体运动,从而使用户能够便捷的使用身体位移来变换位置,并且可以用手去摸,抓取物品等,与虚拟世界交互。6DoF 产品除了最基础的用于观看视频外,还能用于游戏、健身、知识学习等更广泛的领域,让真实的你与虚拟世界融为一体,真正感受VR 带来的独特奇幻体验。3DoF 是三自由度的简称,与6DoF 相比它仅有姿态坐标,而不具备位置坐标,相当于在虚拟世界中的眼睛,用户可以以头部为中心环视虚拟世界的画面,因此3DoF产品仅用于观影体验。

相比较传统的3DoF,6DoF通过与3D 空间概念的结合,支持运动跟踪的选项分为光学跟踪和非光学跟踪两类。光学跟踪通常是头戴式设备上的摄像头,用于跟踪运动,而非光学跟踪是指在设备或身体上使用其他传感器。实际上,大多数现有设备都结合了这两种选择。

通常,使用VR 设备可实现100~110°的视野。下一个关键功能是每秒的帧速率,该速率至少应为60fps,以使虚拟仿真看起来足够逼真。早期VR 头戴设备的6DoF 定位,主要是依靠在场地中架设额外的设备配合眼镜里的定位marker 来实现定位,而近年来兴起的定位技术,则是靠头盔上自带的摄像头拍摄外部景物,来反向估计自己的姿态,进行定位。与早期的外部定位技术相比,新的定位技术可以使用户免去了复杂的外部设备架设环节,使得VR 头戴设备在使用上和便捷性上有了很大的提升。

3 VR视频端到端的过程

真正的VR 技术给我们带来的是全方位的感官体验,使我们沉浸其中,而最直接、最具体的感受首先是视觉上的。因此我们就需要分析研究怎样把获得的VR 视频,从前端的服务器送到终端的显示器上,使我们在虚拟的环境中得到真实的体验。

3.1 前期视频拍摄和虚拟现实场景设计制作

全景拍摄是虚拟现实技术中非常重要的环节,全景视频360°无死角还原现场的特点,让VR 技术的“沉浸感”得到最好的体现。摄像机处于中心位置向外360°进行拍摄,随后对各方向视频进行全景拼接。VR视频拼接算法,一种是基于变换的拼接算法,就是通过对单应性矩阵进行调整,再通过网格化的扭曲,使重合区域的拼接缝隙尽可能减小;另一种是基于拼接线的拼接算法,通过对图像拼接线部分的重新调整,确保拼接的自然性。用户固定观看位置,支持头部转动,以头部为中心选择视角方向,观看改变方向的相应画面。

除了全景拍摄实景外,虚拟现实应用领域里大量的产品图像输出画面,完全由计算机图形系统渲染输出的。此外,使用者的空间运动数据信息也实时的通过VR 设备的SDK(软件开发工具包)和API(应用程序接口)传入计算机系统里进行计算,最终反应在图形系统里并给出对应的反馈。使用VR 技术可以从两方面逾越传统影视中的一些屏障:一者,可以运用数字技术,复原某些历史中存在的场景、事物、打破时间和空间的限制;二来可以运用数字技术,发挥创作者的想象力和创造力,建构某些在现实中未必存在的场景。

图2 ERP映射模式

3.2 VR 视频映射与编码

H.264、H.265、AVS2 是 目前最主流的视频编码协议,得到众多编解码软硬件的支持,但它们都是传统平面视频编码技术不断演进的结晶,并不能原生支持基于球面的VR 视频,因此需要先把球面投影到平面,才能通过已有的成熟协议、软件和硬件把VR 视频传播出去。因此,视频映射是VR 视频编码的预处理环节,目前专门针对VR 视频的编码标准仍在研究中,通常将360°的二维球面视频图像映射成为二维平面矩形视频图像,再送入编码器进行编码传输。

映射:VR 视频映射是指将球面全景视频表示为适于压缩编码的平面视频,即将球面全景图像转化映射成为二维平面图像,最常用的是等距圆柱映射和正六面体映射模型。

3.2.1 等距圆柱映射(ERP)

ERP 映射模型是在VR 视频中使用最广泛的映射模型,经纬图模型只有一个投影面。它的实现过程如下:首先在平面长宽比为2:1 的矩形区域内按照目标分辨率进行均匀的像素格划分,得到长为m 等分宽为n 等分的分割,然后按照矩形的长和宽在球面上进行均匀的经线和纬线采样,将经线m 等分,纬线n 等分,获得球面网格。等距圆柱体投影最大的优势就是其直观的投影方式,完全线性的变换公式使得其易于操作。

3.2.2 正六面体映射(CMP)

CMP 映射模型有6 个映射面,分别将360°球体视频图像映射到6 个面上,然后拼接为矩形的一种投影方式,具体的操作其实就是简单的坐标比例缩放。由于立方体模型具有极好的对称性,所以在与球面进行相互投影的过程中可以大大降低计算复杂度,并且面与面之间的投影关系是一致的。如图3所示。

图3 CMP映射模式

压缩编码:映射后的VR 视频可采用普通视频的编码技术进行压缩。目前应用较多的视频编码技术是H.264、H.265、AVS2 等,在保证同等画质的前提下,H.265 和AVS2 的压缩效率大约比H.264 提升50%左右。下一代编码技术H.266 与AVS3的目标压缩效率比H.265 与AVS2 提升一倍。码率是影响VR视频在终端接收和观看清晰度的重要指标。8K/50P 的视频,采用H.265 或AVS2 编码,码率需80~100Mbps。

3.3 VR 视频传输

VR 视频数据量大,现阶段要观看4K 影片,至少需要25~50Mbps 以上的速率;8K 的VR视频需要80~100Mbps 速率,将来30K 的VR 视频预计需要800~1000Mbps 的速率。目前互联网带宽限制影响用户体验,而广电自有网络带宽38Mbps,能够高效顺畅支持4KVR 节目传输,保证节目的清晰流畅。如果真正进入5G 时代,(5G 网络的传输速率可达到10Gbps,是4G 的100 倍;传输时延可达到1ms 级别,是4G 的1/50),将有望助力VR 真正落地,扩展更多的应用领域。

由于VR 视频数据量大,传输时要占用更多的网络资源,而全视角传输方案是将360°环绕的画面都传输给终端,当用户头部转动需要切换画面时,所有的处理都在终端本地完成。采用全视角传输方案,由于观看者在观看时,实际只能看到当前视野,看不到的部分占了网络带宽,但没有真正用到,从而对网络资源造成了较大浪费。因此,提出了FOV(Field of View,视场角)传输方案,传输当前视角中的可见画面,将360°全景视野划分为若干个视角,每个视角生成一个视频文件,只包含视角内高分辨率和周围部分低分辨率视觉信息,终端根据用户当前视角姿态位置,向服务器请求对应的视角文件,只将视角区域进行高质量传输,不涉及非视角区域。VR 视频应用的全视角传输带宽要求达到140Mbps,FOV传输带宽只要求达到75Mbps。

图4 VR视频端到端系统框图

3.4 终端渲染和显示

目前,VR 全景视频一般采用投影方式,每一帧画面为矩形画面,VR 全景视频播放过程具体如下:

(1)VR 服务器按照顺序将VR 全景视频通过流媒体方式下发给VR 显示终端;

(2)VR 显示终端通过相应流媒体协议进行下载,解析和解码后获取到每一帧矩形视频画面;

(3)将相应的矩形画面渲染为球状画面;

(4)根据用户眼睛观看方向确定用户在所述球状画面中所能观看到的区域,并从所述球状画面中获取所述区域的画面;

(5)对所获取的画面进行桶形反畸变处理,并将处理后的画面渲染至显示屏中进行显示。

上述就是关于VR 的概况和视频流程分析。当然,目前VR的发展还面临很多挑战,例如,拍摄时如何隐藏设备和制作人员;镜头快速移动造成用户观看时感觉头晕;前端制作和传输分发过程中,需要考虑到各种终端对不同映射模型的适配情况;VR 高质量画面的传输远远超出了当前网络资源的范围;眼镜、头盔等VR 终端设备长时间使用对人眼的伤害等。但我们相信,随着科技的发展,VR 技术会给我们带来更好的体验和更广泛的应用。

猜你喜欢
全景虚拟现实编码
生活中的编码
戴上耳机,享受全景声 JVC EXOFIELD XP-EXT1
虚拟现实技术在中学校园中的应用
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
全景敞视主义与侦探小说中的“看”
从5.1到全景声就这么简单 FOCAL SIB EVO DOLBY ATMOS
风口上的虚拟现实
全景搜索