姚高远 张小雨 王嘉
[摘要]对沉浸式全景视频制作的拍摄技术、图像处理技术进行分析,并介绍沉浸式全景视频在直播领域的应用。
[关键词]沉浸式;全景视频;拍摄技术;全景图像变换;直播系统;应用
文章编号:10.3969/j.issn.1674-8239.2016.08.005
1 概述
随着影音技术的发展,沉浸式体验的虚拟现实(Virtual Reality)技术也已从“虚拟”走向了“现实”。沉浸式全景视频基本场景是用户戴上显示终端(如头盔、眼镜等),通过头部的转动可以看到全景视频的每个方向的图像。如果全景视频配置了全景声音频效果,同时,也能听到来自各个方向的声音,声音也会随着头部的转动而发生变化。通过这种视频、声音与人的头部转动的配合,提供最为逼真、感同身受的视听享受,达到一种更为震撼的视觉效果。
2 沉浸式全景视频拍摄技术
沉浸式全景视频的拍摄通常有三种方法:第一种是使用大曲度鱼眼镜的摄像机直接拍摄,这种方法最方便,但生成的全景视频分辨率低,几何失真严重,增加了后期图像处理的难度;第二种是用带有自旋转电机的摄像机——高速球拍摄,这种方法生成的全景视频会发生模糊,并且帧组之间几乎不可能是完全同步的;第三种,也是目前最常用的一种方式,用多台摄像机组成阵列联合拍摄,如采用四目、六目或八目摄像机拍摄,这种方法从理论上讲生成的全景视频效果最好,但对于摄像机的部署(摆放)却较为讲究。下面,笔者详细介绍几种摄像机群的部署,分析和研究多台摄像机间的相对位置关系对生成全景视频所构成的影响。
2.1 视场交叉式摄像机阵列的构建
视场(Field of Vision,FOV)交叉式摄像机阵列构建(FOV-Crossed Cameras Setup),是指摄像机群中每一台摄像机的视场都与其相邻摄像机的视场发生交错,如图1所示。
这种构建较容易实现的。通常情况将摄像机以一个点为圆心,分散均匀地放置在与圆心等半径的圆上;再由拍摄顶部和底部多台摄像机组成摄像机阵列,水平方向上,每台摄像机负责拍摄360。视域中的一个角度(角度取决于摄像机镜头的拍摄角度,同时角度也决定了摄像机的数量)。这样,多台摄像机同时拍摄,便可以将周围的全部视域采集下来。
这种摄像机阵列拍摄出来的全景视域并不完美,在两台摄像机视场交接处之前会有一片盲区,两台摄像机的视场都无法覆盖,即两台相邻的摄像机均不能拍摄到其中的景物。而在视场交界处之后,是两台摄像机的视场均能覆盖的重影区。盲区与重影区都会影响全景视频最终的呈现质量,因此,在前期拍摄时要尽量避免使需要拍摄的景物进入盲区,而在重影区的图像需要在视频后期进行裁剪处理。
2.2 视场平行式摄像机群构建
视场平行式摄像机阵列构建(FOV-parallel Cameras Setup)与视域交叉的摄像机群部署类似,也是将摄像机以一个点为圆心,分散均匀地放置在与圆心等半径的圆上,再与拍摄顶部、拍摄底部的多台摄像机组成摄像机阵列。与其不同的是,每台摄像机的视场不再与相邻的摄像机的视场交叉而是相互平行,如图2所示。
这种摄像机阵列的特点是没有重影区域,不需要用后视频图像处理来解决由重影区域带来的问题。但是在整个视场中却留下了数条无限长的盲区。减小摄像机之间的距离可以使盲区的宽度变窄,但这些盲区无法被消除,因为摄像机有自己的体积,不能被重叠放置。这种摄像机阵列适合拍摄远处景物,因为盲区的宽度总是固定的,拍摄的景物越远,盲区造成的信息残缺越不容易显露。
这两种摄像机阵列拍摄全景式视频都各有优缺点,视场交叉式摄像机阵列可以在相同景深处良好的拼接,但在其他重叠区需通过后期图像处理以达到完美呈现效果;视场平行摄像机阵列总会受到盲区的影响,无法做到完美拼接,但可将盲区收敛在可接受的范围之内。总的来说,这两种构建方式都不算完美,要想达到完美的全景视频呈现,还需对拍摄好的视频进一步图像处理。
3 沉浸式全景视频图像处理
要想画面对应的物理空间视域达到全包围的程度,就需要图像画面可以包含水平方向360°、垂直方向180°的视域。最为理想的投影模型为正方形投影,如图3所示。观众处于这样的6幅画面包围在中心,最终的视域范围同样可以达到水平360°、垂直180°,并且画面是绝对不存在任何扭曲变形的。
然而,在实际拍摄过程中无论是摄像机所能达到的视场角度,还是支撑摄像机阵列的支架结构设计与制作,都无法达到理想模型的参数要求。细小的机械误差都可能在最终沉浸式图像呈现上留下明显的瑕疵。因此,为了达到完美的全景图像,就需要将摄像机阵列拍摄的多个图像进行拼接和边缘融合。
要想把全物理视域真实场景正确地展示到一张2D图像上,就需要一个转换过程,这样,真实的场景与2D图像就会有一个映射关系,投影就是这种映射关系,沉浸式视频的显示终端也将按照投影方式还原真实场景。目前最常见的投影方式就是球面投影。如图4所示。
P为三维空间中的一点,q为P点在二维平面的投影点,可根据q点利用相应的逆转换得到P点,再将P转换为球面坐标。
球面投影的特点是水平视角的图像尺寸可以得到很好的保持,而垂直视角上,尤其是接近两极的时候会发生无限的尺寸拉伸。沉浸式视频的显示终端可按其映射方式将这些明显变形的画面还原为全视角的内容,进而让使用者有一种身临其境的包围感。
因为人的双眼存在一定的视角差,双眼各自看到的图像有一定的差异,再通过大脑的解析计算就可以得到立体的感受。因此,在沉浸式视频的显示终端上仅仅是通过投影方式的变换生成的一幅360。的全景内容,无法呈现出立体的效果。要想得到立体效果沉浸式视频,也必须采用左右眼水平分隔显示的模式。
要得到立体的效果通常有两种方式。一种是在拍摄端做出一些调整,采用3D拍摄,将原来的摄像机阵列由原来的6台改成12台组成,即每个方向都有左右眼视频,都是由两台摄像机负责拍摄。然后分两次对6个视频进行拼接和处理,输出两个不同的全景视频。另外一种是在原始的全景画面上分别截取两个画面,其中一个画面向左偏移一点,另一个画面向右偏移一点,然后各自做一个轻度的透视变换,以模拟视线角度的偏转。这样构成的立体画面在多数情形下也具有一定的立体欺骗的效果,而且左右偏移量不好掌握。这两种方式各有优缺点,第一种方式在拍摄端增加了成本和拍摄复杂度,但是可以得到较为完美的立体效果。第二种方式虽然拍摄端相对简单,但是增加图像处理的难度,而且对于近处的景物,或者左右眼画面中的景物存在遮挡关系的时候,则无法达到立体的效果。
4 沉浸式全景视频在直播中的应用
沉浸式全景视频非常适合现场直播。很多现场直播的场景比较开阔,而在传统的现场直播中,一台摄像机机位的视角比较有限,通常一个讯道由一个摄影师来操纵,拍摄大多数观众所感兴趣的区域,如比赛的热点区域。远程的观众只能被动地观看所拍摄区域的影像,不能像坐在现场的观众那样主动观看场景中的任何地方,没有自主性。沉浸式全景直播采用一组摄像机,将场景中的所有区域全部以视频的形式拍摄下来,传送给中央视频服务器。中央视频服务器实时地将这些视频合成为一个超广角的全景视频,并按照远程观众的需求,将全景视频的一个区域,通过网络传送给观众。远程的观众可以自由选择全景视频中的任意区域进行观看,并且还可以实时地改变观看区域,选择视域的位置信息参数通过头戴式显示终端的转动角度确定。当人们佩戴这种显示终端来观看现场直播时,就好像置身于现场一样,可以随意环顾四周,选择自己感兴趣的视角。
沉浸式全景视频直播系统主要组成部分包括摄像机阵列、视频处理服务器和显示终端。全景摄像机群阵列设置在拍摄前端,负责拍摄现场的各个位置的视频图像,并将拍摄好的多路视频摄像机传送给后台的视频处理服务器。视频处理服务器需达到图形工作站级别,它能够将多路视频合成为一个全景视频,并能根据各个终端所返送的位置信息将全景视频图像的剪裁、编码等步骤,通过网络发送给终端显示。目前的显示终端均为穿戴式智能设备,包括智能眼镜、智能头盔等,这些智能设备也都具有互联网接入功能。显示终端接收服务器端发来的现场实况视频,并将它进行解码和显示。如果观众想看其他方向的画面,只要像在现场一样环顾四周,智能设备就能根据所转动的角度确定位置信息,返送给服务器端,服务器端再根据位置信息判断观众想要观看的区域,将此区域重新裁剪编码后再发送给显示终端。整个沉浸式全景视频直播系统架构如图5所示。
与传统现场直播相比,沉浸式全景视频直播有以下特点:
(1)需要全方位实时采集场景中的全部影像;
(2)可以由观众自主选择其感兴趣的视域;
(3)让观众如同身临现场,可以更好地感受现场的气氛,现场参与感也非常强。
5 结语
本文简单分析沉浸式全景视频的拍摄原理,介绍常见的全景图像的处理方式,还提出一种可行的沉浸式全景视频直播系统架构。相对于传统直播,沉浸式全景视频直播增加了空间的信息,可以对真实的物理空间无限模拟和接近,给人以沉浸式的真实体验。尽管目前沉浸式全景视频的内容还较为匮乏,观看时也需要佩戴昂贵的终端,直播方式也不及传统直播方式成熟,但是在时空构建、主观感受方面,沉浸式全景视频都给观众带来了全新的体验。在互动方式上,全景视频直播也拥有无可比拟的优势,其后台可以对观众的行为数据搜集和分析,从而调整现场直播导演的制作思路,这也符合当前数据挖掘的技术发展趋势。相信,在不久的将来,沉浸式全景视频应用能够找到一种适合的商业模式,给传统视频行业注入新的动力。
(编辑 张冠华)