欧阳玥
(中广电广播电影电视设计研究院,北京 100045)
2020年8月,国家广播电视总局提出了 “高新视频”的概念,旨在推动5G 环境下 “更高技术格式、更新应用场景、更美视听体验”的新业态,沉浸式视频是高新视频的重要组成部分。在《5G 高新视频—沉浸式视频技术白皮书 (2020)》中提到,球幕、环幕、沉浸式CAVE是沉浸式视频最主要的呈现形态,而其中球幕是最符合人眼曲面透视规律的一种呈现形式。沉浸式球幕影院本是特种影院的一种,多见于天文馆、科技馆等科普场馆。近年来,将球幕和动感座椅、飞行平台结合的飞行影院越来越受到观众的欢迎,它以强烈的视觉沉浸感、声音包围感给观众留下了深刻的印象,悬空的推出式座椅和震动、坠落、吹风、喷水、挠痒等多种特效,配合影片动作情节可以产生丰富多样的体感,为观众带来前所未有的沉浸式观影体验。
沉浸式球幕影院坐落在一个钢结构球体内,观众置身其中,被半球形银幕或切掉部分的碗形幕所包围。根据观看方式的不同,球幕又可以分为穹顶式、倾斜式和垂直式:穹顶式球幕,观众一般仰躺着观看,如天文馆星象厅里的球幕;倾斜式球幕,观众一般坐在阶梯座椅上观看,如IMAX 球幕影院;垂直式球幕,观众一般坐在悬挂座椅上或站立在观景平台上观看,如飞行影院。
沉浸式球幕影院的视频系统通过一台或多台投影机,在球形银幕上投影出完整连续的画面,表现出高分辨率、广视角范围的显示效果,带来强烈的沉浸感与真实感。目前新建的球幕影院,画面分辨率达到8K,对于180°水平视场角的球幕而言,7200的水平分辨率对应的最小像素夹角为1.5弧分,符合国际天文馆协会(IPS)对球幕“精确辨别”的建议。此外,由于曲面透视的原理,球幕本身可以较好地实现裸眼立体的效果,还有的球幕影院加入了3D 立体效果,如梦幻长城球幕影院和 “720穿越飞船”项目。因此从视场角、分辨率、立体效果等几个方面来看,沉浸式球幕影院的视觉沉浸感已经实现得比较成熟,那听觉的沉浸感如何实现呢?本文旨在探讨在沉浸式球幕影院中实现声音沉浸感的必要性和方法。
尽管从立体声发展到了5.1/7.1声道,实现了音响空间上的巨大进步,但传统的声音系统距离真实的声场仍然有不小的距离。因为传统的立体声和5.1/7.1环绕声,只能重放水平方向来的声音信息,例如5.1是通过在人耳高度上的5只扬声器实现水平方向上360°包围的效果,但是不能实现垂直方向上的覆盖。而真实世界的声音来自四面八方,人耳可以通过声波的时间差、强度差、相位差、频率差等辨别声音的方位。为了再现一个更接近真实世界听觉感受的声学环境,或者创造一种仅在虚拟空间出现的、经过增强的现实世界体验,可以通过声音的捕捉、合成和渲染得到沉浸式声场,再通过沉浸式声音重放系统进行再现。
关于沉浸声的概念,目前有很多相关名词,如电影领域里说的全景声(特指杜比全景声)、多维声(特指中国多维声),广播电视领域里说的三维声、3D Audio以及VR 和游戏领域里说的空间音频,这些名词都是指的沉浸声系统。沉浸声的技术主要有三大类:基于声道的音频 (Channel-based Audio,CBA)、基于对象的音频 (Object-based Audio,OBA)和基于场景的音频 (Scene-based Audio,SBA)。基于声道的技术制式主要有THX 10.2 (2+8+0的扬声器布局,即2只上层扬声器、8只中层扬声器、0 只下层扬声器)、Auro 3D (5+5+1的扬声器布局)和NHK 22.2 (9+10+3的扬声器布局)三类。基于对象的技术是目前主流的沉浸声技术,如电影领域的杜比全景声、DTS∶X、Auro-MAX、HoloSound (国产)、Wanos全景声 (国产)等,以及在广播电视领域的MPEG-H、AVS2-P3(国产)等。基于场景的技术则主要用于游戏和VR领域,其核心的底层算法是Ambisonics。用于剧场剧院和演出行业的沉浸声系统,有的也使用高阶Ambisonics(简称HOA)技术作为底层技术,如L-ISA、Spat Revolution、音王 (国产);还有的使用波场合成WFS技术,如IOSONO、HOLOPHONIX、Astro Spatial Audio等。
经调研发现,现有的沉浸式影院大多还是传统的5.1 声道环绕声系统,并没有使用沉浸声系统。最近几年新建或改建的沉浸式影院,有一些运用了沉浸声系统,但是声道的数量和扬声器布局并没有统一的标准,笔者对目前国内的沉浸式球幕影院做了调研和统计,列出了使用沉浸声系统的球幕影院(含飞行影院)项目情况,详见表1。
表1 沉浸式球幕影院 (含飞行影院)应用沉浸声系统的情况列表
此处,笔者想澄清几个容易被混淆的概念:节目的声道数、还音系统的声道数和音箱数量是三个不同的概念。往往宣传中说该项目拥有20声道的声音系统,最后核实下来其实就是一个5.1系统,之所以会相差悬殊,除了吸引眼球而故意宣传的情况外,对上述三个概念不清晰是影院建设方或者运营方常有的问题。节目的声道数是指节目制作和母版输出的声音信号数量;还音系统的声道数是指系统能单独接收信号的通道数量;而音箱数量是指使用扬声器的数量。这三个数字往往是一个比一个大,还音系统的声道数可能大于节目的声道数,而音箱数量往往又大于系统声道数。例如,某球幕影院的还音系统支持8个声道的输出,却总共用了19只扬声器,分别是银幕扬声器3只(对应3个声道)、超低扬声器4只(对应1个声道)、环绕扬声器12只(对应4个声道),这么看该影院是可以支持7.1声道节目还音的(8个声道),但是实际上,该影院只有5.1声道的节目源,因此只能说该影院的声音系统是5.1声道。
表1中有一些球幕影院,如北京天文馆、内蒙古科技馆使用了基于通道的技术,比如7.1 声道,是在传统5.1声道的基础上增加2个顶部声道构成的沉浸声系统。基于声道的方式在立体声以及环绕声的音频制作中被广泛使用,但是它对扬声器布局绝对依赖,听众只有在很小的区域内 (即通常所说的“皇帝位”)才能听到最佳的声音效果,而且要求制作与重放的扬声器布局及声学环境一致,因此灵活性不高。从表1中统计的结果来看,绝大多数沉浸式影院的沉浸声系统使用了基于对象的音频技术,如梦幻长城球幕影院、融创飞行影院系列、首望“720穿越飞船”项目等。基于对象的音频技术的核心组成部分是元数据,它记录声音的位置、扩展度、运动特性,把这些元数据存储并传输到终端,渲染后再进行重放。和基于声道的实现方式不同,基于对象的音频技术不受还音条件 (诸如音箱数量和布局)的限制,渲染器可以读取音频对象的元数据信息,使得同一母版能够适配各种空间的各类还音系统,但前提是制作端和重放端使用相同格式(至少是兼容)的渲染器或渲染模块。
如何在沉浸式的球幕影院中实现沉浸式的听觉效果呢? 首先要从沉浸声系统设计开始。
对于沉浸式球幕影院而言,除了沉浸声系统的设计之外,还有声学设计、视频系统设计和建筑设计等环节。这些设计环环相扣,相互影响。要想获得极致的沉浸式视听体验,沉浸声系统设计需要建立在良好的建筑声学环境和视觉环境基础上,还要精心设计扬声器的布局,对扬声器进行严格选型,同时还要考虑银幕的位置、画面中心区域、观众区位置、俯仰角、视线、最佳视点等因素之间的关系,设计难度较大,且缺少相关的标准和实施指南。根据以往参与实施的多个大型沉浸式影院项目的设计和建设经验,在此分享一些沉浸式球幕影院中沉浸声系统设计的主要内容。
沉浸声系统设计首先要确定沉浸声制式和声道数量。沉浸声制式可以根据项目规模、建筑情况、投资情况等来确定。推荐使用基于对象的沉浸声技术,杜比全景声、DTS∶X、Auro Max、Holo-Sound、Wanos这些沉浸声制式都在标准电影院中成功商用了,其中最成功的是杜比全景声。不过杜比全景声多用于标准影院(方形房间),较少用于球幕影院,其制定的设计流程和施工标准都是针对标准影院。虽然家庭版全景声考虑了圆形布局,但是并不适用于球幕影院这样的大空间。DTS∶X、Auro Max和HoloSound制式支持球形空间的扬声器布局和声场渲染,但是从调研结果来看,应用的案例都不多。目前关于球幕影院的沉浸声方面还没有相关的标准出台,球幕影院的节目也基本上以本地播放为主,未来若想要接入超高清电视节目、全景VR 直播的沉浸式影院,在选择的时候就要考虑沉浸声系统是否支持信号传输的要求,最好选择具有编解码方案的沉浸声系统。
对于声道数量,国际巨幕协会出台的数字沉浸式大银幕规范DIGSS V2.0对球幕影院声道的建议为5、6、7或12,而对于更高需求的沉浸声系统见表2最右一列全景式,至少需要配置12个声道。根据《5G 高新视频-沉浸式视频技术白皮书2020》中的规定,沉浸声系统推荐不低于为5.1.4 声道,即10个声道的多声道还音能力,推荐使用更多声道及带有对象和场景信息的各类三维声还音系统配置。对于要求较高的项目,想要实现极致的沉浸声效果,根据实际经验,一般16个声道方案是能满足多数项目需求的。尺寸较大的特效影院,32个声道已足够。
表2 DIGSS V2.0中对平面影院和球幕影院音频指标的规定
确定了沉浸声制式和声道数量后,需要根据建筑本身的情况确定扬声器具体的布局。对于沉浸式球幕影院,扬声器的布局需要根据球幕的倾角、观众位置和主画面的位置来确定。
图2 德国汉堡天文馆现场照片,采用60.4声道沉浸声系统[6]
在穹顶式的球幕中,观众一般仰躺着观看节目,扬声器可以按照3~4个高度不同的圆环来设置。最低一层的圆环位于最接近观众的水平面上,间隔一定高度再设置一层圆环,以此类推。穹顶的最上方极点处一般会设置一个专门的声道,叫做上帝声道。扬声器均匀分布在各层圆环上,一般最下面一层环绕声道的数量最多,上层环绕声道的数量较少。
表3 德国汉堡天文馆60.4声道沉浸声系统的扬声器布局[6]
倾斜的球幕影院,例如IMAX 球幕影院,观众一般是坐在阶梯座椅上观看节目,扬声器一般分主声道和环绕声道。主声道一般应包含至少5个前方声道(左、左中、中、右中、右),高度位于最佳视点的附近,一般是主画面的2/3垂直高度,环绕声道一般分布在中层 (观众同高)和上层 (也称为顶部)。
图3 梦幻长城球幕影院的扬声器布局 (东方佳联提供)
立式的球幕影院,例如飞行影院和碗幕等 (图4),观众一般是坐在动感座椅上或者是站立着朝正前方观看,扬声器可以按照4~6个高度不同的半圆环来设置,均匀覆盖画面所在的整个半球体,观众所在区域的侧面和后部,也应配置1~2圈扬声器作为环绕声道的呈现,球体的底部和顶部 (如有)应设置相应的扬声器。
图4 某飞行影院的扬声器布局 (万达提供)
沉浸声系统要想展示出较好的沉浸感,还得有精心制作的沉浸声节目。基于声道的沉浸声节目当然就是多声道的音频文件;基于对象的沉浸声节目除了有多声道文件 (称之为声床)之外,还有多个音频对象的素材元数据文件;而基于场景的沉浸声节目就是一个打包好的声场。那么用什么工具来制作沉浸声呢? 沉浸声制作系统一般包括音频工作站(含软件及插件)、视频工作站、音频接口、调音台、沉浸声渲染设备、预混监听 (制作棚)、终混监听(影院本地)等设备。
沉浸声节目的制作可以使用Pro Tools、Pyramix、Logic、Nuendo、Reaper等常用的音频工作站,再配合支持沉浸式声音制式的渲染引擎和制作插件,如杜比全景声、HoloSound、Wanos等制式都有沉浸声制作的渲染引擎和制作插件。需要注意的是,有些沉浸声引擎或插件并不能适配所有的工作站,例如IOSONO 的格式只能使用Nuendo来进行声音制作,而不支持Pro Tools工作站。此外,音频工作站还需要原生支持沉浸式的Panner,或者支持安装3D Panner插件,用于控制声音在三维空间中的运动轨迹。
对于小型沉浸声制作系统而言,一般由音频接口与音频工作站配套使用,连接音频渲染器、音频处理器等设备,满足相应的输出通道给监听系统。音频接口可选模拟或数字音频接口,目前较多采用MADI协议的数字音频接口,每个MADI接口可以同时传输64通道高质量的音频信号。
大型的影片制作系统需要多台音频工作站 (放机、录机)和视频工作站联动协同工作,系统的连接方式可借鉴电影混录棚的系统设计。同时,还需要配备大型的调音台,供混音师精细调整声音的均衡、音量、延时、混响等参数。因为需要同时控制多轨声音的各个参数,所以声音制作的调音台至少要有32个推子,大型影片则要配备带有64个或更多推子的调音台。
沉浸声渲染引擎是沉浸声系统的核心设备,它将声音对象在三维空间中的元数据进行编辑和记录,并将所有的分轨声音合成为一个声音母版文件,在还音时再由解码器将声音渲染还原。一般每个沉浸声制式会有自己专用的渲染引擎,有的基于Windows操作系统,有的基于mac OS,还有的基于Linux。渲染引擎最核心的模块是算法,功能强大的引擎可以支持多种算法,如声像定位的算法VBAP(基于矢量的振幅定位)、DBAP (基于距离的振幅定位),如渲染的算法HOA (高阶Ambisonics)、Binaural(双耳化)以及去相关的算法等。强大的算法是最终呈现声音效果的关键,也是渲染引擎软件能力的体现,同时稳定性、运算速度和精度、接口的多样性是渲染引擎硬件能力的体现。
预混监听 (制作棚)一般为小型混音环境,对声音进行编辑制作和预混合。预混监听环境可以按照ITU-R BS.2051-1以及GY/T 316-2018中的要求来设置,例如5.1.4声道对应10个声道。沉浸声的监听也可以使用双耳化技术来实现,通过虚拟三维耳机仿真模拟人耳在沉浸声影院里的听觉感受,但是目前其声场还原的准确度和真实感还有待提高。
终混监听(影院本地)应该在目标影院的环境中来完成,一般由影院还音系统来播放音频工作站中的分轨文件,在这个环境中对影片的音乐、音效、语言进行最终精细调整。
音频播放系统包括媒体服务器、音频解码器和音频处理器。目前球幕影院常用的媒体服务器一般可以支持5.1和7.1声道的音频输出,但是不支持沉浸式声音的解码输出,因此需要有专门的音频解码器来负责声音的播放。音频解码器一般需要和制作时的渲染设备相匹配,以确保将打包好的音频母版文件进行正确的解码处理,再按照目标影院的扬声器设置进行渲染,让还音系统能正常地回放出制作时的声音感觉。音频处理器负责扬声器的信号调校处理,有的音频解码器本身就具有扬声器信号处理的功能,音频处理器可以省略。
还音系统包括功放及扬声器,其设备选型需结合项目情况确定。根据国内数字影院技术标准和国际巨幕协会对沉浸式数字影院做出的规定,沉浸式影厅各声道的基准声压级确定为85dBC,主扬声器的峰值声压级为105dBC (参考电平为—20dBFS),次低频扬声器的峰值声压级为110d BC。选择功放扬声器的时候要满足上述声压级,且功放的额定输出功率≥1.5倍所对应的扬声器额定功率 (或满足所对应的扬声器工厂推荐的功率)。
频响可参考国内数字影院技术标准和国际巨幕协会对巨幕影厅和球幕影厅的指标要求,规定主扬声器的频率响应需满足30~16k Hz (+3/—6dB),环绕扬声器的频率响应需满足40~16k Hz (+3/—6dB),次低频扬声器的频率响应需满足25~120Hz。
沉浸声系统中每个扬声器包括环绕扬声器都扮演着很重要的角色,因为声像定位和移动往往需要多只扬声器共同发声来实现,因此扬声器能够覆盖的观众区域就变得比较关键了。在扬声器的选型中,一般需要尽可能地选择水平和垂直覆盖角度大于100°的扬声器。
(1)建筑声学:球幕影院由于使用球形银幕,对声音或多或少会有反射作用,很容易造成声聚焦的问题,因此要特别小心。为了获得良好的室内音质,需要对混响时间、混响时间频率特性和声场均匀性进行控制,还要控制回声、颤动回声、声聚焦、谐振等声缺陷。
(2)房间均衡和校正:校正扬声器的频响和时延对沉浸式球幕影院而言尤为重要,因为房间的反射会影响观众最终听到的声像定位、空间感和音色,未校正过的还音系统可能导致声音发闷、变薄等。
沉浸式影院的声音系统设计往往要和建筑、结构、暖通、电气、弱电、装修等多个专业配合,以确保整个空间功能实用且合理,装饰美观且安全,观众体验舒适而又充满惊喜。
事实上,由于服务场所、用途、规模、投资和主要呈现内容的不同,各个沉浸式球幕影院之间配套的沉浸声系统往往具有很强的独立性和定制性,在设计阶段就需要和使用方、节目制作方及项目实施方进行充分的讨论沟通,平衡节目制作、实施难度、还放效果和资金投入等多方面的因素,最终选择最适合的沉浸声方案。无论选择哪种沉浸声实现方案,都将是对设计、制造、施工、最终体验等环节的全方位考核。
在国家大力推进沉浸式视频发展的大环境下,原来简单以“特种电影”身份出现的各类沉浸式球幕影院,将迎来一场快速的市场爆发和技术的更新迭代,并最终以其无与伦比的沉浸式节目内容和强大的沉浸式视听体验征服观众。根据沉浸式视频的发展规划,在未来3~5年内,将实现沉浸式视频进社区、进家庭的畅想,彼时也许可以实现足不出户就体验到或真实或奇幻的另一个世界。其中,沉浸声系统所营造的听觉沉浸感一定是必不可少的因素,且将建立在更加灵活便捷的扬声器系统和更小型甚至芯片化的渲染设备基础上。目前,沉浸声系统的应用规模和数量还有很大的提升空间,沉浸声项目的设计和内容的制作、相关技术和产品的研发也还需要实现新的突破,而这需要技术人员的共同努力,才能让这个行业发展越来越好。