董强国 王文强 周令非
(中央宣传部电影技术质量检测所,北京100086)
近年来,随着沉浸式音频技术的发展,我国电影产业也迎来了一次巨大变革。数字影厅沉浸式声音放映已成为当今影院新技术应用的热门配置,然而此项技术长期被国外少数几个生产厂家所控制(垄断)。目前,国外主流的沉浸式音频系统主要有杜比全景声(Dolby Atmos)、DTS:X 和Auro 3D等。近几年,国内涌现出了一些沉浸式音频还音系统,主要有中国多维声 (13.1)、WANOS 全景声系统、音王22.5.8全景声系统、飞达六面声和Holosound全息声等,但这些系统的实现方案各不相同,从而造成我国数字电影沉浸声制作繁琐、制版众多、兼容性差、还音质量参差不齐,使得国产沉浸式音频系统难以在影院大范围推广。
SMPTE 2098系列数字电影沉浸式音频技术国际标准的发布,为数字电影沉浸声制版的统一、系统间的兼容提供了技术标准指导。本文对SMPTE 2098-1、SMPTE 2098-2 和SMPTE 2098-5 标准中涉及的沉浸式音频关键技术进行解读,根据我国沉浸式音频技术的现状,提出一套专业影院用沉浸式音频系统的解决方案,旨在推动中国沉浸声尽早打破国外技术垄断、实现统一制版、系统间互操作和与国际技术标准兼容,形成具有中国自有知识产权的数字影院沉浸式音频标准化体系。
数字电影沉浸式音频是基于声道/对象技术实现的,内容创建者用它们来设计具有听众上方和周围的声音,通过影厅基础层、高度层和顶层布置的扬声器系统进行声音的还原。
数字电影沉浸式音频关键技术有:用于创建电影沉浸式音频内容的元数据、用于传输沉浸式音频的比特流和将声音引导到各扬声器系统所需要的“渲染器”。元数据是沉浸式音频的核心,它能够将在声轨上的音频对象和音频通道成功地渲染到多个扬声器设备上。沉浸式音频文件需要特殊的比特流和专门的通道进行传输,沉浸式音频比特流是用于传输沉浸式音频文件的载体。沉浸式音频渲染将与画面相关的声床和对象元数据适当地渲染到可用的扬声器上,使得声音和相关的视觉元素在空间上相匹配。
2013 年 10 月, 电 影 电 视 工 程 师 协 会(SMPTE)决定成立专项委员会TC-25CSS,以制定数字影院沉浸式音频应用标准,旨在使各声音系统之间实现互操作。2018 年该协会发布了包括《SMPTE ST 2098-1:2018 沉浸式音频元数据》《SMPTE ST 2098-2:2018沉浸式音频比特流规范》和《SMPTE ST 2098-5:2018数字电影沉浸式音频通道》在内的一系列沉浸声标准。通过支持在单个可互操作的数字电影包内传送标准化的沉浸式音频比特流,新的SMPTE沉浸式音频标准简化了分配,同时确保影院可以自信地播放沉浸式音频,自主地选择兼容的沉浸式还音系统。
SMPTE ST 2098-1:2018主要规定了用于创建电影沉浸式音频内容所需的元数据,定义了沉浸式音频通道元数据、音床元数据、对象元数据、结构元数据、映射坐标系和对象映射到扬声器系统所需的坐标系与参照系,该标准主要内容如下:
(1)通道元数据为每个音频通道定义了唯一的标识。元数据项标识了与通道相关的单个扬声器或其他还音设备。元数据应被编码,以便明确地标识期望的路由目的地。
(2)音床元数据明确了与音床相关的元数据标识,此标识为唯一标识。重映射系数则定义了如何将原始通道映射到不同的目标配置,这组值规定了每个音频通道应配置多少增益,以生成与目标声场配置相一致的输出音频通道。
(3)对象元数据明确了与对象相关的元数据标识,此标识为唯一标识。音频对象是一组与元数据有关的音频样本,用于根据元数据所指示的空间位置和其他属性进行声音的再现。该位置可以与单个扬声器相关联,也可以不与单个扬声器相关联。对象元数据定义了音频对象在三维空间的位置、尺寸、形状、增益和生存周期等属性。
(4)音频对象位置元数据使用笛卡尔坐标系放置音频对象,该系统使用三个正交轴(x,y,z)来定位空间中相对于所选原点的点。x坐标表示左右尺寸,y坐标表示前后尺寸,z坐标表示上下的尺寸,如图1所示。音频对象位置的笛卡尔坐标值是对理想化影厅(立方体形状)的参考点进行了归一化处理,相对参考点的选取如图2 所示。图2 中,正前方为银幕位置、相对于影厅中的面向银幕的观察者定义为“左”。元数据能够表示立方体内、上和外的音频对象位置信息,位置元数据应至少能够表示从Z轴中点到立方体顶部的立方体上和内部的位置信息。
图1 笛卡尔坐标系
图2 长方体影厅坐标实例
SMPTE ST 2098-2:2018主要规定了在比特流或文件中携带沉浸式音频各种元数据的格式,它承载了重现完整沉浸式音频节目所需的音频要素和元数据,该标准主要内容如下:
(1)数字和数据类型编码定义了Plex编码、用例编码、相对距离编码和幅度增益编码的结构。
(2)比特流IAFrame规范主要定义了IAFrame语法、床定义语法、床重映射语法、对象定义语法、对象区域定义19语法、音频数据DLC 语法、音频数据PCM 语法、授权工具信息元素、用户数据元素。
(3)IAFrame数据字段定义了IAElement数据字段、IAFrame数据字段、床定义字段、床重映射字段、对象定义语法、对象区域定义19字段、音频数据DLC数据字段、音频数据PCM 数据字段、授权工具信息元素、用户数据元素。
SMPTE ST 2098-5:2018定义了与数字电影沉浸式音频演示相关的沉浸式音频通道和声场组的名称和缩写。该标准还提供了用于沉浸式音频再现的电影扬声器的典型位置的指导,该标准主要内容如下:
(1)定义了沉浸式音频共12个通道的名称和缩略 名 (Lh、Rh、Ch、Lsh、Rsh、Lssh、Rssh、Lrsh、Rrsh、Lts、Rts、Ts),沉浸式音频通道描述见表1所示。
表1 沉浸式音频通道
(2)该标准将影厅扬声器布局分为水平层、高度层和顶层。其中水平层由传统的5.1和7.1声道的扬声器系统组构成,高度层/顶层包含的沉浸式扬声器系统组有Lh、Rh、Ch、Lsh、Rsh、Lssh、Rssh、Lrsh、Rrsh、Lts、Rts、Ts。
表2 沉浸式声场组
(3)该标准在传统的5.1声道和7.1声道配置的基础上,推荐了沉浸式音频9.1、11.1、13.1和15.1声道扬声器系统组的位置配置,沉浸式声场组描述见表2所示。
SMPTE 2098系列数字电影相关沉浸式音频技术标准的发布,为数字电影沉浸声制版的统一、沉浸式音频文件的元数据制作和渲染、沉浸式音频文件的传输、系统间的兼容提供了技术标准指导。SMPTE 2098数字电影沉浸式音频标准与现行DCI《数字电影技术规范》1.2版音频格式相比有较大变化,如在5.1/7.1声道音频格式基础上增加了高度层,在垂直面上(天花板)增加扬声器系统;音频内容的制作摒弃了声道的概念,采用基于对象的制作方式;音频文件的构成摒弃了PCM 格式,转而采用码流的方式进行封装。因此,数字电影沉浸式音频系统设计方案应遵循以下原则:应尽量不增加沉浸式音频的制作、发行和还音等流程的复杂和繁琐程度;充分考虑与DCI《数字电影技术规范》1.2版规定的数字电影现行制作、发行和放映体系的兼容性;符合SMPTE 2098沉浸式音频系列标准的技术规定;核心技术应规避国外相关专利的技术壁垒。
图3 数字电影还音流程图
图4 沉浸式音频系统流程图
DCI《数字电影技术规范》1.2版规定了数字电影声音发行母版制作、打包、传输、影院系统、放映和安全的技术规范,数字电影还音流程如图3所示。沉浸式音频系统应主要由浸式音频制作、编码、打包、播放、解码和扬声器系统组成,系统流程图如图4所示,以便兼容现有数字电影制作、打包和还音技术体系,符合SMPTE 2098系列标准的技术规范。
沉浸式音频制作拟采用基于对象的制作方式,采用以声床作为基础,对象为辅助的多声道制作方式。沉浸式音频内容的制作必须有一个沉浸式音频声床,通常为5.1、7.1、9.1或11.1音床,播放过程中它是一直存在的,它是分配给扬声器系统的固定通道,作为沉浸式声轨的基础。沉浸式音频内容由对象组成,音频对象可以理解为共享一个物理位置的声音元素集合,它由元数据控制,通过元数据给定的特定声音发声时间、电平、位置、大小、移动特性等信息,对象可以在声场内移动、也可在单个位置重现,或者通过特定的扬声器重现。沉浸式音频制作系统可以在现有Pro Tools音频制作系统中嵌入沉浸式音频制作插件,制作沉浸式音频元数据和同步数据,实现对现有制作系统的兼容。沉浸式音频制作插件核心技术采用基于对象/HOA 的制作方式,基于对象的音频技术主要采用VBAP 算法(Pulkki,1997),这个算法已经是公开算法,大多数厂家的专利都是在此基础上形成的基于对象的专利,可以在现有的沉浸式音频制作插件 (如Twirling Works、Spatial Audio Designer)的基础上进行研发。
基于对象的沉浸式音频不能够携带在主声道中进行传输,基于对象的沉浸式音频核心需要利用一个特殊的传输用比特流,在辅助的数据轨上进行传输。SMPTE 2098-2标准规定了沉浸式音频数据的编码和解码方式。应采用SMPTE 2098-2标准规定的沉浸式音频码流规范对沉浸式音频元数据进行编码,生成沉浸式音频Aux Data track文件,最终实现国内外符合SMPTE 2098系列标准的厂家制作的沉浸式音频数据的编码。
数字电影内容传输到影院是以数字电影节目包(DCP)的格式进行发行的,DCP 包是数字电影发行母版经过编码、加密、封装打包等处理形成。为了兼容现有还音系统、简化发行版本,沉浸式音频应采用数字电影节目包 (DCP)的格式进行发行,数字电影节目包 (DCP)音频应至少包含5.1/7.1声道、沉浸式音频数据流和音视频同步文件。可以参考已具备沉浸式音频打包功能的系统 (如Cine-Cert公司的ASDCPlib-2.5.14 版、罗德施瓦茨的DVS沉浸式音频打包系统)进行研发。通过研发沉浸式音频打包系统,嵌入各版本沉浸式音频编码文件,统一国产系统的沉浸式音频制作系统,实现沉浸式音频DCP制版的相对统一。
沉浸式音频还音系统应由沉浸式音频播放服务器、沉浸式音频处理系统、声频功率放大器和扬声器系统组成。沉浸式音频播放服务器应支持数字电影DCP包的播放,沉浸式音频文件应按照SMPTE 2098-2标准规定的音频码流进行传输,沉浸式音频播放服务器与传统播放服务器相比应增加沉浸式音频文件的播放和传输接口,建议使用AES67 或Dante网络音频传输协议进行沉浸式音频数据的传输。目前专业影院用数字电影播放服务器主要由国外厂家垄断,需要经过DCI的认证才能够使用。为了打破其技术垄断的封锁,拟采用 “外置沉浸式音频播放媒体模块+音视频同步信号”的方式实现沉浸式音频文件的传输。外置沉浸式音频播放媒体模块与数字电影播放服务器相比应具有同等安全级别,同步信号应符合ST 430-14标准关于同步信号和辅助数据传输协议的相关规定,沉浸式音频还音系统实现方案流程如图5所示。
图5 沉浸式音频还音流程图
沉浸式声音处理器由沉浸式音频解码器、渲染器、音频通道路由和B环调试插件构成。沉浸式音频解码器采用SMPTE 2098-2中的相关规定进行解码,沉浸式音频数据的渲染应根据影院中扬声器的位置和数量进行实时渲染。B 环调试插件应至少具备粉红噪声发生器、32段均衡调节、各通道延时和相位调节的功能。沉浸式音频处理系统为了能够兼容不同生产厂家的沉浸式音频内容格式,应在设计时充分考虑与主流沉浸式音频渲染模式的兼容性,通过研发渲染系统互操作性协议,最终实现支持杜比Atmos、Auro 3D、中国多维声 (13.1)等国内外主流沉浸式音频文件的还音。
沉浸式音频播放媒体模板应符合DCI《数字电影技术规范》1.2版中关于安全的规定,沉浸式音频应进行AES128位的内容加密和MXF/XML封装打包,产生适用于数字影院发行的数字电影节目包(DCP),同时产生密钥传送信息 (KDM)。DCP 和KDM 安全传送至影院后,由沉浸式音频播放服务器进行MXF/XML 解封装、解密密钥提取、AES数据解密,同时实时嵌入数字音频水印,有效保护电影版权和创作创意,保障电影创作质量和影院放映质量,打造更加公平、有序的电影环境。
数字影院B 环是电影放映还音系统的一部分,从输入源选择器到影厅观众区构成B环系统。为了使电影录音控制室、鉴定放映室和室内影厅音频制作和还音环节标准化,数字影厅5.1/7.1通道B 环电声响应频率特性应符合标准GY/T 312-2017《电影 录音控制室、室内影厅B 环电声响应规范和测量》中的相关规定。基于对象的沉浸式音频还音系统可以驱动单个扬声器进行还原,为了能够更好地还原声音,B 环调试时,建议环绕声道和顶部声道基准调试声压级调整为85dB (C)。
本文通过对沉浸式音频制作、编码、打包、解码和渲染系统的核心技术分析和实现方案探讨,希望能够推动数字电影沉浸式音频系统的全流程国产化,形成具有中国自主知识产权的沉浸式音频系统标准化体系,从而实现沉浸式音频制版统一和内容共享,不同制作系统制作的沉浸式音频文件可以使用统一的码流进行传输,任意一版沉浸式音频DCP可以在任意装有渲染互操作的沉浸声音频系统进行还音,继而通过沉浸式音频内容共享,推动影院布局沉浸式音频系统的积极性,促进沉浸式音频设备和系统健康、竞争、有序发展。