董强国
中国电影科学技术研究所(中央宣传部电影技术质量检测所),北京 100086
自2012年杜比推出Dolby Atmos全景声格式,沉浸声影厅进入快速发展阶段,随后DTS和Auro Technologies等公司也推出自己的沉浸式音频格式。近几年我国部分厂家推出了自己的沉浸式音频格式,如中国多维声、Wanos全景声、全息声、22.5.8全景声、飞达六面声等。因不同品牌沉浸式音频技术使用的是自有音频格式,各系统间不兼容,造成多版本制作发行的压力,因此成为制作方、发行方和影院采购方的重要绊脚石。制片方想避开格式之争,摆脱一部电影制作多个版本所导致的时间和成本,渴望无论在哪个放映厅,内容音效都能保持一致,且达到最佳状态。发行方期望能够一版兼容多版本的发行。影院投资方希望一套沉浸式音频系统能够播放所有的沉浸式音频文件格式。
2013年美国电影电视工程师协会 (SMPTE)针对上述问题,在电影音响系统技术委员会 (TC-25CSS)内成立了互操作沉浸声工作小组开展相关研究。2018 年至今,电影电视工程师协会(SMPTE)陆续发布了SMPTE ST 2098-1:2018沉浸式音频元数据、SMPTE ST 2098-2:2018沉浸式音频比特流规范、SMPTE ST 2098-3:2019沉浸式音频渲染预期效果和测试、SMPTE ST 2098-5:2018数字电影沉浸式音频通道、SMPTE ST 429-18:2019 沉浸式音轨文件、SMPTE ST 429-19:2019沉浸式音频DCP 包、SMPTE ST 2069-201:2021沉浸式音频比特流插件等沉浸式音频技术相关指导性文件。2019 年跨协会数字电影论坛 (ISDCF)组织电影行业技术公司 (如杜比、巴可、Xperi/DTS、D-Box)对基于SMPTE ST 2098系列的沉浸式音频技术的互操作进行了测试,结果表明,所有系统都能很好地进行杜比Atmos文件的基础播放,DTS内容也可在杜比渲染器上播放,且D-Box动作数据和沉浸式音频数据兼容良好。
随着国际电影相关技术规范的发布和沉浸式音频技术互操作测试的成功,为解决我国沉浸式音频技术面临的问题提供了很好的借鉴,本文利用我国现有的沉浸式音频制作平台,通过分析国内外沉浸式音频相关技术规范,提出一种能够兼容现有制作系统,且能够符合国际标准技术规范的沉浸式音频制作和混录工具的研发思路,并基于Protools制作平台研发了一套沉浸式音频制作和混录工具。
传统5.1或7.1数字电影声音制作采用的是基于声道的制作概念,混录后的每个音轨对应还音端的每个声道,声音素材经过终混后生成位深24bit、采样频率48k Hz或96k Hz的PCM、WAVE编码格式的6通道或8通道音轨文件,然后通过数字电影DCP打包系统,对其进行加密、封装打包,完成数字电影发行版的制作。
数字电影用沉浸式音频制作与传统的制作方式有很大的不同,它采用“基础声床+对象+元数据”的制作概念,元数据中携带声音的运动辅助信息(如增益、运动轨迹坐标等)实现音频对象在时间和空间中的运动,通过沉浸式音频渲染技术来还原三维声场。然后将沉浸式音频混录后的音轨文件和元数据进行沉浸式音频码流的编码,将编码后的沉浸式音视频码流进行封装打包和加密,完成数字电影沉浸式音频DCP包的制作。美国电影电视工程师协会(SMPTE)针对沉浸式音频的制作特点对沉浸式音频制作核心内容元数据、码流和DCP包的制作制定了相关的技术指导性规范。
为了方便沉浸式音频空间移动对象的制作,沉浸式音频移动对象的制作方式采用“对象+元数据”的方式进行。SMPTE ST 2098-1:2018规定了沉浸式音频制作所需的元数据,主要规定了音频通道元数据、声床元数据、对象元数据、空间坐标系和空间坐标系映射到数字电影沉浸式影厅的映射关系,主要内容如下:
(1)每个通道应具有唯一的标识符,各通道元数据标识与终端还音设备的路由关系需要进行编码。
(2)每个声床应具有唯一的标识符,声床元数据规定了基础声床轨道数,如5.1(L、R、C、LFE、Ls、Rs)、7.1(L、R、C、LFE、Lss、Rss、Lrs、Rrs)、9.1(L、R、C、LFE、Lss、Rss、Lrs、Rrs、Lhs、Rhs)声床。
(3)每个对象应具有唯一的标识符,对象元数据可以描述在三维空间中的大小、形状、音频对象的特性(如对话、音乐和特效),可以指定应用于与音频对象关联的音频本质的增益、音频对象呈现的时间间隔。
(4)定义了元数据可单独控制增益的最小还音区域如表1所示。
表1 增益可控区域
(5)定义了音频对象的移动轨迹空间坐标及其与影厅的对应关系。该坐标使用的是笛卡尔相对坐标系,使用X,Y,Z相互正交的空间笛卡尔坐标系来定位音频的空间位置,笛卡尔空间坐标系如图1所示。对象空间位置元数据为了能够覆盖影厅的所有区域,因影厅结构通常为立方体结构,根据影厅的结构对空间坐标系进行了立方体映射,对于X 轴参考点为左右立方面,对于Y 轴参考点为前后立方面,对于Z轴参考点为立方体的底部、中点和顶部。根据影厅的结构对X,Y,Z坐标系进行了归一化,该归一化模型定义了X轴左面值=0、右面值=1,Y轴前面值=0、后面值=1,Z轴底值=0、顶值=1,中点值=0.5,立方体影厅坐标映射实例如图2 所示。
图1 笛卡尔坐标系
图2 立方体影厅坐标映射关系实例
混录后的沉浸式音频文件以128 个PCM 音频文件+元数据的格式存在,为了方便数字电影DCP包的制作和还音,需要对其进行编码。SMPTE ST 2098-2规定了沉浸式音频码流技术规范,它将沉浸式音频码流分解成IAFrame结构,每个帧都对应于一个图像编辑单元。IAFram 元素包含解码一帧音频所需的所有音频和元数据元素,IAFrame结构由Bed Definition、Bed Remap、Object Definition、ObjectZoneDefinition19、AudioDataDLC、Audio-DataPCM、Authoring ToolInfo、UserData组成,各元素之间的继承关系如图3所示。
图3 沉浸式音频帧元素继承关系
Bed Definition语法主要目的是告诉渲染器哪个特定的音频元素应该路由到哪个扬声器或扬声器阵列;ObjectDefinition语法主要目的是告诉渲染器哪个特定的音频数据元素应该被 “pannned”到影厅中的特定位置;AudioDataDLC 语法主要目的是用于对118个音频文件进行无损压缩编码;AudioDataPCM 语法是用于对118 个PCM 音频文件进行编码;Authoring ToolInfo语法主要用于规定创建沉浸式音频框架的供应商和工具 (包括版本);User Data语法主要用于规定使用SMPTE 标识的未定义的用户数据。
数字电影沉浸式音频DCP 包由MXF 和XML文件共同组成,使用素材交换格式 (MXF)对图像、声音和字幕进行封装,使用可扩展标记语言(XML)对MXF文件进行组织,生成合成播放列表(CPL)、打包列表 (PKL)和资产映射表等XML文件。SMPTE ST 429-18:2019主要规定了如何对符合SMPTE ST 2098-2规范的沉浸式音频码流进行KLV 编码和MXF封装,沉浸式音频封装架构如图4所示。
图4 沉浸式音频封装架构
SMPTE ST 429-19:2019 对符合SMPTE ST 2098-2规范的沉浸式音频DCP包进行了约束,它规定所有携带沉浸式音频核心的轨应符合SMPTE ST 429-2 定义的SMPTE 打包格式。合成播放列表(CPL)中至少应包含沉浸式音频和主声音资产的所有卷。沉浸式音频合成的每个卷应该包含沉浸式音频元素,合成播放列表 (CPL)中的每个卷应该包含沉浸式音频元素,为了确保符合SMPTE ST 429-2的要求,主声轨应出现在每个卷上,并包含相同的通道数。沉浸式音频DCP 包MXF 和XML 文件应符合的标准规范如图5所示。
图5 数字电影沉浸式音频DCP包规范
目前,我国院线电影用沉浸式混录棚多数采用的是基于Protools架构的制作环境,沉浸式音频制作硬件架构如图6所示。为了能够与现有混录设备保持良好的兼容性,需要在现有平台的基础上进行沉浸式音频制作、混录和监听、编码和打包工具的研发。符合相关国际规范的沉浸式音频文件至少由“声床+对象+元数据”组成,沉浸式音频文件的制作首先将所提供的声音素材混录制作成符合SMPTE ST 2098-1规定的元数据格式的沉浸声音频素材,然后编码成符合SMPT 2098-2码流规范的沉浸声母版文件,依据SPMTE ST 429-19 规定的打包规范进行封装打包,形成沉浸式音频DCP包,沉浸式音频制作系统标准符合性实现架构如图7所示。
图6 沉浸式音频制作系统硬件架构
图7 数字电影沉浸式音频标准符合性实现架构
沉浸式音频制作工具应采用基于Protools架构的制作环境,基于对象的制作方式,以声床作为基础,对象为辅助的多声道制作方式,主要用于沉浸式音频对象的制作,该系统至少包含基础声床、基于对象的声像和移动声像控制工具。声床和对象轨主要用于沉浸式音频混录素材的制作和播放,声像控制工具主要用于移动对象的制作,并生成符合SMPTE ST 2098-1元数据。该系统至少应具备以下功能要素:
(1) 采样率:应至少支持48k Hz的采样率。
(2) 帧率:应至少支持24/1、25/1、30/1、48/1、50/1、60/1 FPS。
(3) 声床:应支持7.1声床轨(L,R,C,LFE,Lss,Rss,Lrs、Rrs)或支持9.1 声床轨 (L、R、C、LFE、Lss、Rss、Lrs、Rrs、Lhs、Rhs)。
(4) 对象:应支持118个对象轨,每个对象轨能够独立进行声像控制。
(5) 声像控制:声像控制工具应能够实时控制特定声音发声时间、电平、位置、大小、移动特性等信息,对象可以在声场内移动,也可在单个位置重现,或者通过特定的扬声器重现。
(6) 声像控制工具应采用极坐标的形式表现对象的运动轨迹,Panner建议使用鞋盒型,Panner对象位置映射到电影院的扬声器阵列如图8所示。
图8 对象位置映射到电影院的扬声器阵
沉浸式音频混录和监听工具主要用于沉浸式音频文件的混录、对象元数据的生成和混录效果的实时监听。该系统主要包括沉浸式音频混录工具、沉浸式音频渲染工具和监听系统组成。沉浸式音频混录工具主要用于符合SMPTE 2098-2元数据格式的声床、对象和元数据的录制。沉浸式音频渲染工具主要用于接收来自沉浸式音频制作工具发送的声床、对象和元数据信息渲染到影厅B 环电声响应系统中,实现沉浸式音频的监听。该系统至少应具备以下功能要素:
(1) 沉浸式混录工具可实时录制来自沉浸式音频制作工具发出的声床轨和对象轨音频数据流。
(2) 沉浸式混录工具可实时录制来自沉浸式音频制作工具发出的元数据流,所录制的元数据格式应符合SMPTE ST 2098-1:2018 沉浸式音频元数据中规定的格式。
(3) 沉浸式音频渲染工具可实时接收来自沉浸式音频制作工具发出的音频数据流。
(4) 沉浸式音频渲染工具可实时接收来自沉浸式音频制作工具发出的元数据。
(5) 沉浸式音频渲染工具可以将元数据的对象位置信息渲染到影厅布局下的回放环境中,映射关系应遵循X 轴0到1为影厅的左墙到右墙距离,Y轴0到1为影厅的前墙到后墙距离,Z 轴0到1为影厅的主扬声器系统声中心高度到天花板的距离。
(6) 沉浸式音频渲染工具可将沉浸式音频数据流实时渲染到终端还音通道中,实现沉浸式制作效果的监听回放。
沉浸式音频编码和打包工具主要用于将数字电影沉浸式音频声床、对象和元数据编码成符合SMPTE ST 2098-2规范的码流,进行符合数字电影沉浸式音频DCP包制作,沉浸式音频编码工具至少应具备以下功能要素:
(1) 沉浸式音频编码工具应支持9.1个声床和118个对象音频数据的DLC编码。
(2) 支持采样率为48k Hz,帧率24/1、25/1、30/1、48/1、50/1、60/1 FPS的沉浸式音频码流的编码。
(3) 沉浸式音频编码的最小编辑单元是IAFrame,该编码结构应具备BedDefinition、Bed-Remap、ObjectDefinition、AudioDataDLC、Object ZoneDefinition19、AudioDataPCM、Authoring-ToolInfo、User Data等要素。
(4) 沉浸式音频数据元数据的相对距离编码公式如下:
其中,XY 代表影厅左右和前后轴坐标,Z 代表影厅高度层坐标,D为无符号整数,n代表比特数。
(5) 沉浸式音频编码工具应符合SMPT ST 2098-2的码流规范和SMPTE RDD 57:2021 对码流的约束规范,编码的主要规则如表2所示。
表2 沉浸式音频编码规则
沉浸式音频打包应遵循SMPTE ST 429-18 《数字影院节目打包-沉浸式音频轨道文件》规范,以专用音轨文件的形式承载,并应按照SMPTE ST 429-19《数字影院节目打包-沉浸式音频的DCP 操作约束》的所有规定进行打包。制作的沉浸式音频DCP包的格式应符合SMPTE ST 429-2中的相关规定。沉浸式音频打包工具至少应具备以下功能要素:
(1) 沉浸式音频打包工具应能够同时对图像、5.1/7.1、沉浸式音频母版的MXF 封装、KDM 制作,数字电影沉浸式音频打包和KDM 制作流程如图9、10所示。
图9 数字电影沉浸式音频打包流程
图10 数字电影KDM 制作流程
(2) 合成播放列表 (CPL)应包含沉浸式音频资产和主声音资产的所有卷。
(3) 沉浸式音频内容密钥应由KDM 承担,内容密钥应与SMPTE ST 430-1规定的 “MDEK”密钥类型对应。
我国院线电影沉浸式音频制作多数采用的是基于Protools架构的制作环境,数字电影沉浸式音频核心制作软件如动态对象制作工具、渲染器、编码器等长期处于国外厂家技术垄断状态,国内用户无法使用该工具制作符合国际规范的数字电影沉浸式音频文件,导致国内还音厂家无法获得符合国际规范的节目源,造成制版较多,影响了我国还音技术厂家的积极性,严重阻碍了我国数字电影沉浸式音频技术的发展。
基于上述原因,中国电影科学技术研究所 (中央宣传部电影技术质量检测所)从国际标准符合性、与现有硬件设备兼容性和方便混录师使用的易用性角度出发,在基于Protools软件环境下,研发了一套符合国际规范的沉浸式音频元数据制作工具、沉浸声渲染工具和沉浸式音频编码工具。该工具在原有沉浸式音频制作平台上的集成流程如图11所示。
图11 沉浸式音频制作工具连接流程图
该系统将声像控制工具嵌入到Protools的对象轨实现对运动对象时间、空间和响度的控制,完成运动对象的制作。通过I/O 接口和网络通信接口实时传输元数据、对象和声床信息,完成沉浸式音频数据向沉浸式音频混录系统的传输。沉浸式音频混录系统接收到相关信息后进行实时的渲染,实现实时混录监听,同时进行元数据、对象和声床文件的录制。最后通过编码工具将所录制的沉浸式音频文件编码成符合SMPTE ST 2098-2 规范的沉浸式音频码流。该系统的主要功能如表3所示。
表3 沉浸式音频制作和混录系统主要功能
SMPTE 2098系列沉浸式音频相关标准的发布,为实现我国沉浸式音频技术制版的相对统一和系统间的互操作以及国产沉浸式音频技术的发展提供了很好的技术借鉴。为了尽快补齐我国在沉浸声技术领域的短板,尽早实现数字电影沉浸式音频制版的统一化和标准化,本文对符合国际规范的沉浸式音频规范进行了解读,针对现有沉浸式音频制作系统的技术特点,提出了一套能够兼容现有硬件环境和符合国际规范要求的沉浸式音频制作和混录实现方法,并在基于Protools的制作环境下嵌入自研的沉浸式音频声像控制工具,可进行符合SMPTE ST 2098-1规范的沉浸式音频动态对象的制作。研制的数字电影沉浸式音频混录软件,可进行符合SMPTE ST 2098-1规范的沉浸式音频的实时渲染、监听和录制。研制的数字电影沉浸式音频编码工具,可进行符合SMPTE ST 2098-2规范的沉浸式音频码流的编码。