空间音频技术的新华“密码”

2024-01-07 14:06魏骅李霏霏杨力尉

传媒 2023年24期

关键词：密码

魏骅李霏霏杨力尉

摘要：在万物皆可“沉浸”的时代背景下，相比于突飞猛进的视觉图像技术，如虚拟现实（VR）等，声音技术的发展则相对滞后。本文从音频技术发展历程与趋势，结合新华社国家重点实验室在空间音频领域的技术攻关和应用实践，探讨其对下一代媒体融合的积极影响，以及“视”“听”融合面临的主要挑战。

关键词：新华社国家重点实验室空间音频沉浸视听

随着传统业态数字化程度加深，可视化、交互性、沉浸式数字创意产品和服务涌现，人们对信息质量和音视频体验提出新的要求。空间音频技术创造了一种三维声音的感觉，允许用户感知声源的方向和距离，使虚拟环境感觉更加真实。新华社媒体融合生产技术与系统国家重点实验室（下简称“国重”）通过对空间音频技术的研究，探索在新闻采编工作流程、融媒体产品创作等方面做出的革新。

一、空间音频成为下一代音频的必备特性

听觉作为仅次于视觉的感知途径，帮助人类采集了包括方位感、频率高低等在内的15%以上的复合环境信息。音频的感知受到长短时记忆的影响更明显，可以调动人的情绪变化和好恶感知。在虚拟场景中，听觉系统向用户提供辅助信息，可增强视觉感知，弥补视觉效果的不足，增强环境仿真性和沉浸感。国外有公园户外音乐厅通过可变声学环境系统营造室内音乐厅的听感；国内有以“真实重现”与“虚拟创造”为特点打造的文旅演艺及展览展示项目，利用艺术与技术融合、创意手段与现实环境融合、演与观交互融合，让观众通过通感代入到或具象或抽象的情景，创造身临其境的效果。

从音频技术演进来看，20世纪80年代，声音从一维走向二维，数字立体声技术开始在CD、录音磁带等影视音乐文化消费、语音通信等领域广泛应用。随后，以杜比实验室（Dolby）与数字化影院系统（DTS）为行业标准的2D立体虚拟环绕声5.1、6.1、7.1等多声道音效音频技术取得广泛认知。杜比全景声（Dolby Atmos）和巴可3D声音技术（Auro-3D）将沉浸式声音或三维声音带到公众面前。目前国内影院、流媒体平台、家庭播放终端等多以该类技术作为影音亮点。

以虚拟现实与增强现实为代表的融合技术，正为声音经济带来新的发展机遇，吸引着源源不断的内容和流量注入。目前来看，相比厮杀严重的视频市场，音频市场前途仍是一片蓝海。基于声音的技术创新加速，声音价值愈发凸显。基于声音的新互动方式正在固化，消费者习惯逐渐形成。根据《2022音频产品使用现状调研报告》，越来越多的消费者追求音频产品中的空间音频特性，并愿意为此支付更多费用。同时，相关细分市场正努力寻求将空间音频功能整合至各类多媒体形式中：音乐产业致力于相关内容生产，比如打造更真实的虚拟音乐会体验，或推出空间音频音乐产品——2022年，Apple Music正式支持空间音频，用AirPods Pro听相关歌曲会发现音乐可以来自背后和周围；2023年，网易云音乐和华为音乐均发布“空间音频”，并尝试在汽车等多終端场景支持空间音频体验；电影制片人利用空间音频打造沉浸式“声景”体验，着重面向家庭影院系统；元宇宙已经融入在线游戏、在线K歌、在线教育等不同行业和场景。

音视频技术发展迅速，但存在“跛脚”问题。例如，VR为视觉体验带来革命性进展，但听觉体验仍有局限。现阶段，多数VR内容使用Insta360这类设备录制，无法采集具有立体感的空间音频。空间音频专业设备价格高昂，创作费时费力，因此多采用“现实+虚拟”的混合音频制作方法。当声音不能准确反映日常听音体验，眼、耳接收信号匹配度不同，容易造成用户与虚拟世界的断联感，甚至引起眩晕。在通信领域，大脑处理日常对话，需要空间方位信息的辅助。语音会议中，方位信息缺失容易导致注意力转移；当多人同时发声，与会者难以通过视觉信息分辨说话者，认知负荷进一步增加。

随着音频技术在传媒领域的应用，新闻对于声音的真实性、叙事性、沉浸感等效果要求提高。如俄乌冲突相关视频报道中，我们会希望能更清晰听见冲突现场的各种声音，包括不同距离的爆炸声、群众的呼救声、记者跑步的喘息声、来自各方位的士兵指令声等。同期声是现场的重要信息源，在战地报道、自然灾害等新闻现场，如较完整收录同期声，新闻可信度和现场感将大大增加。

声音还是下一代媒体融合中的重要元素，将对改变新闻生产流程、传播方式产生关键性作用，进而影响媒体的发展前景和综合实力。如果任何拥有智能手机的人都能生产高质量音频内容，信息内容总量将爆发式增长。《纽约时报》曾推出采用空间音频技术的音频故事和广播剧，路透社、《华尔街日报》及Meta等海外平台纷纷布局；国内媒体方面，中央广播电视总台三维菁彩声（Audio Vivid）、芒果TV、芒果全景声相继推出——这些都表明通过新一代音频技术吸引用户到媒介平台的竞争愈发激烈。

二、空间音频技术的新华“密码”

国重自2020年聚焦信息传播过程中声音的沉浸式体验和自然听觉交互技术研究，以空间音频技术为切入点，跨领域融合，跨学科融合，技术和内容创新融合，以技术促进信息传播，在行业标准、技术认知等方面进行突破。2022年正式以“新华空间音频”命名该项技术。国重研究声音，希望抢占技术高地，突破技术垄断，并在下一代媒体融合发展中充分释放声音元素，尤其是空间音频技术的价值，创新“讲故事”的方式方法，最大程度还原新闻现场，带来传统新闻报道无法比拟的在场感、参与感，增强报道深度。

现阶段，从技术攻关到实践应用，国重主要在以下四个方面寻求创新突破。

1.结合技术特点在算法上突破。空间音频与全景声区别主要在于采集方式和还原方式。此前，业内全景声作品多数声源并非真实采集，而是在声床基础上多声像叠加而成。不同于杜比、DTS等通过技术手段制作具有空间音频效果的内容及增加置顶扬声器来实现3D效果，新华空间音频技术通过从多个点位采集声音数据，并进行修正和优化，还原真实的声音声场效果，让用户感受到更真实的音效体验。目前国重已对声音采集模式完成“传统声道采集”向“全方位算法采集”的演进。

2.结合新闻行业痛点在软硬件系统上突破。记者跋山涉水到达新闻现场，记录下宝贵的图像资料，但收音技术等限制导致同期声录制无法达到预期效果，出现噪音大、有线耳机阻碍灵活操作等问题。在进行沉浸式音视频新闻采编及制作、稿件回传、送签发布、调度协同时，也仍需携带较冗杂的采访装备。针对以上痛点，国重创造性地将高质量空间音频采集技术与最新无线技术相结合，并与移动终端设备相结合，研发了一套全场景空间音频采集解决方案，能便捷实现空间音频声场的实时采集、存储、编辑、直播、发布等。国重团队希望新华空间音频技术及其软硬件系统，可以像大数据、云计算等技术一样渗透到视频新闻制作中，更有效赋能新闻内容建设与呈现。

3.结合媒体融合态势在产品应用上突破。在遵循新闻传播规律和新兴媒体发展规律基础上，国重以空间音频技术为支撑指导内容生产，创新内容形式，增强内容吸引力和传播力，强化用户意识、技术意识和互动意识，摸索出一套以“内容创意+技术赋能”的应用模式，初步验证了新华空间音频技术的应用需求与潜力，形成几点心得。

一是声音承担更多叙事任务。新闻事件中往往存在特定关注对象，当镜头语言缺失，需通过声音事件引导视点，尤其是对移动声源和突发声音事件时，声音叙事尤其关键。以国重为纪念香港回归祖国25周年创作的空间音频短片《心潮》为例，空间音频架构起时间脉络与场景穿越感：短片开头，香港回归当日的新闻播报响起，瞬间把受众拉进时代洪流中，车水马龙声、珠江浪潮声、闹市人潮声、舞狮锣鼓声，伴随粤语旁白的讲述，观众在6分钟内迅速回顾25年来香港在各领域的发展变化。

二是声音发挥纪实感优势。新闻的真实性与视听感受密不可分，为增强沉浸感，需推敲声音内容主体何时为环境音、何时为人声语言等。由于用户视角可自由移动，声音对象需随之实时改变，声音和视觉不同步或定位不准确都会破坏沉浸感。国重创作的空间音频短片《沉浸式回顾“梦天”圆梦之旅》以声音完整、效果真实为前提，用CG动画展现梦天实验舱遨游太空，以及空间站在轨对接、组装、变形等画面，发挥新华空间音频在后期音效合成上的技术优势，对相关声音模拟呈现。针对氛围感最强的发射准备阶段，无论是发射现场声，还是体现当地风土人情的声音、孩子喊出的发射倒计时、发射后现场观众的欢呼，都采用现场采集的空间音频，将市井嘈杂、发射轰响等纪实元素与短片后半程CG动画结合，保证视听效果连贯性与整体性，营造出科幻电影感。

三是声音小切口展现大命题。目前，国重创作的空间音频短片以3～6分钟时长为主，紧扣重大主题和热点话题。这类题材对不同场景声音元素的典型性、情感关联度要求较高，国重以声音技术为小切口，采用多重素材构建，以细腻视角鲜活展现宏大命题。贯彻落实党的二十大精神的融媒体产品《听见绿水青山》系列有两大创作特色，即“双线叙事”和“本地环境声与乐曲融合”。《从较量到共生，八步沙听见绿色奇迹》篇中，从过往的飞沙走石之声到铲土埋草之声，再到产业发展、百姓安居乐业，以声音客观呈现从“沙进人退”到“人进沙退”；唢呐乐手带观众沉浸式走进八步沙林场，以音乐主观呈现“困难面前不低头，敢把沙漠变绿洲”的精神。二者结合，视音效对比，实现艺术表达与主旨思想融合。

4.结合市场需求在元宇宙场景中突破。作为数字虚拟世界和物理现实世界深度融合交互的重要节点，元宇宙蕴含着强大的技术触发要素和商业可能。空间音频技术被认为是元宇宙底层技术支撑，为全球物联网提供通用的沉浸式音频入口。借助音视频技术打造强交互属性的产品或服务，在办公会议、社交泛娱乐、在线教育、在线医疗、生活消费、精神文化等产业创新应用。以在线音乐教育为例，如能清晰还原学生演奏的音调、音色、响度，老师将能更准确判断教学情况。

基于此，国重着重在以下四个方面展开技术应用，重构元宇宙视角下的产品形态和用户在虚拟世界的视听体验。一是内容生产和传播。赋能空间音频的数字化生产和传播过程，提高内容生产力和产品力。二是泛文化产业数字创意。数字融合出版、数字资产、沉浸式展览、互动直播，赋能数字创意。三是线上线下教育。创造沉浸式教学环境，模拟现实世界视听场景，实现“学”与“用”的深度融合。四是个人消费和生产力工具。自研空间音频采集产品，个人消费电子娱乐产品，提高生产力工具的效率。

三、“视”“听”融合须闯三关

从电影、电视到今天的VR、AR，视觉文化获得了惊人发展。随着视听关系失衡现象极端化，呼唤听觉文化回归的声音也日益强劲。在万物沉浸时代背景下，“视”“听”融合主要面临三大挑战。

1.技术标准及跨领域结合挑战。目前，部分沉浸视听体验，尤其是空间音频体验，缺乏统一评价标准。空间音频感知机制涉及复杂的声学和心理声学等效应，存在个体差异，难以通过严格定量分析进行主客观评估。为促进空间音频进一步发展，可与产业链上下游共同打造行业解决方案，建立从内容制作、分发平台到体验场景的技术生态，同时结合认知科学、传播学、大数据统计分析等学科领域，构建跨维沉浸视听环境。国重正积极参与国内空间音频技术的推广普及，发挥新华社牵引示范作用，参与建立相关标准，通过打造落地案例，推动沉浸视听产业由端到链深度合作，推动空间音频标准试行应用。

2.视听通信应用挑战。在互联网新基建的发展影響下，线上实时互动场景炙手可热。Meta、微软等公司在空间音频方面的研究均指向会议等通信场景。

一是语音会议室或聊天场景。空间音频可在一定程度上帮助受众在多人通话场景辨别发言者，减少沟通疲劳感，提升沉浸感、参与度和效率。二是第一视角动作游戏。空间音频可为玩家提供带有方位线索的声音信息，使玩家得以精确定位游戏中的“危险”，或对队友进行“施救”，让游戏体验更真实。三是虚拟演艺。表演场地往往需要对声场布置专门设计，以获得更好的混响效果。而线上音乐直播节目中，混响效果仍缺乏氛围感。一方面与声音传递到观众耳朵的方式有关，可通过空间音频技术解决，另一方面，观众的反应同样是氛围感的组成部分。

3.媒体融合应用挑战。在融媒体内容创作中，如何“视觉不抢”又能做出创意？抓人眼球的同时突出声音元素？首先需明确，声音并非画面的配角，而是参与主线创作的关键性元素。以国重在党的二十大召开前夕播发的空间音频短片《听见中国》为例，先“由视到听”，根据章节主题、情绪和镜头的起承转合，对超过400个声音细节去重排列、转场衔接、精准表达；后“由听到视”，对节奏感精细打磨，让声音跳出视觉信息，自己巧妙讲故事。颗粒归仓的豆米碰撞、海捕收获的鱼虾奔腾、藏羚迁徙的抱团齐进，戴上耳机，受众能感觉声音从四面八方“扑面而来”，随着画面、音乐的转合，共情思考。

国重团队希望通过对空间音频技术的探索与实践，不仅在新闻领域深化技术研发和成果应用，更好赋能媒体深度融合发展，同时能快速应用于更广泛的系统与平台中。当然，要真正全方位实现技术落地，需得到从制作端、分发平台到显示端的全链路支持，以解决提质、降本、增效等实际问题为牵引，推动技术下沉。

作者魏骅系上海交通大学博士生、新华社总编室运营推广室副主任、媒体融合生产技术与系统国家重点实验室研究员

李霏霏系媒体融合生产技术与系统国家重点实验室第一联创中心主任助理兼运营总监

杨力尉系媒体融合生产技术与系统国家重点实验室第一联创中心高级运营经理

参考文献

[1]季凌霄.从“声景”思考传播：声音、空间与听觉感官文化[J].国际新闻界，2019（03）.

[2]杭云，苏宝华.虚拟现实与沉浸式传播的形成[J].现代传播（中国传媒大学学报），2007（06）.

【编辑：李栋】