人工智能在播音主持领域的应用现状与启示

2019-01-29 04:14王姝雅

中国传媒科技 2019年5期

文/王姝雅

1.人工智能及语音合成技术概述

1.1 何为人工智能

2019年央视网络春晚，AI虚拟主播“小小撒”首次上岗，中国中央电视台与真人撒贝宁同台合作。“小小撒”打破了大众对机器人主持“提前输入好固定文本”的刻板印象。在节目进行过程中，小小撒随机应变参与控场，与撒贝宁和观众互动、打趣。背后的技术方表示，打造一个这样的AI仿生主播，仅仅需要30分钟。

所谓的AI技术就是人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能从诞生以来，理论和技术日益成熟，应用领域不断扩大。‚

1.2 语音交互与语音合成技术的突破进展

近年来，随着人工智能概念的推出，语音交互成了一个热点，智能助手、智能客服等应用层出不穷。在语音交互中，主要有三个关键技术，即语音识别、语音合成和语义理解，语音合成在其中的作用显而易见。大众相对了解的“声音转文字”的技术，称为ASR技术（Automatic Speech Recognition，语音识别）。而所谓的TTS技术（Text-To-Speech，语音合成）就是“文字转化为声音”再播读出来，如今在很多手机和智能产品中应用，例如苹果的Siri、三星的Bixby、小米的小爱同学、Vivo的Jovi等声音都是应用TTS技术生成的。

语音合成就是以一种灵活的方式，只用极少数的基础数据，将语音波形文件重现。当前，语音合成研究已经进入“文字-语音转换（TTS）阶段”，它的功能主要模块可以划分3大板块：数据分析、声音模型建立以及语音合成调整。概括起来说，语音合成的主要功能是：从语料库中提取适合的语音元素，用TTS技术对语音元素进行符合人类语言习惯的修改和整合，最终输出符合人类听觉习惯的语音。

2.人工智能及语音合成技术在播音主持行业的应用现状

2.1 新闻播报——极高工作效率、极低工作成本

人工智能语音合成技术在新闻播报领域运用时间更长、范围更广。在文本信息转音频方面，最早为了解放人们的双眼，2016年，央视新闻客户端、新华社客户端率先推出智能语音播报，用户只要在界面旁边的小按钮一点就可以完整顺畅地听完所选择的新闻播报。这样新媒体客户端的广泛应用对于受众而言提供了更多的便捷。首先，用户对这类有声语言表达有非常大的宽容度。试想，在碎片时间获取核心新闻资讯，虽然声音整体表达美感不及真实主播，但谁又会在获取信息之后再花费时间去听主播进行播读呢？其次，也是对用户私人定制化内容乃至声音类型的满足。以往的新闻音频节目，用户处于一个被动接收的地位，释放双眼做事情和听感兴趣的新闻成为二选一的选项。对于新媒体客户端而言，低成本、高效率、无限长的工作时间、零失误率，这显然是现在乃至不久将来人工智能大施拳脚的空间。

在文本信息转视频方面，在2018年第五届世界互联网大会上，搜狗和新华社联合推出全球第一个AI合成男主播“新小浩”，到2019年2月19日推出首个AI女主播“新小萌”。这一项技术充分运用尖端人工智能，是进一步推进从媒介融合向媒体纵深发展的最新成果。新推出的AI合成主播采用了搜狗公司的“分身”技术，打造出声音更具情感、表情以及唇动效果更加逼真自然、副语言运用更加恰当的主播形象，让AI主播更有温度、更加贴合真人的播讲习惯。同时，还可以适用于坐播或者站播等多样播讲方式，极大地丰富了AI主播的主持样态，拓展了应用领域。在工作效率方面，不仅可以每天24小时不停歇地提供服务，还掌握多国语言，只需后台输入所需播出文字内容就可以在短时间内高质量生成相应播读视频，展现与真人主播姿态、表情、声音无异的信息传达效果。AI合成主播上线后立即投入到新闻报道中并实现量产，参与了包括第五届世界互联网大会、2019年的春运等重要报道。这些报道凭借人工智能高度的信息整合优势，充分结合图片、视频、文字等各个元素，形成一系列拥有较强可读性的融媒体新闻产品。

2.2 配音行业——复原已逝优质声音

2018年，中央电视台制作了世界上第一部全片运用人工智能和智能语音技术配音的纪录片——《创新中国》，让已逝著名配音家李易老师的声音重现荧屏，并且将李易老师低沉磁性的音色模仿得淋漓尽致。这是运用精准的算法和量化手段, 将过去配音的纪录片中声音素材进行提取和重组, 并且使更加贴合原声对字、句的停连变化的相关技术算法实现突破。

人工智能语音合成技术对人类声音的模拟和再塑造,在《创新中国》之前就已经得到普及应用, 比如高德地图运用林志玲、杨洋等明星的声音素材进行导航；Angela baby（杨颖）声音版本的天气播报；有声小说解放使读者看书不再枯燥……这一系列的AI配音充分体现了人工智能在配音领域的广泛运用。

在一些成本预算较低的低端广告配音市场，由于语言生硬、腔调固定的特点与语音合成在建立声纹模型之后不断复刻所产生的效果特征相似。人工智能利用语音合成技术，可以大大降低配音的成本和周期，并且通过算法调整完美达到广告商的个性化需求，甚至可以通过调整声纹模型，形成该品牌独有的声音标志。由此可见，人工智能在不久的将来可能会触动低端广告配音工作者的奶酪。

2.3 沉浸式混合现实——重塑场景完成不可能的主持

AI的一些衍生技术应用于媒体传播领域，在美国天气频道（The Weather Channel），利用AR和MR技术的结合制造出逼真的场景，并把这种技术称为IMR（Immersive Mixed Reality，沉浸式混合现实）。它把360度高清视频、基于实时数据的增强和虚拟现实元素以及经验丰富的实况播报员有机结合起来，带领观众体验真实的天气状况,„从而使观众可以想象，如果自身处于这种情况，该如何自我保护。完美的视觉效果配合主持人的演技和讲解，让观众仿佛身临其境于恶劣天气的中央，所产生的播出效果不仅没有那么死板无聊，反而像VR游戏、灾难类影片一样引人入胜。在介绍美国大飓风时，随着“洪水”效果的变化，主持人站在洪水中央，表演与讲解结合向观众展示天气局势，然后提供自我保护的建议。

结果显示，干预1学年后，儿童进行休闲性体力活动时间明显增加(469.31±345.89 min vs 563.10±345.88 min，P=0.005)。体力活动水平不足(<180 min/周)的比例明显下降(P=0.003)。尤其是每周体力活动时间≥300min的比例明显增加(P=0.029)。见表2。但干预前后屏幕时间差异无显著性，7.00±50419 vs 6.13±5.838, P=0.085。

沉浸式混合现实技术在媒体领域的充分运用，让观众在直观获取信息的同时给予视觉上的享受与互动。通过观众的一致好评以及技术的不断进步，可以看出“一个更好的（天气）故事讲述者”不仅是天气预报节目的未来，更是媒体行业进步的一个方向。在这类技术的推动下，主持人身临其境的演技显得尤为重要。

3.人工智能背景下播音员主持人的应对思路

人工智能技术虽然凭借高效率低成本，以及可以打破时空局限让场景和声音再现等独特优势替代了播音一部分领域的工作，但由于它们过于“理性”而“感性”不足，这很大程度决定了其在具有艺术性的播音主持领域很难全面取代人类主持。面对人工智能这个潜在的竞争“对手”，我们更应该寻找自身不可替代的独特优势加以发扬。

3.1 感情恰切，形成共鸣

凤凰卫视主持人吴小莉曾说：“机器人会替代我的体温、但不会替代我说话的温度。”的确，人工智能主持人虽“智”而不“能”，就算其再智能归根到底是机器以及背后的程序代码，想要达到人类的情感高度还需要更久的时间。

相比人工智能，主持人的不可替代之处在于他们的主持是有温度的，饱含浓浓的人文情怀。在2017年的《开学第一课》上，董卿在采访著名翻译家许渊冲老先生时，因为老先生腿脚不便只能坐在轮椅上。董卿在主持过程中数次为老人蹲下，甚至跪得更低。这样的一个细节不仅照顾了轮椅上的老人而且还表达了对老人的尊重，赢得观众的一致好评。

在人工智能迅速发展的背景下，“做一个更有温度的主持人”是播音主持行业和学校学习需更加注重的一项。微笑、点头、姿态、眼神及身体接触等副语言的表达都是一个优秀主持人必不可少的素质。如何让主持人植根内心的人文情怀带给观众更加温暖的观感体验，是提高当代主持人核心竞争力的要素之一。

3.2 表演自然，创新表达

如今，AI主播后期所有的表情动作都依赖最开始录制模拟的真人主播的动作素材，再后期进行自我整合而成的。可以想象，动作素材的单一化可能适用于一些肢体语言并不丰富的节目类型，带有很大程度的局限性。

因此，在主持人表演元素的融合和培养方面，我们可以发现，如今表演元素不仅在综艺节目中广泛运用，甚至在新闻播报、天气预报等在大众观念上较严肃的节目类型中出现。“央视段子手”朱广权，将新闻通过精心设计的押韵的语句讲出，观众网友对此热烈反响，可以引发我们关于“主持人表演性”的思考。

互联网核心的思维是在一体化环境下，由传统宣传思维转变为引导思维、对话思维、服务思维等大互联网思维。的确，人工智能时代我们更应该做到的就是思维的转变升级。从美国的TWC运用的沉浸式混合现实技术与主持人的演技呈现的天气预报，到如今江苏卫视等各大卫视先后引进“融媒体新闻演播室”，再至“一带一路”纪录片欧阳夏丹互动式讲解等一系列举措，我们可以看到播音主持领域的新风向——只会坐着的“念稿机器”随时有被替代的可能性。根据节目类型适当融入表演元素以及高校开设播音主持专业表演课程，更好地应对当下乃至未来的节目形态升级是非常有必要的。

3.3 应变救场，灵活应对

如今，开发者仍在不断尝试训练和提高人工智能的自学能力，但由于其抽象能力较差往往需要更多的训练样本，即使拥有较高的自学能力人工智能也很难具备记者型主持人和突发事件的主持的相关能力。例如，对现场的敏感、语言的接地气、出镜地点的选择、道具的妥善运用，等等。

就像在主持直播现场时经常会遇到各种突发情况，而主持人最大的功能就是让节目完整衔接、顺利进行。湖南卫视主持人汪涵在《我是歌手》总决赛时遭遇孙楠意外退赛，在所有人不知所措时，汪涵短暂的几秒钟的准备，应急说了一段入情入理的主持词，让湖南卫视、孙楠和观众各方都释然，让现场气氛继续高涨，成为主持界的范本。而对于人工智能，即使有再多的训练样本、再高的自学能力，也很难完美、有人文关怀地应对突如其来的现场事故。

3.4 角度新颖，逻辑缜密

同样，对于同一个新闻话题而言，不同的切入角度就会产生不同的效果。虽然人工智能在未来会改善提高自学能力，但就逻辑角度的灵活度而言很难达到人类这样能随着易变因素而改变策略的策划分析。在如今通信工具极为方便的时代，角度切入引人入胜的重要性可见一斑。

因此，在人工智能时代的媒体行业中，对从业者的报道角度、逻辑线条、融媒体意识等方面有了更高的要求。白岩松在接受人民网专访时曾谈道：好的记者都是啄木鸟，而不是喜鹊，不是天天让人开心，应该从“小我”中能有所跳离，去关注一个时代，忧心忡忡地看到很多问题，并希望它改变。的确，主持人既可以从同一新闻的不同角度进行切入，形成不同的播出效果；也可以对新闻报道背后的事实进行挖掘，增强新闻的深度、多维结合的冲击力，给观众带来另一种思维和角度的分析及解读。而这时候强调的就是“新”“深”，如何做到“内容为王”，更需要主持人不断提高自身对内容发现、分析、挖掘的能力。

3.5 形成风格，打造品牌

AI主持人如今还处于努力模仿真人主播的阶段。对于一些社教节目、娱乐节目等节目类别而言，人工智能很难取代主持人在用户大众心中的地位，也很难完全逼真模仿再创新其主持风格与人文情怀。在生活中，说起娱乐综艺节目女主持，可能第一反应是谢娜；说起文化类节目女主持，可能第一反应是董卿；说起新闻评论节目，可能第一反应是白岩松；说起纪录片声音，可能第一反应是赵忠祥。所谓的“第一反应”就是一种主持人多年形成的特有主持风格和主持特色。

著名主持人汪涵曾经用3句话总结自己多年的主持生涯：“学会听话；不要迷恋掌声；甘为绿叶，衬托嘉宾”。可以看出一个优秀的主持人，他们的人格魅力、语言温度和功力往往是一个品牌，甚至代表着一个城市乃至国家形象，再先进的人工智能也无法替代其软实力。而风格千篇一律甚至采、编、播不能三位一体的主持人，他们播读内容的机械性、不灵活性的特点恰好与人工智能的优点相吻合。因此，当代主持人想提高自身核心竞争力，更应该形成自身特色风格，打造品牌。

结语

在人工智能时代大背景下，人工智能新技术的引入给播音主持领域带来了更多新的机遇与挑战。面对挑战，播音主持从业者以及人才培养更应该坚定信心，认识到自身在一些领域的不可替代性，积极投入到艺术创作之中，在人工智能不能做到的地方继续深挖自己的潜力，通过谋求自身的独特优势更好地应对挑战。

在提高自身核心竞争力的同时，更需要顺应时代发展趋势，以一个开放包容的姿态、兼收并蓄的胸怀正确面对人工智能技术在行业内的推广应用，加强主持人与人工智能的各方面配合，形成优势互补。发挥其在数据汇总、融媒体展示等方面的优势，才可以“人尽其才，物尽其用，用当其时”。