人工智能主播的前景分析
——基于新华社“AI合成主播”的思考

2019-11-18 10:03□文/张帅

中国记者 2019年5期

□ 文/张帅

内容提要在技术发展、观念更新及大众需求的多重作用下，新华社“AI合成主播”以虚拟性与具身性的结合、技术性与艺术性的交融及主体性与客体性的互位等特质应运而生。人工智能主播将朝着定制化生产、交互化沟通、情感化发展、智慧化升级及多域化打造的方向进步，并进一步对真人主播、产业格局及大众视野产生影响。

关于人工智能主播，笔者以为，它是一种以虚拟数字技术为支撑，在广播、电视、互联网等媒介中担负着主持与播报任务的智能产品，除去“AI合成主播”这一分支外，亦包括多样内涵的媒介角色，从形式载体上说，既有媒体屏幕内的虚拟形象，也有实体的机器主持人；从表达内容上分类，既有服务于信息传递的新闻播报员，又有把控节目节奏与氛围的综艺从业者，凡此种种，不尽相同。

一、对“AI合成主播”兴起动因的归纳

（一）何以可能：数字技术的快速发展

毋庸置疑，技术是媒介进步的直接前提，也是虚拟现实的核心支撑，这决定着一项新兴产品“能不能”问世。关于“AI合成主播”的布局既是精心策划之果，亦是水到渠成之事，正如其出品方新华社新媒体中心的何强所述：“一次偶然的机会，我们看到搜狗公司的相关人工智能产品，突然一个想法应运而生：能否让这种AI （人工智能）合成技术和新闻的应用场景结合，在新华社落地，打造一款高逼真度的AI合成主播。”可以想见，这是媒体与企业在各自优势基础上打造技术与内容升级的一次合作。

在“A I合成主播”备受瞩目之前，已有多项数字虚拟技术为其奠基。例如，在语音层面，有智能语音识别和输入技术，利用波形建模技术生成音频，提升了合成音频的表现力和真实度，使声音更具情感；在形象层面，有拟人化的全息影像技术模态，通过模型优化及多风格数据的使用，实现更加逼真的表情合成、肢体动作与语义的恰当匹配以及更加自然的唇动效果。与此同时，此项技术的核心在于搜狗公司的“搜狗分身”，这项技术可基于少量真实音视频数据，快速迁移生成虚拟的分身模型。通俗来讲，用户使用时输入一段文本，即可生成与真人无异的同步音视频。

（二）何以应该：研发观念的迭代更新

“让机器更像机器”是研发者在过往所秉持的一贯准则，为的是让机器为人服务的意识与本领日益强化，以此保持人之为人的尊严不受侵犯。显然，机器试水主播领域的行为本身已在“该不该”的伦理问题上增进了讨论的可能。在新技术冲击下，让机器人进行自我运作与深度学习的能力开始得到更多研发者的呼应。

与此同时，机器能否拥有人性、如何拥有人性、拥有人性的何种侧面目前仍然难以定论，但人所共识的是，机器拥有形似人的外部特征会容易得到用户的亲近，拥有类似人的运算方式会更贴心地为人类服务，这可从人工智能主播的发展历程中窥见一斑。英国报业联合会媒体公司的“安娜诺娃”、我国《科技新闻周刊》的“比尔邓”、《光影周刊》的“小龙”同属较早时期的人工智能，类似特点是动作迟滞、语言机械，一看、一听便知是机器人，与人性化的表达间尚存一条鸿沟，也正因此，这些主播后来纷纷退出了历史舞台。及至后来，我国智能机器人“微软小冰”被赋予了女性化的声音，在东方卫视开启了主持生涯；央视羊年春晚的“阳阳”拥有了卡通化的形象，应时应景地向观众道贺新年好。此外，人工智能主播朝着人格化方向有所迈进，形成了从理解到生成再到表现的一套内在运作体系，例如CCTV财经频道《交易时间》的“小白”和综合频道《生活圈》的“三宝”不再只是可有可无的摆设，均以其海量的大数据优势和真人主持人之间实现了问答互动。或是赋予人工智能主播以人的容貌，或是植入人工智能主播中人的品格，都已证明“让机器更像人”是革新研发的趋势所在，“AI合成主播”亦是在这类层面上表达了设计者们较之以往的理念突破。

（三）何以需要：社会大众的创新需求

历史证明，先是人们在潜意识中对创新之物产生了某种需求，社会上后来才会出现了相应的技术借以满足，即便人们浑然不觉，这归属于“要不要”之讨论。纵观人类进步史，也是科学技术革命史。三次工业革命对于行业生产力的解放有目共睹，以人工智能为代表的科技革命如今方兴未艾。数字化时代的生存境况下，人类亦渴望新鲜事物的嬗变。

社会学表明，社会成员对创新特征的认知直接影响创新被采用的程度，“AI合成主播”的出现一石激起千层浪，也反之印证了在对于智能主播的传播认知上，用户内心深处潜藏的价值观与对于新闻传播学界的过往经验判断达成了一致。从价值观来看，“AI合成主播”不只是对于新闻主播群体的挑战，更是在更广阔的传播意义上解除了人类对于声音权力的垄断，这符合当前社会所倡导的非单一而多元的价值取向。从过往经验来讲，真人主播在新闻传递中所表现出的形态固化难激起受众兴趣，“AI合成主播”在数据的准确性与及时性、功能的完善性、信息的批量生产方面有着真人主播不可媲美的优势，它进一步扩充了人们对于信息传播的选择，满足了人们深层次的心理需求。

二、对“AI合成主播”传播特性的分析

（一）虚拟性与具身性的结合

2017年，新华网签约的虚拟主播琥珀·虚颜通过3D全息投影打造，成为虚拟生命主机入驻的第一个虚拟生命形象。不同于此，新华社“AI合成主播”尽管仍需采取虚拟技术进行建模，但在现实生活中有了原本的依照。新华社最早的全仿真智能合成主持人与男性站立式合成主播“新小浩”，皆采于真人主播邱浩的声音与外形，首个AI合成女主播“新小萌”的语料来源于主播屈萌，而英文主播的素材来源于主播张朝，这些都是真人痕迹尽显的数字产物，体现出分明的“合成”特质。从这个意义上看，“合成”的两端相牵着真人与数字，营造出看似身体在场、实则始终缺席的主持传播局面，此等分身借由技术实现了虚拟性与具身性的直观弥合。

（二）技术性与艺术性的交融

从构造方式来看，“AI合成主播”的诞生离不开技术性。一是表现在输入层面，机器要采集人的面部表情和语音特征并标签化；二是输出层面，机器通过学习自动生成仿真语音与合成表情，通过模型优化及多风格数据的使用，实现肢体动作与语义的恰当匹配以及更加自然的表达效果，逼近真人播报形态。从表现理念来看，“AI合成主播”在追求艺术性的进步。它不再局限于单纯的见字发声，而是以真人为依托，以自然交互与知识计算为手段，开始学习重音、停连等规律，开始进军音色、韵律、情感等多维度领域，以期不断贴近人类口语传播时表情达意的艺术特质。

（三）主体性与客体性的互位

主播的功能是为了传递信息，播音主持艺术学中对于主播播报新闻的一致要求是力图让观众记住新闻内容而忘却主播本身的存在，此时的“AI合成主播”目标应是如此，常情却并不尽然。尽可能将观众注意力聚焦于阐述内容是退而求其次的客体性体现，但AI主播播报本身成了趣谈，也是由于其目前难以避免的主体性特质，即当今“AI合成主播”播报新闻这一行为本身比所播报新闻的内容更具看点，但这一智能产品的使用目的又确实是为了新闻的高效率传播，正说明此间含有主体性与客体性的不断交替。

三、对“AI合成主播”产生影响的反思

（一）冲击真人主播，淘汰与改造并存

“AI合成主播”是一面镜子，照出了真人主播的优势与不足。在它出现之前，真人主播的传播格局大抵无甚变化；在它问世以后，人们不免拿真人主播与智能主播两相比对，真人主播被遮蔽的缺点得以显露，譬如流利地说废话和无意义地串联，这类缺乏思考的播报现象将及早退出市场。不过，目之所及的是，“AI合成主播”尚且缺乏对新闻细节敏感的捕捉力以及对于新闻现场即兴的反应力，工作范围仅停留在有稿播读的层面，难以取代优秀的真人新闻主播。机器鞭长莫及之地正是人类亟待开发之所，这也间接消除了真人主播仅做见字发声“肉喇叭”来谋得工作的可能性，外在压力反会倒逼真人主播内向提升。从这个角度出发，技术提供给真人主播的是有益的发展契机。

（二）调试产业格局，机制与流程革新

之于媒介产业，优胜劣汰的准则始终存在。显而易见的是，新华社“AI合成主播”可以降低内容生产成本，有效提升新闻视频生产效率，满足用户多元的新闻需求，进一步提升权威声音的影响力，但这并非新华社对于人工智能技术在新闻媒体领域的首次引入。2015年，新华社推出写作机器人“快笔小新”，用于体育、财经领域的新闻编写；组建了国内首个新闻无人机编队，用于新闻航拍；2017年又推出媒体大脑，即智能媒体生产平台，并持续更新版本。这些智能技术与“AI合成主播”将配合成为一套“组合拳”，拓展媒介采编与播发流程的多样化传播方式。播音员是传媒场域中的一员，人工智能带来的影响将不仅作用于播音专业的上下游，部门与行业间的部分架构、人才队伍、资源匹配等都有可能会顺势变化。此时的“AI合成主播”更有着“催化剂”一般的作用，催进学界专业建设的调整、催进业界产业资源的成熟。

（三）开拓大众视野，信息与时代共振

无论身处何时何地，一代人认知的视野终将局限于所处的时代与社会背景，而新一代受众获取的信息必将随着历史渐进而不断演化。今日持有人工智能永远无法赶超人类的观点者，或是因为早已习惯了广播电视等传统媒体中的传播范式，而对新技术所带来的突变与隔阂感到不适，却并不一定是技术本体的问题。试想，在AI主播不断成熟、不断推开的未来，新一代的受众成长于此，其审美标准、美学眼光或许已经截然不同。考虑代际差异，上一代观众所接收到的媒介信息与所生存的成长环境中随处是人，故习惯了人的表达方式，而本能地排斥机器人的发声，但假如在未来，被智能网络包围的下一代观众早已对AI表达见怪不怪，自幼对于虚拟形象有认知和寄托，如同收音机伴随上一代人长大一般，或许会豁然开朗地明白：时代不同，场景不同，人工智能主播的发展将开拓出新的天地。

四、对人工智能主播未来发展趋势的探讨

不难觉察的是，现今“AI合成主播”以模拟为最基本的系统行为，其声其形来源于真人主播，其言其语依托于指定稿件，其播其报则模拟于原型规律。人工智能主播若要有所作为，势必先要突破模拟论的局限，向着进化论的方向迈进。

（一）定制化生产，确定准度

“人人都有麦克风”是指人人都有发声的渠道与技术支撑，而在工业逻辑的不断推进下，“AI合成主播”也有可能走向定制化的商业生产道路，进而实现“人人都有AI合成主播”的使用格局。“AI合成主播”的核心技术“分身术”，不仅有助媒体主播实现分身播报新闻，更能帮助数以万计的用户进行分身成为主播。如同便携的智能音箱，如同综合测算用户偏好来推送相关内容的网页浏览器和客户端，“AI合成主播”的开发也将基于多维度的用户标签画像，参考用户的不同特质，生成内容、发布信息，为固定使用者播报天气与新闻，梳理热点与资讯，更加准确地满足不同用户间个性化的需求。

事实上，智能主播的定制化趋势已在当前初见端倪，譬如2019年1月31日，央视新闻联合微软推出了互动融媒体产品《你的生活AI为你唱作》，其中央视主播康辉和微软AI智能女生晓晓联合为用户唱作专属歌曲。系统先是采样了康辉提前录制的多首音乐，再根据用户上传的不同类别照片，分析其主题、环境、人物、颜色、表情等诸多元素，进而生成写意性的歌词，最后通过定制声音技术经由智能主播之口进行演绎，最终使得每个用户得到了专属于自己的作品。

（二）交互化沟通，增加黏度

主播所表现的信息，受众是否愿意相信并接受，能否维持或提升媒体的传播力、引导力、影响力、公信力，是新闻舆论的关键命题，搭建起人工智能主播与受众之间的互信关系是一个崭新的命题。回溯以往，传统的电视新闻主播由于缺少实时互动的技术渠道，始终无法实现对于电视机前观众信息的即时反应，这也被视为电视较于网络媒体的一大不足。同样，目前的“AI合成主播”是文字变成声音的优化，这样的一套系统操作从传播效果的角度来看并不高明，因为缺失了回馈的一环，仍像是自上而下的宣告。

人类需要交往，需要在交往当中印证自己的主体性存在，在某种程度上，人和机器之间也存在着所谓的人与人之间的精神交流状态。人工智能在交互化沟通上拥有天然的技术优势，只要有规律可循，训练对话便有路径。人的各种愿望在心理学有解释，高兴时希望一同分享，失落时渴望得到安慰，无助时又想获取力量，将类似于此的数据输入人工智能的智库之中，即便它不能尽善尽美地回应对方需求，却也能调动受众的参与心理。例如东方卫视的新闻直播节目《小冰摇摇吧》，其中的人工智能微软“小冰”任主持人，不仅与真人搭档彼此互动，还对网友开展了采访。你来我往、你问我答，机器与人基于交互作用形成了传播效果的不断深化。

（三）情感化发展，贴合温度

如科大讯飞副总裁章继东所言，“我们一直想做一个温暖的A I，把十一个明星的声音还原出来，然后做到他的抖音账号里去，明星就能直接呼喊抖音用户的名字。粉丝们很奇怪，明星竟然喊我的名字了，这是一种温暖的声音。”尽管新近出现的“AI合成主播”在情感控制与表达上并不尽如人意，但“情感机器人的情感模型研究已成为目前的研究热点和发展方向”[1]。只要有充足的数据样本，人工智能主播可从人的语言、面部表情与肢体动作等各种反应中推测出人当下的情绪，进而给出回应。研发者可以依托于心理学、语言学、社会学等人文背景进行设计，更能使智能主播体察与感知播报内容的具体感情色彩，做出沉痛与欣然、鼓励与憧憬等不同情绪的反应，人文关怀便灌注其中。

不过，即便人工智能主播做到了有感情地表达层面，或兴奋，或悲伤，或复杂的酝酿，在本质上仍是算法之下的一场逻辑游戏，目前机器自身不拥有七情六欲，只是在假模假样地表现而已。表达情感并非高级，困难的是生成情感，人类的脑神经是如何运作方能生成不同的情感，后又准确生动地表达，这将是人工智能在语言领域着力攻克的难点。

（四）智慧化升级，树立高度

智慧是比智能更高的层次，它通常指“人们对事物与问题能迅速、机灵并正确地理解、处理与解决好的能力”[2]。未来的人工智能主播不能局限于做现实主播的仿生物，而应创造性地发挥其优势；不能只是浅层信息的传递者，也应拥有思辨意义的哲学意味。在技术成熟的情况下，人工智能主播不只是主播，更将集教师、朋友等多种角色于一身，传达给用户高级的哲学观和方法论，使得人类更好地认识和改造世界，这并不是没有可能，例如，将某一领域内顶尖专家的学识化为可量化、可执行的算法，让智能主播向其学习，它将超越行业半数从业者的水平，不难具备对相应问题答疑解惑的能力。

人类对于知识的记忆和对于智识的创造往往需要多年积累与训练才能日臻成熟，而主播岗位的特性更是有着并非谁人皆可的考验。与之相比，人工智能主播与大数据的无缝连接，使其十分有潜力发展成为一个背景知识极其丰富并能随时调用的角色，它的标签背后是各种信息的聚合。此时，人工智能主播便不单单是真人的附庸，更兼导播、编辑等角色于一身，它对于信息整合后所进行的选择取舍和表达，像任何一位真人主播一样，代表了一家媒体所追求的思想意识高度。

（五）多域化打造，追求广度

2019年的智能主播“新小浩”较之以往版本，一大进步是它不仅能坐着报消息，还能辅以手势与姿态等多种肢体动作站起来，声情并茂地播新闻。按照此等规律继续推理，未来的智能主播行走播报、表现舞蹈也不是难题，除去新闻领域，文艺、娱乐、民生等多节目类别与访谈、企业发布等多现场场景都会存在人工智能主播的身影。

以娱乐领域为例，互联网市场主体的一极是年轻的00后，娱乐产品成为其消除焦虑、享受生活的重要载体，而他们也比上一代更加易于接受新技术的存在。比如日本的虚拟歌手“初音未来”，它在全球的粉丝群体数以亿计，足见其影响力，若把智能主播投放在娱乐领域，也可能会占据广阔的市场份额。再以文艺领域为例，一般来讲，艺术家被认为是最不可能被机器替代的职业之一，这源于“人尚未研究透彻艺术，机器怎会领先一步”的疑惑。然而，近年来艺术与科技的结合得到了越来越充分的探讨和运用。在人为的监督状态下，人工智能如何通过深层学习技术不断延展独立的想象力成为一道时代的命题。以艺术的眼光来打造人工智能主播，使其润泽发现美、创作美、品评美等多重意蕴，是更具挑战却也更有意义的历程，否则，其精神价值空间的开发将难以为继。

【注释】

[1] 李颖.人工智能技术在播音主持领域的应用[J].中国广播电视学刊，2018（11）：80-82.

[2] 陈如明.智能、智慧及人工智能发展问题与向超级人工智能迈进的务实发展策略[J].数字通信世界，2016（02）：33-42.

人工智能主播的前景分析——基于新华社“AI合成主播”的思考