智媒时代AI合成主播的进阶演化、技术反思与发展进路探析

2021-12-09 01:16潘颖

新闻研究导刊 2021年18期

摘要：智媒时代，AI合成主播的诞生放大了媒体从业者的职业焦虑，引发了关于“AI合成主播是否会替代真人主播”的探讨。厘清AI合成主播的现状与不足，有助于智能媒体深度融合发展。本文将在归纳总结AI合成主播的进阶演化、优势特点的基础上，对其进行技术反思，并提出发展建议。本文认为，由于AI合成主播在情感、个性、思想上存在局限性，加之受制于技术发展的制约，因而“离身”无法真正代替“具身”完成传播实践。

关键词：AI合成主播；人工智能；智能媒体；身体传播

中图分类号：G210.7 文献标志码：A 文章编号：1674-8883（2021）18-0015-04

如今，随着人工智能、算法、机器学习等大数据技术的快速发展，AI合成主播凭借智能化、全时空、场景化等优势，正以“离身”的方式逐渐代替人类“具身”进行新闻实践，被广泛应用于新闻播报、赛事报道。

在传播学理论中，“具身”强调人类身体知觉具有主动性，认为身体是人类知觉与环境互动的中介[1-2]，强调心智、身体以及环境三者的一体化[3]。相比于“具身认知”认为身体是认知及相关活动的基础，“离身认知”则强调人类认知可以脱离人的身体而独立存在，人的认知可以被计算。

进入人工智能时代后，算法技术驱动下的虚拟身体完成了和传统身体的脱离，以一种全新的仿真模态嵌入信息传播环节。AI合成主播的出现使得物理意义上的身体被消解，利用技术打造出的“分身”模型实现了身体叙事和图像建构。

不过，人工智能技术带来的信息革命在为人们提供便利的同时，也引发了新闻传播学界、业界新的职业焦虑，即AI合成主播的虚拟在场能否真正代替人类身体在场；AI合成主播是否会随着技术发展而变得越来越真人化，甚至超越人类本身；面对AI合成主播的诞生，真人主播又该何去何从。

面对这些争议，本文在总结AI合成主播进阶演化阶段和优势特点的基础上，探讨完成“离身”的AI合成主播能否代替人类“具身”，以虚拟身体代替身体在场进行新闻实践。本文认为，由于当前人工智能技术还不够成熟，存在一定局限性，AI合成主播尚不具备威胁、替代真人主播地位的能力，这主要体现为AI合成主播在情感、个性、思想等方面存在不足。但值得注意的是，任何技术的发展都不可能毫无风险，我们应该始终抱有审慎的态度，时刻反思技术可能带来的风险，学会驾驭算法、拥抱算法，才能保证技术真正为人类社会服务。

一、AI合成主播的进阶演化

AI合成主播是在人工智能技术中的语音合成技术和人脸合成技术的基础上，结合语音、图像等多模态信息进行联合建模训练后，生成的人工智能分身模型[4]。近年来，随着人工智能技术的快速发展，AI合成主播逐渐走进大众视野，参与首届进博会、全国两会等重要会议活动报道，成为主流媒体新闻内容生产的重要力量。根据不同时期的功能和技术特点，AI合成主播大致经历了三大发展阶段。

（一）AI合成主播1.0阶段：一问一答的“语音助手”

这一阶段是人工智能技术在新闻传播领域的初步应用。从外观看，该阶段的AI合成主播通常以虚拟造型或实体机器人造型出现，不具备真人形态；从技术逻辑看，通过前期预先输入大量数据，AI合成主播在收到指令并进行语音、语义识别后，从数据库中匹配合适的内容，调取现成的相关信息；从表达输出看，早期AI合成主播虽有一定互动性，但多停留在机械化的“一问一答”的层面，表达较为生硬，主要辅助人类完成稿件播报等基础性工作。如2015年12月，美国微软公司旗下的人工智能机器人“微软小冰”首次登陆中国电视荧屏，在上海东方卫视担任天气预报员；2017年，机器人“石榴娃”走进西安广播电视台《西安新闻》的直播间，在硬科技创新大会上进行智能播报。

（二）AI合成主播2.0阶段：真人原型的“人类分身”

这一阶段的AI合成主播经过深度学习，可以模拟真人主播原型，表情更加生动自然，声音更富情感，语音语调模仿人类口吻，可以与人形成更深层的交互对话。如2018年11月，新华社联合搜狗公司在第五届世界互联网大会上发布以主播邱浩为原型的AI合成主播“邱小浩”，只需要输入文本，AI合成主播就能用和真人一样的声音、表情、唇形进行新闻播报。再如，2019年3月，新华社联合搜狗公司以新华社主播屈萌為原型，发布全球首个AI合成女主播“新小萌”，在全国两会期间亮相，其不仅能24小时无休工作，还掌握多国语言。

（三）AI合成主播3.0阶段：自然交互的“新闻智人”

AI合成主播进入3.0阶段后，不仅外表更加逼真，具有和真人一般细腻自然的微表情和微动作，同时在人机交互行为上体现出更强的逻辑性、互动性和智能化水平。如2020年11月，韩国MBN电视台推出韩国首位AI女主播“金柱夏”，该虚拟主播基于人工智能、深度学习、卷积神经网络等技术研发，可以逼真还原真人说话的样态，让不少网友感慨“以假乱真”。2020年全国两会期间，百度智能云与央视网共同推出AI主播“小智”，其外形基于3D高精度仿真人像技术，可以模拟出人类面部肌肉组织，反应迅速，对话流畅，在新闻报道中支持自动抓取关键信息，具备语音处理、智能对话、情绪感知等多种功能。

随着人工智能技术的不断升级应用，未来机器将具备强大的自主学习能力，提升对新闻事件的深度解读和分析理解的能力，解决深度学习、场景理解、情感识别等更复杂的计算机技术问题，由“人工智能”转型为“新闻智人”[5]，或将真正达到“想你所想”的智能化程度。

二、AI合成主播的优势特点

与传统新闻报道节目真人主持人相比，技术导向下的AI合成主播具有智能化、全时空、场景化的优势特点。

（一）智能化

AI合成主播是智媒时代下技术发展的产物，其最大的特点首先在于智能化。

从播报主体看，AI合成主播对原型主播进行海量数据采集，通过语音合成、表情合成、情感迁移、深度学习等技术，可以模拟训练出具备和真人主播一样的主持播报能力，无论是声音还是样貌，都较为接近真人形象。

从播报内容看，与真人主播相比，AI合成主播在播报语速、文本精确度、语言翻译功能等方面更加准确完善。AI合成主播拥有自己的智能语料库，利用语音识别、图像识别、自然语言处理、AI算法等技术不断进行机器学习，实现“自我进化”。

从播报流程看，在训练和建立AI主播的语义网的基础上，只需要将相应的内容文本输入机器，AI合成主播就可以进行自动化、智能化播报，并根据文本内容配合相应的面部表情和肢体动作。由此，AI合成主播将节约大量人力、时间和费用成本，更加高效地完成播报任务，从而减轻媒体从业者的负担，使其有更多时间、精力投入新闻内容质量的提升与优化。

（二）全时空

相较真人主播，AI合成主播在工作时长、工作效率、播报时效性等方面更加科学、智能、高效，具备两大技术优势。一是全时性，AI主播作为一款机器智能产品，可以突破人体机能的限制，达到24小时持续工作。特别是在重大会议等长期新闻活动或需要不断跟进关注的灾害新闻中，AI合成主播可以保持长时间、无间断地持续报道。并且，当突发事件等紧急情况来临时，AI合成主播可以快速反应，即时投入新闻播报工作。二是全场性，在算法和数据驱动下，AI合成主播可以制造出无数个“分身”，同时出现在多个主持现场。在一些真人主播难以到达现场的紧急情况下，AI合成主播能够突破空间、场地的限制，实现多场合同步播报。

（三）场景化

AI合成主播的场景化呈现主要体现为适应性和延伸性两方面。一方面，相比真人主播，AI合成主播对场景的适应性更强，可以避免主持现场的光线、声音等要素的影响；另一方面，AI合成主播实现了新闻播报多场景的延伸。结合3D虚拟场景、AR、VR、MR等技术，AI合成主播可以走出实体演播厅，在虚拟场景中进行新闻播报。通过对新闻发生地进行现场还原和场景模拟，AI合成主播的主持场景不断延伸，从视觉技术上实现新闻的临场感，更好地满足新闻呈现的多样化需求。

三、AI合成主播的技术反思

人格化、人际性是构成主持传播的本质与关键，也是主持传播的特点和优势[6]。有温度、有灵魂、充满人文关怀的传播是主持传播的核心。相比真人主播，AI合成主播虽有一定的技术优势，但在情感、个性、思想上存在局限性。

（一）去情感化：情感态度匮乏

首先，人工智能不具备人类的情感与意识，会使新闻失去应有的温度。有声语言的表达是建立在情、声、气结合基础上的，而情感是人类独有的特质，这也是其区别于其他生物和智能事物的独特体现[7]。虽然新闻强调客观中立，但一定的情感态度依然是新闻主持过程中必不可少的重要因素。倘若失去了情感和情绪的支撑，新闻播报就会失去灵魂，缺乏感染力，而AI合成主播最终就容易演变为冰冷的播报机器。

目前，人工智能技术在我国传媒领域的应用仍停留在起步阶段，人工智能合成主播也还只是停留在对文字的再现层面，能够对语义、句法、逻辑的关系进行学习判断，并不能做到对文字深层次的情感理解。AI合成主播虽然能借助机器学习、情感分析等模拟人类的表情和动作，揣摩播报内容的情感色彩，并预测听众的情感情绪，机械式地做出相应情绪反应，但其本质上依然是算法逻辑下的一场程序游戏，缺失了对情感的感悟能力和对社会的关怀能力，少了一份人情味。纵使AI主播有强大的信息处理和播报能力，但其给予公众的感情体验是冰冷的，新鲜感一过，热度自然会降低。

此外，也正是由于具象化情感表达的不足，AI合成主播播报的领域容易受到限制。在面对疫情、地震等灾难报道或人物事迹报道时，AI合成主播无法与人做到情感共通，无法感受人类的喜怒哀乐，自然无法传递真正有温度和情感的信息。因此，AI合成主播的工作内容多以信息发布型的客观报道为主。

（二）去个性化：个性风格缺失

AI合成主播不具备人的个性，很难打造新聞节目报道的个性化风格。个性化的主持风格是节目主持人在长期主持实践中形成的、受到观众认可的创作个性和艺术特色，也是真人主持个体内在的精神气质外化于行的表现。鲜明的个性化风格能丰富媒体节目内涵，增强节目表现力和感染力。在现实的媒体主持人队伍中，我们不难发现，每个新闻主持人和报道记者都有自己独特的风格，他们都能结合自身特色经验和生活感悟对传播的信息进行再加工，最终形成极具特色和风格的个性化信息传播。

相比之下，AI合成主播则主要依靠算法学习和现成的语料库，在主持风格和主持特点上容易千篇一律，过于机械化的报道模式缺乏人的灵动与魅力，可能带来用户审美疲劳。

（三）去思想化：思想智慧不足

AI合成主播缺乏人独特的思考和智慧，没有个体的自主思维，因而无法赋予新闻深刻的思想和内涵。新闻传播的意义在于揭示事实的真相，反映重大社会事件和社会问题，传递正确的价值观。如今，大众对传媒节目的艺术审美、价值取向、思想深度等方面都提出了更高要求，优秀的主持人能够凭借其突出的人格魅力和深厚的知识积累吸引受众的关注。AI合成主播虽有全天候工作的能力，却缺乏真人主播的决策、思维和应变能力，缺乏对新闻内容的消化和理解力[8]。尤其是在面对一些突发情况时，主持人的临场反应深刻考验着新闻主播的专业能力，一些“高情商”的回答往往能给受众留下深刻印象。AI合成主播由于思想性不足，无法做到察言观色，缺乏对现实环境、社会环境的高度理解，通常只能完成既定内容的表达，且难以准确拿捏所获信息的态度、情感。简单地说，具有内涵的节目是人与人思想的碰撞。人工智能无法通过言辞细节去挖掘新闻背后的温度，无法一针见血、犀利睿智地评论新闻时事，表达观点，这种独立思考的能力，正是人与机器最根本的区别。

此外，人工智能与人类的思考方式是完全不同的。在看待事物时，人类会根据自己的认知、社会经历、文化教育水平作出判断，而人工智能则是依赖于海量数据来计算出结论。换言之，人类的大脑、心灵和计算机有着本质差别，人的心智是一种比计算机更深层和更高级的智能活动，是无法被计算穷尽的。虽然计算机程序可以按照语法规则定义，但其本身不足以确保语义的微妙呈现和心的意向性[9]。当前，人工智能在技术层面还存在着算法训练时间过长、需要人工选择算法模型等弱点，缺少和人类一样的自主决策能力和自我意识。

因此，从根本上看，AI合成主播终究无法像人类一样充分理解语言的深层内涵和思想，缺少对价值的理解和判断。只能照本宣科地报道新闻文本，无法进行深入思考和价值输出，怎可能与受众共情？

四、智媒时代AI合成主播的发展进路

（一）坚守人在传播中的主体地位

AI合成主播作为人工智能技术在新闻传播领域的最新成果，正在重塑着新闻业的形态和格局。AI+5G、AI+AR、VR、MR等应用丰富了新闻报道的形式，加速了媒体的数字化转型，推动着传媒向智媒转变。但传播是人的活动，人是传播的参与主体，人在情感、意识、思想、人格等各方面都有着不可替代性，因此无论技术如何发展，都不应该抹杀人的主体意识和主体地位。技术发展虽然给传媒业带来了便利、高效的新闻生产方式，但也使真人主播面临职业焦虑和价值迷失的风险与挑战。如若让人类屈从于数据计算和生产机器，让技术规则和技术理性构建人类生活的基本方式，那么人的主体性地位将受到威胁，人将成为技术的附属品，失去对新闻的控制能力。

同时，我们应清晰地认识到，人工智能并不是万能，不可能完全取代人类所有的工作。从AI合成主播的发展现状来看，目前的人工智能技术尚不成熟，只能进行一些简单、基础的信息播报工作，无法完成复杂的半文本、无文本的创作表达。AI合成主播和智能语音助手、机器人写稿等，都是在植入人工算法的机器人中，根据编辑设置的既定程序，用机器取代简单重复的劳动，最终经过人工检测，符合要求才对外发布的。在此过程中，人依然是主导者和“把关人”。

（二）引导科技向善，警惕不当竞争

麦克卢汉认为，媒介是人体的延伸。事实上，人工智能技术在新闻传播领域的应用也可看作是一种人体的延伸，它既是对人类肢体、感官的延伸，也是对人类精神活动和思维过程的延伸。

人工智能在应用初期主要作为辅助新闻生成的手段，但随着技术更新迭代，算法正逐渐渗透进社会价值层面，技术这把双刃剑所带来的迷思导致向善变得愈发扑朔迷离。梅塞尼在《技术与社会》中提出技术中性论，即技术本身并没有善恶之分，而是使用技术的人使技术具有善或恶的属性。新闻传播主持工作本身就是对新闻内容再加工、再创造的过程，或者说是一个艺术创作的过程[10]，需要依靠人的情感智慧和经验积累作为支撑与沉淀，技术只能作为一种辅助人类的工具。然而，目前人工智能技术在新闻传媒领域的应用，给新闻业务带来了去个性化、去情感化、去思想化的问题，这无疑是一种反人格化的行为。

随着人工智能、物联网、生物技术等新兴技术的发展，机器学习不断深化，人工智能的最高层次是机器出现自主意识，和人一样出现自主判断和决策能力，甚至拥有人的自我意识和情感情绪等[11]。倘若有天AI合成主播发展成为拥有海量数据知识的仿真人，那么一旦人类失去对技术的驾驭能力，技术与人类之间就可能形成不当竞争，人类将面临技术失控的风险。而科技向善问题的本质是技术与文化的关系问题，技术与文化的博弈始终应坚守人类社会共同价值之“善”[12]，实现“人机交往”和“人机共生”，而不是让技术凌驾于人类主体之上。

总之，我们应该利用技术造福自身，因势利导，趋利避害，让技术在传媒业中发挥出正向效应。

（三）新闻从业者须创造不可替代性

新闻播音主持是一个传播与艺术交叉的行业，只有兼具思想智慧和藝术性，才能达到良好的传播效果。纵观现在的媒体行业，很多真人主播只做到了见字出声，流利顺畅，缺少对稿件内容的理解、对情绪的感知，以及对观点的把握。这也正是为何在AI合成主播出现之际，一些业务能力不达标的主播面临被市场淘汰的风险。

目前，AI合成主播还没有发展到能完全取代真人主播的地步，对现阶段的人类而言，重要的是在工作中寻找自我驱动力，借助技术手段进一步激发创造力。新闻从业者应顺应时代发展潮流，善用网络和新媒体技术的优势，以AI技术、5G、大数据、云计算等技术为辅助，丰富新闻内容生产力。未来，要让计算机逐步代替人力资源从事重复性的简单劳动，让作为新闻生产主体的新闻从业者抽离出新闻劳动，重点把关新闻的价值观，从而让智力资本充分发挥，提供创造性的复杂劳动以及价值输出功能。同时，新闻从业者还应不断提升专业实力，形成个性风格，创造不可替代性，创造“人无我有，人有我优”的独特优势。尤其是在媒体融合时代，更须强化自身数据技术，优化职业结构，在人机互嵌中实现人与新兴技术的共同进化。

五、结语

虽然AI合成主播展现出许多进步性，但依旧远未能达到能够代替人类的程度，作为身体实体性延伸的“离身”互动还难以彻底替代“具身”传播。人类的情感、个性、智慧与思考是新闻媒体行业长久发展且必不可少的重要支撑，也是AI合成主播难以与人类相匹敌之处。

尽管如此，面对新技术的快速发展，我们依然应抱有审慎的态度。对传媒从业者而言，既应发挥身体在场的优势，强化自身业务实力，同时也应明确认识到，智能媒体技术的发展不是为了和人类“抢饭碗”，而是为了更好地实现万物互联，实现共享共建智慧社会生态。在智能化信息技术流行的“人机博弈”时代，不盲目歌颂技术带来的便利，而要坚守自己的价值，及时反思技术存在的弊端和局限性，学会趋利避害，以更加合理科学的方式驾驭算法、拥抱算法，让人机关系从博弈走向共赢，实现取长补短、协同合作，让技术真正为人类社会服务。

参考文献：

[1] 殷乐，高慧敏.具身互动：智能传播时代人机关系的一种经验性诠释[J].新闻与写作，2020（11）：28-36.

[2] 芮必峰，孙爽.从离身到具身——媒介技术的生存论转向[J].国际新闻界，2020，42（5）：7-17.

[3] 刘海龙，束开荣.具身性与传播研究的身体观念——知觉现象学与认知科学的视角[J].兰州大学学报（社会科学版），2019，47（2）：80-89.

[4] 郭琳.“AI主播”技术挑战下新闻主播传播角色重构与策略优化研究[J].新闻爱好者，2019（8）：30-33.

[5] 曾润喜，潘颖.媒体融合时代的计算新闻成熟度评价研究[J].福建师范大学学报（哲学社会科学版），2021（4）：123-134，171-172.

[6] 高贵武，杨航. AI主播与主持传播中的人格进化[J].青年记者，2019（22）：51-52.

[7] 崔晓静. AI时代的“去主持人化”争议[J].青年记者，2019（26）：4-5.

[8] 万艳，王雪梅.智媒时代AI主播的生成与启示[J].青年记者，2019（26）：8-9.

[9] 於春.传播中的离身与具身：人工智能新闻主播的认知交互[J].国际新闻界，2020，42（5）：35-50.

[10] 孔令强.模仿、创新与新闻黑箱——对“AI合成主播”的技术反思[J].传媒，2020（17）：47-49.

[11] 何哲.人工智能时代的政府适应与转型[J].行政管理改革，2016（8）：53-59.

[12] 伏志强，孙伟平.科技向“善”：人工智能发展的价值遵循[J].甘肃社会科学，2021（2）：97-103.

作者简介：潘颖（1997—），女，湖北宜昌人，硕士，研究方向：媒体融合。