人工智能主播历史沿革、应用现状及行业影响

2021-05-28 08:12:52刘昭希

西南民族大学学报(人文社会科学版) 2021年5期

吴锋刘昭希

[提要]人工智能主播是指以大数据处理与学习、虚拟合成与分身、人机交互等人工智能技术为驱动，在广播、电视、电子出版及互联网等媒介中担负着主持与播报任务的智媒产品。人工智能主播展现出具身认知与离身认知交互、智能技术与主播艺术结合、主体身份与客体身份并存的特质，它是目前人工智能视频新闻发展领域的最新和最高阶段。全球人工智能主播的发展经历了研究源起与萌发、技术探索与蓄力、合成应用三个阶段。当前全球人工智能主播正经历从低水平到高质量应用，从单一模式到定制化生产，从“机器替人”到“人机协同”，从机械传播到情感交互，从案例实验到商业化应用等几个层次的不断发展，并进一步对真实社会中的人类主播、传媒产业格局及大众视野产生影响。

长期以来，主播被认为是人类特有的职业，但人工智能主播的诞生颠覆了这一传统认知。随着人工智能技术向纵深发展，人工智能技术引入视频新闻业致使新闻产品的形态更加多样化，智能机器主播逐渐在广播、电视、电子出版及互联网等媒介中担负起主持与播报等任务。依托虚拟合成、机器学习等技术的“人工智能主播”是目前视频新闻领域人工智能技术应用发展的最新形态和高级阶段，虽然起步较晚，但正重塑传统广播电视和视频节目的生产流程，引发了各界广泛关注。

人工智能主播的理念发轫于英国①，并在中、韩、日、美等国家率先应用②。2018年以来，全球人工智能主播加速研发与推广，中国在人工智能主播技术研发和应用市场竞争中已处于世界领先地位，形成了多方面的优势③。在人工智能主播新闻引发全球传媒行业新变革的特殊节点，回顾人工智能主播的历史沿革、梳理其最新应用现状及其在传媒领域的发展趋势和影响，显得至关重要。

一、人工智能主播的概念和基本特征

人工智能主播是指以大数据处理与学习、虚拟合成与分身、人机交互等人工智能技术为驱动，在广播、电视、电子出版及互联网等媒介中担负主持与播报任务的智媒产品。人工智能主播又称“合成主播”“机器主播”等，在学术界尚未形成统一、固定的表述，原因是不同时期人工智能技术的发展水平不同，但其本质都是以人工智能技术的创新发展为前提、以智能机器替代(或部分替代)人类播报与主持任务为目的的科技产品。“人工智能主播”这一概念基本涵盖了不同历史时期的各个形态，既符合当前智媒传播的基本特征，又体现了其最新的“合成”特质。现阶段的人工智能主播以AI合成主播为代表，但距高级人工智能的目标尚存差距。从人工智能主播产生、发展的历史来看，它展现出以下三个基本特征。

首先，人工智能主播呈现具身认知与离身认知交互的特征。人工智能主播在二十余年的发展历程中体现出具身认知和离身认知的交互应用。离身与具身是人工智能领域的重要话题，离身是人工智能理论的来源，具身对智能系统来说至关重要。[1]人工智能主播的早期形态是虚拟主持人，抛开人类主播外形、设计全新的2D或3D动画形象是其离身性的探索，赋予虚拟主持人以人的名字则是其具身性的体现。人工智能主播从完全的虚拟动画形象到拥有真人形象参照，历经数十年时间。2018年，全球首个“AI合成主播”，即首个完全模拟和仿真的合成主播“新小浩”诞生，是由新华社使用CCTV主持人邱浩的声音、语料和外表建模而成④，真实人物和数字建模的组合创建了一个看起来是物理上存在，实际上是作为化身存在的场景。在此之后的AI合成主播也大多是对人类主播进行虚拟建模而成。与此同时，英国的“索菲亚”、日本的“Erica”和中国的“小小撒”，则是以机器人形态出现的智能主播典型代表，拥有了“实际身体”的机器人主播甚至可以模仿人类主播主持风格进行互动采访。无论是采用真人形象建模还是利用机器人实体，都是人工智能主播具身性的进一步探索。依靠语音合成技术，人工智能主播也实现了离身重组的智能语音视频播报这一离身性应用，无需真人在场或配音，就可以直接播报和传递信息，营造了真人与数字结合、具身与离身交互的传播场景。[2]纵观人工智能主播的发展史，其不断追求具身性应用这一趋势，与合成分身技术的不断进步密切相关，可以预测，随着技术的高歌猛进，人工智能主播具身性探索也将更具创新性并获得进一步优化。

其次，人工智能主播具有智能技术与主播艺术结合的特征。人工智能主播是人工智能技术与新闻媒体深度融合的产物，AI技术的加持、主持行业的特殊性使人工智能主播具有技术性与艺术性相融合的特质。一方面，技术渗透至人工智能主播采集、输入、生产和传播等多个新闻业务环节，大量前沿人工智能技术的应用是人工智能主播备受瞩目、不断创新发展的前提。另一方面，主持行业的特殊性促使人工智能主播在展现形态上不断追求象形、音韵和情感等艺术特质。从播音学视角看，新闻播音工作有宣读式、播报式、谈话式三种，在不同题材、内容的新闻播报工作中应选用对应的播报样式。当前市场上应用的中文人工智能主播尚不具备多样化的、与新闻稿件内容相匹配的播音样式。此外，从汉语语言发音学的层面看，人们在进行日常交流对话时，存在一种名为“语流音变”的过程，它是指人们在表述一句完整的话时，各个词语、各个汉字间前后相互影响，从而产生部分字词变调和异读的现象，例如我们熟悉的“一”“不”二字以及轻声、儿话等。这个现象在中文人工智能主播播报过程中虽有体现但表现不佳，采样次数不足导致整体听觉上不连贯。未来人工智能主播将以知识计算和自然交互为手段，使面部表情和肢体动作更加拟人化，使重音、停顿、连贯等表现更像真人一般自然，不断贴近人类口语传播时的状态及表情达意时的特征。[3]

最后，人工智能主播具有主体身份与客体身份并存的特征。人工智能主播作为新闻播音和主持人时具有客体性身份，而作为大众眼中的新闻对象和研究对象时就具有了主体性身份。当新闻主播播报新闻时，需要使观众注意新闻信息内容，而忘记主持人本身。人工智能主播的追求也应如此，应使观众的注意力集中在新闻内容上，这体现了其客体性。现阶段是人工智能主播研发的初级阶段，也是其不断创新发展应用的阶段，人工智能主播播报新闻这件事本身就是一个“新闻热点”，吸引了受众眼球和研究者兴趣，比其所播报的内容更受关注，这时人工智能主播就具有了主体性。[4]人工智能主播在主体身份与客体身份之间不断交替，未来随其应用的愈加广泛，将逐渐淡化主体性身份。

二、人工智能主播的研究萌发、技术蓄力和合成应用

对人工智能主播的探索已经有二十余年的历史，其发展演进大致可分为研究萌芽、技术蓄力、合成应用三个阶段。

(一)研究源起与萌芽阶段(2000-2004年)

最早的人工智能主播可追溯至虚拟主持人时代，其应用初衷是用来代替人类主播的部分工作，但以阿娜诺娃为代表的虚拟主持人却呈现出稚嫩化、高成本的特点。虚拟主持人最早源起于英国，并于20世纪初在中国、日本和美国率先萌芽。世界上最早的虚拟主持人是“阿娜诺娃”，由英国报业联会媒体公司于2000年在互联网上率先推出。从技术原理上看，它是使用数字技术制作并通过无线互联网传播新闻信息的模拟真人的图像。尽管它在外观、播报效果和整体能力上仍处于起步阶段，但因其具有可爱、聪明的“人设”，以及可以基于新闻脚本24小时连续制作新闻短片的能力，在全球范围内红极一时，许多媒体争相报道和模仿制造。[5]在阿娜诺娃之后，中国、韩国、日本和美国等国家相继推出虚拟主持人，其变化特点是从2D到3D，从只显示头部的二维画面到显示半身的立体画面，从单一不变的纯色背景到演播室、节目场地的动态背景。其技术原理大致相同，从外形上看相对成熟，引发了全球范围内各大媒体争相效仿(见表1)。

表1 全球早期虚拟主持人的应用案例⑤

各国对虚拟主持人的研究方兴未艾，但处于萌芽期的虚拟主持人存在技术水平有限、形态相对僵硬、成本高昂等“硬伤”，因此发展数年后趋于停滞。在这样的瓶颈期下，CG技术的应用使虚拟主持人的发展有了重大突破。CCTV-6频道在2004年推出国内首位运用CG技术的虚拟电视节目主持人——小龙⑥。应用CG技术体现了当时虚拟主持人发展的较高水平，但今天看来略显稚嫩。与此同时，阿娜诺娃渐渐从媒体节目中消失，淡出人们的视野，这正是技术更迭发展带来的产品更新换代。虚拟主持人进入市场的初衷是节省新闻生产成本，提高新闻制作效率，但是从其研发和制作过程来看，技术瓶颈和硬件复杂导致整个生产过程的成本并不低。另一方面，传统主持人是经过专业播音训练的，不论是面部表情、声音控制还是整体播报状态，都有严格的行业标准和要求，口才是其最关键的要素。换言之，只有当自然语言处理的准确性和匹配性达到非常高时，虚拟主持人才有机会拥有与人类主播相同的口语表现。在这一方面，早期虚拟主持人的应用显然没有考虑到这些重要的细节，没有做好充分的准备，它们与真正的人性化表达之间仍然存在很大差距。因此，虚拟主持人在兴起四年左右的时间之后，其市场走势急转而下，进入了长达十多年的“停机时代”。

(二)技术探索与蓄力阶段(2004-2018年)

2004至2018年，智能技术的飞速发展促使人工智能主播由萌芽走向技术勃发阶段，视频网站的兴起为“虚拟主播”提供了新的应用平台。语音识别和图像识别技术催生的“虚拟主播”象征着这一时期的开端，最具代表性的是日本于2016年率先推出的动漫虚拟主播“绊爱”(Kizuna AI)⑦，与早期虚拟主持人不同，专业公司开发了“绊爱”的3D模型后，真人会佩戴运动捕捉设备来控制“绊爱”的动态面部表情和前后运动，随后由配音演员进行配音和唇形同步，于是形成了真人扮演的直播或录像。整体而言，无论是外形图像还是语音表现，“绊爱”都优于早期的虚拟主持人。以“绊爱”为代表，很快出现了“虚拟主播”群体Virtual YouTuber，即“VTuber”⑧。这股热潮很快席卷到中国，不少国内博主和UP主模仿“绊爱”在主阵地Bilibili网站进行节目直播，我国主流媒体央视也曾推出新科动漫频道娘化拟人形象——虚拟主播“新科娘”⑨。但技术总逃脱不了成本的问题，虚拟主播自身成本高昂、硬件设施复杂昂贵、操作过程耗费大量的人力物力和财力等不可忽视的弊端，导致其仍然只是一个小众市场，除一些主流官方媒体之外，大部分的虚拟主播都不能产生利润。因此，在“虚拟主播”短暂兴盛之后，人工智能主播的应用转而向着深耕技术这一研究方向开展。多种新技术赋能虚拟主播领域是其进一步发展与成熟的根本原因，人工智能主播步入了漫长的技术探索与蓄力阶段。

多项人工智能技术的集成发展与运用使人工智能主播在全球范围进入新一轮的“AI化转型发展”高潮期，其中摆脱高昂成本的限制是其发展的关键因素。大数据算法、语音及图像识别、MGC、人机交互对话等人工智能技术在新闻生产领域的应用，是人工智能主播转型发展的主要技术驱动力。如2017年微软(亚洲)互联网工程院研发的智能主播“微软小冰”以播报员身份出镜东方卫视融媒体新闻直播节目《小冰摇摇吧》；2018年相芯科技同科大讯飞公司一起为CCTV频道创建了虚拟主持人“康晓辉”，以节目助理主持的身份参与了节目直播，并与观众进行简单互动。“康晓辉”是虚拟主播的又一新转型，虚拟图像生成技术(PTA)是一大亮点，并为后期“AI合成主播”的研发提供了良好的思路与借鉴。应用“PTA”技术的益处是大大降低了生产成本，在逃离不开昂贵成本的虚拟主播时代，降低成本、提高效率和利润是其被大范围应用的关键。尽管受众的接受程度尚未得到过具体衡量，但这种普及带给新闻传媒行业一个显著的信号：虚拟主播的智能化转型迫在眉睫、势不可挡，后续发展走势也给这个结论以证实，全球各大新闻媒体都在这一领域涉足、深耕(见表2)。

表2 21世纪转型期主要人工智能主播的应用案例

出厂时间商用名称国籍应用领域应用机构主要特点2011.07小雪中国广播节目主持抚顺广播电视台广播界首个虚拟主持2015.03微软小冰美国新闻主播多客户端大数据能力、人际互动2017.11琥珀虚颜中国新闻主播新华网AI虚拟生命2018.03俎江涛中国财经新闻主播南方财经全媒体专门的财经节目主播2018.04Yomiko日本NewsCheck11NHK电视台深夜情感节目主播2018.05康晓辉中国实时互动主播中央电视台虚拟形象生成技术

新闻媒体希望借助人工智能技术突破记者采访的时空限制，利用智能机器人开展新闻活动，是人工智能技术赋能传统新闻行业、涉足采访和主持领域的一项重大进步。虚拟主播的蓬勃涌现，使人们不再满足于仅能在屏幕上看见的主播。实体机器人主播的应用得益于近年来机器人研发的重要成就。全球实体机器人主播应用以中国、日本、英国和俄罗斯为主，主要应用在节目主持、活动采访领域，且多与人类主播一同工作，一般不独立工作。机器人技术与大数据、深度学习及虚拟合成技术结合运用，使实体机器人也由简单形态向智能化应用转变。但从试验结果来看，其效果欠佳。经过漫长的技术探索，尽管这一阶段虚拟主播的发展相对缓慢，但各种技术的实践尝试，为其后AI合成主播的出现不断蓄力、夯实基础(见表3)。

表3 主要实体机器人主播的应用案例

出厂时间商用名称国籍应用领域应用机构主要特点技术研发公司2015.04索菲亚英国节目嘉宾早安英国等模拟人造皮肤美国HansonRobotics公司2016.03云朵中国两会记者湖北广电辅助性记者武汉喻华科2016.08小白中国节目主持央视财经拟脑机器人元趣科技2017.03爱思中国活动记者新华社独立采访新华社2017.04小圈中国节目主持央视综合传统节目新尝试旗瀚科技2018.03快宝中国活动记者ZAKER南京采访播报现代快报2018.04Erica日本节目主播NHK电视台深夜节目主播大阪大学、京都大学2019.02小小撒中国春晚主持央视春晚自动生成技术偶邦(OBEN)2019.04亚历克斯俄罗斯新闻主播Russian-24头部和面部模仿技术莫斯科Promobot公司

(三)合成应用阶段(2018年至今)

全球人工智能主播的发展于2018年进入虚拟化、数字化的“AI合成主播”阶段，这是人工智能主播的最新形态，是智媒深度融合发展的产物。随着大数据、算法和云计算等技术的急速发展，以及人工智能合成、分身、交互技术的不断进步，虚拟人格化、数字化的“AI合成主播”开始出现，这是真正意义上的人工智能主播。“AI合成主播”与早期的虚拟主持人、虚拟主播是截然不同的概念，它是指通过语音画面合成、表情唇动、数据建模和自主学习等技术，联合建模出的具备一定人类主播特征的虚拟分身。它不再仅仅从事简单的信息播报工作，而是具备了数据储备、处理和学习能力，后期甚至能与观众简单互动，呈现一定的人际交往特征。多项智能和数字技术的奠基是AI合成主播迅速进入大众视野的前提和关键。人工智能四项核心合成技术大大改善了新闻音视频效果的表现力，提高了合成主播的象形感和真实感，更加逼真的表情合成和肢体运动也提升了受众的观感，自然的唇动以及与语义内容的精确匹配，更是让观众眼前一亮。依靠“自然交互+知识计算”和不断创新的克隆技术，人工智能主播被更加真实地“克隆”出来，并具有独立制作和传播新闻的能力。基于此，全球首个AI合成主播“新小浩”应运而生，开启了第一代AI合成主播的研发之路，在智能主播领域实现了技术创新的重大突破，是传媒行业在视频新闻领域首次使用智能仿真人模型的尝试。当前AI合成主播最新的进展是朝着运动式3D主播迈进，较第一代2D的形象做出了新的改变，成为第二代AI合成主播的开端。“人工智能虚拟主播”“AI虚拟合成主播”“AI智能虚拟主播”“3D合成主播”这些相关概念，其基本含义都与“AI合成主播”概念一致。AI合成主播在中国掀起研发和应用热潮，在全球受到广泛关注。

现阶段中国成为“AI合成主播”技术研发和应用的新中心，按照其研发技术机构分类，主要有科大讯飞系、搜狗系和百度系三大系别。科大讯飞公司主要在AI虚拟主播产品和语音合成技术两个领域深耕，研发技术较为成熟，能够为客户提供定制化服务，已在中央电视台、人民日报和中国日报等主流媒体得到应用，如央视国际频道人工智能主播“纪小萌”，央视春晚节目虚拟主持“央小广”，新华报业的虚拟记者“汇汇”等。搜狗公司的主要优势是分身技术和实时语音识别技术，在成本控制、细节处理等方面取得重大突破，并通过与新华社及俄罗斯塔斯社、阿布扎比媒体集团等国外媒体合作，初步实现了全球化布局。从AI主播的产品数量来看，百度略逊色于前两家公司，但其依靠短语音极速识别和离线语音合成技术，主要用于帮助教育、医疗、电子政务、游戏视频等多行业客户快速实现虚拟主播的应用。此外，其他媒体和技术公司也有一些人工智能主播开发和应用案例(见表4)。

表4 全球主要AI合成主播在传媒业的应用案例

技术系别时间商用名称国籍应用机构应用领域主要特征科大讯飞系2019.02央小广中国中央广播电视总台春晚广播定制主播2019.05纪小萌中国央视国际频道国际频道定制主播2019.05王小健马小腾中国合肥电视台男女主播定制双人主播2020.03汇汇中国新华报业交汇点云媒定制主播2019.04通通中国一带一路国际论坛论坛主持定制记者2019.05果果中国大数据产业博览会新闻主持人民日报社首款虚拟主播2019.10小晴中国多新闻端新闻主播多语种、交互2019.10一峰中国多新闻端新闻主播常驻男主播2019.11晓璇中国多新闻端新闻主播讯飞常驻主播搜狗系2018.08新小浩中国新华社新闻主播全球首个合成主播2019.03姚小松中国央视财经频道财经新闻专职财经节目2020.05新小微中国新华社新闻主播“第二代”产品2019.08雅妮中国“网络文学+”高峰论坛论坛主持首次赋能网络文娱2019.05阿语主播中、阿阿布扎比媒体集团新闻主播全球首个阿语AI主播2019.06Lisa中、俄塔斯社新闻主播全球首个俄语AI主播百度系2019.03小白小度中国中央电视台两会记者早期语音交互技术2019.07小菲中国澎湃新闻新闻主播早晚间节目主播其他2019.03小明中国光明日报新闻主持独自完成全流程2019.03小封中国封面新闻直播记者机器写作、实时报道2019.03冀小蓝中国长城新媒体新闻主播自主研发2019.09那小岩中国圆桌pie直播主播斗鱼直播2020.01禧宝中国无锡观察新闻主播自主研发2020.02小淮中国淮北市传媒中心新闻主播自主研发2019.04小萌芽小萌花中国北京电视台虚拟视频语音动画合成2020.02ISanj中、哈阿塔梅肯商业频道哈语主播全球首个哈语AI主播

由上观之，现阶段AI合成主播的应用主要呈现出四个特征。一是全球范围内，以中国发展最为迅速、应用最为广泛。除中国外，只有俄罗斯和哈萨克斯坦启动了AI合成主播应用，但均为与中国合作研发。欧美发达国家拥有前沿人工智能技术，却在“合成主播”领域逐渐“失语”。二是应用领域单一。尽管人工智能技术在传媒领域的发展如火如荼，但智能主播目前只应用于新闻播音主持领域和大型活动主持领域，以前者为主，应用领域依然单一，这是人工智能技术较为落后的体现，未来可在人机互动、信息沟通等多场景中深度研发。三是中央媒体走在前列。我国除中央媒体积极采用人工智能主播这一创新尝试外，地方媒体也在加大投入和应用。[6]总体上看，新华社、央视和人民网等中央媒体的人工智能主播应用处于领先地位，个别地方媒体人工智能主播的应用也较为突出，以四川封面新闻“小封”、无锡日报“禧宝”、长城新媒体“冀小蓝”为典型代表，但在应用水平上还有较大差距。四是主要采取“媒体+技术研发公司”合作的方式。我国媒体主要采取与技术研发公司合作的方式推出人工智能主播。这主要是由于我国媒体的技术研发能力较差，无法承担独立研发的工作，技术公司的介入可以大大减轻媒体的压力。但媒体也因此失去了部分话语权和掌控力，未来可能因技术限制而发展受限。

三、全球人工智能主播应用的最新进展

人工智能主播的诞生与演进，反映了智媒深度融合发展，体现出从低水平到高质量应用，从单一模式到定制化生产，从“机器替人”到“人机协同”发展，从机械传播到情感交互发展，从案例实验到商业化应用的特征。

(一)从低水平到高质量应用

早期人工智能主播的声音和外形都相对低级，传播效果较弱，难以获得公众认可。近三年来，人工智能主播被技术赋予人类的声音、语态和外貌，同时实现高效率、低成本，从低水平向高质量发展。我国20世纪初电视节目中应用的“比尔·邓”和“小龙”等属于早期的虚拟主持人，但其主持时动作迟钝、语言机械，一看便知是机器人，与真正的人性化表达之间仍然存在差距，因此后来逐渐没落，没有进一步发展。

目前，各种人工智能技术快速发展。在语音级别，人工智能主播使用了AI语音识别与合成技术，能够自动输入合成后的音频，通过波形建模技术生成十分仿真的音频文件，使受众在听觉上感到更加顺畅、自然。在图像级别，早期的动画匹配技术较弱，脸动和唇动都十分僵硬。如今应用了通过建立人脸模型来实现全息成像的最新技术，利用智能化的画面合成使唇形运动更加自然地贴合语义，大幅提升了受众的直观感受。分身技术使受众可以依靠少量的真实音频数据和视频数据，实时快速转换生成虚拟分身。换言之，用户只须输入一定量的文本即可生成同步的音频声音和视频画面。人工智能主播正朝着拟人化和高质量方向不断发展。尽管在其发展过程中，不断有着更高的要求和挑战出现，但与之相配套的人工智能各项技术也在飞速发展和完善。对于传媒行业来说，基于用户视角制定好发展规划，不断对人工智能主播的各项指标进行改良和优化，是未来人工智能主播发展的新路径。早期“虚拟主持人”与现在“AI合成主播”在各个层面的特征对比如下(见表5)。

表5 虚拟主持人与AI合成主播特征对比

名称时间商用举例语音技术画面技术主要表现虚拟主持人2000-2004小龙、比尔·邓后期配音CG技术动作迟滞、语言机械AI合成主播2018-今新小浩、果果语音合成合成分身自然唇动、流畅表达

(二)从单一模式到定制化生产

早期人工智能主播生产模式单一，“出厂设置”简单且同质化，难以满足传媒行业和消费者的个性化需求。近年来，技术公司与多家媒体合作，人工智能主播逐步向定制化生产迈进。[7]人工智能的核心技术——“分身技术”可使智能主播实现不同场景的克隆覆盖，使成千上万的用户克隆到属于自己的人工智能主播。2019年1月，中央电视台小型互动智能节目《你的生活，AI为你唱作》中，应用了微软公司研发的智能女生“晓晓”与主持人康辉一同进行录制。其制作过程是首先对康辉录制的多首歌曲进行预采样，针对用户上传的照片类别，分析主题、场景、颜色以及面部特征等，从而生成智能歌词模板。运用人工智能定制声音技术，最终使每个用户都能得到属于他们的作品。近年来，科大讯飞公司已经借其成熟的定制技术和研发思路，为多家媒体定制了专属人工智能主播，这种实现了更低成本的定制化应用在未来必将会成为新趋势。如中央广播电视台在《A.I.记者“通通”游世界》节目上推出了科大讯飞公司专为2019年的“一带一路高峰论坛”主笔定制的智能记者“通通”，在节目上自动生成并播送相关新闻，带着观众游览和体验“一带一路”的风景。此外，新华社还推出多个外语智能主播，包括俄语主播丽莎、全球首个哈语合成主播等。拥有无穷可能的中国人工智能主播依靠定制化和多语种正在走向全世界。

在人工智能主播的研发过程中，新闻媒体往往通过评估自身实力，来选择购买技术服务、自主研发或合作研发三种模式，实现媒体的智能化、国际化和创新化转变。与科技公司、高校或科研院所采取合作研发的模式最为常见，如国内新华社与搜狗公司合作生产系列智能主播，央视与科大讯飞公司合作生产“央小广”等主播；国外如日本NHK电视台与京都大学、大阪大学合作生产的智能主播Erica，还有哈萨克斯坦、俄罗斯等国与我国搜狗公司合作生产的智能主播等。采取自主研发模式的多为科大讯飞等技术研发公司，还有少数地方媒体也在加速自主研发进程，如淮北传媒中心、无锡日报报业集团等，但技术水平相对较弱。近年来，向科技公司购买产品或技术服务的模式受到越来越多的新闻媒体的青睐，如2020年疫情期间，国内百余家媒体向科大讯飞公司购买或租赁虚拟主播“小晴”。科大讯飞公司下的虚拟主播系统也在不断更新迭代，不断添新(见表6)。

表6 科大讯飞公司“AI合成主播家族”

出厂时间商用名称形象外形特征音色特征主要技术2019小晴女东方美、温和端庄稳重知性简单交互,多场景应用2019一峰男阳光、轮廓分明低沉浑厚、磁性支持严肃、开心等多种状态2019晓璇女青春活力甜美亲切、俏皮采集真人声音素材2019玮玲女成熟、和蔼平和中立音视频联合约束人脸技术2019通通女年轻可爱积极向上、活力深夜情感节目主播2020爱加女形象多样可变灵动智能交互、高度自动合成

(三)从“机器替人”到“人机协同”

人机协同工作将是未来主要新闻生产形态，也是智媒时代播音主持获得技术赋能、进行转型升级的关键。早期使用虚拟主持人是想要实现机器替代人工作这一“美好”愿望，然而数十年的发展经验告诉我们这并不是正确的发展方向。实际上，当前传统新闻媒体生产的各流程仍主要依赖人类操作，但是人工智能时代的新趋势是向以机器操作为主、人机协作为辅的模式转变。基于人工智能主播自主学习和建模的功能，可以预测，当大数据愈加完善和丰富时，其建模效果就越智能，传播效果也就越精准和高效。人工智能主播背后依赖的依然是数据逻辑，与人类主播有本质上的不同，二者相辅相成，可在多个层面上实现开发协作、互补共赢。

在突发新闻、重大事件、财经新闻、体育新闻和深夜新闻等时效性要求较高的新闻播报领域实现人机协同发展。时效性是新闻的基本特征之一，人工智能主播能够在事情发生当刻快速反应，根据已经编入的既定写作模板和新的新闻要素在几秒内生成报道并完成播报，也能够不受时空限制地进行工作。这种模式更适用于突发事件及财经、体育、深夜新闻等简单重复以及带有危险性的新闻领域。例如2020年新冠肺炎疫情期间，在人类主播无法“到场工作”的情况下，科大讯飞公司的人工智能主播“小晴”助力重庆卫视、广西卫视、陕西广播电视台等百余家媒体开展抗“疫”宣传工作，包括及时通报疫情发展、科普疫情防控知识、整合播报战“疫”情况等。一方面，在这次重大突发疫情中，人工智能主播带领受众在极短时间内了解疫情信息，填补受众的信息空白并缓解紧张情绪。另一方面，人类主播只需要设计好既定程序，人工智能主播即可自动采集播发新闻，并全天候不停歇工作，减轻了媒体工作者的工作负担和疫情期间的工作危险。

在情感内涵、深度报道和专业知识方面实现人机协同发展。新闻报道要注重深度挖掘和情感内涵，这离不开人类主播的专业知识。各媒体机构人工智能主播几乎能做到同时在第一时间报道新闻，因此传统意义上的新闻时效性已经不是媒体的核心竞争优势。如何透过表层信息发掘新闻背后的价值，运用专业知识做好新闻调查和深度报道，是当今快节奏和信息泛滥的新闻大环境中，媒体应该关注的关键问题。未来，新闻工作者应当利用人工智能主播庞大语料库、精准性、即时性等优势，使智能机器辅助人类更好地生产新闻，为受众产出更高质量、人性化、有情感深度和价值意义的新闻。

(四)从机械传播到情感交互

随着AI交互对话技术进一步发展，人工智能主播正以对受众需求和喜好的精准投放为目标，朝着智能化和情感化迈进。人工智能主播强大的深度自主学习能力，使其在传统的语料库建模基础上，逐步具备了情绪表达能力等“类人化”特征。[8]过去的新闻生产主要是点对点的单向传播，而在智能时代，用户与人工智能主播的互动反馈效率将得到提高，这无疑有利于为用户营造更加深入的交流平台。也许现有技术还不能完美地解决受众的问题，却已经朝着较好地调动受众参与心理及互动情绪之目标不断努力。[9]这充分显示出为用户营造更加开放、互动和深入的交流平台是未来智能媒体的发展趋势之一。

最新应用案例是2021年3月全国“两会”期间，智能主播“爱加”出现在“AI主播说两会”节目。与早期虚拟主播不同的是，除了“爱加”本身形态多元、表达灵动外，科大讯飞公司还创新性地引入自然语义理解技术，对文字内容进行智能理解和决策，自主生成与观众的对话文本，形成元素丰富、形式多样的视频，提升用户与虚拟人交互过程中的视觉效果和交互体验，起到了在AI多模态虚拟人方向的引领作用，让我们看到人工智能主播在交互服务中的无限可能。在央视网《2021两会邀你来阅卷》H5中，观众只须语音对话，“爱加”就能根据语义实时进行交互，并精确播报信息。

(五)从案例实验到商业化应用

人工智能主播自2019年以来引发了一定规模的商业化浪潮，体现为应用的范围变广、规模变大、成本降低和效果增强。当前人工智能主播的各大研发公司已经实现批量生产和专业化定制，并应用于新闻报道、现场记者、活动论坛记者和纪录片配音等各个领域。三大技术研发公司均推出专门平台为客户提供虚拟主播应用服务。百度公司的百度大脑AI开放平台使用虚拟主播形象定制，使教育培训、文娱游戏和政务办公等各类企业或个人客户能够快速实现虚拟主播的应用。科大讯飞公司则主要为国内新闻媒体机构提供定制化新闻主播，用AI虚拟主播赋能媒体行业，用人工智能技术为中央电视台、央视网、人民日报等媒体提供新闻生产和分发的创新化新思路，其“AI虚拟主播系统”荣获“2019‘指尖融媒榜’中国广电十大最具影响力融媒平台/产品”。

当前人工智能主播在视频新闻领域已经有了不错的实践，其应用成果在新闻业的采访、写作、校对和分发等多领域开花。在新闻采写方面，借助人工智能主播，时间和空间已经不能成为限制采访的因素，近年来机器人记者不断被应用在会议或论坛采访当中，如央视的“两会”机器人记者小白和小度，以及2016年湖北省广播电视台“两会”机器人记者云朵。在互联网新闻分发领域，部分新闻媒体联合技术公司设计具有简单交互功能的人工智能主播，使受众在自己的终端设备就可以与对面的虚拟主播进行交流。如斗鱼直播“圆桌pie”的智能主播“那小岩”，能实时与观众进行简单对话。此时，成本问题已经无足轻重，人工智能主播的应用使新闻生产成本大大降低，繁多的新闻生产流程也得到简化，加之更加考虑观众体验和观感，朝着符合受众审美和期待的目标不断进步，使得媒体的影响力进一步扩大。新华社在2021年全国“两会”期间，使用举止优雅、谈吐清晰自然的AI合成主播“雅妮”穿越到全国人大代表的家乡宁夏和福建等地，在沉浸式真实场景中与当地乡亲们实时互动，并同步连线北京，这是新闻媒体首次远程使用AI合成主播的尝试。

四、人工智能主播对新闻传播业的影响

(一)对人类主播的影响

人工智能主播正在像人类主播一样，完成播报和主持任务，肩负与受众交流、向外界传递信息的作用，在一定程度上影响了人类主播的地位。对于目前的人工智能主播来说，由于大数据和自主学习的赋能，其常规语言表达能力甚至可以超越人类主播。人类主播虽然可以富有感情、节奏和流畅地进行新闻播报，但是局限于“人类”本体，使其无法避免由于身心疲劳、注意力不集中等原因造成的误读、漏读。不同的是，人工智能主播具有强大的数据库支撑和程序精确率，可以减少乃至避免播报中出现错误和失误的情况，使得信息播报的准确性大大提高。[10]

但是，人工智能主播不具备人类主播的思考创作、情感判断和个性化表达等特征。第一，人工智能主播无法独立思考。人工智能主播依据大数据建模而成，亦即它是依赖智能的数据库系统和被赋予的学习能力，来完成系统对它的指令和操作，因此它是十分被动的。人工智能主播不具备人类的独特思维能力，无法进行独立思考和创造性表达。而人类主播在撰写新闻文本时，需要思考新闻文本的合理性、可信度。更重要的是，人类主播可以联系上下文，进行语义的理解和再造，在这之中加入自己的思考和评价。第二，人工智能主播没有情感情绪。新闻的价值要素告诉我们，新闻从来不只是没有感情没有温度的文本，新闻也不是无意义的字符堆砌，新闻背后是新闻工作者意图传达出来的独属于他自己的价值判断和情感情绪。最典型的例子是2008年汶川地震时，当地电视台的一位女主播在进行地震实况播报时，看到死亡人数的上升，情绪变得沉重，同时由于极度的悲伤而声音颤抖、哽咽，却仍在坚持播报，这种情绪感染力是人工智能主播无法企及的；再比如每年中央电视台的春节联欢晚会都是全家必看的节目，观众们观看的不仅仅是一个个节目本身，更是一种团圆的氛围、幸福的期盼，试想如果将春节联欢晚会的节目主持人换做人工智能主播，不仅节目效果大打折扣，更使观众无法体会到整个节目的意义和内涵。第三，人工智能主播雷同性强，没有自身个性。尽管人工智能主播已经具有多种性别、声线甚至多种性格展现，但归根结底都是“仿真”形象，即在提取真实人类主播的外形和声音后，进行建模而成。因此人工智能主播只是空有其表，不论其表现出的性格特征是严肃中立，还是活泼俏皮，都是原有人类主播的性格特征。另外，人类主播可以根据自己的生活阅历和经验，形成自己的独特风格，例如中央电视台主持人董卿以其知性大方的形象深入人心，撒贝宁以其搞笑博学的形象深受观众喜爱，另外还有不少既有良好的文化素养，又颇具个性的主播本身就是观众关注的热点。人工智能主播在这个层面上还任重道远。

(二)对受众的影响

当前，受众对人工智能主播的接受度呈现出逐渐增强的趋势。一方面，人工智能技术不断渗入各行各业，尤其是媒体领域，受众处于由传统媒体向新媒体过渡的环境中，对于AI技术本身不再有最初“机器人取代人类”这样的恐惧，而是在日常实际生活中逐渐依赖人工智能技术带来的便利。在国际社会中，讨论对于机器人的顾虑的也被认为是不必要的，智能化发展作为当今一大技术发展趋势，在解放劳动力方面做出了极大努力。同时，机器人会更大程度地提升世界伦理维度；另一方面，在人工智能技术高度集成的新时代下，传统的新闻受众也发生了变化。人工智能算法和大数据可以通过观察和收集受众的日常习惯、喜好兴趣，再进行程序性分析，从而使得新闻精准地投放到用户。这个精准投放也带来一定的负面影响，比如重复性、无趣性内容增多，算法带来的信息茧房和伦理失范问题得不到有效解决。总体来讲，受众对于人工智能新闻的接受度是随时间和技术发展而逐渐提升的。

以往的新闻受众通常处于被动接受新闻信息的状态，而人机互动发展的引入，将有效加强受众与新闻信息之间的反馈力度。互联网发展至今规模越来越大、体量越来越宽，加之人工智能技术的不断赋能，用户对新闻反馈的机会越来越多，互动积极性和能力也不断提升，交互效率在不断提高。“全员网民”时代的新闻受众可以通过更加多元化的渠道获取和反馈信息。在这个层面上，技术的优化使得受众有了更加多样化的选择，而非只是拘于一隅。因此这带来一个新趋势，即受众对于新闻信息质量的要求将会越来越高、包容度越来越低，同时对反馈渠道和机制也会有自己的独特看法。在这个层面，人工智能主播可以发挥自己的优势去深耕，提升新闻信息或者节目自身和受众之间的互动性、临场感和趣味性，这从另一个角度也诠释了新闻传播“人际沟通”的本质。

(三)对产业格局的影响

目前看来，传统新闻行业日益受到媒介技术快速发展带来的挑战，人工智能主播加快了当前技术与媒介融合的进程。新闻的根本仍然是为人传播信息，应当加强培养新闻媒体工作者智能化和创新化的思维，与人工智能技术之间相互协作、相互进步，把人工智能看作与人类一同工作的“战友”和“帮手”，在互联网思维下主动拥抱人工智能技术。[11]新闻工作者与智能技术应当是相互补充、协作配合、共同进步的关系。新闻媒体工作者应当充分利用人工智能广泛的信息采集、精准的用户反馈和高效的生产制作等特点，新增新闻媒体主体、丰富新闻传播形式、增强媒体合作共建能力。另一方面，新闻媒体具有成熟和丰富的实践经验，人工智能技术可以借助新闻媒体的专业性，加强内容把关和深入思考，克服机器生成内容的模式化和浅薄性。[12]高效率和高质量的人机合作将会促进人工智能与新闻媒体的进一步融合与共生，实现价值和功能的双赢。

同时应当看到，当前人工智能技术在新闻传播领域的应用还存在一些问题，仍然处在弱人工智能阶段。人工智能主播的应用尚停留在创造性低的初级阶段，但不可否认，从萌芽诞生一直发展至今的二十余年里，不论是研发人员还是新闻媒体从业者都在尽力对其不断改善和优化，使人工智能主播能够更好地实现人机协同、互补共赢发展。要知道，应用新技术是媒介发展的必然选择，在未来，人工智能主播必然朝着更加高效化、创新化和智能化的方向不断迈进。[13]

注释：

①2000年4月19日，英国西约克郡的联合报业新闻媒体公司研发的产品“阿娜诺娃”在www.ananova.com网站上播出了第一条新闻，被认为是世界人工智能主播史上的开山之作。参见：《网上虚拟新闻女郎首次亮相，身价数亿》，搜狐新闻网，http：//news.sohu.com/feature/worldnews/20000419.html，2000年4月19日。

②在“阿娜诺娃”之后，中国、韩国、日本和美国相继推出虚拟主持人。参见：《虚拟人：一种时尚生命》，东方新闻网，http：//news.eastday.com/epublish/gb/paper148/20010520/class014800008 /hwz388818.htm，2001年5月20日。

③以2018年新华社推出的AI合成主播为开端，国内主流媒体纷纷联合技术公司推出AI合成主播，产品投入使用后取得了显著进展，中国成为全球人工智能主播技术研发应用的新中心。

④参见：《AI合成主播“新小浩”成2019 WAIC亮点搜狗AI布局前景无限》，中国新闻网，https：//baijiahao.baidu.com/s?id=1643553760674902952&wfr=spider&for=pc，2019年9月2日。

⑤表1由作者根据各媒体官方网站信息资料整理而成，具体参见：中国新闻网、南方时报网、东方新闻网、www.ananova.com、www.mtv-china.com、www.virtual-idol.com、www.51GO.com、www.wgn.co.j/yuki.com、www.vivianlives.com、www.lusia.com等。

⑥参见：《虚拟主持人“小龙”央视上岗高身价挑战孙小梅》，中国新闻网，https：//www.chinanews.com/news/2004/2004-11-18/26/507283.shtml，2004年11月18日。

⑦参见：《Kizuna AI株式会社设立のお知らせ》，日本Activ8官网，https：//activ8.co.jp/news/?id=31，2020年4月24日。

⑧参见：《“yoyo鹿鸣”3个月B站粉丝破百万，虚拟偶像何时才能恰饭？》，搜狐财经网，https：//finance.sina.com.cn/stock/relnews/us/2020-08-20/doc-iivhvpwy2087287.shtml，2020年8月20日。

⑨参见：新科娘，CCTV新科动漫官网，http：//www.cctvdream.com.cn/bling.html，2019年12月26日。