高维嘉,巴胜超,李健
人工智能(Artificial Intelligence,简称AI)技术被誉为“开启未来的钥匙”,近年来已应用于社会生活的各个领域,为人们的生活带来巨大改变。习近平总书记曾提出,要运用信息革命成果,推动媒体融合向纵深发展[1];中国传媒大学新媒体研究院与新浪AI媒体研究院联合发布的《中国智能媒体发展报告(2020—2021)》中指出,以“新基建”为基础的媒体智能化升级转型按下“快进键”;国家广播电视总局发布的《广播电视和网络视听“十四五”科技发展规划》也明确指出,要推动虚拟主播应用于新闻播报等节目中[2]。近两年来,人工智能技术已广泛应用于电视新闻业,人们利用人工智能技术赋能新闻报道,产生了较强的视觉冲击力与互动效果,开启了新闻生产的新思路。例如,2022 年 4 月,百度数字人“度晓晓”以AI记者的身份出现在首届大国工匠创新交流大会上,带领观众“云巡馆”“云观展”,播报展会现场展出的中国工业化成果,为观众解读中国工业、中国制造在发展中取得的辉煌成就。
人工智能技术是计算机科学的分支,其核心是用计算机模拟人的思维方式。人工智能主播起源于英国,随后在中国、韩国、日本、美国等国家应用[3],其概念界定在学术界尚未有统一的表述标准,呈现在大众眼前的人工智能主播又称“机器主播”“虚拟主播”“合成主播”等。在不同的历史时期,人工智能主播以各种形态存在,其是利用语音合成、人脸合成、多模态技术生成的人工智能分身模型[4],是人工智能技术与新闻媒体深度融合的产物,在新闻制作的采集、输入、生产和传播等多个环节都有技术的加持。我国初代人工智能主播是由“搜狗分身”技术打造的,主要通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等人工智能技术,在真人主播录制的新闻视频中提取关键信息,再利用语音、图像等多模态信息进行联合建模训练后,克隆出的机器人分身[5]。分身即真人主播的复制,能模拟真人的播报能力,是新技术的创新和突破。
新兴科技的创新成果潜移默化地影响着我们的生活,人工智能技术以机器人的新形态出现在电视新闻业,拥有着许多真人主播所不具备的先天性优势,在电视新闻业开创了先河。
20 世纪 90 年代,媒体的改革使记者、播音、主持三者融为一体,催生了新一代主持人,一个新的名词诞生——主播。随着互联网的兴起,一些国家开始推出“虚拟主播”,并在不同年份以不同身份慢慢浮现在大众眼前。人工智能主播的发展历程大致可分为三个阶段,即萌芽阶段、探索阶段和应用阶段。
1.萌芽阶段(2000—2004)
人工智能主播最早源于“虚拟主播”,起初研发的目的是希望机器人能代替真人主播的部分工作,实际上,这一时期的机器人呈现出稚嫩化、高成本的特点。2001 年,全球首位虚拟主播“阿娜诺娃”(ANANOVA)问世(见图1),其是一个 2D虚拟动画人物模型。2004 年,我国CCTV-6频道推出国内首位虚拟电视节目主持人——小龙,其造型时尚,肢体动作和面部表情也非常接近真人,对电影知识更能如数家珍、娓娓道来,并单独主持了《光影周刊》栏目。
图1 全球首位虚拟主播“阿娜诺娃”(ANANOVA)
2.探索阶段(2005—2018)
视频网站的兴起,为人工智能主播提供了新的应用平台。2016 年,日本率先推出动漫虚拟主播“绊爱”(KIZUNA AI),其由真人扮演、真人配音、3D建模,主要借助动作捕捉等技术捕捉真人的面部表情。“绊爱”在语言表达和肢体动作方面都有明显进步。在这一时期,我国科大讯飞、搜狗及百度等科技公司不断钻研人工智能技术,突破了语音识别技术上的瓶颈,识别准确率再创新高,提升了新闻播报工作的效率,掀起了新一轮人工智能主播的热潮。2017 年,人工智能主播“石榴娃”在《西安新闻》节目的直播间亮相,成为全球硬科技创新大会宣传报道中引人瞩目的科技新亮点。2018 年,虚拟主持人“康晓辉”以全动态的逼真形象出现在电视上,为荧幕前的观众播报实时新闻。
3.应用阶段(2019 年至今)
人工智能主播以虚拟化、数字化的特征被广泛运用于全球电视新闻业。在中国,人工智能主播也掀起研发和应用的热潮,主要有科大讯飞系、搜狗系和百度系三大技术研发机构,其在电视新闻业的具体应用案例如表1所示。
表1 中国人工智能主播在电视新闻业的应用案例①
2020 年,全球首位 3D合成主播“新小微”亮相(见图2),其以表情多样的播报形态呈现出多场景、全方位、立体感强的效果[6]。在2021 年全国两会期间,人工智能主播实现了自由的“时空穿越”,从演播室到新闻现场,跨场景沉浸式的报道给观众带来了全新的视听体验[7]。2022 年,科大讯飞正式启动“讯飞超脑 2030 计划”,着力“软硬机器人”“数字虚拟人”等领域(见图3)。
图2 全球首位 3D合成主播“新小微”
图3 讯飞超脑 2030 计划
借助人工智能技术进行新闻播报,是我国电视新闻业的一次大胆尝试和创新。在一定程度上,人工智能主播不仅将真人主播从繁重的工作中解脱出来,而且满足了观众多元化的需求。人工智能主播助力新闻领域,推动新闻生产的智慧化变革,体现出以下优势。
1.能够运用多语言报道精准、及时、高效的新闻
人工智能主播可以借助智能识别系统,进行 24 小时循环播报工作,省时又高效,且质量稳定,避免了因外界干扰而影响播报效果的情况出现。人工智能主播的播报方式误差很小,比如口误、断句错误、字音错误等人为失误情况不会出现。
自从新华网人工智能主播“新小浩”“新小萌”上岗以来,已播报新闻 13 000 多条,为观众带来精准、及时、高效的中英文新闻资讯[8]。由此可见,对人工智能主播输入新闻文本数据后,依照一定的程序,人工智能主播就可以输出具体的新闻,保证了新闻的时效性和准确性。另外,科大讯飞研发的人工智能主播“小晴”(见图4),不仅颜值高,还精通多种语言,可在中文、日语、英语、韩语等多种语境中灵活切换。
图4 科大讯飞研发的人工智能主播“小晴”
2. 能够推荐多样性、趣味性的新闻内容
自人工智能主播诞生以来,电视新闻节目一直在尝试突破与创新。人工智能主播借助智能推荐系统发挥数据采集、数据处理、数据计算、模型训练等优势,精准推送符合观众需求的新闻,同时也呈现出多样化的新闻播报模式[9],主要体现在:(1)人工智能主播实现了新闻播报多场景穿越。AI技术赋能下,人工智能主播实现了从实体演播室转至虚拟场景的播报,高度还原了新闻现场,满足了新闻呈现方式的多样化需求。(2)人工智能主播依托大数据和智能算法,可筛选出高质量的新闻内容。(3)人工智能主播可以凭借精准的计算能力,记录观众的观看数据,分析和反馈观众的需求,并进行相关新闻的筛选。只要新闻内容一更新,人工智能主播就会根据观众的需求,向其推送相关的新闻内容,满足观众对优质新闻的选择。
3.能够节省新闻制作成本
从人力资源成本来看,新闻生产的配音大多依赖于主持人,倘若新闻的配音稿件出稿比较慢,意味着对配音人员的要求更高。如果用人工智能主播来播报新闻,不仅不会出现问题,还能保证一定的时长和质量,节省了大量的人力,减少了人员开支。例如,腾讯、今日头条等媒介平台会在每天早上 6 点左右推送早新闻,一些早新闻的播报会运用人工智能合成的配音,节省了大量人力成本[10]。另外,人工智能主播可以穿越不同场景,切换现场报道,打破时间和空间的限制,不仅节省了人力,而且降低了新闻制作成本。就实际费用支出来说,出于资历、物价等因素的影响,真人主播的工资一定是逐年上升的,但人工智能主播只需支付一定的维护成本,一次性投资即可反复使用,成本相对较低。
4.能够优化信息传播效果和用户体验
从信息获取和传播的效果来看,人工智能主播播报的新闻资讯保证了传播的质量和效果,有着主题突出、感染力强、信息简约、针对性强的特点,符合观众的生活节奏与阅读习惯。从用户体验来看,人工智能主播的诞生明显改变了信息传播的方式。从单纯读取文字内容的刻板反馈,到与观众双向互动的传播能力,人工智能主播不仅改善了新闻传播的方式,引起了观众对新闻内容的注意,而且提升了传播信息的接受率和转化率,丰富和优化了用户体验。
智能时代背景下,人工智能主播虽然打破了真人主播一统天下的局面,但从目前的应用情况来看,还不能做到普及化发展,仍面临很多困境。人工智能主播虽然有着技术上的显著优势,但诸如机械化、没人情味、受众度低等因素则成为制约我国电视新闻业长期发展的障碍。如何摆脱目前的困境,找到正确的发展道路,是当前新闻界亟须解决的一个重要问题。
1.播报语言生硬,拟人化水平较低
人工智能主播目前只能进行“见字读字”的单一播报,语气比较平淡、单调,词组之间、句子之间的衔接、停顿较为生硬和机械化,缺乏真人发音的自然感,偶尔也会呈现出短期记忆丧失、信息超载的状态。这是因为人工智能主播是依靠智能算法和数据语料库来完成新闻播报的,其主持风格和播报方式相较于真人主播而言,较为僵硬,少了真人主播的灵动与魅力。
人与机器的最大区别在于人有生命气息,有着丰富的经验和阅历。真人主播独特的人格魅力和情怀感染着每一位观众,能较好地将自己的情绪和思考融入新闻传播中,让观众更好地理解其深层内涵。而人工智能主播只能机械地朗读新闻文本,观众在机器身上无法感受到人特有的个性、人情味、生命活力和情感激荡,甚至长时间接触会令观众感到乏味,产生排斥心理[11]。
2.缺乏思考能力和价值判断
现阶段人工智能主播并没有独立思考的能力,所以无法对新闻进行深度解析,即把控不了新闻的思想和内涵,也不能对新闻的发展进行趋势性、科学性的预判。随着人类审美能力和价值追求的提升,观众对新闻节目也提出了越来越高的要求。真人主播能凭借优异的人格魅力和深厚的阅历知识吸引观众。人工智能主播虽能不间断地工作,但相比真人主播而言,还存在思维局限和应变能力不灵活等问题,也因此造成对新闻内容理解和判断不足,容易出现虚假新闻的情况[12]。
人工智能主播是不具备人类思维意识的复读机器,其只能播报标准式的新闻文本内容,不能对其进行理解和思考。人工智能主播的大脑不像人类一样会感知周围的环境,更体会不到人类内心深处的想法,无法与观众产生共鸣,也就无法对新闻进行有温度、有情感的报道,只能机械式地完成命令。因为缺乏思考能力,人工智能主播不能一针见血、犀利睿智地评论新闻事实、表达观点,也无法对新闻内容进行深层次的感悟,缺少对新闻内容的判断和理解。
3.情感表达匮乏
在目前的技术条件下,人工智能主播的情感表达和叙事节奏还处于初级水平,并不能做到对文字深层次的情感理解,不能做到“言志传神”。在播报时,主播要充分理解不同新闻的不同背景,并融入自己的情感,使冰冷的文字变得有灵魂。而人工智能主播的情感基调是固定的,只能模仿表层,难以通过语音内容引起观众的共鸣,也无法表达文字的深层含义。人工智能主播目前仅能做到模拟真人的表情和动作,对新闻文本和受众情感的深度推敲、感知和预测[13],依然很机械化,并不能进行真正的情感表达。也就是说,人工智能主播是没有感情、冰冷的播报机器,机器自然无法感受人类的温度,而没有情感支撑的新闻,就会失去灵魂,缺乏感染力。
4.观众认可度低
人工智能主播目前还未做到普及化应用,观众对人工智能主播播报新闻的可信度、拟人化水平和互动效果仍存疑,并不完全信任和依赖,甚至产生了模仿能力差、能动效果不好等一系列负面评价[14]。此外,人工智能主播以播报娱乐化的新闻为主,如此一来,观众只能接触到同类型的新闻,导致观众与其他新闻内容相隔绝,这对人工智能主播的发展来说也是不利的。
1.突破人工智能技术瓶颈,强化播报性能
人工智能技术是新时代的科技生产力,只有突破人工智能对话技术的瓶颈,才能摆脱机械的吐字播报风格,提高人工智能主播与观众的互动能力。人工智能对话系统主要有基于规则、基于检索、基于生成三种类型。基于规则的对话系统是机器提前设置好对话模式,写入对话内容,再进行输出;基于检索的对话系统是对已有的内容进行模型训练和学习,输出最优质的内容;基于生成的对话系统是利用计算机进行深度学习和机器学习等,使其能够根据不同的信息,得到相应的结果。目前,基于生成的对话系统是提高智能会话的重要研究领域,也是提高计算机播报质量的重要趋势。唯有将人工智能主播与人工智能技术相融合并创新发展,发挥各自优势,才能增强人工智能主播的拟人化播报水平和良好的互动能力,使人工智能主播不仅是一个信息传递者,还是一个信息处理者,进而实现人工智能主播具备情感理解和表达能力的美好愿望。
2.倡导人机协同,提升新闻生产价值
数十年的发展经验证明了机器替代人类工作,并不是一个正确的发展方向。要想让产出的新闻内容更具深度,我们应该注重人机协同,引入人的思考能力,制造更具深度的、真实的、高品质的新闻内容。虽然人工智能主播是人工智能技术在新闻传播领域的最新产品之一,但人是主宰世界的主体,有着独特的情感、意识、思想、人格等特性,任何技术都无法超越。我们应清楚地认识到,虽然人工智能技术在不断发展,但人工智能并非无所不能,更不能将人取而代之。人工智能技术只能完成机械化、简单化、基础化的新闻内容产出,无法完成复杂的、自由的创作表达。
人工智能时代,人依然是主导者,具有评判新闻真假性的主观能力。所以需要把人工智能主播视为真人主播的得力助手,发挥人工智能主播的优势与特长,代替人类行为受限或无法到达的场地工作,与真人主播一起协同开展工作[15]。同时,真人主播在机器的刺激下,需不断完善自我,发挥自身在精准分析事物、妥善处理情感元素等方面的优势,形成“人无我有,人有我优”的独特优势,从而把关新闻的生产力和生产深度。
3.具象化情感表达设计,提升与观众的互动水平
具象化情感表达,是通过对人工智能主播的面部表情、身体语言和服饰进行设计,使观众对人工智能主播有亲切感、认同感,甚至产生感情上的依赖[16]。目前人工智能主播只能模仿分析人类的表情和动作,识别记录人类的情绪,自己却不具有人类的情感表达能力,为了让观众与人工智能主播产生共鸣,设计者要创新情感表达的设计手段。首先,需要借助词性、词频、语义分析等算法深度加工文字语言,将机器不能直接理解的抽象情绪与具象化的人工智能主播情绪进行统一,然后注入人工标注的情感词典,让文字转化为情感。其次,运用 5G时代的传感器、多模态数据识别等技术,对观众的心流体验、面部表情、肢体语言等信息进行提取与分析。人工智能主播可以根据观众对信息的情感和喜好,模仿人的思想,并给予情感反馈,满足观众的心理需求,提高互动水平。
马歇尔·麦克卢汉(Marshall McLuhan)曾提出“媒介即讯息”的观点,认为传播形态和传播方式的变革,是由每一次媒介技术的变革催生的,而人工智能主播是一种新技术赋能的产品,必然会给电视新闻业带来影响[17]。事实上,人工智能技术在新闻传播领域的应用是通过计算机将人的肢体、感官,甚至是人类的精神活动和思维活动以程序的形式,完美地呈现出人的活动过程。虽然人工智能主播面临的挑战是多元的,但人工智能技术也在不断更新发展,人工智能主播在电视新闻业的未来发展前景仍然可观。
人工智能主播的革新意味着在角色设置上有更多的创造性,也就是我们通常所说的人物角色的再设计方面应添加必要的元素,如在外形、语言、声音等方面设计新颖而有吸引力的形象。在未来,语音识别、人脸建模、口唇预测、音频驱动等技术会逐渐成熟,人工智能主播可基于多维度的观众画像,实现个性化开发,为观众提供多种角色自由选择的订制服务,打造专属于观众个人的人工智能主播。例如,观众不仅能通过语言、音色等对人工智能主播的唇部进行控制,还能根据自己的喜好、兴趣、职业、年龄、性别、视觉等需求,选择个性化的人工智能主播。通过改变人工智能主播的外形皮肤、性别年龄、人格个性等,使其以俱佳的形象气质适用于不同的场景。
目前人工智能主播虽然在人物还原、语音发音及细微表情处理等方面已实现了质的飞越,但在智能化方面还存在不足。现实中,真人主播不只负责完成某一项工作,还要负责前期策划、编辑文本、现场采访、视频拍摄及直播导播等工作。因此,人工智能主播在未来不仅要提升形象、动作及语言,还要引入智能领域的“采、编、播”一体融合。又或者,人工智能主播在未来将越来越有“感情”,无限接近真人主播,能运用数据和案例,为节目策划和精准分析提供一定的依据和决策。人工智能主播还可以紧跟时代节奏,迎合观众的需求,依托人工智能技术制定采编计划,创新播报形式,产出高效高质、符合观众需求的优质新闻作品。因此,人工智能主播具有广阔的发展前景,是未来电视新闻业和人工智能产业融合发展的结晶。
人工智能主播作为一种高科技产品,倘若仅局限于单一场景的应用,未来前景将令人担忧。因此,需不断提高人工智能技术的成熟度与市场的认可度,让人工智能主播在新闻、直播带货、医疗、娱乐文化、教育等领域大放异彩,进而形成多元场景的发展格局。例如,在直播带货领域,打造个性化的虚拟IP形象,以“线上+线下”双渠道联动的形式,唤醒观众潜在的心理需求,形成情感共鸣,激发观众的购买欲望,创造更大的商业价值;在教育领域,人工智能主播可以在线传授趣味化的知识,以有趣的课程讲解加深学生对知识的理解。此外,人工智能主播还可以使用多种网络资源实现实时互动教学,为学生提供“面对面”的权威知识讲解等,拉近与学生的距离。
人工智能时代,随着时间的推移和技术的进步,人工智能主播的应用进一步深入,重塑并奠定了电视新闻业发展的基础。“人工智能+新闻媒体”的融合,为电视新闻业开创了丰富、多元的可能性,革新了新闻播报的方式,提高了新闻传播的速度,创新了新闻呈现的形态,降低了节目制作成本。但需注意的是,当前人工智能技术在新闻传播领域的应用还存在不足,人工智能主播作为新一代产品,仍有改进的空间,未来应向着更加高效化、创新化、个性化、智能化的方向不断迈进,不断推广应用于更多的领域。总之,未来的电视新闻业应树立互联网思维,主动“拥抱”人工智能技术,紧跟时代发展,在充分发挥真人主播独特价值和个性风格的同时,不断增强人工智能主播的能力,把人工智能主播看作与真人主播一同工作的“战友”和“帮手”,使真人主播与人工智能主播能够更好地实现人机协同、互补共赢发展。
注释
①资料来源:根据各媒体官方网站信息整理而成,具体参见中国新闻网、央视网、新华网等。