帕力达·阿尔米亚
国家广播电视总局最新发布的《广播电视和网络视听“十四五”科技发展规划》中明确指出:要推动虚拟主播应用于新闻播报等节目生产[1]。AI虚拟主播已经在主流新闻媒体上担任出镜主播职务。显然科技发展带来了新闻播音生产方式的全面变革,这也将成为虚拟主播在新闻领域持续发展的本质驱动力。然而目前对于AI人工智能技术的开发程度还非常有限,AI虚拟主播并不能完全取代真实新闻主持人,因为AI人工智能还不具备人类情感。但是却可以通过“智慧人”“数字人”“陪伴者”“讲述者”等方式来优化新闻播音生产方式,进而实现新闻语境人格化、新闻稿件定制化、新闻报道场景化、新闻故事立体化。
目前AI虚拟主播还不具备自主意识,对新闻内容的播报还属于简单的文本转述。新闻事件评述、新闻内容深度解析、新闻稿件自主编排等方面的播出功能尚未健全。虽然人民日报社AI智能编辑部设计了新华智云系统,将AI人工智能嵌入了新闻场景,通过自主研发设计了集合“策、采、写、编、发、审”全流程的AI“媒体大脑”,但是该系统也需要提前编辑并通过人工审核,才能作为播报内容呈现给终端用户[2]。
自从AI新闻主播被引入新闻行业,始终未能完全脱离“人工合成”的技术范本,所有出镜的AI虚拟主播,都是根据真实新闻主播人物采集的数字化场景信息,而后再通过语音合成、人脸识别、图像合成、机器翻译等多项AI技术进行视觉化呈现[3]。比如,科大讯飞和南方财经推出AI虚拟主播俎江涛,便是通过模仿真实主持人俎江涛的声音来进行新闻播报的,同时在人物形态和肢体语言方面,也是参照现实新闻工作者来作出的数据模拟。
新闻播音启用A I虚拟主播智慧,最为核心的技术是“虚拟数字人”。为了让虚拟主播的表情、动作、语音表达自然逼真,虚拟数字技术始终在不断升级。早期通过提前录入新闻稿的方式对口型完成初稿报道,后期还需大量人工审核和校对[4]。但是在虚拟数字技术升级后,可以通过语音合成、自然语言理解、3D美术、光学捕捉、视频驱动等多维技术进行组合,在AI算法的驱动下,让虚拟主播具备高拟人度的表现力和感染力。通过多种虚拟数字技术完成形象升级的AI虚拟主播,具备了近似于真实人物的形象特征,播音语音也能够达到更高契合度的拟人化效果。
在千篇一律的新闻播音中,观众初期接受虚拟主播,关注度居高不下,是因为科技带来的新鲜感。但是当新鲜感逐渐消失之后,观众对AI虚拟主播的人物脸谱将产生一定的审美疲劳,此时更具个性化的新闻主播才是与观众心系一处的连接纽带。所以,新闻语境下的AI新闻主播必须重构人物脸谱,从普遍语言行为过渡到具有个性化语态、语言特点、发音习惯的“智慧人”[5]。进而实现新闻语境人格化,为AI虚拟主播重塑生命力。
新闻语境人格化塑造的AI“智慧人”形象,可以利用3 D塑形技术,自动生成AI虚拟主播的人物脸谱,尽量以具有个性化的主播人物脸谱来引导观众形成视觉记忆和人物记忆。这样可以为AI新闻主播策划独立“人设”摆脱模仿其他真实主播人物的刻板印象。当AI虚拟主播有了独特脸谱、个性“人设”,那么也就相当于创生了一个新形象,故而受众能在虚拟主播新闻语境下产生独特记忆,也因此形成了固定新闻阅读群体。
在新闻传播领域,比传统采编更强大的不是虚拟主播,而是掌握了虚拟主播、在A I赋能之下掌握“采、编、播、审、存”能力的AI新闻“数字人”。个性脸谱和微表情是构建“智慧人”的外在形象,对AI新闻逐步人格化具有加深形象记忆的效果。但是仅勾勒AI虚拟主播的外部形象,还不足以呈现完整的人物画像,需要完成新闻稿件定制化,进而通过打造“数字人”AI虚拟主播,进一步升级新闻稿件的智能化处理业务。
首先,应根据AI主播的虚拟人设定来采集关键信息,加强内容生产的针对性。其次,素材只能用来决策定制化报道的方向,但是有了报道素材之后,还要将其编辑为适合AI虚拟主播的音频资料。再次,直播字幕系统和智能语音系统应进一步联合应用,就可以在AI虚拟主播新闻播报环节中提高播音正确率,匹配字幕文本的准确率也会随之提高。同时应深度开发全链路智能语音技术,为A I虚拟主播匹配ASR、NLU、DM等核心技术的语音功能包,利用TTS(Text-tospeech)的强大合成能力,应对各种新闻场景来设定主题音色,适当调整AI虚拟主播新闻播报语速。最后,新闻发布之前还有极为重要的审稿阶段,智能内容监审系统虽然具有语音转写、人脸识别、声纹识别等人工智能技术支持,可以检索关键人物和信息,从而完成新闻稿件自动校对。但是AI虚拟主播并不一定会出现播音语言、口型、声调错误,却很可能出现微表情管理错误。鉴于目前尚未设计出有针对性的自动化审稿方案,应对虚拟主播新闻播音排练阶段进行人工审核,最大限度控制AI播报质量。
除此之外,还有一个非常重要的存储环节,是在智能内容管理平台上对虚拟主播在新闻播报阶段的表现情况进行存储,存储数据不仅保护了语音资料,同时也包括外部收视情况等方面的数据结果。而这便是后续加强AI虚拟主播在新闻播音质量方面的重要衡量指标,可以通过音视频内容监管、检索、自动编目、自动化标签等功能来进行深度比对,由人工智能完成深度学习,并逐渐改善AI虚拟主播的新闻播音水平。
Ai虚拟主播在特定新闻场景下具备有针对性的新闻服务功能。因为AI虚拟主播在人格化和定制化的基础上,可以衍生出“智慧人”和“数字人”的强大新闻服务功能,所以对于绝大多数用户而言,AI虚拟主播不再是冷冰冰的机器系统,而是具有深度体验感知的“陪伴者”。当AI新闻主播成为终端用户不可或缺的“陪伴者”时,也就加强了AI虚拟主播的存在感,对改善虚拟主播的新闻报道浏览量和关注度均具有重要支持作用。
一方面,可以围绕新闻节目和主持人来设计一款陪同真实主持人出镜的虚拟主播。比如,央视频最新推出的《“冠”察两会》节目中,“AI王冠”虚拟主播与财经评论员王冠同框,针对新一年国家计划减税降费,帮助企业焕发生机等系列政策进行了解读。“AI王冠”虚拟新闻主播的播音语音表达清晰,而且微表情和手势运用等肢体语音控制得当,同屏互动之下“AI王冠”虚拟主播与财经评论员王冠完成了协同报道,配合默契的虚拟主播成为了真实新闻主持人的“陪伴者”。
另一方面,可以针对特殊报道场景设置专项功能的AI虚拟主播。比如,《珠海新闻》启用了人工智能手语播报系统,该系统是将人工智能手语翻译技术应用于电视节目,通过AI计算将新闻资讯转换成可供听障人士使用的国家通用手语,虚拟AI主播通过手语动作、表情、唇语等,实时翻译电视新闻节目内容。《珠海新闻》作为广东省第一个在新闻直播节目中应用智能手语的电视节目,这也是珠海传媒集团在媒体融合进程中积极接轨最新人工智能技术、构建无障碍传媒环境的一项重大举措。
相比于传统新闻报道形式,A I虚拟主播是集合了人工智能技术、大数据技术、视觉呈现技术的信息化发展结果。虽然AI虚拟主播很难达到完全如同真实新闻主持人的播音语音自然度,但是却可以从诸多方面进行弥补,从而在新闻故事呈现效果上达到立体化。当AI新闻主播不再是新闻稿件的简单“复述者”,而成为新闻故事的“讲述者”,那么对于新闻视角的延展和观众的互动效果都会产生积极作用。
AI新闻主播应具有更生动的表现力,编辑一篇稿件或一个主题词,可以海量视频与图片资源为基础,以智能标引技术、语音合成技术、语义检索等智能化技术作为支撑,实现高质量新闻故事视频的一键智能生成,从而大幅提升新闻故事的编辑制作效率,在最大程度上促进新闻故事的立体化生产。比如,彩云小梦与喜马拉雅合作推出了A I 人工智能创作主播“喜小道”,只需为人工智能提供1 到1000字的开头,即可完成后续故事编辑。如果为该系统提供相应的新闻素材,然后再编辑成新闻故事,相信会在很大程度上提高观众的接受度。AI虚拟主播“喜小道”采用了TTS(Text-to-speech)技术,可以通过TTS框架来处理前端文本的信息框架,具有高精度、全自动地对文本进行多音字识别、韵律预测、风格分类等实用性功能。同时AI虚拟主播“喜小道”具有演绎不同情绪的播音能力,可以通过T T S技术模型构建多风格、多情感、多语种声音形态,因此播音语言的情感和韵律可以在很大程度上丰富新闻故事呈现效果。
综上所述,通过解构AI虚拟主播的新闻播音生产方式可知,目前AI人工智能技术应用于新闻领域,主要是以文本标准为前提的转述,也有以人工合成为基础的语态,同时还有以虚拟数字为核心的标准。进一步重构AI虚拟主播的新闻播音生产方式,应打造“智慧人”新闻语境人格化,设计“数字人”新闻稿件定制化,创造“陪伴者”新闻报道场景化,丰富“讲述者”新闻故事情感化。从而用“智慧人”赋予虚拟主播人物性格,用“数字人”优化虚拟主播新闻报道内容,用“陪伴者”身份巩固虚拟主播的用户体验度,再通过“讲述者”身份为新闻故事呈现提供情感的表达力。