AI 虚拟主播技术的发展和应用分析

2021-04-07 00:28:04梁志立

电视技术 2021年2期

梁志立

（肇庆高新区广播电视中心技术播出部，广东肇庆 526238）

0 引言

2016 年，当AlphaGo 战胜围棋世界冠军，人们意识到人工智能（Artificial Intelligence，AI）时代即将到来。近两年，AI 虚拟主播已经广泛运用于广电行业。随着技术的发展和成熟，未来AI 虚拟主播将在广电行业中扮演越来越重要的角色。

1 AI 虚拟主播的发展历程

2001 年，世界上第一个虚拟主持人“阿娜诺娃”诞生，是一个2D 化虚拟人物。它是电脑生成的动画人模，表情略显僵硬。2004 年，央视CCTV6 频道推出了国内首位电视节目虚拟主持人“小龙”。采用三维形象技术，人物具备肢体动作和相应的表情，进一步提升了逼真度。此后10 多年，虚拟主播发展进入相对停滞期。2016 年，超级AI 虚拟主播“绊爱”在YOUTUBE 上首次亮相。它由真人扮演、3D 建模，捕捉了真人动作及表情，并由声优对口型配音，在语音和动作方面较早期虚拟主持人有了明显进步。2016 年，科大讯飞、搜狗及百度等科技公司凭借AI 技术的积累与开发，实现了语音识别技术的飞跃，产品语音识别准确率均达到97%。这一关键技术的突破，大大提升了AI 虚拟主播的工作效率，从而掀起了新一轮AI 虚拟主播热潮。2018年5 月，科大讯飞携手相芯科技打造了虚拟主持人“康晓辉”，形象更为逼真，较以往实现了较大进步。截至2018 年底，各大平台上的虚拟主播已经超过6 000 个。2019 年春晚，AI 虚拟主持人团队诞生，只需要一段既有的新闻文本，虚拟主播就可实时进行播报，与真人无二。2020 年，全球首位3D AI 合成主播亮相。主播高度智能化，在交互能力和场景应用方面取得了巨大的进步［1］。

2 AI 虚拟主播在广电中的应用案例分析

随着语言识别和图像处理等技术的飞速发展，AI 虚拟主播已经实现消费级的技术降维，使得AI虚拟主播应用在各领域迅速铺开，尤其是在广电行业的使用上，已经从省级媒体向县市级媒体延伸。

2.1 科大讯飞公司AI 虚拟主播“小晴”

2020 年2 月16 日，广西壮族自治区首位AI 虚拟主播“小晴”登陆广西卫视新媒体平台“战疫情”特别报道。结合讯飞的语音合成、语音识别、语义理解、人脸识别、人脸建模、口唇预测、音频驱动、图像处理及机器翻译等多项人工智能技术，面向各类视频播出和交互场景，利用2D/3D 虚拟形象代替真人主播。AI 虚拟主播“小晴”支持预置文本，可将文稿一键自动输出为音、视频并实现多语种的自动播报，实现了智能交互［2］。凭借高性价比和使用便捷等多种综合优势，AI 虚拟主播“小晴”迅速在各级媒体采用［3］。主播形象如图1 所示。

科大讯飞AI 虚拟主播支持形象租用和形象定制两种方式。形象定制是针对用户需求定制用户专属虚拟形象。形象租用方式是AI 虚拟主播产品的一大特点，用户只需每年支付一定费用即可获得授权租用。产品配备专属合成声音库，用户只需输入文本即可一键生成所需视频。

2.2 搜狗公司AI 合成主播

2018 年11 月8 日，AI 合成主播在新华社客户端和公众号上线使用。采用搜狗人工智能的核心技术“搜狗分身”，运用“自然交互+知识计算”两大能力，从图像表情、声音语言习惯及逻辑思维等层面对AI 进行拟人化训练，进而克隆制造人类的AI分身。只需输入一段既有的新闻文本，AI 合成主播就能实现实时播报。使用wavernn 波形建模技术，实现了更逼真的语音合成效果，使主播声音情感更加真实。在播报过程中，AI 虚拟主播的唇型、神态及表情等也能与真人主播完全吻合。AI 合成主播形象如图2 所示。

图1 AI 虚拟主播“小晴”

图2 分身技术打造的AI 虚拟主播

该技术通过人脸关键点检测和三维人脸重建等技术，从少量录制好的视频中深度学习语音、人脸表情及动作等信息，可快速定制出高逼真度的分身模型。系统支持音视频流输出和离线视频文件快速导出，提供公有接口调用和私有化部署的多套解决方案，还可灵活支持对分身的音色、语种、形象服装、视频背景及对话等的个性化定制。AI 分身技术生成主播形象的过程如图3 所示。

图3 AI 分身技术

2.3 3D AI 合成主播“新小微”

2020 年5 月22 日，首位3D 版AI 合成主播“新小微”在新华社全国两会报道应用。“新小微”的原型是新华社记者赵琬微，采用超写实3D 数字人建模、多模态识别及生成等技术，在视觉效果、灵活度、交互能力及应用空间等方面，与其他AI 合成主播相比有了大幅跃升。“新小微”形象如图4 所示。

图4 3D AI 虚拟主播“新小微”

“新小微”的研发需要进行海量数据采集工作。超过百个的摄像头对着原型人物身体部位进行“打点”扫描，360°全方位无死角地收集每一个动作的细节，并且对多种形态的表情和动作进行细致入微的捕捉记录。数据采集过程如图5 所示。

图5 数据采集

“新小微”采用超写实3D 数字人建模、多模态识别及生成等技术，不仅形象更加真实立体，而且其播报口型、肌肤毛孔以及发丝等细节也都清晰可见，如图6 所示。另外，“新小微”通过AI 技术来驱动3D 模型，生成时长为1 min 的视频只需要1 min 时间即可完成，大幅度提升了写实任务的制作效率，降低了制作成本。

图6 AI 虚拟主播面部表情

与前面两个案例相比，3D AI 合成主播拥有超写实、360°展现及灵活可控等优势，但是目前3D版AI 合成主播形象的动画痕迹比较重，制作需要采集的数据量较大，身体部位、表情及动作需要大量模块化处理和组装，因此在普及和应用层面存在一定的难度。

3 AI 虚拟主播未来发展及应用

目前，国内各大科技企业都在加大对AI 虚拟主播的研发和应用。除了上述的科大讯飞和搜狗等科技公司，京东、腾讯、百度及阿里等科技巨头也都在各自领域研发并使用AI 虚拟主播。虽然在人物还原精度、准确的语音及细腻的表情等方面，虚拟主播形象已经实现了质的飞越，但是智能化方面还普遍存在不足。现实中，广电行业的主播不只是单一的节目主持，要做的工作还包含如策划、编辑、采访、制作及导播等，因此未来AI 主播除了在形象、动作及语言等视觉技术上提升外，更要加强智能化，如采用AlphaGo 掌握的“深度学习”工作原理［4］。如果未来广电行业的AI 虚拟主播除了能实现自然顺畅的人机交互和高效、准确的播报功能外，还能综合运用数据与案例，提供丰富准确的节目、新闻分析及策划，势必会给广电行业带来全新的变革与发展［5］。

4 结语

随着技术的飞速进步，未来AI 虚拟主播一定会广泛应用于日常生活的各个领域。这是科技进步的魅力，也是人类能不断前进的动力所在。