梁志立
(肇庆高新区广播电视中心技术播出部,广东 肇庆 526238)
2016 年,当AlphaGo 战胜围棋世界冠军,人们意识到人工智能(Artificial Intelligence,AI)时代即将到来。近两年,AI 虚拟主播已经广泛运用于广电行业。随着技术的发展和成熟,未来AI 虚拟主播将在广电行业中扮演越来越重要的角色。
2001 年,世界上第一个虚拟主持人“阿娜诺娃”诞生,是一个2D 化虚拟人物。它是电脑生成的动画人模,表情略显僵硬。2004 年,央视CCTV6 频道推出了国内首位电视节目虚拟主持人“小龙”。采用三维形象技术,人物具备肢体动作和相应的表情,进一步提升了逼真度。此后10 多年,虚拟主播发展进入相对停滞期。2016 年,超级AI 虚拟主播“绊爱”在YOUTUBE 上首次亮相。它由真人扮演、3D 建模,捕捉了真人动作及表情,并由声优对口型配音,在语音和动作方面较早期虚拟主持人有了明显进步。2016 年,科大讯飞、搜狗及百度等科技公司凭借AI 技术的积累与开发,实现了语音识别技术的飞跃,产品语音识别准确率均达到97%。这一关键技术的突破,大大提升了AI 虚拟主播的工作效率,从而掀起了新一轮AI 虚拟主播热潮。2018年5 月,科大讯飞携手相芯科技打造了虚拟主持人“康晓辉”,形象更为逼真,较以往实现了较大进步。截至2018 年底,各大平台上的虚拟主播已经超过6 000 个。2019 年春晚,AI 虚拟主持人团队诞生,只需要一段既有的新闻文本,虚拟主播就可实时进行播报,与真人无二。2020 年,全球首位3D AI 合成主播亮相。主播高度智能化,在交互能力和场景应用方面取得了巨大的进步[1]。
随着语言识别和图像处理等技术的飞速发展,AI 虚拟主播已经实现消费级的技术降维,使得AI虚拟主播应用在各领域迅速铺开,尤其是在广电行业的使用上,已经从省级媒体向县市级媒体延伸。
2020 年2 月16 日,广西壮族自治区首位AI 虚拟主播“小晴”登陆广西卫视新媒体平台“战疫情”特别报道。结合讯飞的语音合成、语音识别、语义理解、人脸识别、人脸建模、口唇预测、音频驱动、图像处理及机器翻译等多项人工智能技术,面向各类视频播出和交互场景,利用2D/3D 虚拟形象代替真人主播。AI 虚拟主播“小晴”支持预置文本,可将文稿一键自动输出为音、视频并实现多语种的自动播报,实现了智能交互[2]。凭借高性价比和使用便捷等多种综合优势,AI 虚拟主播“小晴”迅速在各级媒体采用[3]。主播形象如图1 所示。
科大讯飞AI 虚拟主播支持形象租用和形象定制两种方式。形象定制是针对用户需求定制用户专属虚拟形象。形象租用方式是AI 虚拟主播产品的一大特点,用户只需每年支付一定费用即可获得授权租用。产品配备专属合成声音库,用户只需输入文本即可一键生成所需视频。
2018 年11 月8 日,AI 合成主播在新华社客户端和公众号上线使用。采用搜狗人工智能的核心技术“搜狗分身”,运用“自然交互+知识计算”两大能力,从图像表情、声音语言习惯及逻辑思维等层面对AI 进行拟人化训练,进而克隆制造人类的AI分身。只需输入一段既有的新闻文本,AI 合成主播就能实现实时播报。使用wavernn 波形建模技术,实现了更逼真的语音合成效果,使主播声音情感更加真实。在播报过程中,AI 虚拟主播的唇型、神态及表情等也能与真人主播完全吻合。AI 合成主播形象如图2 所示。
图1 AI 虚拟主播“小晴”
图2 分身技术打造的AI 虚拟主播
该技术通过人脸关键点检测和三维人脸重建等技术,从少量录制好的视频中深度学习语音、人脸表情及动作等信息,可快速定制出高逼真度的分身模型。系统支持音视频流输出和离线视频文件快速导出,提供公有接口调用和私有化部署的多套解决方案,还可灵活支持对分身的音色、语种、形象服装、视频背景及对话等的个性化定制。AI 分身技术生成主播形象的过程如图3 所示。
图3 AI 分身技术
2020 年5 月22 日,首位3D 版AI 合成主播“新小微”在新华社全国两会报道应用。“新小微”的原型是新华社记者赵琬微,采用超写实3D 数字人建模、多模态识别及生成等技术,在视觉效果、灵活度、交互能力及应用空间等方面,与其他AI 合成主播相比有了大幅跃升。“新小微”形象如图4 所示。
图4 3D AI 虚拟主播“新小微”
“新小微”的研发需要进行海量数据采集工作。超过百个的摄像头对着原型人物身体部位进行“打点”扫描,360°全方位无死角地收集每一个动作的细节,并且对多种形态的表情和动作进行细致入微的捕捉记录。数据采集过程如图5 所示。
图5 数据采集
“新小微”采用超写实3D 数字人建模、多模态识别及生成等技术,不仅形象更加真实立体,而且其播报口型、肌肤毛孔以及发丝等细节也都清晰可见,如图6 所示。另外,“新小微”通过AI 技术来驱动3D 模型,生成时长为1 min 的视频只需要1 min 时间即可完成,大幅度提升了写实任务的制作效率,降低了制作成本。
图6 AI 虚拟主播面部表情
与前面两个案例相比,3D AI 合成主播拥有超写实、360°展现及灵活可控等优势,但是目前3D版AI 合成主播形象的动画痕迹比较重,制作需要采集的数据量较大,身体部位、表情及动作需要大量模块化处理和组装,因此在普及和应用层面存在一定的难度。
目前,国内各大科技企业都在加大对AI 虚拟主播的研发和应用。除了上述的科大讯飞和搜狗等科技公司,京东、腾讯、百度及阿里等科技巨头也都在各自领域研发并使用AI 虚拟主播。虽然在人物还原精度、准确的语音及细腻的表情等方面,虚拟主播形象已经实现了质的飞越,但是智能化方面还普遍存在不足。现实中,广电行业的主播不只是单一的节目主持,要做的工作还包含如策划、编辑、采访、制作及导播等,因此未来AI 主播除了在形象、动作及语言等视觉技术上提升外,更要加强智能化,如采用AlphaGo 掌握的“深度学习”工作原理[4]。如果未来广电行业的AI 虚拟主播除了能实现自然顺畅的人机交互和高效、准确的播报功能外,还能综合运用数据与案例,提供丰富准确的节目、新闻分析及策划,势必会给广电行业带来全新的变革与发展[5]。
随着技术的飞速进步,未来AI 虚拟主播一定会广泛应用于日常生活的各个领域。这是科技进步的魅力,也是人类能不断前进的动力所在。