程醉
2018年11月7日,在第五届世界互联网大会上,搜狗与新华社联合展示了全球首个全仿真智能AI主持人。“他”以中国新闻主播邱浩为原型,一经亮相便引起了巨大的轰动。这名AI主持人之所以成了最耀眼的明星,主要是因为“他”除了口型稍微有点儿对不上之外,不论是表情还是声音都达到了以假乱真的地步。
那么,到底什么是全仿真智能AI主持人呢?
要搞清楚这个问题,我们就要先来具体了解一下什么是“AI”。所谓“AI”其实就是人工智能的英文缩写。AI是计算机科学的一个分支,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它主要包括机器人、语言识别、图像识别、自然语言处理以及专家系统等。专家系统是一种模拟人类专家解决问题的计算机程序系统。
简单地说,全仿真智能AI主持人就是利用人工智能技术,通过模仿真人主播的形象和声音来朗读文本内容的数字化播报员。新闻界称其为“AI合成主播”。
当然,如果仅仅只是一个简单的数字化播报员不会引起各界如此强烈的关注。“AI合成主播”能够结合新华社客户端“现场新闻”,将“AI合成主播”与短视频一体化生产制作,呈现令人耳目一新的新闻短视频。“他”不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音频、视频与AI真人形象合成的先河。
从官方透露的信息来看,新华社的这个“AI合成主播”主要是在搜狗“分身”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,结合语音、图像等多模态信息进行联合建模训练,而后生成与真人无异的AI分身模型。
那么,搜狗的“分身”技术具体指的是什么呢?
搜狗“分身”技术诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。这项技术让机器首次做到逼真模拟人类说话的声音、嘴唇动作和表情,并且将三者自然匹配,做到惟妙惟肖,这是人工智能技术在模仿人类领域的一个新突破。
这些人工智能技术主要包括语音合成技术、唇形合成技术、表情合成技术以及自然语言处理技术等。其中语音合成技术又涉及支持数十种音色的高表现力音色,使用少量数据即可生成说话人的合成音色个性化合成技术,可实现说话人多种风格迁移的技术等。
简而言之,生成“AI合成主播”大致分为三步走。首先是被模仿者在镜头前录制一段音频、视频数据。然后,“分身”技术提取被模仿者的声音、表情、唇形等个性特征。最后,利用语音合成、表情合成、唇形合成技术,再加上深度学习技术即可合成一个惟妙惟肖的AI主播。
目前,AI合成主播已经在新华社正式上崗,并且被运用到进出口博览会、世界互联网大会等重要新闻事件的报道当中。“他”基本上能够同其他真人主播一起,为观众带来权威、及时、准确的中、英文新闻资讯。
AI合成主播相比真人主播最大的优点就是能够24小时不停歇地工作。不但能够提升滚动媒体的新闻制作效率,还可以有效地降低新闻的制作成本。
那么,在了解了AI合成主播的情况之后,大家难免要为现在的真人主播们担忧了。这不是活生生抢饭碗的来了吗?
其实,就目前来看,大家的担心还为时过早。因为,作为一名还处于研发过程中的AI新闻主播,“他”本身还有许多需要改进和完善的地方。
不过,未来基于人工智能技术的风格各异的人类形象,在医疗、教育、媒体、法律咨询等方面的应用前景无疑是十分广阔的。
(编辑 文 墨)