如何成为一名AI合成主播

2021-04-16 16:39许舟
科研成果与传播 2021年3期
关键词:真人助手音频

许舟

2018年11月7日,新华社联合搜狗公司在第五届世界互联网大会上发布了全球首个合成新闻主播——“AI合成主播”,这是通过提取真人主播新闻播报中的声音、唇形及表情动作(如挑眉、耸鼻)等特征,建立语音数据库和面部信息数据库,让计算机深度学习并联合建模训练而成。该项技术能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果[1]。

期间在会上演示的主持画面视频,行云流水,惟妙惟肖,着实赚足了眼球,引发了世界范围内的密切关注,CNN、路透社、华盛顿邮报等多家媒体同步进行了报道。

而仅仅过了4个月,在之前的AI合成主播基础上,新华社联合搜狗公司再次推出了“站立式”AI合成女主播,并参与全国两会的新闻报道,在两会期间,共计播报稿件236条,累计浏览量超1.3亿。冬奥会也将有AI合成主播亮相。而广大民众在惊奇之余,更多地则想知道这名“一夜爆红”的新主播到底是如何诞生的。

从配角到主播

众所周知,一般人想要当上新闻主播都得历经层层考验,AI合成主播当然也不例外,在此之前,它也度过了一段漫长的“上岗之旅”。一开始,它只是作为其他主播的得力助手,通常只会有声音出现,或者为之匹配一个量身定做的虚拟形象辅助播报,实际上,这就是大众熟知的语音助手,比如曾在东方卫视担任天气预报员的微软小冰,就属于此类。

那么这类“语音助手”如何才能晋升成为正式主播呢?简单来说,与真人主播类似,“工作经验”和“能力”是不可少的,前者对于“语音助手”来说并不困难,毕竟目前市面上语音助手百花齐放,随便叫上一个都能和你唠上老半天,因此它们需要提升的是文本识别准确度及语音合成的精度,而辅助主播播报稿件正是为了获取更多的数据样本,不断改进。

除此之外,还需要一点“运气”,俗话说“三分天注定,七分靠打拼”。随着人工智能技术(AI)逐渐成熟,同时也为了及时响应中央提高舆论引导能力的要求,主流媒体将该技术引入新闻生产,以AI为基础、以人机协作为特征、以大幅提高生产传播效率为重点[2],让“语音助手”摇身一变,从配角正式成为了在岗主播。

自此,AI合成主播与其他主播一起,为公众带来及时、准确的新闻报道,并且相较于真人主播,AI合成主播可24小时不间断播报,从而提升电视新闻制作效率,降低成本,还能在突发报道中快速生成新闻视频,提高报道时效和质量[2],而这背后自然离不开技术的进步。

真人主播的“分身”

如果仔细观察AI合成主播不难发现,在它们身上隐隐能感受到几分熟悉,没错,因为这些AI合成主播的原型大多来源于真人主播,比如首发的“新小浩”是以新华社主持人邱浩为原型,后续发布的AI合成主播“新小微”则是以新华社记者赵琬微为原型。虽然是虚拟的,但AI合成主播仿若他们的克隆分身,不管是看上去还是听上去都非常逼真,而要达到这样的效果,离不开两大关键技术:语音合成技术和图像生成技术。

其一是语音合成技术,通过人工智能技术识别文本,并基于用户的音频数据,合成一条语音。但我们不想要机械化的电子音,而希望得到的是有温度、有情绪的人声,那么如何得到人的语音呢?

语音主要有三个要素:音色、韵律和信息。音色是指这段话出自谁之口,韵律就是我们的说话节奏、音高和音强,信息当然就是指说了什么内容。如果想要模仿某段语音,可以将这三要素拆解、组合,从而得到一段与原语音非常接近的合成声。

当然,其中的过程也并非说起来这么简单,实现起来还需要AI算法的支持,例如谷歌的SV2TTS算法,它的工作流程分为三步,Encoder(获取语音)、Synthesizer(合成语音)、Vocoder(生成语音)。首先通过Encoder模块提取音色向量,然后由Synthesizer模块将语音中的文本再合成一段新的语音,同时加上提取的音色向量,最后由Vocoder模块转换成我们最终听到的声音。至此,建立起语音文本(输入文本)与输出音频信息之间的关联。

其二是图像生成技术,通过动态捕捉、人脸关键点检测、特征提取、重构等技术,对人脸表情、情绪进行学习和建模,并完善输入文本、音频、视频等信息的映射关系,生成分身视频。

在兩项技术的配合下,最终实现AI合成主播。虽然未来可期,但从目前的应用来说,AI合成主播缺少真人主播的创造性和思考,只能按照系统指令机械地输出对应文字和语义,无法结合上下文进行自主判别[3];同时,由于图像传输技术的不稳定性,有时会出现口型对不上或是肢体穿模,对受众产生“恐怖谷效应”。所以,无论从技术还是用户观感上,AI合成主播都还有很大的进步空间。

参考文献

[1]新华网.全球首个“AI合成主播”在新华社上岗[EB/OL]. (2018-11-07)[2021-12-19].http://media.people.com.cn/n1/2018/1107/c40606-30387542.html.

[2]周信达.从人工智能的应用尝试看新闻业的未来趋势:以AI合成主播为例[J].青年记者,2019(9):2.

[3]何强.人工智能在新闻领域应用的新突破:从全球首个“AI合成主播”谈起[J].新闻与写作,2019(5):3.

猜你喜欢
真人助手音频
On Doors
Egdon Heath (Extract from The Return of the Native)
Beethoven’s Centenary1 (Extract)
真人秀F2
变色龙
小助手
COCO×读者 真人亲身拍摄体验
发明速递
灵感助手表彰大会(二)
灵感助手表彰大会(一)