文| 马 迪
在更完善的监管和鉴别技术诞生之前,千万记住:眼见不一定为实,时刻保持警惕。
自2022年年底至今,由ChatGPT打开的“AI宝盒”仍在不断涌出新的魔法。最近,“郭德纲用英语说相声”“泰勒斯威夫特说流利中文”等视频在社交平台疯传,在这些视频中,这些公众人物的外语不仅发音准确、语法地道、口型贴合,连音色都跟其本人高度相似,几乎可以以假乱真。
这就是AIGC带来的“新玩法”,一键翻译视频AI工具—HeyGen,来自一家名为诗云科技的中国公司。登录其网站,免费用户可以上传5分钟以内的视频文件,只需选择语言,就能在数十秒到数分钟内生成高质量的外语配音视频。在郭德纲视频的破圈影响下,最火爆时,网站上排队的生成任务有数万个之多,AI语音合成的魅力再次得到充分验证。
语言的诞生曾经是人类社会最重要的转折点之一。人的声音本身就具有惊人的多样性,没有两个人的声音是完全一样的,再加上各种语言、口音、习惯和情感表达,决定了机器合成人类的语音绝非易事。
语音合成有三个不同层次,可懂、自然、有情感(抑扬顿挫)。最早的尝试可以追溯到18、19世纪,当时的科学家主要是用机械装置来模拟人的声音,比如1791年维也纳发明家沃尔夫冈·冯·肯柏林,就用机器模仿了人类说话所需要的各种器官—用一对风箱来模拟肺部,一根振动的簧片充当声带,还用动物的皮分别仿制了喉咙、舌头和嘴唇。通过控制皮管的形状和舌头、嘴唇的位置,这部机器能够发出一些辅音和元音,但还说不出完整的单词。
很显然,人的发声系统精巧复杂,用机械的方式是很难模仿的。1939年,贝尔实验室推出了第一台电子语音合成器(命名为VODER),利用电子设备模拟声音的共振。这是一台相当复杂的机器,有14个类似钢琴的按键,一根由手腕控制的操纵杆,还有一个脚踏板。使用者需要经过长时间的训练才能掌握这复杂的操作,比如要发出“专注”(concentration)这两个字,必须连续按出13种不同的声音,加上手腕上的操纵杆上下运动5次、脚踩踏板3到5次。
到了20世纪80年代,随着集成电路技术的发展,出现了比较复杂的组合型电子发声器,有代表性的是美国科学家丹尼斯·克拉特在1980年发布的串/并联混合共振峰合成器。它的原理是分别用不同的数学公式来模拟人的三个发声环节,即振动源、声带和声道,再串接起来模拟人的发声。
90年代,大家发现参数合成的方法无论怎么改进都无法提高性能,于是开始用更直接的方式—波形拼接法。以中文为例,带声调的拼音音节有1400多个,干脆每个音节都录几十个样本,使用时把最合适的样本调出来拼接,形成语音。这种方式虽然粗暴,但颇为有效。
从2014年开始,深度神经网络也开始参与到语音合成技术中,大大提高了合成的质量—这一阶段开始,AI语音不但好听易懂,机械味也逐渐淡去,变得越来越自然了。语音合成开始像真正的语言一样,向更真实、更交互的方向发展,成为人与AI沟通的重要方式。
前不久,ChatGPT上线了语音功能,其拟真程度令人惊讶。比如它会结合语境进行语气处理,加入情感语气,也会在段落中间加上一些组织语言的词比如“emmm”。它会找重点,会调节字词之间的语速,你甚至能听到它轻微的呼吸声、口齿音,一些平卷舌和鼻音的小瑕疵。
比如为了防范诈骗,很多人会在收到文字转账或借款消息时,打一个电话确定对方是不是本人,现在这个方法显然不可行了。随着算力和算法的进步,骗子只需要从某个人的社交媒体上提取数秒钟的视频音频片段,就能模拟出他的声音,加上诸如deepfake这样的实时换脸工具,即使视频通话也不一定保真了。
人工智能可以成为向善的力量,但也有变坏的可能性。在更完善的监管和鉴别技术诞生之前,千万记住:眼见不一定为实,时刻保持警惕。