百度发表了其研究的深度语音系统的最新进展,表示该系统可以在几秒钟之内完全克隆任何人的声音。
深度语音系统是基于深度神经网络构建的文本转语音系统。在发出“人声”之前,该系统需要时间学习录音素材中的数据。第二版的深度语音系统的学习时间需要90分钟,第三版则把這个时间缩短到了30分钟,而现在,最新版的深度语音系统“克隆”人声仅需要几秒钟。不仅如此,该系统能够实现声音性别转换,比如将女性的声音转换为男性的声音;还能实现口音转化,如将普通话转化为地方口音。
或许在将来,各种角色扮演游戏中每个人的角色都能够发出和自己一样的声音了,让你有更好的游戏体验;或许父母可以让AI用自己的声音给孩子读睡前故事。但也有人会担忧,AI模仿人声过于逼真了,我们未来会受到更多假新闻的轰炸,比如有人用AI模仿某个公众人物的声音,传递假消息。
而且,这样一来,各种语音锁还安全吗?