倘若语言不再是人类交流的壁垒,会发生什么?
长久以来,人类都有一个共同夙愿:发明一个机器,实现全人类之间毫无障碍的自由交谈。而毫无疑问,自由交谈在一个宣称自由连接的互联网时代更能彰显它的价值——毕竟,同是地球人,同住地球村,当你我觅得彼此,却听不懂彼此语言,实在有些尴尬。
事实上,与那些让生活变得复杂的“智能产品”不同,实时语音翻译是那种让人在直觉上认为理应拥有的技术,正因如此,它也一直存在于《星际迷航》、《神秘博士》以及《银河系漫游指南》等科幻作品中。好消息是,人类似乎离这个夙愿越来越近了。
不久前,微软旗下的Skype宣布,具备实时语音翻译技术的Skype Translator中文预览版正式在中国市场推出。其实不同母语间的人直接对话,让机器实时翻译,这些技术微软早在去年就已与公众见面,只是那时还不支持中文——你知道,哪怕是对于机器,有大约一万个常用汉字以及各种语音语调的中文也颇具挑战性。但如今,包括微软和谷歌在内的科技巨头的发力,使得地球上使用人数最多的语言和使用最广泛的语言能直接展开对话。
那么问题来了,作为不同文化之间的摆渡者,倘若实时翻译真能实现人类的自由交谈,这一切意味着什么?
作为一项长久愿望,在此前数十年时间,实时语音翻译的发展一直受到错误率高、麦克风敏感度差异、噪音环境等因素阻碍。但近些年来,由于大数据的涌现,这项技术取得了不错的进展。而Skype Translator更是凝聚了微软在语音识别、自动翻译和机器学习等多领域的成果。
简单地说,Skype Translator的翻译逻辑主要分为三步:将你的实时语音转成文字;将文字翻译成另一种语言的文字;将文字转成语音。其中,识别实时语音并转成文字是最棘手的部分。
如你所知,精确的实时语音翻译有赖于强大的机器学习——也就是软件学习训练数据的能力。这些训练数据包括翻译的网页,配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。事实上,已有不少人分享了他们过去的对话记录。Skype Translator通过记录对话来分析文本并训练系统更好地“学习”语言——当准备好的数据录入系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型,当你说话时,软件会在统计模型中寻找相似内容,然后应用到预先“学到”的转化程序中,得以让语音转换为文本,再从文本转换成另一种语言。
值得一提的是,与程序设定一般的朗诵不同,人会一边思考一边说话,会犯错,这种犯错在口语表达中的体现就是打磕巴、停顿、重复或者频频出现如“嗯”“啊”“呃”之类的语气助词,而Skype Translator的机器翻译模型则会处理这些停顿。在预览版中,用户可以看到部分语气词停顿被移除,未被移除的部分则可能通过用户反馈进行再优化。
不过,作为一项不断优化的技术,无论是微软的Skype Translator还是“老对手”谷歌的Google Translate,至少在现阶段,实时语音翻译技术应该还谈不上完美,系统对语音的识别准确率也有待完善——你知道,语言如一只野兽,时刻都在变化,哪怕同一国家,因地域不同也有不同口音与俚语文化。有人就非常期待机器实时翻译以下对话:
“约吗?我在火车站等你。”
“我去!太远了!我不去!”
这些问题可以通过更大范围的数据解决吗?也许能,但还需要时间。无论怎样,就像一位评测者所言:“(如今实时语音翻译)整个体验就像是两名电话销售员在使用对讲机,不过在使用过程中,这样的抱怨将会被‘奇迹带来的震惊所取代。”
当然了,在时间线君看来,这样的“震惊”或许可以更近一步。实时语音翻译的声音在现阶段还略显冰冷,没什么生命感可言,那么在未来语音翻译是否能像某款地图一样让志玲姐姐曼妙的声音为你服务?或者可以下载电影《Her》里斯嘉丽·约翰逊那般令人沉醉的声线?
在微软亚洲研究院,微软研究院战略总监及技术顾问Vikram Dendi向《时间线》记者解释道:“Skype Translator和导航应用不太相同,后者词汇量很有限,语句有许多重复。而且,关于使用其他人的声音也可能引起一些社会讨论,譬如我能不能用斯嘉丽的声音来嘲笑别人?当然,在这个领域我们还有许多工作可以做,也有能力做好,我们需要对系统进行训练来让它像一个人的声音。不过我们最初研发Skype Translator的目标是不让它占用用户太多时间,我们希望用户只要运行程序,点击一下对话者,就可以开始说话了。这个技术已经很复杂了,现在系统就有一点延迟,因为需要等机器翻译,所以目前我们不想再给它加一层复杂度了。”
在《圣经·创世纪》中记载,曾有一个时代,人类拥有共同的语言,于是有人想在巴比伦造一座通天塔——巴别塔,以便直接跟上帝对话。
为了惩罚人类的傲慢与虚荣,上帝让这些人说不同的语言,导致人们无法沟通,鸡同鸭讲,人类计划失败,自此各散东西。
那么技术能解除“巴别塔魔咒”吗?倘若语言不再是人类交流的壁垒,会发生什么?
让我们先来谈谈语言的意义。在全球7000多种语言中(尽管有不少“小语种”已日渐枯萎),除了词汇和语法的表层差异,不同的语言是否能使人类产生不同的思维方式——譬如对时间与空间概念的认知,或者对因果关系的认知,几千年来就一直是学者们争论的主题。神圣罗马帝国的查理曼大帝就曾在科技还不甚昌明的时代宣称:“掌握第二种语言就是拥有第二个灵魂。”
当然,从科学的角度,斯坦福大学教授Lera Boroditsky也曾颇具诗意地表达过语言的意义:“每种语言都包含着一种独特的世界观,反映了使用者数千年来的思想、倾向和认知方式。一种语言就像一个完整的宇宙,人类有7000多个平行宇宙,有的彼此相似,有的大相径庭。这种巨大的多样性是人类头脑灵活性和精致性创造出的奇迹。我相信,对人类认知世界的认识越深刻,就越能更好地理解人类的本质。”
假如互联网发展的底层逻辑是将全人类更好地连接在一起,形成一个巨大村落,那么语言也许就是最后一个技术障碍。在此之前,图片作为全世界的通用语言,在社交应用上发挥了巨大作用——无论在哪个国家,笑容就是笑容,哭泣就是哭泣。当然,表情符号也发挥了类似作用——你知道吗,真的有人曾用表情符号聊了45分钟。
所以,可以肯定的是,当人类连接在一起,打破语言的壁垒,更好地理解彼此,势必将开启“地球村”的新篇章。
好吧,最后,还是善意地提醒一下那些外语不太好的同学吧。在可以想见的未来,语音翻译的技术一定会阔步向前,但这并不意味着从现在开始就彻底不用学外语啦。“我认为这项技术不会取代学习一门语言的价值。”Vikram Dendi告诉时间线君,“如果我是个年轻人,喜欢上一个中国姑娘,我可不敢想象自己一辈子靠翻译技术来和她交流。”
嗯,无力反驳。